Computer vision là gì

     

Thị giác máy tính xách tay (Computer Vision) là trong những lĩnh vực hot tuyệt nhất của khoa học máy vi tính và nghiên cứu trí tuệ nhân tạo. Dù chúng vẫn không thể tuyên chiến đối đầu với sức mạnh thị giác của đôi mắt người, đã có rất nhiều ứng dụng hữu dụng được tạo nên khai thác tiềm năng của chúng.

Bạn đang xem: Computer vision là gì

Khi chúng ta nhìn vào hình ảnh sau đây, bạn sẽ thấy người, thiết bị thể và các tòa nhà. Nó mang về những cam kết ức về gần như trải nghiệm trong thừa khứ, những tình huống tương từ bạn chạm chán phải. Đám đông đang đối mặt cùng hướng với giơ smartphone lên, điều này cho mình biết rằng đây là một một số loại sự kiện. Người đứng ngay gần máy ảnh đang mang áo thun gợi ý về sự kiện rất có thể xảy ra. Khi các bạn nhìn vào các chi tiết nhỏ tuổi khác, bạn cũng có thể suy ra nhiều thông tin hơn từ hình ảnh.

*
Ảnh của Joshua J. Cotten

Nhưng đối với máy tính, hình ảnh này hệt như tất cả những hình hình ảnh khác, đó là một trong mảng các pixel, những giá trị số thay mặt cho những sắc độ của màu đỏ, xanh lá cây với xanh dương. Một một trong những thách thức mà các nhà khoa học máy vi tính phải vật dụng lộn từ trong thời hạn 1950s là tạo ra những máy bộ có thể đọc được hình ảnh và clip như con người. Lĩnh vực thị giác máy tính từ đó đã trở thành một một trong những lĩnh vực nghiên cứu và phân tích hot tốt nhất về khoa học laptop và trí tuệ nhân tạo.


*

Nhiều thập kỷ sau, bọn họ đã đạt được văn minh lớn trong việc tạo nên các phần mềm rất có thể hiểu và bộc lộ nội dung của tài liệu một giải pháp trực quan. Nhưng chúng ta cũng đã nhận ra rằng rất cần được đi xa tới mức nào trước khi hoàn toàn có thể hiểu với tái tạo 1 trong các những chức năng cơ bản của cỗ não bé người.

Sơ lược về lịch sử thị giác vật dụng tính

Năm 1966, Seymour Papert và Marvin Minsky, hai nhà đi đầu về kiến thức nhân tạo, đang khởi đụng một dự án mang thương hiệu “Summer Vision Project“, một nỗ lực kéo dài hai tháng và kéo theo 10 tín đồ để tạo thành một khối hệ thống máy tính rất có thể nhận dạng những vật thể vào ảnh.

Để hoàn thành nhiệm vụ, một chương trình laptop phải có tác dụng xác định pixel nào trực thuộc về đối tượng người sử dụng nào. Đây là 1 trong vấn đề mà khối hệ thống thị giác của nhỏ người, được cung ứng bởi kiến ​​thức rộng lớn của chúng ta về quả đât thực và hàng tỷ năm tiến hóa, rất có thể giải quyết một biện pháp dễ dàng. Nhưng so với máy tính, quả đât chỉ bao gồm các con số, đó là một trong nhiệm vụ đầy thách thức.

Vào thời gian của dự án này, phân nhánh thống trị nòng cốt của trí tuệ nhân tạo là symbollic AI, còn được gọi là AI dựa vào quy tắc (rule-based AI): những lập trình viên từ chỉ định những quy tắc nhằm phát hiện các đối tượng người dùng trong hình ảnh. Nhưng vấn đề là các vật thể trong hình ảnh có thể mở ra từ các góc khác nhau và trong tương đối nhiều điều kiện ánh sáng khác nhau. Đối tượng có thể xuất hiện nay trên một loạt những nền không giống nhau hoặc bị các đối tượng người dùng khác bịt khuất một phần. Mỗi kịch phiên bản này tạo thành các giá trị pixel khác nhau và thực tế không thể tạo ra quy tắc bằng tay thủ công cho từng loại một trong những chúng.

Hẳn nhiên, Summer Vision Project đang không đi xa và sở hữu lại kết quả khá hạn chế. Vài năm sau đó, vào năm 1979, nhà khoa học Nhật phiên bản Kunihiko Fukushima đã lời khuyên neocognitron , một khối hệ thống thị giác máy vi tính dựa trên phân tích khoa học thần ghê được tiến hành trên vỏ não về thị giác của nhỏ người. Mặc dù neocognitron của Fukushima tất yêu thực hiện ngẫu nhiên nhiệm vụ trực quan tinh vi nào, tuy vậy nó đang đặt nền tảng cho trong số những phát triển đặc trưng nhất trong lịch sử vẻ vang thị giác sản phẩm tính.

Cuộc phương pháp mạng học tập sâu – Deep Learning

Vào trong thời hạn 1980s, bên khoa học máy tính người Pháp Yan LeCun đã giới thiệu mạng thần ghê tích chập (convolutional neural network, CNN), một khối hệ thống AI lấy cảm xúc từ neocognitron của Fukushima. Một CNN bao hàm nhiều lớp tế bào thần khiếp nhân tạo, những thành phần toán học mô bỏng gần giống hoạt động vui chơi của các phiên bản sinh học của chúng.

*

Khi một CNN giải pháp xử lý một hình ảnh, từng lớp của chính nó sẽ trích xuất các đặc trưng rõ ràng từ các pixel. Lớp trước tiên phát hiện phần nhiều thứ vô cùng cơ bản, chẳng hạn như các cạnh dọc với ngang. Khi bạn di chuyển sâu hơn vào mạng thần kinh, những lớp sẽ phát hiện các đặc trưng phức hợp hơn, bao gồm các góc cùng hình dạng. Các lớp sau cuối của CNN phân phát hiện đông đảo thứ cụ thể như khuôn mặt, ô cửa và xe pháo hơi. Lớp áp sạc ra của CNN cung cấp một bảng những giá trị số biểu lộ xác suất cơ mà một đối tượng ví dụ được phát hiện trong ảnh.

Mạng thần ghê tích chập của LeCun rất tuyệt đối và cho thấy thêm rất nhiều hứa hẹn, nhưng bọn chúng bị cản trở vì một sự việc nghiêm trọng: Điều chỉnh và áp dụng chúng yên cầu một lượng lớn tài liệu và tài nguyên giám sát không có sẵn tại thời gian đó. CNN ở đầu cuối đã kiếm tìm thấy việc sử dụng thương mại trong một số lĩnh vực hạn chế như bank và thương mại dịch vụ bưu chính, vị trí chúng được sử dụng để xử lý những chữ số và chữ viết tay bên trên phong bì và các tờ séc. Nhưng trong nghành nhận diện đối tượng, chúng ta đã thất bại và nhường chỗ đến các kỹ thuật học tập máy khác, như ‘support vector machines’ với ‘random forests’.

Xem thêm: Giải Bài 1 Trang 171 Sgk Toán 11 Sgk Tập 1 Trang 171 Chính Xác Nhất

Vào năm 2012, các nhà phân tích AI từ bỏ Toronto đã cải cách và phát triển AlexNet, một mạng thần ghê tích chập chiếm ưu nạm trong cuộc thi nhận hình dạng ảnh ImageNet nổi tiếng. Chiến chiến hạ của AlexNet cho thấy với sự tăng thêm sẵn tất cả của tài liệu và tài nguyên điện toán, có lẽ đã mang lại lúc phải trở lại với CNN. Sự khiếu nại này vẫn làm phục hồi sự lưu ý đến các CNN và tạo ra một cuộc bí quyết mạng trong Deep Learning, phân nhánh của Machine Learning liên quan đến việc sử dụng những mạng thần kinh tự tạo nhiều lớp.

Nhờ những văn minh trong mạng thần khiếp tích chập với học sâu, tự đó, nghành nghề dịch vụ thị giác máy tính đã trở nên tân tiến nhờ những bước nhảy vọt.

Ứng dụng của Thị giác thiết bị tính

Nhiều ứng dụng bạn sử dụng hàng ngày sử dụng công nghệ thị giác máy tính. Google áp dụng nó sẽ giúp đỡ bạn search kiếm các đối tượng và cảnh thiết bị như là, “con chó” hoặc “hoàng hôn” vào một thư viện hình ảnh của bạn. Các công ty khác thực hiện thị giác máy tính xách tay để giúp cải thiện hình ảnh. Một lấy một ví dụ là Adobe Lightroom CC, áp dụng thuật toán Machine Learning để bức tốc chi máu của hình hình ảnh được phóng to. Cơ chế phóng to (zoom in) truyền thống lâu đời sử dụng các kỹ thuật nội suy nhằm tô màu sắc các quanh vùng được phóng to, nhưng lại Lightroom sử dụng thị giác máy tính xách tay để phát hiện nay các đối tượng người tiêu dùng trong hình ảnh và làm sắc nét các đặc trưng của chúng sau thời điểm được phóng to.

Một nghành nghề đã đạt được tân tiến rõ rệt dựa vào những hiện đại trong thị giác laptop là dấn diện khuôn mặt. Apple sử dụng thuật toán nhấn dạng khuôn phương diện để mở khóa iPhone. Facebook áp dụng nhận dạng khuôn mặt để phát hiện người dùng trong hình ảnh bạn đăng tải mạng (mặc mặc dù không phải ai ai cũng thích điều này). Tại Trung Quốc, các nhà kinh doanh nhỏ hiện cung cấp technology thanh toán qua nhấn diện khuôn mặt, giúp người tiêu dùng không rất cần được tiếp cận với ví tiền của họ.

Những văn minh trong dấn dạng khuôn phương diện cũng khiến ra lo ngại cho những người dân ủng hộ quyền riêng tư, nhất là khi những cơ quan chính phủ nước nhà ở các nước nhà khác nhau đang sử dụng nó để đo lường công dân của họ.

Chuyển lịch sự các nghành chuyên biệt hơn, thị giác đồ vật tính nhanh chóng trở thành một công cụ không thể không có trong y học. Các thuật toán học sâu đang cho biết độ chính xác tuyệt hảo trong câu hỏi phân tích hình hình ảnh y tế. Các bệnh viện và trường đại học đang áp dụng thị giác đồ vật tính để tham gia đoán những loại ung thư khác nhau bằng phương pháp kiểm tra tia X cùng quét MRI.

Xe từ bỏ lái cũng phụ thuộc rất những vào thị giác máy vi tính để phát âm được môi trường xung quanh xung quanh. Các thuật toán học tập sâu phân tích các nguồn cấp cho dữ liệu video clip từ các camera được cài để trên xe và phát hiện tại người, xe pháo hơi, mặt đường và các vật thể khác sẽ giúp đỡ chiếc xe dịch rời trong môi trường xung quanh của nó.

Những hạn chế của Thị giác đồ vật tính

Các khối hệ thống thị giác máy tính hiện tại thực hiện giỏi việc phân nhiều loại hình ảnh và bản địa hóa các đối tượng người tiêu dùng trong ảnh, khi bọn chúng được đào tạo vừa đủ với những ví dụ. Nhưng ở chỗ cốt lõi của chúng, những thuật toán học tập sâu cung ứng sức mạnh cho các ứng dụng thị giác lắp thêm tính chính là việc đối chiếu các mẫu pixel. Chúng không hiểu biết những gì đang ra mắt trong các hình ảnh.

Việc hiểu quan hệ giữa fan và đối tượng người dùng trong dữ liệu trực quan yên cầu phải có các cảm dấn và các kiến ​​thức cơ phiên bản chung. Đó là lý do tại sao các thuật toán thị giác máy tính được sử dụng bởi những mạng làng mạc hội rất có thể phát hiện những nội dung khỏa thân, tuy vậy thường phải khó khăn để biệt lập sự khác hoàn toàn giữa ảnh khoả thân bình an (ví dụ cho nhỏ bú hoặc nghệ thuật và thẩm mỹ Phục hưng) và nội dung bị cấm như câu chữ khiêu dâm. Tương tự như vậy, thật cực nhọc để các thuật toán này tạo nên sự biệt lập giữa tuyên truyền rất đoan và một phim tư liệu về các nhóm rất đoan!

Con người hoàn toàn có thể khai thác kiến ​​thức rộng lớn về ráng giới của bản thân để che đầy đa số lỗ hổng lúc họ đối mặt với một tình huống mà người ta chưa từng thấy trước đây. Không y hệt như con người, các thuật toán thị giác máy vi tính cần bắt buộc được hướng dẫn kỹ lưỡng về những loại đối tượng người dùng mà chúng bắt buộc phát hiện. Ngay khi môi trường xung quanh của bọn chúng chứa phần lớn thứ đi chệch khỏi các ví dụ đã có được đào tạo, chúng ban đầu hành cồn theo những cách phi lý, chẳng hạn như không phát hiện ra những phương tiện cần thiết dừng đỗ ở các vị trí khác thường.

Hiện tại, chiến thuật duy độc nhất để xử lý những vấn đề này là đào tạo những thuật toán AI trên với càng ngày càng nhiều các ví dụ, với hy vọng lượng dữ liệu bổ sung sẽ bao gồm mọi tình huống mà AI sẽ gặp gỡ phải. Nhưng những kinh nghiệm tay nghề cho thấy, nếu không có sự thừa nhận thức theo tình huống, sẽ luôn luôn có hầu như góc khuất trong số những tình huống cá biệt làm náo loạn thuật toán AI.

Xem thêm: Thụ Tinh Ngoài: Đặc Điểm, Ưu Thế Của Thụ Tinh Trong Với Thụ Tinh Ngoài

Nhiều chuyên gia tin rằng họ sẽ chỉ đạt mức được thị giác máy tính xách tay thực sự khi họ tạo ra trí logic chung nhân tạo (artificial general intelligence), AI có thể giải quyết những vấn đề theo cách giống như như con người. Như bên khoa học laptop và nhà phân tích AI Melanie Mitchell đang nói trong cuốn sách Trí xuất sắc nhân tạo: lý giải về bốn duy bé người: “Dường như trí hoàn hảo thị giác không dễ bóc tách rời ngoài phần sót lại của trí thông minh, nhất là kiến ​​thức chung, sự trừu tượng và năng lực ngôn ngữ. Cung cấp đó, hoàn toàn có thể các con kiến ​​thức cần thiết cho trí hoàn hảo thị giác của con tín đồ không thể học tập được từ hàng nghìn bức hình ảnh được sở hữu xuống trường đoản cú web, nhưng cần được thưởng thức theo một giải pháp nào kia trong nhân loại thực”.