Kể từ những năm 1950, những ngày đầu của AI, các nhà nghiên cứu đã phải vật lộn để tạo ra một hệ thống có thể hiểu được dữ liệu trực quan. Trong những năm tiếp theo, lĩnh vực này được biết đến với tên gọi Computer Vision. Vào năm 2012, thị giác máy tính đã có một bước nhảy vọt khi một nhóm các nhà nghiên cứu từ Đại học Toronto phát triển một mô hình AI vượt qua các thuật toán nhận dạng hình ảnh tốt nhất và điều đó cũng mang lại lợi nhuận lớn.
Hình 2.12 Ảnh phân tích dữ liệu của chim
Hệ thống AI, được biết đến với tên gọi AlexNet (được đặt theo tên người tạo chính của nó, Alex Krizhevsky), đã giành chiến thắng trong cuộc thi thị giác máy tính ImageNet năm 2012 với độ chính xác 85% đáng kinh ngạc. Người về nhì chỉ đạt 74 phần trăm khiêm tốn trong bài kiểm tra.
CNN lần đầu tiên được phát triển và sử dụng vào khoảng những năm 1980. Điều mà CNN có thể làm được nhiều nhất vào thời điểm đó là nhận dạng các chữ số viết tay. Nó chủ yếu được sử dụng trong các lĩnh vực bưu chính để đọc mã zip, mã pin, v.v. Điều quan trọng cần nhớ đối với bất kỳ mô hình học sâu nào là nó đòi hỏi một lượng lớn dữ liệu để đào tạo và cũng đòi hỏi nhiều tài nguyên máy tính. Đây là một nhược điểm lớn đối với CNN vào thời kỳ đó và do đó CNN chỉ giới hạn trong lĩnh vực bưu chính và nó không thể bước vào thế giới máy học.
CNN là tên viết tắt của từ Convolutional Neural Network (hay còn gọi là CNNs_mang nơ ron tích chập). Đây là một trong những mô hình Deep Learning vô cùng tiên tiến. CNN sẽ cho phép bạn xây dựng các hệ thống thông minh với độ chính xác vô cùng cao. Tên "mạng nơ-ron tích chập" chỉ ra rằng mạng sử dụng một phép toán học được gọi là tích chập. CNN được dùng trong trong nhiều bài toán như nhân dạng ảnh, phân tích video.
Trong học sâu, mạng nơ-ron tích tụ (CNN /ConvNet) là một lớp của mạng nơ- ron sâu, được áp dụng phổ biến nhất để phân tích hình ảnh trực quan. Bây giờ khi chúng ta nghĩ về mạng nơ-ron, chúng ta nghĩ đến phép nhân ma trận nhưng đó không phải là trường hợp của ConvNet. Nó sử dụng một kỹ thuật đặc biệt gọi là Convolution. Bây giờ trong toán học, tích chập là một phép toán trên hai hàm tạo ra một hàm thứ ba biểu thị cách hình dạng của một hàm được sửa đổi bởi hàm kia.