2.6.1. Giới thiệu
Convolutional Neural Networks (CNN) hay mạng nơ rơn tích chập là là mô hình học sâu hàng đầu cho thị giác máy tính. Thị giác máy tính đã tr nên tốt đến mức n hiện đang đánh bại con người một số nhiệm vụ nhất định và CNN đ ng vai tr chính trong câu chuyện thành công này. CNN được s dụng để đánh giá đầu vào thông qua các tích chập. Đầu vào được tích hợp với một bộ lọc (filter). Sự tích chập này d n đến mạng để phát hiện các cạnh và các đặc trưng thấp các lớp sớm hơn nông hơn và các đặc trưng phức tạp các lớp sâu hơn của mạng. CNN được s dụng kết hợp với các lớp gộp (pooling layers) và chúng thường c các lớp được kết nối đầy đủ (fully connected layers)
cuối. Chạy lan truyền về phía trước như trong mạng nơ ron vanilla và giảm thiểu hàm loss thông qua truyền ngược để huấn luyện CNN. [1-2]
Phân loại hình ảnh là nhiệm vụ lấy hình ảnh đầu vào và xuất ra tên (mèo ch ..) hoặc xác suất của tên được miêu tả đúng nhất trong hình. Hình 2.24. cho thấy đối với con người k n ng nhận biết là một trong những k n ng chúng ta học được từ khi chúng ta được sinh ra và là một k n ng xuất hiện tự nhiên và dễ dàng khi trư ng thành. Thậm chí không cần suy ngh hai lần chúng ta c thể xác định nhanh ch ng và liền mạch môi trường chúng ta đang c ng như các đối tượng xung quanh chúng ta. Khi chúng ta nhìn thấy một hình ảnh hoặc ch khi chúng ta nhìn vào thế giới xung quanh chúng ta hầu hết chúng ta c thể mô tả ngay lập tức cảnh đ và đưa cho m i đối tượng một cái tên mà không hề nhận ra. Những kỹ n ng này c thể nhanh ch ng nhận ra các m u khái quát
h a từ kiến thức trước và thích nghi với các môi trường hình ảnh khác nhau là những kỹ n ng mà chúng ta không chia sẻ với các anh bạn máy m c của chúng ta.
Hình 2.24. Máy tính nhìn thấy một mảng pixel giá trị của một tấm ảnh
Khi một máy tính nhìn thấy một hình ảnh (lấy một hình ảnh làm đầu vào) n sẽ thấy một mảng các giá trị pixel. T y thuộc vào độ phân giải và kích thước của hình ảnh n sẽ thấy một dãy số 32 x 32 x 3 (Số 3 đề cập đến các giá trị RGB hay c 3 kênh). M i con số này được cho một giá trị từ 0 đến 255 mô tả cường độ pixel tại điểm đ . Những con số này nhìn thì vô ngh a đối với chúng ta khi thực hiện phân loại hình ảnh lại là đầu vào duy nhất mà máy tính c thể hiểu được. Ý tư ng là bạn cung cấp cho máy tính mảng số và n sẽ xuất ra các số mô tả xác suất tên hình ảnh của một tấm ảnh nhất định. Ví dụ : 0.8 là con ch 0.05 là con chim …
Những gì chúng tôi muốn máy tính làm là c thể phân biệt giữa tất cả các hình ảnh được đưa ra và tìm ra các đặc trưng độc nhất làm cho một con ch thành một con ch hoặc làm cho một con mèo thành một cozn mèo. Đây là quá trình diễn ra trong tiềm thức của chúng ta. Khi chúng ta nhìn vào hình ảnh của một con ch chúng ta c thể phân loại n như vậy là do bức ảnh c các đặc điểm nhận dạng như c lông hoặc 4 chân. Theo cách tương tự máy tính c thể thực hiện phân loại hình ảnh bằng cách tìm kiếm các đặc trưng cấp thấp như cạnh và đường cong sau đ xây dựng các khái niệm trừu tượng hơn thông qua một loạt các lớp tích chập. Đây là một tổng quan chung về những gì một CNN làm.