CHƯƠNG 2 TỔNG QUAN VỀ HỌC MÁY, HỌC SÂU
2.4. Mạng nơ-ron tích chập (CNN)
2.4.1. Lớp tích chập (Convolutional Layers)
Để tạo nên một mạng CNN thì khơng thể khối Convolutional Layer, trong Convolutional đầu tiên, các neural không được kết nối với tất cả các pixel trong hình ảnh đầu vào. Trong mỗi lần quét, mỗi neuron của lớp Convolutional thứ hai chỉ được kết nối với các neuron nằm trong hình chữ nhật nhỏ ở lớp Convolutional đầu tiên. Kiến trúc này cho phép mạng tập trung vào những feature “small low-level” ở những Layer đầu tiên và sau đó tập hợp chúng lại thành các feature “larger higher-level” ở những lớp tiếp theo. Cấu trúc phân lớp này phổ biến trong những hình ảnh thực tế, đó là lý do để CNN hoạt động hiệu quả trong việc nhận dạng hình ảnh.
12 Yann LeCun, Léon Bottou, YoShua Bengio and Patrick Haffner, "Gradient-Based Learning Applied to Document Recognition"
Trang | 36
Hình 2.9: Các lớp Convolutional và các Receptive field trong hình chữ nhật.
Các mạng nơ-ron nhiều lớp (multilayer-NN) thơng thường trải qua một quá trình làm phẳng hình ảnh đầu vào thành 1 chiều (1D) trước khi đưa chúng vào NN. Trong mạng CNN, mỗi lớp được thể hiện dưới dạng hình ảnh 2 chiều (2D), điều này tạo nên sự tương đồng giữa các nơ-ron và đầu vào tương ứng của chúng.
Mỗi một nơ-ron nằm ở vị trí ( 𝑖 , 𝑗 ) của một lớp xác định được kết nối với các nơ- ron ở lớp trước đó nằm trong vị trí từ hàng 𝑖 đến 𝑖 + 𝑓ℎ − 1 , từ cột j đến 𝑗 + 𝑓𝑤 − 1
trong đó, 𝑓ℎ, 𝑓𝑤 là chiều rộng và chiều dài của trường tiếp nhận (Receptive field) (xem hình 3). Để các lớp có cùng kích thước với các lớp trước đó người ta thêm các số 0 xung quanh ảnh đầu vào (xem Hình 2.10), được gọi là “Zero-padding”
Trang | 37 Có thể kết nối giữa các lớp đầu vào lớn với một lớp nhỏ hơn bằng cách thay đổi bước của trường tiếp nhận (Receptive fields) (xem Hình 2.11), điều này giảm độ phức tạp và tính tốn cho CNN, khi thay đổi bước trượt các trường tiếp nhận được gọi là Stride, trong Hình 4, lớp ảnh đầu vào có kích thước (5x7) đã cộng với các Zero-padding được kết nối với lớp sau có kích thước (3x4) sử dụng các trường tiếp nhận (Receptive fields) có kích thước (3x3) và với Stride = 2, Stride có thể bằng nhau khi trước theo chiều dài cũng như chiều rộng, hoặc có thể khác nhau tùy vào người sử dụng. Một nơ- ron nằm ở vị trí (𝑖, 𝑗) ở lớp phía trên được kết nối với các nơ-ron ở lớp phía dưới có vị trí từ 𝑖 × 𝑠ℎ đến 𝑖 × 𝑠ℎ + 𝑓ℎ − 1 và 𝑗 × 𝑠𝑤 đến 𝑗 × 𝑠𝑤 + 𝑓𝑤− 1 trong đó𝑠ℎ𝑣à 𝑠𝑤 là các bước stride ngang và dọc.
Trang | 38