Cũng giống như các mạng Nơ-ron khác, một mạng Nơ-ron tích chập bao gồm một lớp ngõ vào (Input), một lớp ngõ ra (Classification) và rất nhiều lớp ẩn ở giữa (Feature Learning).
gọn lại thành một kích thước nhỏ hơn. Fully-connected là lớp cuối cùng trong kiến trúc mạng với nhiệm vụ phân loại kết quả đầu ra. Một cách tổng qt, mơ hình mạng tích chập được biểu diễn như bên dưới:
[[CONV RELU] *N POOL?] *M [FC RELU] *K FC
Trong đó: “*” biểu diễn sự lặp lại, và “POOL?” là cách chúng ta tùy chọn cho lớp Pooling. Tuy nhiên N ≥ 0 (thường N ≤ 3), M ≥ 0, K ≥ 0 (thường K < 3). Ví dụ như:
INPUT FC: một bộ phân loại tuyến tính với N = M = K = 0.
INPUT CONV RELU FC.
INPUT [CONV RELU POOL]*2 FC RELU FC. Ở đây chúng ta thấy rằng có một lớp CONV duy nhất giữa mỗi lớp Pooling.
INPUT [CONV RELU CONV RELU POOL]*3 [FC RELU]*2 FC. Đây là kiến trúc phổ biến cho các mạng lớn hơn và sâu hơn. Sau đây chúng ta sẽ đi vào chi tiết các lớp trong một mạng Nơron tích chập.
2.2.2 Convolution (tích chập)
Theo tốn học, tích chập là phép tốn tuyến tính, cho ra kết quả là một hàm bằng việc tính tốn dựa trên hai hàm đã có (f và g). Tích chập của hàm số ƒ và g được viết là ƒ∗g, là 1 phép biến đổi tích phân đặc biệt:
(𝑓 ∗ 𝑔)(𝑡) = ∫ 𝑓(𝜏)𝑔(𝑡 − 𝜏)𝑑𝜏 ∞ −∞ (13) = ∫ 𝑓(𝑡 − 𝜏)𝑔(𝜏)𝑑𝜏 ∞ −∞ (14)
Tích chập được sử dụng đầu tiên trong xử lý tín hiệu số (Signal processing). Nhờ vào nguyên lý biến đổi thông tin, các nhà khoa học đã áp dụng kĩ thuật này vào xử lý ảnh và video số.
Để dễ hình dung, ta có thể xem tích chập như một cửa sổ trượt (sliding window) áp đặt lên một ma trận. Bạn có thể theo dõi cơ chế của tích chập qua hình minh họa 2.16: