Như vậy sử dụng tích chập có những ưu điểm sau:
Giảm số lượng tham số: Ở ANNs truyền thống, các neural ở lớp trước sẽ kết nối tới tất cả các neural ở lớp sau (full connected) gây nên tình trạng quá nhiều tham số cần học. Đây là ngun nhân chính gây nên tình trạng overfiting cũng như làm tăng thời gian huấn luyện. Với việc sử dụng Conv trong đó cho phép chia sẻ trọng số liên kết (shared
22
weights), cũng như thay vì sử dụng full connected sẽ sử dụng local receptive fields giúp giảm tham số.
Các tham số trong quá trình sử dụng Conv hay giá trị của các filter – kernel sẽ được học trong quá trình huấn luyện. Như giới thiệu ở phần trên các thông tin này biểu thị thơng tin giúp rút trích ra được các đặc trưng như góc, cạnh, đóm màu trong ảnh … như vậy việc sử dụng Conv sẽ giúp xây dựng mơ hình tự học ra đặc trưng.
2.2.3 Lớp Pooling
Tầng pooling (hay còn gọi subsampling hoặc downsample) là một trong những thành phần tính tốn chính trong cấu trúc CNN. Xét về mặt toán học pooling thực chất là q trình tính tốn trên ma trận trong đó mục tiêu sau khi tính tốn là giảm kích thước ma trận nhưng vẫn làm nổi bật lên được đặc trưng có trong ma trận đầu vào. Trong CNN toán tử pooling được thực hiện độc lập trên mỗi kênh màu của ma trận ảnh đầu vào.
Có nhiều tốn tử pooling như Sum-Pooling, Max Pooling, L2 Pooling nhưng Max Pooling thường được sử dụng. Về mặt ý nghĩa thì Max Pooling xác định vị trí cho tín hiệu mạnh nhất khi áp dụng một loại filter. Điều này cũng tương tự như là một bộ lọc phát hiện ví trị đối tượng bằng filter trong bài tốn phát hiện đối tượng trong ảnh.
Về mặt lý thuyết với ma trận đầu vào có kích thước 𝑊1= 𝐻1* 𝐷1 và thực hiện toán tử pooling trên ma trận con của ma trận đầu vào có kích thước F*F với bước nhảy S pixcel thì ta được ma trận đầu ra 𝑊2*𝐻2*𝐷2 trong đó:
𝑊2 = ( 𝑊1– F)/S+1
𝐻2 = (𝐻1 – F)/S+1
𝐷2 = 𝐷1
23
(a)
(b)