b. Giai đoạn nhận dạng:
2.3.3.3. Hàm kích hoạt
Trong mơ hình nơ ron truyền thống, các mạng thường sử dụng hàm sigmoid cho hàm kích hoạt. Tuy nhiên Krizhevsky [21] đã thử với hàm kích hoạt RELU. Sau khi so sánh hiệu quả của hàm kích hoạt RELU và hàm kích hoạt sigmoid trong CNNs. Họ thấy rằng mơ hình với RELU cần ít thời gian lặp hơn trong khi đạt tỷ lệ lỗi khi huấn luyện tương đương. Chúng ta có thể thấy kết quả trong hình sau:
Hình 2.19: So sánh giữa ReLU và Sigmoid.
Như hình trên, đường liền nét là mơ hình sử dụng RELU và đường đứt nét là sử dụng hàm Sigmoid. Có thể dễ dàng thấy rằng, RELU cần ít vịng lặp hơn để đạt tỉ lệ lỗi chấp nhận được. Do đó, ngày nay đa số các mơ hình CNN gần đây sử dụng RELU để làm hàm kích hoạt.
2.3.3.4. Tầng gộp
Tầng gộp sẽ giảm kích cỡ của hình ảnh ngay sau khi thực hiện tích chập, giúp giữ lại các đặc điểm, tính chất nổi bật nhất của ảnh. Điều này cho phép giảm mức độ tính tốn khi hình ảnh có kích thước q lớn, đồng thời khơng làm mất đi các đặc điểm quan trọng của ảnh.
Tuy đã sử dụng các mạng được kết nối cục bộ và chia sẻ tham số, tuy nhiên số lượng tham số trong mang nơ ron vẫn là quá lớn. So với một tập dữ liệu tương đối nhỏ, nó có thể gây ra tình trạng q khớp (overfitting). Vì vậy, mạng nơ ron nhân tạo thường chèn các tầng gộp vào mạng. Tầng gộp xử lý để giảm dần số lượng tham số nhằm cải thiện thời gian tính tốn trong mạng nơ ron. Tầng gộp áp dụng lấy mẫu xuống cho tầng trước bằng cách sử dụng hàm max. Tầng gộp hoạt động độc lập trên mỗi tầng trước đó. Ngồi ra, có thể đặt lượng pixel khi chúng ta di chuyển cửa sổ trượt hoặc bước nhảy, như làm với tầng tích chập. Ví dụ, trong hình sau:
Hình 2.20: Ví dụ minh họa đơn giản về tầng gộp
Ở ví dụ trên, kích thước cửa sổ trượt là 2 x 2 và bước nhảy mỗi lần trượt là 2. Tại mỗi cửa sổ, hàm max sẽ lấy giá trị tối đa để đại diện cho giá trị của tầng tiếp theo. Có hai loại tầng gộp: Nếu kích thước cửa sổ trượt bằng bước nhảy, đó là gộp chung (traditional pooling). Nếu kích thước cửa sổ trượt lớn hơn bước nhảy, đó là gộp nhóm (overlapping pooling). Trong thực tế, các mạng nơ ron thường sử dụng kích thước cửa sổ 2 x 2 cùng kích thước bước nhảy là 2 trong gộp chung và sử dụng kích thước cửa sổ 3 x 3 cùng kích thước bước nhảy là 2 trong gộp nhóm, vì nếu tăng kích cỡ cửa sổ sẽ rất dễ làm mất các đặc tính của dữ liệu.
Ngồi việc gộp sử dụng hàm max, người ta có thể sử dụng các hàm khác. Ví dụ người ta có thể sử dụng hàm tính trung bình của cửa sổ trượt để tính tốn giá trị
cho tầng tiếp theo, được gọi là gộp trung bình.