2 Cơ sở lý thuyết
2.3 Các mạng CNN nổi tiếng
2.2.6 Pooling Layer
Lớp này sử dụng một cửa sổ trượt qua toàn bộ ảnh dữ liệu, mỗi lần trược theo một bước stride cho trước. Khác với lớp convolutional layer, lớp pooling layer không tính tích chập mà lại lấy mẫu mỗi khi trượt. Khi cửa sổ trượt lên ảnh, chỉ có một giá trị được xem là giá trị đại diện của thông tin tại vùng đó được giữ lại. Các phương thức lấy giá trị phổ biến trong pooling layer là:
• MaxPooling (lấy giá trị lớn nhất). • MinPooling (lấy giá trị nhỏ nhất). • AveragePooling (lấy giá trị trung bình).
Ví dụ: một bức ảnh có kích thước 32x32, lớp pooling sử dụng có filter là 2x2,
stride là 2, phương pháp lấy giá trị là MaxPooling. Khi đó filter sẽ lần lượt trược qua tất cả với mỗi lần duyệt có giá trị lớn nhất trong 4 giá trị của vùng cửa sổ 2x2. Như vậy sau lớp pooling layer, ảnh sẽ giảm kích thước xuống còn 16x16.
Hình 2.15: Mô phỏng tính toán của Pooling layer với MaxPooling
Lớp pooling layer có vai trò giảm kích thước dữ liệu nhưng vẫn đảm bảo giữ được các đặc trưng cần thiết cho việc nhận diện. Việc giảm kích thước dữ liệu sẽ giảm được các tham số, tăng hiệu quả tính toán đồng thời giảm được hiện tượng overfiting.
2.3 Các mạng CNN nổi tiếng
Kể từ khi mô hình CNN thành công đầu tiên vào cuối những năm 90 đến nay, có rất nhiều mô hình CNN đã được công bố và ghi nhận. Dưới đây là các mạng CNN nổi tiếng mà mọi người thường dùng hoặc được nhiều người biết đến:
2.3. Các mạng CNN nổi tiếng
1. LetNet: Đây là mô hình CNN thành công đầu tiên, được phá triển bởi 2
nhà nghiên cứu Yann Lecun và Leon Bottou trong việc nhận việc chữ số viết tay trong văn bản.
2. AlexNet: Được phát triển bởi Alex Krizhevsky, Ilya Sutskever và Geof
Hinton. Được giới thiệu vào năm 2012 và được coi là mạng neuron đầu tiên phổ biến rộng rãi của CNN.
3. GoogLeNet: là mạng CNN tốt nhất trong năm 2014 được phát triển bởi
Szegedy từ Google. Với một số thay đổi như giảm thiểu tham số trong AlexNet, sử dụng AveragePooling thay cho Fully-connected layer
4. VGGNet: Là mạng CNN tốt nhất trong năm 2015, được phát triển bởi
Karen Simonyan, Andrew Zisserman. Sử dụng filter 3x3 và pooling 2x2 từ đầu đến cuối mạgn.
5. ResNet: Residual Network được giới thiệu đến công chúng vào năm 2015 và
giành được vị trí thứ 1 trong cuộc thi ILSVRC 2015 với tỷ lệ lỗi chỉ 3.57%. Nó được He Kaiming, Sun Jian và những cộng sự khác tại Microsoft Research Asia đè xuất.
6. Efficientnet: EfficientNet là một mạng dựa trên việc tìm kiếm tối ưu trên không gian các tham số theo độ sâu, độ rộng và độ phân giải. Được phát triển bởi Google với 8 model từ B0 đến B7, với mỗi model sẽ có số lớp khác nhau và độ chính xác khác nhau.
7. Yolo: You only look once (YOLO) là một mô hình CNN để phát hiện và phân loại đối tương có nhiều ưu điểm nổi trội hơn nhiều so với những mô hình cũ. YOLO được biết đến là một trong những thuật toán nhanh nhất, nó có thể đạt tốc độ gần như real time mà độ chính xác không quá giảm so với nhiều model khác.
2.3. Các mạng CNN nổi tiếng