5. Cấu trúc của luận văn:
2.6 Một số kiến trúc mạng CNN nổi tiếng [6]
- LeNet : LeNet là một trong những mạng CNN lâu đời nổi tiếng nhất đƣợc Yann LeCUn phát triển vào những năm 1998s. Cấu trúc của LeNet gồm: 2 lớp (Convolution + maxpooling) và 2 lớp fully connected và output là softmax layer.
- AlexNet: AlexNet là một mạng CNN đã dành chiến thắng trong cuộc thi ImageNet LSVRC-2012 năm 2012. AlexNet là một mạng CNN với một số lƣợng parameter rất lớn (60 triệu), kiến trúc của Alexnet gồm 5 lớp convolution và 3 lớp fully connection. Hàm kích hoạt Relu đƣợc sử dụng sau mỗi convolution và fully connection.
- VGG: Sau AlexNet thì VGG ra đời với một số cải thiện hơn,VGG cho tỉ lệ lỗi thấp hơn AlexNet trong ImageNet Large Scale Visual Recognition Challenge (ILSVRC) năm 2014. VGG có 2 phiên bản là VGG16 và VGG19. Kiến trúc của VGG16 bao gồm 16 lớp: 13 lớp Conv (2 lớp conv-conv,3 lớp conv-conv-conv) đều có kernel 3x3, sau mỗi lớp Conv là maxpooling downsize xuống 0.5, và 3 lớp fully connection. VGG19 tƣơng tự nhƣ VGG16 nhƣng có thêm 3 lớp convolution ở 3 lớp conv cuối.
- GoogleNet: Năm 2014, Google công bố một CNN do nhóm nghiên cứu của h phát triển có tên là GoogleNet. GoogleNet gồm 22 lớp, khởi đầu vẫn là những lớp convolution đơn giản, tiếp theo là những block của Inception module với maxpooling theo sau mỗi block, nó sử dụng 9 Inception module trên toàn bộ và không sử dụng fully connection layer mà thay vào đó là average pooling làm giảm thiểu đƣợc rất nhiều số lƣợng tham số.
-ResNet: ResNet đƣợc phát triển bởi Microsoft năm 2015. ResNet thắng tại ImageNet ILSVRC competition 2015 với tỉ lệ lỗi 3.57%, ResNet có cấu trúc gần giống VGG với nhiều lớp làm cho mô hình sâu hơn. ResNet có kiến trúc gồm nhiều residual block, y tƣởng của residual block là feed foward đầu vào x qua một số layer conv-max-conv, ta thu đƣợc đầu ra F(x) sau đó thêm x vào đầu ra H(x) =F(x) + x