Được phát triển bởi Alex Krizhevsky năm 2012 trong cuộc thi ImageNet 2012. Phá vỡ lối mòn sử dụng các đặc trưng thủ cơng từ các thuật tốn truyền thống như HOG, SIFT, SURF thay cho các đặc trưng được huấn luyện trong các tác vụ học có giám sát của thị giác máy tính. Với những cải tiến so với mơ hình mơ hình kiến trúc LeNet-5:
+ Tăng cường kích thước mạng sâu hơn. + Đầu vào có độ phân giải lớn hơn.
+ Sử dụng local normalization để chuẩn hóa các layer giúp cho quá trình hội tụ nhanh hơn.
Ngoài ra mạng cịn cải tiến trong quá trình optimizer như: + Sử dụng hàm kích hoạt ReLU (Rectified Linear Unit).
+ Sử dụng dropout layer giúp giảm số lượng liên kết nơ-ron và kiểm soát overfitting.
+ Qua các layers, kích thước output giảm dần nhưng độ sâu tăng dần qua từng kernel.
Cho tới thời điểm hiện tại, kiến trúc mạng AlexNet [22] vẫn còn đang được sử dụng phổ biến và rộng rãi. Mạng AlexNet có năm lớp chập và ba lớp kết nối đầy đủ. Cấu trúc trong AlexNet được chia thành hai khối. Nguyên nhân vì tác giả đã sử dụng hai GPU để huấn luyện dữ liệu song song. Mạng này được sử dụng trong phân loại đối tượng quy mơ lớn. Lớp đầu ra có một nghìn nơ-ron. Đó là bởi vì kiến trúc ban đầu được thiết kế để phân loại một nghìn nhãn. Thơng thường, những người áp dụng kiến trúc mạng nơ-ron AlexNet sẽ thay thế lớp cuối cùng, phụ thuộc vào mục đích của họ.
Tác giả của mạng này đã làm nhiều thử nghiệm để có thể ra được mơ hình này có kết quả tốt nhất. Vì vậy, hiệu suất của cấu trúc này rất ổn định và mạng này được sử dụng rộng rãi trong nhiều ứng dụng.
Kiến trúc tương đối giống với LeNet-5. Khác biệt ở điểm mạng này được thiết kế lớn hơn, rộng hơn lượng tham số: 60.000.000 (gấp 1000 lần LeNet-5 ) Kiến trúc như hình dưới đây:
Hình 2.15: Mơ hình Kiến trúc AlexNet