CHƯƠNG 2: MẠNG NƠ- RON TÍCH CHẬP
2.5 Một số mạng CNN
LeNet-5, phát triển bởi Yann LeCun và cộng sự vào năm 1998, là một trong những mạng nơ-ron tích chập (CNN) đầu tiên được áp dụng thành công trong nhận dạng chữ số viết tay trên bộ dữ liệu MNIST (kích thước 28x28). Đây là mô hình tiên phong trong việc sử dụng các lớp tích chập để học tự động đặc trưng từ dữ liệu hình ảnh, thay thế các phương pháp truyền thống dựa trên mạng nơ-ron truyền thẳng (MLP) và lớp softmax.
LeNet-5 nổi bật với hai cải tiến chính:
1. Học các đặc trưng cục bộ bằng các lớp Convolution và Pooling, giúp mô hình nhận diện chi tiết quan trọng trong ảnh.
2. Parameter sharing (chia sẻ tham số), tức là áp dụng cùng một kernel cho toàn bộ ảnh, giảm số lượng tham số cần học mà vẫn đảm bảo khả năng học hiệu quả.
Cấu trúc LeNet-5 bao gồm các module cơ bản, mỗi module gồm lớp Convolution, hàm phi tuyến (Sigmoid), và lớp Pooling (Average Pooling). Sau hai module, các đặc trưng được
làm phẳng (Flatten) và đưa qua các lớp Fully Connected (FC) để tổng hợp đặc trưng và phân loại. Cách tiếp cận này không chỉ hiệu quả mà còn đặt nền móng cho các mô hình hiện đại như AlexNet, VGG, GoogLeNet, và ResNet.
Ban đầu, do hạn chế về phần cứng và dữ liệu, LeNet-5 chưa thể vượt qua các mô hình truyền thống như SVM trên nhiều bài toán. Tuy nhiên, mô hình này đã chứng minh sức mạnh của việc tự động trích xuất đặc trưng từ dữ liệu và được ứng dụng trong nhận dạng đối tượng, phát hiện khuôn mặt, phân tích hình ảnh y tế, và xe tự hành. Nguyên lý trích xuất đặc trưng cục bộ và học tổng hợp của LeNet-5 vẫn là nền tảng quan trọng cho các mô hình học sâu hiện đại.
2.5.2 Alexnet.
AlexNet, được phát triển bởi Alex Krizhevsky, Ilya Sutskever và Geoffrey Hinton, là một mạng nơ-ron tích chập (CNN) đột phá, ra mắt năm 2012 và giành chiến thắng tại ImageNet Challenge. AlexNet gồm 8 lớp chính: 5 lớp tích chập để trích xuất đặc trưng và 3 lớp kết nối đầy đủ để phân loại. Mạng sử dụng hàm kích hoạt ReLU để tăng tốc huấn luyện, khắc phục gradient vanishing, và áp dụng Dropout để giảm overfitting.
Các lớp pooling, đặc biệt là Max Pooling, được tích hợp để giảm kích thước không gian và số tham số. AlexNet nổi bật với việc sử dụng GPU, chia mô hình huấn luyện song song trên hai GPU, xử lý khoảng 60 triệu tham số và áp dụng tăng cường dữ liệu để cải thiện hiệu suất.
Mạng sử dụng stride lớn và kernel lớn ở lớp đầu để học đặc trưng thô, kernel nhỏ ở lớp sau để trích xuất chi tiết hơn, cùng Softmax để phân loại đầu ra. Những cải tiến này đã đánh dấu bước ngoặt lớn trong học sâu và thị giác máy tính.
Thành công của AlexNet trong cuộc thi ILSVRC 2012, với độ lỗi top-5 chỉ 15,3%, đã đánh dấu một bước ngoặt lớn trong lĩnh vực thị giác máy tính và học sâu. Mô hình này không chỉ chứng minh hiệu quả vượt trội so với các phương pháp truyền thống mà còn đặt nền móng cho sự phát triển của các mạng nơ-ron sâu hiện đại như VGGNet, ResNet và Inception. Với
khả năng học và trích xuất các đặc trưng phức tạp từ dữ liệu lớn, AlexNet đã trở thành một biểu tượng cho sự phát triển vượt bậc của trí tuệ nhân tạo trong thập kỷ qua.
2.5.3 VGG.
Mạng VGG (Visual Geometry Group) là một trong những kiến trúc mạng nơ-ron sâu nổi bật, được phát triển bởi nhóm nghiên cứu tại Đại học Oxford, và đã đạt kết quả ấn tượng trên tập dữ liệu ImageNet. Điểm đặc biệt của VGG nằm ở thiết kế đơn giản nhưng hiệu quả, với cấu trúc đồng nhất dựa trên các lớp chập (convolutional layers) có kích thước kernel nhỏ 3x3, stride=1, padding=1 để giữ nguyên kích thước dữ liệu. Sau mỗi cụm lớp chập là một lớp pooling (2x2, stride=2) để giảm chiều dữ liệu và giữ lại các đặc trưng quan trọng. Cuối cùng, các lớp fully connected (FC) và hàm kích hoạt softmax được sử dụng để phân loại.
Hai phiên bản phổ biến nhất là VGG-16 và VGG-19, với lần lượt 16 và 19 lớp, bao gồm các lớp chập và fully connected. Kiến trúc VGG nổi bật nhờ khả năng học các đặc trưng mạnh mẽ, ngay cả với các đặc trưng phức tạp ở ảnh đầu vào, mà không tăng quá nhiều tham số nhờ sử dụng kernel nhỏ. Điều này giúp mạng đạt hiệu quả cao trong các bài toán như phân loại ảnh, nhận diện đối tượng, và phân đoạn hình ảnh.
Tuy nhiên, mạng VGG cũng có nhược điểm, bao gồm số lượng tham số lớn, yêu cầu tài nguyên tính toán mạnh, và dễ bị overfitting nếu thiếu dữ liệu. Quá trình huấn luyện mạng cũng mất nhiều thời gian do kích thước lớn của mô hình. Dẫu vậy, VGG vẫn được ứng dụng rộng rãi trong nhiều lĩnh vực nhờ vào tính đơn giản, dễ triển khai và hiệu quả. Mặc dù các mô hình hiện đại hơn như ResNet hay Inception đã khắc phục những hạn chế của VGG, kiến trúc này vẫn đóng vai trò quan trọng trong nghiên cứu và thực tiễn, đồng thời là một cột mốc trong sự phát triển của học sâu.