8 Tổng kết
2.7 Batch normalization Nguồn [10]
BatchNorm thực hiện chuẩn hóa dữ liệu bằng cách lấy giá trị ban đầu trừ đi giá trị trung bình rồi chia cho độ lệnh chuẩn (có thể thêm một hằng số epsilon để tránh việc phải chia cho 0). Cuối cùng, BatchNorm tối ưu hệ số scale và shift bên trong quá trình đào tạo nhằm đưa các dữ liệu kiểm thử về cùng một phân phối để quá trình suy luận tốt hơn. Lưu ý, trong quá trình đánh giá mô hình sẽ không cật nhật giá trị scale và shift. Chi tiết được thể hiện trong Hình 2.7.
Ngoài ra, còn có một số cách chuẩn hóa khác như Layer Normalization, Instance Normal- ization, Group Normalization,...
2.1.6 Mạng nơ-ron tích chập (Convolutional Neural Nework - CNN)Vấn đề với mạng nơ-ron kết nối đầy đủ Vấn đề với mạng nơ-ron kết nối đầy đủ
Qua mô tả và phân tích về mạng nơ-ron kết nối đầy đủ như trên, chúng ta sẽ thấy một vấn
đề. Giả sử ảnh đầu vào là ảnh màu có kích thước200×200điểm ảnh, được biểu diễn dưới dạng
một tensor ba chiều200×200×3. Do đó, để thể hiện hết nội dung bức ảnh, ta phải duỗi thẳng
tấm ảnh thành một vector (xem mỗi kênh màu của mỗi pixel trong ảnh là một đặc trưng) và
truyền vào input layer với tất cả200×200×3 = 120000đặc trưng. Chỉ mới xét tầng đầu vào
đã cần tới 120000 đặc trưng. Giả sử ở tầng ẩn thứ nhất, ta có 1000 nơ-ron, khi đó số lượng trọng
số cùng với bias giữa lớp đầu vào và lớp ẩn đầu tiên là120000×1000 + 1000 = 120001000. Đó
mới chỉ là số lượng trọng số cho lớp đầu tiên. Hơn nữa, khi kích thước ảnh tăng, hoặc kiến trúc mạng với số lớp ẩn cũng như số nơ-ron trên một lớp tăng lên (tức mạng sâu hơn), thì số lượng trọng số còn tăng nhanh hơn nữa. Với lượng trọng số khổng lồ như vậy, thì việc sử dụng mạng nơ-ron kết nối đầy đủ là điều không khả thi, cần giải pháp tốt hơn.
Với dữ liệu hình ảnh, ta có một số nhận xét như sau, các lớp trong mạng nơ-ron có tác dụng rút trích thông tin quan trọng trong hình ảnh. Hơn nữa các điểm ảnh ở gần nhau thường liên kết với nhau hơn là các điểm ảnh ở xa nhau. Phép tính tích chập định nghĩa ở trên cũng có tác dụng rút trích đặc trưng của dữ liệu hình ảnh, hơn nữa nó còn có thể chia sẽ trọng số. Do vậy, việc áp dụng các lớp tích chập vào mạng nơ-ron có thể giải quyết được vấn đề bùng nổ trọng số nhưng vẫn rút trích được đặc trưng của ảnh một cách hiệu quả. Nhờ đó, khối lượng trọng số và tính toán của các kiến trúc mạng lớn sẽ được thu giảm rất đáng kể.