6 Kết Luận
2.11 Hình ảnh mô tả phân tích chập một bộ lọc tạo ra các nơ-ron
Một đặc điểm quan trọng của mạng nơ-ron tích chập là cơ chế chia sẻ trọng số (shared weights). Có nghĩa là các trọng số trên mỗi bộ lọc phải giống nhau và các nơ-ron trong lớp ẩn đầu sẽ phát hiện chính xác điểm tương tự chỉ ở các vị trí khác nhau trong dữ liệu đầu vào. Việc làm này sẽ làm giảm tối đa số lượng các tham số (parameters), mỗi bản đồ đặc trưng sẽ giúp phát hiện thêm một vài đặc trưng khác. Với một ma trận hình ảnh đầu vào kích thước 7x7 như ở trên và 4 bộ lọc có ma trận kích thước 3x3 thì mỗi bản đồ thuộc tính cần 3×3 = 9 trọng số và số nơ-ron được tạo ra ở lớp thứ hai là 25. Như vậy nếu có 4 bản đồ thuộc tính thì có 4x9 = 36 tham số. Với một mạng nơ-ron có kết nối đầy đủ thì chúng ta sẽ có 7x7x25 = 1225 trọng số. Từ kết quả cho thấy sử dụng lớp tích chập sẽ cần số lượng tham số ít hơn nhiều lần so với lớp kết nối đầy đủ nhưng vẫn có thể rút ra các đặc trưng một cách hiệu quả.
Một khả năng khác của mạng nơ-ron tích chập là số tham số không phụ thuộc vào kích thước của đầu vào. Với những ma trận đầu vào có kích thước khác nhau và thông qua quá trình học theo phương pháp nơ-ron tích chập sẽ rút ra những thuộc tính ẩn mà ta có thể khó nhận thấy.
2.3 Các mạng pretrain thường dùng cho bàitoán phân loại toán phân loại
Các bài toán về học sâu cần phải sử dụng một lượng dữ liệu lớn để huấn luyện, mới có thể tăng khả năng học của mạng. Chính vì lý do này, nên chi phí huấn luyện các bài toán về học sâu rất lớn. Để giải quyết vấn đề trên, các công
ty lớn như Google hoặc Facebook đề xuất ra một khái niệm mạng pretrain để giảm chi phí huấn luyện và đồng thời tăng khả năng học của mạng. Mạng pretrain là các kiến trúc mạng CNN hoàn chỉnh cho một bài toán cụ thể, được huấn luyện trước trên tập dữ liệu lớn, các trọng số của mạng được lưu lại để mỗi người có thể kế thừa và phát triển tuỳ theo ứng dụng.
Tập dữ liệu ảnh thường sử dụng cho các pre-train là ImageNet [9]. Đây là một cơ sở dữ liệu hình ảnh quy mô lớn được thiết kế để sử dụng trong nghiên cứu phần mềm nhận dạng đối tượng trực quan. Bao gồm 14 triệu hình ảnh đã được gán nhãn bằng tay bởi ImageNet để chỉ ra đối tượng nào đó trong những bức hình. Trong đó, chứa hơn 20 nghìn danh mục, các danh mục điển hình như “quả bóng” hoặc “dâu tây”, chứa trong hàng trăm tấm hình. Tập dữ liệu này là cơ sở để các mô hình pre-train ra đời, nhằm tăng độ chính xác và tiết kiệm thời gian cho các bài toán phân loại nói riêng và các bài toán về ảnh nói chung. 2.3.1 ResNet-50
Resnet được viết tắt từ Residual Network là một mạng học sâu dùng để trích xuất các đặc trưng của ảnh và được giới thiệu vào năm 2015 bởi Kaiming He, Xiangyu Zhang, Shaoqing Ren và Jian Sun trong bài báo“Deep Residual Learning for Image Recognition” [10]. Mô hình này đã đạt nhiều thành tựu đáng kể như.
• Giành vị trí thứ nhất trong cuộc thi “The ImageNet Large Scale Visual Recog- nition Challenge - ILSVRC” năm 2015 với tỷ lệ lỗi trong top 5 là 3,57%.
• Hiệu quả trong việc huấn luyện các mạng có số lớp lớn 100 - 1000.
• Độ chính xác tăng 20% của Faster R-CNN khi thay đổi từ VGG-16 sang ResNet-101.
Để giải vế các vấn đề phức tạp trong học sâu, người thường sử dụng nhiều lớp ẩn chồng lên nhau, với hy vọng sẽ cải thiện được độ chính xác. Nhưng khi các mạng học sâu với số lượng lớn các lớp và trọng số học thì thường gặp vấn đề suy giảm đạo hàm (Vanishing Gradient). Nếu như trong trường hợp bình thường, đầu ra của các lớp ẩn thường sử dụng các hàm kích hoạt có giá trị nhỏ hơn một, vì thế khi quá trình lan truyền ngược được khởi động, hệ số cập nhật cho gradient descent được tính bằng tích các đầu ra của các lớp. Vì đầu ra của các
lớp là một số nhỏ hơn một, khi tính tích của nhiều lớp lại với nhau thì kết quả sẽ tiến về không. Chính điều này, làm cho giá trị cập nhật của gradient descent trở nên vô nghĩa.
Thực tế cho thấy khi tăng số lượng lớp ẩn trong CNN thì độ chính xác cũng tăng theo, nhưng khi số lượng quá lớn thì độ chính xác lại giảm. Residual Block ra đời nhằm giải quyết vấn đề trên, với Residual Block ta hoàn toàn có thể huấn luyện các mô hình CNN có kích thước và độc phức tạp cao hơn mà không lo bị Vanishing Gradient. Mấu chốt của Residual Block là cứ sau hai lớp ẩn thì ta cộng đầu vào với đầu ra, như hình 2.12.