2.2. Phương pháp học chuyển giao trên CNN
2.2.1. Giới thiệu phương pháp học chuyển giao
Trong thời gian đầu khi các phương pháp học sâu mới đạt được nhiều thành tựu và được áp dụng phổ biến, trong cộng đồng học sâu trên thế giới đã tồn tại một quan niệm khơng chính xác nhưng hết sức phổ biến: nếu bạn khơng cĩ lượng dữ liệu huấn luyện khổng lồ, bạn khơng thể tạo ra một mơ hình Học sâu hiệu quả. Nĩi chính xác hơn, đây đã từng là một quan niệm đúng và hợp lý, bởi mỗi mơ hình huấn luyện này đều sử dụng rất nhiều các lớp ẩn, với hàng nghìn nơron và hàng triệu tham số. Đồng thời quá trình huấn luyện mơ hình cũng được gắn liền với các kiến thức riêng và bài tốn phân tích, nhận dạng… cụ thể, và nếu cố gắng áp dụng mơ hình đĩ với một CSDL khác, chắc chắn độ chính xác sẽ bị suy giảm đáng kể. Tuy nhiên, trong thời gian sau đĩ, một phương pháp học mới được đưa ra và đã giải quyết được điểm hạn chế này của học sâu, đĩ chính là Học chuyển giao - Transfer Learning [8]
Học chuyển giao là quá trình khai thác, tái sử dụng các tri thức đã được học tập bởi một mơ hình huấn luyện trước đĩ vào giải quyết một bài tốn mới mà khơng phải xây dựng một mơ hình huấn luyện khác từ đầu. Đây được coi là một trong những kỹ thuật được xếp mức độ quan trọng hàng đầu trong cộng đồng khoa học dữ liệu, nhằm hướng tới mục đích chung là phát minh ra một thuật tốn học tự động mạnh mẽ.
51
Hiện nay, phương pháp phổ biến thường được áp dụng khi huấn luyện mơ hình với một bộ CSDL tương đối nhỏ là sử dụng Học chuyển giao để tận dụng một mạng CNN đã được huấn luyện trước đĩ với bộ dữ liệu rất lớn như ImageNet (1,2 triệu ảnh với 1.000 nhãn đánh dấu). Phương pháp này sử dụng mạng CNN theo hai cách chính như sau:
- Mạng CNN này sẽ chỉ được sử dụng như một bộ trích chọn đặc trưng cho bộ CSDL huấn luyện mới, bằng cách thay thế các lớp Fully-connected ở cuối mạng và giữ cố định các tham số cho tồn bộ các lớp cịn lại của mạng.
- Khơng chỉ thay thế và huấn luyện lại bộ nhận dạng cuối cùng của mạng CNN, mà đồng thời ta thực hiện tối ưu, tinh chỉnh (Fine-tune) một vài hoặc tất cả các lớp trong mạng. Ý tưởng của việc tái sử dụng mạng CNN là dựa trên nhận định rằng các đặc trưng được học trong các lớp đầu của mạng là các đặc trưng chung nhất, hữu dụng với phần lớn bài tốn, ví dụ: đặc trưng về cạnh, hình khối hay các khối màu… Các lớp sau đĩ của mạng CNN sẽ nâng dần độ cụ thể, riêng biệt của các chi tiết phục vụ cho bài tốn nhận dạng cần giải quyết. Do đĩ, ta hồn tồn cĩ thể tái sử dụng lại các lớp đầu của mạng CNN mà khơng phải mất nhiều thời gian và cơng sức huấn luyện từ đầu.