Học sâu đang ngày càng được phổ biến và đạt được những thành tựu nhất định, nhưng để tạo ra một mô hình học sâu hiệu quả cần một lượng dữ liệu khổng lồ. Để xây dựng tập dữ liệu huấn luyện từ ban đầu không phải một việc dễ dàng, do vậy Transfer Learning đã được ra đời nhằm cải thiện hạn chế này của quá trình học sâu.
Học chuyển giao (Transfer Learning) là quá trình áp dụng tri thức đã được học từ mô hình trước đó, khai thác và tái sử dụng để giải quyết một bài toán mới mà không cần xây dựng một mô hình huấn luyện từ ban đầu.
28 Ví dụ trong bài toán phân loại chó và mèo. Nếu huấn luyện từ đầu, ta cần rất nhiều dữ liệu mẫu cũng như mất nhiều thời gian huấn luyện để đạt được độ chính xác cao. Tuy nhiên nếu tận dụng lại các tập dữ liệu đã được huấn luyện sẵn (pretrained-model) thì sẽ cần ít thời gian huấn luyện hơn để đạt được một độ chính xác mong đợi. Thậm chí độ chính xác có thể lớn hơn so với khi không áp dụng Transfer learning.
Hình 2.7. Minh họa so sánh sử dụng và không sử dụng học chuyển giao
Trong xử lý ngôn ngữ tự nhiên, những mô hình được huấn luyện sẵn nổi tiếng như Word2Vec, ConveRT, BERT hay spaCy, giúp việc huấn luyện Chatbot trở nên đơn giản hơn rất nhiều, thay vì việc phải thu thập hàng trăm nghìn dữ liệu câu thoại, ta chỉ việc tận dụng lại những mô hình huấn luyện sẵn đó kết hợp dữ liệu trong miền ứng dụng thu thập được sẽ đạt được kết quả tốt và giảm đáng kể thời gian huấn luyện so với việc huấn luyện lại dữ liệu từ ban đầu. Các mô hình huấn luyện sẵn nổi tiếng hỗ trợ cho Tiếng Việt:
- word2vecVN [14]: tập dữ liệu được huấn luyện trên 7.1GB dữ liệu bao
gồm 1,675,819 từ và tổng hợp từ 97,440 tài liệu, sử dụng kỹ thuật Word2Vec. - vi_spacy [15]: mô hình sử dụng thư viện xử lý ngôn ngữ tự nhiên spaCy để đào tạo 18GB dữ liệu thu thập từ các bài báo, hỗ trợ cả tác vụ phân tách từ và phân tích cú pháp.
- PhoBERT [16]: là mô hình huấn luyện sẵn hiện đại nhất dành cho Tiếng Việt, được phát triển bởi nhóm nghiên cứu của VinAI, huấn luyện dựa trên mô hình RoBERTa [17] với 20GB dữ liệu được thu thập ở nhiều nguồn khác nhau. Cung cấp 2 phiên bản phobert-base huấn luyện với 135 triệu tham số và phobert- large huấn luyện với 370 triệu tham số.
29