Chương 2 CÁC KIẾN THỨC NỀN TẢNG
2.2. Các mơ hình ngơn ngữ dựa trên học sâu được huấn luyện trước
2.2.2. Phương pháp Word2Vec
Phương pháp word2vec [99] là phương pháp thống kê có thể học hiệu quả mã hóa từ độc lập với một kho ngữ liệu văn bản cho trước. Đầu ra của word2vec là bộ phân lớp sử dụng hàm softmax [100]. Hàm softmax cho giá trị thuộc khoảng [0; 1] là xác suất của mỗi đầu ra, tổng các giá trị này bằng 1. Phương pháp word2vec thường kết hợp hai mơ hình để học mã hóa từ là mơ hình túi từ liên tục (CBoW - Continuous Bag of Words) [101] và mô hình Skip - Gram [101].
Mơ hình CBoW: Lấy ngữ cảnh của mỗi từ làm đầu vào để cố gắng dự đoán ra từ
tương ứng với ngữ cảnh này, nghĩa là CBoW học cách mã hóa từ bằng cách dự đốn từ hiện tại dựa trên ngữ cảnh của từ đó. Chi tiết như sau: CBoW sử dụng véc tơ mã hóa one - hot của từ đầu vào và tính tốn lỗi đầu ra của mơ hình so với véc tơ mã hóa one - hot của từ cần dự đoán. Trong quá trình dự đốn từ mục tiêu, mơ hình có thể học được cách để biểu diễn véc tơ của từ mục tiêu này. Hình 2.14 là kiến trúc của mơ hình CBoW với 1 từ làm ngữ cảnh để dự đoán từ tiếp theo.
Hình 2.14. Mơ hình CBoW với một từ làm ngữ cảnh để dự đoán từ tiếp theo [101]
với:
+ Lớp đầu vào là véc tơ được mã hóa dưới dạng véc tơ one-hot có kích thước V, lớp ẩn chứa N nơron, lớp đầu ra là một véc tơ có kích thước V.
+ WV×N là một ma trận trọng số với số chiều là V×N, ánh xạ lớp vào tới lớp ẩn. + W’N×V là ma trận trọng số với số chiều là N×V, ánh xạ các lớp ẩn tới lớp ra. Các nơ ron trong lớp ẩn chỉ sao chép tổng trọng số của lớp vào sang lớp tiếp theo (khơng có các hàm kích hoạt sigmoid, tanh hay ReLU [100]), chỉ có hàm kích hoạt softmax tại các nơ ron trong lớp ra.
Ta cũng có thể sử dụng nhiều từ đầu vào làm ngữ cảnh để dự đoán ra từ tiếp theo thay vì chỉ sử dụng 1 từ làm ngữ cảnh, khi đó mơ hình tổng qt được biểu diễn như trong Hình 2.15 dưới đây.
Hình 2.15. Mơ hình CBoW với nhiều từ làm ngữ cảnh để dự đoán từ tiếp theo [101]
Mơ hình này gồm ngữ cảnh của C từ nên khi tính tốn các đầu vào lớp ẩn, mơ hình tính trung bình véc tơ của C từ.
Mơ hình Skip-Gram: Khác với mơ hình CBoW, mơ hình Skip-Gram học mã hóa
từ bằng cách dự đốn các từ xung quanh cho một từ đầu vào, được biểu diễn trong Hình 2.16 dưới đây.
Hình 2.16. Mơ hình Skip-Gram [101]
Trong mỗi bước huấn luyện, mơ hình Skip-Gram chỉ nhận một từ đầu vào nhưng có nhiều đầu ra cho một từ đầu vào. Các thử nghiệm thực tế cho thấy mơ hình Skip-Gram hoạt động tốt hơn đối với những từ ít gặp, cịn mơ hình CBoW lại hoạt động tốt hơn đối với những từ phổ biến.