Phương phỏp Word2Vec

Một phần của tài liệu (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 55 - 57)

Phương phỏp word2vec [99] là phương phỏp thống kờ cú thể học hiệu quả mó húa từ độc lập với một kho ngữ liệu văn bản cho trước. Đầu ra của word2vec là bộ phõn lớp sử dụng hàm softmax [100]. Hàm softmax cho giỏ trị thuộc khoảng [0; 1] là xỏc suất của mỗi đầu ra, tổng cỏc giỏ trị này bằng 1. Phương phỏp word2vec thường kết hợp hai mụ hỡnh để học mó húa từ là mụ hỡnh tỳi từ liờn tục (CBoW - Continuous Bag of Words) [101] và mụ hỡnh Skip - Gram [101].

Mụ hỡnh CBoW: Lấy ngữ cảnh của mỗi từ làm đầu vào để cố gắng dự đoỏn ra từ tương ứng với ngữ cảnh này, nghĩa là CBoW học cỏch mó húa từ bằng cỏch dự đoỏn từ hiện tại dựa trờn ngữ cảnh của từ đú. Chi tiết như sau: CBoW sử dụng vộc tơ mó húa one - hot của từ đầu vào và tớnh toỏn lỗi đầu ra của mụ hỡnh so với vộc tơ mó húa one - hot của từ cần dự đoỏn. Trong quỏ trỡnh dự đoỏn từ mục tiờu, mụ hỡnh cú thể học được cỏch để biểu diễn vộc tơ của từ mục tiờu này. Hỡnh 2.14 là kiến trỳc của mụ hỡnh CBoW với 1 từ làm ngữ cảnh để dự đoỏn từ tiếp theo.

Hỡnh 2.14. Mụ hỡnh CBoW với một từ làm ngữ cảnh để dự đoỏn từ tiếp theo [101]

43

+ Lớp đầu vào là vộc tơ được mó húa dưới dạng vộc tơ one-hot cú kớch thước V, lớp ẩn chứa N nơron, lớp đầu ra là một vộc tơ cú kớch thước V.

+ WVìN là một ma trận trọng số với số chiều là VìN, ỏnh xạ lớp vào tới lớp ẩn. + WNìV là ma trận trọng số với số chiều là NìV, ỏnh xạ cỏc lớp ẩn tới lớp ra. Cỏc nơ ron trong lớp ẩn chỉ sao chộp tổng trọng số của lớp vào sang lớp tiếp theo (khụng cú cỏc hàm kớch hoạt sigmoid, tanh hay ReLU [100]), chỉ cú hàm kớch hoạt softmax tại cỏc nơ ron trong lớp ra.

Ta cũng cú thể sử dụng nhiều từ đầu vào làm ngữ cảnh để dự đoỏn ra từ tiếp theo thay vỡ chỉ sử dụng 1 từ làm ngữ cảnh, khi đú mụ hỡnh tổng quỏt được biểu diễn như trong Hỡnh 2.15 dưới đõy.

Hỡnh 2.15. Mụ hỡnh CBoW với nhiều từ làm ngữ cảnh để dự đoỏn từ tiếp theo [101]

Mụ hỡnh này gồm ngữ cảnh của C từ nờn khi tớnh toỏn cỏc đầu vào lớp ẩn, mụ hỡnh tớnh trung bỡnh vộc tơ của C từ.

Mụ hỡnh Skip-Gram: Khỏc với mụ hỡnh CBoW, mụ hỡnh Skip-Gram học mó húa từ bằng cỏch dự đoỏn cỏc từ xung quanh cho một từ đầu vào, được biểu diễn trong Hỡnh 2.16 dưới đõy.

44

Trong mỗi bước huấn luyện, mụ hỡnh Skip-Gram chỉ nhận một từ đầu vào nhưng cú nhiều đầu ra cho một từ đầu vào. Cỏc thử nghiệm thực tế cho thấy mụ hỡnh Skip-Gram hoạt động tốt hơn đối với những từ ớt gặp, cũn mụ hỡnh CBoW lại hoạt động tốt hơn đối với những từ phổ biến.

Một phần của tài liệu (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 55 - 57)