Phuong phỏp Word2Vec

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 55 - 57)

Phuong phỏp word2vec [99] là phuong phỏp thống kờ cú thể học hiệu quả mó húa từ dộc lập với một kho ngữ liệu van bản cho truớc. Đầu ra của word2vec là bộ phõn lớp sử dụng hàm softmax [100]. Hàm softmax cho giỏ trị thuộc khoảng [0; 1] là xỏc suất của mỗi dầu ra, tổng cỏc giỏ trị này bằng 1. Phuong phỏp word2vec thuờng kết hợp hai mụ hỡnh dể học mó húa từ là mụ hỡnh tỳi từ liờn tục (CBoW - Continuous Bag of Words) [101] và mụ hỡnh Skip - Gram [101].

Mụ hỡnh CBoW: Lấy ngữ cảnh của mỗi từ làm dầu vào dể cố gắng dự doỏn ra từ tuong ứng với ngữ cảnh này, nghia là CBoW học cỏch mó húa từ bằng cỏch dự doỏn từ hiện tại dựa trờn ngữ cảnh của từ dú. Chi tiết nhu sau: CBoW sử dụng vộc to mó húa

one - hot của từ dầu vào và tớnh toỏn lỗi dầu ra của mụ hỡnh so với vộc to mó húa one - hot của từ cần dự doỏn. Trong quỏ trỡnh dự doỏn từ mục tiờu, mụ hỡnh cú thể học duợc cỏch dể biểu diễn vộc to của từ mục tiờu này. Hỡnh 2.14 là kiến trỳc của mụ hỡnh CBoW với 1 từ làm ngữ cảnh dể dự doỏn từ tiếp theo.

Hỡnh 2.14. Mụ hỡnh CBoW với một từ làm ngữ cảnh dể dự doỏn từ tiếp theo [101]

+ Lớp dầu vào là vộc to duợc mó húa duới dạng vộc to one-hot cú kớch thuớc V, lớp ẩn chứa N noron, lớp dầu ra là một vộc to cú kớch thuớc V.

+ WVìN là một ma trận trọng số với số chiều là VìN, ỏnh xạ lớp vào tới lớp ẩn. +

WNìV là ma trận trọng số với số chiều là NìV, ỏnh xạ cỏc lớp ẩn tới lớp ra. Cỏc no ron trong lớp ẩn chỉ sao chộp tổng trọng số của lớp vào sang lớp tiếp

theo (khụng cú cỏc hàm kớch hoạt sigmoid, tanh hay ReLU [100]), chỉ cú hàm kớch hoạt

softmax tại cỏc no ron trong lớp ra.

Ta cung cú thể sử dụng nhiều từ dầu vào làm ngữ cảnh dể dự doỏn ra từ tiếp theo thay vỡ chỉ sử dụng 1 từ làm ngữ cảnh, khi dú mụ hỡnh tổng quỏt duợc biểu diễn nhu trong Hỡnh 2.15 duới dõy.

Hỡnh 2.15. Mụ hỡnh CBoW với nhiều từ làm ngữ cảnh dể dự doỏn từ tiếp theo [101]

Mụ hỡnh này gồm ngữ cảnh của C từ nờn khi tớnh toỏn cỏc dầu vào lớp ẩn, mụ hỡnh tớnh trung bỡnh vộc to của C từ.

Mụ hỡnh Skip-Gram: Khỏc với mụ hỡnh CBoW, mụ hỡnh Skip-Gram học mó húa từ bằng cỏch dự doỏn cỏc từ xung quanh cho một từ dầu vào, duợc biểu diễn

Trong mỗi buớc huấn luyện, mụ hỡnh Skip-Gram chỉ nhận một từ dầu vào nhung cú nhiều dầu ra cho một từ dầu vào. Cỏc thử nghiệm thực tế cho thấy mụ hỡnh Skip- Gram hoạt dộng tốt hon dối với những từ ớt gặp, cũn mụ hỡnh CBoW lại hoạt dộng tốt hon dối với những từ phổ biến.

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 55 - 57)