Mơ hình Word2Vec với hai kiến trúc CBOW và Skip-gr- 123docz.net

4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

2.4 Mơ hình Word2Vec với hai kiến trúc CBOW và Skip-gram

2.3 Các mơ hình học biểu diễn mức từ, câu, đoạn/vănbản bản

Trong các công việc xử lý ngôn ngữ tự nhiên, trích rút đặc trưng (feature extraction) và biểu diễn dữ liệu là các công việc cơ bản nhưng quan trọng. Hiệu quả của các phương pháp học máy truyền thống nhưdecision tree,logistic regression,naive bayes,support vector machine,... phụ thuộc vào sự thiết kế các đặc trưng, các thuộc tính đầu vào do

con người xây dựng và cung cấp.

Không giống với các phương pháp học máy truyền thống, học biểu diễn nỗ lực học các biểu diễn tốt nhất, trích xuất ra những đặc trưng tốt nhất của dữ liệu một cách tự động. Trong phần này chúng tơi trình bày các mơ hình học biểu diễn cơ bản cho mức từ, câu, đoạn/văn bản. Gồm: (1) Hai mơ hình học biểu diễn mức từ: Word2Vec và Glove; (2) Ba mơ hình học biểu diễn cho mức câu, đoạn/văn bản: véc-tơ Paragraph, mơ hình mạng nơ-ron tích chập CNN, và mơ hình véc-tơ kết hợp.

2.3.1 Mơ hình Word2Vec

Mơ hình Word2Vec là một mơ hình học biểu diễn mỗi từ thành một véc-tơ có các thành phần là số thực, và có thể sử dụng chúng để xác định mối quan hệ giữa từ này với các từ khác, do Mikolov và các cộng sự [85] đề xuất. Mơ hình Word2Vec có khả năng làm việc với những tập dữ liệu lớn, và có hai kiến trúc mạng nơ-ron đơn giản: Mơ hình túi từ liên tục (Continuous Bag-of-Words (CBOW)) và mơ hìnhSkip-gram, kiến trúc hai

mơ hình được minh họa như trong Hình 2.4.

Ý tưởng của mơ hìnhCBOW là dự đốn một từ đích dựa trên các ngữ cảnh của nó. Ví dụ: từ “on” được dự đoán dựa trên các từ thuộc ngữ cảnh của nó là “the”, “cat”, và

“sat”.

Cho một chuỗi các từ huấn luyệnω1,ω2, ...,ωT, hàm đối tượng của mơ hình CBOW là hàm trung bình cực đại hóa xác suất như sau:

1 T T−k ∑ t=k logp(ωt|ωt−k, ...,ωt+k) (2.12)

trong đóklà kích cỡ của ngữ cảnh. Cơng việc dự đốn của mơ hình CBOW được thực hiện thơng qua hàmsoftmax.

logp(ωt|ωt−k, ...,ωt+k) = e

yωt

∑

eyi

Từng giá trịyilà xác suất-log không xác định cho từng từ đầu ra từiđược tính như sau:

y=b+U h(ωt−k, ...,ωt+k; W) (2.13)

vớiU vàblà tham số của hàmsoftmax,hđược tính bằng cách lấy giá trị trung bình hoặc nối kết hợp của các véc-tơ được trích xuất từ ma trậnW.

Skip-gramlà mơ hình có kiến trúc đối lập với kiến trúc của mơ hìnhCBOW. Skip- gramhọc các véc-tơ từ dựa trên giải thiết: một từ có thể sinh ra được các từ khác thuộc ngữ cảnh của nó. Hàm đối tượng của mơ hìnhSkip-gramlà hàm trung bình cực đại hóa xác suất như sau:

1 T T−k ∑ t=k ∑ −k≤j≤k,j6=0 logp(ωt+j|ωt) (2.14) trong đóklà kích cỡ của ngữ cảnh.

Trong thực nghiệm Mikolov và các cộng sự [85] đã sử dụngsoftmaxphân cấp (hier-

archical softmax) để tính xấp xỉ hiệu quả thay thế chosoftmaxđầy đủ như đã trình bày trong cơng thức 2.13. Với cách sử dụngsoftmaxphân cấp đã giúp cho thuật toán huấn luyện nhanh hơn so vớisoftmaxđầy đủ rất nhiều.

2.3.2 Mơ hình GloVe

Mơ hình Glove học các véc-tơ biểu diễn từ dựa trên tần suất xuất hiện của từ. Xuất phát từ một ma trận đồng xuất hiện (co-occurrence matrix), nơi mà tần suất xuất hiện của từng cặp từ được lưu trữ trong đó. Và một tỉ số xác suất liên quan giữa một từkvới

cặp từi, jnhư sau:

P(k|i)

P(k|j) (2.15)

trong đóP(k|i)là xác suất xuất hiện của từktrong ngữ cảnh của từi, tương tự vớiP(k|j).

Cơng thức tínhP(k|i)được định nghĩa như sau:

P(k|i) = Xik

Xi = Xik

∑mXim (2.16)

trong đó:Xiklà số lần xuất hiện của từktrong ngữ cảnh của từi(hoặc ngược lại);Xilà số lần xuất hiện của từitrong ngữ cảnh của tồn bộ các từ cịn lại, ngoại trừi.

Mơ hình GloVe giả thiết rằng độ tương tự ngữ nghĩa giữa hai từi, jcó thể được xác định thơng qua độ tương tự ngữ nghĩa giữa từk với mỗi từ i, j, những từkcó thể xác định ngữ nghĩa tốt nhất là những từ có tỉ số 2.15 lớn hơn hoặc bằng 1.

Khởi nguồn từ tầm quan trọng của tỉ số 2.15, mơ hình GloVe thực hiện bắt đầu bằng việc đi tìm một hàmFsao cho nó ánh xạ từ các vec-tơ từ trong khơng gianV chiều sang một giá trị tỉ lệ với tỉ số 2.15. Để xác định được hàmF là rất phức tạp. Do vậy, để đơn giản hóa, chúng ta có thể đưa nó về bài tốn hồi quy với việc cực tiểu hóa hàm giá sau:

∑

i,j=1

f(Xij)(wTi wj+bi+bj−logXij)2 (2.17)

trong đó:wi và wj là các véc-tơ từ,bi vàbj là các độ lệch tương ứng, Xij là mục nhập tương ứng của cặp từ i, j trong ma trận đồng xuất hiện. Hàm f là một hàm trọng số (weighting function) được thêm vào để giảm bớt sự ảnh hưởng của các cặp từ xuất hiện quá thường xuyên, hàm này thỏa mãn 3 tính chất: (1) có giới hạn tại 0; (2) là hàm khơng giảm; (3) có giá trị nhỏ khi x rất lớn. Thực tế, có nhiều hàm số thỏa các tính chất trên, nhưng thơng qua thực nghiệm nghiên cứu [58] lựa chọn được hàm số f như sau:

f(x) =min(1,(x/xmax)34)

Việc thực hiện cực tiểu hàm giáE để tìm ra các vec-tơ từwi, wj có thể được thực hiện bằng nhiều phương pháp, như là bình phương tối thiểu (least square), phương pháp giảm độ dốc của véc-tơ đạo hàm (gradient descent).

2.3.3 Mơ hình véc-tơ Paragraph

Mơ hình véc-tơ Paragraph do Lê Việt Quốc và các cộng sự [2] đề xuất dựa trên mơ hình Word2Vec. Bên cạnh việc học biểu diễn từ, mơ hình cịn có thể học liên hợp cùng với mức biểu diễn cao hơn, như mức câu, mức đoạn văn, hoặc cả một văn bản. Thông

Mơ hình Word2Vec với hai kiến trúc CBOW và Skip-gram

Nghiên cứu trên thế giới và Việt nam

Minh họa tích chập trong ma trận câu