.1 Phân bố quan hệ giữa từ trong word2vec- 123docz.net

Ví dụ bài toán kinh điển King + Man – Woman = ?. Việc nhúng các từ trong không gian vector cho thấy sự tương tự giữa các từ. Giả sử như tại hình 3.1 là một sự khác biệt về mặt giới tính giữa các cặp từ (“man”,”woman”), (“uncle”,”aunt”), (“king”,”queen”)

W(“woman”) – W(“man”) ≈ W(“aunt”) – W(“uncle”) W(“woman”) – W(“man”) ≈ W(“queen”) – W(“king”) Từ đó, kết quả của King + Man – Woman = Queen.

Để xây dựng được vector mô tả phân bố quan hệ với tập từ điển, bản chất mô hình Word2vec sử dụng một mạng neural đơn giản với một lớp ẩn. Sau khi được huấn luyện trên toàn bộ tập văn bản, toàn bộ lớp ẩn sẽ có giá trị mô hình hóa quan hệ của từ trong tập văn bản được huấn luyện ở mức trừu tượng. Trong ngữ cảnh, từ sẽ được huấn luyện việc sử dụng thuật toán Continuous Bag of Words (CBOW) và skip gram. Bản chất của CBOW là sử dụng ngữ cảnh để đoán từ và bản chất của skip gram là dùng từ để dự đoán

ngữ cảnh. Một trong hai cách sẽ được áp dụng để huấn luyện cho mô hình word2vec, trong đó cách sử dụng mô hình skip gram thường được sử dụng do việc đáp ứng tốt với tập dữ liệu lớn.

Khi sử dụng mô hình skip gram thì đầu vào là một từ trong câu, thuật toán sẽ nhìn vào những từ xung quanh nó. Giá trị số từ xung quanh nó được xét gọi là “window size”. Một window size bằng 5 có nghĩa sẽ xét 5 từ trước nó và 5 từ sau nó. Xác suất đầu ra sẽ liên quan tới khả năng tìm thấy các từ xung quanh từ hiện tại đang xét. Ví dụ nếu tôi đã huấn luyện với từ đầu vào là “bóng đá”, xác suất đầu ra sẽ cao hơn đối với những từ “quả bóng” hay “cầu thủ” so với các từ không liên quan như “dưa hấu” hay “Nam Phi”. tôi sẽ huấn luyện mạng neural này bằng cách cho xét từng cặp từ gồm từ được xét và từ xung quanh nó. Xét câu “The quick brown fox jumps over the lazy dog” với window size bằng 2. Từ được bôi đậm là từ đầu vào.

.1 Phân bố quan hệ giữa từ trong word2vec

.10 Một số stopword trong tiếng Việt

.14 Dữ liệu và nhãn sau khi word embedding