CBOW là một mạng nơ ron nông (Shallow Neural Network) với chỉ 1 lớp ẩn hoạt động nhƣ một lớp chiếu (projection layer) của lớp đầu vào. Mục tiêu là để dự đoán đƣợc từ đích dựa trên các từ xung quanh nó. Đầu vào của CBOW là N từ, với N là kích thƣớc của cửa sổ của ngữ cảnh đƣợc định nghĩa trƣớc và đầu ra là từ dự đoán sử dụng lớp Softmax [13].
4.3.2.2. Mô hình Skip-gram
Hình 4.6. Mô hình Skip-gram
Skip-gram cũng là một mạng nơ ron chỉ gồm một lớp ẩn. Mục tiêu của mô hình này là dự đoán các từ gần với một từ đích. Đầu vào của mô hình là một véc tơ one-hot của từ đích, và đầu ra của nó là N từ với N là kích thƣớc cửa sổ của ngữ cảnh đƣợc định nghĩa trƣớc [13].
Trong các bài toán thực tế, mô hình skip-gram thƣờng đƣợc áp dụng do nó đem lại độ chính xác cao hơn [21]. Chi tiết cách thực hiện word2vec với mô hình skip-gram [19] nhƣ sau.
Đầu tiên chúng ta cần xây dựng tập từ vựng từ các văn bản huấn luyện, ví dụ tập từ vựng gồm 10000 từ phân biệt. Để có thể đƣa các từ vào mạng nơ ron huấn luyện, các từ cần đƣợc véc tơ hóa, mỗi từ sẽ đƣợc thể hiện bằng một véc tơ one-hot. Vector này sẽ có 10000 phần tử với mỗi phần tử thể hiện vị trí tƣơng ứng của từ trong tập từ vựng. Ví dụ véc tơ one-hot cho từ “ants” sẽ có phần tử có giá trị bằng 1 tƣơng ứng với vị trí của từ “ants” trong tập từ vựng, các vị trí khác có giá trị bằng 0. Kiến trúc mạng nơ ron đƣợc thể hiện trong hình 4.7.