Bài toán tinh chỉnh véc-tơ biểu diễn từ

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 83 - 84)

4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

4.2.1 Bài toán tinh chỉnh véc-tơ biểu diễn từ

Khi sử dụng trực tiếp các véc-tơ biểu diễn từ được học từ các mơ hình khơng giám sát như WordVec hay Glove vào các bài tốn của phân tích quan điểm theo khía cạnh bị thiếu thơng tin khía cạnh và quan điểm khía cạnh. Do đó, bài tốn tinh chỉnh các véc-tơ biểu diễn từ giải quyết thiếu sót này bằng cách sử dụng một dữ liệu huấn luyện, gồm các câu văn bản có gán nhãn khía cạnh và quan điểm khía cạnh để tinh chỉnh các véc-tơ thơng qua một mơ hình học dự đốn nhãn cho các câu văn bản.

Cho một tập các câu văn bản gán nhãn D2 =`1, `2, ..., `|D2| được trích xuất từ một tập ý kiến đánh giá của tập thực thể (ví dụ: tập thực thể dịch vụ nhà hàng), từng câu`∈D2được gán hai nhãn, nhãn khía cạnh và nhãn quan điểm khía cạnh. Ký hiệu

V ={ω1,ω2, ...,ω|V|}là một bộ từ điển vàW ∈Rnx|V| là một ma trận véc-tơ từ nhúng, với cột thứicủa ma trậnW là một véc-tơnchiều của từ thứitrongV. Giả thiết rằng ma trậnW là ma trận được học từ một mơ hình khơng giám sát (ví dụ mơ hình Word2Vec) với một lượng lớn các câu khơng gán nhãn. Bài tốn ở đây là làm thế nào tinh chỉnh các véc-tơ từ trong ma trậnW. Hình 4.1 mô tả các công việc cần thực hiện cho bài tốn tinh chỉnh véc-tơ biểu diễn từ.

Hình 4.1: Mơ tả đầu vào và đầu ra của của bài tốn tính chỉnh véc-tơ biểu diễn từ

Trong công việc đầu tiên, sử dụng một tập các câu văn bản không gán nhãn D1=

`1, `2, ..., `|D1| , các câu này cần thông qua các bước của tiền xử lý dữ liệu (chuẩn hóa, tách từ, loại bỏ từ dừng). Sau đó tập D1 được sử dụng làm đầu vào cho mơ hình học khơng giám sát (như mơ hình WordVec hoặc Glove) để học ra các véc-tơ biểu diễn từ, ma trậnW. Công việc tiếp theo, sử dụng ma trậnW đã được học cùng với tập dữ liệu

D2 =`1, `2, ..., `|D2| làm đầu vào cho một mơ hình tinh chỉnh các véc-tơ từ. Cuối cùng, thơng qua q trình học mơ hình tinh chỉnh thơng tin khía cạnh và qua điểm khía cạnh được mã hóa và cập nhật vào trong các véc-tơ biểu diễn từ trong ma trậnW.

Đối với các ký hiệu nhãn trong mỗi câu`∈D2, ký hiệuklà số lượng nhãn khía cạnh và m là số lượng nhãn quan điểm khía cạnh. a`∈Rk là một véc-tơ nhị phân của các nhãn khía cạnh trong câu `. Từng giá trị trong a` xác nhận câu` có thảo luận về một khía cạnh hay khơng. Ký hiệuod∈Rm là một véc-tơ nhị phân của các quan điểm trong câud. Từng thành phần trong véc-tơo`xác nhận câu`có thảo luận một quan điểm khía cạnh hay khơng.

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 83 - 84)

Tải bản đầy đủ (PDF)

(136 trang)