Thống kê tập dữ liệu thứ 2

4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

4.1 Thống kê tập dữ liệu thứ 2

Bảng 4.1: Thống kê tập dữ liệu thứ 2

Số lượng câu được sử dụng cho Khía cạnh Học véc-tơ từ Đánh giá véc-tơ từ

Food 4,386 1,462 Price 44,912 14,970 Service 22,470 7,489 Ambience 17,729 5,909 Anecdotes 18,396 6,132 Miscellaneous 35,100 11,700 Tổng 142,993 47,662 4.4.2 Các độ đo

Các mơ hình học véc-tơ biểu diễn từ được đánh giá gián tiếp thơng qua hai cơng việc của phân tích quan điểm theo khía cạnh: xác định khía cạnh và phân loại quan điểm khía cạnh. Trong q trình đánh giá so sánh giữa các mơ hình, luận án sử dụng ba độ đo:precision,recall, vàF-score:

Precision= nc

np (4.23)

1https://www.yelp.com/datasetchallenge/

Recall= nc

nt (4.24)

F−score=2×Precision×Recall

Precision+Recall (4.25)

vớinclà số lượng câu được dự đốn đúng theo mơ hình dự đốn so với nhãn thực tế,np

là số lượng câu được dự đoán vào một lớp vànt là số lượng câu trong một nhãn đã biết theo thực tế.

Ngoài ra, để xác định mối quan hệ gần (ngữ nghĩa) giữa các từ, luận án sử dụng độ đo tương đồng để xác định. Đối với hai từ tương ứng với hai véc-tơ biểu diễntvàeđược tính theo cơng thứccosine similarity[100] như sau:

cos(t,e) = te ktkkek = ∑ni=1tiei p ∑ni=1(ti)2p ∑ni=1(ei)2 (4.26) cos(t,e)có giá trị trong khoảng (0,1), giá trị càng lớn thì có nghĩa là hai từ có ngữ nghĩa gần nhau, ngược lại thì là xa nhau.

4.5 Cài đặt và đánh giá mơ hình tinh chỉnh véc-tơ từWEFT WEFT

4.5.1 Cài đặt mơ hình

Thuật tốn huấn luyện 6 của mơ hình WEFT thực hiện với các tham số như sau: kích thước cửa sổ các bộ lọc là h1 =1, h2=2 and h3=3; số chiều đầu ra của từng bộ là 100; kích thước mini-batch là 60; hệ số chuẩn hóa λW =λU1 =λU2 =λU3 = 10−4, λu1 =λu2 =λu3 =10−5, λV1 =λb1 =λV2 =λb2 =10−3; các ma trận trọng số

U1,U2,U3,V1,V2 được khởi tạo ngẫu nhiên trong đoạn [−1,1]; các véc-tơ độ lệch

u1,u2,u3,b1,b2được khởi tạo bằng 0; hệ số họcη=0.025; ngưỡng vòng lặpI=50. Ma trận véc-tơ từ nhúng được khởi tạo bằng các véc-tơ từ nhúng được từ mô hình Word2Vec;

4.5.2 Đánh giá mơ hình

Mơ hình WEFT được đánh giá thơng qua các véc-tơ từ được học từ các mơ hình: CBOW, skip-gram của Word2Vec (Mikolov và các cộng sự [57]) và GloVe (Pennington và các cộng sự [58]). Ký hiệu các phiên bản của mơ hình WEFT như sau: WEFT-rand sử dụng các véc-tơ từ được khởi tạo ngẫu nhiên và sau đó sẽ được chỉnh sửa trong q trình huấn luyện mơ hình. Các mơ hình WEFT-SG, WEFT-CB và WEFT-GV tinh chỉnh các véc-tơ từ được học từ các mơ hình tương ứng skip-gram, CBOW và GloVe. Trong

Nghiên cứu trên thế giới và Việt nam

Minh họa tích chập trong ma trận câu