Thống kế dữ liệu thực nghiệm

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 68 - 72)

4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

3.2 Thống kế dữ liệu thực nghiệm

Số lượng ý kiến đánh giá 174,615

Số lượng văn bản đánh giá 1,768

Số lượng câu 2,126,919

Trung bình số lượng từ trong một câu 7.50

Số lượng khía cạnh 5

Để dễ hình dung các mơ hình đề xuất tham gia vào q trình thực nghiệm, chúng tơi trình bày quy trình thực nghiệm, đánh giá của từng mơ hình như trong Hình 3.8, 3.9, và 3.10. Chúng tôi đãhighlightcác Thuật tốn, Cơng thức đề xuất được sử dụng trong mỗi quy trình. Số lượng văn bản đánh được sử dụng trong thực nghiệm, cho mỗi đề xuất được chia theo tỉ lệ: 75% văn bản đánh giá được chọn ngẫu nhiên cho huấn luyện, và 25%số văn bản cịn lại được dùng để đánh giá mơ hình.

3http://nlp.stanford.edu/software/tagger.shtml

Hình 3.8: Quy trình thực nghiệm, đánh giá mơ hình LRNN

Hình 3.10: Quy trình thực nghiệm, đánh giá mơ hình NNAWs

3.4.1 Các độ đo

Trong thực nghiệm để đánh giá mơ hình đề xuất, luận án sử dụng ba độ đo, bao gồm: (1) Độ lệch căn bậc hai trung bình bình phương của hạng khía cạnh [97], ký hiệu là ∆aspect (∆aspect có giá trị nhỏ hơn thì có nghĩa là mơ hình thực hiện tốt hơn), (2) Độ đo tương quan giữa các hạng khía cạnh [1] (ρaspect, cao hơn có nghĩa là tốt hơn ), (3) Độ đo tương quan của mỗi loại hạng khía cạnh thơng qua tồn bộ tập dữ liệu đánh giá [1] (ρreviewcao hơn có nghĩa là tốt hơn). Chi tiết về các độ đo được trình bày như sau:

1. Độ lệch căn bậc hai trung bình bình phương của các hạng khía cạnh trên tồn bộ tậpDtest

Ký hiệur∗di và rdi là hạng theo giả thiết và hạng theo mơ hình dự đốn của khía cạnhAi, độ lệch lỗi căn bậc hai trung bình bình phương được tính như sau:

∆aspect = s 1 |Dtest| |Dtest| ∑ d=1 k ∑ i=1 (rdi∗ −rdi)2/k

2. Độ đo tương quan giữa các hạng khía cạnh trên toàn bộ tậpDtest

Ký hiệupr∗

d,rd là độ đo tương quan giữa hai véc-tơrd∗vàrd, độ đo tương quan trung bình giữa véc-tơ hạng khía cạnh dự đốn được với véc-tơ hạng khía cạnh theo giả thiết được tính như sau:

Paspect= 1 |Dtest| |Dtest| ∑ d=1 pr∗ d,rd

3. Độ đo tương quan của mỗi loại hạng khía cạnh trong tất cả các văn bản đánh giá trên toàn bộ tậpDtest

Ký hiệur∗i là véc-tơ hạng khía cạnhAitheo giả thiết của tất cả các văn bản trong tập Dtest, pr∗

i,ri là độ đo tương quan giữa hai véc-tơ ri∗ và ri, độ đo tương quan trung bình giữa véc-tơ hạng khía cạnh dự đốn được với véc-tơ hạng khía cạnh theo giả thiết được tính như sau:

Preview= 1 k k ∑ i=1 pr∗ i,ri

Độ đo tương quan giữa hai véc-tơxvàyđược tính theo cơng thức sau:

px,y= n ∑ i (xi−_x)(yi−y_) rn ∑ i (xi−x_)2∑n i (yi−y_)2 (3.34) Trong đóx= 1n n ∑ i=1 xi,y=1n n ∑ i=1 yi 3.4.2 Cài đặt mơ hình

Khi cài đặt mơ hình LRNN, luận án sử dụng các véc-tơ biểu diễn khía cạnh đã được học từ mơ hình véc-tơ Paragraph làm đầu vào cho Thuật toán 3. Các tham số được khởi tạo như sau: hệ số học η=0.015, ngưỡng lỗiε =10−4, ngưỡng vịng lặpI=1500và tham số chuẩn hóaλ =10−3.

Đối với mơ hình LRNN-ASR, các tham số của Thuật tốn 4 được khởi tạo như sau: hệ số học η =0.015; ngưỡng vòng lặp I=1000; ngưỡng lỗi ε =10−4; tham số chuẩn hóa λ =10−5; tất cả các thành phần trong U, V, W được khởi tạo giá trị trong đoạn [−1,1]; trọng số chia sẻ đặc giữa các khía cạnhγ =0.45; kích cỡmini−batching=58. Dựa trên quan sát các khía cạnh quan trọng thơng thường nhận được một số lượng lớn ý kiến đánh giá từ người sử dụng sản phẩm/dịch vụ [26], do đó đối với khía cạnhAi

của văn bảnd, tham sốα∧di được khởi tạo theo cơng thức sau:

∧ αdi=log( ndi k ∑ l=1 ndl ) (3.35) Trong đóndi= n ∑ p=1

và ndiplà tần số xuất hiện của từ thứ p, ∑k

l=1

ndl là tổng số từ của tất cả khía cạnh trong văn bản đánh giá trongd.

Tham số trong mơ hình xác định trọng số khía cạnh chung NNAWs được khởi tạo như sau: hệ số họcη=0.015; ngưỡng vòng lặpI=3000; ngưỡng lỗiε=10−5; tham số

α được khởi tạo theo công thức 3.31.

3.4.3 Kết quả thực nghiệm

Nội dung Bảng 3.3 thể hiện kết quả xác định hạng khía cạnh của năm khách sạn có cùng hạng chung là 3.5 bằng Thuật tốn 4 (mơ hình LRNN-ASR). Trong đó các giá trị đặt trong cặp dấu (.)là hạng khía cạnh theo giả thiết, giá trị hạng khía cạnh mơ hình đề xuất xác định được đặt ngoài cặp(.). Mong muốn của chúng ta là hạng khía cạnh dự đốn được càng gần hạng theo giả thiết thì càng tốt. Kết quả cho chúng ta thấy rằng, hầu hết hạng khía cạnh xác định được rất gần với hạng đích, chỉ trường hợp hạng khía cạnh “Location” của khách sạn “Astoria” có độ lệch 0.6 lớn nhất so với hạng đích.

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 68 - 72)

Tải bản đầy đủ (PDF)

(136 trang)