4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh
2.2 Ví dụ về Hạng chung của sản phẩm iPhon eX 64GB
Trong Hình 2.2 là một dụ về hạng chung của sản phẩm iPhone X 64GB trên hệ thống website thương mạithegioididong.com, hạng chung 4.7 sao được tính dựa trên 48 ý kiến
đánh của khách hàng đã sử dụng sản phẩm.
Hạng khía cạnh của thực thể: Hạng khía cạnh của một thực thể được ký hiệu bởi một véc-tơ các số thựcrd = (rd1,rd2, . . . ,rdk), vớirdi có giá trị trong khoảng từ 1 đến 5 sao, là hạng của khía cạnhAi, nó xác nhận mức độ đánh giá quan điểm của người dùng trong văn bảnd tương ứng với khía cạnhAi.
Trọng số khía cạnh (aspect weights): Trọng số khía cạnh của một văn bản đánhd đối với sản phẩm plà một véc-tơk− chiềuαd= (αd1,αd1, . . . ,αdk,)với thành phần thứi
là trọng số của khía cạnhAi, xác nhận mức độ quan trọng của khía cạnhAitrên văn bản đánh giád.
Trọng số khía cạnh chung (overall aspect weight): Trọng số khía cạnh chung của một
tập thực thể P có tập văn bản đánh giá D={d1,d2,...,d|D|} là một véc-tơ k− chiều α = (α1,α1, . . . ,αk,)với thành phần thứilà trọng số của khía cạnh Ai, xác nhận mức độ quan trọng chung của khía cạnhAitrên tập văn bản đánh giáD.
2.2 Các mơ hình học máy cơ sở cho phân tích quan điểmtheo khía cạnh theo khía cạnh
2.2.1 Mơ hình hồi quy đánh giá ẩn
Mơ hình hồi quy đánh giá ẩn (Latent Rating Regression Model (LRR)) là một mơ hình xác suất được Wang và các cộng sự [1] đề xuất năm 2010, mơ hình có khả năng xác định hạng khía cạnh và trọng số khía cạnh ẩn cho từng thực thể (sản phẩm/dịch vụ) từ một tập văn bản đánh giá cho trước.
Lấy D=d1,d2, ...,d|D| là một tập văn bản đánh giá của thực thể, hạng của khía cạnh thứitrong một văn bản đánh giád∈Dđược tính bởi:
rdi=
n
∑
j=1
βi jWdi j (2.1)
với βi là véc-tơ trọng số phân cực của khía cạnh thứ ivàWdi là véc-tơ trọng số từ của khía cạnh thứixuất hiện trong văn bản đánh giád.
Hạng chung của văn bảnd∈Dđược giả thiết sinh ra từ phân phốiGaussianvới giá trị trung bình (mean) làαdTsd và phương sai (variance)δ2
Od∼N k ∑ i=1 αdi n ∑ j=1 βi jwdi j,δ2 !
Trọng sốαd của một khía cạnh được giả thiết là một phân phốiαd∼N(µ,∑) Xác suất phân phối của hạng chungOd của văn bản đánh giád được tính bởi cơng thức: p(r|d) =p Od|µ,∑,δ2,β,Wd =R p(αd|µ,∑)p(Od| ∑k i=1 αdi n ∑ j=1 βi jWdi j,δ2)dαd
vớird vàWdi là dữ liệu quan sát được trong văn bản đánh giád vàΘ= (µ,∑,δ2,β)là tham số của mơ hình.