Minh họa mơ hình học biểu diễn đa tầng cho phân tích quan điểm theo

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 59)

4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

3.6 Minh họa mơ hình học biểu diễn đa tầng cho phân tích quan điểm theo

nội dung sau, chúng tơi sẽ trình bày từng tầng với các ký hiệu và cơng thức cần thiết. Đặt tên mơ hình là LRNN-ASR, với LRNN là mơ hình mạng nơ-ron hạng khía cạnh ẩn chuẩn “Latent Rating Neural Network” và ASR (“Aspect Semantic Representation”) là biểu diễn ngữ nghĩa khía cạnh.

Hình 3.6: Minh họa mơ hình học biểu diễn đa tầng cho phân tích quan điểm theo khíacạnh cạnh

Tầng biểu điễn từ:Tại tầng này, sử dụng các véc-tơ từ được học mơ hình CBOW làm đầu vào. Đối với từng văn bản đánh giád∈Dvà khía cạnh thứi, xác định đượcpcâu, ký hiệu là{sdi1,sdi2, ...,sdip}. Với từng câusdi j gồmqtừ, ký hiệu{wdi j1,wdi j2, ...,wdi jq}, với từwdi jl có véc-tơ biểu diễn nó, ký hiệu làedi jl.

Tầng biểu diễn câu:Tại tầng này, để đạt được biểu diễn của từng câu trong từng khía cạnh, chúng tơi sử dụng mơ hình véc-tơ thành phần (compositional vector model). Ký hiệu véc-tơ biểu diễn của câusdi j làv(sdi j), áp dụng cơng thức 2.21 véc-tơv(sdi j)được tính như sau:

v(sdi j) =

q

vớiUi∈Rm×m là ma trận trọng số tại mức câu của khía cạnhAi,ui0∈Rm là véc-tơ độ lệch và ký hiệulà hàm nhân thành phần.

Công thức 3.16 được áp dụng cho từng câu trên đoạn văn bản đầu vào được gán nhãn khía cạnhAi, thể hiện sự tương tác giữa các biểu diễn của từng cặp từ để sinh ra biểu diễn cho câu đầu vào. Cách tính này rất giống với một phép tốn tích chập của CNN, thực hiện trên ngữ cảnh là các cặp từ trong một câu. Tuy nhiên, khác là nó khơng sử dụng nhiều ma trận bộ lọc và khơng sử dụng phép tốn trích chọn đặc trưng (max

pooling operation) như trong mơ hình CNN cho tầng tiếp theo.

Tầng biểu diễn khía cạnh:Các biểu diễn khía cạnh đạt được bằng cách kết hợp các biểu diễn câu. Tầng này nhận các véc-tơ biểu diễn câu tương ứng với từng khía cạnh làm đầu vào. Luận án tính véc-tơ biểu diễn của khía cạnhAithảo luận trên văn bản đánh giá

dtheo công thức sau:

xdi=

p

j=1

f(Vi[v(sdi(j−1)) +v(sdi j)] + [vi0]) (3.17)

vớiVi∈Rm×mlà ma trận trọng số tại mức khía cạnhAi,vi0∈Rmlà véc-tơ độ lệch. Các véc-tơ này sẽ được xác định trong pha huấn luyện.

Công thức 3.17 được áp dụng cho từng đoạn văn bản đầu vào được gán nhãn khía cạnh Ai và từng câu trong đoạn văn bản này đã được tính biểu diễn thơng qua cơng thức 3.16. Cụ thể, công thức 3.17 thể hiện sự tương tác giữa các biểu diễn của từng cặp câu để sinh ra biểu diễn cho khía cạnhAi.

Tầng biểu diễn khía cạnh mức cao:Các nghiên cứu [48, 53, 55, 87, 93] đã chỉ ra rằng sử dụng một mạng nơ-ron nhiều lớp sẽ giúp làm giàu thơng tin cho các biểu diễn và do đó sẽ cải thiện kết quả trong cơng việc dự đốn. Mơ hình LRNN-ASR thực hiện xử lý nhiều khía cạnh, từng khía cạnh có thể ảnh hưởng đến những khía cạnh khác. Do đó, một tầng mới được thêm vào giúp cho việc biểu diễn khía cạnh tốt hơn (gọi là “ tầng biểu diễn khía cạnh mức cao hơn”). Với tầng biểu diễn này, chúng tơi mong muốn mơ hình đề xuất bắt được thơng tin chia sẻ/phối hợp giữa các khía cạnh.

Ký hiệux∗d1, ...,x∗dk là các véc-tơ biểu diễn mức cao củakkhía cạnh trong văn bảnd.

Cơng thức tính biểu diễnx∗dicủa khía cạnhAiđược đề xuất như sau:

x∗di= [ k ∑ j=1 (δ(i=j).β.xdi+δ(i6= j). γ k−1xd j)] (3.18)

với0<β ≤1là trọng số biểu diễn của biểu diễnxditrong biểu diễn mới của nó làxdi∗, 0≤γ <1 là trọng số chia sẻ đặc trưng giữa khía cạnhAi và k−1 khía cạnh cịn lại, β+γ =1,

δ(y) =

(

1; ify=true

0; ify= f alse

Cơng thức tính biểu diễn khía cạnh mức cao 3.18 là cơng thức tổng quát hóa của việc chia sẻ đặc trưng giữa các khía cạnh, nó giúp mơ hình LRNN-ASR bắt được mối quan hệ giữa các khía cạnh cho từng biểu diễn khía cạnh cụ thể được tốt hơn.

Tầng hạng khía cạnh:Mục đích mơ hình là xác định hạng khía cạnh và trọng số khía cạnh ẩn, vì thế mơ hình được thiết kế có tầng hạng các khía cạnh ẩn trong đó. Các hạng khía cạnh được sinh ra từ tầng “biểu diễn khía cạnh mức cao hơn”. Cụ thể, lấy các véc-tơ

x∗d1, ...,x∗dk làm đầu vào, sử dụng hàmsigmoidtính hạng khía cạnhrdi cho khía cạnhAi

như sau: rdi=sigm( m ∑ l=1 x∗dilwil+wi0) (3.19) vớiwil vàwi0là độ lệch.

Tầng hạng chung: Hạng chung của mơ hình là mức khái qt cao nhất của mơ hình và cũng được xem như là kết quả của mơ hình. Xuất phát từ tầng hạng các khía cạnh, chúng ta kết hợp các hạng khía cạnh để sinh ra hạng chung (là đánh giá về đối tượng trong văn bản) theo công thức như sau:

∧ Od= k ∑ i=1 rdiαdi (3.20)

với0≤αdi≤1,i = 1, 2, . . . , k thỏa mãn điều kiện

k

i=1

αdi=1

Để tránh tính tốn phức tạp khi ước lược các tham số{αd1, . . . ,αdk}, sử dụng thêm một tập tham số trọng số khía cạnh phụ{α∧d1, . . . ,α∧dk}và giá trị củaαdiđược tính theo cơng thức sau: αdi= exp( ∧ αdi) k ∑ l=1 exp(α∧dl) (3.21)

Công thức 3.20 trở thành công thức sau:

∧ Od = k ∑ i=1 rdi exp(α∧di) k ∑ l=1 exp(α∧dl) (3.22)

Học mơ hình: Học mơ hình là q trình xác định giá trị cho các tham số sao cho mơ hình khớp với tập dữ liệu huấn luyện. Để đạt được mục tiêu này chúng ta thực hiện việc cực tiểu hàm lỗi thông qua tập dữ liệu huấn luyện bằng cách điều chỉnh các tham số của mơ hình. Cụ thể q trình học được thực hiện như sau.

Trong mơ hình, chúng tôi sử dụng thêm một số ký hiệu như sau:

• Ký hiệuU= [U∗1,U∗2, ...,U∗k]là tập các tham số cho việc học các biểu mức câu tại tầng biểu diễn câu, tương ứng vớikkhía cạnh. Ở đây,U∗i ={Ui,ui0}bao gồm ma trận trọng số và véc-tơ độ lệch tương ứng với khía cạnhAi.

• Ký hiệuV= [V∗1,V∗2, ...,V∗k]là tập các tham số cho việc học biểu diễn khía cạnh tại tầng biểu diễn khía cạnh, tương ứng vớikkhía cạnh. Trong đó,V∗i ={Vi,vi0} gồm ma trận trọng số và véc tơ độ lệch tương ứng với khía cạnhAi.

• Ký hiêuW= [w∗1,w∗2, ...,w∗k]là tập tham số cho vệc xác định hạng khía cạnh, với w∗i ={wi,wi0}gồm véc-tơ trọng sốwivà độ lệchwi0tương ứng với khía cạnhAi,

i=1, . . . ,k.

• Ký hiệuα∧=hα∧

i

|D|xklà ma trận tham số cho việc học các hạng chung. Từng hàng của ma trậnα∧ là véc-tơ trọng phụ của văn bảnd, véc-tơ{α∧d1, . . . ,α∧dk}được sử dụng để tính hạng chung của văn bảnd từ khạng khía cạnh. Cũng từ ma trậnα∧ chúng ta sẽ tính được trọng số khía cạnh thực tế bằng cơng thức 3.21.

Ngồi ra, sử dụng ký hiệuR= [r]|D|xk là ma trận hạng khía cạnh, từng hàng của nó là một véc-tơ hạng khía cạnh của một văn bản.

Mục đích của pha học mơ hình là ước lượng các tập tham số{U,V,W,α}, quá trình∧ học cũng là q trình xác định ma trận hạng khía cạnhRvà ma trận trọng số khía cạnh α.

Ký hiệuOd giá trị đích tức là hạng chung của văn bản đánh giád, chúng ta có hàm giá

trên văn bản đánh giád như sau:

Cd=−Odlog

Od−(1−Od)log(1−O∧d) (3.23)

Đối với tập dữ liệu D={d1,d2,...,d|D|}, hàm lỗi (cross-entropy loss) của mơ hình như sau:

E(U,V,W,α∧) =− ∑

d∈D

Ngồi ra, khơng mất tính tổng quát và để tránh việc học quá khớp (over-fitting), một tham số chuẩn hóa được thêm vào hàmE(θ)như sau:

E(θ) =−∑ d∈D (Odlog ∧ Od+(1−Od)log(1−O∧d)) +1 2λkθk2 (3.25)

với θ = [U,V,W,α∧] là tập tham số của mơ hình, λ là tham số chuẩn hóa vàkθk2= ∑

i

θi2. Để xác định các tham số trongθ, chúng ta áp dụng thuật tốn lan truyền ngược để cực tiểu hóa hàm giáE(θ). Từng thành phần của trọng số trongθ được cập nhật tại thời điểmt + 1theo công thức sau:

θ(t+1) =θ(t)−η∂E(θ)

∂ θ (3.26)

Thuật tốn 4 trình bày các bước học của mơ hình đề xuất.

Thuật toán 4:Học đa tầng biểu diễn cho xác định hạng và trọng số khía cạnh ẩn của thực thể.

Đầu vào: Tập văn bản đánh giá của các thực thểD={d1,d2,...,d|D|}; từng văn bảnd∈Dđược gán hạng chungOd

Đầu ra: Các giá trị cho các tham số:U,V,W,α∧

Bước 1: Khởi tạo giá trị cho: hệ số họcη, ngưỡng lỗiε, ngưỡng vịng lặpI, tham

số chuẩn hóaλ, trọng số chia sẻ đặc trưngγ; Khởi tạo các tham số:U,V,W,α∧

Bước 2: foriter=1toI do

for từng văn bản đánh giád∈Ddo

2.1. Tính các biểu diễn mức câu tại thời điểmttheo cơng thức 3.16; 2.2. Tính các biểu diễn mức khía cạnh tại thời điểmttheo cơng thức 3.17; 2.3. Tính các biểu diễn mức khía cạnh mức cao hơn tại thời điểmttheo

cơng thức 3.18;

2.4. Tính hạng khía cạnh tại thời điểmttheo cơng thức 3.19; 2.5. Tínhαdisử dụng biểu thức 3.21;

2.6. Tính hạng chung tại thời điểmttheo cơng thức 3.22; endfor

Cập nhật tham số trong tậpθ tại thời điểmt+1theo cơng thức 3.26;

Tính giá trị độ lệch hạng chung theo cơng thức: |D|1

|D| ∑ d=1 Od−Od∧ (t)

Thuật toán sẽ dừng nếu giá trị độ lệch hạng chung nhỏ hơn ngưỡng lỗiε; hoặc Thuật toán đã lặp đủIvịng;

endfor

Sau khi đạt đượcU,V,Wvàα∧chúng ta có thể dễ dàng xác định được ma trận hạng khía cạnhRvà trọng số khía cạnhα theo công thức 3.19 và công thức 3.21 tương ứng.

So với Thuật toán 3, Thuật toán 4 sử dụng thêm các tập tham sốUvà Vtương ứng cho tầng biểu diễn câu và khía cạnh, cùng với tham sốWvàα∧ đã làm cho độ phức tạp của thuật toán lớn hơn rất nhiều. Trong thực nghiệm, luận án sử dụng thêm kỹ thuật

mini-batching[94, 95]. Kỹ thuậtmini-batchingchia nhỏ tập dữ liệuDthành các tập nhỏ hơn, Bước 2 của thuật toán thực hiện trên các tập dữ liệu nhỏ này. Giải pháp này nhằm giúp cho thuật tốn chạy nhanh hơn và do đó thuật tốn cũng hội tụ nhanh hơn.

3.3.3 Xác định trọng số khía cạnh chung của thực thể sử dụng mơ hình mạng nơ-ron

Mơ hình LRNN-ASR sử dụng giả thiết sự tồn tại trọng số khía cạnh riêng của từng thực thể nhằm đánh giá sâu về các trọng số khía cạnh riêng đó, cũng như mong muốn có một mơ hình xác định trọng số khía cạnh chung. Trong phần này luận án trình bày mơ hình NNAWs (Neural Network Aspect Weights) xác định hạng khía cạnh chung của thực thể. Hình 3.7 minh họa mơ hình xác định trọng số khía cạnh chung của thực thể. Đầu vào là các véc-tơ hạng khía cạnh của từng thực thể, đầu ra là các hạng chung tương ứng. Trọng số khía cạnh chung (overall aspect weights) được giả thiết là các trọng số của mơ hình. Q trình xác định trọng số khía cạnh chung là q trình học mơ hình dự đốn hạng chung (overall rating) của thực thể.

Hình 3.7: Minh họa mơ hình xác định hạng khía cạnh chung

Đối với văn bản đánh giá d, đầu vào của mơ hình là một véc-tơ hạng khía cạnh k

chiềurd = (rd1,rd2,...,rdk), hạng chung củad là đầu ra của mơ hình và được tính theo cơng thức sau: ∧ Od=g(v) =g( k ∑ i=1 αi.rdi) = k ∑ i=1 αi.rdi (3.27)

ký hiệuOd giá trị đích của hạng chung củad hàm độ lệch lỗi trung bình của tập D

được định nghĩa như sau:

E(α) = 1 2 ∑ d∈D (Od−Od∧ ) 2 (3.28) Để hỗ trợ ∑k i=1

αi=1và0≤αi≤1, thay thếαitheo công thức sau:

ai= exp( ∧ αi) k ∑ exp(α∧l) (3.29)

Hàm lỗiE(α)vớiα trở thành hàm lỗiE(α∧)vớiα∧là tham số như sau: E(α∧) =1 2 ∑ d∈D sd(α∧) 2 (3.30) vớisd(α∧) =Od− ∑k i=1 exp(α∧i) k ∑ l=1 exp(α∧l) .rdi

Để xác định được trọng số chung, một thuật toán toán lặp được thiết kế dựa trên thuật toán lan truyền ngược như sau:

Tại thời điểmt=0, từng thành phần trong véc-tơα∧i∈α∧được khởi tạo theo công thức sau: ∧ αi= ni k ∑ l=1 nl (3.31) với ni= ∑n p=1

nip là tổng số từ của khía cạnh Ai, nip là tần xuất xuất hiện của từ thứ p

trong phần văn bản được gán khía cạnhAi, ∑k

l=1

nl là tổng số từ xuất hiện trong tất cả các khía cạnh.

hạng chung của văn bảndtại thời điểm tđược tính theo cơng thức sau:

∧ Od(t) = k ∑ i=1 αi(t).rdi (3.32)

Tại thời điểmt + 1, từng thành phần của trọng số trong véc-tơα∧= (α∧1,α∧2, ...,α∧k)được cập nhật theo công thức sau:

∧ αi(t+1) =α∧i(t) +∆α∧i(t); 1≤i≤k (3.33) với∆ ∧ αi(t) =−η∂E( ∧ α) ∂αi(t)∧ =−η(Od−O∧d(t)).∂sd(α∧) ∂α∧i ,ηlà trọng số học.

Đạo hàm củasd(α∧)theo tham sốα∧ilà,

∂sd(α∧) ∂ ∧ αi =− ∑k l=1 (δ(i=l)αi(1−αi)rdi−δ(i6=l)αlαirdl) vớiδ(y) = ( 1; ify=true 0; ify= f alse

Thuật tốn NNAWs được trình bày tổng qt lại như sau:

Thuật tốn 5:Thuật toán NNAWs xác địnhα∧

Đầu vào: Tập dữ liệu văn bản đánh giá các thực thểD={(rd,Od)}|D|d=1, hệ số học η, ngưỡng lỗiε, ngưỡng vòng lặpI

Bước 0:t=0; Khởi tạo tham sốα∧theo biểu thức 3.31;

Bước 1: foriter=0toI do

for each pair(rd,Od)∈Ddo

1.1. Tínhα tại thời điểmttheo cơng thức 3.29; 1.2. TínhOd∧ tại thời điểmttheo cơng thức 3.32; endfor

Cập nhậtα∧tại thời điểmt+1theo công thức 3.33;

Bước 2: Thuật tốn dừng khi tổng trung bình lỗi trong Bước 1

1 |D| ∑ d∈D Od−O∧d(t)

nhỏ hơn ngưỡng lỗiε hoặc số vòng lặp bằngI.

Đầu ra :α∧

Sau khi đạt được véc-tơ trọng sốα∧, từng thành phần của véc-tơ trọng số khía cạnh chungαi∈α được tính theo cơng thức 3.29.

Độ phức tạp của thuật tốn NNAWs trong từng vịng lặp với chỉ sốiterlàO(|D| ∗k),

trong thực nghiệmk=5do đó thuật tốn thực hiện cho kết quả trong thời gian rất nhanh.

3.4 Thực nghiệm

Dữ liệu sử dụng trong thực nghiệm được cung cấp bởi các tác giả của các bài báo [1, 39], nó hiện được lưu trữ tại địa chỉ2. Thực tế, đây là phiên bản mới của dữ liệu đã được sử dụng trong [1,39]. Tập dữ liệu này gồm 174,615 ý kiến đánh giá của 1,768 khách sạn, nó được thu thập từ một website du lịch rất nổi tiếngwww.tripadvisor.com. Tập các ý

kiến của dịch vụ khách sạn gồm có 5 khía cạnh làValue,Room,Location,Cleanliness,

Service. Từng ý kiến đánh giá được gán với một hạng chung cho khách sạn và từng

khía cạnh cũng được gán với một hạng khía cạnh. Các hạng được gán từ 1 sao đến 5 sao. Đối với từng sản phẩm/dịch vụ khách sạn, chúng tôi xây dựng văn bản đánh giá của nó bằng cách hợp nhất tất cả các ý kiến đánh giá vào một văn bản, như vậy mỗi đối tượng cụ thể (ví dụ ở đây là một khách sạn cụ thể) chúng ta sẽ có một văn bản đánh giá khách sạn đó. Hạng chung của văn bản được tính bằng trung cộng các hạng chung của tất cả các ý kiến đánh giá trên đối tượng đó. Ngồi ra, để giá trị hạng chung và hạng khía cạnh theo giả thiết phù hợp với giá trị các hàm dự đốn theo mơ hình đề xuất, giá trị

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 59)

Tải bản đầy đủ (PDF)

(136 trang)