Minh họa mơ hình mạng nơ-ron LRNN xếp hạng ẩn

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 54)

4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

3.4 Minh họa mơ hình mạng nơ-ron LRNN xếp hạng ẩn

Khơng giống với mơ hình mạng nơ-ron thơng thường, q trình học mơ hình LRNN là quá trình khai phá (xác định) hạng và trọng số khía cạnh ẩn cho từng thực thể tương ứng với văn bản đánh giá của nó. Ngoài ra, đối với một văn bản đánh giá đầu vàod thì các tham số αd phải thỏa mãn điều kiện ∑k

i=1

αdi =1 và 0≤αdi ≤1, điều này đã làm cho việc học mơ hình LRNN phức tạp hơn rất nhiều so với mơ hình mạng nơ-ron thơng thường. So với mơ hình quy đánh giá ẩn LRR của Wang và các cộng sự [1], được xây dựng dựa trên các hàm phân phốiGaussianthì mơ hình LRNN sử dụng ít tham số hơn, và phù hợp cho việc mơ hình hóa đánh giá các khía cạnh của thực thể hơn.

Sau khi học biểu diễn đặc trưng các khía cạnh, các véc-tơ biểu diễn khía cạnh được sử dụng làm đầu vào cho mơ hình LRNN. Ký hiệuwi= (wi1,wi2,...,win)là véc-tơ trọng số của khía cạnh Ai. Hạng rdi của văn bản đánh giá d dựa trên tổ hợp tuyến tính của véc-tơxdi và véc-tơ trọng số làrdi∼ ∑n

l=1

xdil.wil [1]. Cụ thể, luận án giả thiết rằng hạng khía cạnhrdi được sinh tại tầng ẩn của mơ hình mạng nơ-ron và nó được tính bởi cơng thức: rdi=sigm( n ∑ l=1 xdilwil+wi0) (3.2)

Các trọng số khía cạnh của văn bản đánh giád được giả thiết là trọng số giữa tầng ẩn và tầng đầu ra. Hạng chung được sinh tại đầu ra của mơ hình và nó được tính dựa trên tổ hợp tuyến tính củaadvàrd như sau:

∧ Od= k ∑ i=1 rdiαdi (3.3)

với điều kiện

k ∑ i=1 αdi=1,0≤αdi≤1,i = 1, 2, . . . , k Để hỗ trợ ∑k i=1

αdi =1và 0≤αdi≤1, chúng ta sử dụng trọng số khía cạnh giảα∧di thay cho trọng sốαdi, như biểu thức sau:

αdi= exp( ∧ αdi) k ∑ l=1 exp(α∧dl) (3.4)

Biểu thức (2) bây giờ trở thành biểu thức như sau:O∧d= ∑k

i=1 rdi exp( ∧ αdi) k ∑ l=1 exp(αdl∧ )

Từng thành phần của trọng số trong θ được cập nhật tại thời điểm t + 1 theo biểu thức

θ(t+1) =θ(t)−η∂E(θ)

∂ θ (3.5)

vớiη là hệ số học.

Ký hiệuOd là giá trị đích của hạng chung trên văn bản đánh giád, chúng ta có hàm lỗi

(cross-entropy loss) cho văn bản đánh giádnhư sau:

Cd=−Odlog

Od−(1−Od)log(1−O∧d) (3.6)

Hàm lỗi (cross-entropy loss) cho tập dữ liệuD={(Xd,Od)}|D|d=1được trình bày như sau:

E(w,α∧) = ∑

d∈D

Cd=− ∑

d∈D

(OdlogO∧d+(1−Od)log(1−O∧d)) (3.7)

Để tránh học q “over-fitting” và khơng mất tính tổng quát, hàmE(w,α)∧ sử dụng thêm tham số chuẩn hóa như sau:

E(w,α∧) =− ∑ d∈D (OdlogO∧d+(1−Od)log(1−O∧d)) +1 2λ k ∑ i=1 |wi|2 (3.8)

với|wi|2=

n

l=1

(wil)2,λ là tham số chuẩn hóa

Ký hiệuW= [w]kxnlà ma trận, trong đó từng hàng là một véc-tơ trọng số của một véc-tơ biểu diễn khía cạnh; w0= (w01,w02, ...,w0k)là véc-tơ độ lệch, với w0i là độ lệch của khía cạnhAi;α∧=hα∧

i

|D|xk là ma trận trọng số khía cạnh giả, từng hàng là một véc-tơ trọng số khía cạnh giả của một văn bản đánh giá; α = [α]|D|xk là một ma trận trọng số khía cạnh, từng hàng là một véc tơ trọng số khía cạnh của một văn bản đánh giá;

R= [r]|D|xk là ma trận hạng khía cạnh, trong đó từng hàng là một véc-tơ trọng số khía cạnh của một văn bản đánh giá.

Mục tiêu của luận án là xác địnhW, w0và α∧ để hàmE(w,α)∧ đạt giá trị nhỏ nhất. Để giải quyết cơng việc này, thuật tốn lan truyền ngược sẽ được sử dụng.

Đạo hàm của hàmE(w,α)∧ theo tham sốO∧d là,

∂E(w,α∧) ∂ ∧ Od =−(O∧d Od −1−Od 1−O∧d ) (3.9)

Đạo hàm của hàmE(w,α)∧ theo tham sốα∧dilà, ∂E(w, ∧ α) ∂ ∧ αdi =∂E(w, ∧ α) ∂ ∧ Od .∂ ∧ Od ∂ ∧ αdi = ∂E(w, ∧ α) ∂ ∧ Od ( k ∑ l=1 δ(i=l)αdi(1−αdi)ri− k ∑ l=1 δ(i6=l)αdiαdlrdl) (3.10) vớiδ(y) = ( 1; ify=true 0; ify= f alse

Đạo hàm của hàmE(w,α)∧ theo tham sốwil là, ∂E(w, ∧ α) ∂wil = ∂E(w, ∧ α) ∂ ∧ Od .∂ ∧ Od ∂wil = ∂E(w, ∧ α) ∂ ∧ Od .αdi.rdi(1−rdi).      |D| ∑ d=1 xdil;(1≤i≤k) 1;(i=0)      +λwil (3.11)

Tại thời điểm t = 0, khởi tạo ma trậnWvà ma trận trọng số khía cạnh giảα∧. Hai pha: lan truyền tiến và lan truyền ngược như sau:

Pha 1: lan truyền tiến, hạngrdi của khía cạnhAitrên văn bản đánh giád tại thời điểmt

tại tầng ẩn được tính theo biểu thức sau:

rdi(t) =sigm(

n

l=1

xdilwil(t) +wi0(t)) (3.12)

bới biểu thức: ∧ Od(t) = k ∑ i=1 αdi(t).rdi(t) (3.13)

Pha 2: lan truyền ngược, pha này có nhiệm vụ cập nhật lại các giá trị của các tham số,

từng thành phần của véc-tơ trọng sốwi và độ lệchwi0 được cập nhật tại thời điểm t + 1theo biểu thức sau:

wil(t+1) =wil(t) +∆wil(t) (3.14) where∆wil(t) =−η∂E(w,

α)(t)

∂wil(t) ,η ∈(0,1)là hệ số học.

Từng thành phần của véc-tơ trọng sốα∧d được cập nhật tại thời điểmt + 1theo biểu thức sau: ∧ αdi(t+1) =α∧di(t) +∆ ∧ αdi(t) (3.15) với∆ ∧ αdi(t) =−η∂E(w, ∧ α)(t) ∂α∧di(t)

Thuật tốn 3 trình bày các bước xử lý để xác định hạng và trọng số khía cạnh ẩn của thực thể.

Thuật toán 3:: Thuật toán xác định hạng và trọng số khía cạnh ẩn của thực thể

Đầu vào: Tập văn bản đánh giá của các thực thểD={d1,d2,...,d|D|}, từng văn bảnd∈Dđược gán một hạng chungOd, hệ số họcη, ngưỡng lỗiε, ngưỡng vòng lặpIvà tham số chuẩn hóaλ

Bước 0:t=0; khởi tạoW,α∧

Bước 1: foriter=0toI do for eachd∈D do

1.1. Tính trọng số khía cạnh theo cơng thức 3.4;

1.2. Tính hạng khía cạnh tại thời điểmttại tầng ẩn theo cơng thức 3.12; 1.3. Tính hạng chung tại thời điểmttại tầng đầu ra theo công thức 3.13; endfor

Cập nhậtWvàα∧tại thời điểmt+1theo công thức 3.14 và 3.15;

Bước 2: Dừng huấn luyện, bước 1 thực hiện lặp cho đến khi độ lệch lỗi

1 |D| ∑ d∈D Od−Od∧ (t)

nhỏ hơn ngưỡng lỗi hoặc Thuật toán đã lặp đủI vịng;

Đầu ra:W,α∧,α,R

bằng cơng thức 3.2, và trọng số của từng khía cạnh được xác định bằng cơng thức 3.4. Kiến trúc của Thuật toán 3 được thiết kế theo một thuật toán lan truyền ngược chuẩn. Độ phức tạp trong một vịng lặp của chỉ sốiterlàO(|D| ∗k∗n), trong đó|D|là số văn bản huấn luyện,klà số khía cạnh của thực thể,nlà số chiều của véc-tơ biểu diễn khía cạnh. Trong thực tế, sốkthường nhỏ hơn so với|D|vàn, vì vậy thời gian thực hiện của

thuật toán phụ thuộc nhiều vàonvàD.

3.3.2 Xác định hạng và trọng số khía cạnh ẩn của thực thể sử dụngmơ hình học biểu diễn đa tầng mơ hình học biểu diễn đa tầng

Các cơng việc cần giải quyết cho bài tốn tương tự như phần trình bày trên. Tuy nhiên, cơng việc học biểu diễn khía cạnh, xác định hạng và trọng số khía cạnh ẩn của thực thể cùng được tích hợp và giải quyết trong một mơ hình đề xuất. Hình 3.5 minh họa cho vấn đề này.

Hình 3.5: Các cơng việc cần giải quyết của bài toán xác định hạng, trọng số khía cạnh ẩn sử dụng mơ hình học biểu diễn đa tầng

Kiến trúc mơ hình đề xuất được minh họa như trong Hình 3.6. Trong đó, từng từ từ văn bản đầu vào được chuyển vào trong véc-tơ ngữ nghĩa tương ứng bằng mơ hình Word2Vec [91, 92]. Sau đó kết hợp tất cả các từ trong một câu để sinh ra biểu diễn của câu bằng mơ hình véc-tơ kết hợp.

Thực tế, mơ hình đề xuất là một mơ hình mạng nơ-ron gồm sáu tầng, cụ thể các tầng biểu diễn thông tin như sau: (1) biểu diễn từ; (2) biểu diễn câu; (3) biểu diễn khía

cạnh; (4) biểu diễn khía cạnh mức cao ; (5) hạng khía cạnh; (6) hạng chung. Trong phần nội dung sau, chúng tơi sẽ trình bày từng tầng với các ký hiệu và cơng thức cần thiết. Đặt tên mô hình là LRNN-ASR, với LRNN là mơ hình mạng nơ-ron hạng khía cạnh ẩn chuẩn “Latent Rating Neural Network” và ASR (“Aspect Semantic Representation”) là biểu diễn ngữ nghĩa khía cạnh.

Hình 3.6: Minh họa mơ hình học biểu diễn đa tầng cho phân tích quan điểm theo khíacạnh cạnh

Tầng biểu điễn từ:Tại tầng này, sử dụng các véc-tơ từ được học mơ hình CBOW làm đầu vào. Đối với từng văn bản đánh giád∈Dvà khía cạnh thứi, xác định đượcpcâu, ký hiệu là{sdi1,sdi2, ...,sdip}. Với từng câusdi j gồmqtừ, ký hiệu{wdi j1,wdi j2, ...,wdi jq}, với từwdi jl có véc-tơ biểu diễn nó, ký hiệu làedi jl.

Tầng biểu diễn câu:Tại tầng này, để đạt được biểu diễn của từng câu trong từng khía cạnh, chúng tơi sử dụng mơ hình véc-tơ thành phần (compositional vector model). Ký hiệu véc-tơ biểu diễn của câusdi j làv(sdi j), áp dụng cơng thức 2.21 véc-tơv(sdi j)được tính như sau:

v(sdi j) =

q

vớiUi∈Rm×m là ma trận trọng số tại mức câu của khía cạnhAi,ui0∈Rm là véc-tơ độ lệch và ký hiệulà hàm nhân thành phần.

Công thức 3.16 được áp dụng cho từng câu trên đoạn văn bản đầu vào được gán nhãn khía cạnhAi, thể hiện sự tương tác giữa các biểu diễn của từng cặp từ để sinh ra biểu diễn cho câu đầu vào. Cách tính này rất giống với một phép tốn tích chập của CNN, thực hiện trên ngữ cảnh là các cặp từ trong một câu. Tuy nhiên, khác là nó khơng sử dụng nhiều ma trận bộ lọc và khơng sử dụng phép tốn trích chọn đặc trưng (max

pooling operation) như trong mơ hình CNN cho tầng tiếp theo.

Tầng biểu diễn khía cạnh:Các biểu diễn khía cạnh đạt được bằng cách kết hợp các biểu diễn câu. Tầng này nhận các véc-tơ biểu diễn câu tương ứng với từng khía cạnh làm đầu vào. Luận án tính véc-tơ biểu diễn của khía cạnhAithảo luận trên văn bản đánh giá

dtheo công thức sau:

xdi=

p

j=1

f(Vi[v(sdi(j−1)) +v(sdi j)] + [vi0]) (3.17)

vớiVi∈Rm×mlà ma trận trọng số tại mức khía cạnhAi,vi0∈Rmlà véc-tơ độ lệch. Các véc-tơ này sẽ được xác định trong pha huấn luyện.

Công thức 3.17 được áp dụng cho từng đoạn văn bản đầu vào được gán nhãn khía cạnh Ai và từng câu trong đoạn văn bản này đã được tính biểu diễn thơng qua cơng thức 3.16. Cụ thể, cơng thức 3.17 thể hiện sự tương tác giữa các biểu diễn của từng cặp câu để sinh ra biểu diễn cho khía cạnhAi.

Tầng biểu diễn khía cạnh mức cao:Các nghiên cứu [48, 53, 55, 87, 93] đã chỉ ra rằng sử dụng một mạng nơ-ron nhiều lớp sẽ giúp làm giàu thông tin cho các biểu diễn và do đó sẽ cải thiện kết quả trong cơng việc dự đốn. Mơ hình LRNN-ASR thực hiện xử lý nhiều khía cạnh, từng khía cạnh có thể ảnh hưởng đến những khía cạnh khác. Do đó, một tầng mới được thêm vào giúp cho việc biểu diễn khía cạnh tốt hơn (gọi là “ tầng biểu diễn khía cạnh mức cao hơn”). Với tầng biểu diễn này, chúng tơi mong muốn mơ hình đề xuất bắt được thơng tin chia sẻ/phối hợp giữa các khía cạnh.

Ký hiệux∗d1, ...,x∗dk là các véc-tơ biểu diễn mức cao củakkhía cạnh trong văn bảnd.

Cơng thức tính biểu diễnx∗dicủa khía cạnhAiđược đề xuất như sau:

x∗di= [ k ∑ j=1 (δ(i=j).β.xdi+δ(i6= j). γ k−1xd j)] (3.18)

với0<β ≤1là trọng số biểu diễn của biểu diễnxditrong biểu diễn mới của nó làxdi∗, 0≤γ <1 là trọng số chia sẻ đặc trưng giữa khía cạnhAi và k−1 khía cạnh cịn lại, β+γ =1,

δ(y) =

(

1; ify=true

0; ify= f alse

Cơng thức tính biểu diễn khía cạnh mức cao 3.18 là cơng thức tổng quát hóa của việc chia sẻ đặc trưng giữa các khía cạnh, nó giúp mơ hình LRNN-ASR bắt được mối quan hệ giữa các khía cạnh cho từng biểu diễn khía cạnh cụ thể được tốt hơn.

Tầng hạng khía cạnh:Mục đích mơ hình là xác định hạng khía cạnh và trọng số khía cạnh ẩn, vì thế mơ hình được thiết kế có tầng hạng các khía cạnh ẩn trong đó. Các hạng khía cạnh được sinh ra từ tầng “biểu diễn khía cạnh mức cao hơn”. Cụ thể, lấy các véc-tơ

x∗d1, ...,x∗dk làm đầu vào, sử dụng hàmsigmoidtính hạng khía cạnhrdi cho khía cạnhAi

như sau: rdi=sigm( m ∑ l=1 x∗dilwil+wi0) (3.19) vớiwil vàwi0là độ lệch.

Tầng hạng chung: Hạng chung của mơ hình là mức khái qt cao nhất của mơ hình và cũng được xem như là kết quả của mơ hình. Xuất phát từ tầng hạng các khía cạnh, chúng ta kết hợp các hạng khía cạnh để sinh ra hạng chung (là đánh giá về đối tượng trong văn bản) theo công thức như sau:

∧ Od= k ∑ i=1 rdiαdi (3.20)

với0≤αdi≤1,i = 1, 2, . . . , k thỏa mãn điều kiện

k

i=1

αdi=1

Để tránh tính tốn phức tạp khi ước lược các tham số{αd1, . . . ,αdk}, sử dụng thêm một tập tham số trọng số khía cạnh phụ{α∧d1, . . . ,α∧dk}và giá trị củaαdiđược tính theo cơng thức sau: αdi= exp( ∧ αdi) k ∑ l=1 exp(α∧dl) (3.21)

Công thức 3.20 trở thành công thức sau:

∧ Od = k ∑ i=1 rdi exp(α∧di) k ∑ l=1 exp(α∧dl) (3.22)

Học mơ hình: Học mơ hình là q trình xác định giá trị cho các tham số sao cho mơ hình khớp với tập dữ liệu huấn luyện. Để đạt được mục tiêu này chúng ta thực hiện việc cực tiểu hàm lỗi thông qua tập dữ liệu huấn luyện bằng cách điều chỉnh các tham số của mơ hình. Cụ thể q trình học được thực hiện như sau.

Trong mơ hình, chúng tơi sử dụng thêm một số ký hiệu như sau:

• Ký hiệuU= [U∗1,U∗2, ...,U∗k]là tập các tham số cho việc học các biểu mức câu tại tầng biểu diễn câu, tương ứng vớikkhía cạnh. Ở đây,U∗i ={Ui,ui0}bao gồm ma trận trọng số và véc-tơ độ lệch tương ứng với khía cạnhAi.

• Ký hiệuV= [V∗1,V∗2, ...,V∗k]là tập các tham số cho việc học biểu diễn khía cạnh tại tầng biểu diễn khía cạnh, tương ứng vớikkhía cạnh. Trong đó,V∗i ={Vi,vi0} gồm ma trận trọng số và véc tơ độ lệch tương ứng với khía cạnhAi.

• Ký hiêuW= [w∗1,w∗2, ...,w∗k]là tập tham số cho vệc xác định hạng khía cạnh, với w∗i ={wi,wi0}gồm véc-tơ trọng sốwivà độ lệchwi0tương ứng với khía cạnhAi,

i=1, . . . ,k.

• Ký hiệuα∧=hα∧

i

|D|xklà ma trận tham số cho việc học các hạng chung. Từng hàng của ma trậnα∧ là véc-tơ trọng phụ của văn bảnd, véc-tơ{α∧d1, . . . ,α∧dk}được sử dụng để tính hạng chung của văn bảnd từ khạng khía cạnh. Cũng từ ma trậnα∧ chúng ta sẽ tính được trọng số khía cạnh thực tế bằng cơng thức 3.21.

Ngoài ra, sử dụng ký hiệuR= [r]|D|xk là ma trận hạng khía cạnh, từng hàng của nó là một véc-tơ hạng khía cạnh của một văn bản.

Mục đích của pha học mơ hình là ước lượng các tập tham số{U,V,W,α}, quá trình∧

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 54)

Tải bản đầy đủ (PDF)

(136 trang)