Gi ith iu bƠi toỏn túm tt vn bn

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 124)

 POSI

x h h .

Do b gi i mưs d ng m ng LSTMđ d đoỏn m t t d a vƠo t tr c đú nờn đ i v i cỏc v n b n dƠi thỡ thụng tin ph n đ u v n b n s b “quờn” d n đ n n i

112

dung s t p trung cu i v n b n. Chớnh vỡ th , mụ hỡnh s d ng thờm đ c tr ng v trớ cõu xPOSI và x lý c p nh t nõng tr ng s chỳ ý c a cỏc t c a cỏc cơu đ u v n b n lờn b ng cỏch chia tr ng s chỳ ý c a t cho v trớ cơu xPOSIt ng ng c a nú.

c tr ng t n su t xu t hi n c a t

V i cỏc v n b n cú đ dƠi khỏc nhau,cú nh ng t xu t hi n nhi u trong cỏc v n b n dƠi thay vỡ xu t hi n trong cỏc v n b n ng n nờn t n su t xu t hi n c a t t trong v n b n d đ c tớnh theo cụng th c sau:

 

f t ,d TF ( t )

T

 ; trong đú: t lƠ m t t trong v n b n d, f(t,d) là s l n xu t hi n c a t trong v n b n d, T lƠ t ng s t trong v n b n.

V i vộc t bi u di n v n b n đ u vƠo xx11,x21,x31,....,xJ H; trong đú: xjh là t th j cơu th h, ta xỏc đ nh đ c vộc t bi u di n TF là:  ( 11), ( 21), ( 31),...., ( )  TF J H x TF x TF x TF x TF x . Giỏ tr TF bi u di n m c đ quan tr ng c a t trong v n b n nờn mụ hỡnh s d ng thờm đ c tr ng TF và x lý c p nh t nơng tr ng s c a t lờn b ng cỏch nhơn tr ng s chỳ ý c a t v i xTF t ng

ng đ giỳp mụ hỡnh chỳ ý vƠo cỏc t quan tr ng.  đo MMR i m MMR th hi nđ c đ t ng đ ng c a t v i ch đ v n b n vƠ tớnh d th a thụng tin đ i v i b ntúm t t hi n cú. V i vộc t bi u di n v n b n đ u vƠo xx11,x21,x31,....,xJ H; trong đú: xjh là t th j cơu th h, vộc t bi u di n MMR đ c xỏc đ nh là:   R  ( 11), ( 21), ( 31),...., ( ) MM J H x MMR x MMR x MMR x MMR x

T i th i đi m đỏnh giỏ mụ hỡnh, đi m MMR đ c đ a vƠo đ tớnh giỏ tr phõn

b chỳ ý.

Nh v y, giỏ tr phõn b chỳ ý đ c tớnh l i sau khi thờm 3 đ c tr ng m i nh sau:

- Trong giai đo n hu n luy n mụ hỡnh: Tớnh toỏn theo cụng th c (4.25) và cụng th c (4.8) trờn.

- Trong giai đo n đỏnh giỏ mụ hỡnh: Tớnh toỏn theo cụng th c (5.9) d i đơy vƠ cụng th c (4.8) trờn.     ( ) tanh . .    T e d

align align j t align

e tj TF MMR POSI v W h h b s x x x (5.9) c) Ph ng phỏp PG - MMR Ph ng phỏp PG – MMR [147] mụ t khung l p th c hi n túm t t đa v n b n d i d ng m t siờu v n b nđ c k t h pt t p cỏc v n b n đ u vƠo đ sinh ra b n túm t t. Trong m i b c l p, ph ng phỏp PG - MMR ch n ra k cơu cú đi m cao nh t d a theo nguyờn t c c a ph ng phỏp MMR, k cõu này đ c s d ng lƠm đ u vƠo cho m ng sinh t - sao chộp t đ sinh ra m t cơu túm t t. Ti p theo, đi m c a cỏc cơu đ u vƠo đ c c p nh t l i d a trờn đ t ng đ ng v icỏc cơu c a v n b n đ u vƠo (đ quan tr ng) và cỏc cơu đư túm t t trong cỏc b c l p tr c (đ d th a). Cơu gi ng v i cơu đư đ c sinh túm t t tr c đú h n s nh n đi m th p h n. Vi c ch n k cơu thụng qua ph ng phỏp PG - MMR giỳp cho mụ hỡnh sinh t - sao

113

chộp t xỏc đ nh đ cn i dung c acơu ngu n ch a đ a vƠo b n túm t t, t đú gi i quy t đ c v n đ trựng l p thụng tin khi túm t t v n b n dƠị

Hỡnh 5.6. Minh h a ph ng phỏp PG-MMR (k= 2) [147]

mụ hỡnh sinh t - sao chộp t ho t đ ng hi u qu khi s d ng k cơu ngu n ch n đ c đ th c hi n túm t t mƠ khụng c n hu n luy nl i mụ hỡnh, cỏc tham s đ c đi u ch nh trong quỏ trỡnh đỏnh giỏnh sau:

Giỏ tr phơn b chỳ ý ph thu c vƠo k cơu đ c ch n: N u t thu c k cơu đ c ch n thỡ s đ c tớnh theo cụng th c (4.8) ch ng 4, trong cỏc tr ng h p cũn l i thỡ s b ng 0 nh sau: 0,       e tj e tjnew

,nếu từ j k câu được chọn

trong các trường hợp còn lại (5.10)

Trong ph ng phỏp PG-MMR, cỏc cơu khụng đ c ch ng i lƠ cỏc cơu b “t t”

(“mute”).

t ng đ ng vƠ đ d th a c a cơu ngu n trong ph ng phỏp PG - MMR đ c tớnh toỏn theo cụng th c (2.44) c a ph ng phỏp MMR đ xu t đư trỡnh bày ch ng 2.

5.3.2.3. Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t

Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t đ c trỡnh bƠy chi ti t trong Hỡnh 5.7.

Mụ hỡnh s d ng ph ng phỏp MMR đ trớch rỳt cỏc cơu đ i di n t siờu v n b nđ c k t h p t t p v n b n ngu n đ u vƠo vƠ t n d ng mụ hỡnh mó húa - gi i mó ( đơy lƠ m ng Pointer-Generator) đ túm t t cỏc cơu này thƠnh b n túm t t túm l c vƠ l p l i cho đ n khi đ t ng ng xỏc đ nh. Mụ hỡnh đ xu t s d ng mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c trờn cỏc b d li u túm t t đ n v n b nh ng túm l c t ng ng.

Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t g m 2 thƠnh ph n chớnh: - Mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS đ c hu n luy n tr ctrờn cỏc b d li u túm t t đ n v n b n h ng túm l c t ng ng đư đ xu t ch ng 4 (g i lƠ mụ hỡnh pre-trained PG_Feature_ASDS).

- Mụ hỡnh PG-MMR [147] ỏp d ng trong túm t t đa v n b n: t ng thớch v i mụ hỡnh túm t t đ n v n b n pre-trained PG_Feature_ASDS, mụ hỡnh PG-

114

MMR [147] đ c x lý thờm cỏc đ c tr ng t n su t xu t hi n c a t TF vƠ v trớ cơu trong v n b n POSỊ

Hỡnh 5.7. Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t PG_Feature_AMDS

i v i b gi i mư, c n chia thành hai giai đo n là: Hu n luy n mụ hỡnh và sinh b n túm t t vỡ khi hu n luy n mụ hỡnh ta s d ng giỏ tr đ u ra th c t làm đ u vƠo cho b gi i mư, cũn sinh b n túm t t lƠ giai đo n sau khi đư hu n luy n xong mụ hỡnh pre-trained PG_Feature_ASDS vƠ s d ng mụ hỡnh nƠy đ d đoỏn k t qu đ u ra. Do khụng bi t đ c k t qu đ u ra th c t nh trong giai đo n hu n luy n nờn mụ hỡnh s d ng thu t toỏn tỡm ki m Beam đ tỡm ra k t qu phự h p nh t.

Cỏc đ c tr ng đ xu t thờm m i vào t ng giai đo nnh sau:

- Giai đo n hu n luy n mụ hỡnh pre-trained PG_Feature_ASDS (mụ hỡnh này là đ u vƠo cho ph ng phỏp PG-MMR): xu t thờm cỏc đ c tr ng t n su t xu t hi n c a t TF và v trớ cơu POSI vào khi tớnh đi m chỳ ýc a t trong v n b n.

- Giai đo n đỏnh giỏ mụ hỡnh (x lý b i ph ng phỏp PG-MMR): Thờm cỏc đ c tr ng TF, POSI và MMR đ tớnh đi m chỳ ý ỏp d ng cho t ng đ n v n b n trong siờu v n b n tr c khi đ avƠo thu t toỏntúm t tđa v n b n.

D a trờn thu t toỏn túm t t c a mụ hỡnh trong [147], thu t toỏn túm t t c a mụ hỡnh đ xu t đ c mụ t d iđơỵ

115

Thu t toỏn 5.3: PG-MMR cho túm t t đa v n b n túm l c

u vào:

- D li u đ n v n b n (SD); - D li u đa v n b n (MD);

u ra: B n túm t t c a t p đa v n b n (Summary);

Thu t toỏn:

1: Hu n luy n mụ hỡnh Pointer – Generator v i SD;

2: Tớnh toỏn I(Si) và R(Si) t ng ng là cỏc đi m đ quan tr ng và đ d th a c a cỏc cõu ngu n đ u vào Si  MD; 3: MMR(Si)  I(Si) v i t t c cỏc cõu ngu n;

4: Summary  {};

5: t  ch s (index) c a cỏc t trong b n túm t t; 6: While t < Lmax do //Lmax là đ dài t i đa b n túm t t; 7: Ch n k cõu v i đi m MMR cao nh t;

8: Tớnh atjnewe theo cụng th c (4.5), (4.6) và (5.10);

9: Ch y gi i mó PG cho t ng b c đ nh n đ c {wt}; //w là b n túm t t Summary t k cõu

10: Summary  Summary + {wt}; //Summary là b n túm t t 11: If wt là ký hi u k t thỳc cõu then 12: R(Si)  Sim(Si,Summary), i; 13: MMR(Si)  I(Si) − (1 − )R(Si), i; 14: End if; 15: End While; 16: Return; 5.3.2.4. Mụ hỡnh hu n luy n đ xu t

Trong quỏ trỡnh th nghi m mụ hỡnh túm t t đa v n b n s d ng mụ hỡnh pre- trained PG_Feature_ASDS, nh n th y cỏc k t qu thu đ c c a mụ hỡnh ch a cao nh mong mu n. Do đú, mụ hỡnh đ xu t tinh ch nh mụ hỡnh pre-trained PG_Feature_ASDS b ng vi c hu n luy n ti p mụ hỡnh pre-trained PG_Feature_ASDS trờn cỏc b d li u túm t t đa v n b n t ng ng (cỏc b d li u túm t t đa v n b n đ c s d ng đ hu n luy n ti p mụ hỡnh khỏc bi t v i cỏc b d li u s s d ng đ đỏnh giỏ mụ hỡnh). Cỏc giai đo n hu n luy n và đỏnh giỏ cho mụ hỡnh túm t t đa v n b n h ng túm l c đ c bi u di n chi ti t nh trong hỡnh 5.8 d i đơy, bao g m 3 giai đo n:

(1) Giai đo n 1: Hu n luy n mụ hỡnh túm t t đ n v n b n h ng túm l c ban đ u PG_Feature_ASDS đ đ c mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c (mụ hỡnh pre-trained PG_Feature_ASDS).

Mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n trờn b d li u CNN/Daily Mail (ti ng Anh) vƠ b d li u Baomoi (ti ng Vi t) đ đ c mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c s d ng cho mụ hỡnh túm t t đa v n b n h ng túm l cđ xu t.

(2) Giai đo n 2: Hu n luy n ti p mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS trờn cỏc b d li u túm t t đa v n b n t ng ng.

116

Do s l ng cơu c a b n túm t t tham chi u c a cỏc b d li u CNN/Daily Mail vƠ Baomoi nh nờn mụ hỡnh pre-trained PG_Feature_ASDS th ng sinh ra b n túm t t cú s l ng cơu nh nờn đ dƠi c a b n túm t t ng n, trong khi cỏc b d li u s d ng đ đỏnh giỏ cho mụ hỡnh túm t t đa v n b n (b d li u DUC 2004 đ i v i ti ng Anh, Corpus_TMV đ i v i ti ng Vi t) cú b n túm t t tham chi u dƠi h n. Nh n th y b d li u DUC 2007 và DUC 2004 cú cỏc đ c đi mgi ng nhau nờn mụ hỡnh pre-trained PG_Feature_ASDS đ c đ xu t hu n luy n ti p trờn b d li u DUC 2007 (ti ng Anh); b d li u ViMs vƠ Corpus_TMV cú đ c đi m gi ng nhau nờn mụ hỡnh pre-trained PG_Feature_ASDS đ c đ xu t hu n luy n ti p trờn b d li u ViMs (ti ng Vi t) đ sinh ra b n túm t t dƠi h n và c i thi n ch t l ng b n túm t t sinh rạ

(3) Giai đo n 3: ỏnh giỏ mụ hỡnh túm t t đa v n b n h ng túm l c.

Cỏc v n b n c a b d li u DUC 2004 (ti ng Anh), Corpus_TMV (ti ng Vi t) đ c s d ng lƠm đ u vƠo cho mụ hỡnhtúm t t đa v n b n h ng túm l c đ xu t PG_Feature_AMDS đ sinh ra b n túm t t túm l c cu i cựng.

Hỡnh 5.8. Cỏc giai đo n hu n luy n mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t PG_Feature_AMDS

117

5.3.2.5. Thi t k th nghi m

a) Cỏc b d li u th nghi m s d ng trong mụ hỡnh

Mụ hỡnh đ xu t đ c th nghi m trờn cỏc b d li u v i cỏc m c đớchnh sau:  i v i v n b n ti ng Anh

- B d li u CNN/Daily Mail: S d ng đ hu n luy n mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS đ c s d ng lƠm mụ hỡnh túm t t đ c hu nluy n tr c cho mụ hỡnh đ xu t.

- B d li u DUC 2007: S d ng đ hu n luy n ti p mụ hỡnh túm t t đ n v n b nh ng túm l c PG_Feature_ASDS đ c hu n luy n tr c.

- B d li u DUC 2004: ơy lƠ b d li u đ c s d ng đ đỏnh giỏ mụ hỡnh túm t t đa v n b n h ng túm l cđ xu t PG_Feature_AMDS cho túm t t v n b n ti ng Anh.  i v i v n b n ti ng Vi t - B d li u Baomoi: S d ng đ hu n luy n mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS đ c s d ng lƠm mụ hỡnh túm t t đ c hu n luy n tr c cho mụ hỡnh đ xu t. - B d li u ViMs: S d ng đ hu n luy n ti p mụ hỡnh túm t t đ n v n b n PG_Feature_ASDS đ c hu n luy n tr c.

- B d li u Corpus_TMV: ơy lƠ b d li u đ c s d ng đ đỏnh giỏ mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t PG_Feature_AMDS cho túm t t v n b n ti ng Vi t.

b) Ti n x lý d li u

Cỏc b d li u v n b n đ u vƠo đ c ti n x lý s d ng th vi n Stanford CoreNLP đ i v i ti ng Anh, th vi n VNCoreNLP đ i v i ti ng Vi t. Tr c h t, cỏc b d li u th nghi m đ c x lý tỏch l y ph n n i dung, lo i b cỏc v n b n cú đ dƠing n, xúa cỏc ký t , t đ c bi t mà khụng cú nhi u ý ngh a trong cỏc v n b n, l y t g c đ i v i d li u ti ng Anh đ gi m kớch th c c a b t v ng vƠ c i thi n ch t l ng b n túm t t đ u rạ M i v n b n c a cỏc b d li u CNN/Daily Mail và Baomoi đ c x lý tỏch riờng cỏc ph n: Tiờu đ , túm t t, n i dung. i v i cỏc b d li u cho túm t t đa v n b n h ng túm l c: Cỏc b n túm t t tham chi u c a m i c m d li u (b d li u DUC 2004, DUC 2007 cú 04 b n túm t t tham chi u; b d li u ViMs, Corpus_TMV cú 02 b n túm t t tham chi u) đ c x lý trớch xu t t cỏc t p t ng ng đ s d ng cho giai đo n đỏnh giỏ. Sau đú, x lý tỏch cơu vƠ đỏnh s th t cho cỏc cơu trong ph n n i dung c a m i v n b n.

c) Hu n luy n mụ hỡnh

i v i cỏc th nghi m, b mư húa vƠ b gi i mư đ c xơy d ng t cỏc kh i LSTM cú tr ng thỏi n là 256 (b mư húa s d ng biLSTM cú 128 l p n cho chi u ti n (forward) và 128 l p n cho chi u lựi (backward); cũn b gi i mư s d ng LSTM cú 256 l p n) vƠ vộc t t cú 128 chi u, t l dropout là 0,2 (p = 0,2). B t v ng (vocab) cú kớch th c 50.000 t . V n b n đ u vƠo đ c tỏch thƠnh cỏc t và đ a vƠo b mư húạ u vƠo c a b gi i mư trong quỏ trỡnh hu n luy n lƠ k t h p c a tr ng thỏi n c a b mư húa vƠ cỏc t c a b n túm t t tham chi ụMụ hỡnh đ c hu n luy n b i thu t toỏn t i u AdamW [122]. Mụ hỡnh đ c hu n luy n s d ng Google Colab v i c u hỡnh mỏy ch GPU V100, 25GB RAM đ c cung c p b i Googlẹ Cỏc siờu tham s đ c cƠi đ t vƠ th i gian hu n luy n(gi ) mụ hỡnh đ c trỡnh bƠy chi ti t trong B ng 5.6 d i đơỵ

118

Warmup Epochs Batch size

H s h c B c tớch

l y đ o hàm hu n luy nB d li u hu n luy nTh i gian

10.000 10 16 2.10-3 2 CNN/Daily Mail 30

10.000 10 16 2.10-3 2 Baomoi 45

20 10 8 2.10-3 2 DUC 2007 ~1

75 10 8 2.10-3 2 ViMs 2,5

B ng 5.6. Giỏ tr cỏc siờu tham s và th i gian hu n luy n mụ hỡnh. Warmup là quỏ

trỡnh hu n luy n ban đ u v i t l h c nh đ hi u ch nh c ch chỳ ý

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 124)

Tải bản đầy đủ (PDF)

(181 trang)