POSI
x h h .
Do b gi i mưs d ng m ng LSTMđ d đoỏn m t t d a vƠo t tr c đú nờn đ i v i cỏc v n b n dƠi thỡ thụng tin ph n đ u v n b n s b “quờn” d n đ n n i
112
dung s t p trung cu i v n b n. Chớnh vỡ th , mụ hỡnh s d ng thờm đ c tr ng v trớ cõu xPOSI và x lý c p nh t nõng tr ng s chỳ ý c a cỏc t c a cỏc cơu đ u v n b n lờn b ng cỏch chia tr ng s chỳ ý c a t cho v trớ cơu xPOSIt ng ng c a nú.
c tr ng t n su t xu t hi n c a t
V i cỏc v n b n cú đ dƠi khỏc nhau,cú nh ng t xu t hi n nhi u trong cỏc v n b n dƠi thay vỡ xu t hi n trong cỏc v n b n ng n nờn t n su t xu t hi n c a t t trong v n b n d đ c tớnh theo cụng th c sau:
f t ,d TF ( t )
T
; trong đú: t lƠ m t t trong v n b n d, f(t,d) là s l n xu t hi n c a t trong v n b n d, T lƠ t ng s t trong v n b n.
V i vộc t bi u di n v n b n đ u vƠo xx11,x21,x31,....,xJ H; trong đú: xjh là t th j cơu th h, ta xỏc đ nh đ c vộc t bi u di n TF là: ( 11), ( 21), ( 31),...., ( ) TF J H x TF x TF x TF x TF x . Giỏ tr TF bi u di n m c đ quan tr ng c a t trong v n b n nờn mụ hỡnh s d ng thờm đ c tr ng TF và x lý c p nh t nơng tr ng s c a t lờn b ng cỏch nhơn tr ng s chỳ ý c a t v i xTF t ng
ng đ giỳp mụ hỡnh chỳ ý vƠo cỏc t quan tr ng. đo MMR i m MMR th hi nđ c đ t ng đ ng c a t v i ch đ v n b n vƠ tớnh d th a thụng tin đ i v i b ntúm t t hi n cú. V i vộc t bi u di n v n b n đ u vƠo xx11,x21,x31,....,xJ H; trong đú: xjh là t th j cơu th h, vộc t bi u di n MMR đ c xỏc đ nh là: R ( 11), ( 21), ( 31),...., ( ) MM J H x MMR x MMR x MMR x MMR x
T i th i đi m đỏnh giỏ mụ hỡnh, đi m MMR đ c đ a vƠo đ tớnh giỏ tr phõn
b chỳ ý.
Nh v y, giỏ tr phõn b chỳ ý đ c tớnh l i sau khi thờm 3 đ c tr ng m i nh sau:
- Trong giai đo n hu n luy n mụ hỡnh: Tớnh toỏn theo cụng th c (4.25) và cụng th c (4.8) trờn.
- Trong giai đo n đỏnh giỏ mụ hỡnh: Tớnh toỏn theo cụng th c (5.9) d i đơy vƠ cụng th c (4.8) trờn. ( ) tanh . . T e d
align align j t align
e tj TF MMR POSI v W h h b s x x x (5.9) c) Ph ng phỏp PG - MMR Ph ng phỏp PG – MMR [147] mụ t khung l p th c hi n túm t t đa v n b n d i d ng m t siờu v n b nđ c k t h pt t p cỏc v n b n đ u vƠo đ sinh ra b n túm t t. Trong m i b c l p, ph ng phỏp PG - MMR ch n ra k cơu cú đi m cao nh t d a theo nguyờn t c c a ph ng phỏp MMR, k cõu này đ c s d ng lƠm đ u vƠo cho m ng sinh t - sao chộp t đ sinh ra m t cơu túm t t. Ti p theo, đi m c a cỏc cơu đ u vƠo đ c c p nh t l i d a trờn đ t ng đ ng v icỏc cơu c a v n b n đ u vƠo (đ quan tr ng) và cỏc cơu đư túm t t trong cỏc b c l p tr c (đ d th a). Cơu gi ng v i cơu đư đ c sinh túm t t tr c đú h n s nh n đi m th p h n. Vi c ch n k cơu thụng qua ph ng phỏp PG - MMR giỳp cho mụ hỡnh sinh t - sao
113
chộp t xỏc đ nh đ cn i dung c acơu ngu n ch a đ a vƠo b n túm t t, t đú gi i quy t đ c v n đ trựng l p thụng tin khi túm t t v n b n dƠị
Hỡnh 5.6. Minh h a ph ng phỏp PG-MMR (k= 2) [147]
mụ hỡnh sinh t - sao chộp t ho t đ ng hi u qu khi s d ng k cơu ngu n ch n đ c đ th c hi n túm t t mƠ khụng c n hu n luy nl i mụ hỡnh, cỏc tham s đ c đi u ch nh trong quỏ trỡnh đỏnh giỏnh sau:
Giỏ tr phơn b chỳ ý ph thu c vƠo k cơu đ c ch n: N u t thu c k cơu đ c ch n thỡ s đ c tớnh theo cụng th c (4.8) ch ng 4, trong cỏc tr ng h p cũn l i thỡ s b ng 0 nh sau: 0, e tj e tjnew
,nếu từ j k câu được chọn
trong các trường hợp còn lại (5.10)
Trong ph ng phỏp PG-MMR, cỏc cơu khụng đ c ch ng i lƠ cỏc cơu b “t t”
(“mute”).
t ng đ ng vƠ đ d th a c a cơu ngu n trong ph ng phỏp PG - MMR đ c tớnh toỏn theo cụng th c (2.44) c a ph ng phỏp MMR đ xu t đư trỡnh bày ch ng 2.
5.3.2.3. Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t
Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t đ c trỡnh bƠy chi ti t trong Hỡnh 5.7.
Mụ hỡnh s d ng ph ng phỏp MMR đ trớch rỳt cỏc cơu đ i di n t siờu v n b nđ c k t h p t t p v n b n ngu n đ u vƠo vƠ t n d ng mụ hỡnh mó húa - gi i mó ( đơy lƠ m ng Pointer-Generator) đ túm t t cỏc cơu này thƠnh b n túm t t túm l c vƠ l p l i cho đ n khi đ t ng ng xỏc đ nh. Mụ hỡnh đ xu t s d ng mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c trờn cỏc b d li u túm t t đ n v n b nh ng túm l c t ng ng.
Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t g m 2 thƠnh ph n chớnh: - Mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS đ c hu n luy n tr ctrờn cỏc b d li u túm t t đ n v n b n h ng túm l c t ng ng đư đ xu t ch ng 4 (g i lƠ mụ hỡnh pre-trained PG_Feature_ASDS).
- Mụ hỡnh PG-MMR [147] ỏp d ng trong túm t t đa v n b n: t ng thớch v i mụ hỡnh túm t t đ n v n b n pre-trained PG_Feature_ASDS, mụ hỡnh PG-
114
MMR [147] đ c x lý thờm cỏc đ c tr ng t n su t xu t hi n c a t TF vƠ v trớ cơu trong v n b n POSỊ
Hỡnh 5.7. Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t PG_Feature_AMDS
i v i b gi i mư, c n chia thành hai giai đo n là: Hu n luy n mụ hỡnh và sinh b n túm t t vỡ khi hu n luy n mụ hỡnh ta s d ng giỏ tr đ u ra th c t làm đ u vƠo cho b gi i mư, cũn sinh b n túm t t lƠ giai đo n sau khi đư hu n luy n xong mụ hỡnh pre-trained PG_Feature_ASDS vƠ s d ng mụ hỡnh nƠy đ d đoỏn k t qu đ u ra. Do khụng bi t đ c k t qu đ u ra th c t nh trong giai đo n hu n luy n nờn mụ hỡnh s d ng thu t toỏn tỡm ki m Beam đ tỡm ra k t qu phự h p nh t.
Cỏc đ c tr ng đ xu t thờm m i vào t ng giai đo nnh sau:
- Giai đo n hu n luy n mụ hỡnh pre-trained PG_Feature_ASDS (mụ hỡnh này là đ u vƠo cho ph ng phỏp PG-MMR): xu t thờm cỏc đ c tr ng t n su t xu t hi n c a t TF và v trớ cơu POSI vào khi tớnh đi m chỳ ýc a t trong v n b n.
- Giai đo n đỏnh giỏ mụ hỡnh (x lý b i ph ng phỏp PG-MMR): Thờm cỏc đ c tr ng TF, POSI và MMR đ tớnh đi m chỳ ý ỏp d ng cho t ng đ n v n b n trong siờu v n b n tr c khi đ avƠo thu t toỏntúm t tđa v n b n.
D a trờn thu t toỏn túm t t c a mụ hỡnh trong [147], thu t toỏn túm t t c a mụ hỡnh đ xu t đ c mụ t d iđơỵ
115
Thu t toỏn 5.3: PG-MMR cho túm t t đa v n b n túm l c
u vào:
- D li u đ n v n b n (SD); - D li u đa v n b n (MD);
u ra: B n túm t t c a t p đa v n b n (Summary);
Thu t toỏn:
1: Hu n luy n mụ hỡnh Pointer – Generator v i SD;
2: Tớnh toỏn I(Si) và R(Si) t ng ng là cỏc đi m đ quan tr ng và đ d th a c a cỏc cõu ngu n đ u vào Si MD; 3: MMR(Si) I(Si) v i t t c cỏc cõu ngu n;
4: Summary {};
5: t ch s (index) c a cỏc t trong b n túm t t; 6: While t < Lmax do //Lmax là đ dài t i đa b n túm t t; 7: Ch n k cõu v i đi m MMR cao nh t;
8: Tớnh atjnewe theo cụng th c (4.5), (4.6) và (5.10);
9: Ch y gi i mó PG cho t ng b c đ nh n đ c {wt}; //w là b n túm t t Summary t k cõu
10: Summary Summary + {wt}; //Summary là b n túm t t 11: If wt là ký hi u k t thỳc cõu then 12: R(Si) Sim(Si,Summary), i; 13: MMR(Si) I(Si) − (1 − )R(Si), i; 14: End if; 15: End While; 16: Return; 5.3.2.4. Mụ hỡnh hu n luy n đ xu t
Trong quỏ trỡnh th nghi m mụ hỡnh túm t t đa v n b n s d ng mụ hỡnh pre- trained PG_Feature_ASDS, nh n th y cỏc k t qu thu đ c c a mụ hỡnh ch a cao nh mong mu n. Do đú, mụ hỡnh đ xu t tinh ch nh mụ hỡnh pre-trained PG_Feature_ASDS b ng vi c hu n luy n ti p mụ hỡnh pre-trained PG_Feature_ASDS trờn cỏc b d li u túm t t đa v n b n t ng ng (cỏc b d li u túm t t đa v n b n đ c s d ng đ hu n luy n ti p mụ hỡnh khỏc bi t v i cỏc b d li u s s d ng đ đỏnh giỏ mụ hỡnh). Cỏc giai đo n hu n luy n và đỏnh giỏ cho mụ hỡnh túm t t đa v n b n h ng túm l c đ c bi u di n chi ti t nh trong hỡnh 5.8 d i đơy, bao g m 3 giai đo n:
(1) Giai đo n 1: Hu n luy n mụ hỡnh túm t t đ n v n b n h ng túm l c ban đ u PG_Feature_ASDS đ đ c mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c (mụ hỡnh pre-trained PG_Feature_ASDS).
Mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n trờn b d li u CNN/Daily Mail (ti ng Anh) vƠ b d li u Baomoi (ti ng Vi t) đ đ c mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c s d ng cho mụ hỡnh túm t t đa v n b n h ng túm l cđ xu t.
(2) Giai đo n 2: Hu n luy n ti p mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS trờn cỏc b d li u túm t t đa v n b n t ng ng.
116
Do s l ng cơu c a b n túm t t tham chi u c a cỏc b d li u CNN/Daily Mail vƠ Baomoi nh nờn mụ hỡnh pre-trained PG_Feature_ASDS th ng sinh ra b n túm t t cú s l ng cơu nh nờn đ dƠi c a b n túm t t ng n, trong khi cỏc b d li u s d ng đ đỏnh giỏ cho mụ hỡnh túm t t đa v n b n (b d li u DUC 2004 đ i v i ti ng Anh, Corpus_TMV đ i v i ti ng Vi t) cú b n túm t t tham chi u dƠi h n. Nh n th y b d li u DUC 2007 và DUC 2004 cú cỏc đ c đi mgi ng nhau nờn mụ hỡnh pre-trained PG_Feature_ASDS đ c đ xu t hu n luy n ti p trờn b d li u DUC 2007 (ti ng Anh); b d li u ViMs vƠ Corpus_TMV cú đ c đi m gi ng nhau nờn mụ hỡnh pre-trained PG_Feature_ASDS đ c đ xu t hu n luy n ti p trờn b d li u ViMs (ti ng Vi t) đ sinh ra b n túm t t dƠi h n và c i thi n ch t l ng b n túm t t sinh rạ
(3) Giai đo n 3: ỏnh giỏ mụ hỡnh túm t t đa v n b n h ng túm l c.
Cỏc v n b n c a b d li u DUC 2004 (ti ng Anh), Corpus_TMV (ti ng Vi t) đ c s d ng lƠm đ u vƠo cho mụ hỡnhtúm t t đa v n b n h ng túm l c đ xu t PG_Feature_AMDS đ sinh ra b n túm t t túm l c cu i cựng.
Hỡnh 5.8. Cỏc giai đo n hu n luy n mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t PG_Feature_AMDS
117
5.3.2.5. Thi t k th nghi m
a) Cỏc b d li u th nghi m s d ng trong mụ hỡnh
Mụ hỡnh đ xu t đ c th nghi m trờn cỏc b d li u v i cỏc m c đớchnh sau: i v i v n b n ti ng Anh
- B d li u CNN/Daily Mail: S d ng đ hu n luy n mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS đ c s d ng lƠm mụ hỡnh túm t t đ c hu nluy n tr c cho mụ hỡnh đ xu t.
- B d li u DUC 2007: S d ng đ hu n luy n ti p mụ hỡnh túm t t đ n v n b nh ng túm l c PG_Feature_ASDS đ c hu n luy n tr c.
- B d li u DUC 2004: ơy lƠ b d li u đ c s d ng đ đỏnh giỏ mụ hỡnh túm t t đa v n b n h ng túm l cđ xu t PG_Feature_AMDS cho túm t t v n b n ti ng Anh. i v i v n b n ti ng Vi t - B d li u Baomoi: S d ng đ hu n luy n mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS đ c s d ng lƠm mụ hỡnh túm t t đ c hu n luy n tr c cho mụ hỡnh đ xu t. - B d li u ViMs: S d ng đ hu n luy n ti p mụ hỡnh túm t t đ n v n b n PG_Feature_ASDS đ c hu n luy n tr c.
- B d li u Corpus_TMV: ơy lƠ b d li u đ c s d ng đ đỏnh giỏ mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t PG_Feature_AMDS cho túm t t v n b n ti ng Vi t.
b) Ti n x lý d li u
Cỏc b d li u v n b n đ u vƠo đ c ti n x lý s d ng th vi n Stanford CoreNLP đ i v i ti ng Anh, th vi n VNCoreNLP đ i v i ti ng Vi t. Tr c h t, cỏc b d li u th nghi m đ c x lý tỏch l y ph n n i dung, lo i b cỏc v n b n cú đ dƠing n, xúa cỏc ký t , t đ c bi t mà khụng cú nhi u ý ngh a trong cỏc v n b n, l y t g c đ i v i d li u ti ng Anh đ gi m kớch th c c a b t v ng vƠ c i thi n ch t l ng b n túm t t đ u rạ M i v n b n c a cỏc b d li u CNN/Daily Mail và Baomoi đ c x lý tỏch riờng cỏc ph n: Tiờu đ , túm t t, n i dung. i v i cỏc b d li u cho túm t t đa v n b n h ng túm l c: Cỏc b n túm t t tham chi u c a m i c m d li u (b d li u DUC 2004, DUC 2007 cú 04 b n túm t t tham chi u; b d li u ViMs, Corpus_TMV cú 02 b n túm t t tham chi u) đ c x lý trớch xu t t cỏc t p t ng ng đ s d ng cho giai đo n đỏnh giỏ. Sau đú, x lý tỏch cơu vƠ đỏnh s th t cho cỏc cơu trong ph n n i dung c a m i v n b n.
c) Hu n luy n mụ hỡnh
i v i cỏc th nghi m, b mư húa vƠ b gi i mư đ c xơy d ng t cỏc kh i LSTM cú tr ng thỏi n là 256 (b mư húa s d ng biLSTM cú 128 l p n cho chi u ti n (forward) và 128 l p n cho chi u lựi (backward); cũn b gi i mư s d ng LSTM cú 256 l p n) vƠ vộc t t cú 128 chi u, t l dropout là 0,2 (p = 0,2). B t v ng (vocab) cú kớch th c 50.000 t . V n b n đ u vƠo đ c tỏch thƠnh cỏc t và đ a vƠo b mư húạ u vƠo c a b gi i mư trong quỏ trỡnh hu n luy n lƠ k t h p c a tr ng thỏi n c a b mư húa vƠ cỏc t c a b n túm t t tham chi ụMụ hỡnh đ c hu n luy n b i thu t toỏn t i u AdamW [122]. Mụ hỡnh đ c hu n luy n s d ng Google Colab v i c u hỡnh mỏy ch GPU V100, 25GB RAM đ c cung c p b i Googlẹ Cỏc siờu tham s đ c cƠi đ t vƠ th i gian hu n luy n(gi ) mụ hỡnh đ c trỡnh bƠy chi ti t trong B ng 5.6 d i đơỵ
118
Warmup Epochs Batch size
H s h c B c tớch
l y đ o hàm hu n luy nB d li u hu n luy nTh i gian
10.000 10 16 2.10-3 2 CNN/Daily Mail 30
10.000 10 16 2.10-3 2 Baomoi 45
20 10 8 2.10-3 2 DUC 2007 ~1
75 10 8 2.10-3 2 ViMs 2,5
B ng 5.6. Giỏ tr cỏc siờu tham s và th i gian hu n luy n mụ hỡnh. Warmup là quỏ
trỡnh hu n luy n ban đ u v i t l h c nh đ hi u ch nh c ch chỳ ý