trỡnh hu n luy n ban đ u v i t l h c nh đ hi u ch nh c ch chỳ ý Cỏc b d li u đ c x lý chi ti t nh sau:
- B d li u CNN/Daily Mail: dƠi v n b n đ c x lý l y 400 t , đ dƠi b n túm t t tham chi u lƠ 120 t .
- B d li u Baomoi: dƠi v n b n đ c x lý l y 400 t , đ dƠi b n túm t t tham chi u lƠ 50 t .
- B d li u DUC 2007: dƠi v n b n đ c x lý l y 1.500 t , đ dƠi b n túm t t tham chi u lƠ 200 t .
- B d li u ViMs: dƠi v n b n đ c x lý l y 1.500 t , đ dƠi b n túm t t tham chi u lƠ 200 t .
Trong giai đo n đỏnh giỏ, đ dƠi b n túm t t sinh ra c a mụ hỡnh đ c l y s t n m trong kho ng t 100 đ n 200 t đ i v i c 2 b d li u DUC 2004 vƠ Corpus_TMV (do đ dƠi b n túm t t tham chi u đ c l y 200 t ). Mụ hỡnh s d ng thu t toỏn tỡm ki m Beam v ikớch th c tỡm ki mb ng 5 (beam_size = 5).
d) Cỏc k t qu th nghi m
K t qu th nghi m c a mụ hỡnh túm t t đ n v n b n h ng túm l c
B ng 5.7 d i đơy lƠ k t qu c a mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS trờn cỏc b d li u CNN vƠ Baomoiđư đ xu t ch ng 4.
Mụ hỡnh CNN Baomoi R-1 R-2 R-L R-1 R-2 R-L PG_Feature_ASDS 31,89 13,01 29,97 30,59 11,53 19,45 B ng 5.7. K t qu th nghi m c a cỏc mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS trờn cỏc b d li u CNN và Baomoi K t qu c a mụ hỡnh túm t t đa v n b n h ng túm l c c s K t qu cỏc đ đo R-1, R-2 và R-SU4 cụng b c a mụ hỡnh c s [147] trờn b d li u DUC 2004 t ng ng lƠ 36,88%; 8,73% và 12,64%. K t qu th nghi m mụ hỡnh PG_Feature_AMDS s d ng mụ hỡnh
PG_Feature_ASDS ch a đ c hu n luy n ti p trờn b d li u DUC 2007 và b d li u ViMs t ng ng
B ng 5.8 d i đơy là cỏc k t qu th nghi m trờn b d li u DUC 2004 cho ti ng Anh vƠ b d li u Corpus_TMVcho ti ng Vi t.
B d li u R-1 R-2 R-L R-S4 R-SU4
DUC 2004 36,56 9,13 18,39 8,17 8,55 Copus_TMV 44,63 27,69 30,87 30,96 32,89
B ng 5.8. K t qu th nghi m mụ hỡnh PG_Feature_AMDS trờn b DUC 2004 và Corpus_TMV s d ng mụ hỡnh PG_Feature_ASDS ch a đ c hu n luy n ti p trờn Corpus_TMV s d ng mụ hỡnh PG_Feature_ASDS ch a đ c hu n luy n ti p trờn
119
K t qu th nghi m mụ hỡnh PG_Feature_AMDS s d ng mụ hỡnh túm t t đ n v n b n PG_Feature_ASDS đó đ c hu n luy n ti p trờn b d li u DUC 2007 và b d li u ViMs t ng ng
B ng 5.9 d i đơy là k t qu th nghi m trờn b d li u DUC 2004 cho ti ng Anh vƠ b d li u Corpus_TMV cho ti ng Vi t.
B d li u R-1 R-2 R-L R-S4 R-SU4
DUC 2004 37,71 9,50 19,14 8,39 9,28 Copus_TMV 66,04 39,00 38,81 44,33 45,80
B ng 5.9. K t qu th nghi m mụ hỡnh PG_Feature_AMDS trờn b DUC 2004 và Corpus_TMV s d ng mụ hỡnh PG_Feature_ASDS đó đ c hu n luy n ti p trờn b Corpus_TMV s d ng mụ hỡnh PG_Feature_ASDS đó đ c hu n luy n ti p trờn b
DUC 2007 và b ViMst ng ng
B ng 5.10 trỡnh bày m t m u túm t t bao g m m t b n túm t t tham chi u c a con ng i vƠ b n túm t t c a mụ hỡnh đ xu t trờn b d li u DUC 2004 (ti ng Anh). V n b n ngu n c a m u túm t t này xem Ph l c C.6 trong ph n Ph l c.
M t b n túm t t tham chi u
“Britain caused international controversy and Chilean turmoil by arresting former Chilean dictator Pinochet in London for Spain 's investigation of Spanish citizen deaths under Pinochet 's 17 - year rule of torture and political murder . Claims are Pinochet had diplomatic immunity , extradition is international međling or illegal because Pinochet is not a Spanish citizen , also his crimes should be punished . Spain and Britain , big Chilean investors , fear damage to economic relations and let courts decide extradition . The Swiss have n't investigated Pinochet accounts despite a Spanish request . Pinochet is shielded from details , said too sick to be extradited.”
B n túm t t c a mụ hỡnh PG_Feature_AMDS
“Augusto Pinochet , 82 , was placed under arrest in London Friday by British police acting on a warrant issued by a Spanish judge . Castro , Latin America 's only remaining authoritarian leader , said the case was a senator he was traveling on a diplomatic passport and had immunity from arrest . The Chilean government has protested Pinochet 's role in the death of Chilean dictator Augusto Pinochet . In 1998 he had been arrested by British police . He said he was a member of the Pinochet Parliament . In 1998 , he was arrested for the murder of the Chilean government in 1997 . He was arrested in 1998 for being a member of a ỤN.”
B ng 5.10. M t m u th nghi mtrờn b d li u DUC 2004
B ng 5.11 trỡnh bƠy m t m u túm t t bao g m m t b n túm t t tham chi u c a con ng i vƠ b n túm t t c a mụ hỡnh đ xu t trờn b d li u Corpus_TMV (ti ng Vi t). V n b n ngu n c a cỏc m u túm t t xem Ph l c C.6 trong ph n Ph l c.
120
M t b n túm t t tham chi u
“Theo m t s ng i dõn trong khu v c cho bi t , m a đỏ di n ra trong kho ng 20 phỳt t 15g30 đ n 15g50 , trong đú cú r t nhi u viờn đỏ khỏ to . Sau c n m a l n kho ng 10 phỳt , thỡ ng i dõn khu v c P.Tõn Biờn , Tõn Hoà , H Nai , Tr ng Dài ... phỏt hi n m a đỏ ( kộo dài kho ng 15 phỳt ) c b ng ngún tay ỳt , màu tr ng đ c . Do th i gian m a đỏ ng n , kớch th c đỏ khụng l n đó khụng gõy thi t h i l n cho khu v c . Tuy nhiờn , giú gi t m nh khi n m t s nhà dõn b t c mỏi . Theo m t s ng i dõn s ng lõu n m khu v c trờn cho bi t m a đỏ r t hi m xu t hi n khu v c này.”
B n túm t t c a h th ng PG_Feature_AMDS
“Theo thụng tin t m t s ng i dõn trong khu v c cho bi t , m a đỏ di n ra trong kho ng 20 phỳt t 15g30 đ n 15g50 , trong đú cú đo n h n n a bỏnh xe ụ tụ . Nhi u xe mụ tụ ch t mỏy ph i d t b qua đo n đ ng ng p . Kho ng 6h30 ngày 31- 5 , t i 3 ph ng Tõn Biờn , Tõn Hoà , Tõn Hoà , tr i mõy , tr i n ng , l ng giú , đ m , nhi t đ t 22 - 29 đ C. Ph ng Ti n đi qua khu v c P.Tõn Biờn , Tõn Hoà , H Nai ng p b ng qu cà chua bi . Tr c m a đỏ , do l ng m a l n kộo dài h n 30 phỳt.”
B ng 5.11. M t m u th nghi m trờn b d li u Corpus_TMV
T cỏc k t qu th nghi m, cú th th y mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t đư đ t đ c k tqu cao cho túm t t v n b n ti ng Anh vƠ ti ng Vi t.
5.3.2.6. ỏnh giỏ và so sỏnh k t qu
đ m b o tớnh khỏch quan, k t q a th nghi m c a mụ hỡnh đ xu t đ c đỏnh giỏ vƠ so sỏnh v i k t qu c a cỏc ph ng phỏpc s , cỏc ph ng phỏp đư th nghi m vƠ k t qu c a cỏc ph ng phỏp hi n đ i khỏc đư cụng b trờn cựng b d li u t ng ng. B ng 5.12 lƠ k t qu so sỏnh và đỏnh giỏ hi u qu cỏc ph ng phỏp.
Ph ng phỏp R-1 DUC 2004 R-2 R-SU4 R-1 Corpus_TMV R-2 R-SU4
SumBasic [147] 29,48 4,25 8,64 - - - KLSumm [147] 31,04 6,03 10,23 - - - LexRank [147] 34,44 7,11 11,19 - - - Centroid [147] 35,49 7,80 12,02 - - - ICSISumm [147] 37,31 9,36 13,12 - - - PG-Original [147] 31,43 6,03 10,01 - - - G-MMR w/ Cosine [147] 36,88 8,73 12,64 - - - PG_Feature_AMDS 37,71 9,50 9,28 66,04 39,00 45,80 B ng 5.12. So sỏng và đỏnh giỏ k t qu c a cỏc ph ng phỏp. Ký hi u ‘-’ bi u di n cỏc ph ng phỏpkhụng đ c th nghi m trờn cỏc b d li u t ng ng K t qu trong B ng 5.12 ch ra r ng mụ hỡnh đ xu t PG_Feature_AMDS cú k t qu t t h n đỏng k so v i ph ng phỏp đư th nghi m vƠ cỏc ph ng phỏp hi n đ i khỏc đư cụng b trờn hai b d li u t ng ng. i u đú ch ng t mụ hỡnh
121
đ xu t đư đ t đ c k t qu t t cho túm t t đa v n b n h ng túm l c cho ti ng Anh vƠ ti ng Vi t.
5.3.3. Mụăhỡnhătúmăt tăđaăv năb năh ngătúmăl căd aătrờnămụăhỡnhă
túmăt tăđ năv năb năh năh păđ căhu năluy nătr c Ext_Abs_AMDS-
mds-mmr
5.3.3.1. Gi i thi u mụ hỡnh
Vi c phỏt tri n m t h th ng túm t t đa v n b n h ng túm l c duy nh t s d ng cỏc k thu t h c sơu g p nhi u khú kh n do v n đ khan hi m d li u hu n luy n cỏc mụ hỡnh (n u cú thỡ cỏc b d li u nƠy c ng khụng đ l n), trong khi đú cỏc b d li u túm t t đ n v n b n h ng túm l c s n cú hi n nay đư đỏp ng đ c cho cỏc mụ hỡnh túm t t đ n v n b n. M c dự mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t phỏt tri n trờn đư đ t đ c cỏc k t qu t t. Tuy nhiờn, vi c ghộp t t c cỏc v n b n c a t p đa v n b n đ u vƠo thƠnh 1 siờu v n b n (siờu v n b n nƠy s cú đ dƠi l n) làm gi m hi u qu c a mụ hỡnh túm t tn u t pđa v n b n đ u vƠo l n. kh c ph c v n đ trờn, trong ph n nƠy lu n ỏn nghiờn c u đ xu t phỏt tri n m t mụ hỡnh túm t t đa v n b n h ng túm l c d a trờn mụ hỡnh túm t t h n h p đ c xơy d ng s d ng cỏc mụ hỡnh túm t t đ n v n b n đư đ xu t đ c hu n luy n tr c đ sinh b n túm t t túm l c cho t p đa v n b n. Mụ hỡnh túm t t h n h p đ c xơy d ng g m 2 mụ hỡnh túm t t là: mụ hỡnh túm t t đ n v n b n h ng trớch rỳt vƠ mụ hỡnh túm t t đ n v n b n h ng túm l c (mụ hỡnh túm t t h n h p này đ c đ t tờn là Ext_Abs_ASDS).
V i t p đa v n b n g m G v n b n đ u vƠo Dmul (D D1, 2,...,Di,....,D ; trong G) đú: m i v n b n D cú H cõu, L t đ c bi u di n lƠi Di ( ,s si1 i2,...,sij,....,siH), v i:
ij
s lƠ cơu th j c a v n b n D ho c i Di (x xi1, i2,...,xij,....,siL), v i: x ij lƠ t th j c a v n b n D . Tr c h t, v i m i v n b n i D qua mụ hỡnh túm t t h ng trớch rỳt i thu đ c t p xỏc su t đ c ch n c a cỏc cơu là: pi (pi1,pi2,...,pij,....,piH); trong đú: (0 | , , ) (1| , , ) ij ij ij ij ij p s D p
p s D , v i: p ij lƠ xỏc su t đ c ch n c a cơu th j trong v n b n Di.
Do đú, t p v n b n Dmul qua mụ hỡnh túm t t h ng trớch rỳt s thu đ c t p xỏc su t đ c ch n c a cỏc cơu là: p(p11,p12,...,p1H,p21,p22,...,p2H....,pNH).
Sau đú, ỏp d ng ph ng phỏp MMR đ xu t trờn t p xỏc su t p nh n đ c b n túm t t g m cỏc cơu đ c trớch rỳt t t p v n b n DmulvƠ đ c coi nh m t đ n v n b n g m H' cơu đ c bi u di n lƠ ' ' ' ' ' ' 1 2 ( , ,..., ,...., ) i H D s s s s , v i: s lƠ cơu th i' i c a v n b n D' ho c ' ' ' ' ' ' 1 2 ( , ,..., ,...., ) i H D x x x x , v i: x i' lƠ t th i c a v n b n D'. ơy chớnh lƠ bƠi toỏn túm t t đ n v n b n h ng túm l c c n gi i quy t đ i v i v n b n D'.
Ti p theo, v n b n D' đ c qua mụ hỡnh túm t t đ n v n b n h ng túm l c đư đ xu t đ sinh ra b n túm t t g m T t Y( ,y y1 2,..., ,....,yi y chớnh lƠ b n túm T)
122
t ttúm l c bi u di n n i dung c a t p đa v n b n đ u vƠo Dmul, v i: yiD ho ci
i i
y D (lỳc này t đ c l y t b t v ng).
Trong mụ hỡnh, cỏc mụ hỡnh túm t t đ n v n b n, mụ hỡnh túm t t h n h p đ c hu n luy n tr c trờn cỏc b d li u túm t t đ n v n b n vƠ đ c tinh ch nh b ng vi c hu n luy n ti p trờn cỏc b d li u túm t t đa v n b n t ng ng đ phỏt tri n mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t (mụ hỡnh nƠy đ c đ t tờn là Ext_Abs_AMDS-mds-mmr). Mụ hỡnh Ext_Abs_AMDS-mds-mmr cú th ỏp d ng hi u qu cho túm t t đa v n b n ti ng Anh vƠ ti ng Vi t.
5.3.3.2. Cỏc thành ph n c a mụ hỡnh
Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t Ext_Abs_AMDS-mds-mmr bao g m cỏc mụ hỡnh thƠnh ph n chớnh đ c mụ t nh d iđơỵ
a) Mụ hỡnh túm t t đ n v n b n h ng trớch rỳt đ c hu n luy n tr c
Mụ hỡnh túm t t đ n v n b n h ng trớch rỳt mBERT_CNN_ESDS đư đ xu t ch ng 3 (Hỡnh 3.4) đ ctinh ch nh mụ đun mư húa t s d ng cỏc mụ hỡnh t i u RoBERTa đ mư húa v n b n ti ng Anh, PhoBERT đ mư húa v n b n ti ng Vi t thay vỡ mụ hỡnh mBERT (cỏc mụ hỡnh t i u RoBERTa, PhoBERT đ t hi u qu cao h n so v i cỏc mụ hỡnh BERT, mBERT) đ c i thi n hi u qu cho mụ hỡnh túm t t (mụ hỡnh đ c đ t tờn là RoPhoBERT_CNN_ESDS). Mụ hỡnh đ c bi u di n trong Hỡnh 5.9 d i đơỵ
Hỡnh 5.9. Mụ hỡnh túm t t đ n v n b n h ng trớch rỳt RoPhoBERT_CNN_ESDS
b) Mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c
Mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS đó đ xu t ch ng 4 (Hỡnh 4.2) đ c tinh ch nhs d ng đ c tr ngtr ng s c a t TF-IDF thay cho cỏc đ c tr ng t n su t xu t hi n c a t TF, v trớ cơu POSI đ gi m đ ph c t p tớnh toỏn cho mụ hỡnh (mụ hỡnh nƠy đ c đ t tờn là PG_TF-IDF_ASDS). Mụ hỡnh đ c bi u di n trong Hỡnh 5.10 d i đơỵ
123 Hỡnh 5.10. Mụ hỡnh túm t t đ n v n b n h ng túm l c PG_TF-IDF_ASDS V i m i vộc t bi u di n v n b n đ u vƠo xx11,x21,x31,....,xJ k; trong đú: xjk bi u di n t th j cơu th k, ta xỏc đ nh đ c vộc t bi u di n TF-IDF: ( 11), ( 21),..., ( ) TF IDF J k
x TF IDF x TF IDF x TF IDF x . Giỏ tr TF-IDF th hi n m c đ quan tr ng c a t trong v n b n mƠ v n b n n m trong t p v n b n đang xột nờn đ nơng tr ng s c a t giỳp cho mụ hỡnh chỳ ý vƠo cỏc t quan tr ng, ta nhơn tr ng s chỳ ý c a t v i giỏ tr xTF-IDF t ng ng. V i vi c s d ng đ c tr ng tr ng s c a t TF-IDF, đi m chỳ ý đ c tớnh theo cụng th c (5.11) nh sau:
( ) tanh .
e T e d
tj align align j t align TF IDF
s v W h h b x (5.11) Sau đú,phơn b chỳ ýđ c tớnh theo cụng th c (4.8) trờn.
c) Mụ hỡnh túm t t đ n v n b n h n h p đ c hu n luy n tr c s d ng cho mụ
hỡnh đ xu t
M t mụ hỡnh túm t t đ n v n b n h ng túm l c h n h p (mụ hỡnh đ c đ t tờn là Ext_Abs_ASDS) đ c xơy d ng d a trờn hai mụ hỡnh túm t t đ n v n b n pre-trained RoPhoBERT_CNN_ESDS, pre-trained PG_TF-IDF_ASDS. Mụ hỡnh này đ c s d ng nh mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c cho mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t. Trong mụ hỡnh Ext_Abs_ASDS, mụ hỡnh pre-trained PG_TF-IDF_ASDS đ c hu n luy n ti p trờn t p cỏc cơu đ c trớch rỳt thu đ c t đ u ra c a mụ hỡnh RoPhoBERT_CNN_ESDS. Mụ hỡnh pre-trained Ext_Abs_ASDS đ c bi u di n chi ti t trong Hỡnh 5.11 d i đơỵ
124
Hỡnh 5.11. Mụ hỡnh túm t t đ n v n b n h n h p Ext_Abs_ASDS