Ng 5.6 Giỏ tr cỏc siờu tha ms và thi gian hun lu yn mụ hỡnh Warmup là quỏ

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 131)

trỡnh hu n luy n ban đ u v i t l h c nh đ hi u ch nh c ch chỳ ý Cỏc b d li u đ c x lý chi ti t nh sau:

- B d li u CNN/Daily Mail: dƠi v n b n đ c x lý l y 400 t , đ dƠi b n túm t t tham chi u lƠ 120 t .

- B d li u Baomoi: dƠi v n b n đ c x lý l y 400 t , đ dƠi b n túm t t tham chi u lƠ 50 t .

- B d li u DUC 2007: dƠi v n b n đ c x lý l y 1.500 t , đ dƠi b n túm t t tham chi u lƠ 200 t .

- B d li u ViMs: dƠi v n b n đ c x lý l y 1.500 t , đ dƠi b n túm t t tham chi u lƠ 200 t .

Trong giai đo n đỏnh giỏ, đ dƠi b n túm t t sinh ra c a mụ hỡnh đ c l y s t n m trong kho ng t 100 đ n 200 t đ i v i c 2 b d li u DUC 2004 vƠ Corpus_TMV (do đ dƠi b n túm t t tham chi u đ c l y 200 t ). Mụ hỡnh s d ng thu t toỏn tỡm ki m Beam v ikớch th c tỡm ki mb ng 5 (beam_size = 5).

d) Cỏc k t qu th nghi m

 K t qu th nghi m c a mụ hỡnh túm t t đ n v n b n h ng túm l c

B ng 5.7 d i đơy lƠ k t qu c a mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS trờn cỏc b d li u CNN vƠ Baomoiđư đ xu t ch ng 4.

Mụ hỡnh CNN Baomoi R-1 R-2 R-L R-1 R-2 R-L PG_Feature_ASDS 31,89 13,01 29,97 30,59 11,53 19,45 B ng 5.7. K t qu th nghi m c a cỏc mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS trờn cỏc b d li u CNN và Baomoi  K t qu c a mụ hỡnh túm t t đa v n b n h ng túm l c c s K t qu cỏc đ đo R-1, R-2 và R-SU4 cụng b c a mụ hỡnh c s [147] trờn b d li u DUC 2004 t ng ng lƠ 36,88%; 8,73% và 12,64%.  K t qu th nghi m mụ hỡnh PG_Feature_AMDS s d ng mụ hỡnh

PG_Feature_ASDS ch a đ c hu n luy n ti p trờn b d li u DUC 2007 và b d li u ViMs t ng ng

B ng 5.8 d i đơy là cỏc k t qu th nghi m trờn b d li u DUC 2004 cho ti ng Anh vƠ b d li u Corpus_TMVcho ti ng Vi t.

B d li u R-1 R-2 R-L R-S4 R-SU4

DUC 2004 36,56 9,13 18,39 8,17 8,55 Copus_TMV 44,63 27,69 30,87 30,96 32,89

B ng 5.8. K t qu th nghi m mụ hỡnh PG_Feature_AMDS trờn b DUC 2004 và Corpus_TMV s d ng mụ hỡnh PG_Feature_ASDS ch a đ c hu n luy n ti p trờn Corpus_TMV s d ng mụ hỡnh PG_Feature_ASDS ch a đ c hu n luy n ti p trờn

119

 K t qu th nghi m mụ hỡnh PG_Feature_AMDS s d ng mụ hỡnh túm t t đ n v n b n PG_Feature_ASDS đó đ c hu n luy n ti p trờn b d li u DUC 2007 và b d li u ViMs t ng ng

B ng 5.9 d i đơy là k t qu th nghi m trờn b d li u DUC 2004 cho ti ng Anh vƠ b d li u Corpus_TMV cho ti ng Vi t.

B d li u R-1 R-2 R-L R-S4 R-SU4

DUC 2004 37,71 9,50 19,14 8,39 9,28 Copus_TMV 66,04 39,00 38,81 44,33 45,80

B ng 5.9. K t qu th nghi m mụ hỡnh PG_Feature_AMDS trờn b DUC 2004 và Corpus_TMV s d ng mụ hỡnh PG_Feature_ASDS đó đ c hu n luy n ti p trờn b Corpus_TMV s d ng mụ hỡnh PG_Feature_ASDS đó đ c hu n luy n ti p trờn b

DUC 2007 và b ViMst ng ng

B ng 5.10 trỡnh bày m t m u túm t t bao g m m t b n túm t t tham chi u c a con ng i vƠ b n túm t t c a mụ hỡnh đ xu t trờn b d li u DUC 2004 (ti ng Anh). V n b n ngu n c a m u túm t t này xem Ph l c C.6 trong ph n Ph l c.

M t b n túm t t tham chi u

“Britain caused international controversy and Chilean turmoil by arresting former Chilean dictator Pinochet in London for Spain 's investigation of Spanish citizen deaths under Pinochet 's 17 - year rule of torture and political murder . Claims are Pinochet had diplomatic immunity , extradition is international međling or illegal because Pinochet is not a Spanish citizen , also his crimes should be punished . Spain and Britain , big Chilean investors , fear damage to economic relations and let courts decide extradition . The Swiss have n't investigated Pinochet accounts despite a Spanish request . Pinochet is shielded from details , said too sick to be extradited.”

B n túm t t c a mụ hỡnh PG_Feature_AMDS

“Augusto Pinochet , 82 , was placed under arrest in London Friday by British police acting on a warrant issued by a Spanish judge . Castro , Latin America 's only remaining authoritarian leader , said the case was a senator he was traveling on a diplomatic passport and had immunity from arrest . The Chilean government has protested Pinochet 's role in the death of Chilean dictator Augusto Pinochet . In 1998 he had been arrested by British police . He said he was a member of the Pinochet Parliament . In 1998 , he was arrested for the murder of the Chilean government in 1997 . He was arrested in 1998 for being a member of a ỤN.”

B ng 5.10. M t m u th nghi mtrờn b d li u DUC 2004

B ng 5.11 trỡnh bƠy m t m u túm t t bao g m m t b n túm t t tham chi u c a con ng i vƠ b n túm t t c a mụ hỡnh đ xu t trờn b d li u Corpus_TMV (ti ng Vi t). V n b n ngu n c a cỏc m u túm t t xem Ph l c C.6 trong ph n Ph l c.

120

M t b n túm t t tham chi u

“Theo m t s ng i dõn trong khu v c cho bi t , m a đỏ di n ra trong kho ng 20 phỳt t 15g30 đ n 15g50 , trong đú cú r t nhi u viờn đỏ khỏ to . Sau c n m a l n kho ng 10 phỳt , thỡ ng i dõn khu v c P.Tõn Biờn , Tõn Hoà , H Nai , Tr ng Dài ... phỏt hi n m a đỏ ( kộo dài kho ng 15 phỳt ) c b ng ngún tay ỳt , màu tr ng đ c . Do th i gian m a đỏ ng n , kớch th c đỏ khụng l n đó khụng gõy thi t h i l n cho khu v c . Tuy nhiờn , giú gi t m nh khi n m t s nhà dõn b t c mỏi . Theo m t s ng i dõn s ng lõu n m khu v c trờn cho bi t m a đỏ r t hi m xu t hi n khu v c này.”

B n túm t t c a h th ng PG_Feature_AMDS

“Theo thụng tin t m t s ng i dõn trong khu v c cho bi t , m a đỏ di n ra trong kho ng 20 phỳt t 15g30 đ n 15g50 , trong đú cú đo n h n n a bỏnh xe ụ tụ . Nhi u xe mụ tụ ch t mỏy ph i d t b qua đo n đ ng ng p . Kho ng 6h30 ngày 31- 5 , t i 3 ph ng Tõn Biờn , Tõn Hoà , Tõn Hoà , tr i mõy , tr i n ng , l ng giú , đ m , nhi t đ t 22 - 29 đ C. Ph ng Ti n đi qua khu v c P.Tõn Biờn , Tõn Hoà , H Nai ng p b ng qu cà chua bi . Tr c m a đỏ , do l ng m a l n kộo dài h n 30 phỳt.”

B ng 5.11. M t m u th nghi m trờn b d li u Corpus_TMV

T cỏc k t qu th nghi m, cú th th y mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t đư đ t đ c k tqu cao cho túm t t v n b n ti ng Anh vƠ ti ng Vi t.

5.3.2.6. ỏnh giỏ và so sỏnh k t qu

đ m b o tớnh khỏch quan, k t q a th nghi m c a mụ hỡnh đ xu t đ c đỏnh giỏ vƠ so sỏnh v i k t qu c a cỏc ph ng phỏpc s , cỏc ph ng phỏp đư th nghi m vƠ k t qu c a cỏc ph ng phỏp hi n đ i khỏc đư cụng b trờn cựng b d li u t ng ng. B ng 5.12 lƠ k t qu so sỏnh và đỏnh giỏ hi u qu cỏc ph ng phỏp.

Ph ng phỏp R-1 DUC 2004 R-2 R-SU4 R-1 Corpus_TMV R-2 R-SU4

SumBasic [147] 29,48 4,25 8,64 - - - KLSumm [147] 31,04 6,03 10,23 - - - LexRank [147] 34,44 7,11 11,19 - - - Centroid [147] 35,49 7,80 12,02 - - - ICSISumm [147] 37,31 9,36 13,12 - - - PG-Original [147] 31,43 6,03 10,01 - - - G-MMR w/ Cosine [147] 36,88 8,73 12,64 - - - PG_Feature_AMDS 37,71 9,50 9,28 66,04 39,00 45,80 B ng 5.12. So sỏng và đỏnh giỏ k t qu c a cỏc ph ng phỏp. Ký hi u ‘-’ bi u di n cỏc ph ng phỏpkhụng đ c th nghi m trờn cỏc b d li u t ng ng K t qu trong B ng 5.12 ch ra r ng mụ hỡnh đ xu t PG_Feature_AMDS cú k t qu t t h n đỏng k so v i ph ng phỏp đư th nghi m vƠ cỏc ph ng phỏp hi n đ i khỏc đư cụng b trờn hai b d li u t ng ng. i u đú ch ng t mụ hỡnh

121

đ xu t đư đ t đ c k t qu t t cho túm t t đa v n b n h ng túm l c cho ti ng Anh vƠ ti ng Vi t.

5.3.3. Mụăhỡnhătúmăt tăđaăv năb năh ngătúmăl căd aătrờnămụăhỡnhă

túmăt tăđ năv năb năh năh păđ căhu năluy nătr c Ext_Abs_AMDS-

mds-mmr

5.3.3.1. Gi i thi u mụ hỡnh

Vi c phỏt tri n m t h th ng túm t t đa v n b n h ng túm l c duy nh t s d ng cỏc k thu t h c sơu g p nhi u khú kh n do v n đ khan hi m d li u hu n luy n cỏc mụ hỡnh (n u cú thỡ cỏc b d li u nƠy c ng khụng đ l n), trong khi đú cỏc b d li u túm t t đ n v n b n h ng túm l c s n cú hi n nay đư đỏp ng đ c cho cỏc mụ hỡnh túm t t đ n v n b n. M c dự mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t phỏt tri n trờn đư đ t đ c cỏc k t qu t t. Tuy nhiờn, vi c ghộp t t c cỏc v n b n c a t p đa v n b n đ u vƠo thƠnh 1 siờu v n b n (siờu v n b n nƠy s cú đ dƠi l n) làm gi m hi u qu c a mụ hỡnh túm t tn u t pđa v n b n đ u vƠo l n. kh c ph c v n đ trờn, trong ph n nƠy lu n ỏn nghiờn c u đ xu t phỏt tri n m t mụ hỡnh túm t t đa v n b n h ng túm l c d a trờn mụ hỡnh túm t t h n h p đ c xơy d ng s d ng cỏc mụ hỡnh túm t t đ n v n b n đư đ xu t đ c hu n luy n tr c đ sinh b n túm t t túm l c cho t p đa v n b n. Mụ hỡnh túm t t h n h p đ c xơy d ng g m 2 mụ hỡnh túm t t là: mụ hỡnh túm t t đ n v n b n h ng trớch rỳt vƠ mụ hỡnh túm t t đ n v n b n h ng túm l c (mụ hỡnh túm t t h n h p này đ c đ t tờn là Ext_Abs_ASDS).

V i t p đa v n b n g m G v n b n đ u vƠo Dmul (D D1, 2,...,Di,....,D ; trong G) đú: m i v n b n D cú H cõu, L t đ c bi u di n lƠi Di ( ,s si1 i2,...,sij,....,siH), v i:

ij

s lƠ cơu th j c a v n b n D ho c i Di (x xi1, i2,...,xij,....,siL), v i: x ij lƠ t th j c a v n b n D . Tr c h t, v i m i v n b n i D qua mụ hỡnh túm t t h ng trớch rỳt i thu đ c t p xỏc su t đ c ch n c a cỏc cơu là: pi (pi1,pi2,...,pij,....,piH); trong đú: (0 | , , ) (1| , , )          ij ij ij ij ij p s D p

p s D , v i: p ij lƠ xỏc su t đ c ch n c a cơu th j trong v n b n Di.

Do đú, t p v n b n Dmul qua mụ hỡnh túm t t h ng trớch rỳt s thu đ c t p xỏc su t đ c ch n c a cỏc cơu là: p(p11,p12,...,p1H,p21,p22,...,p2H....,pNH).

Sau đú, ỏp d ng ph ng phỏp MMR đ xu t trờn t p xỏc su t p nh n đ c b n túm t t g m cỏc cơu đ c trớch rỳt t t p v n b n DmulvƠ đ c coi nh m t đ n v n b n g m H' cơu đ c bi u di n lƠ ' ' ' ' ' ' 1 2 ( , ,..., ,...., )  i H D s s s s , v i: s lƠ cơu th i' i c a v n b n D' ho c ' ' ' ' ' ' 1 2 ( , ,..., ,...., )  i H D x x x x , v i: x i' lƠ t th i c a v n b n D'. ơy chớnh lƠ bƠi toỏn túm t t đ n v n b n h ng túm l c c n gi i quy t đ i v i v n b n D'.

Ti p theo, v n b n D' đ c qua mụ hỡnh túm t t đ n v n b n h ng túm l c đư đ xu t đ sinh ra b n túm t t g m T t Y( ,y y1 2,..., ,....,yi y chớnh lƠ b n túm T)

122

t ttúm l c bi u di n n i dung c a t p đa v n b n đ u vƠo Dmul, v i: yiD ho ci 

i i

y D (lỳc này t đ c l y t b t v ng).

Trong mụ hỡnh, cỏc mụ hỡnh túm t t đ n v n b n, mụ hỡnh túm t t h n h p đ c hu n luy n tr c trờn cỏc b d li u túm t t đ n v n b n vƠ đ c tinh ch nh b ng vi c hu n luy n ti p trờn cỏc b d li u túm t t đa v n b n t ng ng đ phỏt tri n mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t (mụ hỡnh nƠy đ c đ t tờn là Ext_Abs_AMDS-mds-mmr). Mụ hỡnh Ext_Abs_AMDS-mds-mmr cú th ỏp d ng hi u qu cho túm t t đa v n b n ti ng Anh vƠ ti ng Vi t.

5.3.3.2. Cỏc thành ph n c a mụ hỡnh

Mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t Ext_Abs_AMDS-mds-mmr bao g m cỏc mụ hỡnh thƠnh ph n chớnh đ c mụ t nh d iđơỵ

a) Mụ hỡnh túm t t đ n v n b n h ng trớch rỳt đ c hu n luy n tr c

Mụ hỡnh túm t t đ n v n b n h ng trớch rỳt mBERT_CNN_ESDS đư đ xu t ch ng 3 (Hỡnh 3.4) đ ctinh ch nh mụ đun mư húa t s d ng cỏc mụ hỡnh t i u RoBERTa đ mư húa v n b n ti ng Anh, PhoBERT đ mư húa v n b n ti ng Vi t thay vỡ mụ hỡnh mBERT (cỏc mụ hỡnh t i u RoBERTa, PhoBERT đ t hi u qu cao h n so v i cỏc mụ hỡnh BERT, mBERT) đ c i thi n hi u qu cho mụ hỡnh túm t t (mụ hỡnh đ c đ t tờn là RoPhoBERT_CNN_ESDS). Mụ hỡnh đ c bi u di n trong Hỡnh 5.9 d i đơỵ

Hỡnh 5.9. Mụ hỡnh túm t t đ n v n b n h ng trớch rỳt RoPhoBERT_CNN_ESDS

b) Mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c

Mụ hỡnh túm t t đ n v n b n h ng túm l c PG_Feature_ASDS đó đ xu t ch ng 4 (Hỡnh 4.2) đ c tinh ch nhs d ng đ c tr ngtr ng s c a t TF-IDF thay cho cỏc đ c tr ng t n su t xu t hi n c a t TF, v trớ cơu POSI đ gi m đ ph c t p tớnh toỏn cho mụ hỡnh (mụ hỡnh nƠy đ c đ t tờn là PG_TF-IDF_ASDS). Mụ hỡnh đ c bi u di n trong Hỡnh 5.10 d i đơỵ

123 Hỡnh 5.10. Mụ hỡnh túm t t đ n v n b n h ng túm l c PG_TF-IDF_ASDS V i m i vộc t bi u di n v n b n đ u vƠo xx11,x21,x31,....,xJ k; trong đú: xjk bi u di n t th j cơu th k, ta xỏc đ nh đ c vộc t bi u di n TF-IDF:  ( 11), ( 21),..., ( )      TF IDF J k

x TF IDF x TF IDF x TF IDF x . Giỏ tr TF-IDF th hi n m c đ quan tr ng c a t trong v n b n mƠ v n b n n m trong t p v n b n đang xột nờn đ nơng tr ng s c a t giỳp cho mụ hỡnh chỳ ý vƠo cỏc t quan tr ng, ta nhơn tr ng s chỳ ý c a t v i giỏ tr xTF-IDF t ng ng. V i vi c s d ng đ c tr ng tr ng s c a t TF-IDF, đi m chỳ ý đ c tớnh theo cụng th c (5.11) nh sau:

 

 

( ) tanh . 

  

e T e d

tj align align j t align TF IDF

s v W h h b x (5.11) Sau đú,phơn b chỳ ýđ c tớnh theo cụng th c (4.8) trờn.

c) Mụ hỡnh túm t t đ n v n b n h n h p đ c hu n luy n tr c s d ng cho mụ

hỡnh đ xu t

M t mụ hỡnh túm t t đ n v n b n h ng túm l c h n h p (mụ hỡnh đ c đ t tờn là Ext_Abs_ASDS) đ c xơy d ng d a trờn hai mụ hỡnh túm t t đ n v n b n pre-trained RoPhoBERT_CNN_ESDS, pre-trained PG_TF-IDF_ASDS. Mụ hỡnh này đ c s d ng nh mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c cho mụ hỡnh túm t t đa v n b n h ng túm l c đ xu t. Trong mụ hỡnh Ext_Abs_ASDS, mụ hỡnh pre-trained PG_TF-IDF_ASDS đ c hu n luy n ti p trờn t p cỏc cơu đ c trớch rỳt thu đ c t đ u ra c a mụ hỡnh RoPhoBERT_CNN_ESDS. Mụ hỡnh pre-trained Ext_Abs_ASDS đ c bi u di n chi ti t trong Hỡnh 5.11 d i đơỵ

124

Hỡnh 5.11. Mụ hỡnh túm t t đ n v n b n h n h p Ext_Abs_ASDS

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 131)

Tải bản đầy đủ (PDF)

(181 trang)