Ng 3.2 Giỏ tr cỏc siờu tha ms và thi gian hun lu yn cỏc mụ hỡnh xõy d ng

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 74 - 82)

K t qu th nghi m c a cỏc mụ hỡnh đ c trỡnh bày nh trong B ng 3.3 d i đơỵ Mụ hỡnh CNN Baomoi R-1 R-2 R-L R-1 R-2 R-L USE_T + MLP 28,9 10,3 19,3 - - - USE_T + MLP + MMR + V trớ cơu 30,1 11,5 20,1 - - - RoBERTa/PhoBERT + MLP 31,36 11,69 28,22 52,509 24,695 37,794 RoBERTa/PhoBERT + MLP + MMR + V trớ cơu 32,18 12,31 28,87 52,511 24,696 37,796 B ng 3.3. K t qu th nghi m c a cỏc mụ hỡnh xõy d ng. Ký hi u ‘-’ bi u di n mụ hỡnh mà lu n ỏn khụng th nghi m trờn b d li u t ng ng V i k t qu th nghi m c a cỏc mụ hỡnh, m c dự mụ hỡnh túm t t đ n v n b n s d ng mụ hỡnh USE_T và MLP (mụ hỡnh 1) ch a x lý lo i b cỏc cơu trựng l p nh ng đư cho k t qu kh quan vƠ t t h n cỏc ph ng phỏp túm t t c b n nh LexRank, TextRank trờn cựng b d li u CNN. Vi c k t h p ph ng phỏp MMR, v trớ cơuđ lo i b cỏc cơu trựng l p c a mụ hỡnh 2 đư cho k t qu t t h n mụ hỡnh 1. Mụ hỡnh 3 s d ng mụ hỡnh RoBERTa/PhoBERT (t ng ng v i cỏc b d li u CNN và Baomoi) vƠ MLP, m c dự ch a x lý lo i b cỏc cơu trựng l p nh ng đư cho k t qu t t h n nhi u so v i cỏc mụ hỡnh 1 vƠ 2, ch ng t mụ hỡnh túm t t s d ng mụ hỡnh RoBERTa/PhoBERT hi u qu h n so v i mụ hỡnh s d ng mụ hỡnh

62

USE_T trờn cựng b d li u CNN. Bờn c nh đú, mụ hỡnh 3 c ng đư cho k t qu t t h n so v i cỏc mụ hỡnh túm t t c b n LexRank, TextRank vƠ LEAD đư đ c cƠi đ t th nghi m trờn b d li u Baomoi (B ng 3.1). Mụ hỡnh túm t t v n b n s d ng mụ hỡnh RoBERTa/PhoBERT, MLP, MMR vƠ đ c tr ng v trớ cõu (mụ hỡnh 4) đư lo i b đ c cỏc thụng tin trựng l p và cho cỏc k t qu t t h n rừ r t so v i mụ hỡnh 3 trờn c 2 b d li u CNN ch ti ng Anh và Baomoi cho ti ng Vi t.

Cỏc k t qu th nghi m cho th y r ng mụ hỡnh 4 cho k t qu t t nh t trong cỏc mụ hỡnh đư th nghi m. Cỏc đ đo R-1, R-2 và R-L t ng ng t ng l n l t lƠ 0,82%; 0,62% và 0,65% trờn b CNN vƠ 0,002%, 0,001% và 0,002% trờn b d li u Baomoi so v i k t qu c a mụ hỡnh 3. Trờn b Baomoi, ta th y cỏc k t qu th nghi m c a mụ hỡnh 4 ch t ng m t t l nh so v i mụ hỡnh 3 lƠ do mụ hỡnh đư ch n s l ng cơu cho b n túm t t nh (do đ c đi m c a b d li u Baomoi nờn mụ hỡnh ch n s cơu cho b n túm t t lƠ 2 cơu), nh ng dự sao k t qu c ng cho th y mụ hỡnh 4 lƠ mụ hỡnh t t nh t và đ cch n làm mụ hỡnh túm t t đ n v n b n đ xu t.

B ng 3.4 bi u di nm t m u túm t tg m b n túm t t tham chi u c a con ng i và b n túm t t đ u ra c a mụ hỡnh túm t t đ xu t RoPhoBERT_MLP_ESDS trờn b d li u CNN. V n b n ngu n c a m u túm t t nƠy xem Ph l c C.1 trong ph n Ph l c.

B n túm t t tham chi u

“Beloved children's performer Lois Lilienstein has died . She was a member of CBC and Nickelodeon TV stars Sharon , Lois and Bram . CNN independently confirmed with Sharon and Bram's manager that Lilienstein passed away at 78 of a rare cancer.”

B n túm t t c a mụ hỡnh RoPhoBERT_MLP_ESDS

“Lois Lilienstein, co-star of "Sharon, Lois & Bram's Elephant Show" — the Canadian preschool show that ran on Nickelodeon during the early 1990s — has died, aged 78. Her son, David Lilienstein, told CBC News that his mother died in Toronto on Wednesday night from a rare form of cancer first diagnosed last October. "She knew it was happening, she was at peace with it, and she died very peacefully and not in pain," he told the Canadian broadcaster.”

B ng 3.4. M t m utúm t t trờn b d li u CNN

B ng 3.5 bi u di n m t m u túm t t g m b n túm t t tham chi u c a con ng i vƠ b n túm t t đ u ra c a mụ hỡnh túm t t đ xu t RoPhoBERT_MLP_ESDS trờn b d li u Baomoị V n b n ngu n c a m u túm t t nƠy xem Ph l c C.1 trong ph n Ph l c.

B n túm t t tham chi u

“B c sang ngày làm vi c th hai, vũng đàm phỏn h t nhõn gi a Iran và Nhúm P 5+1 (g m n m n c u viờn th ng tr c H i đ ng B o an Liờn h p qu c là Nga, M , Trung Qu c, Anh và Phỏp v i c) t i Vienne (Áo) đó nh n đ c nhi u đỏnh giỏ tớch c c, trỏi ng c v i nh ng ý ki n khụng m y l c quan đ a ra tr c đú.”

B n túm t t c a mụ hỡnh RoPhoBERT_MLP_ESDS

“Theo tho thu n t m th i ký k t h i thỏng 11/2013, Iran đ ng ý gi m ho c đúng b ng m t s ho t đ ng h t nhõn trong

63

sỏu thỏng đ đ i l i vi c ph ng Tõy gi m b t tr ng ph t hi n nay và khụng ỏp đ t thờm tr ng ph t m ị àm phỏn gi a Iran v i Nhúm P 5+1 t ngày 18-20/2 t i Vienne là n l c c a sỏu c ng qu c trong vi c tỡm ki m m t tho thu n toàn di n cu i cựng liờn quan t i ch ng trỡnh h t nhõn gõy tranh cói c a Tehran tr c th i đi m tho thu n s b h t hi u l c vào thỏng B y t ị”

B ng 3.5. M t m u túm t t trờn b d li u Baomoi

Nh v y, cỏc k t qu th nghi m trờn hai b d li u CNN vƠ Baomoi cho th y mụ hỡnh túm t t đ n v n b n h ng trớch rỳt đ xu t RoPhoBERT_MLP_ESDS đư cho k t qu t t cho túm t tv n b n ti ng Anh vƠ ti ng Vi t.

3.2.4. ỏnh giỏ và so sỏnh k tăqu

đ m b o tớnh khỏch quan, k t qu th nghi m c a mụ hỡnh túm t t đ n v n b n đ xu t đ c so sỏnh v i k t qu th nghi m c a cỏc ph ng phỏp khỏc mà lu n ỏnđư th c hi n hi n th nghi m vƠ cỏc ph ng phỏphi n đ i khỏc đư cụng b trờn cựng b d li u CNN và Baomoi t ng ng. K t qu so sỏnh vƠ đỏnh giỏ hi u qu c a cỏc ph ng phỏpđ c trỡnh bƠy trong B ng 3.6. Ph ng phỏp R-1 CNN R-2 R-L R-1 Baomoi R-2 R-L LexRank* 22,9 6,6 17,2 38,5 17,0 28,9 TextRank* 26,0 7,3 19,2 44,7 19,2 32,9 LEAD* 29,0 10,7 19,3 46,5 20,3 30,8 Cheng và Lapata [125] 28,4 10,0 25,0 - - - LEAD [125] 29,1 11,1 25,9 - - - REFRESH [125] 30,4 11,7 26,9 - - - USE_T + MLP* 28,9 10,3 19,3 - - - USE_T + MLP + MMR + V trớ cõu* 30,1 11,5 20,1 - - - RoBERTa/PhoBERT+ MLP* 31,36 11,69 28,22 52,509 24,695 37,794 RoBERTa/PhoBERT + MLP + MMR + V trớ cõu 32,18 12,31 28,87 52,511 24,696 37,796 B ng 3.6. So sỏnh và đỏnh giỏ hi uqu cỏc ph ng phỏp. Ký hi u ‘*’,-’bi u di n cỏc ph ng phỏpđ c th nghi m, khụng đ c th nghi m trờn cỏc b d li u t ng ng

K t qu trong B ng 3.6 cho th y đ c tr ng v trớ cơu vƠ xỏc su t đ c ch n c a cõu cú vai trũ quan tr ng trong h th ng túm t t v n b n. K t qu trong B ng 3.6 c ng cho th y mụ hỡnh túm t t đ n v n b n h ng trớch rỳt đ xu t cú k t qu t t h n đỏng k so v i cỏc ph ng phỏp đư th nghi m vƠ cỏc ph ng phỏp hi n đ i khỏc đưcụng b trờn hai b d li u CNN vƠ Baomoi t ng ng. K t qu nƠych ng t r ng mụ hỡnh túm t t đ xu t s d ng cỏc mụ hỡnh t i u RoBERTa/PhoBERT c a mụ hỡnh BERT đ c hu n luy n tr c đ mó húa v n b n đ u vƠo, MLP, MMR, đ c tr ng v trớ cơu vƠ xỏc su t đ c ch n c a cơu đư đ t đ c hi u qu t t cho túm t t v n b n ti ng Anh vƠ ti ng Vi t.

64

3.3. Mụ hỡnh túmăt tăđ năv năb năh ngătrớchărỳt

mBERT_CNN_ESDS

3.3.1. Gi iăthi u mụ hỡnh

Cỏc k thu t h c d a trờn m ng n ron sơu đ c ỏp d ng cho cỏc mụ hỡnh túm t t v n b n h ng trớch rỳt t o ra cỏc b n túm t t ch t l ng cao v i l ng d li u m u l n. Tuy nhiờn, khi l ng d li u m u khụng đ l n, cỏc mụ hỡnh nƠy đư b c l nh ng h n ch nh t đ nh nh h ng đ n ch t l ng c a b n túm t t đ u rạ Trong ph n nƠy, v i m c tiờu phỏt tri n m t mụ hỡnh túm t t v n b n duy nh t cú th ỏp d ng hi u qu cho c túm t t v n b n ti ng Anh vƠ ti ng Vi t, lu n ỏn s d ng cựng m t mụ hỡnh đ vộc t húa cỏc cơu c a v n b n đ u vƠo m t cỏch t t nh t cho c v n b n ti ng Anh vƠ ti ng Vi t đ t o đi u ki n thu n l i cho mụ hỡnh phơn lo i chớnh xỏc. Mụ hỡnh đ xu t t n d ng l i th vộc t húa t theo ng c nh c a mụ hỡnh BERT đangụn ng (mBERT) [105] đ c hu n luy n tr cđ t o ra cỏc vộc t t vƠ k t h p đ c tr ng TF-IDF lƠm đ u vƠo cho mụ hỡnh phơn lo i cõu g m m ng n ron tớch ch p, mụ hỡnh seq2seq và l p m ng n ron k t n i đ y đ (FC - Fully Connected). Cỏc k t qu đ u ra c a mụ hỡnh phơn lo i cõu đ c x lý lo i b cỏc thụng tin d th a b ng ph ng phỏp MMR đ t o ra b n túm t t cu i cựng. Mụ hỡnh đ xu tđ c th nghi m túm t t cho v n b n ti ng Anh vƠ ti ng Vi t trờn hai b d li u CNN vƠ Baomoi t ng ng. Cỏc k t qu th nghi m cho th y mụ hỡnh đ xu t đ t k t qu t t h n so v i cỏc ph ng phỏp hi n đ i khỏc đ c th nghi m trờn cựng b d li u t ng ng.

3.3.2. Mụăhỡnhătúmăt tăv năb năđ ăxu t

Mụ hỡnh túm t t đ n v n b n h ng trớch rỳt đ xu t g m ba mụ đun chớnh: Vộc t húa t , phơn lo i cơu vƠ sinh b n túm t t, đ c bi u di n nh trong Hỡnh 3.4.

Hỡnh 3.4. Mụ hỡnh túm t t v n b n h ng trớch rỳt mBERT_CNN_ESDS

3.3.2.1. Vộc t húa t

Tr c tiờn, mụ đun x lý tỏch cơu c a v n b n ngu n đ u vƠo, x lý l y 32 cơu đ u tiờn c a m i v n b n đ bi u di n cho v n b n. M i cơu đ c x lý l y 64 t đ u tiờn đ bi u di n cho cơu (n u v n b n dƠi h n s đ c c t b ph n sau, cũn n u

65

ng n h n s đ c đ m thờm). T p cỏc cơu nƠy đ c x lý b ng cụng c tokenizer c a mụ hỡnh pre-trained mBERT s d ng th vi n Transformersđ t o ra cỏc vộc t ch m c (index) c a cỏc t c a cơu, sau đú cỏc vộc t ch m c nƠy đ c đ a vƠo mụ hỡnh mBERT thu đ c cỏc vộc mư húa t c a cỏc cơu (v i c 2 b d li u). Mụ hỡnh s d ng mụ hỡnh mBERT d a trờn ki n trỳc c a mụ hỡnh BERT-Base, Multilingual Cased t ng ng (L = 12, H = 768, A = 12, 110 tri u tham s ) h tr cho 104 ngụn ng , trong đú cú ngụn ng ti ng Vi t. Trong quỏ trỡnh hu n luy n, mụ hỡnh mBERT đ c đúng b ng, khụng hu n luy n l i t đ u mƠ ch hu n luy n ti p mụ hỡnh (tinh ch nh) trờn cỏc b d li u th nghi m CNN vƠ Baomoi t ng ng đ cú đ c bi u di n t t nh tcho v n b n ngu n đ u vƠo.

Cỏc vộc t t nƠy đ c s d ng lƠm đ u vƠo cho l p tớch ch p (l p Convolution) c a mụ đun phơn lo i cơu.

3.3.2.2. Phõn lo i cõu

Mụ đun nƠy th c hi n tớnh xỏc su t c a cơu đ u vƠo đ c ch n đ a vƠo b n túm t t. Mụ hỡnh đ xu t s d ng m ng CNN, k t h p mụ hỡnh seq2seq (ki n trỳc Encoder-Decoder), l p dropout, l p FC vƠ k t h p đ c tr ng TF-IDF cho mụ hỡnh phơn lo i cơụ Chi ti t mụ hỡnh phơn lo i đ c trỡnh bƠy d i đơỵ

L p Convolution và l p k-Max Pooling: Do mụ hỡnh BERT ch trớch rỳt đ c

cỏc đ c tr ng c a cỏc t trong m t cơu đ a vƠo mƠ khụng trớch rỳt đ c cỏc đ c tr ng c a c m cỏc cơu li n nhau vỡ v y mụ hỡnh đ xu t s d ng m ng CNN đ kh c ph c v n đ nƠy vỡ c a s tr t c a m ng CNN s tr t trờn c m cỏc cơu li n nhau đ trớch rỳt đ c tr ng c a c m cỏc cơu đ trớch rỳt đ c tr ng c a v n b n. Mụ hỡnh s d ng ki n trỳc CNN [85] đư trỡnh bƠy trong ch ng 2 vƠ tinh ch nh đ ỏp d ng cho mụ hỡnh túm t t đ n v n b n đ xu t. u vƠo c a l p Convolution là 1 tensor cú đ nh d ng (n, 1, D*L, H); trong đú: n lƠ kớch th c lụ d li u (batch size), D lƠ s l ng cõu c av n b n, L lƠ đ dài c a 1 cơu, H lƠ s chi u c a 3 l p n cu i cựng c a mBERT (do cho k t qu t t nh t trong th c nghi m).

L p Convolution s d ng trong mụ hỡnh cú n = 32, D = 32, L = 64, H = 3*768 (giỏ tr 768 lƠ s chi u c a vộc t đ u ra c a mụ hỡnh mBERT). Kớch th c c a cỏc c a s h (window size) s d ng trong mụ hỡnh lƠ 5 vƠ 10 v i b c tr t (stride window) lƠ 1. S l ngb l c (filter) lƠ 100 t ng ng v i m i c a s tr t trờn. L p Convolution đ c tinh ch nh s d ng hƠm kớch ho t m i mish11 đ c đ xu t trong [126], hƠm nƠy đ c ch ng minh lƠ cú xu h ng c i thi n hi u qu ki n trỳc m ng n ron, đ c tớnh toỏn theo cụng th c (3.3) sau đơỵ

( ) tanh( ( )) tanh(ln(1 x))

f x  x softplus x x e (3.3) v i: softplus x( )ln(1ex) (3.4) Sau đú, cho qua l p k-Max Pooling (ỏp d ng phộp toỏn k-Max Pooling trong [127] thay vỡ phộp toỏn Max Pooling trong [86]). Phộp toỏn k-Max Pooling đ c ỏp d ng trờn m i b n đ đ c tr ng(feature map) đ ch n ra k giỏ tr l n nh t (đ xu t l y giỏ tr k = 2) lƠ đ c tr ng t ng ng v i m i b l c, đ c vộc t đ u ra cú 400 chi ụ

Ki n trỳc CNN v i k-Max Pooling (k = 2) cho cõu “I would like to have a cup

of teađ c trỡnh bƠy nh Hỡnh 3.5 d i đơỵ 11

66

Hỡnh 3.5. Ki n trỳc l p Convolution v i k-Max Pooling (k = 2)

Mụ hỡnh Encoder-Decoder: Mụ hỡnh đ c xơy d ng s d ng ki n trỳc b mư húa - gi i mư [92] v i b mư húa vƠ gi i mư s d ng m ng biLSTM (m ng biLSTM đư trỡnh bƠy trong ch ng 2). M i biLSTM cú 512 tr ng thỏi n x 2 chi u = 1.024 tr ng thỏi n đ liờn k t ng c nh cỏc cơu trong v n b n. Cỏc vộc t đ u ra c a l p k-Max Pooling ( , ,...,s s1 2 sm) đ c đ a qua b Encoder-Decoder vƠ nh n đ c cỏc vộc t cơu đ u ra ' ' '

1 2

( ,s s ,...,sm) cú 1.024 chi ụ Ki n trỳc Encoder-Decoder đ xu t c a mụ hỡnh đ c bi u di n nh trong Hỡnh 3.6 d i đơỵ

Hỡnh 3.6. Ki n trỳc mụ hỡnh Encoder-Decoder đ xu t

L p Dropout: L p FC d b hi n t ng quỏ kh p nờn mụ hỡnh x lý đ a cỏc

vộc t cơu đ u ra c a b Encoder-Decoder qua m t l p Dropout v i t l dropout p đ c ch n b ng 0,2 (p = 0,2) đ gi m hi n t ng quỏ kh p tr c khi vộc t nƠy đ c ghộp n i v i vộc t đ u ra c a l p FC’ đ đ a vƠo l p FC ti p theo sau trong mụ hỡnh phơn lo i cơụ

67

c tr ng TF-IDF và l p FC’: Nallapati vƠ c ng s [128] cho th y hi u qu

c a cỏc đ c tr ng s d ng trong cỏc mụ hỡnh túm t t v n b n nờn đ c tr ng TF-IDF đ c thờm cho mụ hỡnh đ nơng cao hi u qu c a mụ hỡnh túm t t đ xu t. Do vộc t TF-IDF cú kớch th c l n (b ng kớch th c c a b t v ng) nờn mụ hỡnh s d ng m t l p FC khụng cú hƠm kớch ho t (ký hi u là l p FC’) đ gi m chi u c a vộc t TF-IDF (đ c xem nh phộp chi u đ gi m chi u c a vộc t TF-IDF) nh m gi m đ ph c t p tớnh toỏn c a mụ hỡnh. Do mụ hỡnh đ xu t gi i h n b t v ng ch l y

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 74 - 82)

Tải bản đầy đủ (PDF)

(181 trang)