Ng 4.4 Mu túm tt gm bn túm tt tham chi u, bn túm tt ca mụ hỡnh trong

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 106 - 118)

[43] và b n túm t t c a mụ hỡnh đ xu t trờn b d li u Baomoi

Trong B ng 4.4, cú th th y thụng tin chớnh c a v n b n là: 1.000 kg d u b n v a đ c chuy n t i b i m t xe t i ch hàng. Theo ngu n tin thõn c y, s d u này cú xu t x t m t x ng ch bi n t i mó đi m, Giao Chõụ Ngày 31/8, m t t cụng tỏc g m phũng an toàn th c ph m, cụng an và chớnh quy n th xó đó ph i h p đi u tra s vi c này. B n túm t t tham chi u ch a h u h t cỏc thụng tin trờn. B n túm t t do mụ hỡnh trong [43] sinh ra khụng ch a thụng tin quan tr ng là 1.000 kg d u b n vƠ ch cung c p m t ph n thụng tin c n thi t. NgoƠi ra, m c dự v n b n túm t t đ u ra c a mụ hỡnh trong [43] ng n vƠ thi u thụng tin chớnh, c m t “s vi c b

phanh phui vào ngày 30/8 v a qua” b l p l i hai l n. Trong khi đú, b n túm t t đ c sinh ra b i mụ hỡnh đ xu t PG_Feature_ASDS đư cung c p nhi u thụng tin h n so v i mụ hỡnh trong [43] vƠ khụng ch a cỏc c m t l p l i.

Nh v y, cú th th y b n túm t t đ u ra c a mụ hỡnh đ xu td hi u và khụng cú l i ng phỏp đ i v i c hai b d li u ti ng Anh vƠ ti ng Vi t.

4.6. K tălu nch ngă4

Trong ch ng nƠy, lu n ỏn đưđ xu t phỏt tri n m t mụ hỡnh túm t t đ n v n b n h ng túm l c hi u qu cho túm t t v n b n ti ng Anh vƠ ti ng Vi t s d ng cỏc k thu t h c sơu, cỏc k thu t hi u qu khỏc vƠ k t h p cỏc đ c tr ng c a v n b n cho mụ hỡnh túm t t. Cỏc k t qu đ t đ c c th nh sau:

- Vộc t húa v n b n đ u vƠo s d ng ph ng phỏp word2vec.

- S d ng m ng seq2seq v i b mó húa s d ng m ng biLSTM vƠ b gi i mư s d ng m ng LSTM k t h p c ch chỳ ý, c ch sinh t - sao chộp t vƠ c ch bao ph cho mụ hỡnh túm t t.

- K t h p cỏc đ c tr ng v trớ cơu và t n su t xu t hi n c a t vào mụ hỡnh túm t t.

- Th nghi m vƠ đỏnh giỏ k t qu mụ hỡnh túm t t đ xu t PG_Feature_ASDS cho túm t t v n b n ti ng Anh, ti ng Vi t s d ng cỏc b d li u CNN/Daily Mail, Baomoi t ng ng.

K t qu đ t đ c c a ch ng đư đ c cụng b trong cụng trỡnh [CT2]. Trong ch ng ti p theo, lu n ỏn s nghiờn c u đ xu t m t mụ hỡnh túm t t đa v n b n h ng trớch rỳt và cỏc mụ hỡnh túm t t đa v n b n h ng túm l c cho túm t t v n b n ti ng Anh vƠ ti ng Vi t.

94

Ch ngă5.ăPHÁTăTRI NăCÁCăPH NGăPHÁPăTịMăT Tă

AăV NăB N

Trong ch ng nƠy, tr c h t lu n ỏn đ xu t phỏt tri n m t mụ hỡnh túm t t đa v n b n h ng trớch rỳt Kmeans_Centroid_EMDS cho túm t t ti ng Anh vƠ ti ng Vi t s d ng k thu t phơn c m K-means, ph ng phỏp d a trờn trung tơm (Centroid-based), MMR vƠ đ c tr ng v trớ cơu đ t o b n túm t t. Mụ hỡnh Kmeans_Centroid_EMDS đ c th nghi m trờn b d li u DUC 2007 (ti ng Anh) và Corpus_TMV (ti ng Vi t). Sau đú, lu n ỏn đ xu t phỏt tri n mụ hỡnh túm t t đa v n b n h ng túm l c PG_Feature_AMDS d a trờn mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c đư phỏt tri n ch ng 4 vƠ tinh ch nh mụ hỡnh túm t t đ n v n b n nƠy b ng vi c hu n luy n ti p trờn cỏc b d li u túm t t đa v n b n t ng ng đ mụ hỡnh đ xu t PG_Feature_AMDS đ t đ c hi u qu t t h n. Mụ hỡnh PG_Feature_AMDS đ c th nghi m s d ng cỏc b d li u DUC 2007 và DUC 2004 (ti ng Anh); cỏc b d li u ViMs vƠ b d li u Corpus_TMV (ti ng Vi t). Cu i cựng, lu n ỏn đ xu t phỏt tri n mụ hỡnh túm t t đa v n b n h ng túm l c Ext_Abs_AMDS-mds-mmr d a trờn mụ hỡnh túm t t h n h p đ c xơy d ng t cỏc mụ hỡnh túm t t đ n v n b n đ c hu n luy n tr c đư phỏt tri n ch ng 3, ch ng 4 vƠ tinh ch nh mụ hỡnh túm t t h n h p này b ng vi c hu n luy n ti p trờn cỏc b d li u túm t t đa v n b n t ng ng đ mụ hỡnh đ xu t Ext_Abs_AMDS-mds-mmr cho k t qu t th n. Mụ hỡnh Ext_Abs_AMDS-mds-mmr c ng đ c th nghi m s d ng cỏc b d li u DUC 2007 vƠ DUC 2004 (ti ng Anh); cỏc b d li u ViMs vƠ b d li u Corpus_TMV (ti ng Vi t).

5.1. Gi iăthi u bài toỏn túmăt tăđaăv năb năvƠăh ngăti păc n

Ngày nay, kh i l ng tin t c đ c cung c p trờn m ng Internet r t l n. Cú nhi u tin t c đ c p đ n cựng m t ch đ v i m t s chi ti t s a đ ị Nhu c u túm t t t t c cỏc tin t c nƠy đ cú thụng tin ng n g n v ch đ đ c đ t ra vƠ túm t t đa v n b n lƠ m t gi i phỏp cho v n đ nƠỵ Túm t t đa v n b n v i m c đớch t o ra m t b n túm t t duy nh t mang đ y đ thụng tin c a t t c cỏc v n b n ngu n, b n túm t t ph i trỏnh s trựng l p thụng tin gi a cỏc v n b n cú cựng n i dung. Ngoài ra, v n đ thi u d li u th nghi m cho bƠi toỏn túm t t đa v n b n c ng gơy ra nhi u khú kh n. Cú th núi, thỏch th c c a túm t t đa v n b n đ t ra l n h n r t nhi u so v i bƠi toỏn túm t t đ n v n b n. BƠi toỏn túm t t đa v n b n cú th đ c chia thành 2 lo i đ c phỏt bi u nh sau:

Bài toỏn túm t t đa v n b n h ng trớch rỳt: Cho t p đa v n b n g m G v n b n liờn quan đ n cựng ch đ đ c bi u di n là Dmul (D D1, 2,...,Di,....,D ; trong G) đú: D i lƠ v n b n th i trong t p đa v n b n. M i v n b n D i g m H cõu

1 2

( , ,..., ,...., ) 

i i i ij iH

D s s s s , trong đú: s lƠ cơu th ij j c a v n b n Ditrong t p đa v n b n Dmul, H cú giỏ tr thay đ i tựy thu c vƠo t ng v n b n. Nhi m v c a túm t t đa v n b n h ng trớch rỳt lƠ t o ra m t b n túm t t ng n g n S t t p v n b n Dmul

95

g m M cõu đ c bi u di n là S( , ,..., ,....,s s1' 2' si' sM' ) (v i M < T ng s cơu c a t p đa v n b n Dmul), trong đú: '

, 1,

 

i j

s D j G . gi i quy t bƠi toỏn túm t t đa v n b n h ng trớch rỳt nƠy, lu n ỏn ti p c n theo h ng đ a bƠi toỏn túm t t đa v n b n h ng trớch rỳt v bƠi toỏn phơn c m v n b n vƠ gi i quy t cỏc thỏch th c đ t ra c a bƠi toỏn túm t t đa v n b n. Ph ng phỏp túm t t đa v n b n h ng trớch rỳt đ xu t đ c trỡnh bƠychi ti t trong ph n 5.2 d i đơỵ

Bài toỏn túm t t đa v n b n h ng túm l c: Cho t p đa v n b n Dmul g m G v n b n liờn quan đ n cựng ch đ đ c bi u di n lƠ Dmul (D D1, 2,...,Di,....,DG); trong đú: D lƠ v n b n th i i trong t p đa v n b n. M i v n b n D đ c bi u di n i d i d ng là Di (x xi1, i2,...,xij,....,xiL), v i: x ij lƠ t th j c a v n b n D , L lƠ s i l ng t c a v n b n D i cú giỏ tr thay đ i tựy thu c vƠo t ng v n b n.B n túm t t túm l c S c a t p đa v n b n Dmul đ c sinh ra g m T t đ c bi u di n lƠ

1 2

( , ,..., ,...., )

 i T

Y y y y y ; v i: i1,T ,yiD i ho cyiD (lỳc này i t đ c l y t b t v ng). gi i quy t bƠi toỏn túm t t đa v n b n h ng túm l c, lu n ỏn tri n khai ti p c n theo hai ph ng phỏp là:

- Ph ng phỏp 1: a bƠi toỏn túm t t đa v n b n h ng túm l c v bƠi toỏn túm t t đ n v n b n h ng túm l c b ng cỏch ghộp cỏc v n b n trong t p đa v n b n thƠnh m t “siờu v n b n”, siờu v n b n nƠy đ c coi nh đ n v n b n vƠ ỏp d ng cỏc k thu t túm t t đ n v n b n h ng túm l c đư đ xu t đ sinh b n túm t t túm l c cu i cựng.

- Ph ng phỏp 2: a bƠi toỏn túm t t đa v n b n h ng túm l c v bƠi toỏn túm t t đ n v n b n h ng túm l c b ng cỏch túm t t t ng đ n v n b n c at p đa v n b n đ đ c b n túm t t, sau đú ghộp cỏc b n túm t t nƠy thƠnh m t “siờu v n b n”. Siờu v n b n nƠy đ c coi nh m t đ n v n b n vƠ ỏp d ng cỏc k thu t túm t t đ n v n b n h ng túm l c đư đ xu t đ sinh b n túm t t túm l c cu i cựng.

Hai ph ng phỏp túm t t đa v n b n h ng túm l c này s đ c trỡnh bƠy trong ph n 5.3.

5.2.ăMụăhỡnhătúmăt tăđaăv năb năh ngătrớchărỳtă

Kmeans_Centroid_EMDS

5.2.1. Gi iăthi uămụăhỡnh

Cỏc nghiờn c u v túm t t đa v n b n h ng trớch rỳt th ng nhúm cỏc cơu t ng t nhau t t p đa v n b n đ u vƠo thƠnh cỏc c m vƠ ch n cỏc cơu trung tõm c a m i c m đ đ a vƠo ph n túm t t [136,137]. t ng t cosine th ng đ c s d ng đ tớnh toỏn đ t ng t gi a m t c p cơu (cỏc cơu đ c bi u di n d i d ng vộc t cú tr ng s TF-IDF). Cơu cú t n su t xu t hi n nhi u nh t đ c coi lƠ trung tơm c a c m. Tuy nhiờn, ph ng phỏp nƠy khụng xem xột ng ngh a c a m i t trong v n b n nờn b n túm t t sinh ra cú th khụng t t v m tng ngh ạ M t v n đ khỏc v i cỏch ti p c n nƠy lƠ m t s c m cú th ch a thụng tin khụng quan tr ng t cỏc v n b n đ u vƠọ

96

M t s nghiờn c u đư ỏp d ng ph ng phỏp d a trờn trung tơm đ sinh ra v n b n túm t tnh [138,139]. Cỏch ti p c n nƠy sinh ra cỏc trung tơm c m ch acỏc t lƠ trung tơm c a t t c cỏc v n b n đ u vƠọ B n túm t t đ c sinh ra b ng cỏch thu th p cỏc cơu cú ch a cỏc t trung tơm. Nh c đi m c a cỏch ti p c n này là khụng ng n ch n đ c s d th a thụng tin trong b n túm t t. gi i quy t v n đ nƠy, Carbonell và Goldstein [116] đư đ xu tph ng phỏp MMR đ sinh ra cỏc b n túm t t. Tuy nhiờn, cỏch ti p c n nƠy khụng lo i b đ c cỏc cơu khụng quan tr ng trong b ntúm t t. Cú th núi, vi c t o ra m t b n túm t t mụ t t t nh t cỏc v n b n đ u vƠo vƠ ch a thụng tin d th a ớt nh t lƠ m t thỏch th c l n trong bài toỏn túm t t đa v n b n. gi i quy t cỏc v n đ này, lu n ỏn nghiờn c u đ xu t ph ng phỏp ti p c n túm t t đa v n b n h ng trớch rỳt s d ng thu t toỏn phơn c m K- means đ phơn c m cỏc cơu c a cỏc v n b n đ u vƠọ gi i quy t v n đ ch n cỏc cơu đ i di n cho cỏc c m khụng quan tr ng, ph ng phỏp d a trờn trung tơm đ c s d ng đ tỡm cỏc cơu trung tơm nh t vƠ lo i b cỏc c m ch a ớt thụng tin. NgoƠi ra, ph ng phỏp MMR đ c ỏp d ng đ lo i b thụng tin trựng l p gi a cỏc cơu trong b n túm t t. B n túm t t đ c sinh ra v i m t trỡnh t th i gian h p lý d a trờn đ c tr ng v trớ cơu trong v n b n đ c thờm vào mụ hỡnh. Ph ng phỏpđ c mụ t c th nh sau: Tr c tiờn, t p đa v n b n đ u vƠo

1 2

( , ,..., ,...., ) 

mul i G

D D D D D đ c x lý ghộp thƠnh 1 đ n v n b n l n duy nh t g m N cơu đ c bi u di n lƠ: D( , ,..., ,....,s s1 2 si sN); v i N b ng t ng s cơu c a t t c cỏc v n b n thu c t p Dmul. Ti p theo, ỏp d ng k thu t phơn c m đ i v i v n b n D đ đ c K c m bi u di n lƠ C(C C1, 2,...,Ci,....,CK) v i: i1,K; trong đú: c m 1 2 ( , ,..., )  i i i i i n

C s s s g m n i cơu cú tơm c m t ng ng lƠ c i đ c xỏc đ nh theo thu t toỏn. Ph ng phỏp d a trờn trung tơm đ c s d ng đ tỡm cỏc cơu trung tơm nh t vƠ lo i b cỏc c m ch a ớt thụng tin. Cõu si*cú đ t ng đ ng l n nh t v i tơm c m c đ c ch n đ đ i di n cho c m vƠ đ c t p i * S g m K cơu t ng ng v i K c m lƠ * * * * 1 2 ( , ,..., )  K S s s s . Cu i cựng, ỏp d ng ph ng phỏp MMR d a trờn đ t ng đ ng vƠ đ c tr ng v trớ cơu đ ch n cơu t t p S đ a vƠo b n túm t t * S.

5.2.2. CỏcăthƠnhăph năchớnhăc aămụăhỡnh

5.2.2.1. Vộc t húa cõu

T p cỏc t tỏch đ c t v n b n đ u vƠoc n đ a v d ng vộc t , đ dƠi c a m i vộc t ph thu c vƠo kớch th cc a b t v ng ho c kớch th cl a ch n. Mụ hỡnh đ xu t s d ng ph ng phỏp word2vecđ vộc t húa v n b nđ u vƠo cho mụ hỡnh phơn c m s d ng thu t toỏn K-means.

5.2.2.2. K-means cho bài toỏn phõn c m

a) Bài toỏn phõn c m u vào: + Cú N đi m d li u đ c bi u di n  1, 2, ,  d N , N X x x x m i đi m d li u ch thu c đỳng m t c mduy nh t;

97 + K lƠ s c m (cluster) c n tỡm (KN ); u ra: + Cỏc tr ng tơm c a cỏc c m: 1 1, ,…,2  d. K m m m + Nhón c a m i đi m d li u: V i m i đi m d li u xi, ta g i  1, 2, ,   i i i iK

y y y y lƠ vộc t nhưn c a nú, trong đú n u xi đ c phơn chia vƠo c m k thỡ yij   0, j k (ngh a lƠ cú m t ph n t c a vộc t yi t ng ng v i c m c a xi b ng 1, cũn t t c cỏc ph n t cũn l i b ng 0).

V i đi u ki nc a vộc t nhưn, ta vi t l i lƠ:

  1 0,1 , , ; 1, .    K   ij ij j y i j y i (5.1) N u ta coi tr ng tơm mk lƠ đ i di n cho c m th k và m t đi m d li u xi đ c phơn vƠo c m k. Vộc t sai s n u thay xi b ng mk là xi m . Tk a mu n vộc t sai s nƠy g n v i vộc t khụng, t c lƠ xi g n v i mk. Vi cnƠy cú th đ c th c hi n thụng qua vi c t i thi u bỡnh ph ng kho ng cỏch clớt 2

2 ||xi mk|| . Do xi đ c phơn vƠo c m k nờn bi u th c 2 2 ||xi mk || đ c vi t l i thƠnh: 2 2 ||xi mk || = 22 22 1 || || || ||   K  ik i k ij i j j y x m y x m (vỡ yik 1, yij   0, j k) Sai s cho toƠn b d li u lƠ:   2

2 1 1 , || ||   N K ij i  j i j L Y M y x m trong đú: Yy y1, 2, ,yN,M m m1, 2, ,m K lƠ cỏc ma tr n đ c t o b i vộc t nhưn c a m i đi m d li u vƠ tr ng tơm c a m i c m t ng ng. HƠm m t mỏt c a bƠi toỏn phơn c m K-means là L Y M , v i cỏc đi u ki n trong cụng th c (5.1).

Nh v y, ta c n gi i bƠi toỏn t i u: 2 2 , 1 1 , arg min || ||    N K ij i  j Y M i j Y M y x m (5.2)

th a mưnđi u ki nrƠng bu c:  

1 0,1 , , ; 1, .    K   ij ij j y i j y i

gi i bƠi toỏn (5.2) ta gi i hai bƠi toỏn con sau:

- Bài toỏn 1: C đ nh M, tỡm Y (bi t cỏc tr ng tơm, c n tỡm cỏc vộc t nhưn) đ hƠm m t mỏt đ t giỏ tr nh nh t.

+ V i cỏc tr ng tơm đư bi t, bƠi toỏn tỡm vộc t nhưn cho toƠn b d li u đ c

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 106 - 118)

Tải bản đầy đủ (PDF)

(181 trang)