[43] và b n túm t t c a mụ hỡnh đ xu t trờn b d li u Baomoi
Trong B ng 4.4, cú th th y thụng tin chớnh c a v n b n là: “1.000 kg d u b n v a đ c chuy n t i b i m t xe t i ch hàng. Theo ngu n tin thõn c y, s d u này cú xu t x t m t x ng ch bi n t i mó đi m, Giao Chõụ Ngày 31/8, m t t cụng tỏc g m phũng an toàn th c ph m, cụng an và chớnh quy n th xó đó ph i h p đi u tra s vi c này”. B n túm t t tham chi u ch a h u h t cỏc thụng tin trờn. B n túm t t do mụ hỡnh trong [43] sinh ra khụng ch a thụng tin quan tr ng là “1.000 kg d u b n” vƠ ch cung c p m t ph n thụng tin c n thi t. NgoƠi ra, m c dự v n b n túm t t đ u ra c a mụ hỡnh trong [43] ng n vƠ thi u thụng tin chớnh, c m t “s vi c b
phanh phui vào ngày 30/8 v a qua” b l p l i hai l n. Trong khi đú, b n túm t t đ c sinh ra b i mụ hỡnh đ xu t PG_Feature_ASDS đư cung c p nhi u thụng tin h n so v i mụ hỡnh trong [43] vƠ khụng ch a cỏc c m t l p l i.
Nh v y, cú th th y b n túm t t đ u ra c a mụ hỡnh đ xu td hi u và khụng cú l i ng phỏp đ i v i c hai b d li u ti ng Anh vƠ ti ng Vi t.
4.6. K tălu nch ngă4
Trong ch ng nƠy, lu n ỏn đưđ xu t phỏt tri n m t mụ hỡnh túm t t đ n v n b n h ng túm l c hi u qu cho túm t t v n b n ti ng Anh vƠ ti ng Vi t s d ng cỏc k thu t h c sơu, cỏc k thu t hi u qu khỏc vƠ k t h p cỏc đ c tr ng c a v n b n cho mụ hỡnh túm t t. Cỏc k t qu đ t đ c c th nh sau:
- Vộc t húa v n b n đ u vƠo s d ng ph ng phỏp word2vec.
- S d ng m ng seq2seq v i b mó húa s d ng m ng biLSTM vƠ b gi i mư s d ng m ng LSTM k t h p c ch chỳ ý, c ch sinh t - sao chộp t vƠ c ch bao ph cho mụ hỡnh túm t t.
- K t h p cỏc đ c tr ng v trớ cơu và t n su t xu t hi n c a t vào mụ hỡnh túm t t.
- Th nghi m vƠ đỏnh giỏ k t qu mụ hỡnh túm t t đ xu t PG_Feature_ASDS cho túm t t v n b n ti ng Anh, ti ng Vi t s d ng cỏc b d li u CNN/Daily Mail, Baomoi t ng ng.
K t qu đ t đ c c a ch ng đư đ c cụng b trong cụng trỡnh [CT2]. Trong ch ng ti p theo, lu n ỏn s nghiờn c u đ xu t m t mụ hỡnh túm t t đa v n b n h ng trớch rỳt và cỏc mụ hỡnh túm t t đa v n b n h ng túm l c cho túm t t v n b n ti ng Anh vƠ ti ng Vi t.
94
Ch ngă5.ăPHÁTăTRI NăCÁCăPH NGăPHÁPăTịMăT Tă
AăV NăB N
Trong ch ng nƠy, tr c h t lu n ỏn đ xu t phỏt tri n m t mụ hỡnh túm t t đa v n b n h ng trớch rỳt Kmeans_Centroid_EMDS cho túm t t ti ng Anh vƠ ti ng Vi t s d ng k thu t phơn c m K-means, ph ng phỏp d a trờn trung tơm (Centroid-based), MMR vƠ đ c tr ng v trớ cơu đ t o b n túm t t. Mụ hỡnh Kmeans_Centroid_EMDS đ c th nghi m trờn b d li u DUC 2007 (ti ng Anh) và Corpus_TMV (ti ng Vi t). Sau đú, lu n ỏn đ xu t phỏt tri n mụ hỡnh túm t t đa v n b n h ng túm l c PG_Feature_AMDS d a trờn mụ hỡnh túm t t đ n v n b n h ng túm l c đ c hu n luy n tr c đư phỏt tri n ch ng 4 vƠ tinh ch nh mụ hỡnh túm t t đ n v n b n nƠy b ng vi c hu n luy n ti p trờn cỏc b d li u túm t t đa v n b n t ng ng đ mụ hỡnh đ xu t PG_Feature_AMDS đ t đ c hi u qu t t h n. Mụ hỡnh PG_Feature_AMDS đ c th nghi m s d ng cỏc b d li u DUC 2007 và DUC 2004 (ti ng Anh); cỏc b d li u ViMs vƠ b d li u Corpus_TMV (ti ng Vi t). Cu i cựng, lu n ỏn đ xu t phỏt tri n mụ hỡnh túm t t đa v n b n h ng túm l c Ext_Abs_AMDS-mds-mmr d a trờn mụ hỡnh túm t t h n h p đ c xơy d ng t cỏc mụ hỡnh túm t t đ n v n b n đ c hu n luy n tr c đư phỏt tri n ch ng 3, ch ng 4 vƠ tinh ch nh mụ hỡnh túm t t h n h p này b ng vi c hu n luy n ti p trờn cỏc b d li u túm t t đa v n b n t ng ng đ mụ hỡnh đ xu t Ext_Abs_AMDS-mds-mmr cho k t qu t th n. Mụ hỡnh Ext_Abs_AMDS-mds-mmr c ng đ c th nghi m s d ng cỏc b d li u DUC 2007 vƠ DUC 2004 (ti ng Anh); cỏc b d li u ViMs vƠ b d li u Corpus_TMV (ti ng Vi t).
5.1. Gi iăthi u bài toỏn túmăt tăđaăv năb năvƠăh ngăti păc n
Ngày nay, kh i l ng tin t c đ c cung c p trờn m ng Internet r t l n. Cú nhi u tin t c đ c p đ n cựng m t ch đ v i m t s chi ti t s a đ ị Nhu c u túm t t t t c cỏc tin t c nƠy đ cú thụng tin ng n g n v ch đ đ c đ t ra vƠ túm t t đa v n b n lƠ m t gi i phỏp cho v n đ nƠỵ Túm t t đa v n b n v i m c đớch t o ra m t b n túm t t duy nh t mang đ y đ thụng tin c a t t c cỏc v n b n ngu n, b n túm t t ph i trỏnh s trựng l p thụng tin gi a cỏc v n b n cú cựng n i dung. Ngoài ra, v n đ thi u d li u th nghi m cho bƠi toỏn túm t t đa v n b n c ng gơy ra nhi u khú kh n. Cú th núi, thỏch th c c a túm t t đa v n b n đ t ra l n h n r t nhi u so v i bƠi toỏn túm t t đ n v n b n. BƠi toỏn túm t t đa v n b n cú th đ c chia thành 2 lo i đ c phỏt bi u nh sau:
Bài toỏn túm t t đa v n b n h ng trớch rỳt: Cho t p đa v n b n g m G v n b n liờn quan đ n cựng ch đ đ c bi u di n là Dmul (D D1, 2,...,Di,....,D ; trong G) đú: D i lƠ v n b n th i trong t p đa v n b n. M i v n b n D i g m H cõu
1 2
( , ,..., ,...., )
i i i ij iH
D s s s s , trong đú: s lƠ cơu th ij j c a v n b n Ditrong t p đa v n b n Dmul, H cú giỏ tr thay đ i tựy thu c vƠo t ng v n b n. Nhi m v c a túm t t đa v n b n h ng trớch rỳt lƠ t o ra m t b n túm t t ng n g n S t t p v n b n Dmul
95
g m M cõu đ c bi u di n là S( , ,..., ,....,s s1' 2' si' sM' ) (v i M < T ng s cơu c a t p đa v n b n Dmul), trong đú: '
, 1,
i j
s D j G . gi i quy t bƠi toỏn túm t t đa v n b n h ng trớch rỳt nƠy, lu n ỏn ti p c n theo h ng đ a bƠi toỏn túm t t đa v n b n h ng trớch rỳt v bƠi toỏn phơn c m v n b n vƠ gi i quy t cỏc thỏch th c đ t ra c a bƠi toỏn túm t t đa v n b n. Ph ng phỏp túm t t đa v n b n h ng trớch rỳt đ xu t đ c trỡnh bƠychi ti t trong ph n 5.2 d i đơỵ
Bài toỏn túm t t đa v n b n h ng túm l c: Cho t p đa v n b n Dmul g m G v n b n liờn quan đ n cựng ch đ đ c bi u di n lƠ Dmul (D D1, 2,...,Di,....,DG); trong đú: D lƠ v n b n th i i trong t p đa v n b n. M i v n b n D đ c bi u di n i d i d ng là Di (x xi1, i2,...,xij,....,xiL), v i: x ij lƠ t th j c a v n b n D , L lƠ s i l ng t c a v n b n D i cú giỏ tr thay đ i tựy thu c vƠo t ng v n b n.B n túm t t túm l c S c a t p đa v n b n Dmul đ c sinh ra g m T t đ c bi u di n lƠ
1 2
( , ,..., ,...., )
i T
Y y y y y ; v i: i1,T ,yiD i ho cyiD (lỳc này i t đ c l y t b t v ng). gi i quy t bƠi toỏn túm t t đa v n b n h ng túm l c, lu n ỏn tri n khai ti p c n theo hai ph ng phỏp là:
- Ph ng phỏp 1: a bƠi toỏn túm t t đa v n b n h ng túm l c v bƠi toỏn túm t t đ n v n b n h ng túm l c b ng cỏch ghộp cỏc v n b n trong t p đa v n b n thƠnh m t “siờu v n b n”, siờu v n b n nƠy đ c coi nh đ n v n b n vƠ ỏp d ng cỏc k thu t túm t t đ n v n b n h ng túm l c đư đ xu t đ sinh b n túm t t túm l c cu i cựng.
- Ph ng phỏp 2: a bƠi toỏn túm t t đa v n b n h ng túm l c v bƠi toỏn túm t t đ n v n b n h ng túm l c b ng cỏch túm t t t ng đ n v n b n c at p đa v n b n đ đ c b n túm t t, sau đú ghộp cỏc b n túm t t nƠy thƠnh m t “siờu v n b n”. Siờu v n b n nƠy đ c coi nh m t đ n v n b n vƠ ỏp d ng cỏc k thu t túm t t đ n v n b n h ng túm l c đư đ xu t đ sinh b n túm t t túm l c cu i cựng.
Hai ph ng phỏp túm t t đa v n b n h ng túm l c này s đ c trỡnh bƠy trong ph n 5.3.
5.2.ăMụăhỡnhătúmăt tăđaăv năb năh ngătrớchărỳtă
Kmeans_Centroid_EMDS
5.2.1. Gi iăthi uămụăhỡnh
Cỏc nghiờn c u v túm t t đa v n b n h ng trớch rỳt th ng nhúm cỏc cơu t ng t nhau t t p đa v n b n đ u vƠo thƠnh cỏc c m vƠ ch n cỏc cơu trung tõm c a m i c m đ đ a vƠo ph n túm t t [136,137]. t ng t cosine th ng đ c s d ng đ tớnh toỏn đ t ng t gi a m t c p cơu (cỏc cơu đ c bi u di n d i d ng vộc t cú tr ng s TF-IDF). Cơu cú t n su t xu t hi n nhi u nh t đ c coi lƠ trung tơm c a c m. Tuy nhiờn, ph ng phỏp nƠy khụng xem xột ng ngh a c a m i t trong v n b n nờn b n túm t t sinh ra cú th khụng t t v m tng ngh ạ M t v n đ khỏc v i cỏch ti p c n nƠy lƠ m t s c m cú th ch a thụng tin khụng quan tr ng t cỏc v n b n đ u vƠọ
96
M t s nghiờn c u đư ỏp d ng ph ng phỏp d a trờn trung tơm đ sinh ra v n b n túm t tnh [138,139]. Cỏch ti p c n nƠy sinh ra cỏc trung tơm c m ch acỏc t lƠ trung tơm c a t t c cỏc v n b n đ u vƠọ B n túm t t đ c sinh ra b ng cỏch thu th p cỏc cơu cú ch a cỏc t trung tơm. Nh c đi m c a cỏch ti p c n này là khụng ng n ch n đ c s d th a thụng tin trong b n túm t t. gi i quy t v n đ nƠy, Carbonell và Goldstein [116] đư đ xu tph ng phỏp MMR đ sinh ra cỏc b n túm t t. Tuy nhiờn, cỏch ti p c n nƠy khụng lo i b đ c cỏc cơu khụng quan tr ng trong b ntúm t t. Cú th núi, vi c t o ra m t b n túm t t mụ t t t nh t cỏc v n b n đ u vƠo vƠ ch a thụng tin d th a ớt nh t lƠ m t thỏch th c l n trong bài toỏn túm t t đa v n b n. gi i quy t cỏc v n đ này, lu n ỏn nghiờn c u đ xu t ph ng phỏp ti p c n túm t t đa v n b n h ng trớch rỳt s d ng thu t toỏn phơn c m K- means đ phơn c m cỏc cơu c a cỏc v n b n đ u vƠọ gi i quy t v n đ ch n cỏc cơu đ i di n cho cỏc c m khụng quan tr ng, ph ng phỏp d a trờn trung tơm đ c s d ng đ tỡm cỏc cơu trung tơm nh t vƠ lo i b cỏc c m ch a ớt thụng tin. NgoƠi ra, ph ng phỏp MMR đ c ỏp d ng đ lo i b thụng tin trựng l p gi a cỏc cơu trong b n túm t t. B n túm t t đ c sinh ra v i m t trỡnh t th i gian h p lý d a trờn đ c tr ng v trớ cơu trong v n b n đ c thờm vào mụ hỡnh. Ph ng phỏpđ c mụ t c th nh sau: Tr c tiờn, t p đa v n b n đ u vƠo
1 2
( , ,..., ,...., )
mul i G
D D D D D đ c x lý ghộp thƠnh 1 đ n v n b n l n duy nh t g m N cơu đ c bi u di n lƠ: D( , ,..., ,....,s s1 2 si sN); v i N b ng t ng s cơu c a t t c cỏc v n b n thu c t p Dmul. Ti p theo, ỏp d ng k thu t phơn c m đ i v i v n b n D đ đ c K c m bi u di n lƠ C(C C1, 2,...,Ci,....,CK) v i: i1,K; trong đú: c m 1 2 ( , ,..., ) i i i i i n
C s s s g m n i cơu cú tơm c m t ng ng lƠ c i đ c xỏc đ nh theo thu t toỏn. Ph ng phỏp d a trờn trung tơm đ c s d ng đ tỡm cỏc cơu trung tơm nh t vƠ lo i b cỏc c m ch a ớt thụng tin. Cõu si*cú đ t ng đ ng l n nh t v i tơm c m c đ c ch n đ đ i di n cho c m vƠ đ c t p i * S g m K cơu t ng ng v i K c m lƠ * * * * 1 2 ( , ,..., ) K S s s s . Cu i cựng, ỏp d ng ph ng phỏp MMR d a trờn đ t ng đ ng vƠ đ c tr ng v trớ cơu đ ch n cơu t t p S đ a vƠo b n túm t t * S.
5.2.2. CỏcăthƠnhăph năchớnhăc aămụăhỡnh
5.2.2.1. Vộc t húa cõu
T p cỏc t tỏch đ c t v n b n đ u vƠoc n đ a v d ng vộc t , đ dƠi c a m i vộc t ph thu c vƠo kớch th cc a b t v ng ho c kớch th cl a ch n. Mụ hỡnh đ xu t s d ng ph ng phỏp word2vecđ vộc t húa v n b nđ u vƠo cho mụ hỡnh phơn c m s d ng thu t toỏn K-means.
5.2.2.2. K-means cho bài toỏn phõn c m
a) Bài toỏn phõn c m u vào: + Cú N đi m d li u đ c bi u di n 1, 2, , d N , N X x x x m i đi m d li u ch thu c đỳng m t c mduy nh t;
97 + K lƠ s c m (cluster) c n tỡm (KN ); u ra: + Cỏc tr ng tơm c a cỏc c m: 1 1, ,…,2 d. K m m m + Nhón c a m i đi m d li u: V i m i đi m d li u xi, ta g i 1, 2, , i i i iK
y y y y lƠ vộc t nhưn c a nú, trong đú n u xi đ c phơn chia vƠo c m k thỡ yij 0, j k (ngh a lƠ cú m t ph n t c a vộc t yi t ng ng v i c m c a xi b ng 1, cũn t t c cỏc ph n t cũn l i b ng 0).
V i đi u ki nc a vộc t nhưn, ta vi t l i lƠ:
1 0,1 , , ; 1, . K ij ij j y i j y i (5.1) N u ta coi tr ng tơm mk lƠ đ i di n cho c m th k và m t đi m d li u xi đ c phơn vƠo c m k. Vộc t sai s n u thay xi b ng mk là xi m . Tk a mu n vộc t sai s nƠy g n v i vộc t khụng, t c lƠ xi g n v i mk. Vi cnƠy cú th đ c th c hi n thụng qua vi c t i thi u bỡnh ph ng kho ng cỏch clớt 2
2 ||xi mk|| . Do xi đ c phơn vƠo c m k nờn bi u th c 2 2 ||xi mk || đ c vi t l i thƠnh: 2 2 ||xi mk || = 22 22 1 || || || || K ik i k ij i j j y x m y x m (vỡ yik 1, yij 0, j k) Sai s cho toƠn b d li u lƠ: 2
2 1 1 , || || N K ij i j i j L Y M y x m trong đú: Yy y1, 2, ,yN,M m m1, 2, ,m K lƠ cỏc ma tr n đ c t o b i vộc t nhưn c a m i đi m d li u vƠ tr ng tơm c a m i c m t ng ng. HƠm m t mỏt c a bƠi toỏn phơn c m K-means là L Y M , v i cỏc đi u ki n trong cụng th c (5.1).
Nh v y, ta c n gi i bƠi toỏn t i u: 2 2 , 1 1 , arg min || || N K ij i j Y M i j Y M y x m (5.2)
th a mưnđi u ki nrƠng bu c:
1 0,1 , , ; 1, . K ij ij j y i j y i
gi i bƠi toỏn (5.2) ta gi i hai bƠi toỏn con sau:
- Bài toỏn 1: C đ nh M, tỡm Y (bi t cỏc tr ng tơm, c n tỡm cỏc vộc t nhưn) đ hƠm m t mỏt đ t giỏ tr nh nh t.
+ V i cỏc tr ng tơm đư bi t, bƠi toỏn tỡm vộc t nhưn cho toƠn b d li u đ c