Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,92 MB
Nội dung
TRìNG I HC B CH KHOA H NáI LU NV NTH CS Tâm t›t a v«n b£n ti‚ng Vi»t CAOM NHH I hai.cmcb190206@sis.hust.edu.vn Ng nh Khoa håc m¡y t‰nh Gi£ng viản hữợng dÔn: PGS.TS Lả Thanh Hữỡng Viằn: Cổng nghằ thổng tin v Truyãn thổng H NáI, 12/2021 Ch kỵ cıa GVHD C¸NG H`A XH¸I CHÕ NGH A VI T NAM ºc l“p - Tü - H⁄nh B NX CNH NCHNHSÛALU NV NTH CS Hå v t¶n t¡c giÊ lun vôn: Cao Mnh HÊi ã t i lun vôn: Tõm tt a vôn bÊn ting Viằt Chuyản ng nh: Khoa håc dœ li»u M¢ sŁ SV: CB190206 T¡c giÊ, Ngữới hữợng dÔn khoa hồc v Hi ỗng chĐm lun vôn xĂc nhn tĂc giÊ Â sòa cha, b sung lun vôn theo biản bÊn hồp Hi ỗng ng y 24/12/2021 vợi cĂc ni dung sau: ã B sung cỡ s lỵ thuyt cho ngổn ng ting Viằt v ting Anh ã B sung ỵ nghắa thỹc tin cho • t i • Sßa c¡c lØi ch‰nh t£ H Ni, ng y GiĂo viản hữợng dÔn thĂng TĂc giÊ lun vôn CHế TCH HáI NG nôm TILUNVN Thổng tin vã hồc viản Hồ v tản hồc viản: Cao Mnh HÊi M hồc viản: CB190206 iằn thoi liản lc: 0981245088 Email: hai.cmcb190206@sis.hust.edu.vn Lỵp: Khoa håc dœ li»u (KH) Khâa: CH2019B Lun vôn tt nghiằp ữổc thỹc hiằn ti: Trữớng ⁄i håc B¡ch khoa H Nºi Thíi gian l m Lu“n v«n tŁt nghi»p: Tł ng y 01/02/2020 ‚n 08/12/2021 Mưc ‰ch nºi dung cıa Lu“n v«n tŁt nghi»p Tm hiu cĂc k thut Xò lỵ ngổn ng tỹ nhiản v cĂc kin thức vã Hồc mĂy v Hồc s¥u tł â ¡p dưng cho b i to¡n Tâm tt a vôn bÊn ting Viằt Kt hổp vợi viằc tm hiu cĂc phữỡng phĂp tõm tt vôn bÊn truyãn thŁng tł â ÷a c¡ch k‚t hỉp ” c£i thi»n º ch ‰nh x¡c cho b i to¡n C¡c nhi»m vư cư th” cıa Lu“n v«n tŁt nghi»p - Tm hiu lỵ thuyt Xò lỵ ngổn ng tỹ nhiản, Hồc mĂy v Hồc sƠu - Tm hiu cĂch tiãn xò lỵ d liằu v phữỡng phĂp vc tỡ hâa dœ li»u - T…m hi”u c¡c ph÷ìng ph¡p tâm tt vôn bÊn  ữổc nghiản cứu - Tm hiu c¡ch ¡nh gi¡ º ch‰nh x¡c cho b i to¡n Tõm tt vôn bÊn - ã xuĐt mổ hnh kt hỉp c¡c ph÷ìng ph¡p ” c£i thi»n º ch‰nh x¡c cıa b i to¡n - Thß nghi»m v ¡nh gi¡ kt quÊ trản cĂc phữỡng phĂp  tm hiu - Kt lun v hữợng phĂt trin Lới cam oan cıa håc vi¶n: Tỉi Cao M⁄nh H£i cam k‚t Lu“n vôn tt nghiằp n y l cổng trnh nghiản cứu ca bÊn thƠn tổi dữợi sỹ hữợng dÔn ca PGS.TS Lả Thanh Hữỡng CĂc kt quÊ nảu Lun vôn tŁt nghi»p l trung thüc, khæng ph£i l ch†p to n vôn ca bĐt ký cổng trnh n o kh¡c H Nºi, ng y th¡ng n«m T¡c gi£ Lu“n vôn tt nghiằp XĂc nhn ca giĂo viản hữợng dÔn vã mức ho n th nh ca Lun v«n tŁt nghi»p v cho ph†p b£o v»: H Ni, ng y thĂng nôm GiĂo viản hữợng dÔn PGS.TS Lả Thanh Hữỡng LIC MèN Lới u tiản, em xin gòi lới cÊm ỡn chƠn th nh n c¡c Thƒy, Cæ gi¡o vi»n Cæng ngh» thæng tin v Truyãn thổng  truyãn tÊi khổng ch l kin thức, k nông m cặn l nhng nhiằt huyt em câ th” vœng t¥m suŁt thíi gian håc Em xin b y tọ lặng bit ỡn sƠu sc tợi PGS.TS Lả Thanh Hữỡng  ch bÊo tn t… nh ” em câ th” ho n th nh ữổc Lun vôn Ngo i ra, em xin gòi lới cÊm ỡn n Viằn nghiản cứu tr tuằ nhƠn to VinAI  to iãu kiằn, mổi trữớng sĂng to cho em ho n th nh tŁt nhi»m vư Lu“n v«n ÷ỉc giao CuŁi cịng, em xin gßi líi c£m ìn ‚n gia …nh, v nhœng ng÷íi b⁄n ln ıng hº em h‚t m…nh qu¡ tr…nh ho n thi»n Lu“n vôn HC VI N TM T T NáI DUNG LU N V N TăT NGHI P Mửc tiảu ca khuổn kh Lun vôn tt nghiằp l giÊi quyt ữổc b i toĂn tõm tt a vôn bÊn sò dửng k thu“t tâm l÷ỉc cho ngỉn ngœ ti‚ng Vi»t Qua qu¡ trnh tm hiu vợi sỹ hữợng dÔn tn tnh ca PGS TS Lả Thanh Hữỡng, kt quÊ thu ữổc cıa lu“n v«n l kh£ quan B¡o c¡o n y s trnh b y nhng vĐn ã  tm hiu ÷ỉc v qu¡ tr… nh thüc hi»n Lu“n v«n tŁt nghiằp Kt quÊ ca Lun vôn tt nghiằp  thò nghiằm ữổc cĂc phữỡng phĂp trản b d liằu "Duc2007" cho mỉ h…nh tâm t›t a v«n b£n tr‰ch rót v ữa ữổc kt quÊ so sĂnh chĐt lữổng ca cĂc phữỡng phĂp khĂc trản th giợi Ngo i ra, mºt mỉ h…nh tâm t›t a v«n b£n tõm lữổc  ữổc ã xuĐt cho b d liằu ting Viằt v kt quÊ thò nghiằm cho thĐy chĐt lữổng ca mổ hnh ã xuĐt l khÊ quan trản bº dœ li»u cıa t¡c gi£ Trƒn Mai Vô Nºi dung ch‰nh cıa Lu“n v«n tŁt nghi»p l tr…nh b y cĂc phữỡng phĂp giÊi quyt vĐn ã trch rót thỉng tin quan trång t“p c¡c v«n b£n v sau â tâm t›t l⁄i b‹ng nhœng c¥u tł ho n to n mỵi Chi ti‚t B¡o c¡o lu“n vôn tt nghiằp s trnh b y cĂc vĐn ã sau: - Chữỡng 1: M u: t vĐn ã, giợi thiằu b i toĂn tõm tt vôn bÊn - Chữỡng 2: Cỡ s lỵ thuyt: trnh b y cĂc kin thức cỡ bÊn  dửng lun vôn tt nghiằp - Chữỡng 3: Hữợng tip cn v mổ hnh ã xuĐt: trnh b y cĂc hữợng tip cn v • xu§t mỉ h…nh cho b i to¡n tâm t›t a vôn bÊn theo hữợng tõm lữổc - Chữỡng 4: C i °t, thß nghi»m v ¡nh gi¡: tr…nh b y vã d liằu thò nghiằm v ữa kt quÊ ca cĂc phữỡng phĂp trản b d liằu thò nghiằm - Chữỡng 5: Kt lun v hữợng phĂt trin: tr…nh b y nhœng âng gâp, nhœng khâ kh«n cıa Lun vôn tt nghiằp T õ ữa hữợng phĂt tri”n cho lu“n v«n tŁt nghi»p H¯C VI N Mưc lưc Mð 1.1 1.2 1.3 1.4 ƒu °t v§n • B i to¡n tâm t›t v«n b£n ị nghắa thỹc tin ca ã t i nh hữợng 1.4.1 CĂc nghiản cứu liản quan theo hữợng tr‰ch rót 1.4.2 C¡c nghi¶n cøu li¶n quan theo hữợng tõm lữổc 1.4.3 Phữỡng phĂp sò dưng • t i Cỡ s lỵ thuyt 2.1 Lỵ thuy‚t v• ngỉn ngœ 2.1.1 Ti‚ng Anh 2.1.2 Ti‚ng Vi»t 2.2 Mỉ h…nh v†c tì hâa dœ li»u 2.2.1 Mæ h…nh tói tł 2.2.2 Mổ hnh túi t sò dửng lữổc ç trång sŁ TF-IDF 2.2.3 Nhóng tł 2.3 Ph÷ìng ph¡p ¡nh gi¡ 2.3.1 º o Rouge 2.3.2 Mºt sŁ bi‚n th” cıa º o Rouge 2.4 Cỡ s lỵ thuyt cho mỉ h…nh tâm t›t a v«n b£n tr‰ch rót 2.4.1 K-means 2.4.2 LexRank 2.4.3 Maximal Marginal Relevance (MMR) 2.4.4 Phữỡng phĂp sò dửng trung tƠm 2.5 Cì s lỵ thuyt cho b i toĂn tõm tt ỡn vôn bÊn tõm lữổc 2.5.1 Mng nỡron hỗi quy (Recurrent Neural Network - RNN) 2.5.2 Long Short Term Memory (LSTM - Bº nhỵ d i-ng›n h⁄n) 2.5.3 Mæ h…nh Sequence to Sequence cì b£n 2.5.4 Cì ch‚ Attention 2.5.5 Cì ch‚ Pointing/Copying 2.5.6 Beam Search Hữợng tip cn v mổ hnh • xu§t 3.1 Mỉ h…nh • xu§t 3.2 Mổ hnh tõm tt a vôn bÊn theo hữợng trch rót 3.2.1 Hữợng tip cn cho mỉ h…nh tâm t›t a v«n b£n tr‰ch rót 3.2.2 K-means sß dưng tr‰ t÷ìng Łi i 1 4 5 7 10 10 11 12 15 15 16 16 16 19 19 20 21 21 22 25 26 28 30 31 31 32 32 33 3.2.3 K-means k‚t hỉp tr‰ c¥u t i li»u 35 3.2.4 K-means k‚t hæp MMR v Position 36 3.2.5 K-means k‚t hæp Centroid-based, MMR v Position 37 3.3 Mổ hnh tõm tt ỡn vôn bÊn theo hữợng tõm l÷ỉc 38 3.3.1 Hữợng tip cn cho mổ hnh tõm tt ỡn vôn bÊn tõm lữổc 38 3.3.2 T“n döng c¡c °c tr÷ng tł t i li»u ƒu v o 39 3.4 Quy tr…nh hu§n luy»n mỉ h…nh tõm tt a vôn bÊn theo hữợng tõm lữổc 41 C i °t, thß nghi»m v ¡nh gi¡ 44 4.1 Cỉng cư v mỉi tr÷íng c i °t 4.2 Chu'n bà dœ li»u 4.2.1 Bº dœ li»u Duc2007 4.2.2 Bº dœ li»u B¡o mỵi 4.2.3 Bº dœ li»u cıa t¡c gi£ Trƒn Mai Vô 4.2.4 Bº dœ li»u Vims 4.3 Tiãn xò lỵ d liằu v Ănh giĂ mổ hnh tâm t›t 4.4 ¡nh gi¡ chĐt lữổng mổ hnh 4.4.1 K‚t qu£ cıa mỉ h…nh tâm t›t a v«n b£n tr‰ch rót tr¶n t“p dœ li»u Duc2007 4.4.2 K‚t qu£ cıa mæ t‰nh tâm t›t a tr‰ch rót tr¶n bº dœ li»u ti‚ng Vi»t 4.4.3 K‚t qu£ ca mổ hnh tõm tt ỡn vôn bÊn tõm lữổc trản b d liằu BĂo mợi 4.4.4 K‚t qu£ cıa mỉ h…nh tâm t›t a v«n b£n tõm lữổc trản b d liằu 200 clusters Kt lun v hữợng phĂt trin 5.1 Kt lun 5.2 Hữợng phĂt trin 44 44 44 45 45 46 46 47 47 49 49 50 53 53 54 Danh s¡ch b£ng 4.1 4.2 4.3 4.4 4.5 4.6 K‚t qu£ cıa mæ hnh tõm tt a vôn bÊn trch rút vợi bn kàch b£n[19] K‚t qu£ cıa mæ h…nh tâm tt trch rút so vợi cĂc phữỡng phĂp cỡ s[19] Kt quÊ ca mt s phữỡng phĂp trản th‚ giỵi[19] K‚t qu£ cıa mæ h…nh tâm t›t a tr‰ch rót tr¶n t“p 200 clusters v Vims K‚t qu£ cıa mæ h…nh tâm tt ỡn tõm lữổc trản BĂo mợi K‚t qu£ cıa mæ h…nh tõm tt a vôn bÊn tõm lữổc trản 200 clusters iii 48 48 49 49 50 50 Danh sĂch hnh v 1.1 Phữỡng phĂp sò dửng ã t i 2.1 Bag of Words[17] 11 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 3.1 Bag of Word vỵi trång sŁ tf-idf[17] Mæ h…nh CBOW vỵi mºt tł ngœ c£nh[29] Ki‚n tróc CBOW[29] Ki‚n tróc Skip-Gram[29] Mºt ìn RNN[26] C§u tróc Cell LSTM Forget gate LSTM[23] Input gate LSTM[23] Cell state LSTM[23] Output gate LSTM[23] Mỉ h…nh seq2seq cì b£n (SOS v EOS l token b›t ƒu v k‚t thóc)[20] LSTM hai chi•u[14] Mỉ h…nh seq2seq düa tr¶n cì ch‚ attention[20] Mỉ h…nh sß dưng cì ch‚ pointer[13] Gi£i thu“t Beam Search[28] Mỉ h…nh tâm t›t a v«n b£n tâm l÷ỉc 12 13 14 14 21 22 23 23 24 24 25 26 27 29 30 32 3.2 3.3 3.4 3.5 3.6 3.7 Mỉ h…nh cì sð cho b i to¡n tâm t›t a tr‰ch rót[19] Mổ hnh tõm tt a vôn bÊn sò dửng K-means[19] Bi”u di„n v†c tì c¥u sß dưng Word2Vec[17] Mổ hnh tõm tt a vôn bÊn sò dửng K-means k‚t hæp Position[19] Mæ h…nh tâm t›t a tr‰ch rót sß dưng K-means k‚t hỉp MMR v Position[19] Mỉ h…nh tâm t›t sß dưng K-means k‚t hæp Centroid-based, MMR v Position[19] Mỉ h…nh tâm t›t ìn v«n b£n tâm l÷ỉc cì sð Mổ hnh tõm tt ỡn vôn bÊn tõm lữổc Quy tr…nh ƒy ı cho b i to¡n tâm t›t a vôn bÊn tõm lữổc Quy tr…nh hu§n luy»n mỉ h…nh tâm tt ỡn vôn bÊn tõm lữổc ban u Quy tr…nh hu§n luy»n l⁄i mỉ h…nh tâm t›t ìn vôn bÊn tõm lữổc Quy tr…nh ¡nh gi¡ to n bº mæ h…nh tâm tt a vôn bÊn tõm lữổc 33 34 34 35 36 3.8 3.9 3.10 3.11 3.12 3.13 iv 38 39 40 41 41 42 43 Chữỡng M u D liằu trản mng ng y c ng tông vợi mt tc chõng mt theo thới gian Lữổng d liằu quĂ lợn n y tr nản rĐt khõ kim soĂt v gƠy nhng khõ khôn cho mồi ngữới tm ồc nhng thổng tin trản mng Mồi ngữới cõ xu hữợng tm ồc nhng thổng tin ngn ngồn vÔn gi ữổc nhng ỵ chnh Những vợi viằc d liằu ng y c ng gia tông, viằc ngữới tỹ mnh to c¡c b£n tâm t›t l b§t kh£ thi V… v“y, vi»c t⁄o mºt mỉ h…nh tâm t›t v«n b£n tỹ ng l mt vĐn ã cĐp thit cng ỗng nghiản cứu vã xò lỵ ngổn ng tỹ nhiản 1.1 t vĐn ã Tõm tt vôn bÊn ang l hữợng nghiản cứu ữổc khĂ nhiãu nh nghiản cứu quan tƠm v cĂc kt quÊ vã nhng mổ hnh tõm tt vôn bÊn hiằn ti l tữỡng i khÊ quan Cịng vỵi â, sü ph¡t tri”n cıa phƒn cøng ng y c ng mnh m kt hổp vợi lữổng d liằu tông lản tng phút l m cho viằc giÊi quyt cĂc b i toĂn theo hữợng tip cn mĂy håc c ng trð n¶n d„ d ng °c bi»t l vợi b i toĂn tõm tt a vôn bÊn tõm lữổc m viằc huĐn luyằn mt mổ hnh tt ặi họi mt lữổng lợn d liằu v yảu cu tc tnh toĂn nhanh V lỵ â, b i to¡n tâm t›t a v«n b£n theo hữợng tõm lữổc ang rĐt ữổc quan tƠm cĂc cng ỗng hồc thut trản to n th giợi Song song vợi õ, hữợng nghiản cứu vã b i toĂn tõm tt vôn bÊn Viằt Nam cặn khĂ t, °c bi»t l b i to¡n tâm t›t a v«n bÊn tõm lữổc ThĐy ữổc nhng lổi ch v thỹc tr⁄ng nghi¶n cøu t⁄i Vi»t Nam, em quy‚t ành thüc hiằn viằc tm hiu v xƠy dỹng chữỡng trnh Tõm tt a vôn bÊn tõm lữổc vợi ngổn ng ting Vi»t 1.2 B i to¡n tâm t›t v«n b£n Tâm t›t v«n b£n l mºt b i to¡n phøc t⁄p ÷æc tri”n khai ” bi‚n mºt t“p hæp c¡c t i li»u th nh nh§t ch¿ mºt t i li»u m ch¿ chøa nhœng nºi dung ch‰nh tł t“p t i li»u gŁc Cịng vỵi â, n‚u ch¿ t⁄o mºt b£n tâm t›t ng›n v n›m b›t ÷ỉc thæng tin quan trång cıa (c¡c) t i li»u gŁc l khỉng ı, b£n tâm t›t cƒn ph£i ÷ỉc tâm t›t l⁄i theo óng có ph¡p, £m b£o ÷ỉc t‰nh trỉi ch£y v óng tr…nh tü thíi gian nh÷ mºt t i li»u ºc l“p B i to¡n tâm t›t vôn bÊn thữớng ữổc bit n vợi hai hữợng chnh: • Tâm t›t v«n b£n tr‰ch rót