1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt đa văn bản tiếng việt

67 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 1,92 MB

Nội dung

TRìNG I HC B CH KHOA H NáI LU NV NTH CS Tâm t›t a v«n b£n ti‚ng Vi»t CAOM NHH I hai.cmcb190206@sis.hust.edu.vn Ng nh Khoa håc m¡y t‰nh Gi£ng viản hữợng dÔn: PGS.TS Lả Thanh Hữỡng Viằn: Cổng nghằ thổng tin v Truyãn thổng H NáI, 12/2021 Ch kỵ cıa GVHD C¸NG H`A XH¸I CHÕ NGH A VI T NAM ºc l“p - Tü - H⁄nh B NX CNH NCHNHSÛALU NV NTH CS Hå v t¶n t¡c giÊ lun vôn: Cao Mnh HÊi ã t i lun vôn: Tõm tt a vôn bÊn ting Viằt Chuyản ng nh: Khoa håc dœ li»u M¢ sŁ SV: CB190206 T¡c giÊ, Ngữới hữợng dÔn khoa hồc v Hi ỗng chĐm lun vôn xĂc nhn tĂc giÊ Â sòa cha, b sung lun vôn theo biản bÊn hồp Hi ỗng ng y 24/12/2021 vợi cĂc ni dung sau: ã B sung cỡ s lỵ thuyt cho ngổn ng ting Viằt v ting Anh ã B sung ỵ nghắa thỹc tin cho • t i • Sßa c¡c lØi ch‰nh t£ H Ni, ng y GiĂo viản hữợng dÔn thĂng TĂc giÊ lun vôn CHế TCH HáI NG nôm TILUNVN Thổng tin vã hồc viản Hồ v tản hồc viản: Cao Mnh HÊi M hồc viản: CB190206 iằn thoi liản lc: 0981245088 Email: hai.cmcb190206@sis.hust.edu.vn Lỵp: Khoa håc dœ li»u (KH) Khâa: CH2019B Lun vôn tt nghiằp ữổc thỹc hiằn ti: Trữớng ⁄i håc B¡ch khoa H Nºi Thíi gian l m Lu“n v«n tŁt nghi»p: Tł ng y 01/02/2020 ‚n 08/12/2021 Mưc ‰ch nºi dung cıa Lu“n v«n tŁt nghi»p Tm hiu cĂc k thut Xò lỵ ngổn ng tỹ nhiản v cĂc kin thức vã Hồc mĂy v Hồc s¥u tł â ¡p dưng cho b i to¡n Tâm tt a vôn bÊn ting Viằt Kt hổp vợi viằc tm hiu cĂc phữỡng phĂp tõm tt vôn bÊn truyãn thŁng tł â ÷a c¡ch k‚t hỉp ” c£i thi»n º ch ‰nh x¡c cho b i to¡n C¡c nhi»m vư cư th” cıa Lu“n v«n tŁt nghi»p - Tm hiu lỵ thuyt Xò lỵ ngổn ng tỹ nhiản, Hồc mĂy v Hồc sƠu - Tm hiu cĂch tiãn xò lỵ d liằu v phữỡng phĂp vc tỡ hâa dœ li»u - T…m hi”u c¡c ph÷ìng ph¡p tâm tt vôn bÊn  ữổc nghiản cứu - Tm hiu c¡ch ¡nh gi¡ º ch‰nh x¡c cho b i to¡n Tõm tt vôn bÊn - ã xuĐt mổ hnh kt hỉp c¡c ph÷ìng ph¡p ” c£i thi»n º ch‰nh x¡c cıa b i to¡n - Thß nghi»m v ¡nh gi¡ kt quÊ trản cĂc phữỡng phĂp  tm hiu - Kt lun v hữợng phĂt trin Lới cam oan cıa håc vi¶n: Tỉi Cao M⁄nh H£i cam k‚t Lu“n vôn tt nghiằp n y l cổng trnh nghiản cứu ca bÊn thƠn tổi dữợi sỹ hữợng dÔn ca PGS.TS Lả Thanh Hữỡng CĂc kt quÊ nảu Lun vôn tŁt nghi»p l trung thüc, khæng ph£i l ch†p to n vôn ca bĐt ký cổng trnh n o kh¡c H Nºi, ng y th¡ng n«m T¡c gi£ Lu“n vôn tt nghiằp XĂc nhn ca giĂo viản hữợng dÔn vã mức ho n th nh ca Lun v«n tŁt nghi»p v cho ph†p b£o v»: H Ni, ng y thĂng nôm GiĂo viản hữợng dÔn PGS.TS Lả Thanh Hữỡng LIC MèN Lới u tiản, em xin gòi lới cÊm ỡn chƠn th nh n c¡c Thƒy, Cæ gi¡o vi»n Cæng ngh» thæng tin v Truyãn thổng  truyãn tÊi khổng ch l kin thức, k nông m cặn l nhng nhiằt huyt em câ th” vœng t¥m suŁt thíi gian håc Em xin b y tọ lặng bit ỡn sƠu sc tợi PGS.TS Lả Thanh Hữỡng  ch bÊo tn t… nh ” em câ th” ho n th nh ữổc Lun vôn Ngo i ra, em xin gòi lới cÊm ỡn n Viằn nghiản cứu tr tuằ nhƠn to VinAI  to iãu kiằn, mổi trữớng sĂng to cho em ho n th nh tŁt nhi»m vư Lu“n v«n ÷ỉc giao CuŁi cịng, em xin gßi líi c£m ìn ‚n gia …nh, v nhœng ng÷íi b⁄n ln ıng hº em h‚t m…nh qu¡ tr…nh ho n thi»n Lu“n vôn HC VI N TM T T NáI DUNG LU N V N TăT NGHI P Mửc tiảu ca khuổn kh Lun vôn tt nghiằp l giÊi quyt ữổc b i toĂn tõm tt a vôn bÊn sò dửng k thu“t tâm l÷ỉc cho ngỉn ngœ ti‚ng Vi»t Qua qu¡ trnh tm hiu vợi sỹ hữợng dÔn tn tnh ca PGS TS Lả Thanh Hữỡng, kt quÊ thu ữổc cıa lu“n v«n l kh£ quan B¡o c¡o n y s trnh b y nhng vĐn ã  tm hiu ÷ỉc v qu¡ tr… nh thüc hi»n Lu“n v«n tŁt nghiằp Kt quÊ ca Lun vôn tt nghiằp  thò nghiằm ữổc cĂc phữỡng phĂp trản b d liằu "Duc2007" cho mỉ h…nh tâm t›t a v«n b£n tr‰ch rót v ữa ữổc kt quÊ so sĂnh chĐt lữổng ca cĂc phữỡng phĂp khĂc trản th giợi Ngo i ra, mºt mỉ h…nh tâm t›t a v«n b£n tõm lữổc  ữổc ã xuĐt cho b d liằu ting Viằt v kt quÊ thò nghiằm cho thĐy chĐt lữổng ca mổ hnh ã xuĐt l khÊ quan trản bº dœ li»u cıa t¡c gi£ Trƒn Mai Vô Nºi dung ch‰nh cıa Lu“n v«n tŁt nghi»p l tr…nh b y cĂc phữỡng phĂp giÊi quyt vĐn ã trch rót thỉng tin quan trång t“p c¡c v«n b£n v sau â tâm t›t l⁄i b‹ng nhœng c¥u tł ho n to n mỵi Chi ti‚t B¡o c¡o lu“n vôn tt nghiằp s trnh b y cĂc vĐn ã sau: - Chữỡng 1: M u: t vĐn ã, giợi thiằu b i toĂn tõm tt vôn bÊn - Chữỡng 2: Cỡ s lỵ thuyt: trnh b y cĂc kin thức cỡ bÊn  dửng lun vôn tt nghiằp - Chữỡng 3: Hữợng tip cn v mổ hnh ã xuĐt: trnh b y cĂc hữợng tip cn v • xu§t mỉ h…nh cho b i to¡n tâm t›t a vôn bÊn theo hữợng tõm lữổc - Chữỡng 4: C i °t, thß nghi»m v ¡nh gi¡: tr…nh b y vã d liằu thò nghiằm v ữa kt quÊ ca cĂc phữỡng phĂp trản b d liằu thò nghiằm - Chữỡng 5: Kt lun v hữợng phĂt trin: tr…nh b y nhœng âng gâp, nhœng khâ kh«n cıa Lun vôn tt nghiằp T õ ữa hữợng phĂt tri”n cho lu“n v«n tŁt nghi»p H¯C VI N Mưc lưc Mð 1.1 1.2 1.3 1.4 ƒu °t v§n • B i to¡n tâm t›t v«n b£n ị nghắa thỹc tin ca ã t i nh hữợng 1.4.1 CĂc nghiản cứu liản quan theo hữợng tr‰ch rót 1.4.2 C¡c nghi¶n cøu li¶n quan theo hữợng tõm lữổc 1.4.3 Phữỡng phĂp sò dưng • t i Cỡ s lỵ thuyt 2.1 Lỵ thuy‚t v• ngỉn ngœ 2.1.1 Ti‚ng Anh 2.1.2 Ti‚ng Vi»t 2.2 Mỉ h…nh v†c tì hâa dœ li»u 2.2.1 Mæ h…nh tói tł 2.2.2 Mổ hnh túi t sò dửng lữổc ç trång sŁ TF-IDF 2.2.3 Nhóng tł 2.3 Ph÷ìng ph¡p ¡nh gi¡ 2.3.1 º o Rouge 2.3.2 Mºt sŁ bi‚n th” cıa º o Rouge 2.4 Cỡ s lỵ thuyt cho mỉ h…nh tâm t›t a v«n b£n tr‰ch rót 2.4.1 K-means 2.4.2 LexRank 2.4.3 Maximal Marginal Relevance (MMR) 2.4.4 Phữỡng phĂp sò dửng trung tƠm 2.5 Cì s lỵ thuyt cho b i toĂn tõm tt ỡn vôn bÊn tõm lữổc 2.5.1 Mng nỡron hỗi quy (Recurrent Neural Network - RNN) 2.5.2 Long Short Term Memory (LSTM - Bº nhỵ d i-ng›n h⁄n) 2.5.3 Mæ h…nh Sequence to Sequence cì b£n 2.5.4 Cì ch‚ Attention 2.5.5 Cì ch‚ Pointing/Copying 2.5.6 Beam Search Hữợng tip cn v mổ hnh • xu§t 3.1 Mỉ h…nh • xu§t 3.2 Mổ hnh tõm tt a vôn bÊn theo hữợng trch rót 3.2.1 Hữợng tip cn cho mỉ h…nh tâm t›t a v«n b£n tr‰ch rót 3.2.2 K-means sß dưng tr‰ t÷ìng Łi i 1 4 5 7 10 10 11 12 15 15 16 16 16 19 19 20 21 21 22 25 26 28 30 31 31 32 32 33 3.2.3 K-means k‚t hỉp tr‰ c¥u t i li»u 35 3.2.4 K-means k‚t hæp MMR v Position 36 3.2.5 K-means k‚t hæp Centroid-based, MMR v Position 37 3.3 Mổ hnh tõm tt ỡn vôn bÊn theo hữợng tõm l÷ỉc 38 3.3.1 Hữợng tip cn cho mổ hnh tõm tt ỡn vôn bÊn tõm lữổc 38 3.3.2 T“n döng c¡c °c tr÷ng tł t i li»u ƒu v o 39 3.4 Quy tr…nh hu§n luy»n mỉ h…nh tõm tt a vôn bÊn theo hữợng tõm lữổc 41 C i °t, thß nghi»m v ¡nh gi¡ 44 4.1 Cỉng cư v mỉi tr÷íng c i °t 4.2 Chu'n bà dœ li»u 4.2.1 Bº dœ li»u Duc2007 4.2.2 Bº dœ li»u B¡o mỵi 4.2.3 Bº dœ li»u cıa t¡c gi£ Trƒn Mai Vô 4.2.4 Bº dœ li»u Vims 4.3 Tiãn xò lỵ d liằu v Ănh giĂ mổ hnh tâm t›t 4.4 ¡nh gi¡ chĐt lữổng mổ hnh 4.4.1 K‚t qu£ cıa mỉ h…nh tâm t›t a v«n b£n tr‰ch rót tr¶n t“p dœ li»u Duc2007 4.4.2 K‚t qu£ cıa mæ t‰nh tâm t›t a tr‰ch rót tr¶n bº dœ li»u ti‚ng Vi»t 4.4.3 K‚t qu£ ca mổ hnh tõm tt ỡn vôn bÊn tõm lữổc trản b d liằu BĂo mợi 4.4.4 K‚t qu£ cıa mỉ h…nh tâm t›t a v«n b£n tõm lữổc trản b d liằu 200 clusters Kt lun v hữợng phĂt trin 5.1 Kt lun 5.2 Hữợng phĂt trin 44 44 44 45 45 46 46 47 47 49 49 50 53 53 54 Danh s¡ch b£ng 4.1 4.2 4.3 4.4 4.5 4.6 K‚t qu£ cıa mæ hnh tõm tt a vôn bÊn trch rút vợi bn kàch b£n[19] K‚t qu£ cıa mæ h…nh tâm tt trch rút so vợi cĂc phữỡng phĂp cỡ s[19] Kt quÊ ca mt s phữỡng phĂp trản th‚ giỵi[19] K‚t qu£ cıa mæ h…nh tâm t›t a tr‰ch rót tr¶n t“p 200 clusters v Vims K‚t qu£ cıa mæ h…nh tâm tt ỡn tõm lữổc trản BĂo mợi K‚t qu£ cıa mæ h…nh tõm tt a vôn bÊn tõm lữổc trản 200 clusters iii 48 48 49 49 50 50 Danh sĂch hnh v 1.1 Phữỡng phĂp sò dửng ã t i 2.1 Bag of Words[17] 11 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 3.1 Bag of Word vỵi trång sŁ tf-idf[17] Mæ h…nh CBOW vỵi mºt tł ngœ c£nh[29] Ki‚n tróc CBOW[29] Ki‚n tróc Skip-Gram[29] Mºt ìn RNN[26] C§u tróc Cell LSTM Forget gate LSTM[23] Input gate LSTM[23] Cell state LSTM[23] Output gate LSTM[23] Mỉ h…nh seq2seq cì b£n (SOS v EOS l token b›t ƒu v k‚t thóc)[20] LSTM hai chi•u[14] Mỉ h…nh seq2seq düa tr¶n cì ch‚ attention[20] Mỉ h…nh sß dưng cì ch‚ pointer[13] Gi£i thu“t Beam Search[28] Mỉ h…nh tâm t›t a v«n b£n tâm l÷ỉc 12 13 14 14 21 22 23 23 24 24 25 26 27 29 30 32 3.2 3.3 3.4 3.5 3.6 3.7 Mỉ h…nh cì sð cho b i to¡n tâm t›t a tr‰ch rót[19] Mổ hnh tõm tt a vôn bÊn sò dửng K-means[19] Bi”u di„n v†c tì c¥u sß dưng Word2Vec[17] Mổ hnh tõm tt a vôn bÊn sò dửng K-means k‚t hæp Position[19] Mæ h…nh tâm t›t a tr‰ch rót sß dưng K-means k‚t hỉp MMR v Position[19] Mỉ h…nh tâm t›t sß dưng K-means k‚t hæp Centroid-based, MMR v Position[19] Mỉ h…nh tâm t›t ìn v«n b£n tâm l÷ỉc cì sð Mổ hnh tõm tt ỡn vôn bÊn tõm lữổc Quy tr…nh ƒy ı cho b i to¡n tâm t›t a vôn bÊn tõm lữổc Quy tr…nh hu§n luy»n mỉ h…nh tâm tt ỡn vôn bÊn tõm lữổc ban u Quy tr…nh hu§n luy»n l⁄i mỉ h…nh tâm t›t ìn vôn bÊn tõm lữổc Quy tr…nh ¡nh gi¡ to n bº mæ h…nh tâm tt a vôn bÊn tõm lữổc 33 34 34 35 36 3.8 3.9 3.10 3.11 3.12 3.13 iv 38 39 40 41 41 42 43 Chữỡng M u D liằu trản mng ng y c ng tông vợi mt tc chõng mt theo thới gian Lữổng d liằu quĂ lợn n y tr nản rĐt khõ kim soĂt v gƠy nhng khõ khôn cho mồi ngữới tm ồc nhng thổng tin trản mng Mồi ngữới cõ xu hữợng tm ồc nhng thổng tin ngn ngồn vÔn gi ữổc nhng ỵ chnh Những vợi viằc d liằu ng y c ng gia tông, viằc ngữới tỹ mnh to c¡c b£n tâm t›t l b§t kh£ thi V… v“y, vi»c t⁄o mºt mỉ h…nh tâm t›t v«n b£n tỹ ng l mt vĐn ã cĐp thit cng ỗng nghiản cứu vã xò lỵ ngổn ng tỹ nhiản 1.1 t vĐn ã Tõm tt vôn bÊn ang l hữợng nghiản cứu ữổc khĂ nhiãu nh nghiản cứu quan tƠm v cĂc kt quÊ vã nhng mổ hnh tõm tt vôn bÊn hiằn ti l tữỡng i khÊ quan Cịng vỵi â, sü ph¡t tri”n cıa phƒn cøng ng y c ng mnh m kt hổp vợi lữổng d liằu tông lản tng phút l m cho viằc giÊi quyt cĂc b i toĂn theo hữợng tip cn mĂy håc c ng trð n¶n d„ d ng °c bi»t l vợi b i toĂn tõm tt a vôn bÊn tõm lữổc m viằc huĐn luyằn mt mổ hnh tt ặi họi mt lữổng lợn d liằu v yảu cu tc tnh toĂn nhanh V lỵ â, b i to¡n tâm t›t a v«n b£n theo hữợng tõm lữổc ang rĐt ữổc quan tƠm cĂc cng ỗng hồc thut trản to n th giợi Song song vợi õ, hữợng nghiản cứu vã b i toĂn tõm tt vôn bÊn Viằt Nam cặn khĂ t, °c bi»t l b i to¡n tâm t›t a v«n bÊn tõm lữổc ThĐy ữổc nhng lổi ch v thỹc tr⁄ng nghi¶n cøu t⁄i Vi»t Nam, em quy‚t ành thüc hiằn viằc tm hiu v xƠy dỹng chữỡng trnh Tõm tt a vôn bÊn tõm lữổc vợi ngổn ng ting Vi»t 1.2 B i to¡n tâm t›t v«n b£n Tâm t›t v«n b£n l mºt b i to¡n phøc t⁄p ÷æc tri”n khai ” bi‚n mºt t“p hæp c¡c t i li»u th nh nh§t ch¿ mºt t i li»u m ch¿ chøa nhœng nºi dung ch‰nh tł t“p t i li»u gŁc Cịng vỵi â, n‚u ch¿ t⁄o mºt b£n tâm t›t ng›n v n›m b›t ÷ỉc thæng tin quan trång cıa (c¡c) t i li»u gŁc l khỉng ı, b£n tâm t›t cƒn ph£i ÷ỉc tâm t›t l⁄i theo óng có ph¡p, £m b£o ÷ỉc t‰nh trỉi ch£y v óng tr…nh tü thíi gian nh÷ mºt t i li»u ºc l“p B i to¡n tâm t›t vôn bÊn thữớng ữổc bit n vợi hai hữợng chnh: • Tâm t›t v«n b£n tr‰ch rót

Ngày đăng: 04/06/2023, 11:32

w