(Luận án) Nghiên cứu, phát triển các kỹ thuật tự động tóm tắt văn bản tiếng việt

170 1 0
(Luận án) Nghiên cứu, phát triển các kỹ thuật tự động tóm tắt văn bản tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘGIÁODỤCVÀĐÀOTẠO BỘQUỐCPHỊNG VIỆNKHOAHỌCVÀCƠNGNGHỆQNSỰ NGUYỄNNHẬTAN NGHIÊNC Ứ U , PHÁTTRIỂNC Á C KỸTHUẬTTỰ ĐỘNGTÓMTẮTVĂNBẢNTIẾNGV I Ệ T LUẬNÁN TIẾNSĨTOÁNHỌC HÀNỘI–2015 NGUYỄNNHẬTAN NGHIÊNC Ứ U , PHÁTTRIỂNC Á C KỸTHUẬT TỰĐỘNG TĨMTẮTVĂNBẢNTIẾNGV I Ệ T Chunngành:CơsởtốnhọcchotinhọcMãsố 62460110 LUẬNÁN TIẾNSĨTOÁNHỌC NGƯỜIHƯỚNGDẪNKHOAHỌC: TSKHN G U Y Ễ N QUANGBẮC PGS.TSNGUYỄNĐỨCHIẾU HÀNỘI-2015 LỜICAMĐOAN Tôi cam đoan cơng trìnhnghiên cứu riêng tơi Các số liệu, kếtquả luận án trung thực chưa công bố cơng trìnhnàokhác Tácgiả NguyễnNhậtAn LỜICẢMƠN Luận án thực Viện Công nghệ thông tin - Viện Khoa họcCông nghệ quân - Bộ Quốc phòng, hướng dẫn khoa học Thiếutướng,TSKHNguyễnQuangBắcvàĐạitáPGS.TSNguyễnĐứcHiếu Trước tiên tơi xin bày tỏ lịng biết ơn sâu sắc tới tập thể giáo viên hướngdẫn, người đưa đến vớilĩnh vực nghiên cứu Các thầy tậntình giảng dạy, hướng dẫn giúp tơi tiếp cận đạt đượcthành cơng cácnghiêncứu mình; ln tận tâm động viên, khuyến khích dẫn giúp tơihồnthànhđượcbảnluậnánnày Tơi xin bày tỏ lòng biết ơn tới Đảng uỷ, ban lãnh đạo, cán PhòngQuản trị Cơ sở liệu - Viện Cơng nghệ thơng tin Phịng Đào tạo ViệnKhoa học Công nghệ quân sự, tạo điều kiệnthuận lợi giúp đỡ tơi trongqtrìnhhọctậpvànghiêncứutại đơnvị Tơi xin cảm ơn PGS.TS Đào Thanh Tĩnh, TS Nguyễn Phương Thái, TSNguyễnT hị ThuHà,TS.ĐỗĐứcĐôngvà TSNgônngữhọcPhanThịNguyệtHoađãchiasẻnhữngtàiliệuvàkinhnghiệmn g h i ê ncứu Cuối cùng, tác giả xin chân thành cảm ơn thành viên Gia đình,những người ln dành cho tác giả tình cảm nồng ấm sẻ chia nhữnglúc khó khăn sống, động viên giúp đỡ tác giả q trìnhnghiên cứu Luận án quà tinh thần mà tác giả trân trọng gửi tặngđếncácthànhviêntrongGiađình MỤCLỤC Trang DANHMỤCCÁCKÍ HIỆU,CÁCCHỮVIẾTTẮT vi DANHMỤCCÁCBẢNG viii DANHMỤCCÁCH Ì N H VẼ,THUẬTTỐN x MỞĐẦU CHƯƠNG1 T Ổ N G QUANV Ề T Ó M TẮTV Ă N B Ả N V À T Ó M TẮT VĂ NBẢNTIẾNGVIỆT 1.1 Giớithiệuvềtómtắtvănbản 1.1.1 Cácgiaiđoạnvà thamsốcủa hệ thốngtómtắtvănbản 10 1.1.2 Phânloạicáchệthốngtómtắtvănbản .12 1.2 Cácphươngphápđánhgiátómtắtvănbản 14 1.2.1 Đánhgiáthủcông 15 1.2.2 Đánhgiáđồngchọn 15 1.2.3 Đánhgiá dựa nộidung 17 1.2.4 Đánhgiádựatrêntácvụ 19 1.3 Cáchướngtiếpcậntómtắtvănbảnngồinước 20 1.3.1 Cácphươngpháptómtắt tríchrút 20 1.3.2 Cácphươngpháptómtắttheohướngtómlược 23 1.4 KhongữliệutiêuchuẩnchobàitốntómtắtvănbảntiếngAnh23 1.5 Hiệntrạngnghiêncứu tómtắtvăn tiếngViệt .24 1.5.1 ĐặcđiểmtiếngViệt 24 1.5.2 HiệntrạngnghiêncứuxửlýngơnngữtựnhiêntiếngViệt 27 1.5.3 MộtsốhướngtiếpcậntómtắtvănbảntiếngViệt 28 1.5.4 Hiệntr ạng khongữliệuh u ấ n luyệnvà đánhgiáchobàitốntómtắtvă nbảntiếngViệt 31 1.5.5 ĐặcđiểmcủacácphươngpháptómtắtvănbảntiếngViệt 32 1.6 Cáckiếnthứccơsởliênquan 32 1.6.1 Giảithuậtditruyền 32 1.6.2 Giảithuậttốiưu đànkiến 34 1.6.3 PhươngphápVotingSchulze 36 1.7 KếtluậnChương .39 CHƯƠNG2.TÓMTẮTV Ă N B Ả N T I Ế N G VIỆTD Ự A T R Ê N BỘHỆSỐ ĐẶC TRƯNG 40 2.1 MơhìnhtómtắtvănbảntiếngViệtdựatrênbộhệsốđặctrưng40 2.1.1 Quytrìnhtómtắt vănbảntheohướngtríchrút 40 2.1.2 Mơhìnhtómtắt vănbảndựatrênbộhệsốđặctrưng 42 2.2 LựachọntậpđặctrưngchovănbảntiếngViệt 43 2.2.1 Vítrí câu .44 2.2.2 Trọngsố TF.ISF 45 2.2.3 Độdàicâu .46 2.2.4 Xácsuấtthựctừ .47 2.2.5 Thựcthểtên 48 2.2.6 Dữliệusố 49 2.2.7 Tương tựvớitiêu đề 51 2.2.8 Câutrungtâm 51 2.3 Xácđịnhhệsốđặctrưngbằngphươngpháphọcmáy 52 2.3.1 Đặtbàitoán 52 2.3.2 Xácđịnhhệsốbằnggiảithuậtditruyền .54 2.3.3 Xácđịnhhệsốbằnggiảithuậttốiưuđànkiến .61 2.4 Cáckếtquảthửnghiệm 68 2.4.1 Khongữliệuthửnghiệm 68 2.4.2 Phươngphápđánhgiákếtquảtómtắt .68 2.4.3 Cáckếtquảthửnghiệm 69 2.4.4 Nhậnxétcáckếtquảthửnghiệm 78 2.5 KếtluậnChương2 79 CHƯƠNG3.TĨMTẮTVĂNBẢNTIẾNGVIỆTSỬDỤNGKỸTHUẬTVOTING.81 3.1 Mơhìnhtómtắtvănbảnsử dụngkỹthuậtVoting .81 3.1.1 Xácđịnhhệsốphươngphápbằngphươngpháphọcmáy 85 3.1.2 MơhìnhtómtắtvănbảntiếngViệtsửdụngkỹthuậtVoting 89 3.2 Cáckếtquảthửnghiệm 91 3.2.1 Khongữliệuthửnghiệm 91 3.2.2 Phươngphápđánhgiákếtquảtómtắt .92 3.2.3 Lựachọncácphươngpháptómtắt vănbảnđầuvào 92 3.2.4 Cáckếtquảthửnghiệm 94 3.2.5 Nhậnxétcáckếtquảthửnghiệm 97 3.3 KếtluậnChương .99 CHƯƠNG4.QUYTRÌNHXÂYDỰNGKHONGỮLIỆUCĨCHÚGIẢICHOBÀIT ỐNTĨMTẮTVĂNBẢNTIẾNGVIỆT 101 4.1 Đặtvấnđề 101 4.2 Quytrìnhxâydựngkhongữ liệucóchúgiải 102 4.2.1 Mơhìnhđềxuất 102 4.2.2 Thuthập .102 4.2.3 Xâydựngbảntómtắtconngười .104 4.2.4 Chúgiải,cấutrúchoávàlưutrữ 105 4.2.5 Tổchứcquản lý,lưutrữ 108 4.3 Phươngphápđánhgiákhongữliệu 108 4.3.1 Đánhgiádựavàođộđođồngxuấthiệnthựctừ 109 4.3.2 Đánhgiáthủcông 109 4.4 KếtluậnChương 110 KẾTLUẬN 111 DANHMỤCCƠNGTRÌNHKHOAHỌCĐÃCƠNGBỐ 113 TÀILIỆUTHAMKHẢO 115 PHỤLỤC01:KHONGỮLIỆUVIEVTEXTSUM PHỤLỤC02:KHONGỮLIỆUCORPUS_LTH .4 PHỤLỤC03:THỬNGHIỆM DANHMỤCCÁCKÍ HIỆU,CÁCCHỮVIẾTTẮT 𝑑 vănbản 𝐷 tậpvănbảnhuấnluyện(gốc) 𝑚 sốvănbảnhuấnluyện 𝑆 𝐻 𝑠ℎ tậpcácvănbảntómtắthệthống 𝑠 câu văn 𝑎 tỷlệtómtắt 𝑓 tậpcácđặctrưngvănbản 𝑝 tậpcácphươngpháptómtắtvănbản 𝑘 tậphệsốđặctrưnghoặcphươngpháp 𝑆𝑐𝑜𝑟𝑒(𝑠) vănbảndohệ thốngtómtắt giátrịtrọngsốcủacâus 𝑆𝑖𝑚(𝑠1,𝑠2) Hàmtínhđộtươngtựgiữavănbản𝑠1v 𝑠2 𝐹(𝑘) Hàmthíchnghi(mụctiêu)theobộhệsốk 𝐺𝑚𝑎𝑥 ACO sốvịnglặp(điềukiệndừng) AS Tómtắttómlược(AbstractionSummarization) CRF Miềnngẫunhiênđiềukiện(ConditionalRandomField) CSSD CloneproofSchwartzSequentialDropping EA Giảithuậttiếnhóa(EvolutionaryA lgorithm) ES Tómtắttríchrút(ExtractionSummarization) GA Giảithuậtditruyền(GeneticAlgorithm) GP Lậptrìnhditruyền(GeneticProgramming) HMM MơhìnhMarkovẩn(HiddenMarkovModel) LCS Chuỗiconchungdàinhất( LongestCommonSubsequence) LSA Phântíchngữnghĩatiềmẩn(LatentS emanticA nalysis) MEM MơhìnhcựcđạihóaEntropy(MaximumE ntropyModel) Tốiưuđànkiến(AntColonyOptimization) NLP Xửlý ngônngữtựnhiên(NaturalL anguageP rocessing) NMF Phépn h â n t h ó a m a t r ậ n k h ô n g â m ( Non-negativeM atrix Factorization) PGA Giảithuậtditruyềnsong song(ParallelGeneticAlgorithms) ROUGE Độđo đ n h g i đ ộ t n g t ự v ă n b ả n ( RecallOriented RST UnderstudyforGistingEvaluation) Lýthuyếtcấutrúctutừ(RhetoricalStructureTheory) SDD Khai triển ma trận nửa rời rạc (Semi-discrete Matrix Decomposition) SSD SchwartzSequentialD ropping SVD Phương pháp phân tích giá trị đơn (Singular Value Decomposition) SVM Máyvectorhỗtrợ(SupportVectorMachine) TF Tầnsuấtthuậtngữ(TermFrequency) TF.ISF Tầnsuấttừ-nghịchđảotầnsuấtcâu(Termfrequency-inverse sentencefrequency) TTVB Tómtắtvănbản TTĐVB Tómtắtđơnvănbản n-gram Mơhìnhngơnngữn-gram[81] unigram Mơhìnhn-gramvớigramlàmộttừ(1-gram) Voting Bầuchọn Vietworknet MạngtừtiếngViệt Wordnet Mạngtừ DANH MỤCCÁCBẢNG Bảng11.Kếtquảthửnghiệmcủađềtài“Nghiêncứumộtsốphươngpháptómtắtvănbảntựđộngtr ênmáytínhápdụngchotiếngViệt” 30 Bảng2-1.Kếtquảkhảosát vịtrícâuquantrọngkhongữ liệutiếngViệt 45 Bảng2-2.Kếtquảphânbốthựcthểtêntrênvănbảntómtắtmẫu .49 Bảng2-3.Kết quảphânbốthựcthểtêntrêncáccâucủavănbảngốc 49 Bảng2-4.Kết quảphânbốdữliệusốtrênvănbảntómtắt mẫu .50 Bảng2-5.Kếtquả phânbốdữliệusốtrêncác câucủa vănbảngốc 50 Bảng2-6.KếtquảtómtắttừngđặctrưngtrênkhongữliệuCorpus_LTH .70 Bảng2-7.KếtquảtómtắttừngđặctrưngtrênkhongữliệuViEvTextSum 71 Bảng2-8.Kết quảcủamơhìnhVTS_FC_GAdựatrên5đặctrưng 73 Bảng2-9.Kết quảcủamơhìnhVTS_FC_GAdựatrên8đặctrưng 73 Bảng2-10.Lựachọncácthơngsốchothuật tốnACO 74 Bảng 2-11 Kết thử nghiệm mơ hình VTS_FC_ACO dựa đặctrưngthườngdùng 75 Bảng 2-12 Kếtquả tómtắtc ủ a m h ì n h VTS_FC_ACOd ựa trên8 đ ặ c trưng.76Bảng213.Kếtquảtómtắt củamơhìnhVTS_FC_ACOtrêntừnglĩnhvựccủakhongữliệuViEvTextSum 77 Bảng2-14.Bảngtổngkết kết quảtómtắt củacácmơhình 78 Bảng3-1.VídụmơtảcáchtínhScore_Method(s) 83 Bảng3-2.Bảngthốngkêđặctrưngcủa5phươngphápđầuvào 92 Bảng3-3.Kếtquảtómtắtcủa5phươngphápđầuvào 93 Bảng3-4 Kết tóm tắtcủa mơ hình sử dụng kỹ thuật Votingkhơng có hệsố phươngpháp 94 Bảng3 - K ế t q u ả tómtắtcủa mơh ì n h sửdụng kỹthuậtV o t i n g v i hệsố phươngpháptrênkhongữliệuCorpus_LTH 96 Bảng3 - K ế t q u ả tómtắtcủa mơh ì n h sửdụng kỹthuậtV o t i n g v i hệsố

Ngày đăng: 18/08/2023, 23:31

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan