Nghiên cứu phát triển một số kỹ thuật tách từ tiếng việt

178 0 0
Nghiên cứu phát triển một số kỹ thuật tách từ tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘGIÁODỤCVÀĐÀOTẠO BỘQUỐCPHỊNG HỌCVIỆN KỸ THUẬTQN SỰ TRẦNNGỌCANH NGHIÊNCỨUPHÁTTRIỂN MỘTSỐKỸTHUẬTTÁCHTỪTIẾNGVIỆT LUẬNÁNTIẾNSĨTỐNHỌC HÀNỘI– NĂM2016 HỌCVIỆN KỸ THUẬTQUÂN SỰ TRẦNNGỌCANH NGHIÊNCỨUPHÁTTRIỂN MỘTSỐKỸTHUẬTTÁCHTỪTIẾNGVIỆT Chuyênngành:Cơsởtoánhọcchotin họcMãsố : 62.46.01.10 LUẬNÁNTIẾNSĨTOÁNHỌC NGƯỜIHƯỚNGDẪNKHOAHỌC: PGS.TS.Đào ThanhTĩnh PGS.TS.NguyễnPhươngThái HÀNỘI– NĂM2016 - ii- LỜICAMĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các kết viếtchung với tác giả khác đồng ý đồng tác giả trước đưa vàoluận án Các số liệu, kết nghiên cứu luận án trung thực chưa từngđược côngbố bất kìcơng trìnhnàokhác Tácgiảluậnán TrầnNgọcAnh -3- LỜICẢM ƠN Trướchết,tácgiảxinchânthànhcảmơnhaithầyhướngdẫn,PGS.TS.ĐàoThanhTĩnhvà PGS.TS.NguyễnPhươngThái,đãđịnhhướng,tậntìnhhướngdẫn,giúpđỡtácgiảtrongsuốtthời giannghiêncứu,đãđónggópnhiềkiếnkhoahọccholuậnánnày TácgiảxinbàytỏlờicảmơnchânthànhđếntậpthểBộmơnHệthốngthơngtin,KhoaCơngngh ệThơngtinvàPhịngSauđạihọc,HọcviệnKỹthuậtQnsự;tácgiảxinchânthànhcảmơnđếntậpt hểcánbộTrungtâm2,CụcCơngnghệThơngtin,BộTổngThammưu;xincảmơntậpthểKhoaC ơngnghệThơngtin,TrườngĐạihọcCơngnghệ,ĐạihọcQuốcgiaHàNộiđãtạođiềukiệnthuậnlợi chotácgiảhồnthànhluậnáncủamình.TácgiảcũngxincảmơnsựhỗtrợcủaĐềtàiĐạihọcQuốcgi aHàNội(mãsốQG.12.49)vàĐềtàiQuốcgia(mãsốKC.01.20/1115)trongqtrìnhnghiêncứu,thựchiệnluậnán TácgiảxinbàytỏlờicảmơnđếnGS.TSKH.PhạmThếLong,PGS.TS.LươngChiMai,P GS.TS.LêThanhHương,PGS.TS.LêAnhCường,PGS.TS.BùiThuLâm,PGS.TS.Nguyễn XnHồi,PGS.TS.NgơThànhLong,TS.NguyễnThịMinhHuyền,TS.HoaTấtThắng,TS.Ng uyễnVănVinhvàTS.LêHảiSơnđãcónhiềkiếnđónggópqbáugiúptácgiảhồnthiệnbảnthảol uậnáncủamình Tác giả xin bày tỏ lời cảm ơn đến chuyên gia: TS Lê Hồng Phương (vớiVnTokenizer), TS Nguyễn Cẩm Tú (với JvnSegmenter), KS Lưu Tuấn Anh (vớiDongDu),TS.NguyễnChíThànhvàTS.TrầnVănAnđãhỗtrợtácgiảthựchiệnqtrìnhhuấn luyệnlạivàchạythửnghiệmtáchtừtrêncáchệthống Tácgiảcũngxinbàytỏlờicảmơnđếncácchungiangơnngữhọc:TS.NguyễnThịTrungThành vàTS.TrươngThịThuHàđãnhiệttìnhgiúpđỡtácgiảmộtsốvấnđềliênquanđếnngơnngữhọctrongqt rìnhnghiêncứu Tácgiảgửilờicảmơnnhữngngườianhem,nhữngngườiđồngđộilngiúpđỡ,ủnghộvàđộngv iêntácgiảkểtừkhibắtđầunghiêncứuđếnnay Cuốicùng,tácgiảbàytỏlịngbiếtơnsâusắcđốivớichamẹvànhữngngườithântronggiađình,đặc biệtlàhaimẹconGiangNgunvàKhánhLinhđãlnchiasẻvàủnghộtácgiảtrongsuốtthờigianth ựchiệnluậnánnày MỤCLỤC Trang DANHMỤCCÁCKÝHIỆU,CÁCCHỮVIẾTTẮT .vii DANHMỤCCÁCBẢNG ix DANHMỤCCÁCHÌNHVẼ,ĐỒTHỊ xi DANHMỤCCÁCTHUẬTTOÁN xii MỞĐẦU Chương1TỔNGQUANVỀBÀITOÁNTÁCHTỪTIẾNGVIỆT .4 1.1 BÀITOÁNTÁCHTỪTIẾNGVIỆT 1.1.1 PhátbiểubàitoántáchtừtiếngViệt 1.1.2 ĐặctrưngcủađơnvịtừvựngtiếngViệt 1.1.3 NhữngvấnđềkhótrongtáchtừtiếngViệt .8 1.1.4 PhươngphápđánhgiákếtquảtáchtừtiếngViệt 10 1.2 NHỮNGTIẾPCẬNTRÊN THẾGIỚIVÀTRONGNƯỚC 10 1.2.1 Nhữngtiếpcậntrênthếgiới 11 1.2.2 Nhữngtiếpcậntrongnước 14 1.2.3 NhữngkếtquảđạtđượctrongtáchtừtiếngViệt .16 1.2.4 NhữngtồntạitrongnghiêncứutáchtừtiếngViệt 17 1.3 ĐỀXUẤTHƯỚNGGIẢIQUYẾT 20 1.3.1 XácđịnhtàinguyênchobàitoántáchtừtiếngViệt 20 1.3.2 ThốngkêchấtlượngcáckhongữliệumẫutiếngViệt 21 1.3.3 ChọnmơhìnhtíchhợpchotáchtừtiếngViệt 24 Chương2TÁCHTỪVÀNHẬNDIỆNTHỰCTHỂVĂNBẢNTIẾNGVIỆT 26 2.1 THUẬTTOÁNTÁCHTỪTIẾNGVIỆT 26 2.1.1 ThuậttoántáchtừtiếngViệtVWS .26 2.1.2 Cácthuậttoándùngchungtrongtáchtừ 26 2.1.3 Thửnghiệmthuật toán sokhớpcựcđạicảitiếnAMM 32 2.2 NHẬNDIỆNTHỰCTHỂVÀKHỬNHẬPNHẰNGTÊNRIÊNG 33 2.2.1 Bàitoán nhậndiệnthựcthểtrongvănbản .33 2.2.2 NhậndiệncácthựcthểtrongvănbảntiếngViệt .34 2.2.3 Nhận diện vàkhử nhậpnhằng ranhgiớitên riêng tiếng Việt 38 2.2.4 Kếtquảthửnghiệm 44 Chương3NHẬNDIỆNTỪLÁYVÀTỪGHÉPĐẲNGLẬPT I Ế N G VIỆT .46 3.1 NHẬNDIỆNTỪGHÉPBẰNGHỌCKHÔNGGIÁMSÁT 46 3.1.1 Chọnđộdài từ ghéptiếng Việt cho họckhônggiámsát .46 3.1.2 Mộtsố độđo thốngkê nhận diệntừ ghépcó âmtiết tiếngViệt 46 3.1.3 Giảiphápnhậndiện từghépcó2âmtiếttiếngViệtdựavào đỉnhnhọn 50 3.1.4 Kếtquảthửnghiệm 51 3.2 NHẬNDIỆNTỪLÁYTIẾNGVIỆT .54 3.2.1 CácđặcđiểmcấutạotừláytiếngViệt 55 3.2.2 NhậndiệnvàxâydựngtừđiểntừláyđôitiếngViệt 56 3.2.3 Nhậndiệntừláyba,từláytưtiếngViệt 58 3.2.4 Kếtquảthửnghiệm 60 3.3 NHẬNDIỆNTỪGHÉPĐẲNGLẬPTIẾNGVIỆT 61 3.3.1 Cácđặctrưngvềcấutạo từghép đẳnglậptiếngViệt 61 3.3.2 NhậndiệnvàxâydựngtừđiểntừghépsongtiếtđẳnglậptiếngViệt 63 3.3.3 Nhậndiện tổhợptừ,thànhngữcó3hay4âmtiết 69 3.3.4 Kếtquảthửnghiệm 71 Chương4KHỬNHẬPNHẰNGRANHGIỚITỪTIẾNGVIỆT .73 4.1 NHẬPNHẰNGRANHGIỚITỪTIẾNGVIỆT 73 4.1.1 Kháiniệmvàphânloại nhậpnhằngranhgiớitừtiếngViệt 73 4.1.2 Thốngkêvàgiảiphápkhửnhậpnhằngranhgiớitừ 74 4.1.3 Tạongữliệunhậpnhằngchohuấnluyệnvàthửnghiệm 76 4.2 KHỬNHẬPNHẰNGRANHGIỚITỪBẰNGTỪĐIỂN 77 4.2.1 PhươngphápkhửnhậpnhằngCAbằngtừđiển(VWS5.1) .77 4.2.2 Kếtquảthửnghiệm 79 4.3 KHỬNHẬPNHẰNGBẰNG ĐỘPHỨC TẠPVĂNBẢN .80 4.3.1 Độphứctạpvănbảntheoxácsuấtbigrammứctừ 80 4.3.2 Độphứctạpvănbảncủamơ hìnhMarkov ẩngánnhãn từloại 81 4.3.3 Độ phứctạpvăn củabigrammức từ gán nhãn từ loại 82 4.3.4 Kếtquảthửnghiệm 84 4.4 KHỬNHẬPNHẰNGBẰNG MƠHÌNHĐIỂMSỐ 87 4.4.1 Mơhìnhđiểmsố khử nhậpnhằngchồnglấpOAtheongữcảnh .88 4.4.2 Mơhìnhđiểmsố khử nhậpnhằngghéptáchCAtheongữcảnh .90 4.4.3 Kếtquảthửnghiệm 92 Chương5THỬNGHIỆMVÀĐÁNHGIÁ 95 5.1 THỬNGHIỆMTÁCHTỪTIẾNGVIỆT 95 5.1.1 MơtảcácbướctrongthuậttốntáchtừtiếngViệt 96 5.1.2 Các nhómgiải pháp dùngcho thửnghiệmtách từ tiếngViệt .97 5.1.3 Thửnghiệmtáchtừvàđánhgiá 97 5.2 SOSÁNHVỚIMỘTSỐCÔNG CỤTÁCHTỪTIẾNGVIỆT 102 5.2.1 Giớithiệuvềmộtsốcôngcụtáchtừhiệnnay 102 5.2.2 Kếtquảthửnghiệmtách từ, đánhgiávàsosánh 104 5.3 KIỂMLỖICHÍNHTẢVĂNBẢNTIẾNGVIỆT .107 5.3.1 GiớithiệubàitốnkiểmlỗichínhtảtiếngViệt .107 5.3.2 Kiểmlỗicáchdùngtừvàcụmtừbằngmơhìnhngrammứcâmtiết 109 5.3.3 Kiểmlỗichínhtảbằngmơhìnhtáchtừvàgánnhãntừloại 113 KẾTLUẬN 117 DANHMỤCCƠNGTRÌNHCỦATÁCGIẢ 119 TÀILIỆUTHAMKHẢO 120 PHỤLỤC 129 A CÁCTHUẬTTOÁNHỖTRỢ 129 A1.Thuậttốntìmsốtừchungdàinhấtcủahaidãytừ 129 A2.Thuậttoánchuyểnmãunicode .129 A3.ThuậttốnsửalỗichínhtảdấuthanhtiếngViệttựđộng .131 A4.Thuậttốnxâydựngtừđiểnautomattốithiểu 132 B MINHHOẠKẾTQUẢTHỐNGKÊTỪCÁCTÀINGUYÊN 139 B1.MinhhoạmộtsốlỗitrongkhongữliệuVietTreeBank 139 B2.Thốngkêsửalỗichínhtảcác khongữ liệumẫutiếng Việt 141 B3.Thốngkêcáckítựđặcbiệttrongcáckhongữliệu 141 B4.Thốngkêphânloại thựcthểvàđộdàithựcthểtrong cáckhongữliệu 142 B5.Danhsáchcáctừtốtênriêng,tênriêngđặcbiệtvàtênhọngườiViệt .143 C PHÉPĐOĐỘTƯƠNGTỰNGỮNGHĨADÙNGTỪĐIỂNVCL .147 C1.Độtươngtựdựavàosokhớpchuỗi xấpxỉ theokhoảng cách 148 C2.Độtươngtựdựavàophépđođồngxuấthiện 148 C3.Độtươngtựtheovector(VectorSpaceModel) 149 D MỘTSỐTHUẬTTOÁNSOKHỚPCỰCĐẠI 150 D1.SokhớpcựcđạiMM(MaximumMatching) 150 D2.Sokhớpcựcđạicócửasổ 152 E THUẬTTỐNNHẬNDIỆNVÀKHỬNHẬPNHẰNGTÊNRIÊNG .153 E1.Thuật tốnnhận diệntên riêng, nhận diệnsốvà phânsố bằngchữ 153 E2.Cácthuậttoánkhửnhậpnhằngtênriêng 155 F THUẬTTỐNTÌMTHAMSỐHỌCTỐIƯU 158 F1.ThuậttoánditruyềnGAvàcựcđạihoákỳ vọngEM 158 F2.ThuậttoánEMtrêncácđoạncon 161 - vii- DANHMỤCCÁCKÝHIỆU,CÁCCHỮVIẾTTẮT Kíhiệu ACO AM/AMM BM/BMM CA CC/TGĐL CRF DFA EM ER FM/FMM FSM GA HMM LCS MEM MI MinDFA MM NE NER NLP NW OA Pb Pk PN POS PP PSO Pu RW SC/TGCP Mô tả Tốiưuđànkiến (AntColonyOptimization) Sokhớpcựcđạicảitiến(AdvancedMaximumMatching) Sokhớpcựcđạilùi(BackwardMaximumMatching) Nhậpnhằng ghép-tách(Combinated Ambiguity) Từghép đẳnglập (Coordinated Compound) Trườngngẫunhiêncóđiềukiện(ConditionalRandomField) Automat[hữuhạntiềnđịnh](DetermineFiniteAutomata) Thuậttốncựcđạihốkỳvọng(ExpectationMaximization) Nhậndiệnthựcthểvănbản(EntityRecognition) Sokhớpcựcđạitiến(ForwardMaximumMatching) Máytrạngtháihữuhạn(FiniteStateMachine) Giảithuậtditruyền(GeneticAlgorithms) MơhìnhMarkovẩn(HiddenMarkovModel) Dãy chungdài (LongestCommonSubstring) Mơhình Entropy cực đại (MaximumEntropy Model) Độthơngtintươnghỗ(MutualInformation) Automattốithiểu(MinimalDetermineFiniteAutomata) Sokhớpcựcđại(MaximumMatching) Thựcthểcótên(NamedEntity) Nhậndiệnthựcthểcótên(NamedEntityRecognition) Xửlýngơnngữtựnhiên(NaturalLanguageProcessing) Từmới(NewWord) Nhậpnhằngchồnglấp(OverlapingAmbiguity) Xácsuấtbigram(bigramProbability) Xácsuấtbigramcóđiềukiện(conditionalbigramProbability) Tênriêng(Private/ProperName)/Nhậndiệntênriêng Từloại(Part-Of-Speech) Độphức tạp văn (Perplexity) Tốiưubầyđàn(ParticleSwarmOptimization) Xácsuấtunigram(unigramProbability) Từláy(ReduplicativeWord) Từghép chínhphụ(SubordinatedCompound) -8- Sim SP731 SP732 SP733 SP73POS VCL VFD VLP VSD VWS Độtươngtự(Similarity) Khongữ liệuđã táchtừ, gồm1.542.673 từ,68.000câu(10MB) Khongữliệuđãtáchtừ,gánnhãntừloại,221.221từ,10.000câu Khongữ liệu tách từ, gánnhãn từ loại cú pháp,10.000 câu Khongữliệuđãtách từ,gánnhãntừ loại,20.000câu TừđiểntừvựngtiếngViệt(VietrnameseComputationLexicon) TừđiểntênhọngườiViệt(VietnameseFamilyDictionary) XửlýngơnngữtiếngViệt(VietnameseLanguageProcessing) TừđiểnâmtiếttiếngViệt(VietnameseSyllableDictionary) TáchtừtiếngViệt(VietnameseWordSegmenation) Cáckí hiệu chophép đo đánhgiá độ chínhxác tách từdùng trongluậnán: Kíhiệu Nm Nt Nđ R P F1 Mô tả Số lượngđơnvị từtrongkho mẫu Số lượngđơnvị từtách Sốlượngđơnvị từ tách (dùngLCS đểxác định, Phụ lụcA1) Độđohồitưởng(Recall) :R=Nđ/Nm Độđochínhxác(Precision):P =Nđ/Nt ĐộđoF1-score :F1=2RP/(R+P) DANHMỤCCÁCBẢNG Bảng1.1.Thốngkêđộdàitừtrongcáckhongữliệumẫu(đãsửalỗi) 17 Bảng1.2.Táchtừtheodấucáchvàdấucâucáckhongữliệumẫu(đãsửalỗi) .18 Bảng1.3.Kếtquảthửnghiệmcủa[29],PNlànhậndiệntênriêng 19 Bảng1.4.Thốngkêphânloạiđơnvịtừtrongcáckhongữliệumẫu 22 Bảng1.5.Thốngkêtỉlệtừtheođộdàitốiđatrongcáckhongữliệumẫu 23 Bảng1.6.Thốngkêđộphủtừ-từđiểncủacáckhongữliệutiếngViệt 23 Bảng2.1.ThửnghiệmtáchtừvớicácmơhìnhFMM,BMMvàAMM 32 Bảng2.2.Môtảcáctrườnghợpnhậpnhằngtênriêngvớitênriêng 41 Bảng2.3.Kếtquảnhậndiện&khửnhậpnhằngtênriêngcủakhoSP731 44 Bảng2.4.KếtquảtáchtừcónhậndiệnthựcthểvớiFMM,BMMvàAMM 44 Bảng3.1.Nhậndiệntừghépcó2âmtiếtdựatheochọnđỉnhnhọn 52 Bảng3.2.Nhậndiệntừghépcó2âmtiếttheođỉnhnhọnvượtngưỡng .52 Bảng3.3.Nhậndiệntừghépcó2âmtiếttheođỉnhnhọnvàunigramdướingưỡng .53 Bảng3.4.Nhậndiệntừghépcó2âmtiếtvớiđỉnhnhọnvượtmaxunigram 53 Bảng3.5.Nhậndiệntừghépvớiđỉnhnhọnvượtmaxunigramcóthamsố 53 Bảng3.6.Minhhoạnhậndiệntừláybavàtừláytư .60 Bảng3.7.Thửnghiệmtáchtừvớicácmô-đunER,AM,RW 61 Bảng3.8.MôtảthôngtintừđiểnVCLcủahaitừ"cha"và"mẹ" 65 Bảng3.9.MộtsốthôngtintừđiểnVCLcủahaitừ"dútdát"và"antâm" 65 Bảng3.10.Minhhoạmộtphầncáccặptừđồngnghĩa(4.958cặp) 68 Bảng3.11.Minhhoạmộtphầncáccặptừđốinghĩa(762cặp) 69 Bảng3.12.Minhhoạđộđotươngtựcáccặptừ(SimDice>0,5:14.452cặp) 69 Bảng3.13.MinhhoạdùngMI(từinternet)đểxácđịnhTGĐL(4.718cặp) 69 Bảng3.14.Kếtquảpháthiệndanhsáchcáctừghépsongtiếtđẳnglập .69 Bảng3.15.Minhhoạnhậndiệntổhợptừcó3-4âmtiết(TGĐL) 70 Bảng3.16.Táchtừvớicácmơ-đunER,AMvàCC 71 Bảng4.1.ThốngkênhậpnhằngOAvàCAtrongcáckhongữliệu 74 Bảng4.2.Tỉlệgâylỗicủacácnhậpnhằngtrongcáckhongữliệu 74 Bảng4.3.MinhhoạnhậpnhằngchồnglấpOAtrongcáckhongữliệu .75 Bảng4.4.Minhhoạnhậpnhằngghép-táchCAtrongcáckhongữliệu 75 Bảng4.5.PhânchiangữliệuVietTreeBankchohuấnluyệnvàthửnghiệm .77 Bảng4.6.MinhhoạnhậpnhằngCAvớiquántừởđầu/cuốicụmtừ 78 Bảng4.7.TỉlệkhửnhậpnhằngvớitừđiểnquántừBE 79 Bảng4.8.KếtquảtáchtừbằngFM,BM,AMvớicácmô-đunERvàBE 79

Ngày đăng: 18/08/2023, 22:24

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan