Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn

174 1 0
Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤCVÀĐÀO TẠO BỘQUỐCPHỊNG VIỆNKHOA HỌC VÀCƠNGNGHỆQN SỰ NGUYỄNVĂNSƠN NGHIÊNCỨUPHÁTTRIỂN MỘTSỐKỸ THUẬT HỖTRỢPHÁTHIỆNĐẠOVĂN VÀ ỨNGDỤNGCHOVĂN BẢNTIẾNGVIỆT LUẬNÁNTIẾNSĨTOÁNHỌC HàNội-2022 BỘ GIÁO DỤCVÀĐÀOTẠO BỘQUỐCPHỊNG VIỆNKHOA HỌC VÀCƠNGNGHỆQN SỰ NGUYỄNVĂNSƠN NGHIÊNCỨUPHÁTTRIỂN MỘTSỐKỸ THUẬT HỖTRỢPHÁTHIỆNĐẠOVĂN VÀ ỨNGDỤNGCHOVĂN BẢNTIẾNGVIỆT Chuyênngành: Mãsố: Cơsởtoánhọccho tin học 9460110 LUẬNÁNTIẾN SĨTOÁN HỌC NGƯỜIHƯỚNGD Ẫ N KHOA HỌC: PGS.TSLêThanhHương TS.NguyễnChíThành HàNội-2022 LỜICAMĐOAN Tơi xin cam đoan, cơng trình nghiên cứu riêng tơi Những nộidung,sốliệuvàkếtquảtrìnhbàytrongluậnánlàhồntồntrungthựcvàchưacótác giả cơngbốtrongbấtcứmộtcơngtrìnhnàokhác.Cáctàiliệuthamkhảođượctríchdẫnđầyđủ HàNội,ngày12tháng 01n ă m 2022 Tácgiả NguyễnVănSơn LỜICẢMƠN Luận án thực Viện Công nghệ thông tin, Viện Khoa họcvà Công nghệ quân sự-Bộ Quốc phòng Lời đầu tiên, NCS xin bày tỏ lịng biết ơnsâusắctớiPGS.TSLêThanhHương,TS.NguyễnChíThànhđãtậntìnhgiúpđỡ,trangbịchoNCSphươngphápnghiên cứu,kinhnghiệm,kiếnthứckhoahọcđểhồnthànhcácnộidungluậnán NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN qn sự, Phịng Đàotạo, Viện Cơng nghệ thông tin sở đào tạo đơn vị quản lý tạo điềukiện,hỗtrợ,giúpđỡNCStrongquá trìnhhọc tập,nghiêncứu NCS xin bày tỏ lòng biết ơn chân thành tới thầy cô Viện KHCNquân sự, nhà khoa học quân đội giảng dạy, truyền đạt kiếnthứcvàgiúpđỡvềchun mơntrongqtrìnhhọctập,nghiên cứu củaNCS NCS ln ghi nhớ cơng ơn bố mẹ, gia đình xin dành lời cảm ơn đặcbiệt tới vợ con, người bên cạnh, động viên chỗ dựa mọimặtgiúpNCSvượtquakhókhănđểhồnthànhcơngviệc NCSxinchânthànhcảmơnbạnbè,đồngnghiệpvàrấtnhiềungườiđãluônđộng viên,chiasẻ,giúpđỡNCS trongsuốtthờigianqua Tác giảNguyễnVănSơn MỤCLỤC Trang DANHMỤCCÁCKÝ HIỆU,CHỮVIẾTTẮT v DANHMỤCCÁCBẢNG vi DANHMỤCCÁCHÌNHVẼ vii MỞĐẦU CHƯƠNG1T Ổ N G QUANVỀBÀITOÁNPHÁT HIỆNSAO CHÉP 1.1 Tổngquan 1.1.1 Địnhnghĩa .7 1.1.2 Cáchìnhthứcsaochép .8 1.2 Cáckiếnthứcnềntảng 1.2.1 Mộtsốkiến thứcnền tảngvềngơnngữtiếngViệt 10 1.2.2 CơsởlýthuyếtvềthuậttốnLDA 13 1.2.3 GiớithiệuluậtkếthợpvàthuậttoánApriori 14 1.2.4 GiớithiệumạngnơronhồiquyRNN 16 1.2.5 GiớithiệumạngLSTMxếpchồng 18 1.3 Cácnghiên cứuvềpháthiệnsao chép thếgiới 22 1.3.1 Tríchrút từkhóa .24 1.3.2 Pháthiện đoạnsaochép 28 1.4 Cáchướngtiếp cậnpháthiệnsao chéptrongnước 35 1.5 Khongữliệu vàphươngphápđánhgiá 36 1.5.1 Kho ngữliệuthửnghiệm 36 1.5.2 Phươngphápđánhgiá .39 1.6 Nhữngvấnđềluậnáncầntậptrungnghiên cứugiảiquyết .41 1.7 KếtluậnChương1 .42 CHƯƠNG2 T R Í C H R Ú T T Ừ K H Ó A DỰ A T R Ê N M Ơ H Ì N H H Ọ C SÂU .43 2.1 Đặt vấn đề 43 2.2 Phátbiểubàitốntìmtậptài liệuứngcửvàbàitốntrích rúttừkhóa 43 2.3 Đềxuất ýtưởng 45 2.4 Trích rút từ khóa dựa kỹ thuật trích rút đặc trưng mơ hình mạngFFNN 46 2.4.1 Nộidung đềxuất .46 2.4.2 Đánhgiáthửnghiệm 55 2.5 KếtluậnChương2 .61 CHƯƠNG3PHÁTHIỆNĐOẠNSAOCHÉPGIỮAHAITÀILIỆU DỰATRÊN CÁCMƠ HÌNHHỌCMÁY 62 3.1 Đặt vấn đề 62 3.2 Phátbiểubàitoánpháthiệnđoạnsaochép .62 3.3 Đềxuất ýtưởng 63 3.4 Mơhìnhchủđềchobàitốn pháthiệnđoạnsaochép 64 3.4.1 Đềxuấtgiảipháp .65 3.4.2 ĐánhgiáthửnghiệmtrênkhongữliệuPAN .72 3.5 Kỹthuật tríchrútđặctrưng vàmơhìnhLSTMxếpchồng chobài tốnpháthiệnđoạnsao chép .76 3.5.1 Mơhình đềxuấtphađoạn vàphatừ 78 3.5.2 ĐánhgiáthửnghiệmtrênkhongữliệuPAN .89 3.6.Kếtluận Chương3 .95 CHƯƠNG4ỨNGDỤNGCÁCKỸTHUẬTPHÁTHIỆNSAOCHÉP CHOVĂN BẢNTIẾNGVIỆT 97 4.1 Đặt vấn đề 97 4.2 XâydựngkhongữliệupháthiệnđoạnsaochéptiếngViệt .98 4.2.1 Đềxuấtýtưởng .98 4.2.2 Đềxuấtgiảiphápxâydựng khongữliệupháthiệnđoạn saochép vănbản tiếngViệt 100 4.2.3 Kếtquả,đánhgiákho ngữliệu 106 4.3 Tríchrút từkhóachovăn bảntiếngViệt .107 4.3.1 Tríchrúttừkhóadựa trênđộđoTF-IDF chovănbảndàitiếngViệt.107 4.3.2 Cảitiếnkỹthuậttrích rút từkhóadựatrênmơhìnhhọcsâuchovăn bảntiếngViệt 114 4.4 ỨngdụngkỹthuậtpháthiệnđoạnsaochépchovănbảntiếngViệt 116 4.4.1 Cảitiến mơhình chủđềchobàitốnphát đoạn saochép văn bảntiếngViệt 117 4.4.2 Cảitiếnkỹthuật trích rút đặctrưngvà mơhìnhLSTMxếpchồng chobàitốnpháthiệnđoạnsao chépvănbảntiếngViệt 120 4.5 KếtluậnChương4 122 KẾTLUẬN 123 DANHMỤCCÁCCƠNGTRÌNH KHOAHỌCĐÃCƠNG BỐ .125 TÀILIỆU THAMKHẢO .126 PHỤ LỤC 137 DANHMỤC CÁCKÝ HIỆU,CHỮVIẾTTẮT ADAM ANN BPTT Thuậttoántốiưumạngnơron(AdaptiveMomentEstimation) Mạngnơronnhântạo(ArtificialNeuralNetwork) Thuậttoánlantruyềnngượcliênhồi(BackpropagationThroug hTime) CNG ChuỗiliêntiếpgồmNkýtự(Character-basedN-Gram) CNN Mạngnơrontíchchập(ConvolutionalNeuralNetwork) CSDL Cơ sởdữliệu ĐATN Đồántốtnghiệp IDF Nghịchđ ả o t ầ n s u ấ t c ủ a m ộ t t t r o n g m ộ t t ậ p v ă n b ả n ( I n v e r s e DocumentFrequency) FFNN Mạngnơrontruyềnthẳng (Feed-forwardNeuralNetwork) FSE ThưviệntrênngơnngữPythonđểtínhvéctơcâu(FastSentence Embeddings) GCNN Mơhì nh m n g n r o n đ t h ị ( G r a p h C o n v o l u t i onalNeural Network) LDA MơhìnhphânphốiDirichletẩn(LatentDirichletAllocation) LSA Phântíchngữnghĩatiềmẩn(LatentSemanticAnalysis) LSTM Mạngbộnhớdài –ngắn(LongShortTermMemoryNetwork) NCS Nghiêncứusinh PAN Chuỗisựk i ệ n t h n g n i ê n v ề đ o v ă n ( P lagiarismA n a l ysis, AuthorshipIdentification,andNearDuplicateDetection) PHSC Pháthiệnsaochép POS Gánnhãntừloại(PartofSpeechTagging) RNN Mạngnơronhồiquy(RecurrentNeuralNetwork) SVM Máyvectorhỗ trợ(SupportVectorMachine) TF Tầnsuấtxuấthiệncủamộttừtrongmộtvănbản(TermFrequency) XML Ngônngữđánhdấumởrộng(eXtensibleMarkupLanguage) XLNNTN Xửlýngônngữtựnhiên WNG ChuỗiliêntiếpgồmN từ (Word-based N-Gram) DANHMỤC CÁCBẢNG Trang Bảng1.1.KếtquảkiểmtratrùnglặptừhệthốngCoopy Bảng2.1.Vídụ10kếtquảđầuracủamơhìnhđềxuất 54 Bảng2.2.GiátrịF-scoretríchrút10từkhóa 57 Bảng2.3.Sosánhvớicáckếtquảnghiêncứugầnđây 59 Bảng3.1.Kếtquảthửnghiệm 74 Bảng3.2.KếtquảđãcôngbốcủaSanchez-Perez 75 Bảng3.3.Kếtquảmãhóađoạn 79 Bảng3.4.Sựphụthuộcgiátrịkvàođộdàiđoạnsaochép .91 Bảng3.5.Kếtquảthửnghiệm 93 Bảng3.6.Sosánhkếtquảvớicácnghiêncứugầnđây 95 Bảng4.1.Bảngthôngtindữliệuthuthập 102 Bảng4.2.Bảngphânbốđộdàiđoạnsaochép 102 Bảng4.3.Môtảdữliệutừđồngnghĩa 104 Bảng4.4.ThốngkêkhongữliệupháthiệnđoạnsaochéptiếngViệt 106 Bảng4.5.TómtắtthơngtinkhongữliệuĐATN 112 Bảng4.6.KếtquảthửnghiệmkhongữliệuĐATN 113 Bảng4.7.TómtắtthơngtinkhongữliệutríchrúttừkhóatiếngViệt .115 Bảng4.8.KếtquảthửnghiệmvớikhongữliệubàibáotiếngViệt 116 Bảng4.9.KếtquảthửnghiệmvớithuậttoánYAKE! 116 Bảng4.10.KếtquảthửnghiệmvớikhongữliệutiếngViệt 118 Bảng4.11.KếtquảthửnghiệmcủatácgiảSanchez-Perez 119 Bảng4.12.KếtquảthửnghiệmvớikhongữliệutiếngViệt 121 DANHMỤC CÁCHÌNHVẼ Trang Hình1.1.Cáchìnhthứcsaochép Hình1.2.MơhìnhthuậttốnLDA 14 Hình1.3.MơhìnhmạngRNN 17 Hình1.4.SơđồbiểudiễnkiếntrúcbêntrongcủamộttếbàoLSTM 19 Hình1.5.KiếntrúcmơhìnhLSTMxếpchồng 21 Hình1.6.Phânloạicáctiếpcậnpháthiệnsaochép 22 Hình1.7.Mơhìnhpháthiệnsaochéptồncục .23 Hình1.8.MốiquanhệgiữaSvàD .39 Hình1.9.Mơhìnhhệthốngpháthiệnsaochép .42 Hình2.1.Mơhìnhtổngqtcủabàitốntìmtậptàiliệuứngcử .44 Hình2.2.Quytrìnhtổngquanhệthốngtríchrúttừkhóa 47 Hình2.3.MơhìnhtríchrúttừkhóadựatrênmơhìnhFFNN 53 Hình2.4.MơhìnhtríchrúttừkhóadựatrênmơhìnhLSTM 54 Hình2.5.Lượcđồquanhệgiữađộchínhxácvàsốlầnlặp .56 Hình2.6.Lượcđồquanhệgiữađộmấtmátvàsốlầnlặp 56 Hình3.1.Quytrìnhpháthiệnđoạnsaochépdựatrênmơhìnhchủđề .65 Hình3.2.Quytrìnhpháthiệnđoạnsaochép 78 Hình3.3.Mơhìnhpháthiệnsaochépmứcđoạn 78 Hình3.4.Mơhìnhpháthiệnsaochépmứctừ .84 Hình3.5Đoạnkếtquảnằmngồiđoạnvănbảnsaochép .90 Hình3.6Đoạnkếtquảnằmtrongđoạnvănbảnsaochép 90 Hình3.7Đoạnkếtquảnằmtrongmộtphầnđoạnvănbảnsaochép 90 Hình3.8.Sựảnhhưởngcủacácđặctrưngđếnkếtquảpháthiệnsaochép 93 Hình4.1.Mơhìnhtạotrườnghợpsaochépngunvăn .103 Hình4.2.Mơhìnhtạotrườnghợpsaochépthaythếtừđồngnghĩa 105 Hình4.3Mơhìnhtạotrườnghợpsaochépdịchtựđộng .105 Hình4.4.Mơhìnhtríchrúttừkhóa .108

Ngày đăng: 17/08/2023, 22:35

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan