1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh tây ninh

89 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

HỌCVIỆNCƠNGNGHỆBƯUCHÍNHVIỄNTHƠNG - NGUYỄNTRUNG HIẾU XÂYDỰNGHỆTHỐNGHỎIĐÁPTRỰC TUYẾNBẰNGPHƯƠNGPHÁPMÁYH ỌCĐỂTỰĐỘNGHĨA QUYTRÌNHTIẾPNHẬNCÂUHỎI ÁPDỤNGCHOCHÍNHQUYỀNĐỊAP HƯƠNGTỈNHTÂYNINH ĐỀÁNTỐTNGHIỆPTHẠCSĨKỸTHUẬT (Theo định hướngứngdụng) THÀNHPHỐHỒCHÍMINH–NĂM2023 HỌCVIỆNCƠNGNGHỆBƯUCHÍNHVIỄNTHƠNG NGUYỄNTRUNG HIẾU XÂYDỰNGHỆTHỐNGHỎIĐÁPTRỰC TUYẾN BẰNGPHƯƠNGPHÁPMÁY HỌCĐỂTỰĐỘNGHĨA QUYTRÌNHTIẾPNHẬNCÂUHỎI ÁPDỤNGCHOCHÍNHQUYỀNĐỊAP HƯƠNGTỈNHTÂYNINH Chun ngành:HệthốngthơngtinMãsố: 8.48.01.04 ĐỀÁNTỐTNGHIỆPTHẠCSỸKỸTHUẬT (Theo định hướng ứng dụng) NGƯỜIHƯỚNGDẪNKHOAHỌC: PGS.TS.TRẦNCƠNGHÙNG THÀNHPHỐHỒCHÍMINH–NĂM2023 i LỜICAMĐOAN Tơicamđoanđâylàcơngtrìnhnghiêncứucủariêngtơi Cáccácsốliệu,kếtquảnêutrongđềántốtnghiệplàtrungthựcvàchưatừngđượcaicơn gbốtrongbấtkỳcơngtrìnhnàokhác Tp.HồChíMinh,ngày12tháng10năm2023 Họcviênthựchiệnđềán NguyễnTrungHiếu ii LỜICẢMƠN Đầu tiên xin gửi lời cảm ơn chân thành đếnPGS.TS Trần Công Hùng,người thầy tận tâm nhiệt tình việc hướng dẫn động viên tơi suốt qtrình thực đề án Sự hỗ trợ người thầy giúp định hướng hồn thànhmụctiêu nghiên cứu Tơi xin gửi lời tri ân đếnquý Thầy, Cô khoa Đào tạo Sau đại học, Học việnCơngnghệBưuchínhV iễ n thơngcơsởthànhphốHồChíMinh,đãđồnghà nhvàtậntìnhgiảngdạy hỗtrợtơisuốtthờigianhọctậpvànghiêncứu Tơi xin cảm ơn lãnh đạo SởThông tin Truyền Thông tỉnh Tây Ninhđãchophéptơisửdụngdữliệucủatỉnhvàtạođiềukiệnthuậnlợichotơitrongqtrìnhhọctậ p vànghiêncứu Tơi xin gửi lời cảm ơn đến tất đồng nghiệp động viên, hỗ trợ vàđónggópnhữngýkiếnqbáugiúptơihồnthiệnnghiên cứunày Tp.HồChíMinh,ngày12tháng10năm2023 Họcviênthựchiệnđềán NguyễnTrungHiếu iii MỤCLỤC LỜICAMĐOAN i LỜICẢMƠN ii MỤC LỤC iii DANHMỤCCÁCTHUẬTNGỮ,CHỮVIẾTTẮT vi DANHSÁCHBẢNG vii DANHSÁCHHÌNHVẼ viii MỞĐẦU .1 Lý chọnđềán Tổngquanvấnđềnghiên cứu .2 Mụctiêu nghiêncứu Đốitượngvà phạmvinghiêncứu Phươngphápnghiêncứu CHƯƠNG1- TỔNGQUANVẤNĐỀNGHIÊNCỨU 1.1 TổngquanvềCổnghỏi đáptrựctuyến 1.2 Cáccơngtrìnhnghiên cứutrênthếgiới 12 1.3 Cáccơngtrìnhnghiên cứu trongnước 14 CHƯƠNG2- CƠ SỞLÝTHUYẾT 15 2.1 TổngquanvềAIvàMachine Learning 15 2.2 Phươngphápbiểudiễndữliệu 16 2.2.1 PhươngphápTf-idf Vector 16 2.2.2 PhươngphápCountVectorization 17 iii 2.2.3 Phươngpháp FastText .18 2.3 Cácphươngphápphân lớp 18 2.3.1 PhânlớpvớiSupportVectorMachines(SVM) 20 2.3.2 Phân lớp vớiNaiveBayes 22 2.3.3 Phânlớpvớik-NearestNeighbors(k-NN) 25 CHƯƠNG3- ĐỀXUẤTPHƯƠNGPHÁPXÂYDỰNGBỘDỮ 28 3.1 Mơhìnhthựcnghiệmbàitốn 28 3.2 Thuthậpdữ liệu .29 3.3 Chuẩn hóadữ liệu 30 3.4 Cácbướcthựchiện 33 CHƯƠNG4- KẾTQUẢTHỰCNGHIỆM 35 4.1 Môitrườngvàdữliệuthựcnghiệm 35 4.1.1 Môitrường thựcnghiệm 35 4.1.2 Dữliệu thựcnghiệm 35 4.1.3 Chuẩn hóadữ liệu 37 4.1.4 Huấn luyệndữ liệu 40 4.2 Kết thựcnghiệm 40 4.2.1 KếtquảmơhìnhSupportVectorMachine 40 4.2.1.1 Phương phápTf-idf 40 4.2.1.2 Phương phápCountVectorizer 43 4.2.1.3 Phương phápFasttext .46 4.2.2 KếtquảmơhìnhNaive Bayes 48 4.2.2.1 Phương phápTf-idf 48 iii 4.2.2.2 Phương phápCountVectorizer 51 4.2.2.3 Phương phápFasttext .53 4.2.3 Kếtquả mơhìnhK-NN .56 4.2.3.1 Phương phápTf-idf 56 4.2.3.2 Phương phápCountVectorizer 59 4.2.3.3 Phương phápFasttext .61 4.2.4 Kếtquả tổnghợp .64 4.3 Kết luận thựcnghiệm 65 KẾT LUẬN 66 DANHMỤCTÀILIỆUTHAMKHẢO 68 DANHMỤCCÁCTHUẬTNGỮ,CHỮVIẾTTẮT VIẾTTẮT AI TIẾNGANH TIẾNGVIỆT Artificialintelligence Trítuệnhântạo ConvolutionalNeuralNetworks Mạngnơrontíchchập DL DeepLearning Họcsâu DT DecisionTree Câyquyếtđịnh IDF InverseDocumentFrequency Tầnsuấtnghịchđảocủamộttừtro ngtậpvănbản IE InformationExtraction Tríchxuấtthơngtin IR InformationRetrieval Tìmkiếmvàtruyxuấtthơngtin KNN K-NearestNeighbor ThuậttốnK-NearestNeighbor LR LogisticRegression HồiquyLogistic ML MachineLearning Họcmáy NB NaiveBayes ThuậttốnNaiveBayes RF RandomForestClassifier Trìnhphânloạirừngngẫunhiên RNN RecurrentNeuralNetworks Mạngthầnkinhhồiquy SVM SupportVectorMachine Máyvectorhỗtrợ TermFrequency Tầnsốxuấthiệncủavănbản CNN TF DANHSÁCHBẢNG Bảng 4.1:Nguồndữliệuthựcnghiệm 35 Bảng4.2:Thốngkêsốlượngcâuhỏisau khichuẩnhóatheođơnvị 37 Bảng 4.3:Chiatậpdữliệuhuấnluyện 40 Bảng 4.4:KếtquảmơhìnhSVMsửdụngTF-IDF 40 Bảng4.5:KếtquảmơhìnhSVMsửdụngCountVectorizer 43 Bảng4.6:KếtquảmơhìnhSVMsửdụngFasttext 46 Bảng4.7:KếtquảmơhìnhNaiveBayessửdụngTF-IDF .48 Bảng4.8:KếtquảmơhìnhNavieBayssửdụngCountVectorizer 51 Bảng4.9:KếtquảmơhìnhNavieBays(GaussianNB)sửdụngFasttext 54 Bảng4.10:KếtquảmơhìnhK-NNsửdụngTf-idf 56 Bảng4.11:Kết mơhìnhK-NNsửdụngCountVectorizer 59 Bảng4.12:Kếtquả mơhìnhk-NNsửdụngFastText 61 Bảng 4.13:Kếtquảtổng hợp 64 DANHSÁCHHÌNHVẼ Hình1.1:HệthốnghỏiđáptrựctuyếncủatỉnhTâyNinh Hình1.2:Sơđồtổngquáttrìnhtựvậnhànhcủahệthốnghỏiđáp .9 Hình1.3:Biểumẫunhậpcâuhỏicủangườidân,doanhnghiệp .10 Hình1.4:Đơnvịđiềuphốiđọc,chọnđơnvịchuyểncâuhỏiđểtrảlời 11 Hình2.1:MơhìnhSVM 21 Hình2.2:MơhìnhphânlớpNaiveBayes .24 Hình2.3:Mơhìnhk-NN(k-NearestNeighbors) .25 Hình3.1:Mơhìnhthựcnghiệm 28 Hình3.2:Câuhỏiđãđượctrảlờitrêntranghỏiđáp 30 Hình3.3:Câuhỏicónộidunggâychoviệcphânloạisai 31 Hình3.4:Haibảngmãkhácnhau,việcsosánhkhácnhau .31 Hình3.5:Kếtquảsauxửlýkiểugõ 32 Hình3.6:Kếtquảtáchtừ 32 Hình3.7:Kếtquảloạibỏtừkhơngcónghĩa 32 Hình4.1:MatrậnnhầmlẫnSVMsửdụngTf-idf 43 Hình4.2:MatrậnnhầmlẫnSVMsửdụngCountVectorizer .45 Hình4.3:MatrậnnhầmlẫnSVMsửdụngFasttext 48 Hình4.4:MatrậnnhầmlẫnmơhìnhNaiveBayessửdụngTf-idf 50 Hình4.5:MatrậnnhầmlẫnmơhìnhNaiveBayessửdụngCountVectorizer 53 Hình4.6:MatrậnnhầmlẫnmơhìnhNaiveBayessửdụngFasttext 56 Hình4.7:MatrậnnhầmlẫnmơhìnhKNNsửdụngTf-idf .58 Hình4.8:MatrậnnhầmlẫnmơhìnhKNNsửdụngCountVectorizer 61 Hình4.9:Matrậnnhầmlẫnmơhìnhk-NNsửdụngFasttext 63 Hình4.10:Kếtquảphânloạicủacâu1 65 Hình4.11:Kếtquảphânloạicủacâu2 65

Ngày đăng: 27/10/2023, 09:24

w