Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 190 trang
THÔNG TIN TÀI LIỆU
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TÚ HỎI ĐÁP TỰ ĐỘNG SỬ DỤNG NHIỀU NGUỒN TRI THỨC LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2022 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TÚ HỎI ĐÁP TỰ ĐỘNG SỬ DỤNG NHIỀU NGUỒN TRI THỨC Chuyên ngành: Hệ thống thông tin Mã số: 9480104.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Nguyễn Hà Nam PGS.TS Lê Anh Cường Hà Nội – 2022 LÌi camoan Tơi xin camoanây cơng trình nghiên c˘u cıa riêng tơi Các k∏t qu£ c vi∏t chung vĨi tác gi£khácc s¸ ng˛cıang tác gi£tr˜Óc khi˜a vào lu™n án Các k∏t qu£nêu lu™n án trung th¸c ch˜a t¯ng c cơng bËtrong cơng trình khác Tác gi£ Nguyπn V´n Tún V´n Tú i LÌi c£mÏn Lu™n án˜Ịc thác hiên tĐi trèngH Cụng nghê-HQG H Nẻi, dểi sá h˜Ĩng d®n cıa PGS.TS Nguyπn V´n Tún Hà Nam, PGS.TS Lê Anh C˜Ìng Tơi xin bày t‰lịng bi∏tÏn sâu s≠c tĨi th¶y Nguyπn V´n Tún Hà Nam, th¶y Lê Anh C˜Ìng, nh˙ng ng˜Ìiã có nh˙ng‡nh h˜Ĩng giúp tơi thành cơng viêc nghiờn cu ca mỡnh Cỏc thảy cngóẻng viờn chøb£o giúp tơi v˜Ịt qua nh˙ng khó kh´ntơi hồn thànhỊc lu™n án Tơi cÙng xin g˚i lÌi c£mÏn tểi cỏc Thảy, Cụ thuẻc khoa Cụng nghêthụng tin, trèngH Cụng nghê,HQGHN,ó tĐo miiu kiên thun lềi giỳp tụi q trình làm nghiên c˘u sinh Ci cùng, tơi xin g˚i lÌi c£mÏn sâu s≠c tĨi ginh, b§n bè nÏiã cho tơi i∫m t¸a v˙ng ch≠ctơi cóc thành cơng nh˜ngày hơm ii Mˆc lˆc LÌi camoan i LÌi c£mÏn ii Thu™t ng˙và t¯vi∏t t≠t vi Danh sách hình v≥ vii Danh sách b£ng ix M– ÜU Ch˜Ïng T NG QUAN VóHõTH»NG HƒIÁP 12 1.1 TÍng quan v∑hªthËng h‰iáp 12 1.2 Phõn loĐi cỏc hêthậng hiỏp 14 1.2.1 H‰iáp d¸a cÏs tri th˘c 14 1.2.2 H‰iáp tr¸c quan 17 1.2.3 H‰iáp cỴngng 17 1.3 Mẻt sậhêthậng cQA thông dˆng 19 1.3.1 Yahoo!Answer 20 1.3.2 StackOverflow 21 1.3.3 Quora 22 1.3.4 Mẻt sậcQA ting Viêt 23 1.4 Tình hình nghiên c˘u v∑cQA 24 1.4.1 Các nghiên c˘u liên quan v∑tìm ki∏m x∏p h§ng câu h‰i 25 1.4.2 Các nghiên c˘u liên quan v∑ ánh giáỴphù hỊp cıa câu tr£lÌi 29 1.5 Các ki∏n th˘c cÏs 32 1.5.1 T™p nhúng t¯ 32 1.5.2 M§ng nÏ-ron tích ch™p 38 1.5.3 MĐng bẻnhểdi-ngn 40 1.5.4 CácỴ o phân lo§i x∏p h§ng 44 1.6 Các vßn∑nghiên c˘u cıa lu™n án 46 1.7 K∏t lu™n ch˜Ïng 48 iii Ch˜Ïng TÌM VÀ XịP HĐNG CÁC CÂU HƒI LIÊN QUAN 49 2.1 GiĨi thiªu 49 2.2 Mơ t£bài tốn 49 2.3 Ph˜Ïng pháp ti∏p c™n và∑xußt 50 2.3.1 Mơ hình tìm ki∏m x∏p h§ng câu h‰i 50 2.3.2 Trích rút t¯(cˆm t¯) khóa 52 2.3.3 Bi∫u diπn V´n Tún d¸a mơ hình word2vec 52 2.3.4 Bi∫u diπn V´n Tún d¸a lo§i câu h‰i 56 2.3.5 Bi∫u din Vn Tỳn dáa trờn tớnh chòt ca cõu hi câu tr£lÌi 57 2.3.6 Phân lo§i câu h‰i 59 2.3.7 X∏p h§ng câu h‰i 60 60 60 2.4 Thác nghiêm 2.4.1 T™p d˙liªu 2.4.2 Cit thác nghiêm 62 2.4.3 Kt quÊthác nghiêm 63 2.4.4ánh giá cỏc kt quÊthác nghiêm 65 2.5 K∏t lu™n ch˜Ïng 68 Ch˜Ïng 3.ÁNH GIÁÀPHÙ H—P C’A CÂU TRÉLÕI 70 3.1 GiĨi thiªu 70 3.2 Mơ t£bài tốn 71 3.3 Các∞c tr˜ng 72 3.3.1 Các∞c tr˜ng n-gram 72 3.3.2 Các∞c tr˜ng d¸a thc tính cıa câu h‰i 72 3.3.3c tr˜ng d¸a thơng tin ng˜Ìi dùng 73 3.3.4c tr˜ng d¸a t™p nhúng t¯ 74 3.4 S˚dˆng Wikipedia nh˜nguÁn tài nguyên bên 75 3.4.1 Wikipedia 75 3.4.2 S˚dˆng Wikipedia choánh giáphù hỊp cıa câu tr£lÌi 75 3.5 Thác nghiêm 3.5.1 T™p d˙liªu 81 81 3.5.2 Cit thác nghiêm 82 3.5.3 Kt quÊthác nghiêm 83 3.5.4ỏnh giỏ cỏc kt quÊthác nghiêm 84 3.6 K∏t lu™n ch˜Ïng 86 iv Ch˜Ïng TÍCH H—P NHIóU NGU«N TRI THŸC TRONG MƠ HÌNH H≈C S ÁNH GIÁÀT◊ÃNG T‹ 88 4.1 GiĨi thiªu 88 4.2 Mơ t£bài tốn 91 4.3 Các ph˜Ïng pháp ti∏p c™n và∑xußt 91 4.3.1 NguÁn tri th˘c bên (External Knowledge - EK) 91 4.3.2 Mụ hỡnh dáa trờn mĐng nẽ-ron tớch ch™p CNN 95 4.3.3 Mơ hình d¸a m§ng nÏ-ron tích ch™p CNN tích hỊp thêm tri thc 100 4.3.4 Mụ hỡnh dáa trờn mĐng BLSTM 101 4.3.5 Mơ hình d¸a m§ng BLSTM tích hỊp thêm tri th˘c 103 4.3.6 Mơ hình d¸a BERT 103 4.4 Thác nghiêm 105 4.4.1 T™p d˙liªu oánh giá 105 4.4.2 Cỏc thác nghiêm trờn d˙liªu SemEval 2016 107 4.4.3 Cỏc thác nghiêm trờn t™p d˙liªu Quora 111 4.4.4 So sánh vÓi k∏t qu£nghiên c˘u khác 115 4.5 K∏t lu™n ch˜Ïng 118 KòT LUäN 119 Danh mˆc cơng trình khoa hÂc cıa tác gi£liên quann lu™n án 122 Tài liªu tham kh£o 124 v Thu™t ng˙và t¯vi∏t t≠t T¯vi∏t t≠t BERT BLSTM CBOW CLEF CNN cQA IE IR KBQA LSTM MLP NLP QA RNN SVM TREC VQA T¯gËc Bidirectional Encoder Representations from Transformers Bi-directional Long Short-Term Memory Continuous Bag-Of-Word Cross Language Evaluation Forum Convolutional Neural Networks community Question Answering Information Extraction Information Retrieval Knowledge Base Question Answering Long Short-Term Memory MultiLayer Perceptron Natural Language Processing Question Answering Recurrent Neural Network Support Vector Machines Text REtrieval Conference Visual Question Answering vi Gi£i nghỉa - T§m d‡ch Mơ hình mã hóa hai chi∑u d˙ liªu t¯các khậi Transformer MĐng bẻnhểdi-ngn hai chiu Mụ hỡnh tỳi tliờn tˆc Diπn V´n Túnànánh giáa ngơn ng˙ M§ng nÏ-ron tích ch™p H‰iáp cỴngng Trích rút thơng tin Truy hÁi thơng tin Hiỏp dáa trờn cẽs tri thc MĐng bẻnhểdi-ngn Perceptron nhiu tảng Xlngụn ngtánhiờn Hiỏp MĐng nẽ-ron hi quy Mỏy vộc-tẽhẩtrề Hẻi nghtruy hi bÊn Hiỏp trác quan