1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hỏi đáp tự động sử dụng nhiều nguồn tri thức

187 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 187
Dung lượng 16,96 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TÚ HỎI ĐÁP TỰ ĐỘNG SỬ DỤNG NHIỀU NGUỒN TRI THỨC LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2022 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TÚ HỎI ĐÁP TỰ ĐỘNG SỬ DỤNG NHIỀU NGUỒN TRI THỨC Chuyên ngành: Hệ thống thông tin Mã số: 9480104.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Nguyễn Hà Nam PGS.TS Lê Anh Cường Hà Nội – 2022 LÌi cam oan Tơi xin cam oan ây cơng trình nghiên c˘u cıa riêng tơi Các k∏t qu£ ˜Ịc vi∏t chung vĨi tác gi£ khác ∑u ˜Ịc s¸ Áng ˛ cıa Áng tác gi£ tr˜Óc ˜a vào lu™n án Các k∏t qu£ nêu lu™n án trung th¸c ch˜a t¯ng ˜Ịc cơng bË cơng trình khác Tác gi£ Nguyπn V´n Tú i LÌi c£m Ïn Lun ỏn ềc thác hiên tĐi trèng H Cụng nghê - HQG H Nẻi, dểi sá hểng dđn ca PGS.TS Nguyπn Hà Nam, PGS.TS Lê Anh C˜Ìng Tơi xin bày t‰ lịng bi∏t Ïn sâu s≠c tĨi th¶y Nguyπn Hà Nam, th¶y Lê Anh C˜Ìng, nh˙ng ng˜Ìi ã có nh˙ng ‡nh h˜Ĩng giúp tơi thành cơng viªc nghiên c˘u ca mỡnh Cỏc thảy cng ó ẻng viờn v b£o giúp tơi v˜Ịt qua nh˙ng khó kh´n ∫ tơi hồn thành ˜Ịc lu™n án Tơi cÙng xin g˚i lèi cÊm ẽn tểi cỏc Thảy, Cụ thuẻc khoa Cụng nghê thụng tin, trèng H Cụng nghê, HQGHN, ó tĐo mÂi i∑u kiªn thu™n lỊi giúp tơi q trình làm nghiên c˘u sinh Ci cùng, tơi xin g˚i lÌi c£m Ïn sâu s≠c tĨi gia ình, b§n bè nÏi ã cho tơi i∫m t¸a v˙ng ch≠c ∫ tơi có ˜Ịc thành cơng nh˜ ngày hơm ii Mˆc lˆc LÌi cam oan i LÌi c£m Ïn ii Thu™t ng˙ t¯ vi∏t t≠t vi Danh sách hình v≥ vii Danh sách b£ng ix M– ÜU Ch˜Ïng T NG QUAN Vó Hõ TH»NG HƒI ÁP 12 1.1 TÍng quan v∑ hª thËng h‰i áp 12 1.2 Phõn loĐi cỏc thậng h‰i áp 1.2.1 H‰i áp d¸a cÏ s tri th˘c 1.2.2 H‰i áp tr¸c quan 1.2.3 H‰i áp cỴng Áng 14 14 17 17 1.3 Mẻt sậ thËng cQA thông dˆng 1.3.1 Yahoo!Answer 1.3.2 StackOverflow 1.3.3 Quora 1.3.4 Mẻt sậ cQA ting Viêt 19 20 21 22 23 1.4 Tình hình nghiên c˘u v∑ cQA 24 1.4.1 Các nghiên c˘u liên quan v∑ tìm ki∏m x∏p h§ng câu h‰i 25 1.4.2 Các nghiên c˘u liên quan v∑ ánh giá Ỵ phù hỊp cıa câu tr£ lÌi 29 1.5 Các ki∏n th˘c cÏ s 1.5.1 T™p nhúng t¯ 1.5.2 M§ng nÏ-ron tích ch™p 1.5.3 MĐng bẻ nhể di-ngn 1.5.4 Các Ỵ o phân lo§i x∏p h§ng 32 32 38 40 44 1.6 Các vßn ∑ nghiên c˘u cıa lu™n án 46 1.7 K∏t lu™n ch˜Ïng 48 iii Ch˜Ïng TÌM VÀ XịP HĐNG CÁC CÂU HƒI LIÊN QUAN 49 2.1 GiĨi thiªu 49 2.2 Mô t£ toán 49 2.3 Ph˜Ïng pháp ti∏p c™n ∑ xußt 2.3.1 Mô hình tìm ki∏m x∏p h§ng câu h‰i 2.3.2 Trích rút t¯ (cˆm t¯) khóa 2.3.3 Bi∫u diπn d¸a mơ hình word2vec 2.3.4 Bi∫u din dáa trờn loĐi cõu hi 2.3.5 Biu din dáa trờn tớnh chòt ca cõu hi v câu tr£ lÌi 2.3.6 Phân lo§i câu h‰i 2.3.7 X∏p h§ng câu h‰i 50 50 52 52 56 57 59 60 2.4 Thác nghiêm 2.4.1 T™p d˙ liªu 2.4.2 Cài ∞t th¸c nghiªm 2.4.3 Kt quÊ thác nghiêm 2.4.4 ỏnh giỏ cỏc kt quÊ thác nghiêm 60 60 62 63 65 2.5 K∏t lu™n ch˜Ïng 68 Ch˜Ïng ÁNH GIÁ À PHÙ H—P C’A CÂU TRÉ LÕI 70 3.1 GiĨi thiªu 70 3.2 Mô t£ toán 71 3.3 Các ∞c tr˜ng 3.3.1 Các ∞c tr˜ng n-gram 3.3.2 Cỏc c trng dáa trờn thuẻc tớnh ca câu h‰i 3.3.3 ∞c tr˜ng d¸a thơng tin ng˜Ìi dùng 3.3.4 ∞c tr˜ng d¸a t™p nhúng t¯ 72 72 72 73 74 3.4 S˚ dˆng Wikipedia nh˜ nguÁn tài nguyên bên 3.4.1 Wikipedia 3.4.2 S˚ dˆng Wikipedia cho ánh giá Ỵ phù hỊp cıa câu tr£ lÌi 75 75 75 3.5 Th¸c nghiªm 3.5.1 T™p d˙ liªu 3.5.2 Ci t thác nghiêm 3.5.3 Kt quÊ thác nghiêm 3.5.4 ánh giỏ cỏc kt quÊ thác nghiêm 81 81 82 83 84 3.6 K∏t lu™n ch˜Ïng 86 iv Ch˜Ïng TÍCH H—P NHIóU NGU«N TRI THŸC TRONG MƠ HÌNH H≈C SÂU ö ÁNH GIÁ À T◊ÃNG T‹ 88 4.1 GiĨi thiªu 88 4.2 Mơ t£ tốn 91 4.3 Các ph˜Ïng pháp ti∏p c™n ∑ xußt 91 4.3.1 NguÁn tri th˘c bên (External Knowledge - EK) 91 4.3.2 Mụ hỡnh dáa trờn mĐng nẽ-ron tớch ch™p CNN 95 4.3.3 Mụ hỡnh dáa trờn mĐng nẽ-ron tớch chp CNN tích hỊp thêm tri th˘c 100 4.3.4 Mơ hình d¸a m§ng BLSTM 101 4.3.5 Mụ hỡnh dáa trờn mĐng BLSTM tích hỊp thêm tri th˘c 103 4.3.6 Mơ hình d¸a BERT 103 4.4 Thác nghiêm 4.4.1 T™p d˙ liªu Ỵ o ánh giá 4.4.2 Cỏc thác nghiêm trờn t™p d˙ liªu SemEval 2016 4.4.3 Cỏc thác nghiêm trờn d liêu Quora 4.4.4 So sánh vÓi k∏t qu£ nghiên c˘u khác 105 105 107 111 115 4.5 K∏t lu™n ch˜Ïng 118 KòT LUäN 119 Danh mˆc cơng trình khoa hÂc cıa tác gi£ liên quan ∏n lu™n án 122 Tài liªu tham kh£o 124 v Thu™t ng˙ t¯ vi∏t t≠t T¯ vi∏t t≠t T¯ gËc BERT Bidirectional Encoder Representations from Transformers BLSTM Bi-directional Long Short-Term Memory CBOW Continuous Bag-Of-Word CLEF Cross Language Evaluation Forum CNN Convolutional Neural Networks cQA community Question Answering IE Information Extraction IR Information Retrieval KBQA Knowledge Base Question Answering LSTM Long Short-Term Memory MLP MultiLayer Perceptron NLP Natural Language Processing QA Question Answering RNN Recurrent Neural Network SVM Support Vector Machines TREC Text REtrieval Conference VQA Visual Question Answering vi Gi£i nghỉa - T§m d‡ch Mơ hình mã hóa hai chi∑u d˙ liªu t¯ khËi Transformer MĐng bẻ nhể di-ngn hai chiu Mụ hỡnh tỳi t¯ liên tˆc Diπn àn ánh giá a ngôn ng˙ MĐng nẽ-ron tớch chp Hi ỏp cẻng ng Trớch rỳt thơng tin Truy hÁi thơng tin H‰i áp d¸a cẽ s tri thc MĐng bẻ nhể di-ngn Perceptron nhiu tảng X l ngụn ng tá nhiờn Hi ỏp MĐng nÏ-ron hÁi quy Máy véc-tÏ hÈ trỊ HỴi ngh‡ truy hÁi v´n b£n H‰i áp tr¸c quan Danh sách hình v≥ ThÌi gian trung bình ∫ ng˜Ìi dùng nh™n ˜Ịc câu tr£ lÌi [75] SË l˜Òng câu h‰i câu h‰i trùng l∞p cQA [77] Phân bÍ chßt l˜Ịng câu tr£ lÌi Yahoo! Answers [14] 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 Minh ca mẻt thậng KBQA Minh ca mẻt thậng VQA Minh ca mẻt thậng cQA Minh hÂa cıa hª thËng cQA Quora Ví dˆ v∑ bi∫u diπn phân tán t¯ Ví dˆ v∑ mËi quan hª gi˙a véc-tÏ Minh hÂa c˚a sÍ tr˜Ịt mơ hình CBOW Ki∏n trúc chung cıa mơ hình CBOW Skip-gram Minh hÂa phép nhân véc-tÏ ¶u vào vĨi ma tr™n trÂng sË Minh hÂa tích ch™p Minh hÂa ki∏n trúc CNN dùng phân lo§i câu [103] Các mơ- un l∞p cıa mĐng RNN cha mẻt tảng Các mơ- un l∞p cıa m§ng LSTM ch˘a bËn t¶ng ˜Ìng i cıa tr§ng thái m§ng LSTM MỴt cÍng cıa hàm sigmoid LSTM T¶ng cÍng quên C™p nh™t giá tr‡ cho tr§ng thái Ơ tr§ng thái mÓi i∑u chønh thông tin  ¶u thông qua hàm Minh hÂa BLSTM ([86]) Mơ hình tÍng qt cıa hª thËng QA mà lu™n án x˚ l˛ 2.1 2.2 2.3 Mô hình tìm ki∏m x∏p h§ng câu h‰i 51 So sánh k∏t qu£ mô hình có khơng có mơ- un phân lo§i câu hi 66 So sỏnh ẻ o phõn loĐi (Accuracy ) v ẻ o xp hĐng (M AP ) s dng cỏc bẻ phõn loĐi khỏc 67 3.1 Mơ hình ánh giá Ỵ phù hỊp cıa câu tr£ lÌi 76 vii W 15 17 18 23 34 34 36 36 37 38 39 40 40 41 41 41 42 42 43 43 48 3.2 3.3 Minh hÂa tìm ki∏m tài liªu Wikipedia liên quan 78 So sánh k∏t qu£ ca cỏc thác nghiêm 85 4.1 4.2 4.3 Quan hª gi˙a d liêu v hiêu suòt ca cỏc mụ hỡnh hc máy Mơ hình d¸a CNN tính tốn i∫m t˜Ïng Áng gi˙a q ⇤ qi Mơ hình d¸a CNN tích hỊp thêm tri th˘c tính tốn i∫m t˜Ïng Áng gi˙a q ⇤ qi Mơ hình d¸a BLSTM tính tốn i∫m t˜Ïng Áng gi˙a q ⇤ qi Minh hÂa mỴt BLSTM Âc chuÈi ¶u vào Mơ hình d¸a BLSTM tích hỊp thêm tri th˘c tính tốn i∫m t˜Ïng Áng gi˙a q ⇤ qi Mơ hình d¸a BERT ánh giá i∫m t˜Ïng Áng gi˙a hai câu h‰i So sánh k∏t qu£ cıa mơ hình nhiªm vˆ tìm ki∏m x∏p h§ng câu h‰i cQA So sánh k∏t qu£ cıa mơ hình khác t™p d˙ liªu Quora 4.4 4.5 4.6 4.7 4.8 4.9 viii 89 96 100 102 103 104 106 112 115 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TÚ HỎI ĐÁP TỰ ĐỘNG SỬ DỤNG NHIỀU NGUỒN TRI THỨC Chuyên ngành: Hệ thống thông tin Mã số: 9480104.01 LUẬN ÁN TIẾN SĨ CÔNG... trờn cẽ s tri thc, QA trác quan, QA cẻng ng Phản ny s mụ tÊ tt v cỏc thËng QA cÙng nh˜ trình bày mỴt sË nghiên c˘u liên quan 1.2.1 H‰i áp d¸a cÏ s tri thc Cỏc thậng hi ỏp dáa trờn cẽ s tri th˘c... quy∑n bÍ sung VĨi hÏn tri? ?u ng˜Ìi dùng hÏn 16 tri? ?u câu h‰i (tính ∏n tháng n´m 2018, https://en.wikipedia.org/wiki/StackOverflow), StackOverflow ã tr thành kho l˜u tr˙ tri th˘c khÍng lÁ MÈi

Ngày đăng: 27/06/2022, 11:32

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w