(Luận án tiến sĩ) Hỏi Đáp Tự Động Sử Dụng Nhiều Nguồn Tri Thức

187 0 0
Tài liệu đã được kiểm tra trùng lặp
(Luận án tiến sĩ) Hỏi Đáp Tự Động Sử Dụng Nhiều Nguồn Tri Thức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

¾I HÞC QUÞC GIA HÀ NÞI

TR¯ÞNG ¾I HÞC CÔNG NGHÞ

NGUYÞN VN TÚ

HÞI ÁP Tþ ÞNG Sþ DþNG NHIÞU NGUÞN TRI THþC

LU¾N ÁN TI¾N S) CÔNG NGHÞ THÔNG TIN

Hà Nßi 3 2022

Trang 2

¾I HÞC QUÞC GIA HÀ NÞI

TR¯ÞNG ¾I HÞC CÔNG NGHÞ

NGUYÞN VN TÚ

HÞI ÁP Tþ ÞNG Sþ DþNG NHIÞU NGUÞN TRI THþC

Chuyên ngành: Hß thßng thông tin Mã sß: 9480104.01

LU¾N ÁN TI¾N S) CÔNG NGHÞ THÔNG TIN

NG¯ÞI H¯ÞNG D¾N KHOA HÞC 1 PGS.TS Nguyßn Hà Nam

2 PGS.TS Lê Anh C±ßng

Hà Nßi 3 2022

Trang 3

LÌi cam oan

Tôi xin cam oan ây là công trình nghiên cÚu c1a riêng tôi Các k/t qu£ÞÒc vi/t chung vÓi các tác gi£ khác 3u ÞÒc s¸ Áng Û c1a Áng tác gi£ trÞÓckhi Þa vào lu#n án Các k/t qu£ nêu trong lu#n án là trung th¸c và chÞa t¯ng

ÞÒc ai công bË trong các công trình nào khác.

Tác gi£

NguyÃn V´n Tú

Trang 4

Tôi cÙng xin gÚi lÌi c£m Ïn tÓi các Th¶y, Cô thuÎc khoa Công nghª thôngtin, trÞÌng H Công nghª, HQGHN, ã t§o mÂi i3u kiªn thu#n lÒi giúp tôitrong quá trình làm nghiên cÚu sinh.

CuËi cùng, tôi xin gÚi lÌi c£m Ïn sâu sbc tÓi gia ình, b§n bè nÏi ã cho tôii+m t¸a vÛng chbc + tôi có ÞÒc thành công nhÞ ngày hôm nay.

Trang 5

1.2 Phân lo§i các hª thËng h0i áp 14

1.2.1 H0i áp d¸a trên cÏ sÿ tri thÚc 14

1.3.4 MÎt sË cQA ti/ng Viªt 23

1.4 Tình hình nghiên cÚu v3 cQA 24

1.4.1 Các nghiên cÚu liên quan v3 tìm ki/m và x/p h§ng câu h0i 25

1.4.2 Các nghiên cÚu liên quan v3 ánh giá Î phù hÒp c1a câu tr£ lÌi 291.5 Các ki/n thÚc cÏ sÿ 32

Trang 6

ChÞÏng 2 TÌM VÀ XòP HÑNG CÁC CÂU H“I LIÊN QUAN 49

2.3.3 Bi+u diÃn d¸a trên mô hình word2vec 52

2.3.4 Bi+u diÃn d¸a trên lo§i câu h0i 56

2.3.5 Bi+u diÃn d¸a trên tính chßt c1a câu h0i và câu tr£ lÌi 57

2.3.6 Phân lo§i câu h0i 59

3.3.2 Các >c trÞng d¸a trên thuÎc tính c1a câu h0i 72

3.3.3 >c trÞng d¸a trên thông tin ngÞÌi dùng 73

Trang 7

ChÞÏng 4 TÍCH H4P NHIóU NGU«N TRI THyC TRONG MÔ

HÌNH HjC SÂU ö ÁNH GIÁ À TïÃNG T9 88

4.1 GiÓi thiªu 88

4.2 Mô t£ bài toán 91

4.3 Các phÞÏng pháp ti/p c#n và 3 xußt 91

4.3.1 NguÁn tri thÚc bên ngoài (External Knowledge - EK) 91

4.3.2 Mô hình d¸a trên m§ng nÏ-ron tích ch#p CNN 95

4.3.3 Mô hình d¸a trên m§ng nÏ-ron tích ch#p CNN tích hÒp thêm tri thÚc1004.3.4 Mô hình d¸a trên m§ng BLSTM 101

4.3.5 Mô hình d¸a trên m§ng BLSTM tích hÒp thêm tri thÚc 103

4.3.6 Mô hình d¸a trên BERT 103

4.4 Th¸c nghiªm 105

4.4.1 T#p dÛ liªu và các Î o ánh giá 105

4.4.2 Các th¸c nghiªm trên t#p dÛ liªu SemEval 2016 107

4.4.3 Các th¸c nghiªm trên t#p dÛ liªu Quora 111

4.4.4 So sánh vÓi các k/t qu£ nghiên cÚu khác 115

4.5 K/t lu#n chÞÏng 118

KòT LUäN 119

Danh mÆc công trình khoa hÂc c1a tác gi£ liên quan /n lu#n án

122Tài liªu tham kh£o 124

Trang 8

Thu#t ngÛ và t¯ vi/t tbt

T¯ vi/t tbt T¯ gËc Gi£i nghæa - T§m d!chBERT Bidirectional Encoder

Representations fromTransformers

Mô hình mã hóa hai chi3u dÛliªu t¯ các khËi TransformerBLSTM Bi-directional Long Short-Term

M§ng bÎ nhÓ dài-ngbn haichi3u

CBOW Continuous Bag-Of-Word Mô hình túi t¯ liên tÆcCLEF Cross Language Evaluation

RNN Recurrent Neural Network M§ng nÏ-ron hÁi quySVM Support Vector Machines Máy véc-tÏ hÈ trÒ

TREC Text REtrieval Conference HÎi ngh! truy hÁi v´n b£nVQA Visual Question Answering H0i áp tr¸c quan

Trang 9

Danh sách hình vg

1 ThÌi gian trung bình + ngÞÌi dùng nh#n ÞÒc câu tr£ lÌi [75] 3

2 SË lÞÒng các câu h0i và câu h0i trùng l>p trên cQA [77] 3

3 Phân bÍ chßt lÞÒng các câu tr£ lÌi trên Yahoo! Answers [14] 4

1.1 Minh hÂa c1a mÎt hª thËng KBQA 15

1.2 Minh hÂa c1a mÎt hª thËng VQA 17

1.3 Minh hÂa c1a mÎt hª thËng cQA 18

1.4 Minh hÂa c1a hª thËng cQA Quora 23

1.5 Ví dÆ v3 bi+u diÃn phân tán t¯ 34

1.6 Ví dÆ v3 mËi quan hª giÛa các véc-tÏ 34

1.7 Minh hÂa cÚa sÍ trÞÒt trong mô hình CBOW 36

1.8 Ki/n trúc chung c1a mô hình CBOW và Skip-gram 36

1.9 Minh hÂa phép nhân véc-tÏ ¶u vào vÓi ma tr#n trÂng sË W1 37

1.10 Minh hÂa tích ch#p 38

1.11 Minh hÂa ki/n trúc CNN dùng trong phân lo§i câu [103] 39

1.12 Các mô- un l>p c1a m§ng RNN chÚa mÎt t¶ng 40

1.13 Các mô- un l>p c1a m§ng LSTM chÚa bËn t¶ng 40

1.14 ÞÌng i c1a ô tr§ng thái trong m§ng LSTM 41

1.15 MÎt cÍng c1a hàm sigmoid trong LSTM 41

1.21 Mô hình tÍng quát c1a hª thËng QA mà lu#n án xÚ lÛ 48

2.1 Mô hình tìm ki/m và x/p h§ng các câu h0i 51

2.2 So sánh k/t qu£ mô hình có và không có mô- un phân lo§i câu h0i 662.3 So sánh Î o phân lo§i (Accuracy) và Î o x/p h§ng (M AP)khi sÚ dÆng các bÎ phân lo§i khác nhau 67

3.1 Mô hình ánh giá Î phù hÒp c1a câu tr£ lÌi 76

Trang 10

3.2 Minh hÂa tìm ki/m tài liªu Wikipedia liên quan 783.3 So sánh k/t qu£ c1a các th¸c nghiªm 854.1 Quan hª giÛa dÛ liªu và hiªu sußt c1a các mô hình hÂc máy 894.2 Mô hình d¸a trên CNN tính toán i+m tÞÏng Áng giÛa q∗ và qi 964.3 Mô hình d¸a trên CNN tích hÒp thêm tri thÚc tính toán i+m

tÞÏng Áng giÛa q∗ và qi 1004.4 Mô hình d¸a trên BLSTM tính toán i+m tÞÏng Áng giÛa q∗ và qi 1024.5 Minh hÂa mÎt BLSTM Âc chuÈi ¶u vào 1034.6 Mô hình d¸a trên BLSTM tích hÒp thêm tri thÚc tính toán i+m

tÞÏng Áng giÛa q∗ và qi 1044.7 Mô hình d¸a trên BERT ánh giá i+m tÞÏng Áng giÛa hai câu h0i 1064.8 So sánh k/t qu£ c1a các mô hình trong nhiªm vÆ tìm ki/m và x/p

h§ng các câu h0i trong cQA 1124.9 So sánh k/t qu£ c1a các mô hình khác nhau trên t#p dÛ liªu Quora 115

Trang 11

Danh sách b£ng

1.1 So sánh giÛa hª thËng IR và QA 13

1.2 B£ng so sánh giÛa hª thËng KBQA và cQA 19

1.3 ThËng kê dÛ liªu trên StackOverflow 22

1.4 Các k/t qu£ d¸ oán c1a bÎ phân lo§i 44

2.7 MÎt sË thËng kê trên t#p dÛ liªu SemEval 2016 62

2.8 Các k/t qu£ phân lo§i và x/p h§ng c1a th¸c nghiªm 1 63

2.9 Các k/t qu£ phân lo§i và x/p h§ng c1a th¸c nghiªm 2 64

2.10 Các k/t qu£ phân lo§i và x/p h§ng c1a th¸c nghiªm 3 64

2.11 Các k/t qu£ phân lo§i và x/p h§ng c1a th¸c nghiªm 4 65

2.12 So sánh vÓi các nghiên cÚu khác 67

3.1 Ví dÆ v3 mÎt sË >c trÞng n-gram 72

3.2 Ví dÆ v3 Î tÞÏng t¸ cosine giÛa câu h0i và câu tr£ lÌi 74

3.3 Ví dÆ v3 Î tÞÏng t¸ d¸a trên s¸ bi+u diÃn véc-tÏ t¯ giÛa câu h0ivà các câu tr£ lÌi 75

3.4 Các m®u câu h0i và câu tr£ lÌi ÞÒc sÚ dÆng cho câu h0i !nh nghæa 773.5 MÎt sË thËng kê v3 t#p dÛ liªu 82

3.6 Î chính xác c1a bÎ phân lo§i SVM khi sÚ dÆng k/t hÒp nhi3ulo§i >c trÞng 83

3.7 Î chính xác c1a bÎ phân lo§i SVM khi sÚ dÆng thêm thông tint¯ Wikipedia 84

3.8 So sánh vÓi các nghiên cÚu khác 85

4.1 Ví dÆ v3 mÎt sË c>p câu h0i trong t#p dÛ liªu Quora 107

4.2 MÎt sË thËng kê v3 t#p dÛ liªu Quora 107

Trang 12

4.3 Các tham sË c1a mô hình d¸a trên m§ng nÏ-ron tích ch#p CNN 1084.4 Các tham sË c1a mô hình d¸a trên m§ng BLSTM 1094.5 Các k/t qu£ th¸c nghiªm trên t#p dÛ liªu SemEval 2016 sÚ dÆng

mô hình d¸a trên CNN 1094.6 Các k/t qu£ th¸c nghiªm trên t#p dÛ liªu SemEval 2016 sÚ dÆng

mô hình d¸a trên m§ng BLSTM 1104.7 Các k/t qu£ th¸c nghiªm trên t#p dÛ liªu SemEval 2016 sÚ dÆng

mô hình d¸a trên BERT 1104.8 Các tham sË c1a mô hình d¸a trên m§ng nÏ-ron tích ch#p CNN 1124.9 Các tham sË c1a mô hình d¸a trên m§ng BLSTM 1134.10 Các k/t qu£ th¸c nghiªm trên t#p dÛ liªu Quora sÚ dÆng mô hình

d¸a trên m§ng CNN 1134.11 Các k/t qu£ th¸c nghiªm trên t#p dÛ liªu Quora sÚ dÆng mô hình

d¸a trên m§ng BLSTM 1144.12 Các k/t qu£ th¸c nghiªm trên t#p dÛ liªu Quora sÚ dÆng mô hình

d¸a trên BERT 1144.13 So sánh vÓi các nghiên cÚu khác trên t#p dÛ liªu SemEval 2016 1164.14 So sánh vÓi các nghiên cÚu khác trên t#p dÛ liªu Quora 117

Trang 13

1 Tính cßp thi/t c1a lu#n án

û tÞÿng v3 xây d¸ng hª thËng h0i áp t¸ Îng ra Ìi t¯ nhÛng n´m 1960.i+m chung trong các hª thËng h0i áp (Question Answering - QA) giai o§nnày là sÚ dÆng cÏ sÿ dÛ liªu ÞÒc thi/t k/ b¨ng tay bÿi các chuyên gia tronglænh v¸c ÞÒc chÂn + trích rút câu tr£ lÌi Giai o§n nhÛng n´m 1970 - 1980,có nhi3u d¸ án lÓn hÞÓng /n viªc “hi+u v´n b£n” và xây d¸ng hª thËng QAd¸a trên các mô hình ngôn ngÛ thËng kê HÎi ngh! TREC1 (Text REtrievalConference) diÃn ra hàng n´m (bbt ¶u t¯ cuËi nhÛng n´m 1990) thu hút s¸tham gia c1a rßt nhi3u các nhóm nghiên cÚu cÙng ã góp ph¶n rßt lÓn trongviªc thúc ©y các nghiên cÚu v3 hª thËng QA CuËi nhÛng n´m 1990, WorldWide Web (WWW) ra Ìi và nhanh chóng phát tri+n bùng nÍ trÿ thành mÎtkho ngÛ liªu khÍng lÁ Các nhà nghiên cÚu v3 hª thËng QA cÙng bbt ¶u khaithác web nhÞ là mÎt nguÁn thông tin hÛu ích cho viªc tìm ki/m câu tr£ lÌi.Các kæ thu#t mÓi òi h0i tËc Î cao, kh£ n´ng xÚ lÛ lÞÒng dÛ liªu web lÓn rßtÞÒc quan tâm Cùng vÓi thÌi gian, các câu h0i c1a ngÞÌi dùng dành cho các hªthËng QA ngày càng phÚc t§p, ôi khi ngÞÌi dùng ã không nh#n ÞÒc câu tr£lÌi thích hÒp t¯ các hª thËng QA này + gi£i quy/t nhÛng khó kh´n này, cáchª thËng h0i áp d¸a trên cÎng Áng (community Question Answering - cQA)ã ÞÒc phát tri+n Thay vì ph£i trích rút các câu tr£ lÌi t¯ mÎt kho lÞu trÛÞÒc xây d¸ng trÞÓc, các cQA sÚ dÆng các câu tr£ lÌi t¯ các chuyên gia và cÎngÁng ngÞÌi dùng cQA Không nhÛng v#y, cQA còn cho phép ngÞÌi dùng ánhgiá v3 chßt lÞÒng c1a các câu tr£ lÌi cÙng nhÞ chÂn câu tr£ lÌi tËt nhßt cho mÈicâu h0i Hiªn nay, mÎt sË hª thËng cQA ã ÞÒc sÚ dÆng rßt rÎng rãi trên th/

https://trec.nist.gov/

Trang 14

giÓi nhÞ StackOverflow2, WolframAlpha3, Quora4 Các cQA này ngày càng trÿlên phÍ bi/n do ngÞÌi sÚ dÆng có th+ gÚi câu h0i ÿ nhi3u ch1 3 khác nhau, t¯các câu h0i s¸ th#t (factoid question) /n các câu h0i phÚc t§p cÙng nhÞ nh#nÞÒc các câu tr£ lÌi chính xác hÏn t¯ các chuyên gia, ngÞÌi sÚ dÆng Tuy nhiên,viªc xây d¸ng các hª thËng cQA hiªn nay v®n g>p nhi3u khó kh´n nhÞ: ngÞÌidùng ph£i mßt nhi3u thÌi gian + nh#n ÞÒc câu tr£ lÌi, có mÎt sË lÞÒng lÓncác câu h0i trùng l>p, có nhi3u câu tr£ lÌi kém chßt lÞÒng.

1) ThÌi gian ngÞÌi dùng nh#n ÞÒc câu tr£ lÌi: Trong các cQA, mÈi khi ngÞÌidùng gÚi mÎt câu h0i, h ph£i mßt vài phút th#m chí vài ngày + có th+ nh#nÞÒc câu tr£ lÌi t¯ nhÛng ngÞÌi dùng khác Ngoài ra, do các câu h0i ÞÒc trìnhbày dÞÓi d§ng ngôn ngÛ t¸ nhiên nên rßt có th+ có nhi3u câu h0i tÞÏng t¸ ãÞÒc h0i trÞÓc ó N/u cQA có th+ xác !nh và tr£ v3 ÞÒc danh sách các câuh0i tÞÏng t¸ ã ÞÒc h0i trÞÓc ó thì khi ó ngÞÌi dùng không mßt thÌi gianÒi câu tr£ lÌi c1a ngÞÌi khác mà có th+ tham kh£o câu tr£ lÌi c1a các câu h0itÞÏng t¸ cho câu h0i c1a mình i3u này không chø giúp ngÞÌi h0i có th+ nh#nÞÒc câu tr£ lÌi ngay l#p tÚc mà nó còn giúp hª thËng cQA tránh lÞu trÛ dÞth¯a dÛ liªu là các câu h0i trùng l>p.

Trong nghiên cÚu c1a Xiaojun Quan và các cÎng s¸ [75] trên hÏn 200 nghìncâu h0i trong Yahoo!Answers báo cáo r¨ng ph£i mßt trung bình hÏn nÚa giÌ +ngÞÌi h0i nh#n ÞÒc câu tr£ lÌi ¶u tiên n/u câu h0i ÞÒc Þa ra vào buÍi tËi,và thÌi gian là nhi3u hÏn gßp ôi n/u các câu h0i ÞÒc ´ng vào buÍi sáng Hình1 cho bi/t thÌi gian trung bình + ngÞÌi h0i nh#n ÞÒc câu tr£ lÌi ¶u tiên/ thÚhai khi gÚi câu h0i vào các kho£ng thÌi gian khác nhau trong ngày trên Yahoo!Answers [75].

Ngoài ra, trên th¸c t/, các cQA phÍ bi/n nhÞ Yahoo!Answers hay flow sË lÞÒng các câu h0i trùng l>p là rßt lÓn Hình 2 cho thßy sË lÞÒng câu h0imÈi n´m, cÙng nhÞ sË lÞÒng câu h0i trùng l>p t¯ n´m 2011 /n n´m 2016 trêntrang cQA StackOverflow Viªc các cQA ph£i lÞu trÛ mÎt lÞÒng rßt lÓn các câuh0i trùng l>p d®n /n: (1) £nh hÞÿng /n kh£ n´ng lÞu trÛ dÛ liªu c1a các cQA,(2) £nh hÞÿng /n viªc tr£ lÌi câu h0i c1a ngÞÌi dùng, h có th+ ph£i tr£ lÌi l§imÎt câu h0i tÞÏng t¸.

StackOver-Viªc phát hiªn ra các câu h0i trong kho lÞu trÛ c1a cQA tÞÏng t¸ vÓi câu h0i

Trang 15

Hình 1: ThÌi gian trung bình + ngÞÌi dùng nh#n ÞÒc câu tr£ lÌi [75]

Hình 2: SË lÞÒng các câu h0i và câu h0i trùng l>p trên cQA [77]

mÓi và x/p h§ng các câu h0i này theo Î tÞÏng t¸ c1a chúng vÓi câu h0i mÓi cóth+ gi£i quy/t ÞÒc các vßn 3 nêu trên Viªc tìm ki/m và x/p h§ng các câu h0icó th+ coi nhÞ là mÎt nhiªm vÆ c1a viªc ánh giá Î tÞÏng t¸ ngÛ nghæa giÛahai câu h0i ây là mÎt trong nhÛng vßn 3 thÞÌng x£y ra nhßt và ã ÞÒc trìnhbày trong nhi3u nghiên cÚu khác nhau v3 cQA Nó liên quan /n s¸ khác biªttrong viªc hình thành ngôn ngÛ t¸ nhiên c1a các câu h0i NhÛng ngÞÌi dùngkhác nhau h0i v3 cùng mÎt nÎi dung nhÞng h l§i trình bày các câu h0i theonhÛng cách khác nhau i3u này d®n /n viªc nhi3u câu h0i mang ngÛ nghæatÞÏng t¸ nhÞng l§i ÞÒc trình bày khác nhau v3 t¯ v¸ng.

2) Chßt lÞÒng c1a các câu tr£ lÌi: MÎt trong các thách thÚc lÓn nhßt khixây d¸ng các hª thËng QA là làm sao + xác !nh ÞÒc chßt lÞÒng c1a các câutr£ lÌi cho mÈi câu h0i Ëi vÓi các hª thËng h0i áp d¸a trên cÏ sÿ tri thÚc(Knowledge Base Question Answering - KBQA), chßt lÞÒng c1a các câu tr£ lÌiphÆ thuÎc vào viªc xây d¸ng kho ngÛ liªu và các kÇ thu#t trích rút câu tr£ lÌi.

Trang 16

chßt lÞÒng c1a các câu tr£ lÌi có s¸ chênh lªch rßt lÓn MÈi câu h0i có th+ nh#nÞÒc nhi3u câu tr£ lÌi trong ó có nhÛng câu tr£ lÌi không liên quan ho>c cóchÚa rßt ít thông tin liên quan /n câu h0i Nhiªm vÆ c1a các hª thËng cQA làph£i ánh giá + tr£ v3 cho ngÞÌi dùng các câu tr£ lÌi chßt lÞÒng nhßt trongsË nhi3u câu tr£ lÌi nh#n ÞÒc Trên các cQA, ngÞÌi tr£ lÌi câu h0i có th+ làcác chuyên gia-nhÛng ngÞÌi có chuyên môn sâu v3 lænh v¸c ÞÒc h0i hay chø lànhÛng ngÞÌi quan tâm /n câu h0i ó Do ó chßt lÞÒng c1a các câu tr£ lÌi cós¸ thay Íi rßt lÓn.

Trong bài báo c1a Chirag Shah [14], tác gi£ ã th¸c hiªn mÎt nghiên cÚu v3chßt lÞÒng c1a các câu tr£ lÌi trên t#p dÛ liªu trích rút t¯ cQA Yahoo! Answers.T#p dÛ liªu này gÁm 3.248.589 câu h0i và 16.278.891 câu tr£ lÌi tÞÏng Úng Cáccâu tr£ lÌi này ÞÒc x/p h§ng theo các mÚc t¯ 0 /n 5 (các câu tr£ lÌi x/p h§ng0 là các câu tr£ lÌi không ÞÒc chÂn, các câu tr£ lÌi x/p h§ng 5 là các câu tr£lÌi tËt nhßt) Hình 3 cho bi/t sË lÞÒng câu tr£ lÌi ÿ mÈi mÚc khác nhau.

Hình 3: Phân bÍ chßt lÞÒng các câu tr£ lÌi trên Yahoo! Answers [14]

T¯ Hình 3 cho thßy sË lÞÒng các câu tr£ lÌi không ÞÒc chÂn chi/m t lª rßtlÓn (84,3%), hay nói cách khác có rßt nhi3u câu tr£ lÌi c1a ngÞÌi dùng khôngliên quan /n câu h0i.

Các cQA hiªn nay thÞÌng ánh giá chßt lÞÒng c1a các câu tr£ lÌi thông quanhÛng thông tin cung cßp bÿi ngÞÌi dùng nhÞ sË lÞÒng bình chÂn (votes) chocâu tr£ lÌi, câu tr£ lÌi ÞÒc ngÞÌi dùng chÂn là câu tr£ lÌi tËt nhßt ho>c câu tr£

Trang 17

lÌi ÞÒc ánh giá là tËt n/u nó ÞÒc gÚi bÿi các chuyên gia.

+ gi£i quy/t các khó kh´n v3 thÌi gian chÌ Òi + ngÞÌi dùng nh#n ÞÒc câutr£ lÌi, sË lÞÒng các câu h0i trùng l>p cÙng nhÞ chßt lÞÒng c1a các câu tr£ lÌitrong các cQA, ã có nhi3u nghiên cÚu Þa ra các gi£i pháp:

1) Tìm ki/m và x/p h§ng các câu h0i liên quan /n câu h0i mÓi: Gi£i pháptìm ki/m và x/p h§ng các câu h0i trong cÏ sÿ dÛ liªu liên quan /n câu h0i mÓikhông chø giúp ngÞÌi h0i có th+ nh#n ÞÒc câu tr£ lÌi ngày l#p tÚc mà còn giúpcác cQA tránh lÞu trÛ dÞ th¯a các câu h0i trùng l>p Khi ngÞÌi dùng gÚi mÎtcâu h0i mÓi, hª thËng cQA sg ánh giá Î tÞÏng t¸ c1a câu h0i này vÓi cáccâu h0i ã ÞÒc h0i trÞÓc ó Khi tìm ÞÒc danh sách các câu h0i tÞÏng t¸, hªthËng sg sbp x/p các câu h0i này theo Î tÞÏng t¸ c1a chúng vÓi câu h0i mÓivà tr£ v3 cho ngÞÌi h0i danh sách các câu h0i này và các câu tr£ lÌi c1a chúng.Khi ó ngÞÌi h0i có th+ tìm thßy câu tr£ lÌi cho câu h0i c1a mình mà khôngc¶n chÌ Òi ngÞÌi dùng khác gÚi câu tr£ lÌi.

Vßn 3 ánh giá Î tÞÏng t¸ có liên quan /n viªc so khÓp ngÛ nghæa giÛahai câu h0i Cho ví dÆ hai câu h0i sau:

• What is the most populous state in India?

• Which state in India has the highest population?

C£ hai câu h0i trên v3 cÏ b£n 3u h0i cùng mÎt nÎi dung, tÚc là câu tr£ lÌicho câu h0i này có th+ phù hÒp vÓi câu h0i kia và ngÞÒc l§i.

Phát hiªn nhÛng câu h0i nhÞ v#y sg có nhi3u lÒi ích: tránh dÞ th¯a, tÚc làn/u mÎt ngÞÌi ã tr£ lÌi câu h0i mÎt l¶n, anh ta không c¶n ph£i tr£ lÌi l§i câuh0i tÞÏng t¸ nÛa, Áng thÌi hª thËng cÙng tránh ÞÒc viªc lÞu trÛ các câu h0itÞÏng t¸ Ngoài ra, nó sg có lÒi cho ngÞÌi h0i, vì n/u câu h0i ¶u tiên ã nh#nÞÒc các câu tr£ lÌi thì các câu h0i tÞÏng t¸ sau ó sg có câu tr£ lÌi ngay chínhlà các câu tr£ lÌi c1a câu h0i tÞÏng t¸ ã ÞÒc h0i trÞÓc ó.

G¶n ây, có nhi3u nghiên cÚu khác nhau ã ÞÒc 3 xußt + gi£i quy/t vßn 3tìm ki/m và x/p h§ng các câu h0i liên quan /n câu h0i mÓi [56, 68, 72, 73, 97].Nghiên cÚu c1a Florian Kunneman và các cÎng s¸ [56] phân tích tác Îngc1a các bÞÓc ti3n xÚ lÛ (nhÞ bi/n Íi các t¯ trong câu h0i v3 chÛ thÞÌng, lo§ib0 dßu câu, lo§i b0 các t¯ d¯ng (stop words)) và Î tÞÏng t¸ ngÛ nghæa c1a t¯(word2vec, fastText) Ëi vÓi viªc xác !nh Î tÞÏng t¸ giÛa các câu h0i Các k/tqu£ th¸c nghiªm ã chÚng minh r¨ng các bÞÓc ti3n xÚ lÛ và bi+u diÃn t¯ d¸atrên mô hình word2vec cho hiªu qu£ cao nhßt v3 i+m sË F1.

Trang 18

Trong bài báo [68], các tác gi£ ã xây d¸ng mô hình tÍng hÒp so sánh phâncßp + truy xußt câu h0i trong cQA TrÞÓc tiên mÈi câu h0i ÞÒc chia táchthành các câu (sentence), sau ó h th¸c hiªn so sánh mÂi c>p câu trong haicâu h0i sÚ dÆng mô hình so sánh mÚc t¯ Các k/t qu£ th¸c nghiªm trên bÎ dÛliªu SemEval cho thßy mô hình 3 xußt trong [68] cho k/t qu£ cao hÏn so vÓimÎt sË mô hình trÞÓc ó.

Nghiên cÚu c1a Nouha Othman và các cÎng s¸ [72] 3 xußt phÞÏng pháp d¸atrên t#p nhúng t¯ (word embedding) + nbm bbt ÞÒc thông tin v3 ngÛ nghæavà ngÛ c£nh c1a các câu h0i, các tác gi£ sÚ dÆng Î tÞÏng t¸ cosin + o ÎtÞÏng t¸ giÛa các véc-tÏ câu h0i Các tác gi£ ã xây d¸ng các th¸c nghiªm trênc£ t#p dÛ liªu ti/ng Anh và ti/ng Arabic và chø ra r¨ng 3 xußt trong [72] chok/t qu£ tËt hÏn so vÓi nhi3u nghiên cÚu trÞÓc ó.

Trong bài báo [73], các tác gi£ ã xây d¸ng các mô hình d¸a trên m§ng ron, sÚ dÆng cách bi+u diÃn dày >c c1a dÛ liªu v´n b£n + d¸ oán s¸ tÞÏngÁng v3 v´n b£n giÛa các câu h0i cÎng Áng Nghiên cÚ 3 xußt mÎt phÞÏngpháp hÂc sâu d¸a trên ki/n trúc m§ng LSTM, ÞÒc t´ng cÞÌng vÓi cÏ ch/ chúÛ (attention mechanism).

nÏ-Các nghiên cÚu trên ây ã xây d¸ng nhi3u mô hình khác nhau d¸a trên cácthông tin cung cßp bÿi câu h0i, câu tr£ lÌi nh¨m ánh giá ÞÒc Î tÞÏng t¸ giÛacâu h0i mÓi vÓi các câu h0i trong kho lÞu trÛ c1a hª thËng cQA Viªc ánh giáÎ tÞÏng t¸ này có th+ sÚ dÆng thêm nhi3u phÞÏng pháp bi+u diÃn khác nhau(nhÞ bi+u diÃn d¸a trên t#p nhúng t¯) cÙng nhÞ bÍ sung thêm thông tin v3 lo§icâu h0i Ngoài ra, trong vài n´m g¶n ây các mô hình hÂc sâu (deep learning)ã ÞÒc áp dÆng và cho thßy nhi3u thành công trong lænh v¸c xÚ lÛ ngôn ngÛ t¸nhiên nhÞ: mô hình câu [52], tìm ki/m thông tin [82], phân tích ngÛ nghæa [95],phân lo§i câu [103] Trong nghiên cÚu này, lu#n án ã xây d¸ng các mô hìnhhÂc sâu d¸a trên CNN và LSTM cho bài toán o Î tÞÏng t¸ giÛa các câu h0i.Nghiên cÚu tích hÒp thêm nguÁn tri thÚc bên ngoài vào mô hình hÂc sâu nh¨mgi£i quy/t bài toán dÛ liªu thÞa, vËn là nhÞÒc i+m cË hÛu trong các mô hìnhhÂc sâu.

2) ánh giá Î phù hÒp c1a câu tr£ lÌi: Chßt lÞÒng c1a mÎt hª thËng cQAphÆ thuÎc chính vào chßt lÞÒng c1a các câu tr£ lÌi + có ÞÒc các cQA tËt,thu hút ÞÒc s¸ tham gia c1a nhi3u chuyên gia và ngÞÌi dùng thì y/u tË quantrÂng là các câu tr£ lÌi trong cQA ph£i là các câu tr£ lÌi có chßt lÞÒng MÈi

Trang 19

câu h0i trong cQA thÞÌng nh#n ÞÒc nhi3u câu tr£ lÌi t¯ ngÞÌi dùng, hª thËngcQA khi ó ph£i có kh£ n´ng lÂc ra các câu tr£ lÌi tËt nhßt + tr£ v3 cho ngÞÌidùng + xác !nh ÞÒc chßt lÞÒng c1a các câu tr£ lÌi cho mÈi câu h0i, gi£ipháp 3 ra là ph£i ánh giá ÞÒc Î phù hÒp c1a mÈi câu tr£ lÌi và Þa ra chongÞÌi dùng nhÛng câu tr£ lÌi có Î chính xác cao nhßt Hai phÞÏng pháp ÞÒcsÚ dÆng nhi3u nhßt + ánh giá Î phù hÒp c1a các câu tr£ lÌi là:

(1) ánh giá d¸a trên thông tin cung cßp bÿi ngÞÌi dùng [23, 60]: sË lÞÒng bìnhchÂn (votes) cho câu tr£ lÌi, câu tr£ lÌi ÞÒc chÂn là câu tr£ lÌi tËt nhßt,câu tr£ lÌi ÞÒc gÚi bÿi các chuyên gia.

(2) ánh giá sÚ dÆng các kæ thu#t hÂc máy [32, 35, 59, 76, 94, 101]: sÚ dÆngcác kæ thu#t + trích rút các >c trÞng, sau ó áp dÆng các phÞÏng pháphÂc máy trên t#p các >c trÞng này + phân lo§i câu tr£ lÌi.

Nghiên cÚu c1a Fengshi Jing và Qingpeng Zhang [23] k/t hÒp thông tin cÎngÁng và phân tích v´n b£n câu h0i và câu tr£ lÌi trong viªc l¸a chÂn câu tr£ lÌitËt nhßt Các thông tin cÎng Áng bao gÁm sË lÞÒng bình chÂn, chuyên môn,th©m quy3n c1a ngÞÌi tr£ lÌi Các >c trÞng thông dÆng khác sÚ dÆng trongphân tích chßt lÞÒng là sÚ dÆng Î o phÍ bi/n và tÞÏng tác xã hÎi [60], chØngh§n nhÞ sË lÞÒng c1a câu tr£ lÌi tËt nhßt chÂn bÿi ngÞÌi sÚ dÆng, i+m ánhgiá cho câu tr£ lÌi c1a ngÞÌi sÚ dÆng, tø lª chßp nh#n c1a câu tr£ lÌi.

Trong nghiên cÚu [35], các tác gi£ ã khám phá mô hình dÞa trên m§ngLSTM cho vßn 3 l¸a chÂn câu tr£ lÌi trong cQA Nghiên cÚu 3 xußt tích hÒps¸ chú Û có giám sát (supervised attention) vào m§ng LSTM CÆ th+, nghiêncÚu ã t#n dÆng ngÛ nghæa t¯ v¸ng t¯ bên ngoài + hÞÓng d®n viªc hÂc cáctrÂng sË cho các c>p câu h0i Mô hình 3 xußt hÂc ÞÒc nhi3u Û nghæa hÏn chophép th¸c hiªn tËt hÏn mô hình cÏ b£n.

Nghiên cÚu c1a Lishuang Li và các cÎng s¸ [59] 3 xußt khai thác m§ng tÞÏngtác nhi3u cßp Î m£nh (Multiple Fragment-level Interactive Network - MFIN)cho nhiªm vÆ này MFIN có th+ mÿ rÎng không gian tìm ki/m t¯ cßp Î t¯/n cßp Î phân o§n, có lÒi cho viªc thu th#p thêm thông tin theo ngÛ c£nh.Trong MFIN, các tác gi£ áp dÆng cÏ ch/ chú Û nhi3u mÚc Î phân phËi + chÂncác c>p phân o§n chính và §t ÞÒc nhi3u tÞÏng tác cßp phân o§n K/t qu£thÚ nghiªm chÚng minh r¨ng mô hình 3 xußt trong [59] hiªu qu£ so vÓi nhi3u

Trang 20

Nghiên cÚu c1a Qunbo Wang và các cÎng s¸ [76] 3 xußt mÎt n3n t£ng mÓitích hÒp hÂc t#p tích c¸c (active learning) và t¸ hÂc (self-paced learning) trongviªc hußn luyªn các mô hình l¸a chÂn câu tr£ lÌi sâu Nghiên cÚu 3 xußt mÎtphÞÏng pháp !nh lÞÒng không chbc chbn d¸a trên m§ng th¶n kinh Bayes +hÞÓng d®n hÂc t#p tích c¸c và t¸ hÂc theo nh!p Î trong cùng mÎt quá trìnhl>p l§i c1a hußn luyªn mô hình Các k/t qu£ th¸c nghiªm chÚng minh phÞÏngpháp ÞÒc 3 xußt có th+ §t ÞÒc hiªu sußt tËt hÏn so vÓi các phÞÏng pháphÂc t#p tích c¸c sâu khác HÏn nÛa, phÞÏng pháp này có th+ dà dàng ÞÒc mÿrÎng cho các nhiªm vÆ khác nhÞ truy xußt thông tin.

Nghiên cÚu c1a Zhang và các cÎng s¸ [101] xây d¸ng các mô hình d¸a trênm§ng BLSTM (Bidirectional Long Short-Term Memory) và cÏ ch/ chú Û (atten-tion) cho nhiªm vÆ l¸a chÂn câu tr£ lÌi trong các cQA K/t qu£ nghiên cÚu báocáo r¨ng mô hình mÓi c£i thiªn Î chính xác 3,8% so vÓi mô hình m§ng LSTMtruy3n thËng.

Các nghiên cÚu nói trên mÓi chø khai thác nguÁn thông tin h0i- áp trong cáccQA + ánh giá chßt lÞÒng c1a các câu tr£ lÌi Các nghiên cÚu t#p trung vàoviªc xây d¸ng các mô hình + ánh giá ÞÒc Î tÞÏng t¸ giÛa câu h0i vÓi câutr£ lÌi ho>c d¸a vào các thông tin cung cßp bÿi ngÞÌi dùng + ánh giá chßtlÞÒng c1a các câu tr£ lÌi Tuy nhiên, chßt lÞÒng c1a mÎt câu tr£ lÌi không chød¸a trên Î tÞÏng t¸ c1a nó vÓi câu h0i cÙng nhÞ d¸a trên các thông tin cungcßp bÿi ngÞÌi dùng C¶n tìm ki/m thêm mÎt nguÁn thông tin áng tin c#y nàoó + ánh giá tính úng bn c1a các câu tr£ lÌi NhÞ v#y, vßn 3 ánh giá Îphù hÒp c1a các câu tr£ lÌi trong các cQA hiªn v®n chÞa ÞÒc gi£i quy/t ¶y1 Lu#n án sg ti/p nËi các nghiên cÚu trÞÓc ó nh¨m gi£i quy/t nhÛng h§n ch/ÞÒc nêu ra ÿ trên.

2 MÆc tiêu c1a lu#n án

Tính cßp thi/t c1a lu#n án ã ÞÒc phân tích ÿ trên cho phép chúng tôi xácl#p lu#n án vÓi tên “H0i áp t¸ Îng sÚ dÆng nhi3u nguÁn tri thÚc” MÆc tiêucÆ th+ c1a lu#n án là 3 xußt các phÞÏng pháp d¸a trên hÂc máy và tích hÒpnhi3u nguÁn tri thÚc + nâng cao chßt lÞÒng c1a các hª thËng cQA + th¸chiªn ÞÒc mÆc tiêu này, lu#n án i vào gi£i quy/t các bài toán sau:

• ThÚ nhßt: Nghiên cÚu, 3 xußt phÞÏng pháp + tìm ki/m và x/p h§ng các

Trang 21

câu h0i trong cÏ sÿ dÛ liªu liên quan /n câu h0i mÓi.

• ThÚ hai: Nghiên cÚu, 3 xußt phÞÏng pháp + ánh giá Î phù hÒp c1a cáccâu tr£ lÌi trong hª thËng cQA.

• ThÚ ba: Nghiên cÚu, 3 xußt phÞÏng pháp + tích hÒp thêm nguÁn tri thÚcvào mô hình hÂc sâu + ánh giá Î tÞÏng t¸ giÛa các câu h0i.

• 3 xußt phÞÏng pháp + ánh giá Î phù hÒp c1a các câu tr£ lÌi Lu#nán sÚ dÆng thêm nguÁn thông tin t¯ bách khoa toàn thÞ mÿ Wikipedia +ánh giá Î phù hÒp c1a câu tr£ lÌi Lu#n án xây d¸ng mô hình mÓi k/thÒp c£ các thông tin t¯ câu h0i và câu tr£ lÌi, Áng thÌi khai thác thêmthông tin t¯ nguÁn tri thÚc bên ngoài (wikipedia) + ánh giá Î phù hÒpc1a các câu tr£ lÌi trong cQA óng góp này ã ÞÒc công bË ÿ k y/u hÎith£o quËc t/ Integrated Uncertainty in Knowledge Modelling and DecisionMaking (IUKM) n´m 2016 (công trình sË 3) và t§p chí trong nÞÓc T§p

Trang 22

chí khoa hÂc công nghª thông tin và truy3n thông, hÂc viªn Công nghª BÞuchính ViÃn thông n´m 2017 (công trình sË 4).

• 3 xußt áp dÆng phÞÏng pháp hÂc sâu + nâng cao hiªu qu£ cho bài toánánh giá Î tÞÏng t¸ giÛa hai câu h0i Lu#n án xây d¸ng mô hình tíchhÒp nguÁn tri thÚc bên ngoài vào các mô hình hÂc sâu + ánh giá ÎtÞÏng t¸ giÛa hai câu h0i (coi mÈi câu h0i nhÞ là mÎt o§n v´n b£n ngbn).Lu#n án xây d¸ng các mô hình d¸a trên m§ng nÏ-ron + trích rút các >ctrÞng thông qua các t¶ng (layer) c1a m§ng và sau ó tích hÒp các nguÁntri thÚc bên ngoài vào các mô hình hÂc sâu này + t´ng hiªu sußt c1a viªcánh giá Î tÞÏng t¸ Lu#n án cÙng ã nghiên cÚu, xây d¸ng mô hình d¸atrên BERT cho vßn 3 ánh giá Î tÞÏng t¸ giÛa các câu h0i Các ónggóp này ã ÞÒc công bË ÿ k y/u hÎi th£o quËc t/ Integrated Uncertaintyin Knowledge Modelling and Decision Making (IUKM) n´m 2018 (côngtrình sË 6), t§p chí quËc t/ International Journal of Machine Learning andComputing n´m 2021 (công trình sË 7), t§p chí trong nÞÓc VNU Journalof Science: Computer Science and Communication Engineering n´m 2021(công trình sË 8).

Các nÎi dung và k/t qu£ nghiên cÚu trình bày trong lu#n án (t¯ ChÞÏng 2/n ChÞÏng 4) ã ÞÒc công bË trong 08 công trình Trong ó có 03 bài báo´ng ÿ t§p chí trong nÞÓc có ph£n biªn, 02 bài báo ´ng ÿ t§p chí quËc t/ và03 bài báo ´ng trong k y/u c1a hÎi ngh! quËc t/ có ph£n biªn, ÞÒc xußt b£nbÿi nhà xußt b£n Springer.

• ChÞÏng 2 Trình bày nÎi dung, k/t qu£ nghiên cÚu v3 bài toán tìm ki/mvà x/p h§ng các câu h0i trong cÏ sÿ dÛ liªu liên quan /n câu h0i mÓi.

Trang 23

• ChÞÏng 3 Trình bày nÎi dung, k/t qu£ nghiên cÚu v3 bài toán ánh giáÎ phù hÒp c1a câu tr£ lÌi.

• ChÞÏng 4 Trình bày nÎi dung, các k/t qu£ nghiên cÚu c1a viªc tích hÒpnguÁn tri thÚc bên ngoài vào các mô hình hÂc sâu + t´ng hiªu qu£ c1aviªc ánh giá Î tÞÏng t¸ giÛa các câu h0i.

Trang 24

ChÞÏng này trình bày tÍng quan v3 nhÛng vßn 3 nghiên cÚu c1a lu#n án,bao gÁm: tÍng quan v3 hª thËng h0i áp, phân lo§i các hª thËng h0i áp, mÎt sËhª thËng cQA thông dÆng cÙng nhÞ phân tích mÎt sË nghiên cÚu liên quan v3cQA MÎt sË ki/n thÚc cÏ sÿ cÙng ÞÒc trình bày trong chÞÏng này Ph¶n cuËichÞÏng sg th£o lu#n v3 mÎt sË vßn 3 còn tÁn t§i khi xây d¸ng các hª thËngcQA mà lu#n án sg t#p trung gi£i quy/t và xác !nh nÎi dung nghiên cÚu c1alu#n án.

1.1 TÍng quan v3 hª thËng h0i áp

Trong các hª thËng truy hÁi thông tin (Information Retrieval - IR) hiªn nay,phÞÏng pháp chung là ngÞÌi dùng sÚ dÆng t¯/cÆm t¯ khóa + tìm ki/m thôngtin Cho mÎt câu truy vßn, mÎt hª thËng truy hÁi thông tin sg tr£ v3 mÎt danhsách các tài liªu có liên quan /n câu truy vßn mà sau ó ngÞÌi dùng ph£i Âc+ tìm ki/m các thông tin thích hÒp K/t qu£ tr£ v3 c1a các máy tìm ki/m (mÎtlo§i hª thËng tìm ki/m thông tin) thÞÌng là rßt lÓn có khi lên tÓi hàng nghìntrang web NgÞÌi sÚ dÆng muËn có ÞÒc thông tin mình c¶n ph£i t¸ duyªt vàÂc l¶n lÞÒt qua các trang web + xác !nh ÞÒc thông tin mình c¶n i3u ósg tËn nhi3u công sÚc và thÌi gian cho viªc tìm ki/m thông tin Ví dÆ, n/u ngÞÌidùng muËn bi/t “Ai là ngÞÌi sáng l#p ra t#p oàn Samsung?”, thì vÓi hª thËngIR, ngÞÌi dùng sg tìm ÞÒc mÎt danh sách các tài liªu liên quan /n cÆm t¯“ngÞÌi sáng l#p ra t#p oàn Samsung” Sau ó, d¸a vào danh sách tài liªu này,ngÞÌi dùng t¸ dò tìm câu tr£ lÌi MÎt ví dÆ khác, mÎt ngÞÌi khách du l!ch muËntham quan nhÛng !a i+m du l!ch t§i thành phË Hà NÎi N/u ngÞÌi ó sÚ dÆng

Trang 25

hª thËng tìm ki/m thông tin + tìm cÆm t¯ “các !a i+m du l!ch t§i Hà NÎi” thìk/t qu£ tr£ v3 là nhÛng thông tin chung chung và c¶n ph£i dò tìm + nbm ÞÒccác thông tin mà mình c¶n tìm hi+u; ho>c muËn có ÞÒc câu tr£ lÌi chính xácvà chi ti/t, ngÞÌi khách c¶n tËn kinh phí + nhÌ /n s¸ giúp Ô c1a mÎt d!chvÆ nào ó PhÞÏng pháp này không th+ áp Úng nhu c¶u c1a ngÞÌi sÚ dÆng +trích xußt các thông tin nhanh, ¶y 1, hiªu qu£ t¯ mÎt t#p hÒp lÓn các tàiliªu iªn tÚ, m>c dù viªc xây d¸ng các hª thËng truy hÁi thông tin là khôngquá phÚc t§p Vì v#y, yêu c¶u >t ra là c¶n ph£i có mÎt hª thËng có kh£ n´ngkhai thác thông tin mÎt cách tr¸c ti/p hÏn, tìm ki/m cho ngÞÌi dùng câu tr£lÌi ngbn gÂn, chính xác thay vì mÎt mÎt t#p tài liªu chÚa thông tin câu tr£ lÌi,Áng thÌi £m b£o v3 m>t kinh t/ và thu#n lÒi cho viªc sÚ dÆng c1a ngÞÌi dùngÿ bßt cÚ hoàn c£nh nào.

Hª thËng h0i áp là mÎt kæ thu#t nh¨m mÆc ích tr£ v3 danh sách các câutr£ lÌi cho mÎt câu h0i ÞÒc vi/t b¨ng ngôn ngÛ t¸ nhiên trong mÎt bÎ sÞu t#plÓn các tài liªu ho>c các câu tr£ lÌi ÞÒc tr£ lÌi bÿi nhÛng ngÞÌi sÚ dÆng khác.Các hª thËng QA hiªn nay 3u cho phép bi+u diÃn câu h0i dÞÓi d§ng ngôn ngÛt¸ nhiên và cË gbng tr£ v3 các câu tr£ lÌi chính xác nhßt.

Viªc so sánh giÛa mÎt hª thËng truy hÁi thông tin thông thÞÌng và hª thËngQA ÞÒc trình bày trong B£ng 1.1 Trong hª thËng truy hÁi thông tin, truy vßn¶u vào ÞÒc th+ hiªn b¨ng ngôn ngÛ truy vßn, và ¶u ra bao gÁm mÎt danhsách các tài liªu ã x/p h§ng mà có lg có chÚa các thông tin liên quan /n truyvßn c1a ngÞÌi dùng NgÞÌi dùng sau ó sg ch!u trách nhiªm cho viªc Âc cáctài liªu + tìm các thông tin mà mình muËn Hª thËng QA thì khác vÓi truy hÁithông tin, trong ó ngÞÌi dùng ÞÒc phép gÚi câu h0i c1a mình tr¸c ti/p /n hªthËng trong ngôn ngÛ t¸ nhiên mà không c¶n ph£i d!ch nó sang mÎt sË cú pháptruy vßn Sau ó hª thËng QA sg tr£ v3 các câu tr£ lÌi cho câu h0i trong cáchình thÚc c1a mÎt câu tr£ lÌi chính xác B£ng 1.1 so sánh giÛa mÎt hª thËngtruy hÁi thông tin truy3n thËng và mÎt hª thËng QA.

B£ng 1.1: So sánh giÛa hª thËng IR và QA

Hª thËng truy hÁi thông tin (IR)Hª thËng h0iáp (QA)

DÛ liªu vàoCác t¯ khóa trình bày dÞÓi d§ng câu truy vßnCâu h0i dÞÓi d§ng ngôn ngÛ t¸ nhiênDÛ liªu raDanh sách các tài liªu liên quan /n t¯ khóaDanh sách các câu tr£ lÌi cho câu h0i

Trang 26

Nghiên cÚu v3 hª thËng QA hiªn ang thu hút s¸ quan tâm c1a rßt nhi3ucác nhà nghiên cÚu t¯ các trÞÌng §i hÂc, các viªn nghiên cÚu và c£ các doanhnghiªp lÓn trong ngành công nghª thông tin, nó có Û nghæa khoa hÂc l®n Ûnghæa th¸c tiÃn Rßt nhi3u các hÎi ngh! thÞÌng niên v3 khai phá dÛ liªu, tríchchÂn thông tin dành mÎt ch1 3 riêng cho các nghiên cÚu v3 hª thËng QA nhÞTREC, The Cross Language Evaluation Forum (CLEF1), NII Test Collectionfor Information Retrieval (NTCIR2), Semantic Evaluation (SemEval3).

Bài toán xây d¸ng hª thËng QA là mÎt bài toán khó thuÎc lænh v¸c xÚ lÛngôn ngÛ t¸ nhiên Ngôn ngÛ t¸ nhiên vËn nh#p nh¨ng, a nghæa, viªc xác !nhÞÒc ngÛ nghæa c1a câu h0i cÙng nhÞ phát hiªn ra câu tr£ lÌi là mÎt thách thÚckhông nh0 Không nhÛng v#y, giÛa câu h0i và câu tr£ lÌi còn tÁn t§i các quanhª “ng¶m” hay phÆ thuÎc vào ngÛ c£nh.

Các hª thËng QA trên th/ giÓi hiªn nay sÚ dÆng rßt nhi3u các công cÆ xÚ lÛngôn ngÛ nhÞ: BÎ gán nhãn t¯ lo§i (POS Tagger), bÎ nh#n d§ng th¸c th+ có tên(Named Entity Recognizer), bÎ phân tích ngÛ pháp (Parser) và các tài nguyênngôn ngÛ nhÞ Wordnet, Ontology + phân tích câu h0i và trích xußt câu tr£ lÌi.Các nghiên cÚu v3 hª thËng QA hiªn nay ang t#p trung vào xây d¸ng hª thËngQA có tính chính xác cao, có kh£ n´ng tr£ lÌi ÞÒc các câu h0i phÚc t§p c1angÞÌi dùng và có kh£ n´ng sÚ dÆng nguÁn tri thÚc a d§ng t¯ các chuyên gia,cÎng Áng ngÞÌi sÚ dÆng.

1.2 Phân lo§i các hª thËng h0i áp

T¯ khi ÞÒc nghiên cÚu và phát tri+n, có rßt nhi3u hª thËng QA khác nhauã ÞÒc xây d¸ng D¸a trên nghiên cÚu [55], chúng có th+ ÞÒc phân lo§i thànhcác hª thËng QA cÏ b£n là: QA d¸a trên cÏ sÿ tri thÚc, QA tr¸c quan, QA cÎngÁng Ph¶n này sg mô t£ vbn tbt v3 các hª thËng QA này cÙng nhÞ trình bàymÎt sË nghiên cÚu liên quan.

1.2.1 H0i áp d¸a trên cÏ sÿ tri thÚc

Các hª thËng h0i áp d¸a trên cÏ sÿ tri thÚc (Knowledge Base QuestionAnswering - KBQA) sÚ dÆng mô- un truy hÁi thông tin + tr£ v3 mÎt t#p các

Trang 27

tài liªu ã ÞÒc x/p h§ng trong kho lÞu trÛ mà có kh£ n´ng chÚa các câu tr£lÌi cho truy vßn c1a ngÞÌi dùng Hª thËng trích rút thông tin sÚ dÆng các kæthu#t xÚ lÛ ngôn ngÛ t¸ nhiên + phân tích câu h0i, các tài liªu tr£ v3 bÿi cáchª thËng truy hÁi thông tin và tr£ v3 các o§n v´n b£n ngbn là các câu tr£ lÌitr¸c ti/p cho câu h0i c1a ngÞÌi dùng Các cÏ sÿ tri thÚc c1a hª thËng QA nàythÞÌng là mÎt bÎ sÞu t#p rßt lÓn các tài liªu b¨ng ngôn ngÛ t¸ nhiên Tùy thuÎcvào kích thÞÓc c1a thông tin liên quan, nhi3u hª thËng QA sÚ dÆng các mô- untruy hÁi thông tin trong ki/n trúc c1a nó, vì kÇ thu#t c1a h + xÚ lÛ và lÞugiÛ thông tin theo cách cho phép truy vßn qua mÎt lÞÒng lÓn dÛ liªu ÞÒc lßyra trong mÎt thÌi gian ngbn hÒp lÛ Hª thËng truy hÁi thông tin xÚ lÛ và lÞutrÛ sË lÞÒng lÓn các thông tin phi cßu trúc, + có th+ nhanh chóng tr£ l§i cácthông tin có liên quan /n mÎt yêu c¶u nhßt !nh Hình 1.1 minh hÂa c1a mÎthª thËng KBQA.

Hình 1.1: Minh hÂa c1a mÎt hª thËng KBQA

Các hª thËng KBQA ra Ìi sÓm nhßt là BASEBALL [30] và LUNAR [92] chøÏn gi£n là các hª thËng truy vßn cÏ sÿ dÛ liªu có cßu trúc Các câu h0i ÞÒctrình bày trên các hª thËng này thÞÌng ÞÒc phân tích b¨ng các kÇ thu#t NLP,sau ó ÞÒc sÚ dÆng + xây d¸ng mÎt truy vßn cÏ sÿ dÛ liªu chu©n Hª thËngËi tho§i ELIZA [50] và GUS [8] cÙng sÚ dÆng cÏ sÿ dÛ liªu có cßu trúc nhÞ lànguÁn tri thÚc H§n ch/ chính c1a các hª thËng này là các tri thÚc ÞÒc lÞu trÛtrong cÏ sÿ dÛ liªu có cßu trúc chø có kh£ n´ng tr£ lÌi các câu h0i trong lænh v¸ch§n ch/.

MÎt sË hª thËng QA ã xây d¸ng nhÞ START [53], hª thËng QA c1a Mishravà các cÎng s¸ [67], Chung và các cÎng s¸ [15] ã sÚ dÆng web nhÞ nguÁn trithÚc cho h0i áp Hª thËng QA ÞÒc 3 xußt bÿi Chung và các cÎng s¸ [15]sÚ dÆng mô- un trích rút thông tin (Information Extraction - IE) + trích rútthông tin v3 thÌi ti/t t¯ các trang web Trên hª thËng này, các yêu c¶u c1a ngÞÌi

Trang 28

dùng ÞÒc phân tích bÿi bÎ phân tích truy vßn, công cÆ SQL sg t§o ra truy vßncó liên quan Tr£ lÌi truy vßn c1a ngÞÌi dùng ÞÒc sinh ra t¯ cÏ sÿ dÛ liªu lÞutrÛ thông tin thÌi ti/t t¯ các trang web Î chính xác (accuracy) và Î bao ph1(recall) c1a hª thËng này §t ÞÒc l¶n lÞÒt là 90,9% và 75,0% NhÛng hª thËngnày áp dÆng nhÛng công nghª t¸ Îng + lÞu trÛ thông tin t¯ các tài liªu webtrong cÏ sÿ dÛ liªu tri thÚc cÆc bÎ mà sau ó dùng + truy c#p và d¸a vào kÇthu#t ngôn ngÛ hÂc + sinh ra câu tr£ lÌi.

Hiªn nay, vÓi s¸ t´ng trÞÿng nhanh chóng c1a các kho v´n b£n tr¸c tuy/n vàdÛ liªu web ã làm cho các phÞÏng pháp thËng kê ngày càng quan trÂng hÏn.NhÛng phÞÏng pháp ti/p c#n này Þa ra các kÇ thu#t mÓi, nó không nhÛng cóth+ gi£i quy/t ÞÒc vÓi sË lÞÒng lÓn c1a dÛ liªu mà còn c£ tính không Áng nhßtc1a dÛ liªu MÎt trong nhÛng công trình tiên phong d¸a trên mô hình thËng kêlà hª thËng QA thËng kê c1a IBM [41] Hª thËng này sÚ dÆng mô hình c¸c §ihóa Entropy cho viªc phân lo§i câu h0i/câu tr£ lÌi d¸a trên các >c trÞng khácnhau n-gram ho>c bag-of-words Moschitti [70] ã sÚ dÆng bÎ phân lo§i v´n b£nRocchio và máy véc-tÏ hÈ trÒ (Support Vector Machines - SVM) + phân lo§icâu h0i và câu tr£ lÌi và ki+m tra cách ti/p c#n trên Reuters-21578 Berger vàcác cÎng s¸ [6] ã i3u tra + áp dÆng các phÞÏng pháp thËng kê cho nhiªm vÆtìm ki/m câu tr£ lÌi trong QA và phát hiªn ra r¨ng nhÛng kÇ thu#t này th¸chiªn khá tËt tùy thuÎc vào >c i+m c1a dÛ liªu cÏ b£n: kích thÞÓc t¯ v¸ng,s¸ chÁng chéo giÛa câu h0i và câu tr£ lÌi, và giÛa nhi3u câu tr£ lÌi, vv Các kÇthu#t thËng kê nhÞ khai thác n-gram, các mô hình tÞÏng t¸ câu và Î o tÞÏngt¸ Okapi BM25 ÞÒc áp dÆng cho các nhiªm vÆ tìm ki/m câu tr£ lÌi trong mÎthª thËng QA NhÛng kÇ thu#t này phân tích câu h0i và tài liªu d¸a trên các>c trÞng o s¸ giËng nhau + xác !nh tính g¶n gÙi c1a các tài liªu Úng viênho>c câu tr£ lÌi liên quan /n câu h0i Khái niªm xác minh câu tr£ lÌi cÙng cóth+ ÞÒc th¸c hiªn thông qua các ti/p c#n thËng kê Cai và các cÎng s¸ [18] d¸atrên mô hình tÞÏng t¸ câu + tính toán s¸ giËng nhau giÛa câu h0i và câu tr£lÌi Mô hình này tính toán trên các >c trÞng khác nhau nhÞ: tính tÞÏng t¸ c1at¯ khóa, tÞÏng t¸ v3 Î dài, tính giËng nhau và kho£ng cách giÛa các t¯ khoá

ÞÒc sÚ dÆng trong câu h0i và câu tr£ lÌi.

Trang 29

1.2.2 H0i áp tr¸c quan

H0i áp tr¸c quan (Visual Question Answering - VQA) ngày càng nh#n ÞÒcs¸ quan tâm c1a các nhà nghiên cÚu trong c£ lænh v¸c th! giác máy tính và xÚlÛ ngôn ngÛ t¸ nhiên Þa ra mÎt hình £nh và mÎt câu h0i b¨ng ngôn ngÛ t¸nhiên, hª thËng h0i áp òi h0i lÛ lu#n v3 các y/u tË c1a hình £nh và ki/n thÚcchung + suy lu#n ra câu tr£ lÌi úng Hình 1.2 minh hÂa c1a mÎt hª thËngVQA.

Hình 1.2: Minh hÂa c1a mÎt hª thËng VQA

H0i áp tr¸c quan òi h0i các ki/n thÚc v3 c£ th! giác máy tính và xÚ lÛ ngônngÛ t¸ nhiên Th! giác máy tính nghiên cÚu các phÞÏng pháp thu th#p, xÚ lÛ +có th+ “hi+u” ÞÒc hình £nh hay mÆc ích c1a nó là d§y máy tính “cách xem”.M>t khác, NLP là lænh v¸c liên quan /n viªc cho phép tÞÏng tác giÛa máy tínhvà con ngÞÌi b¨ng ngôn ngÛ t¸ nhiên, tÚc là d§y máy tính “cách Âc” C£ th!giác máy tính và NLP 3u thuÎc v3 lænh v¸c trí tuª nhân t§o và chúng chia s¥các phÞÏng pháp tÞÏng t¸ bbt nguÁn t¯ viªc hÂc máy Tuy nhiên, chúng có l!chsÚ phát tri+n riêng biªt C£ hai lænh v¸c ã §t ÞÒc nhÛng ti/n bÎ áng k+ ËivÓi các mÆc tiêu tÞÏng Úng c1a chúng trong vài th#p k qua, và s¸ t´ng trÞÿngbùng nÍ k/t hÒp dÛ liªu hình £nh và v´n b£n ang thúc ©y s¸ k/t hÒp c1anhÛng nÈ l¸c t¯ c£ hai lænh v¸c.

1.2.3 H0i áp cÎng Áng

Các hª thËng h0i áp d¸a trên cÎng Áng (cQA) là các hª thËng QA nhÞngsÚ dÆng nhÛng câu tr£ lÌi t¯ các chuyên gia và ngÞÌi sÚ dÆng + tr£ lÌi các câuh0i c1a ngÞÌi dùng Các hª thËng cQA ã trÿ nên ngày càng phÍ bi/n S¸ thànhcông c1a các hª thËng cQA này ch1 y/u là do ngÞÌi dùng có th+ có ÞÒc câu

Trang 30

tr£ lÌi nhanh và chính xác cho bßt kß câu h0i ngôn ngÛ t¸ nhiên nào [7] Hình1.3 là minh hÂa c1a mÎt cQA.

Hình 1.3: Minh hÂa c1a mÎt hª thËng cQA

MÎt nghiên cÚu do Bian và các cÎng s¸ [7] cho thßy ngÞÌi sÚ dÆng ti/p c#nvÓi các hª thËng cQA + lßy Û ki/n và tr£ lÌi các câu h0i phÚc t§p hÏn là các câuh0i s¸ th#t (factoid question) S¸ phát tri+n c1a các hª thËng cQA ã d®n /nviªc mÿ rÎng kho lÞu trÛ cho các câu h0i phÚc t§p và các câu tr£ lÌi c1a chúng.MÎt sË hª thËng cQA phát tri+n nhanh chóng và ÞÒc sÚ dÆng ngày càng phÍbi/n nhÞ StackOverflow, Yahoo!Answers, Quora, AskJeeves4 Các trang web nàycho phép các cá nhân ´ng câu h0i c1a h tr¸c tuy/n và nhi3u chuyên gia cÙngnhÞ ngÞÌi sÚ dÆng trên toàn c¶u sg tr£ lÌi chúng B£ng 1.2 trình bày mÎt sosánh giÛa hª thËng QA d¸a trên cÏ sÿ tri thÚc và QA d¸a trên cÎng Áng.

G¶n ây, các nghiên cÚu v3 các hª thËng cQA ã phát tri+n m§nh mg [32,33, 47, 74] H¶u h/t các hª thËng cQA sÚ dÆng ti/p c#n phân tán + xác !nhnÎi dung câu tr£ lÌi cÙng nhÞ ngÞÌi tr£ lÌi áng tin c#y Guoxin Liu [32] ãphát tri+n mÎt hª thËng QA phân tán có tên iASK iASK sÚ dÆng m§ng nÏ-rongiúp xem xét nhi3u y/u tË trong viªc ánh giá chßt lÞÒng câu tr£ lÌi c1a ngÞÌidùng Haiying Shen và các cÎng s¸ [33] ã 3 xußt mÎt hª thËng QA d¸a trênm§ng xã hÎi dùng cho các thi/t b! di Îng ( >t tên là SOS), cho phép ngÞÌidùng di Îng gÚi câu h0i /n nhÛng ngÞÌi có câu tr£ lÌi ti3m n´ng trong danhsách b§n bè c1a h Nó phÆ thuÎc vào các kÇ thu#t công nghª tri thÚc + tìm rachính xác nhÛng ngÞÌi b§n nào có kh£ n´ng và sÆn sàng tr£ lÌi các câu h0i, doó gi£m chi phí tìm ki/m và tính toán c1a các nút di Îng + xác !nh ngÞÌidùng áng tin c#y và các câu tr£ lÌi có liên quan, Park và các cÎng s¸ [74] ã 3

http://www.ask.com/

Trang 31

B£ng 1.2: B£ng so sánh giÛa hª thËng KBQA và cQA

Lo§i câu h0iCác câu h0i s¸ th#t (factoid question)Các câu h0i s¸ th#t (factoid tion) và phi s¸ th#t (non-factoid)Câu tr£ lÌiTrích rút trong kho lÞu trÛ (Cor-

ques-pora, Dictionaries, Databases, ments, )

Docu-óng góp bÿi các chuyên gia, ngÞÌisÚ dÆng cQA

Chßt lÞÒng câutr£ lÌi

Cao, câu tr£ lÌi ÞÒc trích rút t¯ cácnguÁn tài nguyên có uy tín

Khác nhau, phÆ thuÎc vào câu tr£lÌi óng góp c1a ngÞÌi dùngTính sÆn có c1a

siêu dÛ liªu

Không cóCâu tr£ lÌi tËt nhßt ÞÒc chÂn bÿingÞÌi h0i, votes bÿi ngÞÌi dùngThÌi gian chÌ

1.3 MÎt sË hª thËng cQA thông dÆng

H0i áp cÎng Áng, theo Shah và cÎng s¸ [12], bao gÁm ba thành ph¶n chính:mÎt cÏ ch/ + ngÞÌi dùng gÚi câu h0i b¨ng ngôn ngÛ t¸ nhiên, mÎt !a i+m +ngÞÌi dùng gÚi câu tr£ lÌi cho các câu h0i và cÎng Áng ÞÒc xây d¸ng xungquanh trao Íi này Nhìn vào >c i+m này, các cÎng Áng tr¸c tuy/n ã th¸chiªn chÚc n´ng tr£ lÌi câu h0i có lg t¯ s¸ ra Ìi c1a các hª thËng Usenet Vì v#ytheo mÎt nghæa nào ó cQA không có gì mÓi Tuy nhiên, các trang web dànhriêng cho cQA ã phát tri+n m§nh mg chø trong vài n´m qua Trang cQA ¶utiên là Naver Knowledge iN c1a Hàn QuËc, ra mbt vào n´m 2002 VÓi KnowledgeiN, ngÞÌi dùng có th+ >t câu h0i v3 bßt kß ch1 3 nào và chÂn câu tr£ lÌi hay

Trang 32

nhßt trong sË các câu tr£ lÌi do ngÞÌi dùng khác cung cßp, Áng thÌi có th+trao i+m cho ngÞÌi dùng Þa ra câu tr£ lÌi hay nhßt Knowledge iN ra Ìi sÓmhÏn 3 n´m so vÓi d!ch vÆ tÞÏng t¸ Yahoo!Answers c1a Yahoo và hiªn ã sÿ hÛudÛ liªu khÍng lÁ vÓi hÏn 200 triªu câu tr£ lÌi M>c dù có l!ch sÚ ngbn, nhÞngcQA ã thu hút ÞÒc rßt nhi3u s¸ chú Û t¯ các nhà nghiên cÚu ÿ nhi3u lænhv¸c khác nhau nhÞ: i3u tra hành vi tìm ki/m thông tin (information seekingbehaviors) [54], l¸a chÂn tài nguyên (selection of resources) [34], chú thích xã hÎi(social annotations) [26], so sánh vÓi các lo§i khác c1a các d!ch vÆ h0i áp [83]và mÎt lo§t các hành vi liên quan /n thông tin khác >c i+m chính c1a cáccQA là chúng d¸a vào nÎi dung do ngÞÌi dùng t§o ra thay vì nÎi dung truy3nthËng ÞÒc trích rút t¯ các kho lÞu trÛ ÞÒc xây d¸ng sÆn Ph¶n ti/p theo lu#nán sg trình bày v3 mÎt sË hª thËng cQA phÍ bi/n hiªn nay.

1.3.1 Yahoo!Answer

Yahoo! Answers là mÎt d!ch vÆ cÎng Áng tr¸c tuy/n, mÎt trang h0i áp tr¸ctuy/n ÞÒc xây d¸ng bÿi Yahoo ÞÒc ra mbt t¯ tháng 12 n´m 2005 bÿi JerryYang và David Filo Trang web này nh¨m chia s¥ ki/n thÚc qua cách h0i - ápvà cho phép ngÞÌi dùng >t các câu h0i v3 nhi3u lænh v¸c + mong nh#n ÞÒccác câu tr£ lÌi t¯ cÎng Áng ngÞÌi dùng cÙng nhÞ tr£ lÌi các câu h0i c1a nhÛngngÞÌi dùng khác Trang web cÙng cung cßp cho các thành viên cÏ hÎi + ki/mÞÒc sË i+m nhÞ mÎt cách + khuy/n khích s¸ tham gia Yahoo!Answer chophép ngÞÌi dùng >t câu h0i mÓi và óng góp câu tr£ lÌi c1a h trong bßt kßlænh v¸c quan tâm nào T¯ quan i+m c1a công nghª ngôn ngÛ, Yahoo!Answercó th+ ÞÒc coi là mÎt n3n t£ng t§o dÛ liªu khÍng lÁ Trong nhÛng n´m qua,nó ã thu hút s¸ tham gia c1a mÎt lÞÒng lÓn ngÞÌi dùng, nhÛng ngÞÌi ã ónggóp mÎt khËi lÞÒng dÛ liªu h0i- áp quan trÂng trong vô sË các mi3n.

MÈi câu h0i trong Yahoo!Answer có hai thành ph¶n: ch1 3 câu h0i ject), tÚc là ph¶n chính c1a câu h0i th+ hiªn nhu c¶u thông tin chính xác c¶nh0i và ph¶n mô t£ chi ti/t câu h0i (QBody) cung cßp ngÛ c£nh thông tin bÍsung, ví dÆ:

(QSub-(1) QSubject: What is the best affordable Italian restaurant in London?(2) QBody: I need to know where I can get great Italian food without havingto sell my house! Please, give name and address (or area) Thank you!

Sau khi ÞÒc gÚi, câu h0i ÞÒc chuy+n qua mÎt bÎ phân lo§i mi3n và trình

Trang 33

ghi chép chßt lÞÒng v´n b£n MÎt câu h0i sau ó sg ÞÒc Þa ra và ngÞÌi dùngcó th+ óng góp câu tr£ lÌi c1a h và b0 phi/u cho các câu tr£ lÌi do ngÞÌi kháccung cßp Sau ó ngÞÌi h0i có th+ chÂn "câu tr£ lÌi tËt nhßt" (BestAnswer):

(3) BestAnswer: I’d recommend Pane Vino on Kentish Town Road, NW5 right by the Kentish Town tube, Northern Line The pizza is as close to Tuscanyas you’re going to find anywhere (except Tuscany, of course).

-Khi gÚi mÎt câu h0i, ngÞÌi dùng có th+ sg ÞÒc thông báo n/u mÎt câuh0i tÞÏng t¸ ã ÞÒc h0i NgÞÌi h0i v®n có th+ gÚi câu h0i c1a riêng h vàph¶n lÓn ngÞÌi dùng làm nhÞ v#y Nó t§o ra s¸ dÞ th¯a dÛ liªu áng k+ trongYahoo!Answer, Ëi vÓi c£ câu h0i và câu tr£ lÌi.

1.3.2 StackOverflow

StackOverflow ÞÒc xây d¸ng t¯ n´m 2008 bÿi Joel Spolsky và Jeff Atwood.ây là mÎt trong nhÛng trang web v3 cQA lÓn nhßt, nÏi ngÞÌi dùng có th+chia s¥ ki/n thÚc, tìm ki/m lÌi khuyên c1a các chuyên gia v3 mÎt lo§t các ch13 trong l#p trình máy tính NgÞÌi dùng trên StackOverflow có kh£ n´ng >tcâu h0i, tr£ lÌi các câu h0i, b0 phi/u bình chÂn cho các câu h0i và mÎt sË tínhn´ng khác StackOverflow sÚ dÆng các kÇ thu#t gamification + thÞÿng i+mcho ngÞÌi dùng + th¸c hiªn các bÎ hành Îng khác nhau Ph¶n thÞÿng baogÁm tích lÙy i+m và huy hiªu danh ti/ng, khi vÞÒt qua ngÞÔng h sg ÞÒc cungcßp các >c quy3n bÍ sung.

VÓi hÏn 9 triªu ngÞÌi dùng và hÏn 16 triªu câu h0i (tính /n tháng 8 n´m 2018,https://en.wikipedia.org/wiki/StackOverflow), StackOverflow ã trÿ thành kholÞu trÛ tri thÚc khÍng lÁ MÈi câu h0i ÞÒc gbn th¥ theo mÎt ch1 3 Sáu ch1 3ÞÒc th£o lu#n nhi3u nhßt trên StackOverflow là: C#, Java, PHP, JavaScript,Android và jQuery H¶u h/t các câu h0i thÞÌng liên quan /n mÎt vßn 3 l#ptrình cÆ th+, mÎt thu#t toán ph¶n m3m ho>c các công cÆ ph¶n m3m.

MÈi ngÞÌi dùng có mÎt i+m danh ti/ng, i3u này bi+u th! mÚc Î tin tÞÿngc1a cÎng Áng Ëi vÓi ngÞÌi dùng ó MÈi câu h0i và câu tr£ lÌi có th+ ÞÒcbình chÂn tËt (up votes) ho>c không tËt (down votes) bÿi nhÛng ngÞÌi dùngkhác, nhÛng ngÞÌi c£m thßy câu h0i ho>c câu tr£ lÌi ó có hÛu ích hay không.MÈi câu h0i ã ÞÒc bình chÂn tËt ÞÒc thêm 5 i+m cho ngÞÌi h0i, trong khimÈi câu tr£ lÌi ÞÒc bình chÂn tËt làm t´ng danh ti/ng c1a ngÞÌi tr£ lÌi lên 10i+m NgÞÌi dùng mßt danh ti/ng 2 i+m khi câu tr£ lÌi b! ánh giá không tËt.

Trang 34

NgÞÌi h0i có th+ chßp nh#n mÎt trong nhÛng câu tr£ lÌi là câu tr£ lÌi tËt nhßt,sau ó danh ti/ng c1a ngÞÌi cung cßp câu tr£ lÌi tËt nhßt sg t´ng thêm 15 i+m.Ngoài ra, có mÎt giÓi h§n v3 sË phi/u bình chÂn cho mÎt ngÞÌi trong mÎt ngày.D¸a trên các i+m danh ti/ng, ngÞÌi dùng ÞÒc cung cßp các >c quy3n nhÞchønh sÚa bài ´ng, retag câu h0i, b0 phi/u + óng, mÿ l§i ho>c di chuy+n bßtkß câu h0i nào, vv B£ng 1.3 là mÎt sË thËng kê v3 dÛ liªu trên StackOverflowtính /n ngày 12/04/2015.

B£ng 1.3: ThËng kê dÛ liªu trên StackOverflowSË ngÞÌi sÚ dÆng4,2 triªu

SË câu h0i9,2 triªu: 56,76% câu h0i nh#n ÞÒc câu tr£ lÌi tËt nhßt, 11,36% câu h0ikhông nh#n ÞÒc câu tr£ lÌi

SË câu tr£ lÌi15 triªu: 33,93% câu tr£ lÌi ÞÒc chßp nh#n là câu tr£ lÌi tËt nhßt

LÞÒt bình chÂn61 triªu: 89,84% bình chÂn tËt, trung bình 2,2 bình chÂn tËt / 1 câu h0i(câu tr£ lÌi), 0,25 bình chÂn không tËt/ 1 câu h0i (câu tr£ lÌi)

SË bình lu#n37 triªu: 42,75% trên câu h0i và 57,25% trên câu tr£ lÌi.

1.3.3 Quora

Quora ÞÒc Áng sáng l#p bÿi c¸u nhân viên Facebook Adam D’Angelo vàCharlie Cheever vào tháng 6 n´m 2009 Không giËng nhÞ các trang cQA khác,nÏi tßt c£ ngÞÌi dùng tÁn t§i Îc l#p trong không gian tìm ki/m, Quora chophép ngÞÌi dùng tÞÏng tác vÓi nhau + t§o thành mÎt m§ng xã hÎi Các k/tnËi xã hÎi trong Quora ÞÒc !nh hÞÓng giËng nhÞ Twitter NgÞÌi dùng A cóth+ theo dõi ngÞÌi dùng B mà không có s¸ cho phép rõ ràng và hành Îng c1aB (câu h0i, câu tr£ lÌi, nh#n xét và ch1 3 mÓi) sg xußt hiªn trong luÁng ho§tÎng c1a A Chúng ta nói A là ngÞÌi theo dõi B và B là ngÞÌi theo dõi A Ngoàira, ngÞÌi dùng có th+ theo dõi các ch1 3 mà h quan tâm và nh#n thông tinc#p nh#t v3 các câu h0i và câu tr£ lÌi trong ch1 3 này.

MÈi ngÞÌi dùng Quora có mÎt hÁ sÏ hi+n th! thông tin c1a mình, các câu h0ivà câu tr£ lÌi trÞÓc ây, theo ch1 3 và k/t nËi xã hÎi (ngÞÌi theo dõi và theodõi ai) MÈi ngÞÌi dùng có trang "Top Stories", hi+n th! nÎi dung c#p nh#t v3các ho§t Îng g¶n ây và các câu h0i ã tham gia c1a b§n bè (ngÞÌi theo dõi),cÙng nhÞ các câu h0i g¶n ây theo ch1 3 mà h theo dõi MÎt nhóm nh0 ngÞÌi

Trang 35

dùng ã ´ng kÛ ÞÒc Quora chÂn làm ngÞÌi ánh giá và qu£n tr! viên, ÁngthÌi có quy3n gbn cÌ ho>c xóa câu tr£ lÌi và câu h0i có chßt lÞÒng thßp.

CuËi cùng, mÈi câu h0i c1a Quora 3u có trang riêng, bao gÁm danh sáchcác câu tr£ lÌi và mÎt danh sách các câu h0i liên quan NgÞÌi dùng có th+ thêmcâu tr£ lÌi mÓi và nh#n xét, chønh sÚa và b0 phi/u bình chÂn cho các câu tr£ lÌihiªn có Hình 1.4 minh hÂa c1a mÎt hª thËng cQA Quora.

Hình 1.4: Minh hÂa c1a hª thËng cQA Quora

(https://www.semanticscholar.org/paper/Wisdom-in-the-social-crowd%3A-an-analysis-of-quora-1.3.4 MÎt sË cQA ti/ng Viªt

vn.answers.yahoo.com: Yahoo ra b£n thÚ nghiªm c1a Yahoo! Answers b£nti/ng Viªt vào ngày 19 tháng 6 n´m 2007, ra b£n chính thÚc sau ó hai tu¶n( !a chø website http://vn.answers.yahoo.com) D!ch vÆ này ÞÒc tri+n khai bÿiYahoo ông Nam Á, cÆ th+ là Yahoo! Pte Ltd Singapore Yahoo! Answers hÞÓngngÞÌi dùng /n mÎt lænh v¸c c¶n thi/t nhÞng khá mÓi m¥ Ëi vÓi th! trÞÌngViªt Nam, th¸c chßt ây là s¸ phát tri+n mô hình forum lên mÚc Î cao hÏn.VÓi Yahoo! Answers, ngÞÌi dùng sg tìm thßy các ch1 3 mÓi và thú v! + hÂch0i, th£o lu#n và nh#n ÞÒc câu tr£ lÌi cho câu h0i mÎt cách nhanh chóng Chias¥ ki/n thÚc chuyên môn và ´ng câu h0i c1a ngÞÌi dùng lên cÎng Áng tr¸ctuy/n gÁm nhi3u thành viên Hiªn Yahoo! Answers ang hÞÓng ngÞÌi dùng qua26 lænh v¸c nhÞ: iªn tÚ tiêu dùng, Kinh doanh - Tài chính, Máy tính - Internet,V´n hÂc, Khoa hÂc, Toán hÂc, vv Khi ´ng câu h0i, ngÞÌi dùng không ph£i

Trang 36

chø !nh danh mÆc N/u thßy không phù hÒp, ngÞÌi dùng có th+ sÚa th¥ + Íidanh mÆc.

daynhauhoc: Daynhauhoc.com là website h0i áp ti/ng Viªt khá sôi Îngtrong nhÛng n´m g¶n ây Website này ÞÒc l#p bÿi Lê Tr¶n §t hiªn là Em-bedded Software Engineer làm viªc cho công ty Compex Systems Pte có trÆ sÿt§i Singapore Trên diÃn àn này, ngÞÌi dùng có th+ tho£i mái l#p topic bànlu#n, h0i áp thbc mbc v3 1 vßn 3 t¯ kæ thu#t, b£o m#t, ngôn ngÛ l#p trìnhcho tÓi hÞÓng nghiªp, hÂc t#p Website này cÙng giËng nhÞ Stackoverflow nhÞngvÓi phiên b£n ti/ng Viªt thân thiªn, dà sÚ dÆng hÏn.

hoidapnhanh: Hoidapnhanh.vn là cÎng Áng h0i áp, tÞ vßn, tr£ lÌi nhanhvà cung cßp các thông tin tÍng hÒp v3 tßt c£ lænh v¸c trong cuÎc sËng Trêntrang h0i áp này, ngÞÌi dùng cÙng có th+ up votes, down votes cho mÈi câu h0i,câu tr£ lÌi c1a ngÞÌi khác Ngoài ra ngÞÌi dùng có th+ gÚi bình lu#n (comment)v3 nÎi dung tr£ lÌi c1a các câu h0i MÎt sË ch1 3 nh#n ÞÒc nhi3u câu h0i nhßtnhÞ: SÚc kh0e - Y hÂc, Kinh doanh, Khoa hÂc - Giáo dÆc, Xã hÎi, vv Hiªn nay(03/2019) trang h0i áp này ã thu hút ÞÒc kho£ng 3.759 thành viên tham giacùng vÓi 16.682 câu h0i và 30.578 câu tr£ lÌi.

1.4 Tình hình nghiên cÚu v3 cQA

Trong nhÛng n´m g¶n ây, ã có rßt nhi3u các bài báo t#p trung nghiên cÚuv3 các hª thËng cQA [23, ?, 35, 56, 59, 68, 72, 73, 76, 94, 97, 101], >c biªt làchuÈi các hÎi ngh! Semantic Evaluation (SemEval) Tuy nhiên, viªc xây d¸ngcác hª thËng cQA g>p nhi3u khó kh´n do các vßn 3 v3 thÌi gian + ngÞÌi dùngnh#n ÞÒc câu tr£ lÌi cÙng nhÞ chßt lÞÒng c1a các câu tr£ lÌi Ëi vÓi vßn 3thÌi gian + ngÞÌi dùng nh#n ÞÒc câu tr£ lÌi cÙng nhÞ xác !nh ÞÒc các câuh0i trùng l>p trong các cQA có th+ gi£i quy/t thông qua viªc tìm ki/m và x/ph§ng các câu h0i trong cÏ sÿ dÛ liªu liên quan /n câu h0i mÓi Ëi vÓi vßn 3chßt lÞÒng c1a các câu tr£ lÌi có th+ ÞÒc gi£i quy/t thông qua viªc ánh giá Îphù hÒp c1a các câu tr£ lÌi trÞÓc khi hi+n th! cho ngÞÌi dùng Ph¶n ti/p theoc1a lu#n án sg trình bày mÎt sË nghiên cÚu liên quan /n viªc gi£i quy/t cácvßn 3 trên.

Trang 37

1.4.1 Các nghiên cÚu liên quan v3 tìm ki/m và x/p h§ng câu h0i

BÞÓc ¶u tiên + t¸ Îng tr£ lÌi mÎt câu h0i trên trang web cQA là truyxußt mÎt bÎ câu h0i tÞÏng t¸ vÓi câu h0i mÓi c1a ngÞÌi dùng T#p hÒp các câuh0i tÞÏng t¸ này sau ó ÞÒc x/p h§ng và sÚ dÆng + trích xußt các câu tr£ lÌicó th+ có cho câu h0i mÓi Tuy nhiên, viªc xác !nh s¸ giËng nhau giÛa câu h0imÓi và các câu h0i trong kho lÞu trÛ c1a cQA v®n là mÎt trong nhÛng tháchthÚc lÓn trong cQA do các vßn 3 nhÞ “kho£ng cách t¯ v¸ng” Có nhi3u cáchti/p c#n khác nhau ã ÞÒc 3 xußt + gi£i quy/t vßn 3 này.

PhÞÏng pháp trÞÓc ây sÚ dÆng các kÇ thu#t d!ch máy thËng kê + tính toáns¸ giËng nhau v3 ngÛ nghæa giÛa hai câu h0i Ví dÆ, các nghiên cÚu c1a Jeon vàcÎng s¸ [44] và Zhou và cÎng s¸ [108] ã sÚ dÆng mô hình d!ch + so sánh cáccâu h0i Jeon và cÎng s¸ [44] xây d¸ng các mô hình d!ch t¯ mÎt t#p hÒp các câuh0i tÞÏng t¸ ÞÒc xác !nh trÞÓc trong khi Zhou [108] áp dÆng mô hình d!chd¸a trên cÆm t¯ Các th¸c nghiªm trên t#p dÛ liªu Yahoo!Answers cho thßy cácmô hình d!ch d¸a trên cÆm t¯ cho hiªu qu£ cao hÏn mô hình d!ch d¸a trên t¯vì chúng có th+ nbm bbt thông tin theo c£ ngÛ c£nh Nghiên cÚu c1a Xue vàcÎng s¸ [93] d¸a vào các mô hình d!ch máy ã ÞÒc ào t§o + tìm ra các câuh0i tÞÏng t¸ nhÞ câu h0i ¶u vào c1a ngÞÌi dùng, m>c dù không tÞÏng thícht¯ v¸ng Bên c§nh viªc sÚ dÆng các câu h0i trong cÏ sÿ dÛ liªu, Xue và cÎngs¸ [93] cÙng xem xét sÚ dÆng câu tr£ lÌi khi th¸c hiªn các nhiªm vÆ so khÓp.Tuy nhiên, cách ti/p c#n d¸a trên vßn 3 + d!ch máy thËng kê òi h0i nhi3udÛ liªu + ÞÓc tính các tham sË.

MÎt sË nghiên cÚu khác ã cË gbng vÞÒt ra ngoài cách bi+u diÃn v´n b£n Ïngi£n c1a các câu h0i nhÞ ÞÒc trình bày trong [9, 10, 19, 45, 102] Trong nghiêncÚu c1a Cong và cÎng s¸ [9], s¸ tÞÏng Áng giÛa hai câu h0i trên Yahoo!Answersã ÞÒc tính toán sÚ dÆng mô hình ngôn ngÛ d¸a trên cßu trúc danh mÆc c1aYahoo!Answers ¶u tiên, các tác gi£ xác !nh danh mÆc cho câu h0i ¶u vào(ví dÆ: du l!ch, chính tr! ho>c giáo dÆc) và sau ó x/p h§ng các câu h0i ÞÒc lÞutrÛ trong cQA thuÎc v3 câu h0i mÓi c1a ngÞÌi dùng Trong [19], các tác gi£ tìmki/m các câu h0i ngÛ nghæa tÞÏng t¸ b¨ng cách xác !nh ch1 3 và trÂng tâmc1a câu h0i CÆ th+ hÏn, các tác gi£ tính toán s¸ giËng nhau giÛa các ch1 3 c1acâu h0i, nó §i diªn cho mËi quan tâm chung c1a ngÞÌi dùng và trÂng tâm c1acâu h0i 3 ây, các tác gi£ sÚ dÆng mô hình LDA (Latent Dirichlet Allocation)

Trang 38

+ khám phá ngÛ nghæa ti3m ©n c1a các ch1 3, t§o các c>p câu h0i/câu tr£lÌi và sÚ dÆng phân phËi ch1 3 ã hÂc + truy hÁi các câu h0i tÞÏng t¸ ChßtlÞÒng c1a danh sách x/p h§ng ÞÒc tr£ v3 bÿi tßt c£ các nghiên cÚu này ÞÒco trên mÎt t#p dÛ liªu h0i - áp t¯ Yahoo!Answers Các c>p câu h0i tÞÏngt¸ ÞÒc gán bÿi ngÞÌi dùng, ôi khi ÞÒc gán t¸ Îng d¸a trên heuristic Cácnghiên cÚu c1a Ji và cÎng s¸ [45] và Zhang [102] cÙng sÚ dÆng mô hình ch1 3+ truy xußt các câu h0i tÞÏng t¸ S¸ khác biªt c1a các nghiên cÚu này là cáctác gi£ sÚ dÆng mô hình LDA + tìm hi+u ngÛ nghæa ti3m ©n các ch1 3 t¯ cácc>p câu h0i - câu tr£ lÌi Các tác gi£ ã chÚng minh r¨ng mô hình trong nghiêncÚu này là tËt hÏn áng k+ so vÓi các mô hình ch1 3 khác ÞÒc hÂc t¯ câu h0i,câu tr£ lÌi ho>c c£ hai theo cách Ïn gi£n cÎng vÓi phÞÏng pháp truy3n thËng.Trong nghiên cÚu c1a Cao và cÎng s¸ [10], khi Þa ra câu h0i mÓi, hª thËng sgtìm và x/p h§ng các câu h0i khác theo kh£ n´ng là nhÛng 3 xußt tËt c1a câuh0i mÓi Các tác gi£ gi£i quy/t vßn 3 này theo hai bÞÓc: thÚ nhßt, các câu h0iÞÒc bi+u diÃn dÞÓi d§ng Á th! c1a các thu#t ngÛ ch1 3 và thÚ hai là x/p h§ngcác câu h0i 3 xußt d¸a trên Á th!.

Các ti/p c#n khác là d¸a trên s¸ bi+u diÃn cú pháp c1a câu h0i Trong nghiêncÚu c1a Wang và cÎng s¸ [90], các tác gi£ tìm các câu h0i liên quan /n câuh0i mÓi b¨ng cách tính toán s¸ giËng nhau giÛa các cßu trúc con chung c1acây phân tích cú pháp c1a hai câu h0i Nghiên cÚu sÚ dÆng Î tÞÏng t¸ c1acây ÞÒc tính b¨ng sË lÞÒng cßu trúc con chung giÛa hai cây và k/t qu£ thuÞÒc trong các th¸c nghiªm ã chÚng minh hiªu qu£ c1a phÞÏng pháp này Cácnghiên cÚu c1a Filice và cÎng s¸ [25] cÙng sÚ dÆng cây phân tích cú pháp S¸khác biªt là h sÚ dÆng chúng tr¸c ti/p trong mÎt h§t nhân cây, vÓi viªc sÚdÆng n3n t£ng Kelp [24] Hai mô hình sau ã ÞÒc áp dÆng trên nhiªm vÆ 3SemEval 2016 trên cQA [39] Hª thËng ho§t Îng tËt nhßt trong nhiªm vÆ nàylà c1a Salvador [78], nghiên cÚu sÚ dÆng SV Mrank [48] + tËi Þu hóa cho vßn3 x/p h§ng và sÚ dÆng nhi3u >c trÞng khác nhau, bao gÁm các >c trÞng d¸atrên t¯ v¸ng và các >c trÞng d¸a trên ngÛ nghæa Trong ó, các >c trÞng ngÛnghæa §t ÞÒc b¨ng cách sÚ dÆng s¸ bi+u diÃn phân bÍ t¯, xây d¸ng Á th! trithÚc b¨ng cách sÚ dÆng m§ng ngÛ nghæa a ngôn ngÛ lÓn nhßt BabelNet t¯ cÏsÿ dÛ liªu t¯ v¸ng FrameNet Tuy nhiên, vì dÛ liªu trong cQA là các câu h0i,câu tr£ lÌi ÞÒc gÚi bÿi ngÞÌi sÚ dÆng dÞÓi d§ng ngôn ngÛ t¸ nhiên nên chúngthÞÌng b! nhiÃu, thÞa thÓt và mÏ hÁ Do ó viªc phân tích cú pháp c1a các câu

Trang 39

h0i, câu tr£ lÌi này thÞÌng cho hiªu qu£ thßp BÍ sung thêm các >c trÞng d¸atrên t¯ v¸ng và d¸a trên ngÛ nghæa sg c£i thiªn hiªu sußt c1a hª thËng, nhÞngchúng òi h0i nhi3u phân tích ngÛ nghæa phÚc t§p trên các câu h0i, câu tr£ lÌi.G¶n ây, các phÞÏng pháp hÂc d¸a trên m§ng nÏ-ron sâu ã ÞÒc chÚngminh là hÛu ích trong hÂc máy [58] Chúng ã ÞÒc áp dÆng rßt thành côngtrong các nhiªm vÆ xÚ lÛ £nh và xÚ lÛ ti/ng nói G¶n ây hÏn, các phÞÏngpháp này cÙng ã bbt ¶u vÞÒt qua các mô hình dÛ liªu thÞa thÓt, tuy/n tínhtruy3n thËng cho NLP [27, 52] Các nghiên cÚu g¶n ây ã chø ra tính hiªu qu£c1a các mô hình m§ng cho các nhiªm vÆ: gán nhãn tu¶n t¸ [29], l¸a chÂn câutr£ lÌi [22, 84], x/p h§ng câu h0i [81] trong cQA Trong nghiên cÚu c1a DosSantos và các cÎng s¸ [81], các tác gi£ sÚ dÆng mô hình m§ng nÏ-ron tích ch#p(Convolutional Neural Networks - CNN) và s¸ bi+u diÃn túi t¯ (bag-of-word -BOW) c1a các câu h0i mÓi và câu h0i trong cÏ sÿ dÛ liªu + tính toán Î tÞÏngt¸ cosin Nghiên cÚu c1a Mitra Mohtarami [69] trình bày mÎt mô hình d¸a trênLSTM và cách bi+u diÃn túi t¯ c1a câu h0i và các câu tr£ lÌi c1a nó + ánh giás¸ liên quan c1a câu h0i và câu tr£ lÌi c1a nó Nghiên cÚu c1a Nouha Othmanvà các cÎng s¸ [72] 3 xußt phÞÏng pháp d¸a trên t#p nhúng t¯ + nbm bbtÞÒc thông tin v3 ngÛ nghæa và ngÛ c£nh c1a các câu h0i, nghiên cÚu sÚ dÆngÎ tÞÏng t¸ cosin + o Î tÞÏng t¸ giÛa các véc-tÏ câu h0i Các tác gi£ ãxây d¸ng các th¸c nghiªm trên c£ t#p dÛ liªu ti/ng Anh và ti/ng Arabic và thuÞÒc k/t qu£ tËt hÏn so vÓi nhi3u nghiên cÚu trÞÓc ó Nghiên cÚu c1a FlorianKunneman và các cÎng s¸ [56] phân tích tác Îng c1a các bÞÓc ti3n xÚ lÛ (nhÞbi/n Íi các t¯ trong câu h0i v3 chÛ thÞÌng, lo§i b0 dßu câu, lo§i b0 t¯ d¯ng)và Î tÞÏng t¸ ngÛ nghæa c1a t¯ (word2vec, fastText) Ëi vÓi viªc xác !nh ÎtÞÏng t¸ giÛa các câu h0i Các k/t qu£ th¸c nghiªm ã chÚng minh r¨ng cácbÞÓc ti3n xÚ lÛ và bi+u diÃn t¯ d¸a trên word2vec cho hiªu qu£ cao nhßt v3 i+msË F1 Nghiên cÚu c1a Mohammad Sadegh Zahedi và các cÎng s¸ [68] xây d¸ngmô hình tÍng hÒp so sánh phân cßp + truy xußt câu h0i trong cQA TrÞÓc tiênmÈi câu h0i ÞÒc chia tách thành các câu (sentence), sau ó th¸c hiªn so sánhmÂi c>p câu trong hai câu h0i sÚ dÆng mô hình so sánh mÚc t¯ Các k/t qu£th¸c nghiªm trên bÎ dÛ liªu SemEval cho thßy mô hình 3 xußt cho k/t qu£ caohÏn so vÓi mÎt sË mô hình trÞÓc ó Nghiên cÚu c1a Yue Liu và các cÎng s¸ [97]3 xußt sÚ dÆng Î phÍ bi/n c1a câu h0i trong viªc ánh giá Î tÞÏng t¸ giÛacác câu h0i Trong bài báo [73], các tác gi£ d¸a vào m§ng nÏ-ron + th+ tìm

Trang 40

hi+u các bi+u diÃn dày >c c1a dÛ liªu v´n b£n và cho phép d¸ oán s¸ tÞÏngÁng v3 v´n b£n giÛa các câu h0i cÎng Áng Nghiên cÚu 3 xußt mÎt phÞÏngpháp hÂc sâu d¸a trên ki/n trúc m§ng LSTM, ÞÒc t´ng cÞÌng vÓi cÏ ch/ chúÛ Nghiên cÚu c1a Hoogeveen và cÎng s¸ [38] 3 xußt sÚ dÆng ba bÎ phân lo§ikhác nhau (naive Bayes, SVM, CNN) K/t hÒp i+m sË c1a c£ ba bÎ phân lo§i+ x/p h§ng các câu h0i N/u có ít nhßt 2 trong sË 3 bÎ phân lo§i cho k/t qu£là “related” thì câu h0i mÓi ÞÒc là xem xét tÞÏng t¸ nhÞ câu h0i trong cÏ sÿdÛ liªu M>c dù viªc sÚ dÆng các mô hình d¸a trên CNN ã cho thßy các k/tqu£ rßt tËt trong các tác vÆ xÚ lÛ £nh và mÎt sË tác vÆ NLP khác NhÞng trongnhiªm vÆ ánh giá s¸ tÞÏng Áng giÛa các câu h0i trong cQA, h ã không §tÞÒc k/t qu£ nhÞ mong muËn, th#m chí thßp hÏn so vÓi các mô hình sÚ dÆngNLP.

G¶n ây, mÎt ti/n bÎ lÓn trong các mô hình ngôn ngÛ ã §t ÞÒc Bi+u diÃnbÎ mã hóa hai chi3u t¯ mô hình BERT [43] sÚ dÆng mô hình ngôn ngÛ ánhdßu Mô hình ngôn ngÛ thÞÌng ÞÒc tinh chønh trong nhiªm vÆ nhÞ phân lo§iv´n b£n ho>c các nhiªm vÆ v3 h0i áp Trong [91], các tác gi£ ã nghiên cÚu+ áp dÆng BERT cho ngôn ngÛ É R#p + xÚ lÛ mÎt vài nhiªm vÆ trong NLPnhÞ phân tích c£m xúc (Sentiment Analysis - SA), trích chÂn th¸c th+ có tên(Named Entity Recognition - NER), và h0i áp Các nghiên cÚu g¶n ây [1, 61]ã chø ra r¨ng viªc tinh chønh các m§ng transformers ÞÒc hußn luyªn trÞÓccó th+ làm tËt hÏn các cách ti/p c#n trÞÓc ây Ëi vÓi nhi3u nhiªm vÆ NLPkhác nhau, trong ó có nhiªm vÆ h0i áp Trong [11], các tác gi£ ã i3u traviªc sÚ dÆng mô hình ngôn ngÛ BERT ÞÒc hußn luyªn trÞÓc + gi£i quy/t cácnhiªm vÆ sinh ra câu h0i t¯ câu tr£ lÌi và ngÛ c£nh H giÓi thiªu ba ki/n trúcm§ng nÏ-ron ÞÒc xây d¸ng trên BERT cho các nhiªm vÆ sinh ra câu h0i ¶utiên là sÚ dÆng mô hình BERT Ïn gi£n, cho thßy nhÛng khi/m khuy/t c1aviªc sÚ dÆng tr¸c ti/p BERT + sinh v´n b£n Ti/p ó, h 3 xußt hai mô hìnhkhác b¨ng cách cÏ cßu l§i BERT thành mÎt cách thÚc tu¶n t¸ + lßy thôngtin t¯ các k/t qu£ ÞÒc gi£i mã trÞÓc ó Các mô hình này ÞÒc ánh giá trênt#p dÛ liªu h0i áp g¶n ây SQuAD K/t qu£ thÚ nghiªm cho thßy r¨ng môhình tËt nhßt c£i thiªn áng k+ so vÓi các mô hình trÞÓc ó trên cùng t#p dÛliªu Trong [57], các tác gi£ t#p trung vào viªc c£i ti/n mô hình BERT, gi£msË lÞÒng tham sË c1a mô hình + gi£m mÚc tiêu thÆ bÎ nhÓ và t´ng cÞÌng tËcÎ hußn luyªn c1a BERT Trong [71], các tác gi£ ã 3 xußt ba hª thËng h0i

Ngày đăng: 10/06/2024, 07:32