B˜Óc ¶u tiên ∫ t¸ Îng tr£ lÌi mÎt câu h‰i trên trang web cQA là truy xußt mÎt bÎ câu h‰i t˜Ïng t¸ vÓi câu h‰i mÓi cıa ng˜Ìi dùng. T™p hÒp các câu h‰i t˜Ïng t¸ này sau ó ˜Òc x∏p h§ng và s˚ dˆng ∫ trích xußt các câu tr£ lÌi có th∫ có cho câu h‰i mÓi. Tuy nhiên, viªc xác ‡nh s¸ giËng nhau gi˙a câu h‰i mÓi và các câu h‰i trong kho l˜u tr˙ cıa cQA v®n là mÎt trong nh˙ng thách th˘c lÓn trong cQA do các vßn ∑ nh˜ “kho£ng cách t¯ v¸ng”. Có nhi∑u cách ti∏p c™n khác nhau ã ˜Òc ∑ xußt ∫ gi£i quy∏t vßn ∑ này.
Ph˜Ïng pháp tr˜Óc ây s˚dˆng các kˇ thu™t d‡ch máy thËng kê ∫ tính toán s¸ giËng nhau v∑ ng˙nghæa gi˙a hai câu h‰i. Ví dˆ, các nghiên c˘u cıa Jeon và cÎng s¸ [44] và Zhou và cÎng s¸ [108] ã s˚ dˆng mô hình d‡ch ∫ so sánh các câu h‰i. Jeon và cÎng s¸[44] xây d¸ng các mô hình d‡ch t¯mÎt t™p hÒp các câu h‰i t˜Ïng t¸ ˜Òc xác ‡nh tr˜Óc trong khi Zhou [108] áp dˆng mô hình d‡ch d¸a trên cˆm t¯. Các th¸c nghiªm trên t™p d˙liªu Yahoo!Answers cho thßy các mô hình d‡ch d¸a trên cˆm t¯ cho hiªu qu£ cao hÏn mô hình d‡ch d¸a trên t¯
vì chúng có th∫ n≠m b≠t thông tin theo c£ ng˙ c£nh. Nghiên c˘u cıa Xue và cÎng s¸ [93] d¸a vào các mô hình d‡ch máy ã ˜Òc ào t§o ∫ tìm ra các câu h‰i t˜Ïng t¸ nh˜ câu h‰i ¶u vào cıa ng˜Ìi dùng, m∞c dù không t˜Ïng thích t¯ v¸ng. Bên c§nh viªc s˚ dˆng các câu h‰i trong cÏ s d˙ liªu, Xue và cÎng s¸ [93] cÙng xem xét s˚ dˆng câu tr£ lÌi khi th¸c hiªn các nhiªm vˆ so khÓp. Tuy nhiên, cách ti∏p c™n d¸a trên vßn ∑ ∫ d‡ch máy thËng kê òi h‰i nhi∑u d˙ liªu ∫ ˜Óc tính các tham sË.
MÎt sËnghiên c˘u khác ã cËg≠ng v˜Òt ra ngoài cách bi∫u diπn v´n b£n Ïn gi£n cıa các câu h‰i nh˜ ˜Òc trình bày trong [9, 10, 19, 45, 102]. Trong nghiên c˘u cıa Cong và cÎng s¸[9], s¸t˜Ïng Áng gi˙a hai câu h‰i trên Yahoo!Answers ã ˜Òc tính toán s˚ dˆng mô hình ngôn ng˙ d¸a trên cßu trúc danh mˆc cıa Yahoo!Answers. ¶u tiên, các tác gi£ xác ‡nh danh mˆc cho câu h‰i ¶u vào (ví dˆ: du l‡ch, chính tr‡ho∞c giáo dˆc) và sau ó x∏p h§ng các câu h‰i ˜Òc l˜u tr˙trong cQA thuÎc v∑ câu h‰i mÓi cıa ng˜Ìi dùng. Trong [19], các tác gi£tìm ki∏m các câu h‰i ng˙ nghæa t˜Ïng t¸ b¨ng cách xác ‡nh chı ∑ và trÂng tâm cıa câu h‰i. Cˆth∫ hÏn, các tác gi£tính toán s¸giËng nhau gi˙a các chı ∑cıa câu h‰i, nó §i diªn cho mËi quan tâm chung cıa ng˜Ìi dùng và trÂng tâm cıa câu h‰i.– ây, các tác gi£ s˚ dˆng mô hình LDA (Latent Dirichlet Allocation)
∫ khám phá ng˙ nghæa ti∑m ©n cıa các chı ∑, t§o các c∞p câu h‰i/câu tr£
lÌi và s˚ dˆng phân phËi chı ∑ ã hÂc ∫ truy hÁi các câu h‰i t˜Ïng t¸. Chßt l˜Òng cıa danh sách x∏p h§ng ˜Òc tr£ v∑ bi tßt c£ các nghiên c˘u này ˜Òc o trên mÎt t™p d˙ liªu h‰i - áp t¯ Yahoo!Answers. Các c∞p câu h‰i t˜Ïng t¸ ˜Òc gán bi ng˜Ìi dùng, ôi khi ˜Òc gán t¸ Îng d¸a trên heuristic. Các nghiên c˘u cıa Ji và cÎng s¸ [45] và Zhang [102] cÙng s˚ dˆng mô hình chı ∑ ∫ truy xußt các câu h‰i t˜Ïng t¸. S¸ khác biªt cıa các nghiên c˘u này là các tác gi£ s˚dˆng mô hình LDA ∫ tìm hi∫u ng˙ nghæa ti∑m ©n các chı ∑ t¯ các c∞p câu h‰i - câu tr£ lÌi. Các tác gi£ ã ch˘ng minh r¨ng mô hình trong nghiên c˘u này là tËt hÏn áng k∫ so vÓi các mô hình chı ∑ khác ˜Òc hÂc t¯câu h‰i, câu tr£lÌi ho∞c c£ hai theo cách Ïn gi£n cÎng vÓi ph˜Ïng pháp truy∑n thËng. Trong nghiên c˘u cıa Cao và cÎng s¸ [10], khi ˜a ra câu h‰i mÓi, hª thËng s≥
tìm và x∏p h§ng các câu h‰i khác theo kh£ n´ng là nh˙ng ∑ xußt tËt cıa câu h‰i mÓi. Các tác gi£gi£i quy∏t vßn ∑ này theo hai b˜Óc: th˘ nhßt, các câu h‰i
˜Òc bi∫u diπn d˜Ói d§ng Áth‡ cıa các thu™t ng˙chı ∑và th˘hai là x∏p h§ng các câu h‰i ∑ xußt d¸a trên Á th‡.
Các ti∏p c™n khác là d¸a trên s¸bi∫u diπn cú pháp cıa câu h‰i. Trong nghiên c˘u cıa Wang và cÎng s¸ [90], các tác gi£ tìm các câu h‰i liên quan ∏n câu h‰i mÓi b¨ng cách tính toán s¸ giËng nhau gi˙a các cßu trúc con chung cıa cây phân tích cú pháp cıa hai câu h‰i. Nghiên c˘u s˚ dˆng Î t˜Ïng t¸ cıa cây ˜Òc tính b¨ng sË l˜Òng cßu trúc con chung gi˙a hai cây và k∏t qu£ thu
˜Òc trong các th¸c nghiªm ã ch˘ng minh hiªu qu£cıa ph˜Ïng pháp này. Các nghiên c˘u cıa Filice và cÎng s¸ [25] cÙng s˚ dˆng cây phân tích cú pháp. S¸
khác biªt là h s˚ dˆng chúng tr¸c ti∏p trong mÎt h§t nhân cây, vÓi viªc s˚
dˆng n∑n t£ng Kelp [24]. Hai mô hình sau ã ˜Òc áp dˆng trên nhiªm vˆ 3 SemEval 2016 trên cQA [39]. Hª thËng ho§t Îng tËt nhßt trong nhiªm vˆ này là cıa Salvador [78], nghiên c˘u s˚ dˆng SV Mrank [48] ∫ tËi ˜u hóa cho vßn
∑ x∏p h§ng và s˚ dˆng nhi∑u ∞c tr˜ng khác nhau, bao gÁm các ∞c tr˜ng d¸a trên t¯ v¸ng và các ∞c tr˜ng d¸a trên ng˙nghæa. Trong ó, các ∞c tr˜ng ng˙
nghæa §t ˜Òc b¨ng cách s˚ dˆng s¸bi∫u diπn phân bÍt¯, xây d¸ng Áth‡ tri th˘c b¨ng cách s˚ dˆng m§ng ng˙ nghæa a ngôn ng˙ lÓn nhßt BabelNet t¯ cÏ
s d˙ liªu t¯ v¸ng FrameNet. Tuy nhiên, vì d˙ liªu trong cQA là các câu h‰i, câu tr£lÌi ˜Òc g˚i bi ng˜Ìi s˚ dˆng d˜Ói d§ng ngôn ng˙ t¸ nhiên nên chúng th˜Ìng b‡ nhiπu, th˜a thÓt và mÏ hÁ. Do ó viªc phân tích cú pháp cıa các câu
h‰i, câu tr£ lÌi này th˜Ìng cho hiªu qu£ thßp. BÍsung thêm các ∞c tr˜ng d¸a trên t¯ v¸ng và d¸a trên ng˙ nghæa s≥ c£i thiªn hiªu sußt cıa hª thËng, nh˜ng chúng òi h‰i nhi∑u phân tích ng˙ nghæa ph˘c t§p trên các câu h‰i, câu tr£ lÌi. G¶n ây, các ph˜Ïng pháp hÂc d¸a trên m§ng nÏ-ron sâu ã ˜Òc ch˘ng minh là h˙u ích trong hÂc máy [58]. Chúng ã ˜Òc áp dˆng rßt thành công trong các nhiªm vˆ x˚ l˛ £nh và x˚ l˛ ti∏ng nói. G¶n ây hÏn, các ph˜Ïng pháp này cÙng ã b≠t ¶u v˜Òt qua các mô hình d˙ liªu th˜a thÓt, tuy∏n tính truy∑n thËng cho NLP [27, 52]. Các nghiên c˘u g¶n ây ã chø ra tính hiªu qu£
cıa các mô hình m§ng cho các nhiªm vˆ: gán nhãn tu¶n t¸ [29], l¸a chÂn câu tr£ lÌi [22, 84], x∏p h§ng câu h‰i [81] trong cQA. Trong nghiên c˘u cıa Dos Santos và các cÎng s¸ [81], các tác gi£ s˚ dˆng mô hình m§ng nÏ-ron tích ch™p (Convolutional Neural Networks - CNN) và s¸ bi∫u diπn túi t¯ (bag-of-word - BOW) cıa các câu h‰i mÓi và câu h‰i trong cÏ s d˙ liªu ∫ tính toán Ît˜Ïng t¸cosin. Nghiên c˘u cıa Mitra Mohtarami [69] trình bày mÎt mô hình d¸a trên LSTM và cách bi∫u diπn túi t¯cıa câu h‰i và các câu tr£lÌi cıa nó ∫ ánh giá s¸ liên quan cıa câu h‰i và câu tr£ lÌi cıa nó. Nghiên c˘u cıa Nouha Othman và các cÎng s¸ [72] ∑ xußt ph˜Ïng pháp d¸a trên t™p nhúng t¯ ∫ n≠m b≠t
˜Òc thông tin v∑ ng˙ nghæa và ng˙ c£nh cıa các câu h‰i, nghiên c˘u s˚ dˆng
Î t˜Ïng t¸ cosin ∫ o Î t˜Ïng t¸ gi˙a các véc-tÏ câu h‰i. Các tác gi£ ã xây d¸ng các th¸c nghiªm trên c£ t™p d˙ liªu ti∏ng Anh và ti∏ng Arabic và thu
˜Òc k∏t qu£tËt hÏn so vÓi nhi∑u nghiên c˘u tr˜Óc ó. Nghiên c˘u cıa Florian Kunneman và các cÎng s¸[56] phân tích tác Îng cıa các b˜Óc ti∑n x˚l˛ (nh˜
bi∏n Íi các t¯ trong câu h‰i v∑ ch˙ th˜Ìng, lo§i b‰ dßu câu, lo§i b‰ t¯ d¯ng) và Î t˜Ïng t¸ ng˙ nghæa cıa t¯ (word2vec, fastText) Ëi vÓi viªc xác ‡nh Î
t˜Ïng t¸ gi˙a các câu h‰i. Các k∏t qu£ th¸c nghiªm ã ch˘ng minh r¨ng các b˜Óc ti∑n x˚l˛và bi∫u diπn t¯d¸a trên word2vec cho hiªu qu£cao nhßt v∑ i∫m sË F1. Nghiên c˘u cıa Mohammad Sadegh Zahedi và các cÎng s¸[68] xây d¸ng mô hình tÍng hÒp so sánh phân cßp ∫ truy xußt câu h‰i trong cQA. Tr˜Óc tiên mÈi câu h‰i ˜Òc chia tách thành các câu (sentence), sau ó th¸c hiªn so sánh mÂi c∞p câu trong hai câu h‰i s˚ dˆng mô hình so sánh m˘c t¯. Các k∏t qu£
th¸c nghiªm trên bÎd˙liªu SemEval cho thßy mô hình ∑ xußt cho k∏t qu£cao hÏn so vÓi mÎt sËmô hình tr˜Óc ó. Nghiên c˘u cıa Yue Liu và các cÎng s¸[97]
hi∫u các bi∫u diπn dày ∞c cıa d˙ liªu v´n b£n và cho phép d¸ oán s¸ t˜Ïng
Áng v∑ v´n b£n gi˙a các câu h‰i cÎng Áng. Nghiên c˘u ∑ xußt mÎt ph˜Ïng pháp hÂc sâu d¸a trên ki∏n trúc m§ng LSTM, ˜Òc t´ng c˜Ìng vÓi cÏ ch∏ chú
˛. Nghiên c˘u cıa Hoogeveen và cÎng s¸ [38] ∑ xußt s˚ dˆng ba bÎ phân lo§i khác nhau (naive Bayes, SVM, CNN). K∏t hÒp i∫m sË cıa c£ ba bÎ phân lo§i
∫ x∏p h§ng các câu h‰i. N∏u có ít nhßt 2 trong sË 3 bÎ phân lo§i cho k∏t qu£
là “related” thì câu h‰i mÓi ˜Òc là xem xét t˜Ïng t¸ nh˜ câu h‰i trong cÏ s
d˙ liªu. M∞c dù viªc s˚ dˆng các mô hình d¸a trên CNN ã cho thßy các k∏t qu£rßt tËt trong các tác vˆx˚l˛ £nh và mÎt sËtác vˆNLP khác. Nh˜ng trong nhiªm vˆ ánh giá s¸ t˜Ïng Áng gi˙a các câu h‰i trong cQA, h ã không §t
˜Òc k∏t qu£ nh˜ mong muËn, th™m chí thßp hÏn so vÓi các mô hình s˚ dˆng NLP.
G¶n ây, mÎt ti∏n bÎlÓn trong các mô hình ngôn ng˙ ã §t ˜Òc. Bi∫u diπn bÎ mã hóa hai chi∑u t¯ mô hình BERT [43] s˚ dˆng mô hình ngôn ng˙ ánh dßu. Mô hình ngôn ng˙ th˜Ìng ˜Òc tinh chønh trong nhiªm vˆ nh˜ phân lo§i v´n b£n ho∞c các nhiªm vˆ v∑ h‰i áp. Trong [91], các tác gi£ ã nghiên c˘u
∫ áp dˆng BERT cho ngôn ng˙ É R™p ∫ x˚ l˛ mÎt vài nhiªm vˆ trong NLP nh˜ phân tích c£m xúc (Sentiment Analysis - SA), trích chÂn th¸c th∫ có tên (Named Entity Recognition - NER), và h‰i áp. Các nghiên c˘u g¶n ây [1, 61] ã chø ra r¨ng viªc tinh chønh các m§ng transformers ˜Òc hußn luyªn tr˜Óc có th∫ làm tËt hÏn các cách ti∏p c™n tr˜Óc ây Ëi vÓi nhi∑u nhiªm vˆ NLP khác nhau, trong ó có nhiªm vˆ h‰i áp. Trong [11], các tác gi£ ã i∑u tra viªc s˚dˆng mô hình ngôn ng˙ BERT ˜Òc hußn luyªn tr˜Óc ∫ gi£i quy∏t các nhiªm vˆ sinh ra câu h‰i t¯câu tr£ lÌi và ng˙ c£nh. H giÓi thiªu ba ki∏n trúc m§ng nÏ-ron ˜Òc xây d¸ng trên BERT cho các nhiªm vˆsinh ra câu h‰i. ¶u tiên là s˚ dˆng mô hình BERT Ïn gi£n, cho thßy nh˙ng khi∏m khuy∏t cıa viªc s˚dˆng tr¸c ti∏p BERT ∫ sinh v´n b£n. Ti∏p ó, h ∑xußt hai mô hình khác b¨ng cách cÏ cßu l§i BERT thành mÎt cách th˘c tu¶n t¸ ∫ lßy thông tin t¯ các k∏t qu£ ˜Òc gi£i mã tr˜Óc ó. Các mô hình này ˜Òc ánh giá trên t™p d˙ liªu h‰i áp g¶n ây SQuAD. K∏t qu£ th˚ nghiªm cho thßy r¨ng mô hình tËt nhßt c£i thiªn áng k∫ so vÓi các mô hình tr˜Óc ó trên cùng t™p d˙
liªu. Trong [57], các tác gi£ t™p trung vào viªc c£i ti∏n mô hình BERT, gi£m sË l˜Òng tham sË cıa mô hình ∫ gi£m m˘c tiêu thˆ bÎ nhÓ và t´ng c˜Ìng tËc
áp d¸a trên transformer s˚dˆng các mô hình BERT, ALBERT và T5. Nghiên c˘u th¸c nghiªm trên t™p d˙ liªu m (COVID-19, CORD-19). Trong [99], các tác gi£phát tri∫n TransTQA, là mÎt hª thËng h‰i áp d¸a trên cÎng Áng cung cßp các câu tr£ lÌi t¸ Îng b¨ng cách truy xußt các câu tr£ lÌi thích hÒp d¸a trên các câu h‰i t˜Ïng t¸ ˜Òc tr£ lÌi úng trong quá kh˘. TransTQA ˜Òc xây d¸ng d¸a trên m§ng ALBERT, cho phép nó ph£n hÁi nhanh chóng và chính xác. Trong [64], nghiên c˘u c£i thiªn hiªu sußt các hª thËng h‰i áp d¸a trên BERT và RoBERTa b¨ng cách l˜Òc b‰ cßu trúc các thông sË t¯ mô hình transformer bên d˜Ói. Cˆ th∫, nhóm tác gi£ nghiên c˘u (1) c≠t tøa có cßu trúc ∫ gi£m sË
l˜Òng thông sË trong mÈi lÓp transformer, (2) kh£ n´ng áp dˆng cho c£ hai mô hình d¸a trên BERT và RoBERTa, (3) kh£ n´ng áp dˆng cho c£ SQuAD 2.0 và câu h‰i t¸ nhiên, và (4) k∏t hÒp c≠t tøa cßu trúc vÓi ch˜ng cßt. Trong [3], các tác gi£ ti∏p c™n vßn ∑ h‰i áp cÎng Áng ti∏ng É R™p. H ã tích hÒp các lo§i ∞c tr˜ng t˜Ïng t¸ khác nhau, ngoài viªc khám phá tác dˆng cıa viªc s˚
dˆng ti∑n x˚ l˛. HÏn n˙a, nghiên c˘u ã phát tri∫n mÎt mô hình tích hÒp m§ng nÏ-ron sâu mÓi m§ng l§i hiªu sußt tËt hÏn tr˜Óc ó. Mô hình tÍng hÒp này ˜Òc h˜ng lÒi t¯ các ∞c i∫m t˜Ïng Áng v∑ ng˙ nghæa và t¯ v¸ng. Ngoài ra, mô hình tÍng hÒp ã s˚ dˆng nh˙ng ti∏n bÎ g¶n ây trong các mô hình ngôn ng˙
s˚ dˆng mô hình BERT.