3 Phân bÍ chßt l˜Òng các câu tr£ lÌi trên Yahoo!Answers [14]
2.7 MÎt sË thËng kê trên t™p d˙ liªu SemEval2016
D˙ liªu hußn luyªn D˙ liªu ki∫m tra TÍng sË
Câu h‰i mÓi 267 70 337
Các c∞p câu h‰i-câu tr£lÌi trong cQA 2669 - 26690 700-7000 3369-33690
sinh ra sau bÎ phân lo§i (SVM, MLP).
Ti∑n x˚ l˛ d˙ liªu
Trong b˜Óc này, mÈi câu h‰i, câu tr£ lÌi trong t™p d˙ liªu ˜Òc thao tác b¨ng cách áp dˆng các b˜Óc ti∑n x˚l˛. Giai o§n ti∑n x˚l˛ ˜Òc s˚ dˆng trong nghiên c˘u này bao gÁm h¶u h∏t các nhiªm vˆ ti∑n x˚ l˛ ˜Òc s˚ dˆng trong NLP [51], ó là: tách t¯(phân tích các câu h‰i, câu tr£lÌi thành các t¯, cˆm t¯
ho∞c k˛ hiªu, các t¯tË); g≠n th¥ t¯ lo§i (gán th¥ t¯lo§i cho mÈi t¯ho∞c t¯ tË, chØng h§n nh˜ danh t¯, Îng t¯, tính t¯, vv); stemming (là quá trình ∫ gi£m ho∞c bi∏n Íi các t¯ ã chuy∫n sang d§ng khác v∑ các t¯ cÏ s ho∞c t¯ gËc, ví dˆ chuy∫n Íi các t¯ “flew” và “flying” v∑ t¯ gËc “fly”); chuy∫n Íi v∑ d§ng ch˙
th˜Ìng.
2.4.2 Cài ∞t th¸c nghiªm
∫ bi∫u diπn các t¯ d˜Ói d§ng các véc-tÏ s˚ dˆng mô hình word2vec, lu™n án s˚ dˆng các véc-tÏ ˜Òc hußn luyªn tr˜Óc trên mÎt ph¶n cıa t™p d˙ liªu Google Tin t˘c (kho£ng 100 t t¯). Mô hình ch˘a các véc-tÏ 300 chi∑u cho 3 triªu t¯ và cˆm t¯. Các véc-tÏ này ˜Òc l˜u tr˙ và có sÆn t§i GoogleNews- vectors-negative300.bin.gz6.
BÎ phân lo§i SVM s˚ dˆng trong các th¸c nghiªm d˜Ói ây là SVMlin ˜Òc công bËbi Vikas Sindhwani. ây là gói ph¶n m∑m dành cho bài toán phân lÓp mÎt sË lÓn các m®u d˙ liªu và các ∞c tr˜ng. Là ch˜Ïng trình ph¶n m∑m ˜Òc vi∏t trên ngôn ng˙C++ (h¶u h∏t ˜Òc vi∏t trên C). Ng˜Ìi dùng có th∫t£i phiên b£n cıa SVMlin t§i ‡a chø: http://vikas.sindhwani.org/svmlin.html. Trong các th¸c nghiªm, bÎ phân lo§i SVM ˜Òc cài ∞t s˚ dˆng hàm nhân RBF (Radial Basis Function - hàm cÏ s xuyên tâm). ∫ có ˜Òc k∏t qu£ cao nhßt, các th¸c nghiªm cÙng i∑u chønh tham sË gamma ( ) cıa hàm nhân RBF và h¨ng sË C (tham sË ph§t) d¸a trên viªc ki∫m tra chéo t¯ t™p d˙ liªu hußn luyªn. BÎtham
sË tËi ˜u tìm ˜Òc là = 0,01 và C = 100.
BÎphân lo§i MLP gÁm có t¶ng ¶u vào là mÎt véc-tÏ các giá tr‡ ∞c tr˜ng ã
˜Òc trích rút nh˜ trong ph¶n 2.3 (không s˚ dˆng các véc-tÏ n-gram t¯). T¶ng
©n th˘ nhßt có sË nÏ-ron là 40 (b¨ng vÓi kích th˜Óc cıa véc-tÏ ¶u vào), t¶ng này s˚ dˆng hàm kích ho§t ReLU và tø lª b‰ hÂc (dropout rate) là 0,2. T¶ng
©n th˘ hai có sË nÏ-ron là 24 t¶ng này s˚ dˆng hàm kích ho§t ReLU và tø lª
b‰ hÂc (dropout rate) là 0,2. T¶ng ¶u ra ch˘a 1 nÏ-ron ∫ sinh ra i∫m sË d¸
oán, t¶ng này s˚ dˆng hàm kích ho§t sigmoid ¶u ra ∫ sinh ra các giá tr‡
n¨m trong kho£ng t¯ 0 ∏n 1.
2.4.3 K∏t qu£ th¸c nghiªm
Lu™n án ti∏n hành các th¸c nghiªm vÓi viªc s˚ dˆng các ph˜Ïng pháp khác nhau ∫ bi∫u diπn Ît˜Ïng t¸gi˙a câu h‰i mÓi và các câu h‰i, câu tr£lÌi trong cÏ s d˙ liªu D. Sau khi tính toán ˜Òc Î t˜Ïng t¸, các giá tr‡ này ˜Òc k∏t hÒp vÓi nhau và ˜Òc bi∫u diπn d˜Ói các ‡nh d§ng phù hÒp vÓi các yêu c¶u cıa các bÎ phân lo§i. Các th¸c nghiªm ˜Òc ti∏n hành nh˜ sau:
Th¸c nghiªm 1.
Th¸c nghiªm này nh¨m ki∫m tra hiªu sußt cıa mô hình khi bi∫u diπn Î
t˜Ïng t¸ gi˙a các câu h‰i s˚ dˆng mô hình n-gram. Các c∞p câu h‰i mÓi và câu h‰i trong cÏ s d˙ liªu ˜Òc bi∫u diπn d˜Ói d§ng véc-tÏ cıa các ∞c tr˜ng n-gram, sau ó bÎ phân lo§i SVM ˜Òc s˚ dˆng ∫ phân lo§i các c∞p câu h‰i này và sau ó s˚ dˆng các i∫m sË d¸ oán ∫ x∏p h§ng các câu h‰i qi theo Î
liên quan cıa nó vÓi câu h‰i mÓi. CuËi cùng, k∏t qu£ phân lo§i và x∏p h§ng các câu h‰i trong cÏ s d˙ liªu theo Î liên quan cıa nó vÓi câu h‰i mÓi ˜Òc trình bày trong B£ng 2.8.
B£ng 2.8: Các k∏t qu£ phân lo§i và x∏p h§ng cıa th¸c nghiªm 1
N-gram t¯ Các Î o phân lo§i Các Î o x∏p h§ng
Acc P R F1 MAP AveRec MRR
1-gram (Unigram) 62,43 42,02 33,91 37,53 55,98 76,22 61,85 2-gram (Bigram) 61,43 39,66 30,47 34,47 53,33 72,72 57,07 3-gram (Trigram) 64,29 44,97 32,62 37,81 53,69 73,31 56,49
Th¸c nghiªm này nh¨m ki∫m tra hiªu sußt cıa mô hình khi bi∫u diπn Î
t˜Ïng t¸gi˙a câu h‰i mÓi vÓi các câu h‰i trong cÏ s d˙liªu d¸a trên tính chßt cıa câu h‰i và câu tr£ lÌi. Trong th¸c nghiªm này, lu™n án s˚ dˆng c£ hai bÎ
phân lo§i SVM và MLP ∫ phân lo§i các câu h‰i qi và sinh ra i∫m sË d¸ oán
∫ x∏p h§ng. Cßu hình cıa MLP ã ˜Òc mô t£ trong ph¶n 2.3.6. Các k∏t qu£
th¸c nghiªm ˜Òc trình bày trong B£ng 2.9 (k∏t qu£s˚ dˆng bÎphân lo§i MLP
˜Òc ∞t trong ngo∞c Ïn).
B£ng 2.9: Các k∏t qu£ phân lo§i và x∏p h§ng cıa th¸c nghiªm 2
Bi∫u diπn Ît˜Ïng t¸d¸a trên
Các Î o phân lo§i Các Î o x∏p h§ng
Acc P R F1 MAP AveRec MRR
Tính chßt cıa câu h‰i (QP) 78,86 (78,29) 68,09 (70,39) 68,67 (66,40) 68,38 (68,33) 76,90 (76,27) 90,66 (90,11) 84,69 (83,15) Tính chßt cıa câu tr£ lÌi (AP) 76,14 (76,00) 63,41 (57,94) 66,95 (65,85) 65,14 (61,64) 74,69 (71,27) 89,55 (88,02) 80,40 (76,75) QP, AP 78,86 (79,14) 67,63 (65,67) 69,96 (69,86) 68,78 (67,70) 77,53 (75,53) 90,86 (90,12) 83,98 (81,57) Th¸c nghiªm 3.
Trong th¸c nghiªm này, lu™n án s˚ dˆng nh˙ng ∞c tr˜ng nh˜ trong th¸c nghiªm 2 nh˜ng bÍ sung thêm các ∞c tr˜ng mÓi d¸a trên mô hình bi∫u diπn véc-tÏ t¯(s˚dˆng công cˆword2vec) ∫ bi∫u diπn câu h‰i và câu tr£lÌi. Nghiên c˘u cÙng th¸c hiªn hai ph˜Ïng pháp khác nhau ∫ xây d¸ng véc-tÏ tÍng hÒp cho các câu h‰i và câu tr£ lÌi t¯ s¸ bi∫u diπn véc-tÏ cıa các t¯ trong câu h‰i, câu tr£ lÌi. K∏t qu£cıa th¸c nghiªm này ˜Òc th∫ hiªn trong B£ng 2.10.
B£ng 2.10: Các k∏t qu£ phân lo§i và x∏p h§ng cıa th¸c nghiªm 3
Bi∫u diπn Ît˜Ïng t¸d¸a trên
Các Î o phân lo§i Các Î o x∏p h§ng
Acc P R F1 MAP AveRec MRR
QP, AP, Bi∫u diπn véc-tÏ t¯(WVR) (Ph˜Ïng pháp 1) 80,71 (80,86) 70,59 (67,38) 72,10 (73,02) 71,34 (70,09) 78,21 (75,91) 92,12 (90,73) 85,64 (81,69) QP, AP, Bi∫u diπn véc-tÏ t¯(WVR) (Ph˜Ïng pháp 2) 81,57 (81,86) 71,49 (69,53) 74,25 (74,31) 72,84 (71,84) 77,64 (77,99) 91,72 (91,68) 84,93 (86,23)
Th¸c nghiªm 4.
Th¸c nghiªm th˘ t˜ muËn ki∫m tra tính hiªu qu£ cıa mô hình khi bÍ sung thêm các ∞c tr˜ng trích rút t¯lo§i câu h‰i. Tr˜Óc tiên mÈi câu h‰i mÓi q⇤ ˜Òc phân lo§i vào mÎt trong nh˙ng lo§i câu h‰i cıa các câu h‰i trong t™p d˙liªu D. Nghiên c˘u gi£ ‡nh r¨ng các câu h‰i trong cùng mÎt lo§i th˜Ìng có Î t˜Ïng t¸ lÓn hÏn các câu h‰i trong các lo§i khác nhau. Ti∏p theo, chúng tôi bi∫u diπn
Î t˜Ïng t¸ gi˙a q⇤ vÓi các câu h‰i trong cÏ s d˙ liªu d¸a trên các lo§i câu h‰i mÓi và các lo§i câu h‰i trong cÏ s d˙ liªu. Các giá tr‡ Î o t˜Ïng t¸ mÓi này ˜Òc k∏t hÒp vÓi các Î o t˜Ïng t¸nh˜ trong th¸c nghiªm 3 và ˜Òc bi∫u diπn d˜Ói d§ng mÎt véc-tÏ ∞c tr˜ng duy nhßt làm ¶u vào cho các bÎ phân lo§i. CuËi cùng th¸c nghiªm này thu ˜Òc các k∏t qu£nh˜ ˜Òc trình bày trong B£ng 2.11.
B£ng 2.11: Các k∏t qu£ phân lo§i và x∏p h§ng cıa th¸c nghiªm 4
Bi∫u diπn Î t˜Ïng t¸d¸a trên
Các Î o phân lo§i Các Î o x∏p h§ng
Acc P R F1 MAP AveRec MRR
QP, AP, WVR (Ph˜Ïng pháp 1), lo§i câu h‰i(QC) 80,86 (81,57) 72,20 (69,10) 69,10 (73,85) 70,61 (71,40) 78,27 (76,45) 92,14 (91,08) 85,64 (84,37) QP, AP, WVR (Ph˜Ïng pháp 2), lo§i câu h‰i(QC) 81,86 (82,29) 73,25 (70,39) 71,67 (74,89) 72,45 (72,57) 77,75 (78,35) 91,81 (91,93) 85,64 (86,23) 2.4.4 ánh giá các k∏t qu£ th¸c nghiªm
T¯các k∏t qu£cıa th¸c nghiªm 1 có th∫ nh™n thßy khi chø s˚dˆng mô hình n-gram ∫ bi∫u diπn mËi quan hª gi˙a câu h‰i mÓi vÓi các câu h‰iqi cho k∏t qu£
phân lo§i và x∏p h§ng không cao. Th¸c nghiªm này chø §t k∏t qu£cao nhßt vÓi các Î o Accuracy và M AP l¶n l˜Òt là 64,29% và 55,98%. T¯ ó có th∫ thßy chø d¸a trên mô hình n-gram ch˜a bi∫u diπn ˜Òc ¶y ı Î t˜Ïng t¸ gi˙a các câu h‰i. Trong th¸c nghiªm 2, s˚ dˆng s¸ bi∫u diπn d¸a trên tính chßt cıa các câu h‰i và câu tr£ lÌi nh˜ danh t¯, Îng t¯, tính t¯, tên th¸c th∫, chÁng chéo n-gram t¯, vv. Các k∏t qu£ phân lo§i và x∏p h§ng ˜Òc th∫ hiªn trong B£ng 2.10 cho thßy mô hình bi∫u diπn này cıa câu h‰i và câu tr£lÌi cho k∏t qu£ phân lo§i và x∏p h§ng cao hÏn khi chø s˚ dˆng mô hình bi∫u diπn n-gram t¯. Th¸c nghiªm này ã s˚ dˆng c£hai bÎ phân lo§i SVM và MLP. Th¸c nghiªm ã §t
˜Òc k∏t qu£ phân lo§i và x∏p h§ng cao vÓi các Î o Accuracy t´ng 14,85% và
M AP t´ng 21,55% so vÓi khi chø s˚dˆng mô hình bi∫u diπn n-gram.
Trong th¸c nghiªm 3, ã s˚dˆng thêm s¸bi∫u diπn véc-tÏ t¯cıa c£ câu h‰i và câu tr£lÌi. Trong cách bi∫u diπn này, lu™n án s˚dˆng hai ph˜Ïng pháp khác nhau ∫ xây d¸ng véc-tÏ câu h‰i, véc-tÏ câu tr£ lÌi t¯ s¸ bi∫u diπn véc-tÏ t¯. K∏t qu£ th¸c nghiªm này cho thßy r¨ng cách xây d¸ng các véc-tÏ tÍng hÒp cho các câu h‰i, câu tr£lÌi s˚dˆng ph˜Ïng pháp 2 cho các k∏t qu£phân lo§i và x∏p h§ng cao hÏn ph˜Ïng pháp 1. Áng thÌi các k∏t qu£cıa th¸c nghiªm này cÙng t´ng lên áng k∫ so vÓi khi chø s˚ dˆng s¸bi∫u diπn d¸a trên tính chßt cıa câu h‰i và câu tr£ lÌi nh˜ trong th¸c nghiªm 2. Các Î o Accuracy và M AP t´ng l¶n l˜Òt là 2,71% và 0,46%.
Th¸c nghiªm 4 cÙng th¸c hiªn nh˜ trong th¸c nghiªm 3 nh˜ng có bÍ sung thêm s¸ bi∫u diπn Î t˜Ïng t¸ gi˙a câu h‰i mÓi vÓi các câu h‰i qi d¸a trên lo§i câu h‰i. Các k∏t qu£ cıa th¸c nghiªm này cho trong B£ng 2.11 cho thßy mô hình ∑ xußt trong lu™n án này (s˚dˆng mô un phân lo§i câu h‰i) cho k∏t qu£
cao hÏn, c£ các Î o phân lo§i và x∏p h§ng. K∏t qu£ cıa th¸c nghiªm 4 cho thßy các Î o Accuracy và M AP t´ng t˜Ïng ˘ng là 0,43% và 0,14% so vÓi các k∏t qu£ cıa th¸c nghiªm 3.
Hình 2.2 so sánh các k∏t qu£ th¸c nghiªm cıa lu™n án vÓi viªc xây d¸ng các mô hình khác nhau: s˚dˆng mô- un phân lo§i câu h‰i và không s˚dˆng mô- un phân lo§i câu h‰i. T¯ Hình 2.2 cho thßy khi s˚ dˆng mô hình vÓi mô- un phân lo§i câu h‰i s≥ cho k∏t qu£phân lo§i và x∏p h§ng cao hÏn mô hình mà không s˚
dˆng mô un phân lo§i câu h‰i.
Hình 2.2: So sánh k∏t qu£ mô hình có và không có mô- un phân lo§i câu h‰iLu™n án cÙng th¸c hiªn so sánh các k∏t qu£th¸c nghiªm khi s˚dˆng các bÎ Lu™n án cÙng th¸c hiªn so sánh các k∏t qu£th¸c nghiªm khi s˚dˆng các bÎ
phân lo§i SVM và MLP. Hình 2.3 so sánh k∏t qu£ phân lo§i (Accuracy) và k∏t qu£ x∏p h§ng (M AP). T¯ Hình 2.3 và cho thßy s˚ dˆng bÎ phân lo§i MLP s≥
cho k∏t qu£ cao hÏn so vÓi viªc s˚ dˆng bÎ phân lo§i SVM.
Hình 2.3:So sánh Î o phân lo§i (Accuracy) và Î o x∏p h§ng (M AP) khi s˚dˆng các bÎ phân lo§i khác nhau
So sánh vÓi các k∏t qu£ nghiên c˘u khác: Các k∏t qu£ cıa các th¸c nghiªm trên cÙng ˜Òc so sánh vÓi các k∏t qu£ cıa các mô hình tËt nhßt cıa các nghiên c˘u khác trong cùng nhiªm vˆ, các Î o ánh giá và t™p d˙ liªu. Các k∏t qu£ so sánh này ˜Òc th∫ hiªn nh˜ trong B£ng 2.12.
B£ng 2.12: So sánh vÓi các nghiên c˘u khác
Các mô hình Các Î o phân lo§i Các Î o x∏p h§ng
Acc P R F1 MAP AveRec MRR
ConvKN-primary [2] 78,71 68,58 66,52 67,54 76,02 90,70 84,64 Kelp-primary [25] 79,43 66,79 75,97 71,08 75,83 91,02 82,71 UH-PRHLT-primary [78] 76,70 63,60 70,40 66,80 77,33 90,80 84,00 Mô hình trong lu™n án (SVM) 81,86 73,25 71,67 72,45 78,27 92,14 85,64 Mô hình trong lu™n án (MLP) 82,29 70,39 74,89 72,57 78,35 91,93 86,23
T¯ b£ng so sánh 2.12 cho thßy mô hình ∑ xußt trong lu™n án này cho k∏t qu£ cao nhßt trong c£ Î o phân lo§i (Accuracy) và x∏p h§ng (M AP) so vÓi các nghiên c˘u trong b£ng. ∫ x∏p h§ng l§i các câu h‰i theo Î liên quan cıa chúng vÓi câu h‰i mÓi nghiên c˘u [2] ã s˚ dˆng bÎphân lo§i nh‡ phân SVM và s˚ dˆng i∫m cıa nó làm th˜Óc o m˘c Îliên quan. BÎphân lo§i s˚dˆng các h§t nhân cây (tree kernels) ˜Òc ‡nh nghæa trên các cây cú pháp, cùng vÓi các
nh‡ phân và s˚ dˆng bÎ phân lo§i SVM ∫ phân lo§i các c∞p câu h‰i. Ngoài các
∞c tr˜ng cÏ b£n, nghiên c˘u còn s˚ dˆng các ∞c tr˜ng trích rút t¯ cây phân tích cú pháp cıa câu. Trong nghiên c˘u [78], các tác gi£ s˚ dˆng SV Mrank [48]
∫ tËi ˜u hóa cho vßn ∑ x∏p h§ng và s˚ dˆng nhi∑u ∞c tr˜ng khác nhau, bao gÁm các ∞c tr˜ng d¸a trên t¯ v¸ng và các ∞c tr˜ng d¸a trên ng˙ nghæa ˜Òc trích rút t¯ các câu h‰i. Do d˙ liªu trong cQA là các câu h‰i, câu tr£ lÌi ˜Òc g˚i bi ng˜Ìi s˚ dˆng d˜Ói d§ng ngôn ng˙ t¸nhiên nên chúng th˜Ìng b‡ nhiπu, th˜a thÓt và mÏ hÁ. Do ó viªc chø d¸a vào các câu h‰i s≥ ch˜a có thông tin ¶y
ı ∫ xác ‡nh s¸ giËng nhau gi˙a chúng. Các mô hình ∑ xußt trong ch˜Ïng này ã khai thác thêm các thông tin t¯lo§i câu h‰i, câu tr£ lÌi cıa các câu h‰i cùng vÓi s¸ bi∫u diπn véc-tÏ t¯ mÎt cách hiªu qu£ giúp xác ‡nh chính xác hÏn
Î t˜Ïng t¸gi˙a các câu h‰i.
2.5 K∏t lu™n ch˜Ïng
Ch˜Ïng này ã trình bày nh˙ng nÎi dung, k∏t qu£ nghiên c˘u v∑ bài toán tìm ki∏m và x∏p h§ng các câu h‰i trong cÏ s d˙ liªu liên quan ∏n câu h‰i mÓi trong các cQA. Nghiên c˘u ã xây d¸ng mô hình mÓi cho k∏t qu£cao hÏn trong c£ Î o phân lo§i (Accuracy) và x∏p h§ng (M AP) so vÓi mÎt sË mô hình tr˜Óc ó trên cùng nhiªm vˆ và t™p d˙ liªu. Các ph˜Ïng pháp ∑ xußt trong ch˜Ïng này có nh˙ng ˜u i∫m sau:
• Th˘nhßt: Nghiên c˘u ã s˚dˆng mÎt cách hiªu qu£hÏn mô hình bi∫u diπn véc-tÏ t¯ ( ây là word2vec) ∫ bi∫u diπn véc-tÏ tÍng hÒp cho câu h‰i và câu tr£lÌi, t¯ ó ã tính toán ˜Òc chính xác hÏn Ît˜Ïng t¸ gi˙a câu h‰i mÓi vÓi các câu h‰i trong cÏ s d˙ liªu.
• Th˘ hai: Viªc s˚ dˆng mô- un phân lo§i câu h‰i ã bÍ sung thêm thông tin ∫ có th∫ bi∫u diπn tËt hÏn Ît˜Ïng t¸ gi˙a câu h‰i mÓi vÓi các câu h‰i trong cÏ s d˙ liªu. Nghiên c˘u cÙng xem xét nhi∑u khía c§nh khác nhau cıa câu h‰i và câu tr£lÌi, s˚dˆng nhi∑u ph˜Ïng pháp bi∫u diπn khác nhau có th∫ xác ‡nh tËt hÏn s¸ giËng nhau gi˙a câu h‰i mÓi vÓi các câu h‰i trong cÏ s d˙ liªu.
M∞c dù mô hình ã §t ˜Òc k∏t qu£cao hÏn so vÓi mÎt sËnghiên c˘u tr˜Óc ó, nh˜ng mô hình v®n còn h§n ch∏ khi ch˜a lo§i b‰ ˜Òc các câu tr£lÌi nhiπu.
Trong mô hình v®n s˚ dˆng toàn bÎ các câu tr£ lÌi cıa câu h‰i trong cÏ s d˙
liªu QA ∫ tính toán Î t˜Ïng t¸ vÓi câu h‰i mÓi. Trong khi th¸c t∏ nhi∑u câu tr£lÌi không có giá tr‡ (không ph£i là câu tr£lÌi úng cho câu h‰i). Khi ó viªc tính toán Î t˜Ïng t¸ gi˙a câu h‰i mÓi vÓi các câu tr£ lÌi cıa câu h‰i trong cÏ
s d˙ liªu không bÍ sung ˜Òc nhi∑u thông tin cho viªc ánh giá Î t˜Ïng t¸
gi˙a hai câu h‰i.
Các k∏t qu£ nghiên c˘u liên quan ∏n ch˜Ïng này ã ˜Òc công bË t§i các công trình [1, 2, 5]. Trong ó mô hình trong bài báo [5] ã i∑u tra các khía c§nh khác nhau ∫ hi∫u các câu h‰i. Bên c§nh các ∞c tr˜ng truy∑n thËng d¸a trên mô hình n-gam, bài báo s˚ dˆng các khía c§nh hiªu qu£ hÏn bao gÁm t™p nhúng t¯ và các lo§i câu h‰i. Bài báo s˚ dˆng mô hình bi∫u diπn t¯ ∫ t§o t™p