4.3 Các ph˜Ïng pháp ti∏p c™n và ∑ xußt
4.3.1 NguÁn tri th˘c bên ngoài (External Knowledge EK)
Các ∞c tr˜ng thông th˜Ìng
d˙ liªu D, bao gÁm:
T lª gi˙a sË t¯ cıa q⇤ và qi: ∫ ánh giá s¸ liên quan gi˙a q⇤ và (qi,{aij})
lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sË t¯ gi˙a q⇤ và qi.
T lª gi˙a sË câu (sentence) cıaq⇤ vàqi: ∫ ánh giá s¸liên quan gi˙a q⇤ và
(qi,{aij}) lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sËcâu gi˙aq⇤ và qi.
T lª gi˙a sË t¯ cıaq⇤ và{aij}: ∫ ánh giá s¸ liên quan gi˙a q⇤ và(qi,{aij})
lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sË t¯ gi˙a q⇤ và {aij}.
T lª gi˙a sË câu (sentence) cıa q⇤ và {aij}: ∫ ánh giá s¸liên quan gi˙a q⇤
và (qi,{aij}) lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sË câu gi˙aq⇤ và {aij}. Mô hình túi t¯(Bag of word): bi∫u diπn mÈi q⇤, qi d˜Ói d§ng mÎt véc-tÏ và s˚
dˆng các Î o t˜Ïng t¸ ∫ ánh giá ÎgiËng nhau gi˙a 2 véc-tÏ. Tr˜Óc tiên các t¯ d¯ng ˜Òc lo§i b‰tr˜Óc khi bi∫u diπn các câu h‰i d˜Ói d§ng các véc-tÏ. Các
Î o s˚dˆng trong nghiên c˘u này bao gÁm: euclidean, manhattan, minkowski, cosine, jaccard.
ChÁng chéo t¯ (word overlap): Lu™n án s˚ dˆng sË l˜Òng các t¯ giËng nhau gi˙a hai câu h‰i q⇤ và qi nh˜ là mÎt giá tr‡ nh¨m ánh giá Î t˜Ïng t¸ gi˙a chúng.
ChÁng chéo danh t¯ (noun overlap). Lu™n án s˚ dˆng bÎ công cˆ x˚l˛ ngôn ng˙ t¸ nhiên (NLTK) ∫ gán th¥ t¯ lo§i cho mÈi câu h‰i q⇤ và qi. Sau ó s˚
dˆng sË l˜Òng các danh t¯ giËng nhau gi˙a hai câu h‰i q⇤ và qi nh˜ là mÎt giá tr‡ nh¨m ánh giá Î t˜Ïng t¸ gi˙a chúng.
ChÁng chéo tên th¸c th∫: ∫ ánh giá s¸ liên quan gi˙a q⇤ và (qi,{aij}) lu™n án s˚dˆng thông tin là s¸chÁng chéo tên th¸c th∫ gi˙aq⇤ vàqi, gi˙aq⇤ và{aij}. Các công cˆ NLP ˜Òc s˚dˆng ∫ nh™n d§ng th¸c th∫ ˜Òc ∞t tên trong q⇤, qi
và {aij} và tính toán sË th¸c th∫ giËng nhau gi˙a q⇤ và qi, gi˙a q⇤ và {aij} nh˜
là mÎt giá tr‡ nh¨m ánh giá Î t˜Ïng t¸ gi˙a chúng.
MÈi giá tr‡ trên s≥ ˜Òc s˚ dˆng nh˜ mÎt thành ph¶n cıa véc-tÏ ∞c tr˜ng làm ¶u vào cho mÎt bÎ phân lo§i. T™p ∞c tr˜ng này ˜Òc k˛ hiªu là F1.
T¯ ∫h‰i
T¯ quan sát th¸c t∏ có th∫ nh™n thßy r¨ng t¯ ∫ h‰i cıa câu h‰i cÙng cung cßp thông tin h˙u ích ∫ xác ‡nh s¸ t˜Ïng t¸ gi˙a chúng. Các t¯ ∫ h‰i cıa câu h‰i bao gÁm: “who”, “when”, “how”, “why”, “which”, “where”, và “what”. Nó có nghæa là mÈi t¯ ∫ h‰i cıa câu h‰i ‡nh nghæa mÎt lo§i ∞c tr˜ng. Nghiên c˘u
này cÙng dành mÎt lo§i cho các câu h‰i còn l§i không ch˘a các t¯ ∫ h‰i trên.
∫ xây d¸ng ∞c tr˜ng d¸a trên t¯ ∫ h‰i, mÈi t¯ ∫ h‰i s≥ ˜Òc bi∫u diπn d˜Ói d§ng mÎt véc-tÏ sË mÎt (one-hot-vector). Trong ó, kích th˜Óc t¯ v¸ng V
là sË l˜Òng t¯ ∫ h‰i. BÎ t¯ v¸ng V là: V = ("what", "who", "when", "why", "where", "which", "how"). Ví dˆ: câu h‰i vÓi t¯ ∫h‰i "who" s≥ ˜Òc bi∫u diπn d˜Ói d§ng mÎt one-hot-vector: [0, 1, 0, 0, 0, 0, 0]. Nghiên c˘u s˚ dˆng one-hot- vector này làm thông tin bÍ sung ∫ xác ‡nh s¸ giËng nhau gi˙a các câu h‰i.
∞c tr˜ng này ˜Òc k˛ hiªu là F2.
Lo§i câu h‰i (Question Category)
Lu™n án s˚ dˆng mô hình bi∫u diπn véc-tÏ t¯ ( ây là word2vec) ∫ mô hình hóa mËi quan hª ng˙ nghæa gi˙a lo§i cıa câu h‰i mÓi vÓi lo§i cıa câu h‰i trong cÏ s d˙ liªu. L˜u˛ r¨ng viªc s˚ dˆng thu™t ng˙ “lo§i câu h‰i” (question category) ∫ §i diªn cho mÎt t™p hÒp các câu h‰i có cùng nhãn lo§i. Lo§i cıa câu h‰i mÓi §t ˜Òc b¨ng cách s˚ dˆng mô- un phân lo§i câu h‰i. T™p d˙liªu
D bao gÁm các c∞p câu h‰i - câu tr£ lÌi ˜Òc trích xußt t¯ các hª thËng cQA, trong ó mÈi câu h‰i trong D ˜Òc gán mÎt nhãn lo§i. Trong D, mÈi câu h‰i ã
˜Òc gán vào mÎt trong 25 lo§i câu h‰i (ví dˆmÎt sËlo§i nh˜: “Qatari Culture”, “Working in Qatar”, “Health and Fitness”, ...). ∫ §t ˜Òc ∞c tr˜ng lo§i câu h‰i, nghiên c˘u th¸c hiªn 2 b˜Óc sau:
1. Xác ‡nh lo§i câu h‰i cho mÈi câu h‰i mÓi (s˚ dˆng mô- un phân lo§i câu h‰i).
2. Tính toán Ît˜Ïng t¸ gi˙a lo§i câu h‰i mÓi vÓi lo§i câu h‰i trong cÏ s d˙
liªu (s˚ dˆng mô- un o Î t˜Ïng t¸).
Mô- un phân lo§i câu h‰i (question categorization module).
Mô- un phân lo§i câu h‰i nh¨m phân lo§i mÈi câu h‰i mÓi q⇤ vào mÎt trong các lo§i cıa các câu h‰i trong t™p d˙ liªu D. ∫ §t ˜Òc nhãn lo§i cho câu h‰i
q⇤, nghiên c˘u th¸c hiªn theo các b˜Óc sau:
• B˜Óc 1: Chu©n b‡ t™p d˙liªu hußn luyªn bao gÁm các câu h‰i trong t™p d˙
liªu D, chúng ã ˜Òc gán nhãn lo§i (nhãn ây là lo§i câu h‰i).
• B˜Óc 3: MÎt ph˜Ïng pháp hÂc máy ( ây là bÎ phân lo§i SVM) ˜Òc s˚
dˆng ∫ xây d¸ng mô hình phân lo§i.
• B˜Óc 4: Ëi vÓi mÈi câu h‰i mÓi q⇤, tr˜Óc tiên chúng ˜Òc bi∫u diπn d˜Ói d§ng các véc-tÏ ∞c tr˜ng và s˚ dˆng mô hình phân lo§i thu ˜Òc b˜Óc th˘ ba ∫ d¸ oán nhãn cıa q⇤ (t˘c là mÎt lo§i cıa câu h‰i mÓi q⇤).
Mô-dun o Î t˜Ïng t¸(similarity measure module).
Mô- un này nh¨m mˆc ích tính toán s¸ giËng nhau gi˙a lo§i câu h‰i ¶u vào và lo§i câu h‰i trong cÏ s d˙ liªu. ∫ th¸c hiªn tính toán này, thu™t toán th¸c hiªn theo các b˜Óc sau:
• B˜Óc 1: Ëi vÓi mÈi lo§i câu h‰i, tr˜Óc tiên chúng ˜Òc bi∫u diπn d˜Ói d§ng mÎt véc-tÏ cıa các ∞c tr˜ng. MÈi t¯ trong lo§i câu h‰i s≥ ˜Òc bi∫u diπn d˜Ói d§ng mÎt véc-tÏ (s˚dˆng mô hình word2vec). Sau ó, véc-tÏ bi∫u diπn cho lo§i câu h‰i ˜Òc tính toán là trung bình cıa các véc-tÏ cıa các t¯
thành ph¶n trong lo§i câu h‰i.
• B˜Óc 2: i∫m sË t˜Ïng t¸ gi˙a lo§i cıa câu h‰i mÓi q⇤ và lo§i cıa câu h‰i trong t™p d˙ liªu ˜Òc tính toán d¸a trên Ît˜Ïng t¸cosin gi˙a hai véc-tÏ
bi∫u diπn chúng, theo công th˘c 2.1. Tuy nhiên, ây u và v là các véc-tÏ
n chi∑u bi∫u diπn cho các lo§i câu h‰i q⇤ vàqi.
Nh˜ v™y, Ëi vÓi mÈi c∞p câu h‰i mÓi - câu h‰i trong cÏ s d˙ liªu, d¸a vào danh mˆc lo§i câu h‰i thu™t toán ã xây d¸ng mÎt ∞c tr˜ng mÓi ∫ bÍ sung thông tin cho viªc xác ‡nh Î t˜Ïng t¸ gi˙a các câu h‰i. ∞c tr˜ng này ˜Òc k˛ hiªu là F3.
∞c tr˜ng d¸a trên t™p nhúng t¯
T™p nhúng t¯ là k∏t qu£ cıa mô hình hÂc bi∫u diπn véc-tÏ t¯, nó bi∫u diπn mÈi t¯bi mÎt véc-tÏ giá tr‡ th¸c trong ó mÈi thành ph¶n cıa véc-tÏ th∫ hiªn
Î t˜Ïng t¸v∑ m∞t ng˙ nghæa cıa t¯ ó vÓi các t¯ còn l§i.
Nghiên c˘u này s˚ dˆng mô hình continuous Skip-gram cıa bÎ công cˆ
word2vec ∫ sinh ra s¸ bi∫u diπn véc-tÏ cıa các t¯ trong cÏ s d˙ liªu. ¶u tiên, tßt c£ các câu trong câu h‰i mÓi và trong các câu h‰i, câu tr£ lÌi trong cÏ
các véc-tÏ t¯s˚dˆng mô hình hußn luyªn l§i word2vec. ∫ xây d¸ng các véc-tÏ
câu h‰i, véc-tÏ câu tr£ lÌi t¯ các véc-tÏ t¯ này nghiên c˘u th¸c hiªn nh˜ sau:
• MÈi câu h‰i, câu tr£ lÌi có Î dài t ˜Òc bi∫u diπn d˜Ói d§ng véc-tÏ (w1, w2, ..., wt). Trong ó wi là s¸ bi∫u diπn véc-tÏ t¯ cıa t¯ th˘ i trong câu h‰i, câu tr£lÌi. Gi£s˚ r¨ng c¶n tính toán Ît˜Ïng t¸gi˙a câu h‰i mÓi
q⇤ và câu tr£ lÌi ai. Trong ó q⇤ và ai ˜Òc bi∫u diπn nh˜ sau:
q⇤= (w1, w2, ..., wn);ai = (v1, v2, ..., vh)
• Ëi vÓi mÈi véc-tÏ t¯ trong q⇤, t˘c là vÓi mÈi wi, c¶n tìm mÎt véc-tÏ t¯ vj
trong ai mà có Ît˜Ïng t¸ cosine gi˙a wi và vj là lÓn nhßt theo công th˘c 2.2.
• CuËi cùng, i∫m sËt˜Ïng t¸ gi˙a câu h‰i mÓi q⇤ và câu tr£lÌi ai ˜Òc tính toán nh˜ công th˘c 2.3.
Th¸c hiªn t˜Ïng t¸ nh˜ trên, nghiên c˘u cÙng s≥ tính toán ˜Òc s¸ giËng nhau gi˙a câu h‰i mÓi và câu h‰i trong cÏ s d˙ liªu.
Nh˜ v™y, d¸a trên mô hình t™p nhúng t¯, nghiên c˘u ã tính toán ˜Òc mÎt bÎ ∞c tr˜ng mÓi có th∫ bÍ sung thông tin ∫ giúp xác ‡nh s¸ giËng nhau gi˙a các câu h‰i. T™p ∞c tr˜ng này ˜Òc k˛ hiªu là F4.
CuËi cùng, k∏t hÒp các t™p ∞c tr˜ng ˜Òc trích xußt nh˜ trình bày trong mˆc 4.3.1, nghiên c˘u thu ˜Òc véc-tÏ ∞c tr˜ng r ={F1, F2, F3, F4}. Véc-tÏ ∞c tr˜ng này s≥ ˜Òc s˚ dˆng nh˜ là nguÁn thông tin bÍ sung, tích hÒp trong các mô hình hÂc sâu ti∏p theo.