2.3 Ph˜Ïng pháp ti∏p c™n và ∑ xußt
2.3.5 Bi∫u diπn d¸a trên tính chßt cıa câu h‰i và câu tr£ lÌi
Ph¶n này trình bày ph˜Ïng pháp cÏ b£n ∫ bi∫u diπn Î t˜Ïng t¸ gi˙a các câu h‰i (gi˙a câu h‰i mÓi vÓi câu h‰i trong cÏ s d˙ liªu, gi˙a câu h‰i mÓi vÓi câu tr£ lÌi cıa các câu h‰i trong cÏ s d˙ liªu). Các ph˜Ïng pháp bi∫u diπn
ây d¸a trên mô hình n-gram và các tính chßt cıa câu h‰i và câu tr£ lÌi.
Bi∫u diπn d¸a trên mô hình n-gram
Trong cách bi∫u diπn này, các câu h‰i mÓi q⇤ ˜Òc k∏t nËi vÓi các câu h‰i qi
trong cÏ s d˙liªu D thành mÎt câu h‰i duy nhßt (kí hiªu là câu h‰i q). Trong mô hình n-gram, mÈi câu h‰i q ˜Òc bi∫u diπn d˜Ói d§ng véc-tÏ cıa n-gram t¯
(n = 1, 2, 3). N-gram t¯ cıa mÈi câu h‰i ˜Òc trích rút d¸a trên ng˙ c£nh cıa các t¯ cıa câu, nghæa là, các t¯ ó xußt hiªn trong mÎt câu h‰i. MÈi câu h‰i
˜Òc bi∫u diπn giËng nh˜s¸bi∫u diπn tài liªu trong mô hình không gian véc-tÏ. MÈi câu h‰i q có th∫ ˜Òc bi∫u diπn nh˜ sau:
q= (w1, w2, . . . , wm)
trong ó wi là t¶n sË xußt hiªn cıa t¯ th˘ i trong q và m là tÍng sË các t¯
trong q. Do tính th˜a thÓt cıa các ∞c tr˜ng, chø các ∞c tr˜ng có giá tr‡ khác không mÓi ˜Òc gi˙ l§i trong véc-tÏ ∞c tr˜ng. Bi v™y mÈi câu h‰i q cÙng ˜Òc bi∫u diπn d˜Ói hình th˘c sau:
q={(t1, f1), . . . ,(tp, fp)}
trong ó ti là t¯ th˘ i trong q vàfi là t¶n sË xußt hiªn cıa ti trong q.
∫ trích rút các ∞c tr˜ng n-gram, bßt kì n t¯ liên ti∏p nào trong mÈi câu h‰i ∑u ˜Òc coi là mÎt ∞c tr˜ng. B£ng 2.4 là ví dˆ v∑ s¸ bi∫u diπn n-gram t¯
B£ng 2.4: Ví dˆv∑ s¸bi∫u diπn n-gram t¯cıa câu h‰i
N-gram ∞c tr˜ng
1-gram (Unigram) {(Who, 1) (was, 1) (elected, 1) (president, 1) (of, 1) (South, 1) (Africa, 1) (in, 1) (1994, 1) (?, 1)}
2-gram (Bigram) {(Who-was, 1), (was-elected, 1), (elected-president, 1), (president-of, 1), (of-South, 1), (South-Africa, 1), (Africa-in, 1), (in-1994, 1), (1994-?, 1)} 3-gram (Trigram) {( Who-was-elected, 1), (was-elected-president, 1), . . . , (in-1994-?, 1)}
Bi∫u diπn d¸a trên tính chßt cıa câu h‰i và câu tr£ lÌi
Trong nghiên c˘u này, ∫ ánh giá Î t˜Ïng t¸ gi˙a câu h‰i mÓi q⇤ và các câu h‰i trong cÏ s d˙liªu D, lu™n án s˚dˆng mÎt sËtính chßt chung trích rút t¯ câu h‰i, câu tr£lÌi nh˜:
T lª gi˙a sË t¯ cıa q⇤ và qi: ∫ ánh giá s¸ liên quan gi˙a q⇤ và (qi,{aij})
lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sË t¯ gi˙a q⇤ và qi.
T lª gi˙a sË câu (sentence) cıaq⇤ vàqi: ∫ ánh giá s¸liên quan gi˙a q⇤ và
(qi,{aij}) lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sËcâu gi˙aq⇤ và qi.
T lª gi˙a sË t¯ cıa q⇤ và aij: ∫ ánh giá s¸ liên quan gi˙a q⇤ và (qi,{aij})
lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sË t¯ gi˙a q⇤ và aij.
T lª gi˙a sËcâu (sentence) cıaq⇤ và aij: ∫ ánh giá s¸liên quan gi˙a q⇤ và
(qi,{aij}) lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sËcâu gi˙aq⇤ và aij.
Mô hình túi t¯(bag of word): mÈi câu h‰i q⇤,qi ˜Òc bi∫u diπn d˜Ói d§ng mÎt véc-tÏ và s˚ dˆng các Î o t˜Ïng t¸ ∫ ánh giá Î giËng nhau gi˙a 2 véc-tÏ. Các câu h‰i ˜Òc lo§i b‰ các t¯ d¯ng tr˜Óc khi bi∫u diπn d˜Ói d§ng các véc-tÏ. Các Î o ˜Òc s˚ dˆng trong nghiên c˘u này bao gÁm: euclidean, manhattan, minkowski, cosine, jaccard. B£ng 2.5 là mÎt ví dˆ v∑ viªc tính toán Î giËng nhau d¸a trên mô hình túi t¯.
ChÁng chéo t¯ (word overlap): Nghiên c˘u s˚ dˆng sË l˜Òng các t¯ giËng nhau gi˙a hai câu h‰i q⇤ và qi nh˜ là mÎt giá tr‡ nh¨m ánh giá Î t˜Ïng t¸
gi˙a chúng.
ChÁng chéo danh t¯ (noun overlap). Nghiên c˘u s˚ dˆng bÎ công cˆ x˚ l˛
ngôn ng˙ t¸ nhiên (NLTK2) ∫ gán th¥ t¯ lo§i cho mÈi câu h‰i q⇤ vàqi. Sau ó sË l˜Òng các danh t¯ giËng nhau gi˙a hai câu h‰i q⇤ và qi ˜Òc s˚ dˆng nh˜ là
B£ng 2.5: Ví dˆ v∑tính toán Î t˜Ïng t¸ d¸a trên mô hình túi t¯
Câu h‰iq⇤ Câu h‰i qi Các Î o Các giá tr‡ Î o
Where i can buy good oil for massage?
hi there; i can see a lot of massage center here; but i don’t which one is better. Can someone help me which massage center is good...and how much will it cost me? thanks
euclidean 4,1231056256 manhattan 15 minkowski 2,759 cosine 0,3441156228 jaccard 0,6666666667 mÎt giá tr‡ ∞c tr˜ng nh¨m ánh giá Î t˜Ïng t¸ gi˙a chúng.
ChÁng chéo tên th¸c th∫: ∫ ánh giá s¸ liên quan gi˙a q⇤ và (qi,{aij}) lu™n án s˚dˆng thông tin là s¸ chÁng chéo tên th¸c th∫ gi˙a q⇤ và qi, gi˙aq⇤ vàaij. Lu™n án s˚ dˆng các công cˆ NLP ∫ nh™n d§ng th¸c th∫ ˜Òc ∞t tên trong
q⇤, qi và aij và tính toán sËth¸c th∫ giËng nhau gi˙a q⇤ vàqi, gi˙a q⇤ vàaij nh˜
là mÎt giá tr‡ ∞c tr˜ng nh¨m ánh giá Î t˜Ïng t¸gi˙a chúng.