2.3 Ph˜Ïng pháp ti∏p c™n và ∑ xußt
2.3.4 Bi∫u diπn d¸a trên lo§i câu h‰i
T™p d˙ liªu D ch˘a các câu h‰i ˜Òc trích xußt t¯ các hª thËng cQA, trong ó mÈi câu h‰i trong D ã ˜Òc gán mÎt nhãn lo§i (question category). MÎt sË
nhãn lo§i cıa các câu h‰i trong D nh˜: Health and Fitness, Pets and Animals, Health and Fitness, Education, ... Lu™n án s˚dˆng mô hình bi∫u diπn véc-tÏ t¯
(t˘c là word2vec) ∫ mô hình hóa mËi quan hª ng˙ nghæa gi˙a lo§i cıa câu h‰i mÓi vÓi lo§i cıa câu h‰i trong cÏ s d˙liªu. Lo§i cıa câu h‰i mÓi §t ˜Òc b¨ng cách s˚ dˆng mô- un phân lo§i câu h‰i. Mô- un phân lo§i câu h‰i nh¨m phân lo§i mÈi câu h‰i mÓi q⇤ vào mÎt trong các lo§i cıa các câu h‰i trong t™p d˙liªu
D. ∫ §t ˜Òc lo§i cho câu h‰i q⇤, nghiên c˘u th¸c hiªn theo các b˜Óc sau:
• B˜Óc 1: chu©n b‡ t™p d˙ liªu hußn luyªn bao gÁm các câu h‰i trong t™p d˙
liªu D, chúng ã ˜Òc gán nhãn lo§i (nhãn ây là lo§i câu h‰i).
• B˜Óc 2: các câu h‰i trong t™p hußn luyªn ˜Òc bi∫u diπn d˜Ói d§ng véc-tÏ
cıa các ∞c tr˜ng.
• B˜Óc 3: mÎt ph˜Ïng pháp hÂc máy ˜Òc s˚dˆng ( ây s˚dˆng thu™t toán phân lo§i SVM) ∫ xây d¸ng mô hình phân lo§i.
CuËi cùng, ∫ th˚ nghiªm, tr˜Óc tiên các câu h‰i mÓi q⇤ ˜Òc bi∫u diπn d˜Ói d§ng véc-tÏ cıa các ∞c tr˜ng và s˚ dˆng mô hình phân lo§i §t ˜Òc b˜Óc th˘ ba ∫ d¸ oán nhãn cıa q⇤ (t˘c là mÎt nhãn lo§i cıa câu h‰i mÓi q⇤).
Î t˜Ïng t¸ gi˙a câu h‰i mÓi q⇤ vÓi lo§i cıa câu h‰i qi trong t™p d˙
liªu D.
Th˘ nhßt, tßt c£ các câu trong câu h‰i q⇤ và lo§i cıa câu h‰i qi ˜Òc phân tích thành các t¯ tË và các t¯ này ˜Òc bi∫u diπn d˜Ói d§ng các véc-tÏ t¯ s˚
dˆng mô hình word2vec.
Th˘hai, mÈi véc-tÏ t¯ trong lo§i cıa câu h‰i qi ˜Òc gióng vÓi mÎt véc-tÏ t¯
cıa câu h‰i q⇤ mà có Î t˜Ïng t¸cosine lÓn nhßt nh˜ ˜Òc tính toán theo công th˘c 2.2. CuËi cùng i∫m sËt˜Ïng t¸ gi˙a câu h‰i mÓi q⇤ vÓi lo§i cıa câu h‰i qi
trong t™p d˙ liªu D ˜Òc tính toán theo công th˘c 2.3.
Î t˜Ïng t¸gi˙a lo§i cıa câu h‰i mÓi q⇤ vÓi lo§i cıa câu h‰i qi trong t™p d˙ liªu D.
Nghiên c˘u cÙng th¸c hiªn tính toán Î t˜Ïng t¸ gi˙a lo§i cıa câu h‰i mÓi
câu h‰i cùng lo§i ho∞c g¶n lo§i thì th˜Ìng cho Î t˜Ïng t¸ lÓn hÏn các câu h‰i không cùng lo§i. Chính vì v™y ∫ xác ‡nh Ît˜Ïng t¸gi˙a hai câu h‰i, lu™n án còn d¸a trên Î t˜Ïng t¸ gi˙a hai lo§i cıa hai câu h‰i. ∫ tính toán Î t˜Ïng t¸ này, lu™n án d¸a trên s¸ bi∫u diπn véc-tÏ t¯ cıa chúng sau ó áp dˆng công th˘c 2.1.