2.3 Ph˜Ïng pháp ti∏p c™n và ∑ xußt
2.3.1 Mô hình tìm ki∏m và x∏p h§ng các câu h‰i
Trong cách ti∏p c™n này, lu™n án xây d¸ng mô hình mÓi cho nhiªm vˆ tìm ki∏m và x∏p h§ng các câu h‰i trong cQA. Mô hình ∑ xußt xem xét nhi∑u khía c§nh khác nhau cıa câu h‰i cÙng nh˜ câu tr£lÌi cıa các câu h‰i trong cQA ∫
có th∫ bi∫u diπn tËt hÏn Î t˜Ïng t¸ gi˙a các câu h‰i. ∫ th¸c hiªn ˜Òc i∑u này, mô hình ∑ xußt bÍ sung thêm các thành ph¶n mÓi vào mô hình chung, bao gÁm trích rút t¯khoá, lo§i câu h‰i và bi∫u diπn véc-tÏ t¯(s˚ dˆng mô hình word2vec). Mô hình tìm ki∏m và x∏p h§ng các câu h‰i trong cQA ˜Òc minh hÂa nh˜ Hình 2.1.
¶u vào cıa mô hình là câu h‰i q⇤ và các c∞p câu h‰i-câu tr£ lÌi trong cÏ s
d˙ liªu ({qi,{aij}}), trong ó mÈi câu h‰i qi gÁm nhi∑u câu tr£ lÌi aij. Mô hình khai thác nhi∑u thông tin khác nhau d¸a trên câu h‰i, câu tr£ lÌi ∫ tính toán
Hình 2.1: Mô hình tìm ki∏m và x∏p h§ng các câu h‰i
˜Òc Î t˜Ïng t¸ gi˙a q⇤ và ({qi,{aij}}). Các thông tin này bao gÁm d¸a trên viªc trích rút các t¯ (cˆm t¯) khóa (mˆc 2.3.2), thông tin d¸a trên s¸bi∫u diπn véc-tÏ t¯(word2vec) (mˆc 2.3.3), thông tin d¸a trên lo§i câu h‰i (mˆc 2.3.4) và thông tin d¸a trên tính chßt cıa câu h‰i và câu tr£ lÌi (mˆc 2.3.5). MÈi giá tr‡
t˜Ïng t¸ gi˙a q⇤ và ({qi,{aij}}) ˜Òc coi nh˜ là mÎt ∞c tr˜ng. Sau ó các ∞c tr˜ng này ˜Òc k∏t hÒp thành mÎt véc-tÏ duy nhßt và s˚dˆng làm ¶u vào cho bÎphân lo§i ∫phân lo§i các c∞p câu h‰i. BÎphân lo§i s≥ gán nhãn lo§i cho mÈi c∞p câu h‰i (q⇤, qi) các giá tr‡ 0 ho∞c 1. Trong ó nhãn 1 cho bi∏t q⇤ vàqi có liên quan, nhãn 0 cho bi∏t q⇤ và qi không liên quan. BÎ phân lo§i khi tr£ v∑ nhãn 1
Áng thÌi cÙng s≥ tr£ v∑ xác xußt liên quan ∏n giá tr‡ tin c™y (confidence) cıa quy∏t ‡nh này, xác sußt có giá tr‡ n¨m trong kho£ng (0, 1], trong ó giá tr‡ 1 cho bi∏t Î tin c™y là cao nhßt. CuËi cùng, d¸a trên các giá tr‡ xác xußt này ∫
x∏p h§ng các câu h‰i qi ( ã ˜Òc gán nhãn 1) theo Î t˜Ïng t¸ cıa nó vÓi câu h‰i mÓi q⇤.