Bi∫u diπn d¸a trên lo§i câu h‰i

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 68 - 69)

2.3 Ph˜Ïng pháp ti∏p c™n và ∑ xußt

2.3.4 Bi∫u diπn d¸a trên lo§i câu h‰i

T™p d˙ liªu D ch˘a các câu h‰i ˜Òc trích xußt t¯ các hª thËng cQA, trong ó mÈi câu h‰i trong D ã ˜Òc gán mÎt nhãn lo§i (question category). MÎt sË

nhãn lo§i cıa các câu h‰i trong D nh˜: Health and Fitness, Pets and Animals, Health and Fitness, Education, ... Lu™n án s˚dˆng mô hình bi∫u diπn véc-tÏ t¯

(t˘c là word2vec) ∫ mô hình hóa mËi quan hª ng˙ nghæa gi˙a lo§i cıa câu h‰i mÓi vÓi lo§i cıa câu h‰i trong cÏ s d˙liªu. Lo§i cıa câu h‰i mÓi §t ˜Òc b¨ng cách s˚ dˆng mô- un phân lo§i câu h‰i. Mô- un phân lo§i câu h‰i nh¨m phân lo§i mÈi câu h‰i mÓi q⇤ vào mÎt trong các lo§i cıa các câu h‰i trong t™p d˙liªu

D. ∫ §t ˜Òc lo§i cho câu h‰i q⇤, nghiên c˘u th¸c hiªn theo các b˜Óc sau:

• B˜Óc 1: chu©n b‡ t™p d˙ liªu hußn luyªn bao gÁm các câu h‰i trong t™p d˙

liªu D, chúng ã ˜Òc gán nhãn lo§i (nhãn  ây là lo§i câu h‰i).

• B˜Óc 2: các câu h‰i trong t™p hußn luyªn ˜Òc bi∫u diπn d˜Ói d§ng véc-tÏ

cıa các ∞c tr˜ng.

• B˜Óc 3: mÎt ph˜Ïng pháp hÂc máy ˜Òc s˚dˆng ( ây s˚dˆng thu™t toán phân lo§i SVM) ∫ xây d¸ng mô hình phân lo§i.

CuËi cùng, ∫ th˚ nghiªm, tr˜Óc tiên các câu h‰i mÓi q⇤ ˜Òc bi∫u diπn d˜Ói d§ng véc-tÏ cıa các ∞c tr˜ng và s˚ dˆng mô hình phân lo§i §t ˜Òc  b˜Óc th˘ ba ∫ d¸ oán nhãn cıa q⇤ (t˘c là mÎt nhãn lo§i cıa câu h‰i mÓi q⇤).

Î t˜Ïng t¸ gi˙a câu h‰i mÓi q⇤ vÓi lo§i cıa câu h‰i qi trong t™p d˙

liªu D.

Th˘ nhßt, tßt c£ các câu trong câu h‰i q⇤ và lo§i cıa câu h‰i qi ˜Òc phân tích thành các t¯ tË và các t¯ này ˜Òc bi∫u diπn d˜Ói d§ng các véc-tÏ t¯ s˚

dˆng mô hình word2vec.

Th˘hai, mÈi véc-tÏ t¯ trong lo§i cıa câu h‰i qi ˜Òc gióng vÓi mÎt véc-tÏ t¯

cıa câu h‰i q⇤ mà có Î t˜Ïng t¸cosine lÓn nhßt nh˜ ˜Òc tính toán theo công th˘c 2.2. CuËi cùng i∫m sËt˜Ïng t¸ gi˙a câu h‰i mÓi q⇤ vÓi lo§i cıa câu h‰i qi

trong t™p d˙ liªu D ˜Òc tính toán theo công th˘c 2.3.

Î t˜Ïng t¸gi˙a lo§i cıa câu h‰i mÓi q⇤ vÓi lo§i cıa câu h‰i qi trong t™p d˙ liªu D.

Nghiên c˘u cÙng th¸c hiªn tính toán Î t˜Ïng t¸ gi˙a lo§i cıa câu h‰i mÓi

câu h‰i cùng lo§i ho∞c g¶n lo§i thì th˜Ìng cho Î t˜Ïng t¸ lÓn hÏn các câu h‰i không cùng lo§i. Chính vì v™y ∫ xác ‡nh Ît˜Ïng t¸gi˙a hai câu h‰i, lu™n án còn d¸a trên Î t˜Ïng t¸ gi˙a hai lo§i cıa hai câu h‰i. ∫ tính toán Î t˜Ïng t¸ này, lu™n án d¸a trên s¸ bi∫u diπn véc-tÏ t¯ cıa chúng sau ó áp dˆng công th˘c 2.1.

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 68 - 69)

Tải bản đầy đủ (PDF)

(187 trang)