Các ∞c tr˜ng

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 84 - 87)

Có nhi∑u lo§i ∞c tr˜ng khác nhau ˜Òc trích rút ∫ phˆc vˆ cho viªc ánh giá Î phù hÒp cıa các câu tr£lÌi trong cQA. Ph¶n này trình bày viªc trích rút các ∞c tr˜ng này.

3.3.1 Các ∞c tr˜ng n-gram

Các ∞c tr˜ng n-gram cıa mÎt câu h‰i/câu tr£lÌi ˜Òc trích rút d¸a trên ng˙

c£nh cıa các t¯ cıa câu, nghæa là, các t¯ ó xußt hiªn trong mÎt câu h‰i/câu tr£ lÌi. MÈi c∞p câu h‰i - câu tr£ lÌi ˜Òc bi∫u diπn giËng nh˜ s¸ bi∫u diπn tài liªu trong mô hình không gian véc-tÏ. MÈi c∞p câu h‰i - câu tr£lÌiq có th∫ ˜Òc bi∫u diπn nh˜ sau:

q = (q1, q2, . . . , qm)

trong ó qi là t¶n sË xußt hiªn cıa t¯ i trong q và m là tÍng sË các t¯ trong

q. Do tính th˜a thÓt cıa các ∞c tr˜ng, chø các ∞c tr˜ng có giá tr‡ khác không mÓi ˜Òc gi˙ l§i trong véc-tÏ ∞c tr˜ng. Bi v™y mÈi c∞p câu h‰i - câu tr£ lÌi cÙng ˜Òc bi∫u diπn d˜Ói hình th˘c sau:

q={(t1, f1), . . . ,(tp, fp)}

trong ó ti là t¯ th˘ i trong q vàfi là t¶n sË xußt hiªn cıa ti trong q.

∫ trích rút các ∞c tr˜ng n-gram, bßt kì n t¯ liên ti∏p nào trong mÈi c∞p câu h‰i-câu tr£ lÌi ∑u ˜Òc coi là mÎt ∞c tr˜ng. B£ng 3.1 là danh sách các

∞c tr˜ng n-gram cıa câu h‰i “What is safari 4 ?”.

B£ng 3.1: Ví dˆ v∑mÎt sË ∞c tr˜ng n-gram

Tên ∞c tr˜ng ∞c tr˜ng

Unigram {(What, 1) (is, 1) (safari, 1) (4, 1) (?, 1)} Bigram {(What-is, 1) (is-safari, 1) (safari-4, 1) (4-?, 1)} Trigram {(What-is-safari, 1) (is-safari-4, 1) . . . (safari-4-?, 1)}

3.3.2 Các ∞c tr˜ng d¸a trên thuÎc tính cıa câu h‰i

SË t¯ trong câu h‰i và câu tr£ lÌi: ∫ ánh giá Î phù hÒp cıa các câu tr£ lÌi có th∫ d¸a trên các ∞c tr˜ng ó là sË l˜Òng cıa các t¯ trong câu

h‰i, sË l˜Òng cıa các t¯ trong câu tr£ lÌi. Các ∞c tr˜ng này cÙng ã ˜Òc s˚

dˆng trong các nghiên c˘u cıa Jiang Bian và các cÎng s¸[46], Toba và các cÎng s¸ [87].

SË l˜Òng các câu (sentence) trong câu tr£ lÌi: Các câu tr£ lÌi có nhi∑u câu (sentence) th˜Ìng ch˘a nhi∑u nÎi dung thông tin hÏn. Do ó nghiên c˘u này cÙng s˚ dˆng sËl˜Òng câu (sentence) trong câu tr£ lÌi nh˜là mÎt ∞c tr˜ng ∫

phân lo§i. Các ∞c tr˜ng này cÙng ã ˜Òc s˚ dˆng trong các nghiên c˘u cıa Jiang Bian và các cÎng s¸ [46], Toba và các cÎng s¸ [87].

ChÁng chéo t¯ gi˙a câu h‰i và câu tr£ lÌi [88]: Nghiên c˘u trên các trang web cQA, chúng tôi thßy r¨ng thông th˜Ìng gi˙a câu h‰i và các câu tr£

lÌi cıa nó th˜Ìng có nhi∑u t¯ giËng nhau. Nh˙ng ng˜Ìi tr£ lÌi th˜Ìng có xu h˜Óng s˚dˆng l§i mÎt vài t¯(ho∞c cˆm t¯) ho∞c l∞p l§i các ˛ chính cıa câu h‰i trong các câu tr£ lÌi cıa hÂ. Vì v™y, s˚ dˆng Î chÁng chéo t¯ gi˙a câu h‰i và câu tr£ lÌi nh˜ là mÎt ∞c tr˜ng ∫ có th∫ xác ‡nh Î liên quan gi˙a chúng.

Î t˜Ïng t¸ cosine gi˙a câu h‰i và câu tr£ lÌi: ∞c tr˜ng này tính toán Î t˜Ïng t¸ gi˙a câu h‰i vÓi các câu tr£ lÌi ˘ng viên cıa nó. ∞c tr˜ng này cÙng ã ˜Òc s˚ dˆng trong vài nghiên c˘u tr˜Óc ây trong viªc nh™n ra các câu tr£ lÌi tËt [42, 63, 88]. N∏u mÎt câu tr£ lÌi ˘ng viên có Î t˜Ïng t¸cao vÓi câu h‰i cıa nó, câu tr£lÌi ˘ng viên có th∫ ch˘a nhi∑u thông tin cho câu tr£

lÌi cho câu h‰i.

∫ ánh giá s¸ giËng nhau gi˙a câu h‰i và câu tr£ lÌi có th∫ s˚ dˆng Î o cosine nh˜ công th˘c 3.1 d˜Ói ây:

cosine_sim= Pn i=1ui⇤vi qPn i=1(ui)2⇤qPn i=1(vi)2 (3.1)

Trong óu vàv là các véc-tÏ bi∫u diπn cho câu h‰i và câu tr£lÌi (các t¯d¯ng (stop word) ã b‡ lo§i b‰).ui là thành ph¶n th˘icıa véc-tÏ u vànlà kích th˜Óc cıa véc-tÏ. ∞c tr˜ng này tr£l§i Î t˜Ïng t¸cosine gi˙a câu h‰i và câu tr£ lÌi. B£ng 3.2 là ví dˆv∑ tính toán Ît˜Ïng t¸cosine gi˙a câu h‰i và câu tr£ lÌi cıa nó.

3.3.3 ∞c tr˜ng d¸a trên thông tin ng˜Ìi dùng

B£ng 3.2: Ví dˆ v∑ Î t˜Ïng t¸ cosine gi˙a câu h‰i và câu tr£ lÌi

Câu h‰i Câu tr£ lÌi Cosine_sim

What is atomic radius?

The atomic radius is a measure of the size of its atoms, the distance from the nucleus to the boundary of the surrounding cloud of electrons ...

0,51214751973 The atomic radius is actually really tough to define well. But

simply, an atom that is not bonded has an electron cloud that is pretty much spherical ...

0,69896324532 The atomic radius of a chemical element is a measure of the size

of its atoms, usually the mean or typical distance from the nucleus to the boundary of the surrounding cloud of electrons

0,70091302582

˜Òc mÎt sËl˜Òng lÓn các bình chÂn (trong viªc so sánh vÓi các câu tr£lÌi khác) thì nó có nghæa r¨ng câu tr£ lÌi này có nhi∑u ˛ nghæa và áng tin c™y hÏn các câu tr£ lÌi khác. Ng˜Òc l§i, câu tr£ lÌi mà chø nh™n ˜Òc ít ho∞c không ˜Òc bình chÂn có th∫ mang ít thông tin tr£ lÌi cho câu h‰i [42].

3.3.4 ∞c tr˜ng d¸a trên t™p nhúng t¯

Lu™n án s˚ dˆng s¸ bi∫u diπn véc-tÏ t¯ ∫ mô hình hóa mËi quan hª ng˙

nghæa gi˙a câu h‰i và các câu tr£ lÌi cıa nó. Mô hình word2vec ∑ xußt bi Mikolov và các cÎng s¸[66, 69] ˜Òc chÂn ∫ bi∫u diπn mÈi t¯trong câu h‰i, câu tr£ lÌi d˜Ói d§ng véc-tÏ. fi t˜ng chung cıa word2vec là bi∫u diπn mÈi t¯ bi mÎt véc-tÏ giá tr‡ th¸c trong ó mÈi thành ph¶n cıa véc-tÏ th∫ hiªn Î t˜Ïng t¸ v∑ m∞t ng˙ nghæa cıa t¯ ó vÓi các t¯ còn l§i. Ëi vÓi mÈi câu h‰i, câu tr£

lÌi tr˜Óc tiên ˜Òc phân tích thành các t¯tË, sau ó s˚dˆng công cˆword2vec

∫ bi∫u diπn mÈi t¯này d˜Ói d§ng mÎt véc-tÏ. Véc-tÏ tÍng hÒp cıa mÈi câu h‰i, câu tr£ lÌi ˜Òc tính toán là trung bình cÎng cıa các véc-tÏ cıa các t¯ trong câu. Î t˜Ïng t¸ gi˙a câu h‰i và câu tr£ lÌi sau ó ˜Òc tính toán d¸a trên Î

o cosine gi˙a hai véc-tÏ nh˜ ˜Òc tính toán theo công th˘c 3.1. B£ng 3.3 là ví dˆ v∑ tính toán Ît˜Ïng t¸ d¸a trên s¸ bi∫u diπn véc-tÏ t¯ gi˙a câu h‰i và các câu tr£ lÌi cıa nó.

B£ng 3.3: Ví dˆ v∑ Î t˜Ïng t¸ d¸a trên s¸ bi∫u diπn véc-tÏ t¯ gi˙a câu h‰i và cáccâu tr£lÌi câu tr£lÌi

Câu h‰i Câu tr£ lÌi Cosine_sim

What is atomic radius?

The atomic radius is a measure of the size of its atoms, the distance from the nucleus to the boundary of the surrounding cloud of electrons ...

0,54946801564 The atomic radius is actually really tough to define well. But

simply, an atom that is not bonded has an electron cloud that is pretty much spherical ...

0,70764174742 The atomic radius of a chemical element is a measure of the size

of its atoms, usually the mean or typical distance from the nucleus to the boundary of the surrounding cloud of electrons

0,55997179830

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 84 - 87)

Tải bản đầy đủ (PDF)

(187 trang)