Minh hÂa BLSTM ([86])

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 55 - 60)

3 Phân bÍ chßt l˜Òng các câu tr£ lÌi trên Yahoo!Answers [14]

1.20 Minh hÂa BLSTM ([86])

1.5.4 Các Î o phân lo§i và x∏p h§ng

∫ ánh giá hiªu sußt cıa các mô hình, các th¸c nghiªm trong các ch˜Ïng ti∏p theo s≥ s˚dˆng các Î o phân lo§i và các Î o x∏p h§ng nh˜ ˜Òc trình bày d˜Ói ây.

Các Î o phân lo§i

∫ ánh giá hiªu sußt cıa bÎphân lo§i, lu™n án s˚ dˆng các Î o P recision,

Recall, F1 measure, Accuracy nh˜ ˜Òc ‡nh nghæa trong [42]. ∫ ˜Óc l˜Òng các

Î o này có th∫ d¸a vào B£ng 1.4.

B£ng 1.4: Các k∏t qu£d¸ oán cıa bÎ phân lo§i

Labely⇤= +1 Labely⇤= 1

Prediction f(x⇤) = +1 TP FP Prediction f(x⇤) = 1 FN TN

MÈi ô trong b£ng §i diªn cho mÎt trong bËn k∏t qu£ ¶u ra có th∫ cıa mÎt d¸ oán f(x⇤). Trong ó:

TP (True Positive): SË l˜Òng các c∞p câu h‰i positive ˜Òc phân lo§i úng. TN (True Negative): SËl˜Òng các c∞p câu h‰i negative ˜Òc phân lo§i úng. FP (False Positive): SË l˜Òng các c∞p câu h‰i positive b‡ phân lo§i sai. FN (False Negative): SË l˜Òng các c∞p câu h‰i negative b‡ phân lo§i sai.

P recision (kí hiªu là p) ˜Òc ‡nh nghæa nh˜là xác sußt mà mÎt d˙liªu phân lo§i là f(x⇤) = +1 là mÎt phân lo§i úng. Nó có th∫ ˜Òc ˜Óc l˜Òng nh˜ sau: p= T P T P +F P (1.8) Recall (kí hiªu làr) ˜Òc ‡nh nghæa nh˜là xác sußt mà mÎt d˙liªu vÓi nhãn là y⇤ = +1 ã ˜Òc phân lo§i úng. Nó có th∫ ˜Òc ˜Óc l˜Òng nh˜ sau: r= T P T P +F N (1.9) F1 measure= 2⇤p⇤r p+r (1.10) Accuracy= T P +T N T P +F P +T N +F N (1.11)

Các Î o x∏p h§ng

∫ ánh giá hiªu sußt cıa viªc x∏p h§ng các câu h‰i liên quan, lu™n án s˚

dˆng các Î o x∏p h§ng10 bao gÁm: Mean Average Precision (MAP), Average Recall (AvgRec) và Mean Reciprocal Rank (MRR).

Mean Reciprocal Rank (MRR): MRR cıa các câu h‰i có liên quan ˜Òc x∏p h§ng là tÍng trung bình cıa các giá tr‡ x∏p h§ng cho mÈi câu h‰i mÓi sao cho mÈi giá tr‡ x∏p h§ng ho∞c là giá tr‡ th˘ b™c cıa câu h‰i có liên quan ¶u tiên trong top-10 câu h‰i liên quan ∏n q, n∏u nó tÁn t§i, ho∞c 0 n∏u ng˜Òc l§i.

M RR= 1 |Qr| ⇥ X q2Qr 1 rq (1.12)

Trong ó Qr là t™p các câu h‰i mÓi, |Qr| là tÍng sË câu h‰i trong Qr, q là mÎt trong sË các câu h‰i trong Qr, và rq là b™c (v‡ trí) cıa câu h‰i ¶u tiên liên quan ∏n q, n∏u nó tÁn t§i.

Precision at K (P@K). Giá tr‡ P@K xác ‡nh sË l˜Òng K câu h‰i liên quan

¶u tiên ˜Òc x∏p h§ng vÓi các câu h‰i mÓi trong Q, t˘c là ánh giá s¸hài lòng cıa ng˜Ìi s˚ dˆng vÓi K k∏t qu£ ¶u tiên. P@K = 1 |Qr| ⇥ X q2Qr |Rq| K (1.13)

Trong ó K là sË l˜Òng các câu h‰i liên quan ˜Òc xác ‡nh tr˜Óc, Qr, |Qr|

vàq ˜Òc ‡nh nghæa trong công th˘c 1.12, và|Rq| (1 |Rq|  K) là sËl˜Òng K

câu h‰i liên quan ¶u tiên có liên quan ∏nq.

Average Recall (AvgRec): AvgRec ˜Òc ‡nh nghæa nh˜ sau:

AvgRec=

PN

r=1P@r⇥rel(r)

|Rq| (1.14)

Trong ó N (1N 10) là sË l˜Òng c∞p câu h‰i có liên quan ˜Òc truy hÁi cho câu h‰i q, r là v‡ trí trong b£ng x∏p h§ng (t¯ 1 ∏n 10, giá tr‡ nh‰nhßt th∫

hiªn Î liên quan lÓn nhßt), rel(r)là mÎt hàm nh‡ phân cho k∏t qu£là “1” ho∞c “0”, cho bi∏t s¸liên quan ho∞c không liên quan cıa các câu h‰i liên quan trong danh sách x∏p h§ng th˘ r, và P@r là Î chính xác m˘c r (nh˜ ˜Òc ‡nh nghæa trong công th˘c 1.13).

Mean Average Precision (MAP): M AP ˜Òc ‡nh nghæa nh˜ sau: M AP = 1 |Qr|⇥ X q2Qr PN r=1P@r⇥rel(r) |Rq| (1.15)

Trong ó |Qr| và q là nh˜ ˜Òc ‡nh nghæa trong công th˘c 1.12 . Giá tr‡ l˛

t˜ng cıa M AP là 1, nó cho thßy r¨ng tßt c£ các câu h‰i liên quan ∑u có liên quan ∏n các câu h‰i trong Q.

1.6 Các vßn ∑ nghiên c˘u cıa lu™n án

Các hª thËng cQA ang tr thành nguÁn thông tin ngày càng quan trÂng, nÏi ng˜Ìi dùng có th∫ chia s¥ ki∏n th˘c v∑ các chı ∑ khác nhau thông qua viªc h‰i và tr£lÌi/bình lu™n các câu h‰i/câu tr£lÌi. M∞c dù n∑n t£ng này mang ∏n cÏ hÎi mÓi cho ng˜Ìi dùng tìm ki∏m trÒ giúp ho∞c cung cßp gi£i pháp, nh˜ng chúng cÙng ∞t ra nhi∑u thách th˘c khi quy mô ngày càng t´ng cıa cÎng Áng ng˜Ìi dùng, các câu h‰i a d§ng và ph˘c t§p. Nói chung, chßt l˜Òng cıa mÎt hª thËng cQA phˆ thuÎc vào nhi∑u y∏u tË khác nhau nh˜: lo§i câu h‰i mà hª

thËng cQA có th∫ tr£ lÌi, thÌi gian hª thËng tr£ v∑ các câu tr£ lÌi, chßt l˜Òng cıa các câu tr£ lÌi, sË l˜Òng cıa các câu tr£ lÌi cho mÈi câu h‰i, vv. Tuy nhiên các nghiên c˘u gi£i quy∏t các nhiªm vˆnày hiªn nay v®n ch˜a cho hiªu qu£cao. T¯nh˙ng phân tích, ánh giá các khó kh´n khi xây d¸ng hª thËng cQA  ph¶n m ¶u cÙng nh˜ phân tích các nghiên c˘u liên quan, chúng tôi nh™n thßy mÎt sË vßn ∑ còn tÁn t§i khi xây d¸ng các hª thËng cQA, cˆ th∫ nh˜ sau:

Th˘ nhßt, Ëi vÓi bài toán tìm ki∏m và x∏p h§ng các câu h‰i trong cÏ s d˙

liªu liên quan ∏n câu h‰i mÓi. Các nghiên c˘u tr˜Óc ó ã xây d¸ng nhi∑u mô hình khác nhau d¸a trên các thông tin cung cßp bi câu h‰i nh¨m ánh giá ˜Òc

Î t˜Ïng t¸ gi˙a câu h‰i mÓi vÓi các câu h‰i trong kho l˜u tr˙ cıa hª thËng cQA. Viªc ánh giá Î t˜Ïng t¸ này có th∫ s˚ dˆng thêm nhi∑u ph˜Ïng pháp bi∫u diπn khác nhau (nh˜ bi∫u diπn d¸a trên t™p nhúng t¯) cÙng nh˜ bÍ sung thêm thông tin v∑ lo§i câu h‰i ∫ ánh giá Î t˜Ïng t¸ gi˙a các câu h‰i. Áng thÌi cÙng có th∫ d¸a vào câu tr£ lÌi cıa câu h‰i trong cÏ s d˙liªu ∫ xác ‡nh

Î t˜Ïng t¸cıa câu h‰i mÓi vÓi các câu h‰i trong cÏ s d˙ liªu. Ngoài ra, trong vài n´m g¶n ây các mô hình hÂc sâu ã ˜Òc áp dˆng và cho thßy nhi∑u thành công trong lænh v¸c NLP nh˜: phân tích ng˙nghæa [95], tìm ki∏m thông tin [82], mô hình câu [52], phân lo§i câu [103]. Trong nghiên c˘u này lu™n án s≥ khám

phá nh˙ng i∫m m§nh cıa mô hình hÂc sâu cho vßn ∑ xác ‡nh Î t˜Ïng t¸

gi˙a hai câu h‰i trong cQA. Lu™n án xây d¸ng các mô hình hÂc sâu d¸a trên m§ng CNN và LSTM ∫ ánh giá Î t˜Ïng t¸ gi˙a hai câu h‰i. Sau ó, lu™n án nghiên c˘u s˚ dˆng thêm mÎt sË nguÁn thông tin mÓi và tích hÒp thêm các nguÁn thông tin mÓi này vào các mô hình hÂc sâu ∫ §t ˜Òc k∏t qu£tËt nhßt. Lu™n án cÙng nghiên c˘u ∫ xây d¸ng các mô hình d¸a trên mô hình bi∫u diπn ngôn ng˙ tiên ti∏n BERT cho vßn ∑ ánh giá Î t˜Ïng t¸ gi˙a hai câu h‰i.

Th˘ hai, Ëi vÓi bài toán ánh giá Î phù hÒp cıa các câu tr£ lÌi trong các hª thËng cQA. ∫ có ˜Òc mÎt hª thËng cQA tËt thì yêu c¶u b≠t buÎc là mÈi câu h‰i ph£i nh™n ˜Òc câu tr£ lÌi có Î chính xác cao. ∫ ánh giá chßt l˜Òng cıa các câu tr£ lÌi, các nghiên c˘u tr˜Óc ây th˜Ìng d¸a trên viªc ánh giá Î

t˜Ïng t¸gi˙a câu h‰i và câu tr£lÌi ho∞c d¸a trên thông tin cung cßp bi ng˜Ìi dùng. Câu tr£ lÌi có Î t˜Ïng t¸ vÓi câu h‰i lÓn hÏn thì ˜Òc coi là câu tr£ lÌi tËt. Tuy nhiên, viªc ánh giá nh˜v™y chø mÓi xác ‡nh ˜Òc s¸giËng nhau gi˙a câu h‰i và câu tr£ lÌi ch˘ ch˜a xác ‡nh ˜Òc ó có ph£i là câu tr£lÌi áng tin t˜ng hay không. ∫ ánh giá chßt l˜Òng cıa các câu tr£ lÌi lu™n án không chø

s˚ dˆng thông tin v∑ Î t˜Ïng t¸ gi˙a câu h‰i và câu tr£ lÌi, thông tin cung cßp bi ng˜Ìi dùng mà còn nghiên c˘u s˚ dˆng thêm nguÁn thông tin mÓi bên ngoài thông tin h‰i - áp. Wikipedia là nguÁn thông tin h˙u ích ˜Òc nghiên c˘u s˚ dˆng nh˜ thông tin bÍsung ∫ ánh giá Î phù hÒp cıa các câu tr£ lÌi trong các hª thËng cQA.

∫ gi£i quy∏t các vßn ∑ nghiên c˘u cıa lu™n án, các ch˜Ïng ti∏p theo s≥ i vào gi£i quy∏t t¯ng bài toán cˆ th∫ trong hª thËng QA.

Hình 1.21 trình bày mô hình tÍng quát cıa bài toán QA mà lu™n án x˚ l˛. Trong các nghiên c˘u thông th˜Ìng viªc gi£i quy∏t các bài toán (tìm ki∏m và x∏p h§ng các câu h‰i trong cÏ s d˙ liªu liên quan ∏n câu h‰i mÓi; ánh giá

Î phù hÒp cıa câu tr£lÌi) th˜Ìng chø th¸c hiªn d¸a trên viªc trích rút các ∞c tr˜ng t¯ nguÁn thông tin nÎi t§i (các câu h‰i, câu tr£ lÌi) trong cÏ s d˙ liªu QA. Sau ó véc-tÏ ∞c tr˜ng thu ˜Òc ˜Òc làm ¶u vào cho mÎt mô hình hÂc máy ho∞c hÂc sâu ∫ cho k∏t qu£ ¶u ra nh˜ mong muËn. Lu™n án này cÙng nh¨m gi£i quy∏t hai bài toán trên nh˜ng có bÍ sung thêm nguÁn tri th˘c bên ngoài ∫ nâng cao hiªu qu£ cıa bài toán. Ngoài th¸c hiªn các b˜Óc nh˜ trong các nghiên c˘u khác, mô hình ∑ xußt trong lu™n án ã xây d¸ng thêm véc-tÏ

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 55 - 60)

Tải bản đầy đủ (PDF)

(187 trang)