Minh hÂa cıa mÎt hª thËng KBQA

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 27 - 29)

3 Phân bÍ chßt l˜Òng các câu tr£ lÌi trên Yahoo!Answers [14]

1.1 Minh hÂa cıa mÎt hª thËng KBQA

Các hª thËng KBQA ra Ìi sÓm nhßt là BASEBALL [30] và LUNAR [92] chø Ïn gi£n là các hª thËng truy vßn cÏ s d˙ liªu có cßu trúc. Các câu h‰i ˜Òc trình bày trên các hª thËng này th˜Ìng ˜Òc phân tích b¨ng các kˇ thu™t NLP, sau ó ˜Òc s˚ dˆng ∫ xây d¸ng mÎt truy vßn cÏ s d˙ liªu chu©n. Hª thËng

Ëi tho§i ELIZA [50] và GUS [8] cÙng s˚ dˆng cÏ s d˙ liªu có cßu trúc nh˜ là nguÁn tri th˘c. H§n ch∏ chính cıa các hª thËng này là các tri th˘c ˜Òc l˜u tr˙

trong cÏ s d˙liªu có cßu trúc chø có kh£n´ng tr£ lÌi các câu h‰i trong lænh v¸c h§n ch∏.

MÎt sËhª thËng QA ã xây d¸ng nh˜START [53], hª thËng QA cıa Mishra và các cÎng s¸ [67], Chung và các cÎng s¸ [15] ã s˚ dˆng web nh˜ nguÁn tri th˘c cho h‰i áp. Hª thËng QA ˜Òc ∑ xußt bi Chung và các cÎng s¸ [15] s˚ dˆng mô- un trích rút thông tin (Information Extraction - IE) ∫ trích rút thông tin v∑ thÌi ti∏t t¯các trang web. Trên hª thËng này, các yêu c¶u cıa ng˜Ìi

dùng ˜Òc phân tích bi bÎ phân tích truy vßn, công cˆ SQL s≥ t§o ra truy vßn có liên quan. Tr£ lÌi truy vßn cıa ng˜Ìi dùng ˜Òc sinh ra t¯ cÏ s d˙ liªu l˜u tr˙thông tin thÌi ti∏t t¯ các trang web. Îchính xác (accuracy) và Îbao phı

(recall) cıa hª thËng này §t ˜Òc l¶n l˜Òt là 90,9% và 75,0%. Nh˙ng hª thËng này áp dˆng nh˙ng công nghª t¸ Îng ∫ l˜u tr˙ thông tin t¯ các tài liªu web trong cÏ s d˙ liªu tri th˘c cˆc bÎ mà sau ó dùng ∫ truy c™p và d¸a vào kˇ

thu™t ngôn ng˙ hÂc ∫ sinh ra câu tr£ lÌi.

Hiªn nay, vÓi s¸ t´ng tr˜ng nhanh chóng cıa các kho v´n b£n tr¸c tuy∏n và d˙ liªu web ã làm cho các ph˜Ïng pháp thËng kê ngày càng quan trÂng hÏn. Nh˙ng ph˜Ïng pháp ti∏p c™n này ˜a ra các kˇ thu™t mÓi, nó không nh˙ng có th∫ gi£i quy∏t ˜Òc vÓi sËl˜Òng lÓn cıa d˙liªu mà còn c£tính không Áng nhßt cıa d˙ liªu. MÎt trong nh˙ng công trình tiên phong d¸a trên mô hình thËng kê là hª thËng QA thËng kê cıa IBM [41]. Hª thËng này s˚ dˆng mô hình c¸c §i hóa Entropy cho viªc phân lo§i câu h‰i/câu tr£ lÌi d¸a trên các ∞c tr˜ng khác nhau n-gram ho∞c bag-of-words. Moschitti [70] ã s˚dˆng bÎphân lo§i v´n b£n Rocchio và máy véc-tÏ hÈ trÒ (Support Vector Machines - SVM) ∫ phân lo§i câu h‰i và câu tr£ lÌi và ki∫m tra cách ti∏p c™n trên Reuters-21578. Berger và các cÎng s¸ [6] ã i∑u tra ∫ áp dˆng các ph˜Ïng pháp thËng kê cho nhiªm vˆ

tìm ki∏m câu tr£ lÌi trong QA và phát hiªn ra r¨ng nh˙ng kˇ thu™t này th¸c hiªn khá tËt tùy thuÎc vào ∞c i∫m cıa d˙ liªu cÏ b£n: kích th˜Óc t¯ v¸ng, s¸ chÁng chéo gi˙a câu h‰i và câu tr£ lÌi, và gi˙a nhi∑u câu tr£ lÌi, vv. Các kˇ

thu™t thËng kê nh˜khai thác n-gram, các mô hình t˜Ïng t¸câu và Î o t˜Ïng t¸ Okapi BM25 ˜Òc áp dˆng cho các nhiªm vˆtìm ki∏m câu tr£ lÌi trong mÎt hª thËng QA. Nh˙ng kˇ thu™t này phân tích câu h‰i và tài liªu d¸a trên các

∞c tr˜ng o s¸ giËng nhau ∫ xác ‡nh tính g¶n gÙi cıa các tài liªu ˘ng viên ho∞c câu tr£ lÌi liên quan ∏n câu h‰i. Khái niªm xác minh câu tr£ lÌi cÙng có th∫ ˜Òc th¸c hiªn thông qua các ti∏p c™n thËng kê. Cai và các cÎng s¸[18] d¸a trên mô hình t˜Ïng t¸ câu ∫ tính toán s¸ giËng nhau gi˙a câu h‰i và câu tr£

lÌi. Mô hình này tính toán trên các ∞c tr˜ng khác nhau nh˜: tính t˜Ïng t¸cıa t¯ khóa, t˜Ïng t¸ v∑ Î dài, tính giËng nhau và kho£ng cách gi˙a các t¯ khoá

1.2.2 H‰i áp tr¸c quan

H‰i áp tr¸c quan (Visual Question Answering - VQA) ngày càng nh™n ˜Òc s¸ quan tâm cıa các nhà nghiên c˘u trong c£ lænh v¸c th‡ giác máy tính và x˚

l˛ ngôn ng˙ t¸ nhiên. ˜a ra mÎt hình £nh và mÎt câu h‰i b¨ng ngôn ng˙ t¸

nhiên, hª thËng h‰i áp òi h‰i l˛ lu™n v∑ các y∏u tË cıa hình£nh và ki∏n th˘c chung ∫ suy lu™n ra câu tr£ lÌi úng. Hình 1.2 minh hÂa cıa mÎt hª thËng VQA.

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 27 - 29)

Tải bản đầy đủ (PDF)

(187 trang)