So sánh vÓi các nghiên c˘u khác

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 97 - 119)

3 Phân bÍ chßt l˜Òng các câu tr£ lÌi trên Yahoo!Answers [14]

3.8 So sánh vÓi các nghiên c˘u khác

Tác gi£ ∞c tr˜ng s˚ dˆng Lo§i câu h‰i Acc

Hapnes Toba và các cÎng s¸ [87]

Các ∞c tr˜ng trích rút t¯ thông tin câu h‰i, câu tr£lÌi, thông tin ng˜Ìi dùng

Câu h‰i ‡nh nghæa 81.56 Hapnes Toba và

các cÎng s¸ [87]

Các ∞c tr˜ng trích rút t¯ thông tin câu h‰i, câu tr£lÌi, thông tin ng˜Ìi dùng

Tßt c£ các lo§i câu 78.74 Nghiên c˘u cıa

lu™n

Các ∞c tr˜ng trích rút t¯ thông tin câu h‰i, câu tr£lÌi, thông tin ng˜Ìi dùng , Wikipedia

Câu h‰i ‡nh nghæa 84.62

Trong [87], nghiên c˘u s˚ dˆng nhi∑u lo§i ∞c tr˜ng bao gÁm các ∞c tr˜ng d¸a trên thông tin câu h‰i và câu tr£ lÌi nh˜: sË l˜Òng t¯ trong câu h‰i và câu tr£ lÌi, sË l˜Òng câu trong câu h‰i và câu tr£ lÌi, vv; ∞c tr˜ng d¸a trên thông tin ng˜Ìi dùng nh˜ sËl˜Òng bình chÂn cho mÈi câu tr£lÌi. Nghiên c˘u cÙng i

tích xác ‡nh ng˙ nghæa cıa mÎt câu tr£ lÌi. Sau ó tßt c£ các ∞c tr˜ng trích rút ˜Òc k∏t hÒp và s˚ dˆng bÎ nhi∑u bÎ phân lo§i khác nhau ∫ phân lo§i. Th¸c nghiªm §t k∏t qu£cao nhßt là 81,56% khi s˚dˆng bÎphân lo§i SVM. T¯

các k∏t qu£cıa b£ng so sánh cho thßy mô hình bÍsung thêm tri th˘c mÓi trích rút t¯ nguÁn tài nguyên Wikipedia ã c£i thiªn áng k∫ Î chính xác trong viªc

ánh giá Îphù hÒp cıa câu tr£ lÌi trong các cQA.

3.6 K∏t lu™n ch˜Ïng

Ch˜Ïng này ã trình bày nh˙ng nÎi dung, k∏t qu£ nghiên c˘u cıa lu™n án v∑ bài toán ánh giá Îphù hÒp cıa các câu tr£ lÌi trong các cQA. Lu™n án ã nghiên c˘u ∑ xußt s˚ dˆng thêm nguÁn tài nguyên bên ngoài trong viªc ánh giá Î phù hÒp cıa các câu tr£ lÌi trong các cQA. Các ∑ xußt trong ch˜Ïng này rßt h˙u ích cho viªc xây d¸ng các hª thËng cQA chßt l˜Òng cao. Lu™n án cÙng ã trình bày rõ nhiªm vˆ ánh giá Î phù hÒp cıa các câu tr£ lÌi trong cQA nh˜là mÎt vßn ∑ phân lo§i và s˚ dˆng bÎ phân lo§i SVM ∫ xác ‡nh rõ mÈi câu tr£ lÌi ˘ng viên là “phù hÒp” ho∞c “không phù hÒp”. Lu™n án cÙng ã i∑u tra nghiên c˘u, bÍ sung thêm các lo§i ∞c tr˜ng và sau ó trích rút thêm các ∞c tr˜ng mÓi d¸a trên mËi liên quan gi˙a các tài liªu Wikipedia và các câu tr£ lÌi ˘ng viên. Lu™n án ã s˚ dˆng mô hình bi∫u diπn t¯ (word2vec) cho s¸

o l˜Ìng Ît˜Ïng t¸gi˙a câu h‰i và câu tr£ lÌi cÙng nh˜ câu tr£lÌi vÓi tài liªu wikipedia. Các k∏t qu£ th¸c nghiªm cÙng ã chø ra r¨ng ∑ xußt trong ch˜Ïng này s˚ dˆng thêm nguÁn tài nguyên bên ngoài ∫ ánh giá Î phù hÒp cıa câu tr£lÌi s≥ cho Îchính xác cao hÏn. Các ph˜Ïng pháp ∑ xußt cıa trong ch˜Ïng này có nh˙ng ˜u i∫m sau:

• Th˘ nhßt: Xây d¸ng ˜Òc mÎt t™p a d§ng các ∞c tr˜ng khác nhau bao gÁm các ∞c tr˜ng d¸a trên tính chßt cıa câu h‰i và câu tr£ lÌi, các ∞c tr˜ng d¸a trên thông tin cıa ng˜Ìi s˚ dˆng ∫ phˆc vˆ cho viªc ánh giá

Î phù hÒp cıa câu tr£ lÌi. Lu™n án cÙng ã s˚ dˆng mô hình bi∫u diπn véc-tÏ t¯ (word2vec) ∫ bi∫u diπn tËt hÏn mËi quan hª gi˙a câu h‰i và câu tr£ lÌi, gi˙a câu tr£ lÌi và tài liªu wikipedia.

• Th˘ hai: VÓi viªc s˚ dˆng thêm nguÁn tài nguyên bên ngoài, bài toán ã có thêm nguÁn thông tin tin c™y ∫ giúp xác ‡nh ˜Òc tËt hÏn chßt l˜Òng

cıa các câu tr£ lÌi trong các cQA. Lu™n án ã trích rút các ∞c tr˜ng d¸a trên nguÁn d˙liªu m rÎng là các tài liªu Wikipedia, các ∞c tr˜ng này sau ó ˜Òc k∏t hÒp vÓi các ∞c tr˜ng truy∑n thËng khác và s˚dˆng làm véc-tÏ ¶u vào cho bÎ phân lo§i SVM và ã §t ˜Òc k∏t qu£ phân lo§i tËt hÏn. M∞c dù mô hình ∑ xußt ã c£i thiªn hiªu sußt trong viªc ánh giá Î phù hÒp cıa câu tr£ lÌi trong các cQA nh˜ng mô hình mÓi v®n còn h§n ch∏ khi mÓi chø ánh giá Î phù hÒp cıa các câu tr£ lÌi cıa câu h‰i ‡nh nghæa. Trong khi th¸c t∏ các câu h‰i trong các cQA là rßt a d§ng, thuÎc nhi∑u chı ∑ khác nhau và mÈi câu h‰i có th∫ là câu h‰i ghép, gÁm nhi∑u câu. Mô hình trong lu™n án cÙng ch˜a khai thác ˜Òc thông tin cıa ng˜Ìi tr£ lÌi (có ph£i là chuyên gia v∑

lænh v¸c ˜Òc h‰i hay không) ∫ bÍ sung thông tin giúp ánh giá chính xác hÏn

Î phù hÒp cıa câu tr£ lÌi.

Các k∏t qu£ nghiên c˘u trong ch˜Ïng này ã ˜Òc công bË  các công trình [3, 4]. Bài báo [3] ∑ xußt mÎt cách ti∏p c™n mÓi s˚ dˆng thêm nguÁn tri th˘c bên ngoài ∫ ánh giá Î phù hÒp cıa các câu tr£ lÌi trong các hª thËng cQA. Nghiên c˘u ã k∏t hÒp c£ hai lo§i thông tin, mÎt là s¸ t˜Ïng Áng gi˙a câu h‰i và câu tr£lÌi cıa nó trong khi lo§i kia d¸a trên s¸hÈtrÒ cıa các nguÁn tri th˘c bên ngoài. Bài báo này s˚dˆng Wikipedia nh˜ nguÁn tri th˘c bên ngoài nh¨m bÍ sung thêm thông tin cho viªc ánh giá Î phù hÒp cıa các câu tr£ lÌi. Các th˚ nghiªm ˜Òc th¸c hiªn trên d˙ liªu là các c∞p câu h‰i - câu tr£ lÌi ˜Òc trích xußt t¯ các trang cQA Yahoo! Answer và StackOverflow và ã §t ˜Òc k∏t qu£ tËt hÏn so vÓi viªc không s˚ dˆng thêm nguÁn tri th˘c bên ngoài.

Ch˜Ïng 4

TÍCH H—P NHIóU NGU«N TRI THŸC TRONG

MÔ HÌNH H≈C SÂU ö ÁNH GIÁ À T◊ÃNG

T‹

4.1 GiÓi thiªu

T¯ nh˙ng k∏t qu£ nghiên c˘u ã §t ˜Òc trong các ch˜Ïng tr˜Óc, ch˜Ïng này s≥ trình bày ti∏p các vßn ∑ liên quan ∏n viªc ánh giá Î t˜Ïng t¸ gi˙a các câu h‰i và x∏p h§ng các câu h‰i trong ó có xây d¸ng các mô hình mÓi áp dˆng các kæ thu™t hÂc sâu và tích hÒp thêm nhi∑u nguÁn tri th˘c vào các mô hình này nh¨m c£i thiªn hiªu sußt cıa bài toán. Vßn ∑ ánh giá Î t˜Ïng t¸

gi˙a hai câu h‰i có th∫ ˜Òc xem xét nh˜ viªc ánh giá Î t˜Ïng t¸ gi˙a hai o§n v´n b£n ng≠n. Trong ó, mÈi câu h‰i có th∫ xem nh˜ mÎt o§n v´n b£n ng≠n (k∏t hÒp c£ chı ∑ h‰i và ph¶n mô t£ câu h‰i thành mÎt o§n v´n b£n ng≠n). ánh giá Ît˜Ïng t¸gi˙a hai o§n v´n b£n ng≠n có nhi∑u˛nghæa, ˜Òc áp dˆng cho nhi∑u bài toán nh˜: tìm ki∏m thông tin, tóm t≠t v´n b£n t¸ Îng, tìm ki∏m hình £nh, và ∞c biªt là trong bài toán xây d¸ng các hª thËng h‰i áp. Trong các nghiên c˘u tr˜Óc ây, ∞c biªt là các ph˜Ïng pháp truy∑n thËng, nhiªm vˆ o l˜Ìng s¸t˜Ïng Áng gi˙a hai o§n v´n b£n th˜Ìng d¸a trên các ∞c tr˜ng ˜Òc trích xußt t¯ các ph˜Ïng pháp phân tích ngôn ng˙. Các ∞c tr˜ng này th˜Ìng là n-gram [16, 31] ho∞c thông tin ngôn ng˙ (linguistic information) phong phú hÏn, chúng òi h‰i ph£i có các kˇ thu™t phân tích sâu nh˜ phân tích cú pháp [2, 25, 90]. S¸ giËng nhau sau ó ˜Òc tính toán d¸a trên Î t˜Ïng t¸

ho∞c jaccard ã ˜Òc s˚ dˆng.

ã có nhi∑u nghiên c˘u ch˘ng minh r¨ng các ph˜Ïng pháp hÂc máy ˜Òc áp dˆng thành công cho h¶u h∏t các vßn ∑ v∑ trí tuª nhân t§o. Trong nhiªm vˆ

o Î t˜Ïng t¸ gi˙a các o§n v´n b£n, n∏u d˙ liªu có các nhãn ˜Òc xác ‡nh tr˜Óc (t˘c là mÈi o§n v´n b£n ã ˜Òc gán nhãn là "t˜Ïng t¸" ho∞c "không t˜Ïng t¸") ∫ o Î t˜Ïng t¸ gi˙a chúng, khi ó có th∫ coi nhiªm vˆ này nh˜

mÎt vßn ∑ phân lo§i và s˚ dˆng bßt k˝ ph˜Ïng pháp phân lo§i hÂc máy nào nh˜ SVM, các mô hình Entropy tËi a, vv ∫ phân lo§i các o§n v´n b£n. G¶n ây, các mô hình hÂc sâu nh˜ m§ng CNN, LSTM ã ˜Òc ch˘ng minh là rßt hiªu qu£ trong nhi∑u vßn ∑ phân lo§i. Có mÎt sË nghiên c˘u ã áp dˆng các kˇ thu™t hÂc sâu ∫ o l˜Ìng s¸ t˜Ïng Áng, chØng h§n nh˜ [5, 40].

Th¸c t∏, các mô hình hÂc sâu t§o nhi∑u lÒi th∏ vì nó có kh£n´ng t¸ Îng hÂc các ∞c tr˜ng tr¯u t˜Òng thông qua các t¶ng khác nhau cıa các mô hình m§ng. Tuy nhiên, nh˜ là mÎt ∞c i∫m chính cıa hÂc thËng kê, nh˙ng mô hình nh˜

v™y chøhiªu qu£khi d˙liªu hußn luyªn là ılÓn, ∞c biªt là Ëi vÓi các mô hình m§ng nÏ-ron sâu. Trong các nghiên c˘u [62, 107], các tác gi£ ã chø rõ nh˙ng lÒi th∏ khác nhau cıa ph˜Ïng pháp hÂc sâu khi x˚ l˛ các vßn ∑ d˙ liªu lÓn. Các tác gi£ cÙng ã ch˘ng minh r¨ng các ph˜Ïng pháp hÂc máy truy∑n thËng cho hiªu sußt tËt hÏn vÓi l˜Òng d˙ liªu ¶u vào ít hÏn. Khi l˜Òng d˙ liªu t´ng v˜Òt quá mÎt giá tr‡ nhßt ‡nh, hiªu sußt cıa các ph˜Ïng pháp hÂc máy truy∑n thËng tr nên Ín ‡nh, trong khi hiªu sußt cıa ph˜Ïng pháp hÂc sâu t´ng lên theo m˘c t´ng cıa l˜Òng d˙ liªu. Hình 4.1 cho thßy mËi quan hª gi˙a Î lÓn cıa t™p d˙ liªu vÓi hiªu sußt cıa các mô hình hÂc máy truy∑n thËng và các mô hình hÂc sâu.

Hình 4.1: Quan hª gi˙a d˙ liªu và hiªu sußt cıa các mô hình hÂc máy

Nh˜ v™y, Ëi vÓi các bài toán mà t™p d˙ liªu ch˜a ı lÓn thì làm th∏ nào ∫

có th∫ áp dˆng mÎt cách hiªu qu£ các mô hình hÂc sâu. MÎt vßn ∑ ∞t ra là các mô hình hÂc sâu có th∫ ch˘a trong cßu trúc cıa nó các lo§i thông tin khác có th∫ hÂc ˜Òc t¯các mô hình khác hay không. i∑u này rßt áng chú ˛, trong tr˜Ìng hÒp bài toán có th∫ nh™n ˜Òc thêm mÎt sËnguÁn thông tin phong phú t¯các mô hình khác và muËn tích hÒp các nguÁn thông tin này vào các mô hình hÂc sâu. HÏn n˙a, d˙ liªu h‰i áp trong các hª thËng cQA th˜Ìng là d˙ liªu th˜a, do ó áp dˆng các ph˜Ïng pháp trích rút ∞c tr˜ng truy∑n thËng d¸a trên phân tích cú pháp và ng˙ nghæa câu h‰i có th∫ ch˜a khai thác h∏t các thông tin trong câu h‰i.

T¯nh˙ng nh™n xét trên, trong ch˜Ïng này, lu™n án s≥ ∑ c™p ∏n vßn ∑ xây d¸ng các mô hình hÂc sâu cho bài toán có t™p d˙ liªu nh‰, th˜a. Lu™n án ∑

xußt mô hình mÓi tích hÒp nhi∑u nguÁn thông tin khác nhau vào các mô hình hÂc sâu ∫ c£i thiªn Î chính xác cıa viªc o l˜Ìng Î t˜Ïng t¸ gi˙a các o§n v´n b£n ng≠n. Trong ó, mÈi câu h‰i, câu tr£ lÌi trong cQA s≥ ˜Òc xem xét nh˜ là mÎt o§n v´n b£n ng≠n. Mô hình xây d¸ng c¶n tính toán Î t˜Ïng t¸

gi˙a câu h‰i mÓi vÓi các câu h‰i trong kho l˜u tr˙cıa cQA sau ó x∏p h§ng các câu h‰i t˜Ïng t¸tìm ˜Òc theo Î t˜Ïng t¸ cıa chúng vÓi câu h‰i mÓi. Vßn ∑

này là rßt c¶n thi∏t cho bßt k˝ hª thËng cQA nào. ∫ §t ˜Òc mˆc tiêu này, tr˜Óc tiên nghiên c˘u d¸a trên CNN, BLSTM, các mô hình hÂc sâu rßt thành công, ∫ hình thành vßn ∑ o l˜Ìng s¸ giËng nhau gi˙a hai câu h‰i. Sau ó lu™n án ∞t mˆc tiêu m rÎng các mô hình này ∫ tích hÒp thông tin bÍ sung t¯ các nguÁn khác thu ˜Òc t¯các mô hình khác. Ngoài ra lu™n án cÙng nghiên c˘u xây d¸ng mô hình d¸a trên mô hình bi∫u diπn ngôn ng˙ tiên ti∏n BERT cho vßn ∑ ánh giá Î t˜Ïng t¸ gi˙a các câu h‰i. Nhi∑u lo§i thông tin bÍ sung s≥ ˜Òc s˚ dˆng nh˜: các ∞c tr˜ng d¸a trên t™p nhúng t¯, các ∞c tr˜ng ngôn ng˙ nh˜ tên th¸c th∫, lo§i câu h‰i, vv ˜Òc s˚ dˆng tr¸c ti∏p ho∞c thông qua các nhãn thu ˜Òc t¯ các mô hình phân lo§i khác.

B¨ng cách tích hÒp thông tin bÍsung vào các mô hình d¸a trên CNN, BLSTM, BERT, cuËi cùng s≥ có ˜Òc s¸ bi∫u diπn k∏t hÒp ch˘a tßt c£ thông tin v∑ hai câu h‰i ¶u vào và mËi quan hª gi˙a chúng, ˜Òc bi∫u diπn d˜Ói d§ng mÎt véc-tÏ ∞c tr˜ng duy nhßt. Sau ó, véc-tÏ này ˜Òc s˚ dˆng làm ¶u vào cho mÎt bÎ

phân lo§i nh˜ MLP, ˜Òc bi∏t ∏n nh˜ là các lÓp ˜Òc k∏t nËi ¶y ı cho giai o§n phân lo§i.

4.2 Mô t£ bài toán

Bài toán gi£i quy∏t trong Ch˜Ïng IV ˜Òc mô t£ nh˜ sau:

Cho câu h‰i mÓi q⇤ và mÎt t™p D các c∞p câu h‰i-câu tr£ lÌi trong cÏ s d˙

liªu. Các câu h‰i, câu tr£ lÌi ˜Òc trình bày d˜Ói d§ng ngôn ng˙ t¸ nhiên. T™p

D gÁm các c∞p câu h‰i-câu tr£ lÌi ˜Òc l˜u tr˙trong các hª thËng cQA, kí hiªu

D={qi,{aij}}. C¶n tìm trong t™pD các câu h‰i t˜Ïng t¸(t˜Ïng t¸ v∑ m∞t ng˙

nghæa) vÓi câu h‰i mÓi q⇤, sau ó x∏p h§ng các câu h‰i t˜Ïng t¸ này theo Î

t˜Ïng t¸ cıa chúng vÓi câu h‰i mÓi q⇤.

Nhiªm vˆ tìm ki∏m các câu h‰i trong D t˜Ïng t¸ câu h‰i mÓi q⇤ có th∫ xem xét nh˜là mÎt vßn ∑ phân lo§i. Trong ó mÈi câu h‰i qi trong D s≥ ˜Òc phân lo§i vào mÎt trong hai lÓp “relevant” ho∞c “irrelevant”. Nghæa là câu h‰i qi trong

D ˜Òc phân vào lÓp “relevant” n∏u nó t˜Ïng t¸ vÓi câu h‰i mÓi q⇤, ng˜Òc l§i nó s≥ ˜Òc phân vào lÓp “irrelevant”.

X∏p h§ng các {qi} trong D ˜Òc mô hình hóa bi mÎt hàm sË f :Q⇥D!R, trong ó Q là t™p các câu h‰i mÓi. Hàm f có th∫ mô hình hóa nh˜ mÎt hàm tuy∏n tính f(q⇤,{qi,{aij}}) = w~ · (q⇤,{qi,{aij}}), trong ó w~ là mô hình và

(q⇤,{qi,{aij}}) cung cßp mÎt s¸ bi∫u diπn véc-tÏ cıa c∞p (q⇤,{qi,{aij}}).

Ch˜Ïng này ∑ xußt xây d¸ng các mô hình khác nhau ∫ hÂc f t¯ các m®u và sinh ra i∫m sË d¸ oán dùng ∫ x∏p h§ng các câu h‰i trong D.

4.3 Các ph˜Ïng pháp ti∏p c™n và ∑ xußt

Ph¶n này cıa lu™n án s≥ trình bày các ph˜Ïng pháp ti∏p c™n trong viªc gi£i quy∏t vßn ∑ xác ‡nh i∫m sË t˜Ïng t¸gi˙a các câu h‰i trong cQA sau ó d¸a vào i∫m sË t˜Ïng t¸ này ∫ x∏p h§ng các câu h‰i. Lu™n án xây d¸ng các mô hình khác nhau bao gÁm: mô hình d¸a trên m§ng nÏ-ron sâu s˚ dˆng CNN, mô hình d¸a trên m§ng nÏ-ron sâu s˚ dˆng BLSTM, mô hình d¸a trên m§ng nÏ-ron sâu tích hÒp thêm nguÁn tri th˘c bên ngoài.

4.3.1 NguÁn tri th˘c bên ngoài (External Knowledge - EK)

Các ∞c tr˜ng thông th˜Ìng

d˙ liªu D, bao gÁm:

T lª gi˙a sË t¯ cıa q⇤ và qi: ∫ ánh giá s¸ liên quan gi˙a q⇤ và (qi,{aij})

lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sË t¯ gi˙a q⇤ và qi.

T lª gi˙a sË câu (sentence) cıaq⇤ vàqi: ∫ ánh giá s¸liên quan gi˙a q⇤ và

(qi,{aij}) lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sËcâu gi˙aq⇤ và qi.

T lª gi˙a sË t¯ cıaq⇤ và{aij}: ∫ ánh giá s¸ liên quan gi˙a q⇤ và(qi,{aij})

lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sË t¯ gi˙a q⇤ và {aij}.

T lª gi˙a sË câu (sentence) cıa q⇤ và {aij}: ∫ ánh giá s¸liên quan gi˙a q⇤

và (qi,{aij}) lu™n án s˚ dˆng ∞c tr˜ng là t lª v∑ sË câu gi˙aq⇤ và {aij}. Mô hình túi t¯(Bag of word): bi∫u diπn mÈi q⇤, qi d˜Ói d§ng mÎt véc-tÏ và s˚

dˆng các Î o t˜Ïng t¸ ∫ ánh giá ÎgiËng nhau gi˙a 2 véc-tÏ. Tr˜Óc tiên các t¯ d¯ng ˜Òc lo§i b‰tr˜Óc khi bi∫u diπn các câu h‰i d˜Ói d§ng các véc-tÏ. Các

Î o s˚dˆng trong nghiên c˘u này bao gÁm: euclidean, manhattan, minkowski, cosine, jaccard.

ChÁng chéo t¯ (word overlap): Lu™n án s˚ dˆng sË l˜Òng các t¯ giËng nhau gi˙a hai câu h‰i q⇤ và qi nh˜ là mÎt giá tr‡ nh¨m ánh giá Î t˜Ïng t¸ gi˙a chúng.

ChÁng chéo danh t¯ (noun overlap). Lu™n án s˚ dˆng bÎ công cˆ x˚l˛ ngôn ng˙ t¸ nhiên (NLTK) ∫ gán th¥ t¯ lo§i cho mÈi câu h‰i q⇤ và qi. Sau ó s˚

dˆng sË l˜Òng các danh t¯ giËng nhau gi˙a hai câu h‰i q⇤ và qi nh˜ là mÎt giá tr‡ nh¨m ánh giá Î t˜Ïng t¸ gi˙a chúng.

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 97 - 119)

Tải bản đầy đủ (PDF)

(187 trang)