Các nghiên c˘u liên quan v∑ ánh giá Î phù hÒp cıa câu tr£ lÌi

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 41 - 61)

Các nghiên c˘u g¶n ây trong viªc ánh giá chßt l˜Òng cıa các câu tr£ lÌi cung cßp bi các hª thËng cQA th˜Ìng thông qua các ∞c tr˜ng bi∫u diπn v´n b£n cıa câu h‰i, câu tr£ lÌi [7], nh˜ là Î dài cıa câu h‰i, Î dài cıa câu tr£

lÌi, chÁng chéo t¯ gi˙a câu h‰i vÓi các câu tr£ lÌi cıa chúng, tø lª Î dài gi˙a câu h‰i và các câu tr£ lÌi cıa nó. Các ∞c tr˜ng thông dˆng khác s˚ dˆng trong phân tích chßt l˜Òng là s˚ dˆng Î o phÍ bi∏n và t˜Ïng tác xã hÎi [60], chØng h§n nh˜ sË l˜Òng cıa câu tr£ lÌi tËt nhßt chÂn bi ng˜Ìi s˚ dˆng, i∫m ánh giá (votes) câu tr£lÌi cıa ng˜Ìi s˚dˆng, tø lª chßp nh™n cıa câu tr£lÌi. Nghiên c˘u cıa Fengshi Jing và Qingpeng Zhang [23] k∏t hÒp thông tin cÎng Áng và phân tích v´n b£n câu h‰i và câu tr£ lÌi trong viªc l¸a chÂn câu tr£ lÌi. Các thông tin cÎng Áng bao gÁm sË l˜Òng bình chÂn, chuyên môn, th©m quy∑n cıa ng˜Ìi tr£ lÌi. Nghiên c˘u cıa Yang Deng và các cÎng s¸ [94] gi£i quy∏t vßn ∑

l˜Ìng m˘c Î liên quan gi˙a các câu h‰i và câu tr£ lÌi tóm t≠t ∫ gi£m bÓt tác

Îng nhiπu t¯ các câu tr£ lÌi ban ¶u.

Ti∏p c™n khác là s˚ dˆng s¸ k∏t hÒp cıa các ∞c tr˜ng nh˜ là các ∞c tr˜ng t¯ v¸ng, các ∞c tr˜ng cú pháp, thông tin ng˜Ìi s˚ dˆng và Î o s¸ giËng nhau gi˙a câu h‰i và các câu tr£ lÌi cıa nó. ∫ ánh giá s¸ giËng nhau gi˙a các câu h‰i và các câu tr£ lÌi, mÎt vài nghiên c˘u g¶n ây ã s˚ dˆng s¸ bi∫u diπn véc-tÏ t¯ [7, 88, 100]. ∫ nh™n ra các câu tr£ lÌi chßt l˜Òng cao, Hu và các cÎng s¸ [39] hÂc k∏t hÒp s¸ bi∫u diπn cho mÈi c∞p câu h‰i - câu tr£ lÌi bi lßy c£ các ∞c tr˜ng v´n b£n và phi v´n b£n nh˜ là ¶u vào cıa mô hình. ∫ l¸a chÂn các câu tr£ lÌi chßt l˜Òng cao, Yu [98] và Zhou [109] ∑ xußt các mô hình d¸a trên m§ng nÏ-ron ∫ bi∫u diπn các câu trong câu h‰i và câu tr£ lÌi. Ëi vÓi viªc so khÓp gi˙a câu h‰i và câu tr£ lÌi, mÎt vài ph˜Ïng pháp ã s˚dˆng các kæ

thu™t hÂc sâu ∫ hÂc s¸ bi∫u diπn phân bÍcıa mÈi c∞p câu h‰i - câu tr£ lÌi và s˚ dˆng nó nh˜ là ¶u vào cıa mô hình hÂc sâu. Thay vì ph£i trích rút mÎt t™p lÓn các ∞c tr˜ng, các ti∏p c™n này hÂc các ∞c tr˜ng ng˙ nghæa ∫ bi∫u diπn các câu h‰i và các câu tr£ lÌi. Nghiên c˘u cıa Lishuang Li và các cÎng s¸ [59]

∑ xußt khai thác m§ng t˜Ïng tác nhi∑u cßp Îm£nh (Multiple Fragment-level Interactive Network - MFIN) cho nhiªm vˆ này. MFIN có th∫ m rÎng không gian tìm ki∏m t¯cßp Ît¯ ∏n cßp Îphân o§n, có lÒi cho viªc thu th™p thêm thông tin theo ng˙ c£nh. Trong MFIN, các tác gi£ áp dˆng cÏ ch∏ chú ˛ nhi∑u m˘c Îphân phËi ∫chÂn các c∞p phân o§n chính và §t ˜Òc nhi∑u t˜Ïng tác cßp phân o§n. K∏t qu£ th˚ nghiªm ch˘ng minh r¨ng mô hình ∑ xußt là hiªu qu£so vÓi nhi∑u ph˜Ïng pháp hiªn có trên bÎd˙liªu cQA WikiQA và SemEval. Nghiên c˘u cıa Zhang và các cÎng s¸[101] xây d¸ng các mô hình d¸a trên m§ng BLSTM và cÏ ch∏ chú ˛ cho nhiªm vˆ l¸a chÂn câu tr£ lÌi trong các cQA. K∏t qu£ nghiên c˘u báo cáo r¨ng mô hình mÓi c£i thiªn Î chính xác 3,8% so vÓi mô hình LSTM truy∑n thËng. Trong nghiên c˘u [35], các tác gi£ ã khám phá mô hình m§ng LSTM cho vßn ∑ l¸a chÂn câu tr£lÌi trong cQA. Nghiên c˘u ∑

xußt tích hÒp s¸ chú ˛ có giám sát (supervised attention) vào mô hình LSTM. Cˆ th∫, tác gi£ t™n dˆng ng˙ nghæa t¯ v¸ng t¯ bên ngoài ∫ h˜Óng d®n viªc hÂc các trÂng sË cho các c∞p câu h‰i. Mô hình ∑ xußt hÂc ˜Òc nhi∑u ˛ nghæa hÏn cho phép th¸c hiªn tËt hÏn mô hình cÏ b£n. Nghiên c˘u cıa Qunbo Wang và các cÎng s¸ [76] ∑ xußt mÎt n∑n t£ng mÓi tích hÒp hÂc t™p tích c¸c (active learning) và t¸ hÂc (self-paced learning) trong viªc hußn luyªn các mô hình l¸a

chÂn câu tr£ lÌi. Nghiên c˘u ∑ xußt mÎt ph˜Ïng pháp ‡nh l˜Òng không ch≠c ch≠n d¸a trên m§ng th¶n kinh Bayes ∫ h˜Óng d®n hÂc t™p tích c¸c và t¸ hÂc theo nh‡p Î trong cùng mÎt quá trình l∞p l§i cıa hußn luyªn mô hình. Các k∏t qu£ th¸c nghiªm ch˘ng minh ph˜Ïng pháp ˜Òc ∑ xußt có th∫ §t ˜Òc hiªu sußt tËt hÏn so vÓi các ph˜Ïng pháp hÂc t™p tích c¸c sâu khác. HÏn n˙a, ph˜Ïng pháp này có th∫ dπ dàng ˜Òc m rÎng cho các nhiªm vˆkhác nh˜ truy xußt thông tin. Nghiên c˘u [85] ã khám phá match-LSTM ∫ l¸a chÂn câu tr£

lÌi trong cQA. Nghiên c˘u ã chø ra r¨ng s¸ chú ˛ t¯ng t¯ trong mô hình gËc không ho§t Îng tËt trên các c∞p câu h‰i - câu tr£ lÌi trong các cQA. Do v™y, các tác gi£ ã ∑ xußt tích hÒp s¸ chú ˛ có giám sát vào match-LSTM. Nghiên c˘u t™n dˆng ng˙nghæa t¯ bên ngoài ∫ h˜Óng d®n viªc hÂc các trÂng sËchú ˛

cho các c∞p câu h‰i - câu tr£ lÌi. Mô hình ∑ xußt trong [85] ã §t ˜Òc Î o x∏p h§ng (MAP) là 78,62% trên bÎd˙liªu SemEval 2016 và 88,38% trên bÎ d˙

liªu SemEval 2017.

Ëi vÓi các câu h‰i ‡nh nghæa, ví dˆ nh˜ các câu h‰i d§ng “What is atom?” ho∞c “Who is Aaron Copland?” ã ˜Òc ng˜Ìi dùng s˚dˆng nhi∑u trên các trang tìm ki∏m cÙng nh˜ các cQA. Nghiên c˘u cıa Toba và các cÎng s¸ [87] ã s˚

dˆng nhi∑u lo§i ∞c tr˜ng trích rút t¯các c∞p câu h‰i - câu tr£lÌi nh˜là các ∞c tr˜ng t¯ v¸ng, các ∞c tr˜ng thËng kê (ví dˆnh˜ sË câu trong câu tr£ lÌi, sË t¯

trong câu h‰i, sË t¯ trong câu tr£ lÌi, vv), Î t˜Ïng t¸ gi˙a câu h‰i và các câu tr£ lÌi cıa nó. Sau ó nghiên c˘u này s˚ dˆng bÎ phân lo§i SVM ∫ phân lo§i cho mÈi câu tr£ lÌi vào các lÓp “good” ho∞c “bad” và §t ˜Òc Îchính xác cao nhßt là 81,56%. Có nhi∑u nghiên c˘u ã ∑ c™p ∏n viªc tìm ki∏m các câu tr£

lÌi chính xác cho mÎt câu h‰i, chØng h§n nh˜trong [36, 104]. Nh˙ng nghiên c˘u này d¸a trên mˆc tiêu cıa câu h‰i ∫ tìm câu tr£ lÌi t˜Ïng ˘ng s˚ dˆng nhi∑u nguÁn tài nguyên khác nhau. Trong bài báo [36], các tác gi£ ã mô t£ mÎt t™p hÒp các chi∏n l˜Òc mÓi ∫ tr£ lÌi các câu h‰i ‡nh nghæa t¯ nhi∑u nguÁn: cÏ s

d˙liªu ˜Òc biên d‡ch sÆn bao gÁm các m®u câu tr£lÌi, t¯ i∫n iªn t˚d¸a trên Web và các tài liªu ˜Òc truy xußt b¨ng công nghª truy xußt thông tin truy∑n thËng. Các th¸c nghiªm ˜Òc xây d¸ng trên t™p d˙ liªu h‰i áp TREC 2003

§t k∏t qu£ Î o F-measure cao nhßt là 55,5%. Nghiên c˘u cıa Zhang [104] k∏t hÒp các nguÁn tài nguyên khác nhau nh˜t™p hÒp lÓn các tài liªu và mÎt sË

trang web nÍi ti∏ng có ch˘a tri th˘c phong phú nh˜Encyclopedia5, Wikipedia6, t¯ i∫n Merriam-Webster7 và t¯ i∫n ti∫u s˚8 ∫ tìm ki∏m câu tr£ lÌi cho câu h‰i ‡nh nghæa. Nghiên c˘u ã th¸c nghiªm trên t™p d˙liªu h‰i áp TREC 2004 và ã §t ˜Òc Î o F-measure cao nhßt là 40,4%.

Các nghiên c˘u trên ã th¸c hiªn tËt viªc l¸a chÂn câu tr£ lÌi chßt l˜Òng cho các câu h‰i trên cQA d¸a trên mËi quan hª gi˙a câu h‰i và câu tr£lÌi, k∏t hÒp vÓi các thông tin cıa ng˜Ìi dùng nh˜ Î tin t˜ng cıa ng˜Ìi tr£ lÌi, ánh giá cıa ng˜Ìi s˚ dˆng. Tuy nhiên, các ti∏p c™n này mÓi chø t™p trung mô hình hóa quan hª ng˙ nghæa gi˙a câu h‰i và các câu tr£ lÌi cıa nó, không có s¸ xem xét

∫ ánh giá Î phù hÒp cıa các câu tr£lÌi.

1.5 Các ki∏n th˘c cÏ s

Trong ph¶n này lu™n án s≥ trình bày nh˙ng ki∏n th˘c cÏ s liên quan tr¸c ti∏p ∏n các nÎi dung nghiên c˘u trong các ch˜Ïng ti∏p theo. Các ki∏n th˘c này bao gÁm: t™p nhúng t¯, m§ng nÏ-ron tích ch™p, m§ng bÎ nhÓ dài-ng≠n, các Î

o phân lo§i và x∏p h§ng.

1.5.1 T™p nhúng t¯

Trong x˚ l˛ v´n b£n, khi d˙ liªu ¶u vào là mÎt t¯ hay mÎt v´n b£n, máy tính s≥ g∞p khó kh´n trong viªc phân biªt và so sánh ˜Òc t¯ ó vÓi các t¯khác bi vì có quá ít d˙ liªu và máy tính ch˜a ˜Òc hÂc ∫ có th∫ “hi∫u” ˜Òc nh˙ng t¯ ó. Nh˜ v™y vßn ∑ ˜Òc ∞t ra  ây là làm sao ∫ bi∫u diπn mÎt t¯ trong máy tính vÓi nhi∑u thông tin nhßt có th∫. Cách gi£i quy∏t  ây là bi∫u diπn t¯ (word) d˜Ói d§ng mÎt véc-tÏ. Trong NLP, viªc bi∫u diπn mÎt t¯ d˜Ói d§ng véc-tÏ óng vai trò c¸c k˝ quan trÂng. Nó giúp ích rßt nhi∑u trong viªc tìm t¯

g¶n nghæa, trái nghæa, mô ph‰ng câu, th™m chí là tìm các câu có nghæa giËng nhau.

5www.encyclopedia.com 6www.wikipedia.com 7www.mw.com 8www.s9.com

One-hot vector

Cách Ïn gi£n nhßt ∫ bi∫u diπn t¯ d˜Ói d§ng véc-tÏ là dùng one-hot vector. One-hot vector cıa mÎt t¯ là mÎt véc-tÏ vÓi các trÂng sË bi∫u diπn cho t¯ ó. Cách véc-tÏ hóa mÎt t¯cho tr˜Óc chø Ïn gi£n là t§o ra mÎt véc-tÏ trong ó các ph¶n t˚liên quan ˜Òc thi∏t l™p là 1, và tßt c£ các ph¶n t˚ khác là 0. Nói cách khác, mÈi véc-tÏ s≥ có Î dài b¨ng vÓi sË t¯ trong t¯ i∫n, và mÈi véc-tÏ chø có 1 ph¶n t˚ b¨ng 1 t§i v‡ trí t˜Ïng ˘ng vÓi v‡ trí cıa t¯ ó trong t¯ i∫n, còn l§i tßt c£ các ph¶n t˚ khác có giá tr‡ là 0.

Nh˜Òc i∫m cıa ph˜Ïng pháp bi∫u diπn này là sËl˜Òng chi∑u cıa mÎt véc-tÏ

rßt lÓn nên £nh h˜ng ∏n viªc x˚ l˛ cÙng nh˜ l˜u tr˙. Ví dˆ nh˜ti∏ng Anh có kho£ng 1 triªu t¯, mÈi t¯ là véc-tÏ 1 triªu chi∑u. Gi£ s˚ cho mÎt o§n v´n b£n ti∏ng Anh có 200 t¯ thì chúng ta ã ph£i s˚ dˆng ma tr™n có kích th˜Óc 200 dòng ⇥ 1 triªu cÎt ∫ biπu diπn véc-tÏ cho các t¯ trong v´n b£n này. HÏn n˙a, bi∫u diπn theo d§ng one-hot vector nh˜ th∏ này s≥ không gi£i quy∏t ˜Òc mËi liên hª gi˙a các t¯ vÓi nhau, không xác ‡nh ˜Òc s¸t˜Ïng quan gi˙a các t¯ vì tích vô h˜Óng cıa hai s¸ bi∫u diπn véc-tÏ cıa hai t¯ nào cÙng b¨ng 0.

Biπu diπn phân tán

Vì nh˙ng nh˜Òc i∫m cıa one-hot vector nên ng˜Ìi ta ã ˜a ra khái niªm bi∫u diπn phân tán (distributed representation). Phân tán  ây nghæa là t¶n sußt phân bË, xußt hiªn cıa mÎt t¯nào ó trên mÈi chı ∑ ho∞c mÈi o§n v´n b£n khác nhau. B¨ng cách s˚ dˆng mÎt véc-tÏ vÓi vài tr´m chi∑u, mÈi t¯ s≥ ˜Òc bi∫u diπn bi t™p các trÂng sË cıa t¯ng ph¶n t˚ trong nó. Nh˜ v™y, thay vì k∏t nËi 1-1 gi˙a các ph¶n t˚ trong véc-tÏ và 1 t¯, bi∫u diπn phân tán s≥ là dàn tr£i tßt c£ các thành ph¶n cıa véc-tÏ, và mÈi ph¶n t˚ trong véc-tÏ s≥ góp ph¶n ‡nh nghæa quan hª gi˙a t¯ này vÓi nhi∑u t¯ khác trong t¯ i∫n. Hình 1.5 là mÎt ví dˆ v∑ bi∫u diπn phân tán t¯.

T¯ ví dˆ  trên ta có th∫ thßy r¨ng, vßn ∑ cıa one-hot vector ã ˜Òc gi£i quy∏t. S¸ t˜Ïng Áng gi˙a t¯ “King” và “Queen” trên chı ∑ “Royalty” có mËi liên hª rßt lÓn Ëi vÓi nhau, ng˜Òc l§i t¯ “Woman” không có nhi∑u mËi t˜Ïng

Áng vÓi t¯“Queen” trên chı ∑ “Royalty” nh˜ng l§i có mËi quan hª rßt lÓn vÓi t¯ “Queen” trên chı ∑ “Femininity”.

Hình 1.5: Ví dˆv∑ bi∫u diπn phân tán t¯(https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/) (https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/) t˜Ïng t¸. Ví dˆ ta lßy véc-tÏ cıa t¯ “King” em tr¯ vÓi véc-tÏ cıa t¯ “Man” rÁi cÎng vÓi véc-tÏ cıa t¯ “Woman” thì chúng ta s≥ ˜Òc mÎt véc-tÏ mÓi mà t¯ g¶n giËng véc-tÏ ó nhßt là “Queen”. Hình 1.6 là ví dˆ v∑ mËi quan hª gi˙a các véc-tÏ.

K∏t qu£ cıa King – Man + Woman = Queen

Hình 1.6: Ví dˆ v∑ mËi quan hª gi˙a các véc-tÏ

(https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/)

VÓi cách bi∫u diπn t¯ d˜Ói d§ng véc-tÏ phân tán nh˜ v™y thì mÎt t¯ có th∫

mang ˜Òc nhi∑u d˙ liªu liên quan hÏn. Các giá tr‡ thành ph¶n cıa véc-tÏ bi∫u diπn cách tóm l˜Òc ˛nghæa cıa mÎt t¯qua mËi liên quan tÓi các chi∑u (chı ∑), và chúng ta có th∫ n¨m b≠t các mËi quan hª gi˙a các t¯ mÎt cách áng ng§c nhiên. VÓi cách bi∫u diπn nh˜ v™y, ng˜Ìi ta khám phá ra r¨ng các véc-tÏ mang l§i c£ thông tin v∑ cú pháp và ng˙ nghæa cıa các t¯  mÎt m˘c Î nào ó ∫

Word2Vec

Word2vec là mÎt d§ng bi∫u diπn phân tán, giúp bi∫u diπn 1 t¯ d§ng one-hot vector thành mÎt véc-tÏ có sË chi∑u nh‰ hÏn rßt nhi∑u, và có th∫ tính ˜Òc s¸

t˜Ïng quan gi˙a hai t¯ d¸a vào tích vô h˜Óng gi˙a hai véc-tÏ bi∫u diπn hai t¯

ó.

Word2vec không ph£i là mÎt gi£i thu™t riêng l¥ mà là mÎt nhóm các mô hình liên quan ˜Òc s˚dˆng ∫ sinh ra các véc-tÏ t¯. Word2vec ˜Òc t§o ra bi Mikolov và các cÎng s¸ [65] t§i Google. Mikolov và cÎng s¸không ph£i là ng˜Ìi

¶u tiên s˚ dˆng cách bi∫u diπn véc-tÏ phân tán t¯, nh˜ng h ã chø ra cách làm th∏ nào ∫ gi£m bÓt s¸ph˘c t§p v∑ m∞t tính toán cıa viªc nghiên c˘u cách bi∫u diπn nh˜v™y, làm cho nó tr nên th¸c t∏ ∫ nghiên c˘u véc-tÏ t¯trên mÎt l˜Òng d˙ liªu rßt lÓn.

Các thu™t toán xây d¸ng véc-tÏ t¯ ã ˜Òc các nhà nghiên c˘u khác phân tích gi£i thích và ã ˜Òc ch˘ng minh là mang ˛ nghæa ng˙ nghæa và rßt h˙u ích trong nhi∑u tr˜Ìng hÒp s˚ dˆng khác nhau, t¯ NLP ∏n phân tích d˙ liªu luÁng d˙liªu m§ng. Trong ó có hai mô hình ˜Òc giÓi thiªu là Continuous bag- of-words (CBOW) và Skip-gram. Công viªc cıa mô hình CBOW là tiên oán mÎt t¯thông qua mÎt ng˙c£nh cho tr˜Óc. Và Skip-gram thì ng˜Òc l§i, dùng ∫

tiên oán nh˙ng ng˙ c£nh thông qua ¶u vào là mÎt véc-tÏ t¯. V´n b£n ˜Òc

˜a qua mô hình CBOW sau ó qua các t¶ng©n (hidden layer) rÁi qua mô hình Skip gram ∫ ra k∏t qu£ cuËi cùng.

Mô hình túi t¯ liên tˆc: Mô hình túi t¯ liên tˆc (CBOW) cÏ b£n là ∫

trích xußt, d¸ oán t¯ mˆc tiêu (target word) thông qua t™p các t¯ ng˙ c£nh (contex words). MÎt lo§t các one-hot vector xung quanh t¯ mˆc tiêu ˜Òc ˜a vào mô hình ∫ tính toán và cho ra véc-tÏ §i diªn cho t¯ mˆc tiêu.

Xem xét mÎt ph¶n cıa o§n v´n b£n sau: “The recently introduced continuous Skip-gram model is an efficient method for learning high quality distributed vector representations that capture a large number of premises syntactic and semantic word relationships”.

S˚ dˆng mÎt c˚a sÍ tr˜Òt trên v´n b£n này, gi£ s˚ c˚a sÍ tr˜Òt này có kích th˜Óc b¨ng 4, t˘c là nó s≥ bao gÁm t¯ mˆc tiêu, cùng vÓi bËn t¯ tr˜Óc nó và bËn t¯sau nó ( ˜Òc gÂi là các t¯ng˙c£nh - context words) nh˜ ˜Òc minh hÂa trong Hình 1.7.

Hình 1.7: Minh hÂa c˚a sÍ tr˜Òt trong mô hình CBOW

Các t¯ ng˙ c£nh t§o thành lÓp ¶u vào cıa m§ng. MÈi t¯ ˜Òc mã hoá d˜Ói d§ng mÎt one-hot vector, vì v™y n∏u kích th˜Óc cıa bÎt¯v¸ng là V thì mÈi t¯

s≥ ˜Òc bi∫u diπn d˜Ói d§ng mÎt véc-tÏ V chi∑u trong ó chø mÎt thành ph¶n có giá tr‡ là 1, các thành ph¶n còn l§i có giá tr‡ là 0. Ngoài ra, m§ng còn có mÎt lÓp

©n duy nhßt và mÎt lÓp ¶u ra. Hình 1.8 minh hÂa ki∏n trúc mô hình CBOW.

Hình 1.8: Ki∏n trúc chung cıa mô hình CBOW và Skip-gram

Mˆc tiêu hußn luyªn cıa mô hình là tËi a hóa xác sußt có i∑u kiªn quan sát t¯ ¶u ra th¸c t∏ (t¯ mˆc tiêu) t¯ các t¯ ng˙ c£nh ¶u vào, cùng vÓi các véc-tÏ trÂng sË. Trong ví dˆ cıa chúng tôi, cho các t¯ ¶u vào (“an”, “efficient”, “method”, “for”, “high”, “quality”, “distributed”, “vector”) chúng tôi muËn tËi a

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 41 - 61)

Tải bản đầy đủ (PDF)

(187 trang)