3 Phân bÍ chßt l˜Òng các câu tr£ lÌi trên Yahoo!Answers [14]
1.6 Ví dˆ v∑ mËi quan hª gi˙a các véc-tÏ
(https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/)
VÓi cách bi∫u diπn t¯ d˜Ói d§ng véc-tÏ phân tán nh˜ v™y thì mÎt t¯ có th∫
mang ˜Òc nhi∑u d˙ liªu liên quan hÏn. Các giá tr‡ thành ph¶n cıa véc-tÏ bi∫u diπn cách tóm l˜Òc ˛nghæa cıa mÎt t¯qua mËi liên quan tÓi các chi∑u (chı ∑), và chúng ta có th∫ n¨m b≠t các mËi quan hª gi˙a các t¯ mÎt cách áng ng§c nhiên. VÓi cách bi∫u diπn nh˜ v™y, ng˜Ìi ta khám phá ra r¨ng các véc-tÏ mang l§i c£ thông tin v∑ cú pháp và ng˙ nghæa cıa các t¯ mÎt m˘c Î nào ó ∫
Word2Vec
Word2vec là mÎt d§ng bi∫u diπn phân tán, giúp bi∫u diπn 1 t¯ d§ng one-hot vector thành mÎt véc-tÏ có sË chi∑u nh‰ hÏn rßt nhi∑u, và có th∫ tính ˜Òc s¸
t˜Ïng quan gi˙a hai t¯ d¸a vào tích vô h˜Óng gi˙a hai véc-tÏ bi∫u diπn hai t¯
ó.
Word2vec không ph£i là mÎt gi£i thu™t riêng l¥ mà là mÎt nhóm các mô hình liên quan ˜Òc s˚dˆng ∫ sinh ra các véc-tÏ t¯. Word2vec ˜Òc t§o ra bi Mikolov và các cÎng s¸ [65] t§i Google. Mikolov và cÎng s¸không ph£i là ng˜Ìi
¶u tiên s˚ dˆng cách bi∫u diπn véc-tÏ phân tán t¯, nh˜ng h ã chø ra cách làm th∏ nào ∫ gi£m bÓt s¸ph˘c t§p v∑ m∞t tính toán cıa viªc nghiên c˘u cách bi∫u diπn nh˜v™y, làm cho nó tr nên th¸c t∏ ∫ nghiên c˘u véc-tÏ t¯trên mÎt l˜Òng d˙ liªu rßt lÓn.
Các thu™t toán xây d¸ng véc-tÏ t¯ ã ˜Òc các nhà nghiên c˘u khác phân tích gi£i thích và ã ˜Òc ch˘ng minh là mang ˛ nghæa ng˙ nghæa và rßt h˙u ích trong nhi∑u tr˜Ìng hÒp s˚ dˆng khác nhau, t¯ NLP ∏n phân tích d˙ liªu luÁng d˙liªu m§ng. Trong ó có hai mô hình ˜Òc giÓi thiªu là Continuous bag- of-words (CBOW) và Skip-gram. Công viªc cıa mô hình CBOW là tiên oán mÎt t¯thông qua mÎt ng˙c£nh cho tr˜Óc. Và Skip-gram thì ng˜Òc l§i, dùng ∫
tiên oán nh˙ng ng˙ c£nh thông qua ¶u vào là mÎt véc-tÏ t¯. V´n b£n ˜Òc
˜a qua mô hình CBOW sau ó qua các t¶ng©n (hidden layer) rÁi qua mô hình Skip gram ∫ ra k∏t qu£ cuËi cùng.
Mô hình túi t¯ liên tˆc: Mô hình túi t¯ liên tˆc (CBOW) cÏ b£n là ∫
trích xußt, d¸ oán t¯ mˆc tiêu (target word) thông qua t™p các t¯ ng˙ c£nh (contex words). MÎt lo§t các one-hot vector xung quanh t¯ mˆc tiêu ˜Òc ˜a vào mô hình ∫ tính toán và cho ra véc-tÏ §i diªn cho t¯ mˆc tiêu.
Xem xét mÎt ph¶n cıa o§n v´n b£n sau: “The recently introduced continuous Skip-gram model is an efficient method for learning high quality distributed vector representations that capture a large number of premises syntactic and semantic word relationships”.
S˚ dˆng mÎt c˚a sÍ tr˜Òt trên v´n b£n này, gi£ s˚ c˚a sÍ tr˜Òt này có kích th˜Óc b¨ng 4, t˘c là nó s≥ bao gÁm t¯ mˆc tiêu, cùng vÓi bËn t¯ tr˜Óc nó và bËn t¯sau nó ( ˜Òc gÂi là các t¯ng˙c£nh - context words) nh˜ ˜Òc minh hÂa trong Hình 1.7.