Minh hÂa phép nhân véc-tÏ ¶u vào vÓi matr ™n trÂng sË W1

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 49 - 50)

3 Phân bÍ chßt l˜Òng các câu tr£ lÌi trên Yahoo!Answers [14]

1.9 Minh hÂa phép nhân véc-tÏ ¶u vào vÓi matr ™n trÂng sË W1

VÓi các véc-tÏ ¶u vào C, hàm kích ho§t cho lÓp ©n h chø Ïn gi£n là tÍng t˜Ïng ˘ng các hàng “hot” trong W1 và chia cho C ∫ lßy trung bình. T¯ lÓp ©n

∏n lÓp ¶u ra, ma tr™n trÂng sËth˘ hai W2 có th∫ ˜Òc s˚ dˆng ∫ tính i∫m cho mÈi t¯trong t¯v¸ng, và hàm softmax ˜Òc s˚dˆng ∫ có ˜Òc s¸bi∫u diπn phân bË cıa t¯.

Mô hình Skip-gram: Mô hình Skip-gram là ng˜Òc l§i cıa mô hình CBOW. Nó ˜Òc xây d¸ng vÓi chø t¯ mˆc tiêu nh˜ là mÎt véc-tÏ ¶u vào và các t¯ ng˙

c£nh là mˆc tiêu  lÓp ¶u ra. Mô hình Skip-gram ˜Òc minh hÂa nh˜ trong Hình 1.8.

Hàm kích ho§t cho lÓp ©n chø Ïn gi£n là sao chép các dòng t˜Ïng ˘ng t¯

ma tr™n trÂng sË W1 (tuy∏n tính) nh˜ chúng ta ã thßy tr˜Óc ây. T§i lÓp ¶u ra, bây giÌ chúng ta ˜a ra các phân bË a th˘c C thay vì chø mÎt. Mˆc tiêu hußn luyªn là ∫ gi£m thi∫u các lÈi d¸ oán tÍng hÒp trên tßt c£ các t¯ ng˙

c£nh trong lÓp ¶u ra. Trong ví dˆ cıa chúng tôi, t¯ ¶u vào s≥ là "learning", và chúng tôi hy vÂng tìm thßy “an”, “efficient”, “method”, “for”, “high”, “quality”, “distributed”, “vector” t§i lÓp ¶u ra.

Th˜ viªn Gensim

Gensim9 là mÎt th˜ viªn NLP ˜Òc cài ∞t b¨ng Python. Gensim ˜Òc thi∏t k∏ ∞c biªt ∫ làm viªc vÓi nh˙ng t™p v´n b£n lÓn s˚ dˆng các luÁng d˙ liªu và các thu™t toán gia t´ng hiªu qu£. Gensim hÈ trÒ tri∫n khai các thu™t toán nh˜

Dirichlet processes theo th˘ b™c (HDP), phân tích ng˙ nghæa ti∑m ©n (Latent Semantic Analysis - LSA) và phân bÍDirichlet ti∑m ©n (LDA), cÙng nh˜tf-idf, word2vec và doc2vec.

1.5.2 M§ng nÏ-ron tích ch™p

M§ng nÏ-ron tích ch™p là mÎt trong nh˙ng mô hình hÂc sâu tiên ti∏n giúp xây d¸ng ˜Òc nh˙ng hª thËng thông minh vÓi Îchính xác cao nh˜ hiªn nay. Ph¶n này cıa lu™n án s≥ trình bày v∑ tích ch™p cÙng nh˜ ˛ t˜ng cıa mô hình CNN trong các nhiªm vˆ NLP.

Tích ch™p

Tích ch™p (convolution) ˜Òc s˚dˆng ¶u tiên trong x˚l˛ tín hiªu sË(signal processing). NhÌ vào nguyên l˛ bi∏n Íi thông tin, các nhà khoa hÂc ã áp dˆng kæ thu™t này vào x˚ l˛ £nh và video sË. ∫ dπ hình dung, chúng ta có th∫

xem tích ch™p nh˜ mÎt c˚a sÍ tr˜Òt (sliding window) áp ∞t lên mÎt ma tr™n. Hình1.10 minh hÂa cÏ ch∏ cıa tích ch™p.

Một phần của tài liệu Hỏi đáp tự động sử dụng nhiều nguồn tri thức (Trang 49 - 50)

Tải bản đầy đủ (PDF)

(187 trang)