Trong hunh 1, minh hӑa mӝt mҥng nѫ-ron cѫ bҧn vӟi 2 tҫng ҭn.. Kê hiӋXErn trong cic nѫ-ron biӇu diӉn hjm phi tuyӃn ttnh hjm ktch hoҥt sigmoid = 1/1 + eíx ÿѭӧc ip dөng vjo gii trӏ cӫa nѫ-
Trang 1Mã sӕ: 8.48.01.01
LUҰN VĂ17+Ҥ& SƬ
73+Ӗ&+Ë0,1+WKiQJQăP 2021
Trang 2&Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI:
4 PGS.TS NguyӉn TuҩQĈăQJ - GV Phҧn biӋn 2
5 PGS.TS HuǤnh Trung HiӃu - Ӫy viên
;iFQKұQFӫD&KӫWӏFK+ӝLÿӗQJÿiQKJLi/9Yj7UѭӣQJ.KRDTXҧQOêFKX\rQngành sau khi OXұQYăQÿmÿѭӧFVӱDFKӳDQӃXFy
CHӪ TӎCH HӜ,ĈӖNG 75ѬӢNG KHOA
KHOA HӐC VÀ KӺ THUҰT MÁY TÍNH
Trang 3ĈҤ,+Ӑ&48Ӕ&*,$73+&0 &Ӝ1*+2¬;+Ӝ,&+Ӫ1*+Ƭ$9,ӊ7 NAM 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ ĈӝFOұS± 7ӵGR± +ҥQKSK~F
Trang 4LӠI CҦM Ѫ1
ĈҫXWLrQW{L[LQÿѭӧFEj\WӓOzQJELӃWѫQVkXVҳFWӟL3*6764XҧQ7KjQK7KѫQJѭӡLÿmKѭӟQJGүQW{LWURQJVXӕWTXiWUuQKWKӵFKLӋQOXұQYăQFNJQJQKѭÿӅFѭѫQJ Nhӡ
cy QKӳQJ FKӍGүQYjJySêcӫa thҫy mj tôi mӟi cy thӇ hojn thjnh tӕWÿѭӧc ÿӅWjLOXұQYăn njy 7{L[LQÿѭӧFJӱLOӡLFҧPѫQÿӃQTXêWKҫ\F{NKRD.KRDKӑFYj.ӻWKXұWPi\WtQKÿmWUX\ӅQWKөQKӳQJNLӃQWKӭFNLQKQJKLӋPTXêEiXFKRW{LWURQJKѫQKDLQăPTXD;LQJӱLOӡLWULkQÿӃQWҩWFҧFiFWKjQKYLrQWURQJQKyP/DQJXDJH0RGHOFӫDWKҫ\7KѫYuQKӳQJVӵJL~SÿӥYjKӛWUӧWURQJVXӕWTXiWUuQKWKӵFKLӋQOXұQYăQ &XӕLFQJW{L[LQJӱLOӡLFҧPѫQFKkQWKjQKÿӃQJLDÿuQKYjEҥQEqQKӳQJQJѭӡLÿmOX{QÿӝQJYLrQӫQJKӝW{LWURQJVXӕWWKӡLJLDQKӑF&DRKӑF
7S+͛&Kt0LQKQJj\31 tháng 05 QăP
Trang 5TÓM TҲT LUҰ19Ă1
&iFJLҧLSKiS[k\GӵQJEӝWӯÿLӇQVRQJQJӳWӵÿӝQJKLӋQQD\WKѭӡQJSKҧLGӵDWUrQFiFWұSGӳOLӋXVRQJQJӳÿӇKXҩQOX\ӋQ0ӝWVӕQJKLrQFӭXJҫQÿk\FKRWKҩ\ FyWKӇkhông FҫQSKҧLVӱGөQJGӳOLӋXFRUSXVVRQJQJӳFKRYLӋFKXҩQOX\ӋQ, bҵQJFiFKKXҩQOX\ӋQ mô KuQKKӑFVkXÿӇWҥRUDEӝWKDPVӕGQJFKRYLӋFiQK[ҥWӯNK{QJJLDQFӫDQJ{QQJӳQJXӗQVDQJNK{QJJLDQQJ{QQJӳÿtFKFiFKKRjQWRjQWӵÿӝQJ0ӝWFiFKKLӇXNKiFP{KuQKVӁWuPFiFKFăQFKӍQKSKkQEӕFӫDNK{QJJLDQQJ{QQJӳQJXӗQNKӟSYӟLSKkQEӕFӫDNK{QJJLDQQJ{QQJӳÿtFKYjEӝWKDPVӕFӫDP{KuQKVӁWUӣWKjQKPDWUұQiQK[ҥJLӳD
QJ{QQJӳ/XұQYăQVӁFyKѭӟQJWLӃSFұQVӱGөQJPҥQJWӵVLQKÿӕLNKiQJ*$1 NӃWKӧSYӟLYLӋFJLҧLTX\ӃW YҩQÿӅWUӵFJLDR3URFUXVWHVÿӇ[k\GӵQJP{KuQKQKѭYұ\7ұSGӳOLӋXVӱGөQJFKROXұQYăQOjFiFWұSFRUSXVÿѫQQJӳFӫDWLӃQJ$QKWLӃQJ3KiSYj7LӃQJ9LӋWWӯZLNLSHGLD&iFEӝ:RUG(PEHGGLQJVӱGөQJFKRYLӋFKXҩQOX\ӋQOj:RUG9HFYj)DVW7H[W7ӯÿyFyQKӳQJVӵÿiQKJLiQKLӅXJyFÿӝWӯFKtQKEӝWӯÿLӇQVLQKUDÿѭӧFWӯ
mô hình
Trang 6ABSTRACT
The state-of-the-art methods for learning cross-lingual word embeddings have relied on parallel corpora Recent studies showed that the need for parallel data supervision can be alleviated In this work, it shows that we can build a bilingual dictionary between two languages without using any parallel corpora, by aligning monolingual word embedding spaces in an unsupervised way Hence, I applied a Generative Adversarial Network (GAN) and solving orthogonal Procrustes problem to implement these solutions The dataset which used for this thesis is the monolingual corpora of English, French and Vietnamese and they are collected from Wikipedia The Word Embedding which used for training are Word2Vec and FastText Finally, I also present the evaluation about the dictionary which generated from these models
Trang 7LӠ,&$0Ĉ2$1
7{L[LQFDPÿRDQOXұQYăQ³ӬQJGөQJKӑFVkXYjRGӏFKWӯYӵQJPjNK{QJFҫQGӳOLӋXVRQJQJӳ´OjNӃWTXҧQJKLrQFӭXFӫDW{LGѭӟLVӵKѭӟQJGүQYjJySêFӫD3*6764XҧQ7KjQK7Kѫ1KӳQJWK{QJWLQWKDPNKҧRWӯFiFF{QJWUuQKNKiFFyOLrQTXDQÿӅXÿmÿѭӧFJKLU}WURQJOXұQYăQ1ӝLGXQJQJKLrQFӭXYjFiFNӃWTXҧÿӅXOjGRFKtQKW{LWKӵFKLӋQNK{QJVDRFKpSKD\Oҩ\WӯPӝWQJXӗQQjRNKiF7{L[LQFKӏXWRjQEӝWUiFKQKLӋPYӅOӡLFDPÿRDQQj\
7KjQKSK͙+͛&Kt0LQKQJj\31 tháng 06 QăP
+ӑF9LrQ
7UҫQ4XkQ
Trang 8MӨC LӨC
NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ I /Ӡ,&Ҧ0Ѫ1 II 7Ï07Ҳ7/8Ұ19Ă1 III ABSTRACT IV /Ӡ,&$0Ĉ2$1 V 0Ө&/Ө& VI '$1+0Ө&+Î1+9Ӏ VIII '$1+0Ө&%Ҧ1* IX '$1+0Ө&0&+ѬѪ1*75Î1+ IX '$1+0Ө& &+Ӳ9,ӂ77Ҳ7 IX
1 *,Ӟ,7+,ӊ8 1
1.1 T Ә1*48$1 1
1.2 T Ë1+Ӭ1*'Ө1*&Ӫ$Ĉӄ7¬, 2
1.3 M Ө&7,Ç89¬*,Ӟ,+Ҥ1&Ӫ$Ĉӄ7¬, 2
1.4 C Ҩ875Ò&&Ӫ$/8Ұ19Ă1 2
2 CÁC CÔNG TRÌNH LIÊN QUAN 4
2.1 T M IKOLOV , L.V Q UOC , AND I S UTSKEVER , ³E XPLOITING SIMILARITIES AMONG LANGUAGES FOR MACHINE TRANSLATION ´ AR X IV PREPRINT ARX IV :1309.4168, 2013 B [1] 4
2.2 C X ING , D W ANG , C L IU , AND Y L IN , ³1 ORMALIZED WORD EMBEDDING AND ORTHOGONAL TRANSFORM FOR BILINGUAL WORD TRANSLATION ´P ROCEEDINGS OF NAACL,2015 [2] 4
2.3 W A MMAR , G M ULCAIRE , Y T SVETKOV , G L AMPLE , C D YER , A S MITH , ³0 ASSIVELY MULTILINGUAL WORD EMBEDDINGS ´ AR X IV PREPRINT ARX IV : 1602.01925, 2016 [3] 4
2.4 A C ONNEAU , G L AMPLE , M R ANZATO , L D ENOYER , H J ÉGOU , ³: ORD TRANSLATION WITHOUT PARALLEL DATA ´ AR X IV PREPRINT AR X IV : 1710.04087, 2018 [4] 5
3 &Ѫ6Ӣ/é7+8<ӂ7 6
3.1 M Ҥ1*1Ѫ5211+Æ17Ҥ2 (A RTIFICIAL N EURAL N ETWORK - ANN 6
3.1.1 *LͣLWKL͏X 6
3.1.2 &iFKjPNtFKKR̩W 7
3.1.3 Hàm FKLSKtP̭WPiW 9
3.1.4 &iFNͿWKX̵W[͵OêYͣLP̩QJQ˯URQ 10
3.2 M Ô HÌNH W ORD E MBEDDING 12
3.2.1 9pFW˯2QH-hot 12
3.2.2 Mô hình Word2Vec 13
3.2.3 Mô hình FastText 17
3.3 V Ҩ1Ĉӄ75Ӵ&*,$2 P ROCRUSTES 18
3.3.1 +͏WUFJLDR 18
3.3.2 3K˱˯QJSháp phân tích Singular Value Decomposition (SVD) 19
3.3.3 9̭Qÿ͉WUFJLDR3URFUXVWHVYjFiFKJL̫LTX\͇W 19
3.4 M Ҥ1*7Ӵ6,1+ĈӔ,.+È1* (GAN) 22
3.4.1 *LͣLWKL͏XY͉*$1 22
3.4.2 L͇QWU~FFͯD*$1 22
3.4.3 +jPW͙L˱XFͯDP̩QJ*$1 23
3.4.4 4XiWUuQKKR̩Wÿ͡QJNKLKX̭QOX\͏Q*$1 24
Trang 94 3+ѬѪ1*3+È37+Ӵ&+,ӊ1 27
4.1 P +ѬѪ1*3+È3;Ӱ/é'Ӳ/,ӊ8 27
4.1.1 1JX͛QGͷOL͏X 27
4.1.2 7͝QJKͫS GͷOL͏XYj[͵OêGͷOL͏X 27
4.2 P +ѬѪ1*3+È3;Æ<'Ӵ1* W ORD E MBEDDING 27
4.2.1 +X̭QOX\͏QZRUGYHFFKRFiFW̵SFRUSXVÿ˯QQJͷ 27
4.2.2 +X̭QOX\͏QIDVWWH[WFKRW̵SFRUSXVÿ˯QQJͷ 27
4.3 P +ѬѪ1*3+È3;Æ<'Ӵ1*0Ð+Î1+0Ҥ1*7Ӵ6,1+ĈӔ,.+È1* 28
4.3.1 L͇QWU~FFͯDP{KuQK 28
4.3.2 Ĉ͡ÿRNKR̫QJFiFKJLͷDWͳÿ˱ͫFVLQKUDYjWͳFͯDQJ{QQJͷÿtFK 29
4.3.3 +X̭QOX\͏QP{KuQK 30
4.4 P +ѬѪ1*3+È3&Ҧ,7+,ӊ1+,ӊ848Ҧ&Ӫ$9,ӊ&+8Ҩ1/8<ӊ10Ð+Î1+ GAN 30
4.4.1 &̵SQK̵W/HDUQLQJ5DWHTXDWͳQJHSRFK 30
4.4.2 6͵GͭQJ6PRRWKLQJ/DEHO 31
4.4.3 7UFJLDRKyDPDWU̵Q 31
4.5 P +ѬѪ1*3+È3*,Ҧ,48<ӂ79Ҩ1Ĉӄ75Ӵ&*,$2 P ROCRUSTES 31
4.6 P +ѬѪ1*3+È36,1+7ӮĈ,ӆ1 31
4.7 P +ѬѪ1*3+È3ĈÈ1+*,È 31
5 +,ӊ17+Ӵ&9¬ĈÈ1+*,È 32
5.1 M Ô HÌNH 32
5.2 T Ә1*48$19ӄ&È&%ѬӞ&;Æ<'Ӵ1*0Ð+Î1+ 33
5.3 X Ӱ/é'Ӳ/,ӊ89¬+8Ҩ1/8<ӊ1 W ORD E MBEDDING 36
5.4 H ,ӊ17+Ӵ&0Ð+Î1+ GAN 9¬&È&.Ӻ7+8Ұ7&Ҧ,7+,ӊ17521*48È75Î1++8Ҩ1/8<ӊ10Ð+Î1+ 37
5.4.1 1J{QQJͷYjWK˱YL͏Q 37
5.4.2 0̩QJ'LVFULPLQDWRU 37
5.4.3 Xâ\GQJP{KuQK0DSSHU 37
5.4.4 &iFWKDPV͙WKDPJLDTXiWUuQKKX̭QOX\͏Q*$1 38
5.4.5 &KL͇QO˱ͫFKX̭QOX\͏Q*$1 38
5.5 H ,ӊ17+Ӵ&*,Ҧ,48<ӂ79Ҩ1Ĉӄ75Ӵ&*,$2 P ROCRUSTES 38
5.6 H ,ӊ17+Ӵ&%Ӝ7ӮĈ,ӆ1 39
5.6.1 ͇WTX̫E͡WͳÿL͋Q$QK- 9L͏WVLQKUDWͳ:RUGYHF 39
5.6.2 ͇WTX̫E͡WͳÿL͋Q$QK- 3KiSVLQKUDWͳ:RUGYHF 41
5.6.3 ͇WTX̫E͡WͳÿL͋Q$QK- 3KiSVLQKUDWͳ)DVWWH[W 43
5.7 K ӂ748Ҧ&Ӫ$0Ð+Î1+9¬&È&1+Ұ1;e7 45
5.7.1 ĈiQKJLiP{KuQK 45
5.7.2 ̪QKK˱ͧQJFͯDFK̭WO˱ͫQJFRUSXVYjNtFKWK˱ͣFWͳYQJÿ͇QN͇WTX̫ 46
5.7.3 ̪QKK˱ͧQJFͯDFK̭WO˱ͫQJFRUSXVYjNtFKWK˱ͣFWͳYQJÿ͇QN͇WTX̫ 46
5.7.4 ̪QKK˱ͧQJFͯDF̭XWU~FWͳYQJFͯDQJ{QQJͷÿ͇QN͇WTX̫ 46
5.7.5 ̪QKK˱ͧQJFͯDFiFOR̩L:RUG(PEHGGLQJÿ͇QN͇WTX̫ 46
5.7.6 ̪QKK˱ͧQJFͯDWtQKWRiQ3URFUXVWHVÿ͇QN͇WTX̫ 47
5.8 H ѬӞ1*0Ӣ5Ӝ1*&Ӫ$Ĉӄ7¬, 47
7¬,/,ӊ87+$0.+Ҧ2 48
Trang 10DANH MӨC HÌNH VӀ
Hunh 1: Minh hӑa quá trình ánh xҥ giӳDNK{QJJLDQYHFWѫFӫa 2 ngôn ngӳ 1
Hunh 2: Hình minh hӑa 1 mҥQJQѫURQQKLӅu lӟp 6
Hunh 3Ĉӗ thӏ hàm tanh 7
Hunh 4Ĉӗ thӏ hàm Sigmoid 8
Hunh 5: Ĉӗ thӏ hàm ReLU 8
Hunh 6Ĉӗ thӏ hàm Leaky ReLU 9
Hunh 7: Minh hӑa kӻ thuұt dropout 11
Hunh 8: minh hӑa vӅ các tә chӭc one-hot vector 12
Hunh 9: Hình minh hӑa thӇ hiӋn sӵ liên quan vӅ ngӳ QJKƭDWURQJZRUGYHF 13
Hunh 10: Hình minh hӑa kiӃn trúc cӫa mô hình word2vec 14
Hunh 11: Hình minh hӑa mô hình CBOW 15
Hunh 12: Minh hӑa kiӃn trúc mҥQJQѫURQFӫa mô hình Skip-gram 16
Hunh 13: Minh hӑa vӅ vҩQÿӅ vӅ Out of vocabulary cӫa word2vec 17
Hunh 14: Minh hӑa vӅ phân bӕ cӫa tұp hӧp B 20
Hunh 15: Minh hӑa vӅ phân bӕ cӫa tұp hӧp A 20
Hunh 16: KӃt quҧ cӫa viӋFFăQFKӍnh 2 phân bӕ RA và B 22
Hunh 17: Hình minh hӑa kiӃn trúc cӫa GAN 23
Hunh 18: Hình minh hӑa 2 phân bӕ EDQÿҫu hoàn toàn cách biӋt nhau 25
Hunh 19: Mҥng Discriminative có nhiӋm vө phân biӋt 2 phân bӕ 25
Hunh 20%DQÿҫu, mҥng Discriminative dӉ dàng phân biӋt 2 phân bӕ 25
Hunh 21: Hình minh hӑa quá trình cұp nhұt lҥi trӑng sӕ cӫD*HQDUDWLYH0RGHOÿӇ tҥo ra phân bӕ mӟi tӕWKѫQ 26
Hunh 22: Discriminative Model vүn còn phát hiӋn ra sӵ khác biӋt cӫa 2 phân bӕ, vì thӃ tiӃp tөc lan truyӅn lҥL*HQDUDWLYHÿӇ cұp nhұt tiӃp trӑng sӕ 26
Hunh 23: Hình minh hӑa viӋc các mô hình dӯng lҥi khi 2 phân bӕ ÿmNKӟp nhau 26
Hunh 24: Hình minh hӑa vӅ xoay phân bӕ X bҵng ma trұQ:ÿӇ khӟp vӟi phân bӕ Y 28
Hunh 25 Minh hӑa các thành phҫn và luӗng hoҥWÿӝng cӫDP{KuQKGQJWURQJÿӅ tài 32
Hunh 26: Minh hӑa quá trình xӱ lý dataset 33
Hunh 27: Mô hình Discriminator phân biӋt phân bӕ thұt giҧ 33
Hunh 28: Minh hӑa hoҥWÿӝng cӫa mô hình Mapper 34
Hunh 29: Minh hӑa cách xây dӵng hàm loss cho mô hình 34
Hunh 30: Minh hӑa quá trình tӕLѭX:Eҵng giҧi quyӃt Procrustes 35
Hunh 31: Minh hӑa chi tiӃt quá trình hoҥWÿӝng cӫa mô hình 35
Hunh 32: Minh hӑa quá trình sinh tӯ ÿLӇn 36
Hunh 33: Giá trӏ loss cӫa mô hình GAN sau 25 epochs 45
Hunh 34: So sánh kӃt quҧ cӫa các tӯ ÿLӇn khác nhau 46
Trang 11DANH MӨC BҦNG
Bҧng 1: Minh hӑa quá trình dùng tӯ [XQJTXDQKFRQWH[WZRUGV ÿӇ dӵ ÿRiQWӯ ӣ giӳa (center
word) cӫa CBOW 14
Bҧng 2: Bҧng minh hӑa quá trình dùng tӯ ӣ giӳDFRQWH[WZRUGV ÿӇ dӵ ÿRiQWӯ các tӯ xung quanh cӫa skip-gram 16
Bҧng 3: Minh quá quá trình tách các sub-words cӫa FastText 18
Bҧng 4: Minh hӑa quá trình huҩn luyӋn cӫa FastText 18
Bҧng 5: Tӯ ÿLӇn Anh - ViӋt 39
Bҧng 6: Tӯ ÿLӇn Anh - Pháp (Word2vec) 41
Bҧng 7: Tӯ ÿLӇn Anh - Pháp (FastText) 43
DANH MӨ&0&+ѬѪ1*TRÌNH 0mFKѭѫQJWUuQK: Decode dӳ liӋu wikipedia 36
0mFKѭѫQJWUuQK: Xây dӵng mô hình word2vec và fasttext 36
0mFKѭѫQJWUuQK: Xây dӵng mô hình Discriminator 37
0mFKѭѫQJWUuQK: Xây dӵng mô hình Mapper 37
0mFKѭѫQJWUuQK: HiӋn thӵc tính toán Procrustes 38
DANH MӨC CHӲ VIӂT TҲT
Trang 121 GIӞI THIӊU
1.1 Tәng quan
ӢÿӅFѭѫQJQj\W{LVӁÿӅ[XҩW[k\GӵQJKӋWKӕQJVLQKWӯÿLӇQWӵÿӝQJQKѭQJNK{QJFҫQVӱGөQJFRUSXVVRQJQJӳ%ҵQJFiFKWUtFK[XҩWÿһFWUѭQJQJ{QQJӳW{LVӁWLӃQKjQKWҥRUDNK{QJJLDQvec-Wѫ FӫD WӯYӵQJ Wӯ PӛLORҥLQJ{QQJӳVDXÿy[k\GӵQJÿѭӧFP{hình giúp iQK[ҥNK{QJJLDQ vec-WѫFӫD QJ{QQJӳQJXӗQVDQJQJ{QQJӳÿtch Lúc này, FiFWӯYӵQJFӫDQJ{QQJӳQJXӗQVӁÿѭӧFiQK[ҥVDQJFiFWӯYӵQJFӫDQJ{QQJӳÿtFKWѭѫQJÿѭѫQJ6DXÿk\OjKuQKP{WҧP{KuQKPjW{LGӵNLӃQ[k\GӵQJ
.ӃWTXҧFӫDGӵiQVӁJL~StFKFKRYLӋF[k\GӵQJWӯÿLӇQVRQJQJӳFiFKWӵÿӝQJPjNK{QJFҫQWұSGӳOLӋXFRUSXVVRQJQJӳQjR&iFKWLӃS FұQQj\JL~SFKRYLӋFGӏFKWKXұWJLӳDFiFQJ{Q QJӳtWSKәELӃQQKѭWLӃQJGkQWӝFWKLӇXVӕ ÿѭӧFGӉGjQJKѫQ 1JRjLUDEӝWӯÿLӇQQj\FzQKӛWUӧFKRPӝWVӕF{QJÿRҥQKXҩQOX\ӋQFiFP{KuQKGӏFKmáy
Trang 131.2 Tính ӭng dөng cӫDÿӅ tài
7ӯJLҧLSKiSGӏFKWӯYӵQJJLӳDQJ{QQJӳPjNK{QJFҫQGӳOLӋXVRQJQJӳÿӅWjLVӁKѭӟQJÿӃQYLӋFWҥRUDEӝWӯÿLӇQVRQJQJӳPӝWFiFKWӵÿӝQJĈӕLYӟLQKӳQJQJ{QQJӳtWSKәELӃQQKѭWLӃQJGkQWӝFWKLӇXVӕÿӅWjLQj\FjQJFyQKLӅXêQJKƭD9LӋFVLQKUDWӯÿLӇQQKѭYұ\KӛWUӧUҩWQKLӅXFKRQKӳQJFiQEӝF{QJWiFÿӃQYQJVkXYQg xa mà không có WjLOLӋXWӯÿLӇQÿӇWKDPNKҧR
1JRjLUDYLӋFVLQKFiFWӯÿLӇQWӵÿӝQJQKѭYұ\FNJQJJL~StFKFKRYLӋFKXҩQOX\ӋQFiFP{KuQKGӏFKPi\%ҵQJFiFKVLQKUDFiFFһSWӯFQJêQJKƭDFiFFһSWӯQj\FyWKӇGQJÿӇOjPJLjXGӳOLӋXÿӇKXҩQOX\ӋQFKRFiFP{KuQKGӏFKPi\FKҷQKҥQQKѭOjPJLjXGӳOLӋXEҵQJFiFKWKD\WKӃGDWDVHWYӟLFiFWӯWURQJWӯÿLӇQKRһF7HDFKHU)RUFLQJFKRFiFFһSWӯOҩ\UDWӯEӝWӯÿLӇQ
1.3 Mөc tiêu và giӟi hҥn cӫDÿӅ tài
0өFWLrXFӫDÿӅWjLQj\EDRJӗP
- 7uPNLӃPYj[ӱOêFiFWұSFRUSXVGӳOLӋXWӯQKLӅXQJXӗQNKiFQKDX&iFWұS
FRUSXVVӱGөQJWURQJÿӅWjLEDRJӗPZLNLSHGLD7LӃQJ$QKWLӃQJ9LӋWWLӃQJ3KiSbaomoi.com
- ĈѭDUDNӃWOXұQYjKѭӟQJSKiWWULӇQWLӃSWKHRFӫDÿӅWjLWURQJWѭѫQJODLĈӅWjL
WKXÿѭӧFPӝWVӕNӃWTXҧNKҧTXDQNKLEӝWӯÿLӇQVLQKUDFyÿӝFKtQK[iFNKiFDR'ӵDWUrQQKӳQJNӃWTXҧNKҧTXDQQKѭYұ\ÿӅWjLFNJQJVӁ ÿӅ[XҩWUDQKӳQJKѭӟQJÿLWURQJWѭѫQJODL
1.4 Cҩu trúc cӫa luұQYăQ
&KѭѫQJ7әQJTXDQYӅQӝLGXQJPөFWLrXYjFҩXWU~FOXұQYăQ
Trang 152 CÁC CÔNG TRÌNH LIÊN QUAN
2.1 T Mikolov, L.V Quoc, and I Sutskever, ³Exploiting similarities among
languages for machine translation´ arXiv preprint arXiv:1309.4168, 2013b.
[1]
7URQJF{QJWUuQKQj\0RNRORYYjFӝQJVӵTXDQViWUҵQJZRUGHPEHGGLQJFNJQJFySKkQEӕJLӕQJQKDXWUrQFҧQKLӅXQJ{QQJӳQJD\FҧQKӳQJQJ{QQJӳWӯQKӳQJYăQKyDNKiFQKDXQKѭWLӃQJ$QKWLӃQJ9LӋW+ӑFNJQJÿӅ[XҩWUҵQJEҵQJFiFKiQK[ҥJLӳDEӝZRUGHPEHGGLQJQj\FyWKӇSKөFYөYLӋFGӏFKVRQJQJӳ%ҵQJFiFKÿѭDUDWӯYӵQJFKRPӛLQJ{QQJӳÿӇOjPFiFÿLӇPQHRVDXÿy[RD\PDWUұQiQK[ҥYLӋFiQK[ҥJLӳDQJ{QQJӳQj\YүQGӵDYjREӝWӯÿLӇQVRQJQJӳÿӇFӕÿӏQKFiFWӯWѭѫQJÿѭѫQJQKDXYjiQK[ҥTXDQKDX&iFKWLӃSFұQQj\YүQSKҧLGQJFiFGӳOLӋXVRQJQJӳÿӇFӕÿӏQK1ӃXFiFQJ{QQJӳtWSKәELӃQWKLӃXFiFGDWDVHWVRQJQJӳWKuP{KuQKQj\FNJQJNKyWKӵFKLӋQÿѭӧF
2.2 C Xing, D Wang, C Liu, and Y /LQ ³1RUPDOL]ed word embedding and
RUWKRJRQDOWUDQVIRUPIRUELOLQJXDOZRUGWUDQVODWLRQ´Proceedings of NAACL,
2015[2]
&{QJWUuQKQj\ÿѭDUDPӝWJLҧLSKiSÿӇFKXҭQKyDFiFYHFWRUWӯYjFiFKELӃQÿәLWX\ӃQWtQKJLӳD:RUG(PEHGGLQJWK{QJTXDPDWUұQWUӵFJLDR&KDR;LQJYjFiFFӝQJVӵÿmpSWҩWFҧFiFEѭӟFFұSQKұWPDWUұQiQK[ҥQJ{QQJӳYӅPӝWPDWUұQWUӵFJLDR0өFWLrXOjÿҧPEҧRFiFSKpSELӃQÿәLYHFWRUSKҧLFKӍOjPӝWSKpSTXD\KRһFSKҧQ[ҥ PjWK{L*LҧLSKiSQj\ÿmPDQJOҥLFiFNӃWTXҧҩQWѭӧQJNKLWKӵFKLӋQYLӋFGӏFKFiFNK{QJJLDQWӯYӵQJWӯ7LӃQJ$QKVDQJWLӃQJ7k\%DQ1KD7{LFNJQJVӱGөQJJLҧLSKiSQj\WURQJYLӋFFKXҭQKyDPDWUұQiQK[ҥ:ÿӇFyWKӇJL~SP{KuQKWҥRUDNӃWTXҧWӕWQKҩW
2.3 W Ammar, G Mulcaire, Y Tsvetkov, G Lample, C Dyer, A Smith,
³0DVVLYHO\ PXOWLOLQJXDO ZRUG HPEHGGLQJV´ arXiv preprint arXiv:
1602.01925, 2016 [3]
&{QJWUuQKQJKLrQFӭXQj\ÿѭDUDJLҧLSKiSÿӇFyWKӇWҥRUDPӝWZRUGHPEHGGLQJFKXQJÿҥLGLӋQFKRWҩWFҧFiFQJ{QQJӳNKiFQKDX&{QJWUuQKKRjQWRjQVӱGөQJFiFWұSFRUSXVÿѫQQJӳFӫDQJ{QQJӳNKiFQKDXWUrQWKӃJLӟL3KѭѫQJSKiSQj\FҫQUҩWQKLӅXQJ{QQJӳÿӇWәQJKӧSÿѭӧFEӝHPEHGGLQJFKXQJYjQyFKӍÿҥLGLӋQFKRFiFÿһFWtQKFKXQJFӫDQJ{Q QJӳFKӭNK{QJÿһFWUѭQJULrQJFKRFһSQJ{QQJӳQjRQrQNK{QJSKKӧSYӟLPөFÿtFK[k\GӵQJEӝWӯÿLӇQVRQJQJӳULrQJELӋW
Trang 162.4 A Conneau, G Lample, M Ranzato, L Denoyer, H -pJRX³:RUG
WUDQVODWLRQZLWKRXWSDUDOOHOGDWD´DU;LYSUHSULQWDU;LY[4]
&{QJWUuQKQJKLrQFӭXQj\ÿmÿѭDUDPӝWJLҧLSKiS[k\GӵQJP{KuQKKӑFNK{QJJLiPViW+ӑFKӍVӱGөQJKDLQKyPÿѫQQJӳPӝWOjQJ{QQJӳQJXӗQYjPӝWOjQJ{QQJӳÿtFK3KѭѫQJSKiSFӫDKӑOj[k\GӵQJPҥQJÿһFELӋWPjWӵQyFyWKӇiQK[ҥWX\ӃQWtQKWӯNK{QJJLDQQJ{QQJӳQJXӗQWӟLNK{QJJLDQQJ{QQJӳÿtFKGӵDWUrQPӝWP{KuQKWrQOjPҥQJWӵVLQKÿӕLNKiQJ*$1 PjNK{QJFҫQFyGӳOLӋXVRQJQJӳÿӇKXҩQOX\ӋQ&{QJWUuQKÿѭDUDJLҧLSKiSVӱGөQJP{KuQKWӵVLQKÿӕLNKiQJÿӇFyWKӇWӵVLQKUDEӝWӯÿLӇQWӯYLӋFWӵFăQFKӍQKSKkQEӕWK{QJTXDFiFÿһFÿLӇPFӫDP{KuQK*$17{LFyVӱGөQJJLҧLSKiSQj\FKRÿӅWjLNӃWKӧSYLӋFWUӵFJLDRKyDPDWUұQFӫDF{QJWUuQK2.2 FKREӝWӯÿLӇQWLӃQJ$QK± 9LӋWYjWLӃQJ3KiS± 9LӋW
Trang 17Hunh 2+uQKPLQKK͕DP̩QJQ˯URQQKL͉XOͣS
KiӃn tr~c chung cӫa mӝt ANN gӗm 3 thjnh phҫQÿy lj ÿҫu vjo (input layer), tҫng
ҭn (hidden layer) vj ÿҫu ra (output layer) Trong hunh 1, minh hӑa mӝt mҥng nѫ-ron cѫ bҧn vӟi 2 tҫng ҭn Mӛi vzng trzn lj mӝt nѫ-ron, cic mNJi trQÿLYjo lj ciFÿҫu vjo vj cic mNJi trQÿLUDOj cic kӃt quҧ ÿҫu ra cӫa nѫ-URQÿy Cic nѫ-URQÿѭӧc sҳp xӃp thjnh cic tҫng, biӇu diӉn luӗng th{QJWLQÿLTXDPҥng Tҫng dѭӟi cng kh{ng cy bҩt kǤ mNJi trQÿLYjo, vj lj
Trang 18ÿҫu vjo cӫa mҥng Tѭѫng tӵ, tҫng trrn cng kh{ng cy bҩt kǤ mNJi trQÿLUDYj lj ÿҫu ra cӫa mҥng Cic tҫng khiFÿѭӧc gӑi lj tҫng "ҭn"
Kê hiӋXErn trong cic nѫ-ron biӇu diӉn hjm phi tuyӃn ttnh (hjm ktch hoҥt) sigmoid
= (1/(1 + eíx ÿѭӧc ip dөng vjo gii trӏ cӫa nѫ-ron trѭӟFNKLFKRUDÿҫu ra Mӛi nѫ-ron
ÿӅu kӃt nӕi tӟi tҩt cҧ cic nѫ-ron ӣ tҫng tiӃp theo - vu vұy nrQÿѭӧc gӑi lj tҫng "kӃt nӕLÿҫy ÿӫ"
Gii trӏ cӫa mӛi tҫng trong mҥng nѫ-ron cy thӇ ÿѭӧc xem lj mӝt vector Trong hunh 13, tҫng
ÿҫu vjo lj mӝt vector 4 chiӅu (x), vj tҫng trrn ny lj mӝt vector 6 chiӅu (h1) Tҫng
fully-connected cy thӇ ÿѭӧc xem lj mӝt phpp biӃQÿәi tuyӃn ttnh mӝt vector tӯ 4 chiӅu thjnh 6
chiӅu Mӝt tҫng fully-connected hiӋn thӵc mӝt phpp nhkn ma trұn: h = xWWURQJÿy trӑng
sӕ cӫa kӃt nӕi tӯ nѫ-ron thӭ i cӫa tҫng trѭӟc ny tӟi nѫ-ron thӭ j cӫa ny lj Wij Gii trӏ cӫa h VDXÿy ÿѭӧc biӃQÿәi bҵng mӝt hjm phi tuyӃn ttnh g vj truyӅn cho tҫng tiӃp theo
3.1.2 Các hàm kích hoҥt
Cy rҩt nhiӅu dҥng hjm phi tuyӃn ttnh cy thӇ sӱ dөng cho cic tҫng ҭn HiӋn tҥi kh{ng cy lê thuyӃt njo vӅ viӋc sӱ dөng hjm phi tuyӃn ttnh njo trong trѭӡng hӧp njo, vj cich chӑn hjm phi tuyӃn ttnh thtch hӧp cho mӝt tic vө cө thӇ trong thӵc nghiӋm Trong sӕ cic hjm phi tuyӃn ttnh, cic hjPVDXÿѭӧc sӱ dөng nhiӅu nhҩt: sigmoid, tanh, hard tanh, rectified linear unit (ReLU), và Leaky ReLU
Trang 19Hjm ReLU, lj mӝt hjm phi tuyӃn ttQKÿѫn giҧQÿӇ sӱ dөng vj cho kӃt quҧ rҩt tӕt trong
thӵc nghiӋm Hjm ReLU sӁ biӃn mӛi gii trӏ x < 0 thjnh 0 Mһc d ÿѫn giҧn nhѭng ReLU
lҥi hiӋu quҧ vӟi nhiӅu tic vөÿһc biӋt lj khi kӃt hӧp vӟi kӻ thuұt dropout regularization Hjm ReLU cy c{ng thӭc dҥng:
ݔݐ݄݁ݎݓ݅ݏ݁
Hunh 5: Ĉ͛WK͓KjP5H/8
Trang 20x Leaky ReLU
/HDN\5H/8OjFҧLWLӃQWURQJYLӋFORҥLEӓYҩQÿӅG\LQJ5H/87KD\YuWUҧYӅJLiWUӏYӟLFiFÿҫXYjRWKu/HDN\5H/8WҥRUDPӝWÿѭӡQJ[LrQFyÿӝGӕFQKӓ&{QJWKӭFFӫD/HDN\5H/8QKѭVDX
ݔݐ݄݁ݎݓ݅ݏ݁
Hunh 6Ĉ͛WK͓KjP/eaky ReLU
3.1.3 Hàm chi phí mҩt mát
CNJng giӕng nhѭ khi huҩn luyӋn mӝt bӝ phkn loҥi tuyӃn ttnh, khi huҩn luyӋn mӝt mҥng
ݕƸ khi kӃt quҧ chtnh xic lj y Mөc tiru cӫa viӋc huҩn luұn lj giҧm thiӇu tӕLÿDPҩt mit cӫa
ra cӫa mҥng ݕƸ vӟi kӃt quҧ mong muӕn lj y Mҩt mit lu{n lu{n dѭѫng vj chӍ bҵng 0 trong trѭӡng hӧSÿҫu ra cӫa mҥng lj chtnh xic
tojn tұp huҩn luyӋn (th{ng thѭӡng thu tәng cic mҩt mit cӫa cic mүu huҩn luyӋn khic nhau
sӁ ÿѭӧc tӕi thiӇu hya)
Mҩt mit cy thӇ lj mӝt hjm bҩt kǤ chiӃu hai vector thjnh mӝWÿҥi lѭӧng v{ hѭӟng Vu mөc ÿtch tӕi ѭu hya trong thӵc tӃ cӫa viӋc huҩn luyӋn, hjm mҩt mit thѭӡQJÿѭӧc giӟi hҥn trong cic hjm thuұn lӧi cho viӋc ttnh gradient Cic hjm mҩt mit th{ng dөng lj: hinge loss (nhӏ phkQ