Cải tiến chất lượng dịch máy thống kê anh – việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc

148 22 0
Cải tiến chất lượng dịch máy thống kê anh – việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I HC QUăC GIA H NáI TRìNG I HC CNG NGH TR N H˙NG VI T C ITI NCH TL×ĐNGDÀCHM Y THăNG K ANH-VI T DĩA V O O TR T TÜ TØ THEO C Y CĨ PH P PHƯ THU¸C LU N NTI NS KHOAH¯CM YTNH H Nºi - 2019 I HC QUăC GIA H NáI TRìNG I HC C˘NG NGH TR N H˙NG VI T C ITI NCH TLìẹNGDCHM Y THăNG K ANH-VI T DĩA V O O TR T TÜ TØ THEO C Y CÓ PH P PHệ THUáC Chuyản ng nh: Khoa hồc mĂy tnh M sŁ: 48 01 01 01 LU N NTI NS KHOAH¯CM YTNH NG×˝I HײNG D N KHOA H¯C: TS Nguyn Vôn Vinh PGS.TS Nguyn Lả Minh H Ni - 2019 Líi cam oan Tỉi xin cam oan lu“n ¡n n y l k‚t qu£ nghi¶n cøu cıa tỉi, ữổc thỹc hiằn dữợi sỹ hữợng dÔn ca TS Nguyn Vôn Vinh v PGS.TS Nguyn Lả Minh CĂc ni dung trch dÔn t cĂc nghiản cứu ca cĂc tĂc giÊ kh¡c tr…nh b y lu“n ¡n n y ÷ỉc ghi rê nguỗn phn t i liằu tham khÊo Trn Hỗng Viằt TMT T Êo trt tỹ t l mt cĂc vĐn ã quan trồng ca dch mĂy li¶n quan ‚n vi»c l m th‚ n o ” sinh thø tü c¡c tł (cöm tł) ch‰nh x¡c ngỉn ngœ ‰ch Trong h» dàch m¡y thŁng k¶ düa tr¶n cưm tł (Phrase-Based Statistical Machine Translation - PBSMT)(Koehn v cºng sü, 2003; Och v Ney, 2004) [59,89], vi»c Êo cửm t vÔn cặn ỡn giÊn v chĐt lữổng chữa cao Bản cnh õ, cĂc ngổn ng cõ nhi•u °c i”m kh¡c ( °c bi»t sü kh¡c vã thứ tỹ t cĂc ngổn ng) dÔn tỵi khỉng th” mỉ h…nh hâa ch ‰nh x¡c quĂ trnh dch [89] Nhiãu hữợng nghiản cứu giÊi quyt vĐn ã sp xp li trt tỹ t h» thŁng dàch m¡y thŁng k¶ düa tr¶n cưm tł Mt s nghiản cứu theo hữợng tip cn tiãn xò lỵ cho vĐn ã sp xp li trt tỹ t cho kt quÊ tt, Êm bÊo cƠn bng gia chĐt lữổng dch v thới gian giÊi m qua thỹc hiằn tiãn xò lỵ quĂ trnh sp xp li Vợi ữu im ca cĐu trúc cƠy cú phĂp phử thuc: kt ni tĐt cÊ cĂc t mt cƠu vợi khÊ n«ng n›m b›t phư thuºc giœa c¡c tł xa vợi cĂc cĐu trúc phử thuc a phữỡng cụng nhữ sỹ tữỡng ứng cht ch vợi ng nghắa, lun Ăn trung nghiản cứu ã t i: "CÊi tin chĐt lữổng dch mĂy thng kả AnhViằt dỹa v o Êo tr“t tü tł theo c¥y có ph¡p phư thuºc" Lu“n Ăn trung giÊi quyt cĂc tỗn ti  nảu thæng qua b i to¡n: s›p x‚p l⁄i c¡c tł ca cƠu cn dch ngổn ng nguỗn theo thứ tỹ gn nhĐt cõ th vợi cƠu ữổc dch ngổn ng ch CĂc ã xuĐt n y thỹc hiằn nhữ bữợc tiãn xò lỵ sò dửng cƠy cú phĂp phử thuc i vợi ngổn ng nguỗn ữa v o h» dàch thŁng k¶ düa tr¶n cưm tł nh‹m cÊi tin chĐt lữổng dch mĂy Kt quÊ dch t ti‚ng Anh sang ti‚ng Vi»t vỵi bº dœ li»u IWSLT 2015 tr¶n h» thŁng cıa chóng tỉi tŁt hìn hai h» thŁng dàch phŒ bi‚n nh§t hi»n l NMT v PBSMT âng gâp cıa lu“n ¡n cư th” nh÷ sau: Thứ nhĐt, lun Ăn ã xuĐt cĂc lut £o tr“t tü tł thı cæng tł vi»c lüa chån cĂc c trững vã ngổn ng trản cƠy cú phĂp phư thuºc Tł â ¡p dưng ph÷ìng ph¡p £o tr“t tỹ t nƠng cao chĐt lữổng hằ thng dch mĂy Anh-Viằt Thứ hai, lun Ăn ã xuĐt phữỡng phĂp x¥y düng lu“t £o tr“t tü tł tü ºng Chóng tỉi coi vi»c x¥y düng lu“t £o tr“t tü tł nhữ vĐn ã hồc mĂy viằc dỹ oĂn chnh x¡c tr‰ c¡c th nh phƒn cıa lu“t ” oĂn thứ tỹ úng cĂc cƠu ngổn ng nguỗn tữỡng ứng vợi thứ tỹ cƠu ngổn ng ch Vợi hai ã xuĐt gỗm: Khai thĂc cĂc c trững vã ngổn ng v ã xuĐt phữỡng phĂp sò dửng cĂc b phƠn lợp giÊi quyt b i toĂn £o tr“t tü tł Cö th” l x¡c ành thø tỹ úng ca cĂc phƠn lợp quan hằ gia cửm cha-con trản cƠy phƠn tch phử thuc biu din cƠu ƒu v o B‹ng vi»c khai th¡c quan h» c¡c cp t trản cƠy phƠn tch phử thuc v ữu im ca viằc biu din dữợi dng word embedding, lun Ăn ã xuĐt phữỡng phĂp sò dửng mng nỡ-ron gi£i quy‚t b i to¡n £o tr“t tü tł c¥u nguỗn theo thứ tỹ t cƠu ch trữợc ữa v o hằ dch nƠng cao chĐt lữổng dch Thứ ba, lun Ăn ữa phƠn tch Ênh hững ca cĂc lỉi phƠn tch cú phĂp n chĐt lữổng dàch qua vi»c ¡p döng c¡c lu“t £o tr“t tü t i vợi cƠu nguỗn CĂc phƠn tch n y mang l⁄i lỉi ‰ch cho vi»c c£i ti‚n c¡c ph÷ìng ph¡p £o tr“t tü tł düa tr¶n có ph¡p v ph¡t tri”n vi»c ph¥n t ‰ch có ph¡p phư thuºc, °c bi»t vỵi ngỉn ngœ ti‚ng Vi»t Tł khâa: dàch mĂy, dch mĂy thng kả, tiãn xò lỵ cú phĂp, có ph¡p phư thuºc, dàch m¡y thŁng k¶ düa tr¶n cưm tł Mưc lưc Líi c£m ìn Danh mưc c¡c chœ vi‚t t›t Danh s¡ch h…nh v‡ 10 Danh s¡ch b£ng 13 Líi mð ƒu 16 Tng quan cĂc vĐn ã liản quan lun Ăn 22 1.1 TŒng quan v• dàch m¡y 22 1.2 Dàch m¡y thŁng k¶ 25 1.2.1 Cì sð to¡n håc 25 1.2.2 C§u tróc h» thŁng dàch m¡y 27 1.3 Dàch m¡y m⁄ng nì-ron 29 1.4 Ph¥n t‰ch có ph¡p phư thuºc 31 1.5 VĐn ã Êo tr“t tü tł dàch m¡y 35 1.5.1 Sü kh¡c v• thø tü tł giœa c¡c ngæn ngœ 35 1.5.2 £o tr“t tü tł dàch m¡y 36 1.6 B i to¡n £o tr“t tü tł mæ h…nh dàch m¡y düa tr¶n cưm tł 37 1.6.1 Mỉ h…nh dàch m¡y düa tr¶n cưm tł 37 1.6.2 B i to¡n Êo trt t tỹ dỹa trản tiãn xò lỵ 39 1.7 C¡c nghi¶n cøu li¶n quan 1.7.1 Sß dửng cĂc lut th cổng cho vĐn ã tiãn xò lỵ 1.7.2 Sò dửng cĂc lut tỹ ng cho vĐn ã tiãn xò lỵ 1.8 K‚t lu“n ch÷ìng 43 44 45 46 Ph÷ìng ph¡p düa v o lu“t thı cỉng cho b i to¡n £o tr“t tü tł dàch mĂy thng kả 48 2.1 Phữỡng phĂp tiãn xò lỵ cho b i to¡n £o tr“t tü tł dàch m¡y 48 2.2 C¡c nghi¶n cøu li¶n quan 50 2.3 Tiãn xò lỵ cú phĂp phử thuc cho dch mĂy thng kả 52 2.3.1 Ph¥n t‰ch hiằn tữổng ngổn ng v vĐn ã sp xp li 52 2.3.2 Lu“t chuy”n Œi tr“t tü tł 55 2.3.3 T“p c¡c lu“t £o tr“t tü tł thı cæng 57 2.3.4 T“p dœ li»u v c i °t thüc nghi»m 59 2.3.5 K‚t qu£ thüc nghi»m 62 2.4 K‚t lu“n ch÷ìng 63 Phữỡng phĂp sò dửng lut trch xuĐt tỹ ng bng cĂc b phƠn lợp quan hằ 65 3.1 Tiãn xò lỵ dỹa trản phƠn lợp cho dch mĂy dỹa trản cửm t 65 3.1.1 VĐn ã tiãn xò lỵ dỹa trản phƠn lợp 66 3.1.2 °c tr÷ng 69 3.1.3 Mỉ h…nh ph¥n lỵp 70 3.2 Thüc nghi»m 73 3.2.1 T“p dœ li»u v c§u h…nh thüc nghi»m 73 3.2.2 K‚t qu£ thüc nghi»m 74 3.3 K‚t lu“n ch÷ìng 76 Phữỡng phĂp sò dửng mng nỡ-ron kt hæp c¡c thæng tin ngœ c£nh 4.1 Thæng tin ngœ c£nh tł word embedding 79 79 4.2 Mổ hnh Êo dỹa trản mng nỡ-ron sò dửng cƠy cú phĂp phử thuc cho dch mĂy thng kả 81 4.2.1 c trững cho phƠn lợp v huĐn luy»n mæ h…nh 82 4.2.2 Khung l m vi»c cho £o tr“t tü tł 87 4.3 Thỹc nghiằm vã phữỡng phĂp sò dưng m⁄ng nì-ron k‚t hỉp thỉng tin ngœ c£nh 90 4.4 Ph¥n t‰ch v th£o lu“n 93 4.5 K‚t lu“n ch÷ìng 94 nh hững ca cƠy cú phĂp phử thuc n chĐt lữổng dch mĂy Anh-Viằt 5.1 Giợi thiằu 96 96 5.2 Ph¥n t‰ch có ph¡p phư thuºc 97 5.2.1 B i to¡n ph¥n t‰ch có ph¡p phư thuºc 98 5.2.2 ành d⁄ng dœ li»u theo chu'n CoNLL 98 5.2.3 Sò dửng nhÂn cho cú phĂp phö thuºc 100 5.3 nh hững ca lỉi phƠn tch cú phĂp phử thuc tợi chĐt lữổng dch mĂy 102 5.3.1 Phữỡng phĂp phƠn tch lỉi 102 5.3.2 ¡nh gi¡ 104 5.3.3 Ph¥n tch nguyản nhƠn gƠy lỉi Êo trt tỹ t 108 5.4 ¡nh gi¡ k‚t qu£ dàch v º ch‰nh x¡c c¥y có ph¡p phư thuºc 110 5.5 K‚t lu“n ch÷ìng 112 K‚t lu“n 114 Danh mưc cỉng tr…nh khoa håc cıa t¡c gi£ li¶n quan ‚n lu“n ¡n117 T i li»u tham kh£o 119 L˝IC MÌN Tỉi xin gßi líi c£m ìn sƠu sc n TS Nguyn Vôn Vinh v PGS.TS Nguyn Lả Minh, hai Thy  trỹc tip hữợng dÔn, ch b£o t“n t…nh, ln hØ trỉ v t⁄o nhœng i•u ki»n tŁt nh§t cho tỉi qu¡ tr…nh håc t“p v nghiản cứu Tổi xin gòi lới cÊm ỡn n c¡c Thƒy/Cỉ gi¡o ð Khoa Cỉng ngh» thỉng tin, Tr÷íng ⁄i håc Cæng ngh», ⁄i håc QuŁc gia H Nºi, °c bi»t l c¡c Thƒy/Cæ gi¡o ð Bº mæn Khoa hồc mĂy tnh, nhng ngữới  trỹc tip giÊng dy v gióp ï tỉi qu¡ tr…nh håc t“p v nghiản cứu trữớng Tổi xin gòi cÊm ỡn n GS.TS Nguy„n Thanh Thıy, PGS TS L¶ Sÿ Vinh, PGS.TS Nguyn Phữỡng ThĂi, PGS.TS Phan XuƠn Hiu, TS Trn Quc Long, TS Bũi Ngồc Thông (Trữớng i hồc Cổng nghằ, i hồc Quc gia H Ni), PGS.TS Lả Thanh Hữỡng (Tr÷íng ⁄i håc B¡ch khoa H Nºi), TS Nguy„n Thà Minh Huyãn (Trữớng i hồc Khoa hồc Tỹ nhiản, i håc QuŁc gia H Nºi), TS Ngỉ Xu¥n B¡ch (Håc vi»n Cỉng ngh» B÷u ch‰nh Vi„n thỉng), TS Nguy„n Vi»t Anh (Vi»n Cỉng ngh» thỉng tin, Vi»n H n l¥m Khoa håc v Cỉng ngh» Vi»t Nam) c¡c Thƒy/Cỉ ¢ cõ nhng gõp ỵ chnh sòa tổi ho n thi»n lu“n ¡n Tỉi xin gßi líi c£m ìn ‚n tĐt cÊ anh, ch, em v bn b ỗng nghiằp ð Bº mæn Khoa håc m¡y t‰nh (Khoa Cæng ngh» thỉng tin, Tr÷íng ⁄i håc Cỉng ngh», ⁄i håc QuŁc gia H Nºi) ¢ gióp ï tỉi thíi gian l m nghiản cứu sinh Cui cũng, tổi xin gòi lới cÊm ỡn n tĐt cÊ cĂc th nh viản gia …nh ¢ ln ıng hº, chia s·, ºng vi¶n v kh‰ch l» tỉi håc t“p, nghi¶n cøu [96] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov Dropout: A simple way to prevent neural networks from overfitting Journal of Machine Learning Research, 15:1929 1958, 2014 [97] Andreas Stolcke Srilm - an extensible language modeling toolkit In Proceedings of International Conference on Spoken Language Processing, volume 29, pages 901 904, 2002 [98] Ilya Sutskever, Oriol Vinyals, and Quoc V Le Sequence to sequence learning with neural networks In Proceedings of the 27th International Conference on Neural Information Processing Systems, NIPS’14, pages 3104 3112, Cambridge, MA, USA, 2014 MIT Press [99] Nguy„n Kim Th£n Cì sð ngœ ph¡p ti‚ng vi»t 2008 [100] Christoph Tillmann A unigram orientation model for statistical machine translation In Daniel Marcu Susan Dumais and Salim Roukos, editors, Proceedings of HLT-NAACL 2004: Short Papers, pages 101 104, Boston, Massachusetts, USA, May - May 2004 Association for Computational Linguistics [101] Christoph Tillmann and Hermann Ney Word reordering and a dynamic programming beam search algorithm for statistical machine translation Computational Linguistics, 29:97 133, 2003 [102] Bernard Vauquois A survey of formal grammars and algorithms for recognition and transformation in mechanical translation In IFIP Congress (2), pages 1114 1122, 1968 [103] Van Nguyen Vinh Improving Phrase-based Machine Translation using Clause Splitting and Reordering Model PhD thesis, School of Information Science, Japan Advanced Institute of Science and Technology, 2009 131 [104] Stephan Vogel, Hermann Ney, and Christoph Tillmann HMM-based word alignment in statistical translation In Proceedings of COLING96, pages 836 841, Copenhagen, Denmark, 1996 [105] Chao Wang, Michael Collins, and Philipp Koehn Chinese syntactic re-ordering for statistical machine translation In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLPCoNLL), pages 737 745, Prague, Czech Republic, June 2007 Association for Computa-tional Linguistics [106] Lipo Wang Support Vector Machines: theory and applications, volume 177 Springer Science & Business Media, 2005 [107] Fei Xia and Michael McCord Improving a statistical mt system with automatically learned rewrite patterns In Proceedings of Coling 2004, pages 508 514, Geneva, Switzerland, Aug 23 Aug 27 2004 COLING [108] Peng Xu, Jaeho Kang, Michael Ringgaard, and Franz Och Using a de-pendency parser to improve smt for subject-object-verb languages In Proceedings of Human Language Technologies: The 2009 Annual Confer-ence of the North American Chapter of the Association for Computational Linguistics, pages 245 253, Boulder, Colorado, June 2009 Association for Computational Linguistics [109] Mohammad Sirvan Yahyaei Reordering in statistical machine transla-tion PhD thesis, Queen Mary, University of London, 2012 [110] Kenji Yamada and Kevin Knight A syntax-based statistical translation model In Proceedings of 39th Annual Meeting of the Association for Computational Linguistics, pages 523 530, Toulouse, France, July 2001 Association for Computational Linguistics 132 [111] Yuqi Zhang, Richard Zens, and Hermann Ney Chunk-level reordering of source language sentences with automatically learned rules for statis-tical machine translation In Proceedings of SSST, NAACL-HLT 2007 / AMTA Workshop on Syntax and Structure in Statistical Translation, pages 8, 2007 [112] Wujie Zheng, Wenyu Wang, Dian Liu, Changrong Zhang, Qinsong Zeng, Yuetang Deng, Wei Yang, and Tao Xie Oracle-free detection of transla-tion issue for neural machine translation CoRR, abs/1807.02340, 2018 133 Phö löc Vấn đề đảo trật tự từ dịch máy: 1.1 Sự khác thứ tự từ ngơn ngữ Các ngơn ngữ có từ để tên với ý nghĩa vật (danh từ), C¡c tr“t tü tł cì b£n hành động (động từ), thuộc tính (tính từ, trạng từ) … Các từ chức giúp kết hợp câu với Trật tự từ giúp xác nh mi quan h gia cỏc t Thng kả vã quan h» giœa c¡c ngỉn ngœ sß dưng tł lo⁄i kh¡c ÷ỉc mỉ Thống kê quan hệ ngôn ngữ sử dụng từ loại khác mụ tÊ cĂc hnh 5.9-5.12(Nguỗn: World Atlas of Language Structures ) tả hình 1- H…nh Hỡnh5.9: Thng1:ngkả kờcĂccỏcngổngụnngngSVOSVO(chng,, ng t, tõnƠn ng)) (Ngun: World Atlas of Language Structures http://wals.info/) Trong mºt sŁ tr÷íng hỉp, mºt sŁ ngæn ngœ l⁄i câ C¡c tr“t tü tł °c i”m: ỉi khỉng cŁ ành C¡c c¥u kh¡c din t nghắa ging V dử: cĂc cƠu ti‚ng øc http://wals.info/ 134 Hình 2: Thống kê ngơn ngữ với từ loại Tính từ, Danh từ Hình 1: Thống kê ngơn ngữ SVO(chủ ngữ, động từ, tân ngữ) (Nguồn: World Atlas of Language Structures http://wals.info/) Hình 2: Thống kê ngơn ngữ với từ loại Tính từ, Danh từ H…nh 5.10: ThŁng k¶ c¡c ngỉn ngœ vỵi tł lo⁄i T‰nh tł, Danh tł Der Mann gibt der Frau das Buch Das Buch gibt der Mann der Frau Der Frau gibt der Mann das Buch Và tr‰ cıa c¡c tł câ nºi dung cho ph†p nhĐn mnh cƠu Vai trặ ca cửm t danh t (chı ngœ, t¥n ngœ, t¥n ngœ gi¡n ti‚p) câ th” n›m b›t h…nh th¡i c¥u Ph†p phi chi‚u: Ph†p phi chi‚u câ th” ph£n ¡nh qua c¡c phö thuºc ph¥n t‰ch có ph¡p phư thuºc (h…nh 5.13) °c i”m ca cĂc ngổn ng n y: CƠu khổng phƠn r th nh c¡c cưm tł li¶n ti‚p V‰ dư ngỉn ngœ Latin - NP meam canitiem = my old-age - NP ista gloria = that glory Trong kh£o s¡t v• c¡c ngỉn ngœ, c¡c ngæn ngœ kh¡c câ tr“t tü tł kh¡c nhau: - Vợi bĐt ký ngổn ng nguỗn n o, cõ ngỉn ngœ ‰ch t÷ìng øng 135 Hình 3: Thống kê ngôn ngữ với cụm từ bổ nghĩa, cụm danh t Hnh 5.11: Thng kả cĂc ngổn ng vợi cửm tł bŒ ngh¾a, cưm danh tł Hình 3: Thống kê ngôn ngữ với cụm từ bổ nghĩa, cụm danh từ Hình 4: Thống kê ngơn ngữ với Danh từ, mệnh đề quan hệ Hình 4: Thống kê ngôn ngữ với Danh từ, mệnh đề quan hệ Một sHnhtrng5.12: hp:Thng kả cĂc ngổn ng vợi Danh t, mằnh Một số trường hợp:  Các trật tự từ khơng cố định • quan h» - Mºt sŁ ngổn ng cõ liản quan cht ch cụng cõ nhœng ngỉn ngœ Các trật tự từ đơi khơng cố định  Các câu khác diễn đạt nghĩa giống  khæng câ tr‰ ch°t ch‡ Các câu khác diễn đạt nghĩa giống Ví dụ: câu tiếng Đức Lu“tVíchuy”ndụ:các câuŒitrongthı tiếcỉngĐức Der Mann gibt der Frau das Buch Mºt sŁ h» thŁng dàch sß dưng c¡c chuy”n Œi thı cỉng v ¡p döng c¡c Das Buch gibt der Mann der Frau Der Mann gibt der Frau das Blu“tch Das Buch gibt der Mann der Frau lu“t chuy”n Œi cho b i to¡n s›p x‚p l⁄i tr“t tü tł Der Frau gibt der Mann das Buch Der Frau gibt der Mann das Buch 1. DàchVịtrí m¡ycủacácchotừ c°pcónộingỉndugngœcho phépti‚ngnhấnøcmạnhti‚ngcâu Anh  Vị trí từ có nội dung cho phép nhấn mạnh câu  Vai trò cụm từ danh từ (chủ ngữ, tân ngữ, tân ngữ gián tiếp) p dửng cĂc quy tc sp xp li theo cĂc bữợc:  Vai trò cụm từ danh từ (chủ ngữ, tân ngữ, tân ngữ gián tiếp) nắm bắt hình thái câu nắm bắt hình thái câu 4136 Phép phi chiếu: Phép phi chiếu phản ánh qua phụ thuộc phân tích cú pháp phụ thuộc  Câu không phân rã thành cụm từ liên tiếp H…nh 5.13: Ph†p phi chi‚u ngæn ngœ Latinh  Ví dụ ngơn ngữ Latin - NP meam canitiem = my old-age -NPista gloria = that glory Các ngơn ngữ khác có trật tự từ khác nhau: - Với ngơn ngữ nguồn nào, có ngơn ngữ đích tương ứng - Một số ngơn ngữ có liên quan chặt chẽ có ngơn ngữ khơng có vị trí chặt chẽ 1.2 Bài tốn xếp lại trật tự từ Trong dịch máy thống kê, vấn đề đảo trật tự từ vấn đề khó, đơn giản ngơn ngữ khác có thứ tự từ khác Một cách hình thức, xem tốn dịch máy thống kê gồm hai toán con: đoán định tập hợp từ H…nh 5.14: Dàch tł ngæn ngœ ti‚ng øc sang ngæn ngœ ti‚ng Anh dịch xác định thứ tự từ dịch (bài toán xếp lại) Dịch máy thống kê dựa cụm [1], [2] mơ hình dịch máy tốt nhờ việc xếp lại cỏc Vợi bĐt cửm ng t: chuyn ng t ch‰nh tỵi tr‰ ban ƒu cụm từ - mà ngữ cảnh khoảng cách cụm gần Trong c¡c m»nh • con: chuy”n ( ºng tł ch‰nh) trüc ti‚p sau bŒ ngœ Mơ hình dịch máy thống kê dựa cụm mà khoảng cách cụm xa Trong ký m»nh •: chuy”n chı ngœ trüc ti‚p l¶n tł ch‰nh xem thách thức Để giải thách thức, năm gần õyChuynnhiucĂcn tlcphửnghiờnlả cphuatheotrữợch ngtớcht hp cỳ phỏp cõu vo dch thống kê áp dụng, [3]: kết hợp cụm từ, tổ hợp cú pháp câu vào dịch Chuy”n c¡c ºng tł khỉng nguy¶n th” sau ºng tł nguy¶n th” máy thống kê Bên cạnh đó, ngồi mức cụm từ, số cơng trình áp dụng Chuy”n c¡c ph nh mức5mằnh ã sau ng t nguyản th Dàch m¡y cho c°p ngæn ngœ ti‚ng Trung ti‚ng Anh 137 H…nh 5.15: Dàch tł ngæn ngœ ti‚ng Trung sang ngỉn ngœ ti‚ng Anh S›p x‚p l⁄i düa tr¶n phƠn tch cú phĂp th nh phn theo cĂc bữợc PP sòa i VP ữổc di chuyn pha sau Cửm NP ch thới gian sòa i VP ữổc di chuy”n sau PP v m»nh • quan h» (CP) sòa i NP ữổc di chuyn sau postpositions ữổc di chuyn pha trữợc cửm NP ch tiãn tằ Dàch m¡y cho c°p ngæn ngœ ti‚ng H n ting Anh Sò dửng phƠn tch cú phĂp phử thuc, nhâm c¡c ºng tł phö thuºc (VB*) C¡c th nh phƒn cıa ºng tł (prt) Træ ºng tł (aux) Træ ºng tł bà ºng (auxpass) Phı ành (neg) ºng tł ph£n th¥n (self) 138 H…nh 5.16: Dàch tł ngỉn ngœ ti‚ng H n sang ngỉn ngœ ti‚ng Anh £o ng÷ỉc tr‰ cıa hå v dàch chuy”n ‚n cuŁi c¥u S›p x‚p tr“t tü tł ÷ỉc ¡p dưng t÷ìng tü vỵi c¡c ngỉn ngœ ti‚ng Nh“t, ti‚ng Hindi, ti‚ng Urdu v ti‚ng ThŒ Nh¾ Ký Dàch m¡y cho c°p ngæn ngœ ti‚ng r“p ti‚ng Anh Ba ki”u s›p x‚p li trt tỹ t gỗm: CĂc ch ã vã ng tł câ th” l : (a.) pro-dropped, (b.) pre-verbal, or (c.) post-verbal CĂc t b nghắa tnh t thữớng theo c¡c danh tł t÷ìng øng T¡ch v s›p x‚p l⁄i book + his ! his book Sß dưng c¡c lu“t tỹ ng cho vĐn ã tiãn xò lỵ Kiu ca cĂc lut: Ng cÊnh iãu kiằn: r ng buc tợi iãu kiằn, cĂc iãu kiằn gỗm: - Tm kim POS tag (T) / nh¢n có ph¡p (L) - Cıa nót hi»n thíi (n), nót cha (p), thø nh§t, thø hai, 139 H…nh 5.17: Dàch tł ngæn ngœ ti‚ng r“p sang ngæn ngœ ti‚ng Anh H nh ºng: ho¡n V‰ dư nh÷ (1,2,4,3) l s›p x‚p l⁄i tr‰ thø v cıa thø Thu“t to¡n håc: p döng thu“t to¡n tham lam cho vi»c håc c¡c lu“t s›p x‚p Bữợc : Khi to vợi mt lut rỉng, kho ng liằu song ng chữa ữổc sp xp Bữợc : Xem x†t t§t c£ c¡c lu“t câ th” Bữợc : LĐy mt lut cõ lỉi sp xp l ‰t nh§t chån mºt nhœng lØi l m li sp xp li nhiãu nhĐt Bữợc : B sung v o t“p lu“t, ¡p dưng cho t§t c£ cĂc cƠu Bữợc : Lp li bữợc 2, cho tỵi dłng ¡nh gi¡ qua mỉ h…nh giâng h ng tł IBM Model - C¡c mæ h…nh IBM cao hỡn cõ xu hữợng ỡn iằu(monotone bias) - o: sŁ c¡c li¶n k‚t giâng h ng ch†o 140 H…nh 5.18: Mæ t£ c¡c lu“t s›p x‚p l⁄i T“p nh¢n cho có ph¡p phư thuºc Kho ngœ li»u ting Viằt (VietTreebank) i vợi ting Viằt, viằc xƠy dỹng treebank cụng  cõ mt s kt quÊ nhĐt nh Vợi ting Viằt, treebank ữổc nghiản cứu ứng dửng khn khŒ VLSP v câ t¶n l VietTreebank [42] Mưc tiảu ca Viettreebank l xƠy dỹng ữổc lữổc ỗ giÊi thch cú phĂp vợi hỡn 10.000 cƠu Tp nhÂn ca Viettreebank gỗm cõ: TƠp nhÂn t loi: cĂc thổng tin vã t cõ th ữổc chứa nhÂn t loi bao gỗm: t loi cỡ s (danh t, ng t, t‰nh tł ), thæng tin h…nh th¡i (sŁ ‰t, sŁ nhi•u, th…, ngỉi ), thỉng tin vã phƠn loi (v dử ng t i vợi danh t, ng t i vợi mằnh ã ), thỉng tin ngœ ngh¾a, hay mºt sŁ thỉng tin có ph¡p kh¡c Vỵi °c i”m cıa ti‚ng Vi»t, t“p nhÂn t loi ch chứa thổng tin vã t loi cỡ s m khổng bao gỗm cĂc thổng tin nhữ hnh thĂi, phƠn loi Tp nhÂn c¡c th nh phƒn có c¡c ph¡p: t“p nh¢n chøa c¡c nh¢n mỉ t£ th nh phƒn có ph¡p cì bÊn l cửm t v mằnh ã NhÂn th nh phn 141 BÊng 5.3: NhÂn cửm t STT Tản Chú th‰ch NN Cöm danh tł VP Cöm ºng tł AP Cöm t‰nh tł RP Cöm phö tł PP Cưm giỵi tł QP Cưm tł ch¿ sŁ l÷ỉng MDP Cưm tł h…nh th¡i WHNP Cưm danh tł nghi v§n (ai, c¡i g…, g…, v.v.) WHAP Cưm t‰nh tł nghi v§n (l⁄nh th‚ n o, µp sao, v.v.) 10 WHRP Cưm t nghi vĐn dũng họi vã thới gian, nỡi chn, v.v.) 11 WHPP Cửm giợi t nghi vĐn (vợi ai, b‹ng c¡ch n o, v.v.) B£ng 5.4: Nh¢n m»nh ã STT Tản Chú thch S CƠu trn thut (khflng ành ho°c phı ành) SQ C¥u häi SBAR Mằnh ã phử (b nghắa cho danh t, ng tł v t‰nh tł) có ph¡p l thỉng tin cì bÊn nhĐt trản cƠy cú phĂp, nõ to th nh xữỡng sng ca cƠy cú phĂp Tp nhÂn chức nông cú phĂp: NhÂn chức nông cú phĂp ữổc gĂn cho cĂc th nh phn chnh cƠu nhữ ch xĂc ành c¡c lo⁄i quan h» ngœ ph¡p cì b£n sau Ơy: Ch-v ã-thuyt Phn chảm 142 B ng Phử ng Sü k‚t hỉp T“p nh¢n a ngỉn ngœ T“p nh¢n a ngổn ng ữổc xƠy dỹng dỹa v o hai bữợc chnh: - Thảm hoc tinh chnh cĂc quan hằ t“p nh¢n phư thuºc ti‚ng Anh ” câ th” Ăp dửng tt hỡn vợi nhiãu ngổn ng - Bọ bợt mt s c tnh c trững ca ting Anh phũ hổp vợi nhiãu ngổn ng so vợi t“p nh¢n phư thuºc ti‚ng Anh ban ƒu B£ng 5.5: NhÂn chức nông cú phĂp STT Tản Chú thch SUB NhÂn chức nông ch ng DOB NhÂn chức nông tƠn ng trỹc tip IOB NhÂn chức nông tƠn ng giĂn tip TPC NhÂn chức nông ch ã PRD NhÂn chức nông v ng khổng phÊi cửm ng t LGS NhÂn chức nông ch ng logic ca cƠu th b ng EXT NhÂn chức nông b ng ch phm vi hay tn suĐt ca h nh ng H NhÂn phn tò trung tƠm (ca cửm t hoc mằnh ã) 9-12 TC, CMD, NhÂn phƠn loi cƠu: ã thuyt, mằnh lằnh, cÊm thĂn, c biằt EXC,SPL 13 TTL Tt bĂo hay tiảu ã 14 VOC Th nh phƒn than gåi 143 B£ng 5.6: Nhõm cĂc nhÂn a ngổn ng STT Tản nhõm NhÂn phư thuºc Nhœng phư thuºc cŁt lªi cıa tł nsubj, csubj, nsubjpass, csubjpass, dobj, ccomp, xcomp, iobj Nhœng phư thuºc khỉng cŁt lªi nmod, advcl, adcvl, advmod,neg cıa tł Nhœng phư thuºc m»nh • °c bi»t vocative, aux, mark, discourse, auxpass, punct, expl, cop Nhœng phö thuºc danh tł: nummod, acl, amod, appos, det, nmod, neg Nhœng phư thuºc v• c¡c tł khỉng th” compound, mwe, goeswith, ph¥n t‰ch v c¡c nhâm tł ghp name, foreign Nhng phử thuc vã sỹ liản hỉp conj, cc, punct Nhœng phư thuºc v• sü s hu, cĂc giợi t hoc cĂc trữớng hổp case c biằt ữổc Ănh dĐu Nhng phử thuc v• c¡c th nh phƒn list, parataxis, remnant, dislocated, tham gia reparandum Nhœng tł phö thuºc kh¡c root, dep 144 ... tích phụ thuộc tiếng Anh tiếng Việt Sử dụng quan hệ cặp từ nút cha-con, anh- em Khảo sát quan hệ phụ thuộc nút cha nút đảo trật tự từ Chương Chương Phân tích ảnh hưởng phân tích phụ thuộc tới chất. .. dịch dựa cụm từ thường khơng thực theo trình tự 38 phương pháp dựa sở từ, mà sử dụng khn dạng ghi tuyến tính Các thành phần mơ hình ngơn ngữ, mơ hình dịch cụm từ, mơ hình dịch từ vựng mơ hình đảo. .. chất lượng dịch … Dependency-based word embedding Xây dựng luật tự động word embedding Dependency-based neural netwwork Đánh giá kết dịch qua chất lượng phân tích phụ thuộc Đảo trật tự từ câu

Ngày đăng: 30/07/2020, 14:18

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan