1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT

92 211 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 1,8 MB

Nội dung

Header Page of 166 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ NGỌC MAI TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh - 2010 Footer Page of 166 Header Page of 166 MỤC LỤC MỤC LỤC DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH CHƢƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề 1.2 Hƣớng tiếp cận đề tài 1.3 Nội dung luận văn CHƢƠNG 2: TỔNG QUAN .11 2.1 Dịch máy thống kê .11 2.1.1 Dịch máy thống kê dựa từ .11 2.1.2 Mô hình dịch máy thống kê dựa ngữ .19 2.1.3 Mô hình dịch thống kê factored (Factored SMT) 26 2.1.4 Mô hình dịch máy thống kê dựa cú pháp 29 2.2 Các tiêu chuẩn đánh giá chất lƣợng dịch .31 2.2.1 BLEU (Bilingual Evaluation Understudy) 32 2.2.2 NIST 32 2.2.3 TER (Translation Error Rate) .32 CHƢƠNG 3: .33 CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ 33 3.1 Sử dụng tri thức ngôn ngữ để tiền xử lý 33 3.1.1 Dùng thông tin cú pháp 34 Footer Page of 166 Trang Header Page of 166 3.1.2 Sử dụng thông tin từ loại 36 3.1.3 Sử dụng luật biến đổi hình thái từ .37 3.2 Tích hợp tri thức vào hệ thống dịch máy 39 3.2.1 Tích hợp thông tin hình thái vào mô hình dịch 39 3.2.2 Tích hợp thông tin cú pháp vào mô hình dịch 40 3.2.3 Tích hợp vào mô hình ngôn ngữ 41 CHƢƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI 42 4.1 Tích hợp thông tin hình thái từ tiếng Anh 43 4.1.1 Thông tin từ loại 43 4.1.2 Thông tin biến cách từ 44 4.1.3 Sử dụng luật chuyển đổi trật tự .45 4.2 Thêm thông tin hình thái từ tiếng Việt 50 4.2.1 Thông tin ranh giới từ 50 4.2.2 Thông tin từ loại 51 4.3 Thêm thông tin hình thái từ cho tiếng Anh tiếng Việt 52 CHƢƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ .54 5.1 Ngữ liệu .54 5.2 Các công cụ 55 5.3 Thí nghiệm 55 5.3.1 4.4 Tích hợp thông tin hình thái từ câu tiếng Anh 55 Tóm tắt kết thí nghiệm 74 CHƢƠNG 6: KẾT LUẬN 76 TÀI LIỆU THAM KHẢO 78 PHỤ LỤC 82 Footer Page of 166 Trang Header Page of 166 A Đối chiếu hình thái từ Anh – Việt (biến cách) 82 B Kết dịch số mô hình 82 Footer Page of 166 Trang Header Page of 166 DANH SÁCH CÁC BẢNG Bảng 2.1 Bảng biểu diễn gióng hàng từ dạng bảng 15 Bảng 5.1 Thông tin ngữ liệu 59 Bảng 5.2 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Anh 60 Bảng 5.3 Kết dịch hệ chuyển đổi trật tự từ 63 Bảng 5.4 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Việt 64 Bảng 5.5 Số liên kết gióng hàng từ mô hình 65 Bảng 5.6 Kết dịch hệ dịch tích hợp từ loại tiếng Việt 68 Bảng 5.7 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Anh tiếng Việt 71 Footer Page of 166 Trang Header Page of 166 DANH SÁCH CÁC HÌNH Hình 2.1 Mô hình dịch máy thống kê 12 Hình 2.2 Biểu diễn gióng hàng từ dạng liên kết 14 Hình 2.3 Hình minh hoạ trình cải tiến gióng hàng từ 19 Hình 2.4 Ví dụ dịch thống kê dựa ngữ 20 Hình 2.5 Mô hình dịch factored SMT 27 Hình 4.1 Mô hình chung luận văn 43 Hình 4.2 Mô hình ngôn ngữ từ vựng 49 Hình 4.3 Mô hình ngôn ngữ từ loại 49 Hình 4.4 Mô hình factored SMT tích hợp từ loại 50 Hình 4.5 Mô hình factored SMT tích hợp nguyên mẫu từ loại 51 Hình 4.5 Mô hình factored SMT tích hợp thông tin hình thái từ 51 Footer Page of 166 Trang Header Page of 166 CHƢƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề Dịch máy hay gọi dịch tự động đƣợc ngƣời quan tâm Các nhà nghiên cứu đƣa tri thức nhằm khai thác sức mạnh xử lý tính toán máy tính tạo ứng dụng phục vụ ngƣời thời đại công nghệ thông tin phát triển Khi việc giao tiếp việc nắm bắt thông tin nhanh chóng tạo nên nhiều hội cho ngƣời đến thành công, chƣơng trình dịch tự động công cụ giúp họ vƣợt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh tiết kiệm công sức Dịch máy lĩnh vực thú vị, thu hút quan tâm nhiều nhóm nghiên cứu giới Tuy nhiên, thân ngôn ngữ phức tạp, thƣờng hay có nhập nhằng Mặc khác, ngôn ngữ có khác biệt, từ từ vựng đến cấu trúc để tạo thành câu Việc xây dựng hệ dịch máy có khả hiểu ngữ cảnh, khử nhập nhằng dịch đƣợc gần với ngƣời thách thức lớn Đối với tiếng Việt, có nhiều nhóm đầu tƣ vào hệ dịch theo nhiều hƣớng tiếp cận khác nhau: - Nhóm nghiên cứu PGS TS Đinh Điền (Đại học Khoa học Tự nhiên- Đại học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu nhóm dựa việc học luật chuyển đổi từ ngữ liệu song ngữ - Nhóm nghiên cứu PGS TS Phan Thị Tƣơi (Đại học Bách Khoa Thành phố Hồ Chí Minh): Nhóm sử dụng phƣơng pháp phân tích cú pháp có xác suất để dịch văn Anh-Việt Việt-Anh - Nhóm nghiên cứu TS Lê Khánh Hùng Softex (Phòng Công nghệ Phần Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học Công nghệ Việt Nam): hệ dịch đƣợc đƣa vào sử dụng thực tế thƣơng mại hoá sản phẩm (http://vdict.com) EVTRAN hệ dịch máy hoàn toàn dựa vào luật, sử Footer Page of 166 Trang Header Page of 166 dụng luật đƣợc xây dựng tay để dịch văn từ Anh sang Việt Từ năm 2006, EVTRAN 3.0 (đƣợc gọi Ev-Shuttle) dịch đƣợc văn hai chiều Anh-Việt Việt-Anh Do hệ dịch dựa luật nên kết hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với luật đƣợc thiết lập hay không - Nhóm dự án ERIM Đại học Bách Khoa Đà Nẵng kết hợp với GETA – ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt Đoàn Nguyên Hải (http://www.latl.unige.ch/vietnamese/) LATL - Google Transle (www.translate.google.com): Hỗ trợ 50 ngôn ngữ bao gồm tiếng Việt Sử dụng phƣơng pháp dịch máy thống kê dựa kho ngữ liệu song ngữ Tốc độ dịch nhanh có tính tƣơng tác với ngƣời dùng nhằm tăng chất lƣợng dịch cho lần sau - Dịch máy Xalo.vn (www.dich.xalo.vn): đƣa dịch vụ dịch trực tuyến chiều từ Anh sang Việt, công ty Cổ phần Công nghệ Tinh Vân tự phát triển, hỗ trợ dịch theo lĩnh vực, đồng thời cho phép ngƣời dùng chỉnh sửa, góp ý nội dung dịch nhằm nâng cao chất lƣợng dịch - Lạc Việt (công ty phát triển đƣa từ điển Lạc Việt www.vietgle.vn/tratu/dich-tu-dong): hỗ trợ dịch từ Anh sang Việt có thêm phần dịch chuyên ngành (tin học, toán học, y học kế toán) hỗ trợ dịch tốt ngƣời dùng Do xây dựng mô hình khác nhau, hệ thống cho chất lƣợng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào Các hệ thống dựa luật sử dụng tri thức ngôn ngữ nhƣ thông tin cú pháp, ngữ nghĩa nên dịch hiệu Tuy nhiên, máy tính khó phân tích cú pháp xác cho câu có ngữ nghĩa phức tạp Mặc khác, việc xây dựng tập luật cú pháp luật chuyển đổi bao quát đƣợc trƣờng hợp khó khăn, đòi hỏi ngƣời thực phải có kiến thức sâu ngôn ngữ Ngƣợc lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa kết thống kê từ kho ngữ liệu song ngữ Kết trung gian Footer Page of 166 Trang Header Page of 166 hệ dịch bảng thống kê từ, ngữ qui luật chuyển đổi mà không cần đến tri thức ngôn ngữ Với phƣơng pháp này, ngữ liệu lớn có chất lƣợng tốt hệ dịch hiệu Ƣu điểm hệ dịch tuý thống kê nên độc lập ngôn ngữ, áp dụng đƣợc cặp ngôn ngữ Mặc khác, tiền xử lý liệu đầu vào, miễn thực biến đổi đồng trình huấn luyện dịch Ngoài ra, ngƣời theo dõi can thiệp vào trình dịch thông qua bảng thống kê trung gian Chính đặc điểm mà mô hình dịch máy thống kê có tiềm lớn ứng dụng dịch máy Rất nhiều nhóm nghiên cứu tập trung khai thác phát triển hệ dịch máy mô hình Do đó, hƣớng đến phát triển hệ dịch sử dụng đồng thời tri thức thống kê từ kho ngữ liệu song ngữ tri thức phân tích ngôn ngữ Luận văn tập trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê phát triển hệ thống dịch máy thống kê Anh - Việt sử dụng tri thức ngôn ngữ 1.2 Hƣớng tiếp cận đề tài Đề tài tập trung vào khảo sát hƣớng tích hợp trực tiếp tri thức ngôn ngữ vào hệ dịch máy thống kê dựa ngữ Khảo sát tri thức ngôn ngữ dịch máy thống kê Anh - Việt Các tri thức đƣợc tập trung khảo sát bao gồm hình thái từ, từ loại cách kết hợp thông tin tìm hiểu ảnh hƣởng thông tin lên hệ dịch Tiếng Anh tiếng Việt khác biệt loại hình ngôn ngữ Tiếng Việt ngôn ngữ đơn lập, quan hệ ngữ pháp đƣợc diễn đạt trật tự trƣớc sau từ hƣ từ Trong tiếng Việt, từ tƣợng biến hình, đơn vị hình tiết: đơn vị có nghĩa, có vỏ ngữ âm thƣờng trùng với âm tiết, có khả vừa dùng nhƣ từ vừa dùng nhƣ hình vị Ở loại hình này, ngƣời ta thƣờng hay nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt yếu tố hƣ với yếu tố thực nhƣ vấn đề mặt cấu tạo từ phát triển Trong tiếng Anh Footer Page of 166 Trang Header Page 10 of 166 ngôn ngữ hoà kết, từ tiếng Anh từ tả phân biệt khoảng trắng Từ vựng tiếng Anh có hai đặc điểm biến cách dẫn xuất Biến cách dạng mà có hình vị ràng buộc kết hợp vào từ để thể ý nghĩa ngữ pháp nhƣ: (tense), số (number), cách (case), v.v… Dẫn xuất dạng từ đƣợc hình thành sở từ gốc kết hợp với phụ tố nhằm thể ý nghĩa từ vựng, nhƣ: lặp lại (re-), chống (anti-), ngƣời/vật thực (-er/-or), Phụ tố dẫn xuất bao gồm hậu tố tiền tố Nhiều nghiên cứu tiếp cận theo hƣớng tập trung vào giải khác biệt trật tự từ tiếng Anh tiếng Việt nhƣ nghiên cứu nhóm Nguyễn Phƣơng Thái [32], nhóm nghiên cứu nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3] đạt đƣợc số kết khả quan Tuy nhiên, khác hình thái từ tiếng Anh tiếng Việt chƣa đƣợc quan tâm Do đó, đề tài tiếp cận theo hƣớng tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê Anh - Việt mức độ hình thái từ Từ tiếng Anh đƣợc đƣa nguyên mẫu, tách phụ tố gán nhãn từ loại, từ tiếng Việt đƣợc phân đoạn từ gán nhãn từ loại Đề tài phân tích từ loại có ảnh hƣởng tích cực đến chất lƣợng dịch hệ thống 1.3 Nội dung luận văn Phần lại luận văn bao gồm chƣơng sau: Chƣơng – TỔNG QUAN: Chƣơng trình bày hƣớng tiếp cận dịch máy thống kê dựa ngữ, thành phần cấu thành hệ thống dịch máy thống kê Chƣơng – CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ: Chƣơng khảo sát hƣớng tiếp cận để đƣa tri thức ngôn ngữ vào hệ máy thống kê, phân tích ƣu khuyết điểm hƣớng tiếp cận Footer Page 10 of 166 Trang Header Page 78 of 166 Trong tƣơng lai, đề tài mở rộng theo hƣớng sau nâng cao hiệu hệ dịch cách tích hợp thêm số tri thức khác vào hệ dịch nhƣ thông tin cú pháp để chuyển đổi trật tự từ thông tin ngữ nghĩa để chọn từ dịch xác Footer Page 78 of 166 Trang 77 Header Page 79 of 166 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đinh Điền (2001), So sánh trật tự từ định ngữ tiếng Anh tiếng Việt Tạp chí Khoa học Xã hội Nhân văn, Trƣờng Đại học Khoa học Xã hội Nhân văn Tp Hồ Chí Minh [2] Hoàng Công Duy Vũ, Văn Chí Nam, Đinh Điền (2006), Dịch máy thống kê Anh – Việt, Việt – Anh kết hợp thông tin ngôn ngữ tiếng Việt Hội nghị kỷ niệm 30 năm thành lập Viện CNTT, Hà Nội [3] Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt số cấu trúc cú pháp bản, Luận án phó tiến sĩ khoa học ngữ văn Tiếng Anh [4] A Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, In Proceedings of Intl Conf Spoken Language Processing, Denver, Colorado, September 2002 [5] Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16 [6] Chao Wang, Michael Collins, and Phillip Koehn, 2007 Chinese Syntactic Reordering for Statistical Machine Translation, in Proceeding of EMNLP, 2007 [7] Collins, M., Koehn, P and Kucerova, I (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of the Assoc for Computational Linguistics (ACL), pp 531-540 [8] Doddington, G (2002), Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics, Proceedings of the second international conference on Human Language Technology Research, pp 138 – 145 Footer Page 79 of 166 Trang 78 Header Page 80 of 166 [9] Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003 Syntax-based Language Models for Statistical Machine Translation In Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September 2003 [10] F J Och and H Ney, 2000, Improved statistical alignment models, In Proceedings of ACL 2000 [11] F Xia and M McCord 2004 Improving a statistical MT system with automatically learned rewrite pat-terns In Proceedings of COLING 2004 [12] Habash, Nizar Syntactic Preprocessing for Statistical Machine Translation, In Proceedings of the Machine Translation Summit (MT-Summit), Copenhagen, Denmark, 2007 [13] J Giménez and L Márquez, 2004, SVMTool: A general POS tagger generator based on Support Vector Machines, In Proceedings of the 4th International Conference on Language Resources and Evaluation, Lisbon, Portugal, 2004 [14] J May and K Knight, 2007 Syntactic Re-Alignment Models for Machine Translation In Proceeding EMNLP-CoNLL [15] K Rottmann and S Vogel, 2008, Word reordering in statistical machine translation with a POS-based distortion model, In Proceedings of the 11th International Conference on Theoretical and Methodological Issues in Machine Translation, Skovde (Sweden), pp.171-180, 7-9 September 2007 [16] K Toutanova, H.T Ilhan, and C.D Manning, 2002, Extensions to HMMbased statistical word alignment models, In Proceedings of Conf on Empirical Methods for Natural Language Processing, pages 87-94, Philadelphia, PA, July 2002 [17] Koehn, P., Och, F J., and Marcu, D (2003), Statistical phrase-based translation, Proceedings of the HLT-NAACL 2003 conference, pp 127–133 [18] Koehn, P (2003), Lecture of Statistical Machine Translation [19] Libin Shen, Jinxi Xu, Bing Zhang, Spyros Matsoukas, Ralph Weischedel (2009) Effective Use of Linguistic and Contextual Information for Statistical Footer Page 80 of 166 Trang 79 Header Page 81 of 166 Machine Translation In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (August 2009), pp 72-80 [20] M Popovic, H Ney, 2006, POS-based Word Reorderings for Statistical Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May 2006 [21] Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007) Getting to know Moses: initial experiments on German English factored translation In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 181-184 [22] Minnen, G., J Carroll and D Pearce, 2001, Applied morphological processing of English, Natural Language Engineering, 7(3), pages 207-223 [23] N Ueffing, and H Ney, 2003, Using POS Information for Statistical Machine Translation into Morphologically Rich Languages, In Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 347-354, Budapest, Hungary, April 2003 [24] Nhung N., Dien D., 2008 A syntactic-based Word Re-ordering for EnglishVietnamese Statistical machine translation system In Proceeding of PRICAL 2008, LNAI 5351, pp 809 – 818, 2008 [25] P F Brown, S A D Pietra, V J D Pietra, and R L Mercer, 1993, The mathematics of statistical machine translation, Computational Linguistics 22(1): 39-69 [26] P Koehn, F J Och, and D Marcu, 2003, Statistical phrase-based translation, In Proceedings of HLT-NAACL 2003 [27] P Koehn, H Hoang, 2007 Factored Translation Models In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL), pp 868– 876, Prague, June 2007 [28] Papineni K A., Roukos S., Ward T., and Zhu W.J (2002), Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Footer Page 81 of 166 Trang 80 Header Page 82 of 166 Annual Meeting of the Association for Computational Linguistics, pp 311– 318 [29] S NieBen and H Ney, 2001, Morpho-syntactic analysis for reordering in statistical machine translation, In Proceedings of MT Summit VIII, pages 247252, Santiago de Compostela, Galicia, Spain, September 2001 [30] Sonja Nießen, Hermann Ney, 2000, Improving SMT quality with morphosyntactic analysis In Proceedings of the 18th conference on Computational linguistics - Volume (ACL), Saarbrücken, Germany, page 1081-1085 [31] Snover M., Dorr B., Schwartz R., Micciulla L and Makhoul J (2006), A study of translation edit rate with targeted human annotation, Proceedings of Association for Machine Translation in the Americas, pp 223 – 231 [32] Thai Phuong Nguyen and Akira Shimazu, 2006, Improving Phrase-Based SMT with Morpho-Syntactic Analysis and Transformation, In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, pages 138-147, Cambridge, 2006 [33] Victoria Fossum, Kevin Knight and Steven Abney, 2008 Using Syntax to Improve Word Alignment Precision for Syntax-Based Machine Translation In Proceedings of ACL MT Workshop, 2008 [34] Yamada,K and Knight, K (2001), A syntax-based statistical machine translation, Proceedings of ACL [35] Yuqi Zhang, Richard Zens and Hermann Ney 2007 Chunk-level reordering of source language sentence with automatically learned rules for statistical machine translation In Proceedings of SSST, NAACL-HLT 2007/AMTA Workshop on Syntax and Structure in Statistical Translation Footer Page 82 of 166 Trang 81 Header Page 83 of 166 PHỤ LỤC A Đối chiếu hình thái từ Anh – Việt (biến cách) Stt Ý nghĩa ngữ pháp Biến cách Nghĩa Danh từ số nhiều s Ngôi thứ số s Sở hữu cách „s POS Hiện phân từ ing VBG Quá khứ ed VBD Quá phân từ en VBN So sánh er JJR,RBR So sánh est JJS,RBS những, Từ loại NNS VBZ B Kết dịch số mô hình Văn tiếng Anh In addition , Viet Nam now hosts a great variety of industries and many use dirty technology and waste natural resources An estimated VND 124 trillion ( US $ 7.4 billion ) is needed to eliminate industrial pollution , a new Industrial Policy and Strategy Institute ( IPSI ) study shows The quantity of HCFCs , particularly R22 , used in the refrigerating and air conditioning industries is on the increase , Thanh said , adding that finding an ideal alterative refrigerant is a major challenge facing the industry It is situated about 20 kilometers from Cao Lanh Town along National Highway 30 " We still had coffee and food and they organised stuff so we could get out , " she said Footer Page 83 of 166 Trang 82 Header Page 84 of 166 Dust in the air is 113 - 230 - times above the permitted level , the content of some metals in waste water ten times thicker than the acceptable level A project to build Ha Long into a smoke - free tourist city started in Ha Long city , northern coastal Quang Ninh province on Sept As the driest province in the country with annual rainfall between 700 and 1,100 millimeters , Ninh Thuan is endowed with a coastline , deltas , mountains , rivers , and sand dunes It , however , warned that rising sea - level would cost the habitats of such rare , endangered and endemic species like the leopard gecko , which lives only in the lowland area of the region The Minister for Natural Resources and the Environment , Pham Khoi Nguyen , will then chair a workshop on what Vietnam has been doing to cope with the problems brought on by global warming and rising sea levels Sanctuary established for under threat snub - nosed monkeys in Ha Giang Heavy rain and strong winds pounded Italy on Monday , claiming the lives of four people , ANSA news agency reported A hole with the length of two metres is on the blocked road Phainam - the road nearby Chao Anuvong Stadium Running the club is very difficult for me because we lack money , but with supports from members , we still manage the club effectively When not working as an architect he dedicates much of his time to running the Viet Nam Amateur Club of Astronomy Vietnam has begun an initiative to raise its capacity in coping with A / H1N1 flu , a Red Cross official said in Hanoi September 16 According to him , the country has met almost all of its health care targets set for the 2006 - 2010 period Vietnam has continued to receive messages of sympathy from leaders of other countries over the losses of human life and poverty caused by typhoon Ketsana Footer Page 84 of 166 Trang 83 Header Page 85 of 166 Russian President Dmitri Medvedev on Oct cabled a message to his Vietnamese counterpart Nguyen Minh Triet , saying , " Russia is willing to help Vietnam overcome the natural disaster ' s consequences " Kết dịch hệ sở In bổ sung , Việt Nam vật chủ nhiều loại ngành công nghiệp nhiều sử dụng bẩn công nghệ chất thải nguồn tài nguyên thiên nhiên Ƣớc tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) cần thiết để loại bỏ ô nhiễm công nghiệp , , công nghiệp sách chiến lƣợc Viện ( IPSI ) nghiên cứu cho thấy Các số lƣợng HCFCs , đặc biệt R22 , đƣợc sử dụng điện lạnh không khí - điều hoà ngành công nghiệp tăng lên , Thành cho biết , nói thêm việc tìm kiếm lý tƣởng alterative refrigerant lớn thách thức đối mặt với ngành công nghiệp Nó nằm khoảng 20 km từ Cao Lãnh thị trấn theo Quốc lộ 30 " Chúng có cà phê thực phẩm họ tổ chức thứ nhƣ , thoát khỏi " , Cô nói Bụi không khí 113 - 230 - lần mức cho phép , nội dung số kim loại nƣớc thải mƣời lần dày so với mức độ chấp nhận đƣợc Một dự án để xây dựng Hạ Long vào thuốc tự thành phố du lịch bắt đầu thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng Do khô tỉnh quốc gia với hàng năm lƣợng mƣa 700 số 1.100 mm , Ninh Thuận đƣợc ƣu đãi với bờ biển , đồng , núi , sông , cồn cát Footer Page 85 of 166 Trang 84 Header Page 86 of 166 Nó , nhiên , cảnh báo gia tăng mực nƣớc biển chi phí môi trƣờng sống nhƣ quý , bị đe dọa đặc hữu loài nhƣ lƣợng báo hoa mai tắc kè , mà khu vực đất thấp khu vực Các Bộ trƣởng Bộ Tài nguyên Môi trƣờng Phạm Khôi Nguyên , sau chủ trì hội thảo mà Việt Nam làm để đối phó với vấn đề đƣa vào nóng lên toàn cầu mực nƣớc biển tăng lên Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt Hà Giang Hôm mƣa gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống bốn ngƣời , ANSA Hãng tin Một lỗ với chiều dài hai mét chặn đƣờng Phainam - đƣờng gần Sân vận động Chao Anuvong Hoạt động câu lạc khó khăn cho thiếu tiền , nhƣng với hỗ trợ từ thành viên , quản lý câu lạc có hiệu Khi không làm việc nhƣ kiến trúc sƣ ông dedicates nhiều thời gian để chạy Việt Nam Amateur Câu lạc thiên văn học Việt Nam bắt đầu sáng kiến để nâng cao có khả việc đối phó với bệnh cúm A / H1N1 , Hội chữ thập đỏ chức nói Hà Nội ngày 16 tháng Theo ông , quốc gia đáp ứng gần nhƣ tất chăm sóc sức khỏe mục tiêu thiết lập cho năm 2006 - 2010 kỳ Việt Nam tiếp tục nhận đƣợc thông điệp đồng cảm từ nhà lãnh đạo nƣớc khác thiệt hại sống ngƣời nghèo gây bão Ketsana Nga , Tổng thống Dmitri Medvedev vào ngày tháng 10 cabled thông điệp ông đối tác Việt Nam Nguyễn Minh Triet , nói , " Nga sẵn sàng để giúp Việt Nam khắc phục thảm họa thiên nhiên hậu " Kết dịch sau thêm từ loại vào tiếng Anh Footer Page 86 of 166 Trang 85 Header Page 87 of 166 In bổ sung , Việt Nam có nhiều loại ngành công nghiệp nhiều sử dụng bẩn công nghệ chất thải nguồn tài nguyên thiên nhiên Ƣớc tính đồng 124 nghìn tỷ đồng ( Hoa Kỳ $ 7.4 tỷ đôla ) cần thiết để loại bỏ ô nhiễm công nghiệp , , công nghiệp sách chiến lƣợc Viện ( IPSI ) nghiên cứu cho thấy Các số lƣợng HCFCs , đặc biệt R22 , đƣợc sử dụng refrigerating không khí - điều hoà ngành công nghiệp gia tăng , Thành cho biết , nói thêm việc tìm kiếm lý tƣởng alterative refrigerant lớn thách thức đối mặt với ngành công nghiệp Nó nằm khoảng 20 km từ Cao Lãnh thị trấn dọc theo Quốc lộ 30 " Chúng có cà phê thực phẩm họ tổ chức thứ để làm " , Cô nói Bụi không khí 113 - 230 - lần mức cho phép , nội dung số kim loại nƣớc thải mƣời lần dày so với mức độ chấp nhận đƣợc Một dự án để xây dựng Hạ Long vào không khói thuốc thành phố du lịch bắt đầu thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng Do khô tỉnh nƣớc với hàng năm lƣợng mƣa 700 số 1.100 mm , Ninh Thuận đƣợc ƣu đãi với bờ biển , đồng , núi , sông , cồn cát Nó , nhiên , cảnh báo tăng mực nƣớc biển có chi phí môi trƣờng sống nhƣ quý , bị đe dọa đặc hữu loài nhƣ báo hoa mai phục kè , mà sống khu vực đất thấp khu vực Các Bộ trƣởng cho Tài nguyên Môi trƣờng Phạm Khôi Nguyên , sau chủ trì hội thảo mà Việt Nam làm để đối phó với vấn đề đƣa tiếp tục nóng lên toàn cầu mực nƣớc biển tăng lên Sanctuary phát cho bị đe dọa khỉ mũi tẹt Hà Giang Footer Page 87 of 166 Trang 86 Header Page 88 of 166 Hôm mƣa gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống bốn ngƣời , ANSA Hãng tin báo cáo Một lỗ với chiều dài hai mét chặn đƣờng Phainam - đƣờng gần Sân vận động Chao Anuvong Running câu lạc khó khăn cho thiếu tiền , nhƣng với hỗ trợ từ thành viên , quản lý câu lạc có hiệu Khi không làm việc nhƣ kiến trúc sƣ ông dedicates nhiều thời gian ông để chạy Việt Nam Amateur câu lạc Thiên văn học Việt Nam bắt đầu sáng kiến để nâng cao có khả việc đối phó với bệnh cúm A / H1N1 , Hội Chữ thập đỏ quan chức nói Hà Nội ngày 16 tháng Theo ông , quốc gia đáp ứng gần nhƣ tất chăm sóc sức khỏe mục tiêu thiết lập cho năm 2006 - 2010 kỳ Việt Nam liên tục để nhận thông điệp đồng cảm từ nhà lãnh đạo nƣớc khác thiệt hại sống ngƣời nghèo gây bão Ketsana Nga , Tổng thống Dmitri Medvedev vào ngày tháng 10 cabled thông điệp ông đối tác Việt Nam Nguyễn Minh Triet , nói , " Nga sẵn sàng để giúp Việt Nam khắc phục thảm họa thiên nhiên hậu " Kết dịch sau áp dụng luật chuyển đổi trật tự In bổ sung , Việt Nam chủ nhà loại lớn ngành công nghiệp nhiều sử dụng công nghệ bẩn chất thải nguồn tài nguyên thiên nhiên Ƣớc tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ đôla ) cần thiết để loại bỏ ô nhiễm công nghiệp , công nghiệp sách chiến lƣợc Viện ( IPSI ) nghiên cứu cho thấy Footer Page 88 of 166 Trang 87 Header Page 89 of 166 Các số lƣợng HCFCs , đặc biệt R22 , đƣợc sử dụng điện lạnh không khí - điều hoà ngành công nghiệp gia tăng , Thành cho biết , nói thêm việc tìm kiếm lý tƣởng refrigerant alterative thách thức lớn ngành công nghiệp Nó nằm khoảng 20 km từ Cao Lãnh Town theo Quốc lộ 30 " Chúng cà phê thực phẩm họ tổ chức chất liệu để thoát khỏi " , cô nói Bụi không khí 113 - 230 - lần so với mức cho phép , nội dung số kim loại nƣớc thải mƣời lần dày so với mức độ chấp nhận đƣợc Một dự án để xây dựng Hạ Long vào khói - thành phố du lịch không bắt đầu thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng Khi tỉnh khô nƣớc với lƣợng mƣa hàng năm khoảng 700 1.100 mm , Ninh Thuận đƣợc ƣu đãi với bờ biển , đồng , núi , sông , cồn cát Nó , nhiên , cảnh báo gia tăng mực nƣớc biển chi phí môi trƣờng sống quý , bị đe dọa đặc hữu loài nhƣ nhƣ tắc kè báo hoa mai , mà sống khu vực đất thấp khu vực Các Bộ trƣởng Bộ Tài nguyên Môi trƣờng Phạm Khôi Nguyên , sau chủ trì hội thảo mà Việt Nam làm để đối phó với vấn đề đƣa vào nóng lên toàn cầu mực nƣớc biển tăng lên Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt Hà Giang mƣa Heavy gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống bốn ngƣời , hãng tin ANSA báo cáo Một lỗ với chiều dài hai mét chặn đƣờng Phainam - đƣờng gần Sân vận động Chao Anuvong Footer Page 89 of 166 Trang 88 Header Page 90 of 166 Hoạt động câu lạc khó khăn cho thiếu tiền , nhƣng với hỗ trợ từ thành viên , quản lý câu lạc có hiệu Khi làm việc kiến trúc ông dedicates nhiều thời gian ông để chạy Việt Nam Amateur Câu lạc Thiên văn học Việt Nam bắt đầu sáng kiến để nâng cao lực việc đối phó với bệnh cúm A / H1N1 , đồng Hội chữ thập đỏ cho biết Hà Nội ngày 16 tháng Theo ông , quốc gia đáp ứng gần nhƣ tất chăm sóc sức khỏe mục tiêu đƣợc đặt cho năm 2006 - 2010 thời gian Việt Nam liên tục để nhận thông điệp cảm thông từ nhà lãnh đạo quốc gia khác thiệt hại sống ngƣời nghèo gây bão Ketsana Nga , Tổng thống Dmitri Medvedev vào ngày tháng 10 cabled thông điệp đến đối tác Việt Nam ông Nguyễn Minh Triet , nói , " Nga sẵn sàng để giúp Việt Nam khắc phục thiên tai tự nhiên hậu " Hệ dịch gán nhãn ranh giới từ tiếng Việt In bổ_sung , Việt_Nam chủ_nhà nhiều loại ngành công_nghiệp nhiều sử_dụng công_nghệ chất_thải bẩn nguồn tài_nguyên thiên_nhiên Ƣớc_tính 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) cần_thiết để loại_bỏ ô_nhiễm công_nghiệp , công_nghiệp chính_sách Viện Chiến_lƣợc ( IPSI ) nghiên_cứu cho_thấy Các số_lƣợng HCFCs , đặc_biệt R22 , đƣợc sử_dụng refrigerating điều_hoà không_khí - ngành công_nghiệp gia_tăng , Thành cho_biết , nói thêm việc tìm_kiếm lý_tƣởng alterative refrigerant thách_thức lớn phải đối_mặt với ngành công_nghiệp Nó nằm khoảng 20 km từ Cao Lanh Thị_xã dọc theo Quốc_lộ 30 Footer Page 90 of 166 Trang 89 Header Page 91 of 166 " Chúng_tôi có cà_phê thực_phẩm chúng đƣợc tổ_chức stuff vì_vậy chúng_tôi có_thể nhận , cô nói , " bụi không_khí 113 - 230 - lần mức cho_phép , nội_dung một_số kim_loại nƣớc_thải mƣời lần dày so với mức_độ chấp_nhận đƣợc Một dự_án để xây_dựng Hạ_Long thành không khói thuốc thành_phố du_lịch bắt_đầu thành_phố Hạ_Long , ven biển phía bắc tỉnh Quảng_Ninh vào tháng Do khô tỉnh nƣớc với lƣợng mƣa hàng năm khoảng 700 1.100 mm , Ninh_Thuận đƣợc ƣu_đãi với bờ biển , đồng_bằng , núi , sông , cồn cát Nó , tuy_nhiên , cảnh_báo việc tăng mực nƣớc biển tốn môi_trƣờng sống nhƣ quý_hiếm , bị đe_doạ đặc_hữu loài nhƣ leopard tắc_kè , mà sống khu_vực đất thấp khu_vực Các Bộ_trƣởng Bộ Tài_nguyên Môi_trƣờng Phạm_Khôi_Nguyên , sau chủ_trì hội_thảo Việt_Nam đƣợc làm để đối_phó với vấn_đề đƣa vào nóng lên toàn_cầu mực nƣớc biển dâng cao Tam_Nông thành_lập cho bị đe_doạ khỉ mũi tẹt Hà_Giang Giao_thông mƣa gió mạnh pounded Ý vào ngày thứ hai , làm thiệt_mạng cuộc_sống bốn ngƣời , ANSA tin_tức cơ_quan báo_cáo Một lỗ với chiều dài hai mét chặn đƣờng Phainam - đƣờng gần Sân_vận_động Chao_Anuvong Hoạt_động câu_lạc_bộ khó_khăn cho bởi_vì chúng_tôi thiếu tiền , nhƣng với hỗ_trợ từ thành_viên , chúng_tôi quản_lý câu_lạc_bộ có hiệu_quả Khi không làm_việc nhƣ architect ông dedicates nhiều thời_gian ông để chạy Việt_Nam Lễ_hội Carlton thiên_văn_học Footer Page 91 of 166 Trang 90 Header Page 92 of 166 Việt_Nam bắt_đầu sáng_kiến để nâng_cao năng_lực việc đối_phó với bệnh cúm A / H1N1 , Hội Chữ_thập_đỏ quan_chức nói Hà_Nội ngày 16 tháng Theo ông , quốc_gia đáp_ứng gần nhƣ tất_cả chăm_sóc y_tế đặt mục_tiêu cho năm 2006 - 2010 thời_gian Việt_Nam tiếp_tục nhận đƣợc thông_điệp cảm_thông từ nhà lãnh_đạo nƣớc khác thiệt_hại cuộc_sống con_ngƣời nghèo gây bão Ketsana Nga Tổng_thống Dmitri Medvedev vào ngày tháng 10 cabled thông_điệp ông đối_tác Việt_Nam Nguyễn Triet , nói : " Nga sẵn_sàng để giúp Việt_Nam khắc_phục thảm_hoạ thiên_nhiên hậu_quả " Footer Page 92 of 166 Trang 91 ... dụng thông tin từ loại 36 3.1.3 Sử dụng luật biến đổi hình thái từ .37 3.2 Tích hợp tri thức vào hệ thống dịch máy 39 3.2.1 Tích hợp thông tin hình thái vào mô hình dịch ... song ngữ tri thức phân tích ngôn ngữ Luận văn tập trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê phát triển hệ thống dịch máy thống kê Anh - Việt sử dụng tri thức ngôn... khác hình thái từ tiếng Anh tiếng Việt chƣa đƣợc quan tâm Do đó, đề tài tiếp cận theo hƣớng tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê Anh - Việt mức độ hình thái từ Từ tiếng Anh

Ngày đăng: 18/03/2017, 19:11

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đinh Điền (2001), So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt. Tạp chí Khoa học Xã hội và Nhân văn, Trường Đại học Khoa học Xã hội và Nhân văn Tp. Hồ Chí Minh Sách, tạp chí
Tiêu đề: Tạp chí Khoa học Xã hội và Nhân văn
Tác giả: Đinh Điền
Năm: 2001
[3] Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt trên một số cấu trúc cú pháp cơ bản, Luận án phó tiến sĩ khoa học ngữ văn.Tiếng Anh Sách, tạp chí
Tiêu đề: Luận án phó tiến sĩ khoa học ngữ văn
Tác giả: Vũ Ngọc Tú
Năm: 1996
[4] A. Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, In Proceedings of Intl. Conf. Spoken Language Processing, Denver, Colorado, September 2002 Sách, tạp chí
Tiêu đề: In Proceedings of Intl. Conf. Spoken Language Processing
[5] Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation. In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16 Sách, tạp chí
Tiêu đề: In Proceedings of the Second Workshop on Statistical Machine Translation (ACL)
[6] Chao Wang, Michael Collins, and Phillip Koehn, 2007. Chinese Syntactic Reordering for Statistical Machine Translation, in Proceeding of EMNLP, 2007 Sách, tạp chí
Tiêu đề: in Proceeding of EMNLP
[7] Collins, M., Koehn, P. and Kucerova, I. (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of the Assoc. for Computational Linguistics (ACL), pp. 531-540 Sách, tạp chí
Tiêu đề: Proceedings of the 43rd Annual Meeting of the Assoc. for Computational Linguistics
Tác giả: Collins, M., Koehn, P. and Kucerova, I
Năm: 2005
[8] Doddington, G. (2002), Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics, Proceedings of the second international conference on Human Language Technology Research, pp. 138 – 145 Sách, tạp chí
Tiêu đề: Proceedings of the second international conference on Human Language Technology Research
Tác giả: Doddington, G
Năm: 2002
[9] Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003. Syntax-based Language Models for Statistical Machine Translation. In Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September 2003 Sách, tạp chí
Tiêu đề: In Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation
[11] F. Xia and M. McCord. 2004. Improving a statistical MT system with automatically learned rewrite pat-terns. In Proceedings of COLING 2004 Sách, tạp chí
Tiêu đề: In Proceedings of COLING
[12] Habash, Nizar. Syntactic Preprocessing for Statistical Machine Translation, In Proceedings of the Machine Translation Summit (MT-Summit), Copenhagen, Denmark, 2007 Sách, tạp chí
Tiêu đề: In Proceedings of the Machine Translation Summit (MT-Summit)
[13] J. Giménez and L. Márquez, 2004, SVMTool: A general POS tagger generator based on Support Vector Machines, In Proceedings of the 4th International Conference on Language Resources and Evaluation, Lisbon, Portugal, 2004 [14] J. May and K. Knight, 2007. Syntactic Re-Alignment Models for MachineTranslation. In Proceeding EMNLP-CoNLL Sách, tạp chí
Tiêu đề: In Proceedings of the 4th International Conference on Language Resources and Evaluation", Lisbon, Portugal, 2004 [14] J. May and K. Knight, 2007. Syntactic Re-Alignment Models for Machine Translation
[17] Koehn, P., Och, F. J., and Marcu, D. (2003), Statistical phrase-based translation, Proceedings of the HLT-NAACL 2003 conference, pp. 127–133 Sách, tạp chí
Tiêu đề: Proceedings of the HLT-NAACL 2003 conference
Tác giả: Koehn, P., Och, F. J., and Marcu, D
Năm: 2003
[20] M. Popovic, H. Ney, 2006, POS-based Word Reorderings for Statistical Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May 2006 Sách, tạp chí
Tiêu đề: In Proceedings of the LREC 2006
[21] Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007). Getting to know Moses: initial experiments on German--English factored translation. In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 181-184 Sách, tạp chí
Tiêu đề: In Proceedings of the Second Workshop on Statistical Machine Translation (ACL)
Tác giả: Maria Holmqvist, Sara Stymne, Lars Ahrenberg
Năm: 2007
[22] Minnen, G., J. Carroll and D. Pearce, 2001, Applied morphological processing of English, Natural Language Engineering, 7(3), pages 207-223 Sách, tạp chí
Tiêu đề: Natural Language Engineering, 7(3)
[23] N. Ueffing, and H. Ney, 2003, Using POS Information for Statistical Machine Translation into Morphologically Rich Languages, In Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 347-354, Budapest, Hungary, April 2003 Sách, tạp chí
Tiêu đề: In Conference of the European Chapter of the Association for Computational Linguistics (EACL)
[25] P. F. Brown, S. A. D. Pietra, V. J. D. Pietra, and R. L. Mercer, 1993, The mathematics of statistical machine translation, Computational Linguistics.22(1): 39-69 Sách, tạp chí
Tiêu đề: Computational Linguistics. "22(1)
[26] P. Koehn, F. J. Och, and D. Marcu, 2003, Statistical phrase-based translation, In Proceedings of HLT-NAACL 2003 Sách, tạp chí
Tiêu đề: In Proceedings of HLT-NAACL
[27] P. Koehn, H. Hoang, 2007. Factored Translation Models. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL), pp. 868–876, Prague, June 2007 Sách, tạp chí
Tiêu đề: In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL)
[29] S. NieBen and H. Ney, 2001, Morpho-syntactic analysis for reordering in statistical machine translation, In Proceedings of MT Summit VIII, pages 247- 252, Santiago de Compostela, Galicia, Spain, September 2001 Sách, tạp chí
Tiêu đề: In Proceedings of MT Summit VIII

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w