Như vậy, kết quả khảo sát ảnh hưởng của thông tin hình thái từ vào hệ dịch thống kê Anh – Việt có thể tóm tắt lại như sau:
- Thông tin hình thái từ của tiếng Anh:
o Tích hợp trực tiếp từ loại và biến đổi hình thái từ: Hệ dịch có thể khử nhập nhằng nhờ thông tin từ loại và giảm số từ chưa gặp khi biến đổi về dạng nguyên mẫu. Tuy nhiên, do kết quả phụ thuộc vào độ chính xác của công cụ và độ bao phủ của ngữ liệu nên kết quả dịch vẫn chưa cải tiến được so với hệ cơ sở.
o Chuyển đổi trật tự từ dựa trên từ loại: Kết quả dịch được cải thiện đáng kể do câu nguồn được chuyển đổi trật tự nhằm tạo sự tương đương với câu đích.
- Thông tin hình thái từ của tiếng Việt:
o Gán nhãn ranh giới từ: Chất lượng dịch tăng lên so với hệ cơ sở do khi nối các tiếng trong từ của câu tiếng Việt, số liên kết gióng hàng từ 1 – nhiều giảm đáng kể và kết quả thống kê trong mô hình dịch cũng như mô hình ngôn ngữ chính xác hơn do từ không bị gián đoạn trong
quá trình rút trích ngữ.
o Gán nhãn từ loại: Kết quả dịch giảm do hệ dịch phụ thuộc vào kết quả gán nhãn và mô hình ngôn ngữ của từ loại tiếng Việt.
- Thông tin hình thái từ cho cả tiếng Anh và tiếng Việt:
o Chất lượng dịch của mô hình factored SMT giảm đáng kể so với hệ cơ sở do quá trình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt thiếu chính xác. Điều này dẫn đến hệ thống chọn ra câu dịch tệ hơn so với hệ cơ sở.
Ngoài ra, khảo sát kết quả của các mô hình khi tích hợp các thông tin hình thái từ, mô hình chuyển đổi trật tự cho câu tiếng Anh và gán nhãn từ loại cho tiếng Việt đạt kết quả dịch cao nhất, điểm BLEU tăng từ 43,31 lên 46,49.
CHƯƠNG 6: KẾT LUẬN
Trong đề tài này chúng tôi đã tích hợp các tri thức ngôn ngữ về hình thái từ vào trong dịch máy thống kê Anh - Việt.
Hệ thống đạt chất lượng dịch tốt nhất khi áp dụng luật chuyển đổi trật tự dựa trên thông tin từ loại cho câu tiếng Anh và gán nhãn từ loại cho câu tiếng Việt. Điểm BLUE từ 43,31 đến 45,88, điểm NIST tăng từ 9,8269 đến 10,01 và tỉ lệ lỗi TER giảm từ 37,914 xuống 35,850.
Tuy nhiên, khi các tri thức về từ loại lại không làm tăng chất lượng dịch. Điều này có thể lí giải do chất lượng của công cụ gán nhãn từ loại. Một phần nữa là do khi kết hợp với nhãn từ loại, độ phân tán của các từ sẽ tăng, dẫn đến việc hệ thống không dịch được các từ này.
Ngoài ra, việc áp dụng luật chuyển đổi trật tự cho câu nguồn đã có ảnh hưởng tốt đến chất lượng dịch, nhờ cải thiện kết quả gióng hàng từ. Luật chuyển đổi cũng cải tiến hệ dịch khi kết hợp với các thông tin hình thái từ. Như vậy, không chỉ trong hệ dịch thống kê của các cặp ngôn ngữ khác, đối với cặp tiếng Anh và tiếng Việt, việc biến đổi để tạo sự tương đồng giữa hai ngôn ngữ đã phát huy thế mạnh của hệ dịch máy thống kê, vừa học tự động trên ngữ liệu, vừa xử lý dựa trên những tri thức ngôn ngữ.
Tóm lại có hai điểm quan trọng được rút ra sau khi thực hiện đề tài:
- Các tri thức ngôn ngữ khác nhau đóng góp khác nhau vào chất lượng hệ dịch. Việc kết hợp các tri thức này hợp lí sẽ làm tăng đáng kể chất lượng dịch của hệ thống.
- Cách sử dụng khác nhau một tri thức ngôn ngữ để tích hợp vào hệ dịch máy thống kê cũng tạo ra các hiệu quả khác nhau đối với hệ dịch.
Trong tương lai, đề tài có thể mở rộng theo các hướng sau nâng cao hiệu quả của hệ dịch bằng cách tích hợp thêm một số tri thức khác vào hệ dịch như thông tin cú pháp để chuyển đổi trật tự từ hoặc thông tin ngữ nghĩa để chọn từ dịch chính xác.
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Đinh Điền (2001), So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt. Tạp chí Khoa học Xã hội và Nhân văn, Trường Đại học Khoa học Xã hội và Nhân văn Tp. Hồ Chí Minh.
[2] Hoàng Công Duy Vũ, Văn Chí Nam, Đinh Điền (2006), Dịch máy thống kê Anh – Việt, Việt – Anh kết hợp thông tin ngôn ngữ tiếng Việt. Hội nghị kỷ niệm 30 năm thành lập Viện CNTT, Hà Nội.
[3] Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt trên một số cấu trúc cú pháp cơ bản, Luận án phó tiến sĩ khoa học ngữ văn.
Tiếng Anh
[4] A. Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, In
Proceedings of Intl. Conf. Spoken Language Processing, Denver, Colorado,
September 2002.
[5] Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation. In Proceedings of the Second
Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic,
page 9-16.
[6] Chao Wang, Michael Collins, and Phillip Koehn, 2007. Chinese Syntactic Reordering for Statistical Machine Translation, in Proceeding of EMNLP, 2007.
[7] Collins, M., Koehn, P. and Kucerova, I. (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of
the Assoc. for Computational Linguistics (ACL), pp. 531-540.
[8] Doddington, G. (2002), Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics, Proceedings of the second international conference on Human Language Technology Research,
[9] Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003. Syntax-based Language Models for Statistical Machine Translation. In Proceedings of the
Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September 2003.
[10] F. J. Och and H. Ney, 2000, Improved statistical alignment models, In
Proceedings of ACL 2000.
[11] F. Xia and M. McCord. 2004. Improving a statistical MT system with automatically learned rewrite pat-terns. In Proceedings of COLING 2004. [12] Habash, Nizar. Syntactic Preprocessing for Statistical Machine Translation, In
Proceedings of the Machine Translation Summit (MT-Summit), Copenhagen,
Denmark, 2007.
[13] J. Giménez and L. Márquez, 2004, SVMTool: A general POS tagger generator based on Support Vector Machines, In Proceedings of the 4th International
Conference on Language Resources and Evaluation, Lisbon, Portugal, 2004
[14] J. May and K. Knight, 2007. Syntactic Re-Alignment Models for Machine Translation. In Proceeding EMNLP-CoNLL.
[15] K. Rottmann and S. Vogel, 2008, Word reordering in statistical machine translation with a POS-based distortion model, In Proceedings of the 11th
International Conference on Theoretical and Methodological Issues in Machine Translation, Skovde (Sweden), pp.171-180, 7-9 September 2007
[16] K. Toutanova, H.T. Ilhan, and C.D. Manning, 2002, Extensions to HMM- based statistical word alignment models, In Proceedings of Conf. on
Empirical Methods for Natural Language Processing, pages 87-94,
Philadelphia, PA, July 2002
[17] Koehn, P., Och, F. J., and Marcu, D. (2003), Statistical phrase-based translation, Proceedings of the HLT-NAACL 2003 conference, pp. 127–133. [18] Koehn, P. (2003), Lecture of Statistical Machine Translation.
[19]Libin Shen, Jinxi Xu, Bing Zhang, Spyros Matsoukas, Ralph Weischedel (2009). Effective Use of Linguistic and Contextual Information for Statistical
Machine Translation. In Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing (August 2009), pp. 72-80.
[20] M. Popovic, H. Ney, 2006, POS-based Word Reorderings for Statistical Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May 2006
[21] Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007). Getting to know Moses: initial experiments on German--English factored translation. In
Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 181-184
[22] Minnen, G., J. Carroll and D. Pearce, 2001, Applied morphological processing of English, Natural Language Engineering, 7(3), pages 207-223.
[23] N. Ueffing, and H. Ney, 2003, Using POS Information for Statistical Machine Translation into Morphologically Rich Languages, In Conference of the
European Chapter of the Association for Computational Linguistics (EACL),
pages 347-354, Budapest, Hungary, April 2003
[24] Nhung N., Dien D., 2008. A syntactic-based Word Re-ordering for English- Vietnamese Statistical machine translation system. In Proceeding of PRICAL 2008, LNAI 5351, pp 809 – 818, 2008.
[25] P. F. Brown, S. A. D. Pietra, V. J. D. Pietra, and R. L. Mercer, 1993, The mathematics of statistical machine translation, Computational Linguistics.
22(1): 39-69.
[26] P. Koehn, F. J. Och, and D. Marcu, 2003, Statistical phrase-based translation,
In Proceedings of HLT-NAACL 2003.
[27] P. Koehn, H. Hoang, 2007. Factored Translation Models. In Proceedings of
the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL), pp. 868–
876, Prague, June 2007.
[28] Papineni K. A., Roukos S., Ward T., and Zhu W.J (2002), Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th
Annual Meeting of the Association for Computational Linguistics, pp. 311–
318.
[29] S. NieBen and H. Ney, 2001, Morpho-syntactic analysis for reordering in statistical machine translation, In Proceedings of MT Summit VIII, pages 247- 252, Santiago de Compostela, Galicia, Spain, September 2001.
[30] Sonja Nießen, Hermann Ney, 2000, Improving SMT quality with morpho- syntactic analysis. In Proceedings of the 18th conference on Computational
linguistics - Volume 2 (ACL), Saarbrücken, Germany, page 1081-1085.
[31] Snover M., Dorr B., Schwartz R., Micciulla L. and Makhoul J (2006), A study of translation edit rate with targeted human annotation,
Proceedings of Association for Machine Translation in the Americas, pp. 223
– 231.
[32] Thai Phuong Nguyen and Akira Shimazu, 2006, Improving Phrase-Based SMT with Morpho-Syntactic Analysis and Transformation, In Proceedings of
the 7th Conference of the Association for Machine Translation in the Americas, pages 138-147, Cambridge, 2006
[33] Victoria Fossum, Kevin Knight and Steven Abney, 2008. Using Syntax to Improve Word Alignment Precision for Syntax-Based Machine Translation. In
Proceedings of ACL MT Workshop, 2008.
[34] Yamada,K. and Knight, K. (2001), A syntax-based statistical machine translation, Proceedings of ACL.
[35] Yuqi Zhang, Richard Zens and Hermann Ney. 2007. Chunk-level reordering of source language sentence with automatically learned rules for statistical machine translation. In Proceedings of SSST, NAACL-HLT 2007/AMTA
PHỤ LỤC
A. Đối chiếu hình thái từ Anh – Việt (biến cách)
Stt Ý nghĩa ngữ pháp Biến cách Nghĩa Từ loại 1 Danh từ số nhiều s những, các NNS
2 Ngôi thứ 3 số ít s VBZ
3 Sở hữu cách „s của POS
4 Hiện phân từ ing đang VBG
5 Quá khứ ed đã VBD
6 Quá phân từ en đã VBN
7 So sánh hơn er hơn JJR,RBR
8 So sánh nhất est nhất JJS,RBS
B. Kết quả dịch của một số mô hình
Văn bản tiếng Anh
In addition , Viet Nam now hosts a great variety of industries and many use dirty technology and waste natural resources .
An estimated VND 124 trillion ( US $ 7.4 billion ) is needed to eliminate industrial pollution , a new Industrial Policy and Strategy Institute ( IPSI ) study shows .
The quantity of HCFCs , particularly R22 , used in the refrigerating and air - conditioning industries is on the increase , Thanh said , adding that finding an ideal alterative refrigerant is a major challenge facing the industry .
It is situated about 20 kilometers from Cao Lanh Town along National Highway 30 .
" We still had coffee and food and they organised stuff so we could get out , " she said .
Dust in the air is 113 - 230 - times above the permitted level , the content of some metals in waste water ten times thicker than the acceptable level . A project to build Ha Long into a smoke - free tourist city started in Ha Long city , northern coastal Quang Ninh province on Sept .
As the driest province in the country with annual rainfall between 700 and 1,100 millimeters , Ninh Thuan is endowed with a coastline , deltas , mountains , rivers , and sand dunes .
It , however , warned that rising sea - level would cost the habitats of such rare , endangered and endemic species like the leopard gecko , which lives only in the lowland area of the region .
The Minister for Natural Resources and the Environment , Pham Khoi Nguyen , will then chair a workshop on what Vietnam has been doing to cope with the problems brought on by global warming and rising sea levels . Sanctuary established for under threat snub - nosed monkeys in Ha Giang . Heavy rain and strong winds pounded Italy on Monday , claiming the lives of four people , ANSA news agency reported .
A hole with the length of two metres is on the blocked road Phainam - the road nearby Chao Anuvong Stadium .
Running the club is very difficult for me because we lack money , but with supports from members , we still manage the club effectively .
When not working as an architect he dedicates much of his time to running the Viet Nam Amateur Club of Astronomy .
Vietnam has begun an initiative to raise its capacity in coping with A / H1N1 flu , a Red Cross official said in Hanoi September 16 .
According to him , the country has met almost all of its health care targets set for the 2006 - 2010 period .
Vietnam has continued to receive messages of sympathy from leaders of other countries over the losses of human life and poverty caused by typhoon Ketsana .
Russian President Dmitri Medvedev on Oct . 2 cabled a message to his Vietnamese counterpart Nguyen Minh Triet , saying , " Russia is willing to help Vietnam overcome the natural disaster ' s consequences " .
Kết quả dịch hệ cơ sở
In bổ sung , Việt Nam hiện vật chủ rất nhiều loại của các ngành công nghiệp và nhiều sử dụng bẩn công nghệ và chất thải các nguồn tài nguyên thiên nhiên .
Ước tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) là cần thiết để loại bỏ ô nhiễm công nghiệp , một mới , công nghiệp và chính sách chiến lược Viện ( IPSI ) nghiên cứu cho thấy .
Các số lượng HCFCs , đặc biệt là R22 , được sử dụng trong điện lạnh và không khí - điều hoà ngành công nghiệp đang tăng lên , Thành cho biết , nói thêm rằng việc tìm kiếm một lý tưởng alterative refrigerant là một lớn thách thức đối mặt với ngành công nghiệp .
Nó nằm khoảng 20 km từ Cao Lãnh thị trấn theo Quốc lộ 30 .
" Chúng tôi vẫn còn có cà phê và thực phẩm và họ đã tổ chức thứ như vậy , chúng tôi có thể thoát khỏi " , Cô nói .
Bụi trong không khí là 113 - 230 - lần trên mức cho phép , nội dung của một số các kim loại trong nước thải mười lần dày hơn so với các mức độ chấp nhận được .
Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 .
Do khô nhất tỉnh ở các quốc gia với hàng năm lượng mưa giữa 700 và số 1.100 mm , Ninh Thuận được ưu đãi với một bờ biển , đồng bằng , núi , các con sông , và cồn cát .
Nó , tuy nhiên , đã cảnh báo rằng sự gia tăng mực nước biển sẽ chi phí môi trường sống như vậy quý hiếm , đang bị đe dọa và đặc hữu loài như lượng con báo hoa mai tắc kè , mà còn chỉ tại các khu vực đất thấp của khu vực . Các Bộ trưởng Bộ Tài nguyên và Môi trường Phạm Khôi Nguyên , sau đó sẽ chủ trì một hội thảo về những gì mà Việt Nam đã đang làm để đối phó với các vấn đề đưa vào bởi sự nóng lên toàn cầu và mực nước biển tăng lên . Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt trên Hà Giang .
Hôm mưa và gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống của bốn người , ANSA Hãng tin .
Một lỗ với chiều dài của hai mét trên các chặn đường Phainam - đường gần Sân vận động Chao Anuvong .
Hoạt động câu lạc bộ là rất khó khăn cho tôi bởi vì chúng tôi thiếu tiền , nhưng với sự hỗ trợ từ các thành viên , chúng tôi vẫn quản lý các câu lạc bộ có hiệu quả .
Khi không làm việc như một kiến trúc sư ông dedicates nhiều thời gian của mình để chạy Việt Nam Amateur Câu lạc bộ của nền thiên văn học .
Việt Nam đã bắt đầu một sáng kiến để nâng cao của nó có khả năng trong việc đối phó với các bệnh cúm A / H1N1 , một Hội chữ thập đỏ chức nói tại Hà Nội ngày 16 tháng 9 .
Theo ông , quốc gia đã đáp ứng gần như tất cả các của nó chăm sóc sức khỏe mục tiêu thiết lập cho năm 2006 - 2010 kỳ .
Việt Nam đã tiếp tục nhận được thông điệp của đồng cảm từ các nhà lãnh đạo của các nước khác trên những thiệt hại của cuộc sống con người và nghèo gây ra bởi bão Ketsana .
Nga , Tổng thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một thông điệp của ông đối tác Việt Nam Nguyễn Minh Triet , nói , " Nga sẵn sàng để giúp Việt Nam khắc phục những thảm họa thiên nhiên của những hậu quả " .