Nhƣ vậy, kết quả khảo sát ảnh hƣởng của thông tin hình thái từ vào hệ dịch thống kê Anh – Việt có thể tóm tắt lại nhƣ sau:
- Thông tin hình thái từ của tiếng Anh:
o Tích hợp trực tiếp từ loại và biến đổi hình thái từ: Hệ dịch có thể khử
nhập nhằng nhờ thông tin từ loại và giảm số từ chƣa gặp khi biến đổi về dạng nguyên mẫu. Tuy nhiên, do kết quả phụ thuộc vào độ chính xác của công cụ và độ bao phủ của ngữ liệu nên kết quả dịch vẫn chƣa cải tiến đƣợc so với hệ cơ sở.
o Chuyển đổi trật tự từ dựa trên từ loại: Kết quả dịch đƣợc cải thiện
đáng kể do câu nguồn đƣợc chuyển đổi trật tự nhằm tạo sự tƣơng đƣơng với câu đích.
- Thông tin hình thái từ của tiếng Việt:
o Gán nhãn ranh giới từ: Chất lƣợng dịch tăng lên so với hệ cơ sở do
khi nối các tiếng trong từ của câu tiếng Việt, số liên kết gióng hàng từ 1 – nhiều giảm đáng kể và kết quả thống kê trong mô hình dịch cũng nhƣ mô hình ngôn ngữ chính xác hơn do từ không bị gián đoạn trong quá trình rút trích ngữ.
o Gán nhãn từ loại: Kết quả dịch giảm do hệ dịch phụ thuộc vào kết quả
Trang 75
- Thông tin hình thái từ cho cả tiếng Anh và tiếng Việt:
o Chất lƣợng dịch của mô hình factored SMT giảm đáng kể so với hệ cơ
sở do quá trình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt thiếu chính xác. Điều này dẫn đến hệ thống chọn ra câu dịch tệ hơn so với hệ cơ sở.
Ngoài ra, khảo sát kết quả của các mô hình khi tích hợp các thông tin hình thái từ, mô hình chuyển đổi trật tự cho câu tiếng Anh và gán nhãn từ loại cho tiếng Việt đạt kết quả dịch cao nhất, điểm BLEU tăng từ 43,31 lên 46,49.
Trang 76
CHƢƠNG 6: KẾT LUẬN
Trong đề tài này chúng tôi đã tích hợp các tri thức ngôn ngữ về hình thái từ vào trong dịch máy thống kê Anh - Việt.
Hệ thống đạt chất lƣợng dịch tốt nhất khi áp dụng luật chuyển đổi trật tự dựa trên thông tin từ loại cho câu tiếng Anh và gán nhãn từ loại cho câu tiếng Việt. Điểm BLUE từ 43,31 đến 45,88, điểm NIST tăng từ 9,8269 đến 10,01 và tỉ lệ lỗi TER giảm từ 37,914 xuống 35,850.
Tuy nhiên, khi các tri thức về từ loại lại không làm tăng chất lƣợng dịch. Điều này có thể lí giải do chất lƣợng của công cụ gán nhãn từ loại. Một phần nữa là do khi kết hợp với nhãn từ loại, độ phân tán của các từ sẽ tăng, dẫn đến việc hệ thống không dịch đƣợc các từ này.
Ngoài ra, việc áp dụng luật chuyển đổi trật tự cho câu nguồn đã có ảnh hƣởng tốt đến chất lƣợng dịch, nhờ cải thiện kết quả gióng hàng từ. Luật chuyển đổi cũng cải tiến hệ dịch khi kết hợp với các thông tin hình thái từ. Nhƣ vậy, không chỉ trong hệ dịch thống kê của các cặp ngôn ngữ khác, đối với cặp tiếng Anh và tiếng Việt, việc biến đổi để tạo sự tƣơng đồng giữa hai ngôn ngữ đã phát huy thế mạnh của hệ dịch máy thống kê, vừa học tự động trên ngữ liệu, vừa xử lý dựa trên những tri thức ngôn ngữ.
Tóm lại có hai điểm quan trọng đƣợc rút ra sau khi thực hiện đề tài:
- Các tri thức ngôn ngữ khác nhau đóng góp khác nhau vào chất lƣợng hệ
dịch. Việc kết hợp các tri thức này hợp lí sẽ làm tăng đáng kể chất lƣợng dịch của hệ thống.
- Cách sử dụng khác nhau một tri thức ngôn ngữ để tích hợp vào hệ dịch
Trang 77
Trong tƣơng lai, đề tài có thể mở rộng theo các hƣớng sau nâng cao hiệu quả của hệ dịch bằng cách tích hợp thêm một số tri thức khác vào hệ dịch nhƣ thông tin cú pháp để chuyển đổi trật tự từ hoặc thông tin ngữ nghĩa để chọn từ dịch chính xác.
Trang 78
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Đinh Điền (2001), So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng
Việt. Tạp chí Khoa học Xã hội và Nhân văn, Trƣờng Đại học Khoa học Xã
hội và Nhân văn Tp. Hồ Chí Minh.
[2] Hoàng Công Duy Vũ, Văn Chí Nam, Đinh Điền (2006), Dịch máy thống kê
Anh – Việt, Việt – Anh kết hợp thông tin ngôn ngữ tiếng Việt. Hội nghị kỷ niệm 30 năm thành lập Viện CNTT, Hà Nội.
[3] Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt trên một số
cấu trúc cú pháp cơ bản, Luận án phó tiến sĩ khoa học ngữ văn.
Tiếng Anh
[4] A. Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, In
Proceedings of Intl. Conf. Spoken Language Processing, Denver, Colorado, September 2002.
[5] Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in
factored statistical machine translation. In Proceedings of the Second
Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16.
[6] Chao Wang, Michael Collins, and Phillip Koehn, 2007. Chinese Syntactic
Reordering for Statistical Machine Translation, in Proceeding of EMNLP,
2007.
[7] Collins, M., Koehn, P. and Kucerova, I. (2005), Clause restructuring for
statistical machine translation, Proceedings of the 43rd Annual Meeting of
the Assoc. for Computational Linguistics (ACL), pp. 531-540.
[8] Doddington, G. (2002), Automatic Evaluation of Machine Translation
Quality Using N-gram Co-Occurrence Statistics, Proceedings of the
second international conference on Human Language Technology Research, pp. 138 – 145.
Trang 79
[9] Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003. Syntax-based
Language Models for Statistical Machine Translation. In Proceedings of the
Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September 2003.
[10] F. J. Och and H. Ney, 2000, Improved statistical alignment models, In
Proceedings of ACL 2000.
[11] F. Xia and M. McCord. 2004. Improving a statistical MT system with
automatically learned rewrite pat-terns. In Proceedings of COLING 2004.
[12] Habash, Nizar. Syntactic Preprocessing for Statistical Machine Translation, In
Proceedings of the Machine Translation Summit (MT-Summit), Copenhagen, Denmark, 2007.
[13] J. Giménez and L. Márquez, 2004, SVMTool: A general POS tagger generator
based on Support Vector Machines, In Proceedings of the 4th International
Conference on Language Resources and Evaluation, Lisbon, Portugal, 2004
[14] J. May and K. Knight, 2007. Syntactic Re-Alignment Models for Machine
Translation. In Proceeding EMNLP-CoNLL.
[15] K. Rottmann and S. Vogel, 2008, Word reordering in statistical machine
translation with a POS-based distortion model, In Proceedings of the 11th
International Conference on Theoretical and Methodological Issues in Machine Translation, Skovde (Sweden), pp.171-180, 7-9 September 2007
[16] K. Toutanova, H.T. Ilhan, and C.D. Manning, 2002, Extensions to HMM-
based statistical word alignment models, In Proceedings of Conf. on Empirical
Methods for Natural Language Processing, pages 87-94, Philadelphia, PA, July 2002
[17] Koehn, P., Och, F. J., and Marcu, D. (2003), Statistical phrase-based
translation, Proceedings of the HLT-NAACL 2003 conference, pp. 127–133.
[18] Koehn, P. (2003), Lecture of Statistical Machine Translation.
[19] Libin Shen, Jinxi Xu, Bing Zhang, Spyros Matsoukas, Ralph Weischedel
Trang 80
Machine Translation. In Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing (August 2009), pp. 72-80.
[20] M. Popovic, H. Ney, 2006, POS-based Word Reorderings for Statistical
Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May
2006
[21] Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007). Getting to know
Moses: initial experiments on German--English factored translation. In
Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 181-184
[22] Minnen, G., J. Carroll and D. Pearce, 2001, Applied morphological processing
of English, Natural Language Engineering, 7(3), pages 207-223.
[23] N. Ueffing, and H. Ney, 2003, Using POS Information for Statistical Machine
Translation into Morphologically Rich Languages, In Conference of the
European Chapter of the Association for Computational Linguistics (EACL), pages 347-354, Budapest, Hungary, April 2003
[24] Nhung N., Dien D., 2008. A syntactic-based Word Re-ordering for English-
Vietnamese Statistical machine translation system. In Proceeding of PRICAL 2008, LNAI 5351, pp 809 – 818, 2008.
[25] P. F. Brown, S. A. D. Pietra, V. J. D. Pietra, and R. L. Mercer, 1993, The
mathematics of statistical machine translation, Computational Linguistics.
22(1): 39-69.
[26] P. Koehn, F. J. Och, and D. Marcu, 2003, Statistical phrase-based translation,
In Proceedings of HLT-NAACL 2003.
[27] P. Koehn, H. Hoang, 2007. Factored Translation Models. In Proceedings of
the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL), pp. 868– 876, Prague, June 2007.
[28] Papineni K. A., Roukos S., Ward T., and Zhu W.J (2002), Bleu: a method for
Trang 81
Annual Meeting of the Association for Computational Linguistics, pp. 311– 318.
[29] S. NieBen and H. Ney, 2001, Morpho-syntactic analysis for reordering in
statistical machine translation, In Proceedings of MT Summit VIII, pages 247-
252, Santiago de Compostela, Galicia, Spain, September 2001.
[30] Sonja Nießen, Hermann Ney, 2000, Improving SMT quality with morpho-
syntactic analysis. In Proceedings of the 18th conference on Computational
linguistics - Volume 2 (ACL), Saarbrücken, Germany, page 1081-1085.
[31] Snover M., Dorr B., Schwartz R., Micciulla L. and Makhoul J (2006), A
study of translation edit rate with targeted human annotation,
Proceedings of Association for Machine Translation in the Americas, pp. 223 – 231.
[32] Thai Phuong Nguyen and Akira Shimazu, 2006, Improving Phrase-Based
SMT with Morpho-Syntactic Analysis and Transformation, In Proceedings of
the 7th Conference of the Association for Machine Translation in the Americas, pages 138-147, Cambridge, 2006
[33] Victoria Fossum, Kevin Knight and Steven Abney, 2008. Using Syntax to
Improve Word Alignment Precision for Syntax-Based Machine Translation. In
Proceedings of ACL MT Workshop, 2008.
[34] Yamada,K. and Knight, K. (2001), A syntax-based statistical machine
translation, Proceedings of ACL.
[35] Yuqi Zhang, Richard Zens and Hermann Ney. 2007. Chunk-level reordering
of source language sentence with automatically learned rules for statistical
machine translation. In Proceedings of SSST, NAACL-HLT 2007/AMTA
Trang 82
PHỤ LỤC
A. Đối chiếu hình thái từ Anh – Việt (biến cách)
Stt Ý nghĩa ngữ pháp Biến cách Nghĩa Từ loại
1 Danh từ số nhiều s những, các NNS
2 Ngôi thứ 3 số ít s VBZ
3 Sở hữu cách „s của POS
4 Hiện phân từ ing đang VBG
5 Quá khứ ed đã VBD
6 Quá phân từ en đã VBN
7 So sánh hơn er hơn JJR,RBR
8 So sánh nhất est nhất JJS,RBS
B. Kết quả dịch của một số mô hình
Văn bản tiếng Anh
In addition , Viet Nam now hosts a great variety of industries and many use dirty technology and waste natural resources .
An estimated VND 124 trillion ( US $ 7.4 billion ) is needed to eliminate industrial pollution , a new Industrial Policy and Strategy Institute ( IPSI ) study shows .
The quantity of HCFCs , particularly R22 , used in the refrigerating and air - conditioning industries is on the increase , Thanh said , adding that finding an ideal alterative refrigerant is a major challenge facing the industry .
It is situated about 20 kilometers from Cao Lanh Town along National Highway 30 .
" We still had coffee and food and they organised stuff so we could get out , " she said .
Trang 83
Dust in the air is 113 - 230 - times above the permitted level , the content of some metals in waste water ten times thicker than the acceptable level . A project to build Ha Long into a smoke - free tourist city started in Ha Long city , northern coastal Quang Ninh province on Sept .
As the driest province in the country with annual rainfall between 700 and 1,100 millimeters , Ninh Thuan is endowed with a coastline , deltas , mountains , rivers , and sand dunes .
It , however , warned that rising sea - level would cost the habitats of such rare , endangered and endemic species like the leopard gecko , which lives only in the lowland area of the region .
The Minister for Natural Resources and the Environment , Pham Khoi Nguyen , will then chair a workshop on what Vietnam has been doing to cope with the problems brought on by global warming and rising sea levels . Sanctuary established for under threat snub - nosed monkeys in Ha Giang . Heavy rain and strong winds pounded Italy on Monday , claiming the lives of four people , ANSA news agency reported .
A hole with the length of two metres is on the blocked road Phainam - the road nearby Chao Anuvong Stadium .
Running the club is very difficult for me because we lack money , but with supports from members , we still manage the club effectively .
When not working as an architect he dedicates much of his time to running the Viet Nam Amateur Club of Astronomy .
Vietnam has begun an initiative to raise its capacity in coping with A / H1N1 flu , a Red Cross official said in Hanoi September 16 .
According to him , the country has met almost all of its health care targets set for the 2006 - 2010 period .
Vietnam has continued to receive messages of sympathy from leaders of other countries over the losses of human life and poverty caused by typhoon Ketsana .
Trang 84
Russian President Dmitri Medvedev on Oct . 2 cabled a message to his Vietnamese counterpart Nguyen Minh Triet , saying , " Russia is willing to help Vietnam overcome the natural disaster ' s consequences " .
Kết quả dịch hệ cơ sở
In bổ sung , Việt Nam hiện vật chủ rất nhiều loại của các ngành công nghiệp và nhiều sử dụng bẩn công nghệ và chất thải các nguồn tài nguyên thiên nhiên .
Ƣớc tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) là cần thiết để loại bỏ ô nhiễm công nghiệp , một mới , công nghiệp và chính sách chiến lƣợc Viện ( IPSI ) nghiên cứu cho thấy .
Các số lƣợng HCFCs , đặc biệt là R22 , đƣợc sử dụng trong điện lạnh và không khí - điều hoà ngành công nghiệp đang tăng lên , Thành cho biết , nói thêm rằng việc tìm kiếm một lý tƣởng alterative refrigerant là một lớn thách thức đối mặt với ngành công nghiệp .
Nó nằm khoảng 20 km từ Cao Lãnh thị trấn theo Quốc lộ 30 .
" Chúng tôi vẫn còn có cà phê và thực phẩm và họ đã tổ chức thứ nhƣ vậy , chúng tôi có thể thoát khỏi " , Cô nói .
Bụi trong không khí là 113 - 230 - lần trên mức cho phép , nội dung của một số các kim loại trong nƣớc thải mƣời lần dày hơn so với các mức độ chấp nhận đƣợc .
Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 .
Do khô nhất tỉnh ở các quốc gia với hàng năm lƣợng mƣa giữa 700 và số 1.100 mm , Ninh Thuận đƣợc ƣu đãi với một bờ biển , đồng bằng , núi , các con sông , và cồn cát .
Trang 85
Nó , tuy nhiên , đã cảnh báo rằng sự gia tăng mực nƣớc biển sẽ chi phí môi trƣờng sống nhƣ vậy quý hiếm , đang bị đe dọa và đặc hữu loài nhƣ lƣợng con báo hoa mai tắc kè , mà còn chỉ tại các khu vực đất thấp của khu vực . Các Bộ trƣởng Bộ Tài nguyên và Môi trƣờng Phạm Khôi Nguyên , sau đó sẽ chủ trì một hội thảo về những gì mà Việt Nam đã đang làm để đối phó với các vấn đề đƣa vào bởi sự nóng lên toàn cầu và mực nƣớc biển tăng lên . Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt trên Hà Giang .
Hôm mƣa và gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống của bốn ngƣời , ANSA Hãng tin .
Một lỗ với chiều dài của hai mét trên các chặn đƣờng Phainam - đƣờng gần Sân vận động Chao Anuvong .
Hoạt động câu lạc bộ là rất khó khăn cho tôi bởi vì chúng tôi thiếu tiền , nhƣng với sự hỗ trợ từ các thành viên , chúng tôi vẫn quản lý các câu lạc bộ có hiệu quả .
Khi không làm việc nhƣ một kiến trúc sƣ ông dedicates nhiều thời gian của mình để chạy Việt Nam Amateur Câu lạc bộ của nền thiên văn học .
Việt Nam đã bắt đầu một sáng kiến để nâng cao của nó có khả năng trong việc đối phó với các bệnh cúm A / H1N1 , một Hội chữ thập đỏ chức nói tại Hà Nội ngày 16 tháng 9 .
Theo ông , quốc gia đã đáp ứng gần nhƣ tất cả các của nó chăm sóc sức khỏe mục tiêu thiết lập cho năm 2006 - 2010 kỳ .
Việt Nam đã tiếp tục nhận đƣợc thông điệp của đồng cảm từ các nhà lãnh đạo của các nƣớc khác trên những thiệt hại của cuộc sống con ngƣời và nghèo gây ra bởi bão Ketsana .
Nga , Tổng thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một thông