Áp dụng vào mô hình dịch máy thống kê:

Một phần của tài liệu Xây dựng mô hình ngôn ngữ cho tiếng việt (Trang 48 - 51)

Sau khi xây dựng được mô hình Ngram với các phương pháp làm mịn khác nhau, chúng tôi sử dụng các mô hình Ngram đó vào mô hình dịch máy thống kê dịch từ tiếng Anh sang tiếng Việt. Bằng cách sử dụng các mô hình dịch máy thống kê đó dịch một đoạn văn bản tiếng Anh sang tiếng Việt sau đó tính điểm BLEU cho bản dịch, chúng tôi biết được phương pháp làm mịn nào là tốt nhất khi áp dụng trong mô hình dịch máy thống kê.

Dữ liệu dùng để huấn luyện cho mô hình Ngram gồm 2 tập: một tập có kích thước nhỏ (khoảng 50Mb) để xây dựng mô hình ngôn ngữ tới 4-gram và một tập có kích thước lớn (300Mb) để xây dựng mô hình ngôn ngữ tới 3-gram. Dữ liệu dùng để huấn luyện cho mô hình dịch là một tập văn bản chứa hơn 60.000 câu song ngữ Anh Việt.

Dưới đây là bảng điểm BLEU của bản dịch khi sử dụng các mô hình Ngram áp dụng các phương pháp làm mịn khác nhau:

Add-1 WB GT Nội suy

KN Truy hồi KN Nội suy KN cải tiến Truy hồi KN cải tiến 1-gram 0.0767 0.0767 0.0767 0.0767 0.0767 0.0767 0.0767 2-gram 0.0864 0.0909 0.0905 0.0904 0.0903 0.0902 0.0901 3-gram 0.0903 0.0937 0.0947 0.0974 0.0970 0.0977 0.0972 4-gram 0.2231 0.2423 0.2420 0.2412 0.2306 0.2420 0.2401

Bảng 4-9: điểm BLEU của bản dịch máy với mô hình ngôn ngữ sử dụng dữ liệu huấn luyện có kích thước nhỏ (50Mb)

Add-1 WB GT Nội suy

KN Truy hồi KN Nội suy KN cải tiến Truy hồi KN cải tiến 1-gram 0.0819 0.819 0.0819 0.0819 0.0819 0.0819 0.0819 2-gram 0.0963 0.0979 0.0997 0.0996 0.0994 0.0992 0.0990 3-gram 0.1015 0.1213 0.1387 0.1285 0.1256 0.1267 0.1265 Bảng 4-10: điểm BLEU của bản dịch máy với mô hình Ngram sử dụng dữ liệu huấn

Như vậy có thể thấy, phương pháp làm mịn GoodTuring là tốt nhất khi áp dụng cho mô hình ngôn ngữ sử dụng trong dịch máy thống kê. Ngoài ra cũng có thể thấy, việc tăng kích thước dữ liệu huấn luyện cũng sẽ làm tăng độ chính xác của mô hình ngôn ngữ Ngram. Nếu như tập huấn luyện có kích thước lớn, thì chúng ta chỉ cần xây dựng mô hình Ngram tới 3-gram là đủ để sử dụng trong dịch máy thống kê.

Chương 5Kết luận

Luận văn hướng tới mục tiêu xây dựng mô hình ngôn ngữ Ngram cho tiếng Việt, tuy đã xem xét được tất cả các mục tiêu như trong phần giới thiệu nhưng do thời gian có hạn, nên một số vấn đề vẫn chưa hoàn chỉnh. Tuy nhiên, luận văn cũng đạt được một số kết quả: .

• Cài đặt được một số công cụ giúp đỡ cho việc xây dựng mô hình ngôn ngữ như: chuẩn hóa văn bản, tách từ bằng ngôn ngữ C#.

• Cài đặt được một số phương pháp làm mịn, loại bỏ cơ bản cho mô hình ngôn ngữ bằng ngôn ngữ C#.

• Tìm kiếm và chuẩn hóa được hơn 300Mb dữ liệu văn bản lấy từ các trang báo online.

• Cài đặt và chạy thành công bộ mã nguồn mở Moses trên Linux và Srilm trên cả hai môi trường Linux và Window.

• Sử dụng bộ công cụ mã nguồn mở SRILM để xây dựng mô hình ngôn ngữ cho tiếng Việt.

• Sử dụng công cụ Moses để xây dựng mô hình dịch máy thống kê, áp dụng mô hình ngôn ngữ với các phương pháp làm mịn khác nhau.

Do thời gian có hạn, nên hiện tại luận văn mới chỉ nghiên cứu được độ tin cậy của các phương pháp làm mịn trong mô hình ngôn ngữ khi áp dụng cho tiếng Việt và mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt. Trong tương lai, chúng tôi sẽ tập trung vào các ứng dụng khác của mô hình ngôn ngữ như: kiểm lỗi chính tả, tách từ

Tài liệu tham khảo

[1] Chris Manning and Hinrich Schutze, Foundations of Statistical Natural Language

Processing, MIT Press. Cambridge, May 1999.

[2] Daniel Jurafsky and James H. Martin, Speech and Language Processing: An

Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, chapter 6, February 2000.

[3] Stanley F. Chen and Joshua Goodman, An Empirical Study of Smoothing Techniques

for Language Modelin, computer science group, August 1998.

[4] R. Kneser and H. Ney, Improved backing-off for M-gram language modeling, Acoustics, Speech, and Signal Processing, 1995. ICASSP-95., 1995 International Conference on

[5] Andreas stolcke, Entropy-based pruning of backoff language models, in proceedings of the ARPA Workshop on human language technology, 1998

[6] Andreas stolcke, SRILM – an extensible language modeling toolkit, Conference on spoken language processing, 2002

[7] Adam Lopez , Statistical Machine Translation, University of Edinburgh, 2004 [8]Kenji Yamada and Kevin Knight, A Syntax-based Statistical Translation Model, In- formation Sciences Institute, University of Southern California

[9] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, Bleu: a Method for

Automatic Evaluation of Machine Translation, IBM T. J. Watson Research Center, Pro- (adsbygoogle = window.adsbygoogle || []).push({});

ceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002

[10] Tô Hồng Thắng, Building language model for vietnamese and its application, grad- uation thesis, 2008

Một phần của tài liệu Xây dựng mô hình ngôn ngữ cho tiếng việt (Trang 48 - 51)