Từ bộ dữ liệu gồm hơn 50.000 câu tiếng anh và hơn 50.000 câu tiếng việt. Sau khi đã training dữ liệu và sinh bảng cụm từ cụm từ-table.gz).
Ngữ liệu tiếng Việt:
Một ngữ liệu nhỏ đơn ngữ tiếng Việt cũng đƣợc sử dụng với mục đích củng thêm cố kết quả với việc thử nghiệm trên nhiều ngữ liệu khác nhau. Ngữ liệu này đƣợc xây dựng từ nhiều bài viết trên “Báo Lao động” phiên bản điện tử thuộc nhiều lĩnh vực khác nhau nhƣ khoa học, kinh tế, thể thao, văn hóa [3]. Các thống kê về ngữ liệu này đƣợc liệt kê trong bảng dƣới đây:
Bảng 4.1: Ngữ liệu tiếng việt.
Số lƣợng câu Số lƣợng từ Số lƣợng từ vựng Độ dài trung bình câu
54643 580754 24097 10.628
Ngữ liệu tiếng Anh:
Bảng 4.2: Ngữ liệu tiếng anh.
Số lƣợng câu Số lƣợng từ Số lƣợng từ vựng Độ dài trung bình câu
54643 614578 23084 11.247
Bảng dữ liệu đầu vào:
Bảng 4.3: Dữ liệu đầu vào
Dữ liệu Ngôn ngữ Câu Từ Từ vựng Độ dài trung bình Tên tệp tin thực nghiệm Dữ liệu huấn luyện Tiếng Anh 54643 614578 23084 11.247 50001b_train.en Tiếng Việt 54643 580754 24097 10.628 50001b_train.vn Dữ liệu điều Chỉnh tham số Tiếng Anh 201 2403 966 11.995 50001_dev.en Tiếng Việt 201 2221 1002 11.049 50001_dev.vn Dữ liệu đánh giá Tiếng Anh 500 5620 1844 11.24 50001_test.en Tiếng Việt 500 5264 1851 10.528 50001_test.vn
4.3.1. Đánh giá kết quả dữ liệu huấn luyện bảng cụm từ
Dữ liệu huấn luyện đƣợc thay đổi theo kích thƣớc của tập ngữ liệu đầu vào, việc thay đổi này là quá trình làm tăng ho c giảm số câu số dòng trong c p ngữ liệu đầu vào đó. Việc thay đổi dữ liệu huấn luyện sẽ làm ảnh hƣởng đến mơ hình dịch, mơ hình ngơn ngữ, … từ đó ảnh hƣởng rất lớn đến q trình đánh giá chất lƣợng của dịch máy.
Đối với dữ liệu bảng cụm từ gốc, với 50.000 c p câu, ta có kết quả nhƣ sau:
Nhƣ vậy, đối với dữ liệu huấn luyện 50.000 c p câu thì cho ta kết quả bảng cụm từ sinh ra có kích thƣớc là 162MB, với điểm BLEU là 0.3407.
Sau khi thực hiện cắt gọt bảng cụm từ ta có kết quả nhƣ sau:
Bảng 4.4: So sánh í h thước bảng cụm từ sau khi tối ưu
Kích thƣớc bảng Entropy (m) Pruning
97MB(60%) 33.98
129MB(80%) 34.03
162MB(100%) 34.07
Nhìn vào kết quả trong bảng 4.4 so sánh kết quả ta thấy, ở đây xét tập ngữ liệu trên 50.000 câu kích cỡ của bảng cụm từ là 162 Mb, với điểm BLEU là 34.07, sau khi thực hiện cắt gọt 60% thì điểm BLEU là 33.98, sự chênh lệch là 0.09 giảm dung lƣợng bảng từ 162Mb xuống còn 97Mb. Cắt gọt 80% thì điểm BLEU là 34.03, sự chênh lệch là 0.04 giảm dung lƣợng bảng từ 162Mb xuống còn 129Mb.
Nhƣ vậy, khi kích thƣớc dữ liệu của bảng cụm từ sau khi đƣợc cắt gọt giảm đi đáng kể so với bảng cụm trƣớc khi đƣợc cắt gọt. Chúng ta sẽ không cần phải dùng đến một không gian bộ nhớ lớn để lƣu bảng cụm từ.
KẾT LUẬN
Trong luận văn này tơi hƣớng tới mục đích là tìm hiểu và nghiên cứu phƣơng pháp cải thiện bảng cụm từ về m t hiệu năng cụ thể là dung lƣợng của bảng cụm từ của quá trình dịch nhƣng vẫn đảm bảo đƣợc chất lƣợng dịch. Qua bốn chƣơng, luận văn đã trình bày về cách tiếp cận dịch máy dựa trên cụm từ, phƣơng pháp tối ƣu bảng cụm từ theo kỹ thuật Pruning (cụ thể là mơ hình
“Entropy-based Pruning” , và đồng thời áp dụng vào bài toán dịch Anh – Việt. Các kết quả chính đạt đƣợc là:
- Trình bày về cách tiếp cận dịch máy bằng thống kê trên cơ sở cụm từ. - Trình bày phƣơng pháp cắt gọt bảng cụm từ theo mơ hình “Entropy-
based Pruning”.
- Áp dụng các phƣơng pháp cắt gọt bảng cụm từ theo mơ hình “Entropy-
based Pruning” dịch Anh – Việt, đánh giá và thử nghiệm với c p ngữ liệu song
ngữ cho kết quả khả quan. Hƣớng phát triển:
Với những kết quả đạt đƣợc trong luận văn này, tôi hy vọng trong tƣơng lai sẽ cải thiện đƣợc chất lƣợng dịch và thời gian dịch bằng cách cập nhật các ngữ liệu đầu vào đủ lớn, giảm kích thƣớc của bảng cụm từ, thay đổi một vài tham số để q trình huấn luyện các mơ hình đƣợc tốt hơn:
- Thử nghiệm với dữ liệu đa dạng hơn và lớn hơn.
- Tìm hiểu thêm về các phƣơng pháp cắt gọt bảng cụm từ. - Tìm hiểu các phƣơng pháp cải tiến để kết quả hiệu quả hơn. - Áp dụng cho chiều dịch từ Việt – Anh.
THAM KHẢO
Tài liệu tiếng Việt
[1] Đào Ngọc Tú 2012 , “Nghiên cứu vào dịch thống kê dựa vào cụm từ và thử nghiệm với c p ngôn ngữ Anh – Việt”. Luận văn Thạc sỹ, Học viện Cơng nghệ Bƣu chính Viễn thơng.
[2] Nguyễn Văn Vinh 2005 , “Xây dựng chƣơng trình dịch tự động Anh- Việt bằng phƣơng pháp dịch thống kê”. Luận văn Thạc sĩ, Đại học Công nghệ, Đại học Quốc gia Hà Nội.
Tài liệu tiếng Anh
[3] Daniel Jurafsky and James H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, chapter 6, February 2000.
[4] Och F.J. and Ney H., “Discriminative training and maximum entropy models for statistical machine translation” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 295-302, Philadelphia, PA, July 2002.
[5] Kenji Yamada and Kevin Knight, A Syntax-based Statistical Translation Model, Information Sciences Institute, University of Southern California [6] Philipp Koehn and Kevin Knight, “Introduction to Statistical Machine [7] WangLing, JoaoGrac, Isabel, Trancoso, AlanBlack, “Entropy-based
Pruning for Phrase-based Machine Translation”.
[8] Papineni, Kishore, Salim Roukos, Todd Ward and Wei-Jing Zhu. (2002), BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting of the ACL, pages 311-318, Philadelphia, PA.