7. Bố cục của luận án
2.4.1. Dữ liệu và mơi trường thử nghiệm
Do cặp ngơn ngữ Việt - Anh là cặp ngơn ngữ cĩ nguồn dữ liệu rất hạn chế, khơng cĩ nhiều bộ dữ liệu cơng khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước đây cũng khơng cĩ sẵn. Để thử nghiệm và đánh giá, luận án sử dụng kho ngữ liệu song ngữ IWSLT'15 English-Vietnamese data [Small], đây là bộ dữ liệu cĩ đầy đủ các thành phần (train - dev – test) đã từng được sử dụng trong các cuộc thi tại hội thảo IWSLT năm 2015. Kho ngữ liệu song ngữ cĩ thể
tải về từ nhĩm nghiên cứu về ngơn ngữ tự nhiên Stanford NLP theo địa chỉ (https://nlp.stanford.edu/projects/nmt/). Bảng 2.2. dưới đây là thống kê chi tiết về kho ngữ liệu này:
Bảng 2.2. Các bộ dữ liệu sử dụng trong các thử nghiệm
Bộ dữ liệu
Huấn luyện
(IWLST’15) Tinh chỉnh tham số (tst2012) Đánh giá(tst2013) Tiếng
Anh
Tiếng Việt
Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt Số lượng câu 133.317 133.317 1.553 1.553 1.268 1.268 Số lượng từ 2.706.404 3.311.620 27.983 34.297 26.728 33.682 Độ dài câu lớn nhất 628 850 93 122 102 123 Độ dài câu nhỏ nhất 2 2 2 2 2 2 Độ dài câu trung bình 20,30 24,84 18,02 22,08 21,08 26,56
Các mơ hình được sử dụng trong các thử nghiệm như sau:
- Mơ hình dịch máy thống kê MOSES (http://ww.statmt.org/moses/) với mơ hình cụm từ phân cấp được sử dụng cho dịch thuật Việt - Anh
- Mơ hình sử dụng trong dịch ngược: Sử dụng các mơ hình đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhĩm Facebook AI Research [81].
- Mơ hình ngơn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mơ hình ngơn ngữ tiếng Anh đã được huấn luyện sẵn của nhĩm Facebook AI Research.
Phần mềm MOSES ( http://www.statmt.org/moses/) với mơ hình dịch máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt - Anh. Độ đo BLEU và BLEU_c [91] được sử dụng để đánh giá chất lượng hệ thống dịch máy.