V. THỬ NGHIỆM
5.2. Hiệu năng dịch của các thử nghiệm
Chúng tôi cũng làm một số thí nghiệm nữa để so sánh kết quả gióng từ của mô hình IBM_1, cụ thể là so sánh các kết quả của các hệ thống dịch máy dựa trên cụm từ được xây dựng theo cách truyền thống so với các kết quả đem lại trong phần mở rộng của chúng tôi.
Sau khi làm theo các bước huấn luyện thì mỗi tập ngữ liệu sẽ có mô hình dịch của riêng mình. Trong bước đầu tiên, chúng tôi sử dụng công cụ gióng từ nổi tiếng GIZA ++ [9] (công cụ này có cài đặt đầy đủ các mô hình IBM) để gióng từ cho phần huấn luyện. Cùng với việc gióng từ, một mô hình ngôn ngữ cho ngôn ngữ đích (là tiếng Việt trong trường hợp này) cũng được huấn luyện bởi công cụ phổ biến IRSTLM [3] trên một tập ngữ liệu tiếng Việt, cụ thể là phần huấn luyện tiếng Việt trong thử nghiệm của nhóm.
Sau đó, chúng tôi sử dụng bộ công cụ Moses nổi tiếng [5] để sinh ra các mô hình dịch, bộ công cụ này cũng thực hiện một số bổ sung về việc trích xuất cụm từ và ước lượng điểm đặc trưng. Cuối cùng, các thử nghiệm được thực hiện với bản dịch của câu chưa nhìn thấy trong lúc huấn luyên. Bộ giải mã Moses sẽ dịch phần ngữ liệu kiểm thử tiếng Anh dựa trên các thông tin mà mô hình cung cấp, và kết quả các câu tiếng Việt được dịch bởi Moses sẽ được đánh giá bởi phương pháp BLEU. Thử nghiệm được thực hiện một cách độc lập cho cả hai tập ngữ liệu, và điểm số BLEU đo được sẽ là thước đo cho hiệu năng dịch của hai mô hình.
Cùng với hiệu năng dịch, chúng tôi cũng muốn đánh giá khả năng làm phong phú thêm số liệu thống kê của phương pháp mới của chúng tôi. Các thí nghiệm được thực hiện trên các ngữ liệu có kích cỡ khác nhau. Sự thưa thớt từ của ngữ liệu bị tăng lên khi tập ngữ liệu có kích thước nhỏ đi. Chúng tôi vẫn giữ một phần để thử nghiệm là 1.000
cặp câu khi lựa chọn ngẫu nhiên 10.000, 20.000, 35.000 cặp câu ngữ liệu huấn luyện từ tổng số 55.000 cặp câu cho ba thí nghiệm. Dễ dàng nhận thấy điểm BLEU của phương pháp chúng tôi tốt hơn trong các kết quả của bốn thí nghiệm như trong Bảng 5.3. Phương pháp của chúng tôi không chỉ làm tăng hiệu năng dịch mà còn chứng tỏ khả năng giảm bớt độ thưa thớt của dữ liệu đặc biệt là khi kích thước của ngữ liệu là nhỏ. Thực tế là tập ngữ liệu càng nhỏ thì điểm BLEU càng cách xa nhau, kết quả thực nghiệm phản ánh khá rõ điểm này, tất cả những kết quả này một lần nữa cho thấy tiềm năng của giải pháp đề xuất.
Bảng 5.3: điểm BLEU của bốn lần thực nghiệm
Kích thước tập đạo tào
Ngữ liệu gốc Ngữ liệu đã được
xử lý hình thái % tăng 10000 13.85 14.61 5.5% 20000 16.51 16.87 2.2% 35000 18.64 19.07 2.3% 55000 20.49 20.55 0.34%