Dữ liệu đánh giá Số lượng câu Chiều dài trung bình (tiếng Anh)
Chiều dài trung bình (tiếng Việt)
tst2013 1.268 18,5 24,1
Chuẩn bị dữ liệu đánh giá
Gọi API lấy kết quả dịch từ Google, Microsoft Câu nguồn Kết quả dịch Tổ chức Đánh giá Câu tham chiếu
Chủ quan Khách quan
Con người
Phần mềm BLUE/NIST
1000-cau 984 5,7 4,9
tpp-tomtat 265 33,4 41,4
tpp-chuong28 210 82,9 130,1
2.2.1.1. Đánh giá theo phương pháp khách quan
Xử lý dữ liệu: dữ liệu đánh giá được tách câu, kiểm tra để đảm bảo các câu đều được dịch theo từng cặp câu, thực hiện các bước tiền xử lý cần thiết như loại bỏ một số ký tự đặc biệt, chuyển về bảng mã Unicode tiêu chuẩn trước khi tiến hành đánh giá.
Nhận kết quả dịch: các câu tiếng Anh của từng tập dữ liệu được dịch sang tiếng Việt thông qua các hàm API của hệ thống Google và Microsoft, sử dụng công cụ do nghiên cứu sinh xây dựng và tương tự, các câu tiếng Việt sẽ được dịch sang tiếng Anh.
Hình 2.3. Chương trình hỗ trợ trích xuất kết quả dịch từ các hệ thống
Đánh giá: để đánh giá kết quả dịch, nghiên cứu sử dụng các chỉ số BLEU, NIST là các chỉ số thông dụng phản ánh sự tương đồng giữa bản dịch của máy tính và bản dịch tham khảo từ bộ dữ liệu song ngữ. Các chỉ số này thường được sử dụng trong các nghiên cứu liên quan đến đánh giá chất lượng dịch máy như đã trình bày ở Chương 1. Ngồi ra chỉ số WER cũng được quan sát để xem xét tỷ lệ các từ lỗi so với bản dịch tham khảo. NCS sử dụng hệ thống Asiya [46] để do các chỉ số nêu trên
giữa bản dịch và bản tham chiếu lần lượt cho bản dịch từ tiếng Việt sang tiếng Anh và tiếng Anh sang tiếng Việt. Kết quả thu được ở Bảng 2.2.