Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt

Một phần của tài liệu Luận án Tiến sĩ Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt (Trang 55 - 56)

T chức đánh giá

Chuẩn bị dữ liệu: Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt chưa có các bộ dữ liệu đặc trưng để đánh giá. Vì vậy, nghiên cứu sinh chọn lọc và sử dụng 4 bộ dữ liệu song ngữ Anh – Việt phục vụ cho việc đánh giá. Các bộ dữ liệu được lựa chọn trên tiêu chí đại diện cho các lĩnh vực khác nhau, bao gồm cả hội thoại thông dụng hàng ngày và lĩnh vực chuyên ngành. Dữ liệu này được thu thập từ các trang nguồn có độ tin cậy, đồng thời được kiểm tra, chỉnh sửa thủ công để đảm bảo các bản dịch đạt chất lượng tốt, bao gồm: (1) tst2013: dữ liệu song ngữ phục vụ cho các tác vụ kiểm thử tại Hội thảo IWSLT’15 (http://workshop2015. iwslt.org); (2) 1000-cau: tuyển tập 1.000 câu giao tiếp tiếng Anh thông dụng được cung cấp bởi website dạy tiếng Anh (hellochao.vn). Đối với lĩnh vực chuyên ngành, nghiên cứu sinh sử dụng: (3) tpp-tomtat: bản tóm tắt và (4) tpp-chuong28: chương 28 của Hiệp định đối tác xuyên Thái Bình Dương được cung cấp bởi Thư viện Pháp luật (thuvienphapluat.vn). Chi tiết dữ liệu được cung cấp ở Bảng 2.1.

Bng 2.1. Thông tin v d liu phc vđánh giá

Dữ liệu đánh giá Số lượng câu Chiều dài trung bình (tiếng Anh) Chiều dài trung bình (tiếng Việt)

tst2013 1.268 18,5 24,1 Chuẩn bị dữ liệu đánh giá Gọi API lấy kết quả dịch từ Google, Microsoft Câu nguồn Kết quả dịch Tổ chức Đánh giá Câu tham chiếu

Chủ quan Khách quan

Con người

Phần mềm BLUE/NIST

1000-cau 984 5,7 4,9

tpp-tomtat 265 33,4 41,4

tpp-chuong28 210 82,9 130,1

2.2.1.1. Đánh giá theo phương pháp khách quan

Xử lý dữ liệu: dữ liệu đánh giá được tách câu, kiểm tra để đảm bảo các câu đều được dịch theo từng cặp câu, thực hiện các bước tiền xử lý cần thiết như loại bỏ một số ký tự đặc biệt, chuyển về bảng mã Unicode tiêu chuẩn trước khi tiến hành đánh giá.

Nhận kết quả dịch: các câu tiếng Anh của từng tập dữ liệu được dịch sang tiếng Việt thông qua các hàm API của hệ thống Google và Microsoft, sử dụng công cụ do nghiên cứu sinh xây dựng và tương tự, các câu tiếng Việt sẽ được dịch sang tiếng Anh.

Một phần của tài liệu Luận án Tiến sĩ Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt (Trang 55 - 56)

Tải bản đầy đủ (PDF)

(140 trang)