Đối chiếu với chỉ số WER (trình bày tại mục 1.2.3) hoặc chỉ số ED (khoảng cách Edit Distance), chúng ta thấy rằng đây là hai chỉ số để đo khoảng cách giữa hai chuỗi bằng cách tính tốn số bước ngắn nhất để biến đổi một chuỗi X thành chuỗi Y thơng qua các thao tác thêm, sửa, xóa. Trong trường hợp lý tưởng, người dùng sẽ thực hiện số bước ngắn nhất để hiệu chỉnh bản dịch, khi đó giá trị WER hoàn toàn trùng khớp với giá trị Ope. Ở đây mỗi thao tác thay thế (S) sẽ bằng một lần xóa (D) và một lần thêm mới (I).
WER = S + I + D = N
(I + D) + I + D
N = Ope
Trên thực tế, số bước người dùng chỉnh sửa có thể sẽ nhiều hơn so với giá trị (S + I + D). Qua thực nghiệm với một số bộ dữ liệu và q trình hiệu đính thực tế, có thể thấy rằng giá trị Ope và Tpe thay đổi tỷ lệ thuận với giá trị WER và ED.
Kết quả dịch (Tài liệu tiếng Việt)
Hiệu đính bản dịch
Tính chỉ số Tpe và Ope Bổ sung dữ liệu song ngữ
Đánh giá
chất lượng BLEU, NIST...Đánh giá Cải thiện chất lượng mơ hình dịch
2.2.3.3. Giải pháp kết hợp hiệu đính bản dịch máy và đánh giá chất lượng
Hiện nay, không phải hệ thống nào cũng hỗ trợ thao tác hiệu đính để giúp người dùng chỉnh sửa kết quả bản dịch máy thành bản dịch chính xác và có thể sử dụng được. Ở các hệ thống này, người dùng chỉ có thể xem kết quả bản dịch, sau đó có thể sao chép sang các trình soạn thảo văn bản khác để tiếp tục chỉnh sửa hoàn thiện bản dịch này. Như vậy các hoạt động hiệu đính chỉ phục vụ cho mục đích của người sử dụng, chứ chưa được ứng dụng để cải thiện và đánh giá hệ thống dịch.
Các hoạt động hiệu đính và đánh giá chất lượng được thực hiện tách rời nhau và không kế thừa kết quả của nhau. Vì vậy, nghiên cứu đề xuất kết hợp các hoạt động hiệu đính bản dịch máy với đánh giá chất lượng, giúp giảm chi phí và nâng cao độ chính xác. Để làm được điều này, cần xây dựng hệ thống đánh giá chất lượng dịch tiếng Anh – tiếng Việt của các hệ thống dịch tự động trực tuyến (như Google, Microsoft) thông qua các thao tác hậu xử lý với các đặc điểm sau:
Hệ thống dịch tự động (thủ cơng, hàm API…)
Hình 2.6. Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch
Kho ngữ liệu đơn ngữ tiếng Anh
- Kho ngữ liệu nguồn: là kho ngữ liệu đơn ngữ (tiếng Anh), chưa được dịch sang tiếng Việt.
-Kết quả dịch: Từ câu nguồn tiếng Anh (cần dịch), sử dụng các hệ thống dịch tự động trực tuyến để lấy kết quả bản dịch (thực hiện thủ công, sử dụng các hàm API hoặc các kỹ thuật khác) là câu đích ở tiếng Việt. Đây là kết quả “dịch thơ”, chưa chính xác và cần q trình hiệu đính của con người.
- Hiệu đính bản dịch: Cho phép người dùng kiểm tra và chỉnh sửa bản dịch tiếng Việt này để có được bản dịch chính xác mà khơng cần dựa trên các bản dịch có sẵn.
- Đánh giá chất lượng: theo dõi và đo các chỉ số về thời gian (Tpe) và thao tác (Ope) để đánh giá chất lượng của các bản dịch.
- Xây dựng kho ngữ liệu: sau q trình hiệu đính, hệ thống thu được các cặp câu nguồn tiếng Anh và bản dịch tiếng Việt đã được chỉnh sửa. Các cặp câu song ngữ này được sử dụng để tạo kho ngữ liệu tương ứng.
- Đánh giá chất lượng bằng các phương pháp khác: khi đã có kho ngữ liệu song ngữ, chúng ta có thể tiếp tục hoạt động đánh giá bằng các số đo khác như đã trình bày ở trên, từ đó có thể đối chiếu, so sánh giữa các thang đo.
- Cải thiện chất lượng hệ thống dịch: bản dịch sau khi được con người sửa chữa sẽ được sử dụng để cải thiện chất lượng của hệ thống dịch. Ở các lần dịch tiếp theo, kết quả của hệ thống dịch chắc chắn sẽ tốt hơn.
2.2.3.4. Thực nghiệm
Để triển khai thực nghiệm quá trình hiệu đính bản dịch máy kết hợp đánh giá chất lượng bản dịch và xây dựng kho ngữ liệu, NCS triển khai các bước sau:
- Bước 1: Lấy 500 câu song ngữ tiếng Anh – tiếng Việt từ các đoạn hội thoại đã được dịch trong tài liệu học tiếng Anh ở chủ đề thông dụng là “Cuộc sống hàng ngày”. Dữ liệu này được chia thành 5 bộ để thực nghiệm. Câu tiếng Anh (E) là câu nguồn cần dịch, câu tiếng Việt được xem là bản dịch tham chiếu (V).
- Bước 2: Xây dựng chương trình sử dụng các dịch vụ được cung cấp của hệ thống dịch Google, Microsoft để tự động gửi các câu nguồn tiếng Anh (E) và lấy về các bản dịch tiếng Việt (V1) từ các hệ thống dịch đó. Dùng bản dịch của kho ngữ liệu
(V)để làm câu tham chiếu, đo các chỉ số đánh giá (D1) theo thuật toán Edit Distance (ED), Word Error Rate (WER), BLEU, NIST để so sánh sự tương đồng giữa hai câu V và V1. Chỉ số Edit Distance cho biết số lượng từ và ký tự khác nhau giữa 2 câu, Word Error Rate đo tỷ lệ lỗi giữa câu dịch và câu tham chiếu, còn chỉ số BLEU và NIST tính tốn mức độ khác nhau dựa trên n-grams. Kết quả thu được ở Bảng 2.5.
- Bước 4: Xây dựng hệ thống cho phép người dùng hiệu chỉnh các bản dịch. Quá trình này được tự động đo thời gian và đếm số lượng thao tác mà người dùng thực hiện để hiệu chỉnh. Từ đó tính tốn chỉ số Tpe và Ope để đánh giá chất lượng bản dịch. Bản dịch hiệu chỉnh (V2) được đưa vào kho ngữ liệu để làm câu tham chiếu.
Bảng 2.5. Trung bình các chỉ số trên 5 bộ dữ liệu
BLEU NIST ED WER
Test 1 24,2 1,563 6,739 0,886
Test 2 54,2 2,876 5,684 0,561
Bộ dữ liệu
Test 4 27,3 2,450 9,286 0,757
Test 5 38,0 2,546 8,067 0,634
- Tiếp tục sử dụng hệ thống để tính tốn lại các chỉ số Edit Distance, Word Error Rate, BLEU, NIST (D2) giữa hai câu V1 và V2. So sánh D1 và D2. Kết quả được thể hiện ở Bảng 2.6.
Bảng 2.6. Kết quả sau khi hiệu chỉnh bản dịch
Tpe Ope BLEU NIST ED WER
Test 1 0,649 1,385 55,3 2,304 3,913 0,403 Test 2 0,211 0,717 78,9 3,281 1,632 0,142
Tpe Ope BLEU NIST ED WER
Test 3 0,199 0,945 84,9 3,006 1,071 0,102 Test 4 0,506 1,250 63,1 3,170 3,500 0,301 Test 5 0,550 1,265 67,7 3,130 4,133 0,257
Từ kết quả này, chúng ta có thể thấy được sự tương đồng giữa chỉ số Tpe, Ope với các chỉ số Edit Distance và Word Error Rate thông qua đồ thị ở
Hình 2.7. Khi chỉ số Tpe, Ope tăng thì tương tứng chỉ số ED và WER cũng tăng và ngược lại.