c. Đánh giá thơng qua hiệu đính bản dịch
Hiệu đính bản dịch là q trình chỉnh sửa bản dịch máy thành một bản dịch chính xác. Thay vì trực tiếp đánh giá các chỉ số chất lượng một cách tương đối hay tuyệt đối, phương pháp đánh giá thơng qua hiệu đính bản dịch thực hiện đo đạc số lượng tối thiểu công việc cần thiết để chỉnh sửa một bản dịch máy thành bản dịch chính xác. Một trong các chỉ số thông dụng nhất khi áp dụng phương pháp này là HTER (human-targeted translation edit rate) [21], đây cũng là phương pháp đánh giá bán tự động khi vừa dựa trên sử chỉnh sửa chủ quan của con người, vừa sử dụng các cơng thức để tính tốn tự động. HTER xác định số bước tối thiểu mà người đánh giá tham gia chỉnh sửa bản dịch để trở thành một bản dịch chính xác. Phương pháp này hướng đến so sánh bản dịch máy với một trong các bản dịch tham chiếu gần nhất nhằm đạt được số bước chỉnh sửa ít nhất có thể.
Phương pháp đánh giá chủ quan có những nhược điểm như sau:
- Chi phí cao: q trình tổ chức đánh giá thực hiện hồn tồn thủ cơng, vì vậy chi phí để đánh giá rất cao, đồng thời cần có sự tham gia của nhiều người để đánh giá một kết quả nhằm đảm bảo tính chính xác của việc đánh giá.
- Không thể tái sử dụng: mỗi đánh giá thực hiện trực tiếp trên một bản dịch cụ thể, vì vậy khó có thể tái sử dụng trong trường hợp lặp lại một phần các bản dịch đã được đánh giá.
- Tốc độ chậm: việc đánh giá thủ công sẽ ảnh hưởng đến tốc độ của quá tình đánh giá.
- Kết quả mang tính chủ quan dựa trên sự đánh giá của con người, đôi khi cũng ảnh hưởng bởi mơi trường, tâm trạng, trình độ ngơn ngữ… của người đánh giá.
1.2.3.2. Phương pháp đánh giá khách quan (đánh giá tự động)
Đánh giá khách quan là sử dụng các chương trình thay cho con người để đánh giá. Các chương trình sẽ so khớp hoặc đo tỉ lệ lỗi của kết quả từ hệ thống dịch với câu dịch tham khảo đã có sẵn.
Các chỉ số đánh giá tự động như BLEU, NIST, METEOR, WER, PER, GTM, TER, CDER… đã được nghiên cứu và phát triển để cải thiện những nhược điểm của
phương pháp đánh giá chủ quan như chi phí cao, khơng thể tái sử dụng, kết quả mang tính chủ quan, tốc độ thực hiện chậm…, đồng thời hướng đến quá trình tự động điều chỉnh các tham số đánh giá phù hợp [26]. Những chỉ số này được đề xuất dựa trên quá trình tự động so sánh giữa kết quả bản dịch với bản dịch tham chiếu do chuyên gia thực hiện, thông thường bằng cách xem xét sự trùng khớp thông qua n-gram.
a. Chỉ số WER (Word Error Rate)
Một trong những phương pháp đánh giá tự động là sử dụng chỉ số WER [27]. WER tính tốn Khoảng cách Levenshtein [28] giữa các từ trong bản dịch máy với các từ trong bản dịch tham chiếu, chia cho chiều dài của bản dịch tham chiếu. Khoảng cách Levenshtein thể hiện khoảng cách khác biệt giữa 2 chuỗi ký tự, chẳng hạn giữa chuỗi S và chuỗi T là số bước ít nhất biến chuỗi S thành chuỗi T thơng qua 3 phép biến đổi:
o Xố 1 ký tự (Deletion)
o Thêm 1 ký tự (Insertion)
o Thay ký tự này bằng ký tự khác (Substitution)
Khoảng cách Levenshtein thường được sử dụng trong việc tính tốn sự giống và khác nhau giữa 2 chuỗi, như chương trình kiểm tra lỗi chính tả.
WER sẽ tiến hành cộng số lượng các bước xóa (D), thêm (I), thay thế (S) và chia cho chiều dài của câu tham chiếu (N) theo cơng thức:
= + +
Ví dụ đối với trường hợp cần so sánh mức độ tương đồng giữa câu tham chiếu là bản dịch gốc (How are you today John) và bản dịch do máy tính tạo ra (How you a today Jones):
Câu tham chiếu How are you today John
=1 + 1 + 1
5 =
3 5
Bản dịch máy How you a today Jones
Thao tác D I S
WER trong nhiều trường hợp sẽ cho kết quả khơng chính xác, vì một câu nguồn có thể được dịch thành nhiều cách khác nhau ở ngơn ngữ đích, sử dụng các từ hồn tồn khác nhau. Khi đó một bản dịch đúng có thể sẽ nhận được điểm số thấp mặc dù chất lượng tốt.
b. Chỉ số MWER (Multi-Reference WER)
Chỉ số MWER [29] là một sự phát triển từ WER và được đánh giá dựa trên số đo WER đối với nhiều câu tham chiếu, và chọn ra điểm WER thấp nhất trong số các so sánh được thực hiện. Như vậy MWER sẽ là sự đánh giá của bản dịch máy đối với một bản dịch tham chiếu gần đúng nhất, điều này sẽ giúp cho kết quả đánh giá được chính xác hơn.
c. Chỉ số PER (Position-independent Error Rate)
PER là một biến thể khác của WER nhằm khắc phục những sai sót khi thực hiện đảo trật tự các từ [30]. PER tiến hành so sánh các từ trong bản dịch máy và bản tham chiếu mà không quan tâm đến thứ tự của chúng. Vì vậy mà điểm số của PER luôn thấp hơn hoặc bằng WER, tuy nhiên hạn chế của PER là không thể phân biệt được chất lượng giữa một bản dịch đúng và bản dịch với các từ bị xáo trộn vị trí.
d. Chỉ số TER (Translation Error Rate)
TER [21] được đề xuất để xem xét đến vấn đề thay đổi trật tự các từ mà chưa được xét đến trong chỉ số WER. TER giải thiết chi phí để dịch chuyển (shift) một từ sang một ví trí khác trong câu bằng chi phí để thêm, xóa, thay thế. TER sử dụng giải thuật tìm kiếm tham lam để tìm kiếm các từ giống nhau cần dịch chuyển nhằm giải bớt chi phí thực hiện việc hiệu đính bản dịch.
Khơng giống với giải pháp trong chỉ số MWER là bản dịch tham chiếu có số bước hiệu chỉnh ít nhất sẽ được sử dụng để đánh giá, TER sẽ lấy giá trị trung bình khi so sánh với tất cả bản tham chiếu. Cơng thức tính TER thể hiện như sau:
= + + +
Trong đó N là trung bình số từ trong tất cả các bản dịch tham chiếu. (1.4)
e. Chỉ số BLEU
BLEU là một phương pháp dùng để đánh giá chất lượng bản dịch được đề xuất bới IBM tại hội nghị ACL ở Philadelphie vào tháng 7-2001 [31]. Ý tưởng chính của phương pháp là so sánh kết quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu. Việc so sánh được thực hiện thông qua việc thống kê sự trùng khớp của các từ trong hai bản dịch có tính đến thứ tự của chúng trong câu (phương pháp n-grams theo từ) [32]. Phương pháp này dựa trên hệ số tương quan giữa bản dịch máy và bản dịch chính xác được thực hiện bởi con người để đánh giá chất lượng của một hệ thống dịch.
Việc đánh giá được thực hiện trên kết quả thống kê mức độ trùng khớp các n- grams (dãy ký tự gồm n từ hoặc ký tự) từ kho dữ liệu của kết quả dịch và kho các bản dịch tham khảo có chất lượng cao [33]. Giải thuật của IBM đánh giá chất lượng của hệ thống dịch qua việc trùng khớp của các n-grams đồng thời nó cũng dựa trên cả việc so sánh độ dài của các bản dịch.
Cơng thức để tính điểm BLEU như sau [31]:
pn =
Trong đó, pn là điểm số “Precision” phản ánh tỷ lệ trùng khớp của các n-gram của các bản dịch so với bản tham chiếu.
wn là trọng số tương ứng với chiều dài của n-gram
BP (brevity penalty) là trọng số xác định bởi chiều dài của bản dịch và chiều dài của bản tham chiếu.
Giá trị BLEU đánh giá mức độ tương ứng giữa hai bản dịch và nó được thực hiện trên từng phân đoạn, ở đây phân đoạn được hiểu là đơn vị tối thiểu trong các bản dịch, thông thường mỗi phân đoạn là một câu hoặc một đoạn. Việc thống kê độ trùng khớp của các n-grams dựa trên tập hợp các n-grams trên các phân đoạn, trước hết là nó được tính trên từng phân đoạn, sau đó tính lại giá trị này trên tất cả các phân đoạn. BLEU có giá trị từ 0 đến 1, trong một số công thức đã được biến đổi, miền giá trị có thể từ 0 đến 100. Khi đánh giá kết quả dịch, giá trị BLEU càng cao thì bản dịch càng chính xác.
f. Chỉ số NIST
Phương pháp NIST [34] là sự phát triển trên phương pháp BLEU nhưng có một khác biệt về quan điểm đánh giá là việc chọn lựa n-grams và thông tin trên mỗi n-gram sẽ được sử dụng để phục vụ việc đánh giá.
Sự biến đổi có thể của điểm đánh giá trên một n-gram nếu chúng ta thay đổi vị trí các phần tử trên cùng một n-gram cho thấy rằng điểm số cũng sẽ thay đổi nếu thay đổi vị trí của các n-grams trên cùng một phân đoạn [18]. Sự thay đổi này sẽ ảnh hưởng lớn lên kết quả đánh giá dựa trên sự tương ứng về vị trí của các n-grams trên phân đoạn. Điều này cho thấy chúng ta có thể sử dụng cơng cụ số học để tính tốn sự biến đổi trên các n-grams bên cạnh sử dụng yếu tố hình học.
Cơng thức để tính điểm của NIST như sau [35]:
N i ref tra D w w i w w n L L p w w score tra n n 1 2 ... ... 1 1 , min log exp . ) log( ) ... inf( 1 1
Những trọng số thông tin là được sử dụng để tính tốn trên các n-grams trong tập tất cả các các bản dịch tham khảo theo phương trình sau:
2 1 2 1... ) log inf( N N w w n
- N1 = số lượng các tương ứng của các từ w1…wn-1
- N2 = số lượng các tương ứng của các từ w1…wn
(1.6)
- là hệ số được chọn bằng 0,5 khi số lượng các từ trong bản dịch máy nhỏ hơn hoặc bằng 2/3 số lượng các từ trong bản dịch tham khảo, ngược lại thì =1
- N=5
- Ltra: số lượng các từ trong bản dịch máy
- Lref: số lượng từ trong bản dịch tham khảo.
Tương tự BLEU, chỉ số NIST có giá trị càng cao thì bản dịch càng chính xác.
1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt
Cải tiến chất lượng dịch tự động được hiểu là thực hiện các hành động phù hợp để hệ thống dịch cho kết quả đạt chất lượng tốt hơn khi so sánh với kết quả của hệ thống dịch trước đó hoặc các hệ thống đã tồn tại. Đã có nhiều nghiên cứu của các tác giả trong và ngoài nước trong lĩnh vực dịch tự động liên quan đến tiếng Việt, tập trung ở các khía cạnh:
o Đánh giá chất lượng các hệ thống dịch tự động hiện nay
o Xây dựng kho ngữ liệu phục vụ cho bài toán dịch tự động tiếng Việt, chủ yếu đối với cặp ngôn ngữ Anh-Việt, đồng thời đưa ra một số giải pháp để nâng cao chất lượng của các kho ngữ liệu
o Xây dựng hệ thống dịch Anh – Việt sử dụng phương pháp dịch thống kê và một số phương pháp khác.
Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch
- Nghiên cứu tại [36] tiến hành xây dựng hệ thống dịch Anh – Việt sử dụng mã nguồn Moses trên nền tảng dịch thống kê. Nhóm tác giả sử dụng bộ dữ liệu huấn luyện, kiểm thử của IWSLT 2015 và đánh giá kết quả bằng chỉ số BLEU, kết quả các lần đánh giá như sau:
Bảng 1.5. Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa trên MOSES
STT Cặp ngôn ngữ Bài đánh giá Điểm BLEU
2 En-Vn RUN02 20,93
3 En-Vn RUN03 23,15
4 Vn-En RUN01 17,19
5 Vn-En RUN02 17,56
6 Vn-En RUN03 19,72
Trong bảng trên, BLEU là một chỉ số dùng để đánh giá chất lượng hệ thống dịch bằng cách so sánh kết quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu. Chỉ số BLEU có giá trị từ 0, và giá trị càng cao thì hệ thống dịch càng đạt chất lượng tốt.
- Nghiên cứu tại [8] tiến hành xây dựng kho ngữ liệu gồm 880.000 cặp câu song ngữ Anh – Việt và hơn 11 triệu câu tiếng Việt, sau đó sử dụng mơ hình dịch thống kê và mã nguồn MOSES để xây dựng hệ thống dịch Anh – Việt. Kết quả hệ thống dịch được đánh giá và so sánh với kết quả dịch của Google và Microsoft.