6. Đóng góp chính của luận án
1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt
Ví dụ đối với trường hợp cần so sánh mức độ tương đồng giữa câu tham chiếu là bản dịch gốc (How are you today John) và bản dịch do máy tính tạo ra (How you a today Jones):
Câu tham chiếu How are you today John
1 + 1 + 1 3
WER = =
5 5
Bản dịch máy How you a today Jones
WER trong nhiều trường hợp sẽ cho kết quả khơng chính xác, vì một câu nguồn có thể được dịch thành nhiều cách khác nhau ở ngơn ngữ đích, sử dụng các từ hồn tồn khác nhau. Khi đó một bản dịch đúng có thể sẽ nhận được điểm số thấp mặc dù chất lượng tốt.
b. Chỉ số MWER (Multi-Reference WER)
Chỉ số MWER [29] là một sự phát triển từ WER và được đánh giá dựa trên số đo WER đối với nhiều câu tham chiếu, và chọn ra điểm WER thấp nhất trong số các so sánh được thực hiện. Như vậy MWER sẽ là sự đánh giá của bản dịch máy đối với một bản dịch tham chiếu gần đúng nhất, điều này sẽ giúp cho kết quả đánh giá được chính xác hơn.
c. Chỉ số PER (Position-independent Error Rate)
PER là một biến thể khác của WER nhằm khắc phục những sai sót khi thực hiện đảo trật tự các từ [30]. PER tiến hành so sánh các từ trong bản dịch máy và bản tham chiếu mà khơng quan tâm đến thứ tự của chúng. Vì vậy mà điểm số của PER ln thấp hơn hoặc bằng WER, tuy nhiên hạn chế của PER là không thể phân biệt được chất lượng giữa một bản dịch đúng và bản dịch với các từ bị xáo trộn vị trí.
d. Chỉ số TER (Translation Error Rate)
TER [21] được đề xuất để xem xét đến vấn đề thay đổi trật tự các từ mà chưa được xét đến trong chỉ số WER. TER giải thiết chi phí để dịch chuyển (shift) một từ sang một ví trí khác trong câu bằng chi phí để thêm, xóa, thay thế. TER sử dụng giải thuật tìm kiếm tham lam để tìm kiếm các từ giống nhau cần dịch chuyển nhằm giải bớt chi phí thực hiện việc hiệu đính bản dịch.
Khơng giống với giải pháp trong chỉ số MWER là bản dịch tham chiếu có số bước hiệu chỉnh ít nhất sẽ được sử dụng để đánh giá, TER sẽ lấy giá trị trung bình khi so sánh với tất cả bản tham chiếu. Cơng thức tính TER thể hiện như sau:
TER =
N (1.4)
e. Chỉ số BLEU
BLEU là một phương pháp dùng để đánh giá chất lượng bản dịch được đề xuất bới IBM tại hội nghị ACL ở Philadelphie vào tháng 7-2001 [31]. Ý tưởng chính của phương pháp là so sánh kết quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu. Việc so sánh được thực hiện thông qua việc thống kê sự trùng khớp của các từ trong hai bản dịch có tính đến thứ tự của chúng trong câu (phương pháp n-grams theo từ) [32]. Phương pháp này dựa trên hệ số tương quan giữa bản dịch máy và bản dịch chính xác được thực hiện bởi con người để đánh giá chất lượng của một hệ thống dịch.
Việc đánh giá được thực hiện trên kết quả thống kê mức độ trùng khớp các n- grams (dãy ký tự gồm n từ hoặc ký tự) từ kho dữ liệu của kết quả dịch và kho các bản dịch tham khảo có chất lượng cao [33]. Giải thuật của IBM đánh giá chất lượng của hệ thống dịch qua việc trùng khớp của các n-grams đồng thời nó cũng dựa trên cả việc so sánh độ dài của các bản dịch.
Cơng thức để tính điểm BLEU như sau [31]:
(1.5)
pn =
Trong đó, pn là điểm số “Precision” phản ánh tỷ lệ trùng khớp của các n-gram của các bản dịch so với bản tham chiếu.
wn là trọng số tương ứng với chiều dài của n-gram
Giá trị BLEU đánh giá mức độ tương ứng giữa hai bản dịch và nó được thực hiện trên từng phân đoạn, ở đây phân đoạn được hiểu là đơn vị tối thiểu trong các bản dịch, thông thường mỗi phân đoạn là một câu hoặc một đoạn. Việc thống kê độ trùng khớp của các n-grams dựa trên tập hợp các n-grams trên các phân đoạn, trước hết là nó được tính trên từng phân đoạn, sau đó tính lại giá trị này trên tất cả các phân đoạn.
BLEU có giá trị từ 0 đến 1, trong một số cơng thức đã được biến đổi, miền giá trị có thể từ 0 đến 100. Khi đánh giá kết quả dịch, giá trị BLEU càng cao thì bản dịch càng chính xác.
f. Chỉ số NIST
Phương pháp NIST [34] là sự phát triển trên phương pháp BLEU nhưng có một khác biệt về quan điểm đánh giá là việc chọn lựa n-grams và thông tin trên mỗi n-gram sẽ được sử dụng để phục vụ việc đánh giá.
Sự biến đổi có thể của điểm đánh giá trên một n-gram nếu chúng ta thay đổi vị trí các phần tử trên cùng một n- gram cho thấy rằng điểm số cũng sẽ thay đổi nếu thay đổi vị trí của các n-grams trên cùng một phân đoạn [18]. Sự thay đổi này sẽ ảnh hưởng lớn lên kết quả đánh giá dựa trên sự tương ứng về vị trí của các n-grams trên phân đoạn. Điều này cho thấy chúng ta có thể sử dụng cơng cụ số học để tính tốn sự biến đổi trên các n-grams bên cạnh sử dụng yếu tố hình học.
L N inf( w1...wn ) L w ...w 2 tra
score 1n .exp log min ,1 (1.6)
i1 log( pi ) w ...w D ref 1 n tra
Những trọng số thơng tin là được sử dụng để tính tốn trên các n-grams trong tập tất cả các các bản dịch tham khảo theo phương trình sau:
N1
inf(w1 ...wn ) log 2
N (1.7)
- N1 = số lượng các tương ứng của các từ w1…wn-1
- N2 = số lượng các tương ứng của các từ w1…wn
- là hệ số được chọn bằng 0,5 khi số lượng các từ trong bản dịch máy nhỏ hơn hoặc bằng 2/3 số lượng các từ trong bản dịch tham khảo, ngược lại thì =1
- N=5
- Ltra: số lượng các từ trong bản dịch máy
- Lref: số lượng từ trong bản dịch tham khảo.
Tương tự BLEU, chỉ số NIST có giá trị càng cao thì bản dịch càng chính xác.
1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt
Cải tiến chất lượng dịch tự động được hiểu là thực hiện các hành động phù hợp để hệ thống dịch cho kết quả đạt chất lượng tốt hơn khi so sánh với kết quả của hệ thống dịch trước đó hoặc các hệ thống đã tồn tại. Đã có nhiều nghiên cứu của các tác giả trong và ngoài nước trong lĩnh vực dịch tự động liên quan đến tiếng Việt, tập trung ở các khía cạnh:
o Đánh giá chất lượng các hệ thống dịch tự động hiện nay
o Xây dựng kho ngữ liệu phục vụ cho bài toán dịch tự động tiếng Việt, chủ yếu đối với cặp ngôn ngữ Anh- Việt, đồng thời đưa ra một số giải pháp để nâng cao chất lượng của các kho ngữ liệu
o Xây dựng hệ thống dịch Anh – Việt sử dụng phương pháp dịch thống kê và một số phương pháp khác.
Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch
- Nghiên cứu tại [36] tiến hành xây dựng hệ thống dịch Anh – Việt sử dụng mã nguồn Moses trên nền tảng dịch thống kê. Nhóm tác giả sử dụng bộ dữ liệu huấn luyện, kiểm thử của IWSLT 2015 và đánh giá kết quả bằng chỉ số BLEU, kết quả các lần đánh giá như sau:
Bảng 1.5. Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa trên MOSES
STT Cặp ngôn ngữ Bài đánh giá Điểm BLEU
2 En-Vn RUN02 20,93
3 En-Vn RUN03 23,15
4 Vn-En RUN01 17,19
5 Vn-En RUN02 17,56
6 Vn-En RUN03 19,72
Trong bảng trên, BLEU là một chỉ số dùng để đánh giá chất lượng hệ thống dịch bằng cách so sánh kết quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu. Chỉ số BLEU có giá trị từ 0, và giá trị càng cao thì hệ thống dịch càng đạt chất lượng tốt.
- Nghiên cứu tại [8] tiến hành xây dựng kho ngữ liệu gồm 880.000 cặp câu song ngữ Anh – Việt và hơn 11 triệu câu tiếng Việt, sau đó sử dụng mơ hình dịch thống kê và mã nguồn MOSES để xây dựng hệ thống dịch Anh – Việt. Kết quả hệ thống dịch được đánh giá và so sánh với kết quả dịch của Google và Microsoft.
Bảng 1.6. So sánh kết quả dịch sử dụng MOSES và hệ thống Google, Microsoft
Dịch Anh – Việt (BLEU) Dịch Việt – Anh (BLEU)
Google 8,80 9,68
Microsoft 7,26 11,04
MOSES 10,08 11,33
- Nghiên cứu tại [37] tiến hành xây dựng hệ thống dịch sử dụng mạng nơ ron và tập dữ liệu đánh giá của IWSLT 2015 đối với một số ngơn ngữ ít phổ biến (low- resource language), trong đó có cặp ngơn ngữ Anh – Việt. Kết quả điểm BLEU được thể hiện trong bảng dưới đây:
Bảng 1.7. Kết quả đánh giá trên tập dữ liệu TED tst2015 của IWSLT 2015
Hệ thống dịch BLEU
IWSLT’15 baseline 27,0
- Nghiên cứu tại [38] tiếp cận xây dựng hệ thống dịch thông qua ngôn ngữ trung gian để xây dựng hệ thống dịch giữa cặp ngôn ngữ Séc – Việt, sử dụng tiếng Anh làm ngôn ngữ trung gian. Sử dụng bộ dữ liệu đánh giá của WMT 2013, tác giả thu được kết quả đánh giá như sau:
Bảng 1.8. Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian
Cặp ngôn ngữ dịch Ký hiệu Điểm BLEU
Czech→English cs→en 23,23 English→Czech en→cs 15,26 Vietnamese→English vi→en 33,88 English→Vietnamese en→vi 34,45 Czech→Vietnamese cs→vi 10,59 Vietnamese→Czech vi→cs 7,62
Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt
Để giải quyết các bài tốn xử lý ngơn ngữ tiếng Việt, trong đó có dịch máy, nhiều nhóm nghiên cứu đã xây dựng được các kho ngữ liệu dành riêng cho tiếng Việt, đồng thời đưa ra các giải pháp để nâng cao chất lượng của các kho ngữ liệu.
-Trung tâm từ điển học (Vietlex, http://www.vietlex.com/) là nơi đi tiên phong trong việc xây dựng kho ngữ liệu cho tiếng Việt (Vietnamese Corpus). Từ khi bắt đầu xây dựng (1998) cho đến nay, Kho ngữ liệu tiếng Việt của Vietlex chứa khoảng
80.000.000 âm tiết (tương đương gần 4 triệu câu), được thu thập từ các tác phẩm văn học và báo chí, các tác phẩm khoa học, các văn bản pháp luật, các bài viết chuyên ngành... các văn bản chứa trong nó đã được tách từ. Chẳng hạn, khi muốn tìm kiếm từ "xã" xuất hiện trong Kho văn bản thì ta được kết quả là một tập hợp ngữ cảnh (context) của "xã" không thuộc trong các tập hợp (từ) như "xã hội", "xã viên", "xã tắc, "hợp tác xã". Ngược lại, khi muốn tìm kiếm từ "xã hội" thì ta được kết quả là một tập hợp ngữ cảnh của từ "xã hội" khơng bao gồm tổ hợp có "xã + hội" đứng ngẫu nhiên cạnh nhau, dạng như trong trong câu "Ngôi nhà này được dùng làm nơi cho xã hội họp.". Ở đây, xã đứng độc lập, có nghĩa là đơn vị hành chính cơ sở ở nơng thơn, nó khơng kết hợp với hội (hội kết hợp với họp để thành từ hội họp).
- Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP), Đề tài thuộc Chương trình Khoa học Cơng nghệ cấp Nhà nước KC01/06-10, nhánh đề tài "Xử lí văn bản tiếng Việt" tiến hành nghiên cứu và xây dựng kho ngữ liệu tiếng Việt và kho ngữ liệu song ngữ Anh
– Việt. Ngoài ra nhóm tác giả cũng thực hiện các giải pháp phân loại từ, phân cụm từ, phân tích câu đối với văn bản tiếng Việt.
o Từ điển tiếng Việt: Khoảng 35.000 từ, với các thơng tin hình thái, ngữ pháp, ngữ nghĩa dùng cho xử lý ngôn ngữ tự nhiên;
o Treebank tiếng Việt: 70.000 câu đã được tách từ (90.000 nếu tính cả hai tập dữ liệu bên dưới); 10.000 câu đã được gán nhãn từ loại (20.000 nếu tính cả tập dữ liệu bên dưới); 10.000 cây cú pháp;
o Kho ngữ liệu song ngữ Anh-Việt: 80.000 cặp câu Kinh tế - Xã hội; 20.000 cặp câu Tin học.
- Trung tâm Ngơn ngữ học Tính tốn – ĐH Khoa học Tự nhiên – TP.HCM thực hiện xây dựng 2 kho ngữ liệu tiếng Việt (tên là VTB và VCor). Các ngữ liệu này đã được chuẩn hóa về mã (utf-8), dạng XML trong đó có các thẻ để đánh dấu từng câu (SEG id), từng đoạn (PARA), từng tập tin (DOC docid), ngôn ngữ (Language) và lĩnh vực (Domain). Ngữ liệu VTB đã được chú thích thủ cơng với nhãn ranh giới từ tiếng Việt, nhãn từ loại và nhãn thực thể có tên. Cịn ngữ
liệu VCor chỉ được chú thích tự động nhãn ranh giới từ (do kích thước quá lớn). VTB có 201.594 câu,
5.501.225 lượt từ, độ dài trung bình mỗi câu là 27,3 từ và tổng số các từ/chuỗi (token) khác nhau là 118.455. Ngữ liệu VCor có 17.095.994 câu (42 lĩnh vực), gồm 346.454.533 từ và 443.301.776 chữ (tiếng/âm tiết), trung bình mỗi câu có khoảng 20 từ, mỗi từ có 1,28 âm tiết và mỗi âm tiết dài 3,27 con chữ. Ngồi ra, Trung tâm cịn xây dựng các kho ngữ liệu song ngữ cho các cặp câu Anh-Việt, Pháp-Việt, Hàn-Việt, Lào-Việt, Hoa-Việt.
- Nghiên cứu tại [39] đã triển khai xây dựng kho ngữ liệu được chú giải cho cặp ngôn ngữ Anh – Việt. Kết quả thu được kho ngữ liệu EVC với 5 triệu từ được thu thập từ nhiều nguồn tài nguyên, được chuẩn hóa và tổ chức gán nhãn, gióng hàng ở mức từ. Dữ liệu được kiểm tra và cải tiến chất lượng thông qua nhiều giải pháp.
-Nghiên cứu tại [13] thực hiện các bước xây dựng kho ngữ liệu thơ từ Internet, sau đó chuẩn hóa mơ hình chú giải tiếng Việt và áp dụng khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng việt và chú giải cho phân tích cú pháp tiếng Việt. Kết quả xây dựng công cụ Vncopus bằng ngôn ngữ Java và Python, thu thập kho ngữ liệu thơ tiếng Việt có kích thước khoảng 100 triệu từ. Đồng thời xây dựng mơ hình chú giải kho ngữ liệu tiếng Việt ở mức hình thái – cú pháp và mức phân tích cú pháp, xây dựng bộ quan hệ ngữ pháp bản tiếng Việt gồm 37 quan hệ ngữ pháp.
- Nghiên cứu tại [40] thực hiện quy trình khai thác câu song song từ các trang web để phục vụ cho hệ thống dịch máy Pháp – Việt theo phương pháp dịch thống kê. Kết quả đạt thu được 12.100 tài liệu song ngữ và 50.300 cặp câu song ngữ Pháp – Việt. Nhóm tác giả sử dụng Moses để xây dựng hệ thống dịch.
- Nghiên cứu tại [41] đã áp dụng bộ phân lớp Entropy cực đại kết hợp với bộ lọc độ dài câu và bộ lọc bao phủ từ để trích xuất các cặp câu thực sự song song và gần song song từ các nguồn tài nguyên trên internet, từ đó loại bỏ các cặp câu chất lượng kém ra khỏi kho ngữ liệu nhằm cải tiến chất lượng của dữ liệu. Nghiên cứu thu thập 6.716 tài liệu song ngữ Anh - Việt đã được gióng hàng mức câu, sau đó sử dụng bộ cơng cụ Giza++ để gióng hàng hai chiều ở mức từ. Quá trình này sẽ tạo ra 2 kết quả gióng hàng từ, phần giao của kết quả gióng hàng này sẽ có độ chính xác cao.
-Nghiên cứu tại [42] đã xây dựng một kho ngữ liệu song ngữ Việt–Anh trong lĩnh vực du lịch và cải thiện một cơng cụ gióng hàng ở mức câu đã có cho văn bản song ngữ Việt–Anh, đạt được độ chính xác trên 90% cho các tập dữ liệu của họ. Với sự trợ giúp của cơng cụ này, nhóm tác giả đã xây dựng được kho ngữ liệu song ngữ Việt–Anh miền du lịch có gióng hàng mức câu, cho phép huấn luyện mơ hình dịch máy Việt–Anh tăng được khoảng 8,79 điểm BLEU so với các mơ hình được huấn luyện trên miền tổng quát.
- Nghiên cứu tại [43] đã xây dựng dữ liệu phục vụ hệ thống dịch Anh – Việt bằng giải pháp kết hợp dữ liệu đơn ngữ ngồi miền ở ngơn ngữ nguồn (tiếng Anh) với bản dịch của nó ở ngơn ngữ đích (tiếng Việt) để làm dữ liệu huấn luyện hệ dịch. Các thực nghiệm của nhóm tác giả đã chứng minh rằng phương pháp này dễ thựchiện, khai thác được những ưu điểm của dữ liệu đơn ngữ như ln có sẵn, chi phí xây dựng thấp và đặc biệt là chất lượng của hệ dịch được và