6 .Đóng góp chính của luận án
1.5. Kết luận Chương 1
pn =
Trong đó, pn là điểm số “Precision” phản ánh tỷ lệ trùng khớp của các n-
gram của các bản dịch so với bản tham chiếu.
wn là trọng số tương ứng với chiều dài của n-gram
BP (brevity penalty) là trọng số xác định bởi chiều dài của bản dịch và chiều dài của bản tham chiếu.
Giá trị BLEU đánh giá mức độ tương ứng giữa hai bản dịch và nó được thực hiện trên từng phân đoạn, ở đây phân đoạn được hiểu là đơn vị tối thiểu trong các bản dịch, thông thường mỗi phân đoạn là một câu hoặc một đoạn. Việc thống kê độ trùng khớp của các n-grams dựa trên tập hợp các n-grams trên các phân đoạn, trước hết là nó được tính trên từng phân đoạn, sau đó tính lại giá trị này trên tất cả các phân đoạn.
BLEU có giá trị từ 0 đến 1, trong một số công thức đã được biến đổi, miền giá trị có thể từ 0 đến 100. Khi đánh giá kết quả dịch, giá trị BLEU càng cao thì bản dịch càng chính xác.
f. Chỉ số NIST
Phương pháp NIST [34] là sự phát triển trên phương pháp BLEU nhưng có một khác biệt về quan điểm đánh giá là việc chọn lựa n-grams và thông tin trên mỗi n-gram sẽ được sử dụng để phục vụ việc đánh giá.
Sự biến đổi có thể của điểm đánh giá trên một n-gram nếu chúng ta thay đổi vị trí các phần tử trên cùng một n-gram cho thấy rằng điểm số cũng sẽ thay đổi nếu thay đổi vị trí của các n-grams trên cùng một phân đoạn [18]. Sự thay đổi này sẽ ảnh hưởng lớn lên kết quả đánh giá dựa trên sự tương ứng về vị trí của các n-grams trên phân đoạn. Điều này cho thấy chúng ta có thể sử dụng cơng cụ số học để tính tốn sự biến đổi trên các n-grams bên cạnh sử dụng yếu tố hình học.
Cơng thức để tính điểm của NIST như sau [35]:
N
scorew1...w
n
i 1
Những trọng số thông tin là được sử dụng để tính tốn trên các n-grams trong tập tất cả các các bản dịch tham khảo theo phương trình sau:
- N1 = số lượng các tương ứng của các từ w1…wn-1
- là hệ số được chọn bằng 0,5 khi số lượng các từ trong bản dịch máy nhỏ hơn hoặc bằng 2/3 số lượng các từ trong bản dịch tham khảo, ngược lại thì =1
- N=5
- Ltra: số lượng các từ trong bản dịch máy
- Lref: số lượng từ trong bản dịch tham khảo.
Tương tự BLEU, chỉ số NIST có giá trị càng cao thì bản dịch càng chính xác.
1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt
Cải tiến chất lượng dịch tự động được hiểu là thực hiện các hành động phù hợp để hệ thống dịch cho kết quả đạt chất lượng tốt hơn khi so sánh với kết quả của hệ thống dịch trước đó hoặc các hệ thống đã tồn tại. Đã có nhiều nghiên cứu của các tác giả trong và ngoài nước trong lĩnh vực dịch tự động liên quan đến tiếng Việt, tập trung ở các khía cạnh:
o Đánh giá chất lượng các hệ thống dịch tự động hiện nay
o Xây dựng kho ngữ liệu phục vụ cho bài toán dịch tự động tiếng Việt, chủ
yếu đối với cặp ngôn ngữ Anh-Việt, đồng thời đưa ra một số giải pháp để nâng cao chất lượng của các kho ngữ liệu
o Xây dựng hệ thống dịch Anh – Việt sử dụng phương pháp dịch thống kê và một số phương pháp khác.
Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch
- Nghiên cứu tại [36] tiến hành xây dựng hệ thống dịch Anh – Việt sử dụng mã nguồn Moses trên nền tảng dịch thống kê. Nhóm tác giả sử dụng bộ dữ liệu huấn luyện, kiểm thử của IWSLT 2015 và đánh giá kết quả bằng chỉ số BLEU, kết quả các lần đánh giá như sau:
44
Trong bảng trên, BLEU là một chỉ số dùng để đánh giá chất lượng hệ thống dịch bằng cách so sánh kết quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu. Chỉ số BLEU có giá trị từ 0, và giá trị càng cao thì hệ thống dịch càng đạt chất lượng tốt.
- Nghiên cứu tại [8] tiến hành xây dựng kho ngữ liệu gồm 880.000 cặp câu song ngữ Anh – Việt và hơn 11 triệu câu tiếng Việt, sau đó sử dụng mơ hình dịch thống kê và mã nguồn MOSES để xây dựng hệ thống dịch Anh – Việt. Kết quả hệ thống dịch được đánh giá và so sánh với kết quả dịch của Google và Microsoft.
Bảng 1.6. So sánh kết quả dịch sử dụng MOSES và hệ thống Google, Microsoft
Google Microsoft MOSES
- Nghiên cứu tại [37] tiến hành xây dựng hệ thống dịch sử dụng mạng nơ ron và tập dữ liệu đánh giá của IWSLT 2015 đối với một số ngơn ngữ ít phổ biến (low- resource language), trong đó có cặp ngơn ngữ Anh – Việt. Kết quả điểm BLEU được thể hiện trong bảng dưới đây:
Bảng 1.7. Kết quả đánh giá trên tập dữ liệu TED tst2015 của IWSLT 2015
Hệ thống dịch IWSLT’15 baseline
- Nghiên cứu tại [38] tiếp cận xây dựng hệ thống dịch thông qua ngôn ngữ trung gian để xây dựng hệ thống dịch giữa cặp ngôn ngữ Séc – Việt, sử dụng tiếng Anh làm ngôn ngữ trung gian. Sử dụng bộ dữ liệu đánh giá của WMT 2013, tác giả thu được kết quả đánh giá như sau:
Bảng 1.8. Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian
Cặp ngôn ngữ dịch Czech→English English→Czech Vietnamese→English English→Vietnamese Czech→Vietnamese Vietnamese→Czech
Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt
Để giải quyết các bài tốn xử lý ngơn ngữ tiếng Việt, trong đó có dịch máy, nhiều nhóm nghiên cứu đã xây dựng được các kho ngữ liệu dành riêng cho tiếng Việt, đồng thời đưa ra các giải pháp để nâng cao chất lượng của các kho ngữ liệu.
- Trung tâm từ điển học (Vietlex, http://www.vietlex.com/) là nơi đi tiên phong trong việc xây dựng kho ngữ liệu cho tiếng Việt (Vietnamese Corpus). Từ khi bắt đầu xây dựng (1998) cho đến nay, Kho ngữ liệu tiếng Việt của Vietlex chứa khoảng 80.000.000 âm tiết (tương đương gần 4 triệu câu), được thu thập từ các tác phẩm văn học và báo chí, các tác phẩm khoa học, các văn bản pháp luật, các bài viết chuyên ngành... các văn bản chứa trong nó đã được tách từ. Chẳng hạn, khi muốn tìm kiếm từ "xã" xuất hiện trong Kho văn bản thì ta được kết quả là một tập hợp ngữ cảnh (context) của "xã" không thuộc trong các tập hợp (từ) như "xã hội", "xã viên", "xã tắc, "hợp tác xã". Ngược lại, khi muốn tìm kiếm từ "xã hội" thì ta được kết quả là một tập hợp ngữ cảnh của từ "xã hội" không bao gồm tổ hợp có "xã + hội" đứng ngẫu nhiên cạnh nhau, dạng như trong trong câu "Ngôi nhà này được dùng làm nơi cho xã hội họp.". Ở đây, xã đứng độc lập, có nghĩa là đơn vị hành chính cơ sở ở nơng thơn, nó khơng kết hợp với hội (hội kết hợp với họp để thành từ hội họp).
46
- Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP), Đề tài thuộc Chương trình Khoa học Cơng nghệ cấp Nhà nước KC01/06-10, nhánh đề tài "Xử lí văn bản tiếng Việt" tiến hành nghiên cứu và xây dựng kho ngữ liệu tiếng Việt và kho ngữ liệu song ngữ Anh – Việt. Ngồi ra nhóm tác giả cũng thực hiện các giải pháp phân loại từ, phân cụm từ, phân tích câu đối với văn bản tiếng Việt.
o Từ điển tiếng Việt: Khoảng 35.000 từ, với các thơng tin hình thái, ngữ
pháp, ngữ nghĩa dùng cho xử lý ngôn ngữ tự nhiên;
o Treebank tiếng Việt: 70.000 câu đã được tách từ (90.000 nếu tính cả hai tập dữ liệu bên dưới); 10.000 câu đã được gán nhãn từ loại (20.000 nếu tính cả tập dữ liệu bên dưới); 10.000 cây cú pháp;
o Kho ngữ liệu song ngữ Anh-Việt: 80.000 cặp câu Kinh tế - Xã hội; 20.000 cặp câu Tin học.
- Trung tâm Ngơn ngữ học Tính tốn – ĐH Khoa học Tự nhiên – TP.HCM thực hiện xây dựng 2 kho ngữ liệu tiếng Việt (tên là VTB và VCor). Các ngữ liệu này
đã được chuẩn hóa về mã (utf-8), dạng XML trong đó có các thẻ để đánh dấu từng câu (SEG id), từng đoạn (PARA), từng tập tin (DOC docid), ngôn ngữ (Language) và lĩnh vực (Domain). Ngữ liệu VTB đã được chú thích thủ cơng với nhãn ranh giới từ tiếng Việt, nhãn từ loại và nhãn thực thể có tên. Cịn ngữ liệu VCor chỉ được chú thích tự động nhãn ranh giới từ (do kích thước q lớn). VTB có 201.594 câu, 5.501.225 lượt từ, độ dài trung bình mỗi câu là 27,3 từ và tổng số các từ/chuỗi (token) khác nhau là 118.455. Ngữ liệu VCor có 17.095.994 câu (42 lĩnh vực), gồm 346.454.533 từ và 443.301.776 chữ (tiếng/âm tiết), trung bình mỗi câu có khoảng 20 từ, mỗi từ có 1,28 âm tiết và mỗi âm tiết dài 3,27 con chữ. Ngoài ra, Trung tâm còn xây dựng các kho ngữ liệu song ngữ cho các cặp câu Anh-Việt, Pháp-Việt, Hàn- Việt, Lào-Việt, Hoa-Việt.
- Nghiên cứu tại [39] đã triển khai xây dựng kho ngữ liệu được chú giải cho cặp ngôn ngữ Anh – Việt. Kết quả thu được kho ngữ liệu EVC với 5 triệu từ được thu thập từ nhiều nguồn tài nguyên, được chuẩn hóa và tổ chức gán nhãn, gióng hàng
ở mức từ. Dữ liệu được kiểm tra và cải tiến chất lượng thông qua nhiều giải pháp.
- Nghiên cứu tại [13] thực hiện các bước xây dựng kho ngữ liệu thô từ Internet, sau đó chuẩn hóa mơ hình chú giải tiếng Việt và áp dụng khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng việt và chú giải cho phân tích cú pháp tiếng Việt. Kết quả xây dựng cơng cụ Vncopus bằng ngôn ngữ Java và Python, thu thập kho ngữ liệu thơ tiếng Việt có kích thước khoảng 100 triệu từ. Đồng thời xây dựng mơ hình chú giải kho ngữ liệu tiếng Việt ở mức hình thái – cú pháp và mức phân tích cú pháp, xây dựng bộ quan hệ ngữ pháp bản tiếng Việt gồm 37 quan hệ ngữ pháp.
- Nghiên cứu tại [40] thực hiện quy trình khai thác câu song song từ các trang web để phục vụ cho hệ thống dịch máy Pháp – Việt theo phương pháp dịch thống kê. Kết quả đạt thu được 12.100 tài liệu song ngữ và 50.300 cặp câu song ngữ Pháp – Việt. Nhóm tác giả sử dụng Moses để xây dựng hệ thống dịch.
- Nghiên cứu tại [41] đã áp dụng bộ phân lớp Entropy cực đại kết hợp với bộ lọc độ dài câu và bộ lọc bao phủ từ để trích xuất các cặp câu thực sự song song và gần song song từ các nguồn tài nguyên trên internet, từ đó loại bỏ các cặp câu chất lượng kém ra khỏi kho ngữ liệu nhằm cải tiến chất lượng của dữ liệu. Nghiên cứu thu thập 6.716 tài liệu song ngữ Anh - Việt đã được gióng hàng mức câu, sau đó sử dụng bộ cơng cụ Giza++ để gióng hàng hai chiều ở mức từ. Quá trình này sẽ tạo ra 2 kết quả gióng hàng từ, phần giao của kết quả gióng hàng này sẽ có độ chính xác cao.
- Nghiên cứu tại [42] đã xây dựng một kho ngữ liệu song ngữ Việt–Anh trong lĩnh vực du lịch và cải thiện một cơng cụ gióng hàng ở mức câu đã có cho văn bản song ngữ Việt–Anh, đạt được độ chính xác trên 90% cho các tập dữ liệu của họ. Với sự trợ giúp của cơng cụ này, nhóm tác giả đã xây dựng được kho ngữ liệu song ngữ
Việt–Anh miền du lịch có gióng hàng mức câu, cho phép huấn luyện mơ hình dịch máy Việt–Anh tăng được khoảng 8,79 điểm BLEU so với các mơ hình được huấn luyện trên miền tổng quát.
- Nghiên cứu tại [43] đã xây dựng dữ liệu phục vụ hệ thống dịch Anh – Việt bằng giải pháp kết hợp dữ liệu đơn ngữ ngồi miền ở ngơn ngữ nguồn (tiếng Anh) với bản dịch của nó ở ngơn ngữ đích (tiếng Việt) để làm dữ liệu huấn luyện hệ dịch. Các thực nghiệm của nhóm tác giả đã chứng minh rằng phương pháp này dễ thực
48
hiện, khai thác được những ưu điểm của dữ liệu đơn ngữ như ln có sẵn, chi phí xây dựng thấp và đặc biệt là chất lượng của hệ dịch được và tăng 2,21 điểm BLEU.
Vấn đề nâng cao chất lượng các hệ thống dịch tự động là một bài tốn ln được các nhà nghiên cứu tập trung giải quyết. Trong hơn 20 năm phát triển gần đây của lĩnh vực dịch máy, tuy đã có những bước phát triển đáng kể nhưng đến nay kết quả của các hệ thống dịch máy vẫn còn là một khoảng cách xa so với các bản dịch do con người thực hiện. Đối với các ngôn ngữ phổ biến như tiếng Anh, tiếng Pháp, các hệ thống cho ra bản dịch có thể chấp nhận được trong một số lĩnh vực thơng dụng, có thể sử dụng để tham khảo nghĩa của ngơn ngữ đích mà khơng cần đến người phiên dịch. Tuy nhiên, đối với các ngơn ngữ ít phổ biến như tiếng Việt, chất lượng các câu dịch của hệ thống rất thấp, khó có thể áp dụng trong thực tế. Đặc biệt ở các lĩnh vực chuyên ngành như y tế, kỹ thuật, văn bản quy phạm pháp luật… các hệ thống dịch không dịch đúng các khái niệm chuyên môn nên nhiều văn bản dịch trở nên khó hiểu, khơng có giá trị.
1.4. Thực trạng chất lượng dịch tự động tiếng Việt
Có rất nhiều nghiên cứu của các tác giả trong và ngoài nước trong lĩnh vực dịch tự động liên quan đến tiếng Việt. Các nhà khoa học đã đề xuất các giải pháp nhằm nâng cao chất lượng của dịch máy tiếng Việt, trong đó bao gồm các giải pháp cải tiến mơ hình dịch cũng như xây dựng và cải tiến kho ngữ liệu phục vụ hệ thống dịch. Bên cạnh đó cịn có nhiều thực nghiệm xây dựng hệ thống dịch tự động tiếng Anh sang tiếng Việt bằng các mơ hình dịch khác nhau.
Đối với tiếng Việt, việc phát triển một hệ thống dịch tự động từ tiếng nước ngoài ra tiếng Việt được bắt đầu nghiên cứu vào những năm 60 thế kỷ 20 [44]. Các sản phẩm dịch máy hiện tại cho chất lượng dịch còn nhiều hạn chế do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng về ngữ nghĩa trong ngơn ngữ tiếng Việt. Đã có nhiều cơng trình nghiên cứu vấn đề dịch tiếng Việt, trong đó có một số kết quả đưa ra làm sản phẩm thương mại.
- EVTran: được nghiên cứu và phát triển từ năm 1989 [45]. EVTran là một hệ
văn bản giữa tiếng Anh và tiếng Việt. EVTran đã được thương mại hóa và cấp phép cho một số công ty như Tinh Vân, Dotcom Solution, New Century, có phiên bản cài đặt trên máy tính hoặc dịch trực tiếp trên website, đã được tích hợp vào từ điển Vdict tại địa chỉ: http://vdict.com/#translation. EVTran có thể dịch từ tiếng Anh sang tiếng Việt hoặc dịch ngược lại với khả năng đáp ứng nhanh và có hỗ trợ các từ điển chuyên ngành. Chất lượng dịch thuật của EVTran tuy được cải thiện nhưng vẫn chưa hoàn hảo, và trong nhiều trường hợp vẫn chưa đáp ứng được nhu cầu người dùng.
- Cồ Việt: Công ty Cổ phần Tin học Lạc Việt ngoài cung cấp dịch vụ từ điển
nổi tiếng Lạc Việt đã phát triển thêm dịch vụ dịch tự động tại địa chỉ:
http://tratu.coviet.vn/hoc-tieng-anh/dich-van-ban.html. Hệ thống chỉ mới cung cấp
dịch vụ dịch từ tiếng Anh sang tiếng Việt, trong đó có hỗ trợ dịch trong một số lĩnh vực chuyên ngành như tin học, kế toán, toán học, y học, kỹ thuật.
Hình 1.6. Giao diện của phần mềm dịch EV-Shuttle và Cồ Việt
- Google Translate: là một công cụ dịch thuật trực tuyến được Google cung cấp.
Google Translate có thể dịch tự động một đoạn văn bản ngắn, hoặc dịch một trang web