BLEU NIST ED WER
Test 1 24,2 1,563 6,739 0,886 Test 2 54,2 2,876 5,684 0,561 Test 3 29,2 1,972 7,000 0,814 Test 4 27,3 2,450 9,286 0,757 Test 5 38,0 2,546 8,067 0,634
Tpe Ope BLEU NIST ED WER
Test 1 0,649 1,385 55,3 2,304 3,913 0,403 Test 2 0,211 0,717 78,9 3,281 1,632 0,142
Từ kết quả này, chúng ta có thể thấy được sự tương đồng giữa chỉ số Tpe, Ope với các chỉ số Edit Distance và Word Error Rate thơng qua đồ thị ở
Hình 2.7. Khi chỉ số Tpe, Ope tăng thì tương tứng chỉ số ED và WER cũng tăng và ngược lại.
Bộ dữ liệu
Hình 2.7. Sự tương đồng giữa Tpe, Ope và ED, WER
Khi so sánh kết quả bản dịch với câu tham chiếu thu được từ quá trình hiệu chỉnh, các chỉ số BLEU và NIST đã tốt hơn (Hình 2.8) và việc đánh giá khơng phụ thuộc vào các bản dịch có sẵn, thể hiện được tính khách quan khi đánh giá kết quả của hệ thống dịch.
Tpe Ope BLEU NIST ED WER
Test 3 0,199 0,945 84,9 3,006 1,071 0,102 Test 4 0,506 1,250 63,1 3,170 3,500 0,301 Test 5 0,550 1,265 67,7 3,130 4,133 0,257
Bộ dữ liệu
Hình 2.8. Chỉ số BLEU, NIST trước và sau khi hiệu chỉnh
2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn
Tổng quan
Các chiến dịch đánh giá chất lượng dịch tự động như CSTAR, NESPOLE, IWSLT [14] đã được tổ chức rất quy mô với nhiều phương pháp đánh giá chủ quan và khách quan khác nhau đã cho thấy rằng chất lượng dịch tự động đối với các cặp ngôn ngữ phổ biến cũng chỉ chấp nhận được với một số lĩnh vực nhất định và có chất lượng rất kém nếu như kho ngữ không đảm bảo cả về chất lượng và khối lượng.
Mặc dù hiện nay tồn tại nhiều kho dữ liệu dùng trong lĩnh vực tự động, song các kho ngữ liệu này đều có những nhược điểm đáng kể. Nhiều nguồn tài nguyên dữ liệu được tạo ra như các kho ngữ liệu British National Corpus, EuroParl, BTEC, ANC, ICE; các bộ từ điển như German dictionary Deutsches Wưrterbuch, Oxford English Dictionar, Gregg Cox … có số lượng ngơn ngữ và khối lượng dữ liệu tương đối lớn. Tuy vậy, so với số lượng ngôn ngữ tự nhiên trên thế giới hiện nay (khoảng 6.500 ngơn ngữ nói) và khối lượng dữ liệu đủ để bao phủ hầu hết các lĩnh vực dịch thì các kho ngữ liệu trên so ra cịn q khiêm tốn để có thể cho phép xây dựng được một hệ thống dịch tự động chất lượng cao. Mặt khác, các kho ngữ liệu hiện nay có chất lượng cịn khá thấp, dữ liệu đa số ở dạng thơ và nhập nhằng, bởi lẽ đa số các kho ngữ liệu tồn tại dưới dạng văn bản hoặc chỉ có một số ít thơng tin mơ tả đi kèm [40].
Một vấn đề khác là các kho ngữ liệu tồn tại một cách rời rạc, có cấu trúc và định dạng rất khác nhau, dẫn đến việc sử dụng và khai thác chúng hiện nay là rất khó
khăn. Tình trạng này dẫn đến một thực tế là nhiều kho ngữ liệu đã xây dựng nhưng không thể phục vụ, chia sẽ cho việc nghiên cứu cũng như xử lý tiếng Việt.
Như phân tích ở Chương I, để có thể xây dựng được một hệ thống dịch tự động chất lượng và hoàn chỉnh, ngoài việc nghiên cứu cải tiến phương pháp dịch tự động, vấn đề quan trọng cần giải quyết đó là nghiên cứu giải pháp xây dựng được kho ngữ liệu lớn không chỉ về khối lượng dữ liệu, số cặp ngơn ngữ mà cịn tốt về chất lượng. Nội dung nghiên cứu của chương này tập trung đánh giá thực trạng chất lượng các kho ngữ liệu hiện có, hiểu các giải pháp xây dựng kho ngữ liệu và đề xuất các giải pháp mở rộng kho ngữ liệu cả về khía cạnh khối lượng và khía cạnh chất lượng, nhằm hướng đến giải pháp cải tiến chất lượng dịch của các hệ thống dịch tự động nói chung và nhất là các hệ thống dịch tự động tiếng Việt hiện nay:
- Tổng hợp các nghiên cứu liên quan đến kho ngữ liệu, cấu trúc các kho ngữ liệu và kết quả xây dựng và cải tiến chất lượng các kho ngữ liệu song ngữ tiếng Việt.
- Đề xuất một số giải pháp cải tiến kho ngữ liệu ở khía cạnh mở rộng khối lượng và cải tiến chất lượng của kho ngữ liệu.
- Thực nghiệm giải pháp cải tiến chất lượng thông qua xác định danh từ riêng, xác định ranh giới từ ghép, xây dựng ứng dụng thu thập kho ngữ liệu lớn phục vụ quá trình huấn luyện hệ thống dịch tự động.
Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu
2.3.2.1. Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu theo khía cạnh khối lượng
Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng khối lượng, phần lớn các nghiên cứu tập trung đến các phương pháp và cơng trình liên quan đến hai vấn đề sau:
- Mở rộng kho ngữ liệu theo hướng ngơn ngữ: Các cơng trình [40][48] đã đưa ra giải pháp mở rộng kho ngữ liệu theo hướng ngôn ngữ bằng cách gọi các hệ thống dịch tự động để dịch dữ liệu hiện có của kho ngữ liệu sang các ngơn ngữ mới, sau đó đề xuất giải pháp cho các chuyên gia xem, chỉnh sửa để thu được dữ liệu có chất lượng trong ngôn ngữ mới tương đồng với dữ liệu gốc.
- Mở rộng kho ngữ liệu theo hướng xây dựng và bổ sung dữ liệu: Liên quan đến vấn đề xây dựng và bổ sung dữ liệu mới vào kho ngữ liệu, có thể kể đến các phương pháp xây dựng dữ liệu mới [48][49][50]. Các cơng trình này đề xuất việc xây dựng nội dung mới có chất lượng cho kho dữ liệu dịch tự động bằng cách trích lọc dữ liệu từ các kho dữ liệu hỗn tạp trong thực tế. Đề xuất tại [51], cơng trình này đưa ra đề xuất xây dựng nội dung mới cho kho ngữ liệu bằng cách thu thập, trích lọc các câu song song từ các website đa ngữ.
2.3.2.2. Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu về khía cạnh chất lượng
Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng chất lượng, đã có các giải pháp và cơng cụ để cải tiến chất lượng dữ liệu bằng cách sinh mới và chỉnh sửa dữ liệu dịch. Trong đó, nổi bật nhất là hệ thống SECTra_w [48], hệ thống này cho phép người dùng nạp kho ngữ liệu vào và hiển thị kho ngữ liệu một cách trực quan, dạng song song rất thuận tiện cho việc kiểm tra và cải tiến chất lượng văn bản. Hệ thống này cũng là một môi trường cộng tác cho phép nhiều người tham gia cải tiến và chỉnh sửa kho ngữ liệu. Các các công cụ khác cũng đã được xây dựng như Mtpost-editor, phát triển bởi NIST, hoặc công cụ SYSTRAN Review Manager được dùng ở công ty Systran. Ngồi ra, chúng ta cũng tìm thấy một số hệ thống được triển khai dưới mơ hình mạng như Google Translator Toolkit, BEYtrans, Yakushite.net, Translationwiki.net, Traduwiki, Caitra [52].
Bên cạnh đó, có các cơng trình nghiên cứu các giải pháp và xây dựng các kho ngữ liệu gán nhãn nhằm biểu diễn thêm ngữ nghĩa cho kho ngữ liệu như [39], nghiên cứu xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt, xây dựng các mơ hình chú giải cho kho ngữ liệu tiếng Việt [13].
Giải pháp nâng cao chất lượng kho ngữ liệu
Vấn đề nâng cao chất lượng của kho ngữ liệu đóng vai trị quan trọng nhằm hồn thiện các giải pháp trong vấn đề xử lý ngôn ngữ tự nhiên như dịch máy, phân loại văn bản… Trong nghiên cứu này, giải pháp mở rộng kho ngữ liệu được tập trung chủ yếu vào hai hướng nghiên cứu chính gồm mở rộng kho ngữ liệu theo hướng khối lượng và theo hướng chất lượng.
Như đã đề cập ở phần trên, nếu có được kho ngữ liệu đa ngữ đủ lớn về khối lượng, tốt về chất lượng thì chắc chắn chúng ta sẽ cải tiến được chất lượng dịch của các hệ thống dịch tự động hiện nay. Do đó, vấn đề nghiên cứu và đề xuất các giải pháp mở rộng kho ngữ liệu là hết sức cần thiết để cải tiến chất lượng dịch tự động.
Giải pháp nâng cao kho ngữ liệu được đề xuất trong nghiên cứu này bao gồm: - Mở rộng hay làm tăng thêm khối lượng kho ngữ liệu;
- Cải tiến chất lượng dữ liệu của các kho ngữ liệu.
2.3.3.1. Mở rộng khối lượng kho ngữ liệu
Để có thể mở rộng khối lượng kho ngữ liệu thông qua các giải pháp khác nhau, nghiên cứu sinh đã tiến hành nghiên cứu và phân tích các kho ngữ liệu phổ biến đại diện cho các loại kho ngữ liệu phổ biến hiện nay gồm: JRC-ACQUIS, EUROPARL, ERIM và EOLSS/UNL. Từ việc phân tích bốn kho ngữ liệu trên, chúng ta có được bảng tóm tắt đặc trưng của các kho ngữ liệu trên sau đây.