2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn
Tổng quan
Các chiến dịch đánh giá chất lượng dịch tự động như CSTAR, NESPOLE, IWSLT [14] đã được tổ chức rất quy mô với nhiều phương pháp đánh giá chủ quan và khách quan khác nhau đã cho thấy rằng chất lượng dịch tự động đối với các cặp ngôn ngữ phổ biến cũng chỉ chấp nhận được với một số lĩnh vực nhất định và có chất lượng rất kém nếu như kho ngữkhông đảm bảo cả về chất lượng và khối lượng.
Mặc dù hiện nay tồn tại nhiều kho dữ liệu dùng trong lĩnh vực tự động, song các kho ngữ liệu này đều có những nhược điểm đáng kể. Nhiều nguồn tài nguyên dữ liệu được tạo ra như các kho ngữ liệu British National Corpus, EuroParl, BTEC, ANC, ICE; các bộ từ điển như German dictionary Deutsches Wörterbuch, Oxford English Dictionar, Gregg Cox … có sốlượng ngơn ngữ và khối lượng dữ liệu tương đối lớn. Tuy vậy, so với số lượng ngôn ngữ tự nhiên trên thế giới hiện nay (khoảng 6.500 ngơn ngữ nói) và khối lượng dữ liệu đủ để bao phủ hầu hết các lĩnh vực dịch thì các kho ngữ liệu trên so ra cịn q khiêm tốn để có thể cho phép xây dựng được một hệ thống dịch tự động chất lượng cao. Mặt khác, các kho ngữ liệu hiện nay có chất lượng còn khá thấp, dữ liệu đa sốở dạng thô và nhập nhằng, bởi lẽđa số các kho ngữ liệu tồn tại dưới dạng văn bản hoặc chỉ có một số ít thơng tin mơ tả đi kèm [40]. Một vấn đề khác là các kho ngữ liệu tồn tại một cách rời rạc, có cấu trúc và định dạng rất khác nhau, dẫn đến việc sử dụng và khai thác chúng hiện nay là rất khó
Bộ dữ liệu G iá t r ị đo c ác c hỉ s ố
khăn. Tình trạng này dẫn đến một thực tế là nhiều kho ngữ liệu đã xây dựng nhưng không thể phục vụ, chia sẽ cho việc nghiên cứu cũng như xử lý tiếng Việt.
Như phân tích ở Chương I, để có thể xây dựng được một hệ thống dịch tự động chất lượng và hoàn chỉnh, ngoài việc nghiên cứu cải tiến phương pháp dịch tự động, vấn đề quan trọng cần giải quyết đó là nghiên cứu giải pháp xây dựng được kho ngữ liệu lớn không chỉ về khối lượng dữ liệu, số cặp ngơn ngữ mà cịn tốt về chất lượng.
Nội dung nghiên cứu của chương này tập trung đánh giá thực trạng chất lượng các kho ngữ liệu hiện có, hiểu các giải pháp xây dựng kho ngữ liệu và đề xuất các giải pháp mở rộng kho ngữ liệu cả về khía cạnh khối lượng và khía cạnh chất lượng, nhằm hướng đến giải pháp cải tiến chất lượng dịch của các hệ thống dịch tựđộng nói chung và nhất là các hệ thống dịch tự động tiếng Việt hiện nay:
- Tổng hợp các nghiên cứu liên quan đến kho ngữ liệu, cấu trúc các kho ngữ liệu và kết quả xây dựng và cải tiến chất lượng các kho ngữ liệu song ngữ tiếng Việt.
- Đề xuất một số giải pháp cải tiến kho ngữ liệu ở khía cạnh mở rộng khối
lượng và cải tiến chất lượng của kho ngữ liệu.
- Thực nghiệm giải pháp cải tiến chất lượng thông qua xác định danh từ riêng, xác định ranh giới từ ghép, xây dựng ứng dụng thu thập kho ngữ liệu lớn phục vụ quá trình huấn luyện hệ thống dịch tự động.
Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu
2.3.2.1. Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu theo khía cạnh khối
lượng
Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng khối lượng, phần lớn các nghiên cứu tập trung đến các phương pháp và cơng trình liên quan đến hai vấn đề sau:
- Mở rộng kho ngữ liệu theo hướng ngơn ngữ: Các cơng trình [40][48] đã đưa ra giải pháp mở rộng kho ngữ liệu theo hướng ngôn ngữ bằng cách gọi các hệ thống dịch tự động để dịch dữ liệu hiện có của kho ngữ liệu sang các ngôn ngữ mới, sau đó đề xuất giải pháp cho các chuyên gia xem, chỉnh sửa để thu được dữ liệu có chất lượng trong ngơn ngữ mới tương đồng với dữ liệu gốc.
- Mở rộng kho ngữ liệu theo hướng xây dựng và bổ sung dữ liệu: Liên quan đến vấn đề xây dựng và bổ sung dữ liệu mới vào kho ngữ liệu, có thể kể đến các phương pháp xây dựng dữ liệu mới [48][49][50]. Các cơng trình này đề xuất việc xây dựng nội dung mới có chất lượng cho kho dữ liệu dịch tự động bằng cách trích lọc dữ liệu từ các kho dữ liệu hỗn tạp trong thực tế. Đề xuất tại [51], cơng trình này đưa ra đề xuất xây dựng nội dung mới cho kho ngữ liệu bằng cách thu thập, trích lọc các câu song song từcác website đa ngữ.
2.3.2.2. Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu về khía cạnh chất
lượng
Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng chất lượng, đã có các giải pháp và cơng cụ để cải tiến chất lượng dữ liệu bằng cách sinh mới và chỉnh sửa dữ liệu dịch. Trong đó, nổi bật nhất là hệ thống SECTra_w [48], hệ thống này cho phép người dùng nạp kho ngữ liệu vào và hiển thị kho ngữ liệu một cách trực quan, dạng song song rất thuận tiện cho việc kiểm tra và cải tiến chất lượng văn bản. Hệ thống này cũng là một môi trường cộng tác cho phép nhiều người tham gia cải tiến và chỉnh sửa kho ngữ liệu. Các các công cụ khác cũng đã được xây dựng như Mtpost-editor, phát triển bởi NIST, hoặc công cụSYSTRAN Review Manager được dùng ở cơng ty Systran. Ngồi ra, chúng ta cũng tìm thấy một số hệ thống được triển khai dưới mơ hình mạng như Google Translator Toolkit, BEYtrans, Yakushite.net, Translationwiki.net, Traduwiki, Caitra [52].
Bên cạnh đó, có các cơng trình nghiên cứu các giải pháp và xây dựng các kho ngữ liệu gán nhãn nhằm biểu diễn thêm ngữ nghĩa cho kho ngữ liệu như [39], nghiên cứu xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt, xây dựng các mơ hình chú giải cho kho ngữ liệu tiếng Việt [13].
Giải pháp nâng cao chất lượng kho ngữ liệu
Vấn đề nâng cao chất lượng của kho ngữ liệu đóng vai trị quan trọng nhằm hồn thiện các giải pháp trong vấn đề xử lý ngôn ngữ tự nhiên như dịch máy, phân loại văn bản… Trong nghiên cứu này, giải pháp mở rộng kho ngữ liệu được tập trung chủ yếu vào hai hướng nghiên cứu chính gồm mở rộng kho ngữ liệu theo hướng khối lượng và theo hướng chất lượng.
Như đã đề cập ở phần trên, nếu có được kho ngữ liệu đa ngữ đủ lớn về khối lượng, tốt về chất lượng thì chắc chắn chúng ta sẽ cải tiến được chất lượng dịch của các hệ thống dịch tự động hiện nay. Do đó, vấn đề nghiên cứu và đề xuất các giải pháp mở rộng kho ngữ liệu là hết sức cần thiết để cải tiến chất lượng dịch tự động.
Giải pháp nâng cao kho ngữ liệu được đề xuất trong nghiên cứu này bao gồm: - Mở rộng hay làm tăng thêm khối lượng kho ngữ liệu;
- Cải tiến chất lượng dữ liệu của các kho ngữ liệu.
2.3.3.1. Mở rộng khối lượng kho ngữ liệu
Để có thể mở rộng khối lượng kho ngữ liệu thông qua các giải pháp khác nhau, nghiên cứu sinh đã tiến hành nghiên cứu và phân tích các kho ngữ liệu phổ biến đại diện cho các loại kho ngữ liệu phổ biến hiện nay gồm: JRC-ACQUIS, EUROPARL, ERIM và EOLSS/UNL. Từ việc phân tích bốn kho ngữ liệu trên, chúng ta có được bảng tóm tắt đặc trưng của các kho ngữ liệu trên sau đây.
Bảng 2.7. Bảng tóm tắt đặc trưng các kho ngữ liệu phổ biến
Kho ngữ liệu Tổ chức vật lý Định dạng dữ liệu Mức liên kết JRC-ACQUIS Gồm nhiều thư mục,
mỗi thư mục chứa các tệp liên kết với nhau
XML theo chuẩn TEI
Tệp hoặc đoạn hoặc câu hoặc từ EUROPARL TXT ERIM TXT, XML và WAV EOLSS/UNL HTML và UNL
Ở dạng trực quan, mối quan hệ giữa các dạng dữ liệu của các kho ngữ liệu có thể tóm tắt theo hình vẽ như sau: