Cặp ngôn ngữ dịch Ký hiệu Điểm BLEU
Czech→English cs→en 23,23 English→Czech en→cs 15,26 Vietnamese→English vi→en 33,88 English→Vietnamese en→vi 34,45 Czech→Vietnamese cs→vi 10,59 Vietnamese→Czech vi→cs 7,62
Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt
Để giải quyết các bài toán xử lý ngơn ngữ tiếng Việt, trong đó có dịch máy, nhiều nhóm nghiên cứu đã xây dựng được các kho ngữ liệu dành riêng cho tiếng Việt, đồng thời đưa ra các giải pháp để nâng cao chất lượng của các kho ngữ liệu.
-Trung tâm từ điển học (Vietlex, http://www.vietlex.com/) là nơi đi tiên phong
trong việc xây dựng kho ngữ liệu cho tiếng Việt (Vietnamese Corpus). Từ khi bắt đầu xây dựng (1998) cho đến nay, Kho ngữ liệu tiếng Việt của Vietlex chứa khoảng
80.000.000 âm tiết (tương đương gần 4 triệu câu), được thu thập từ các tác phẩm văn học và báo chí, các tác phẩm khoa học, các văn bản pháp luật, các bài viết chuyên ngành... các văn bản chứa trong nó đã được tách từ. Chẳng hạn, khi muốn tìm kiếm từ "xã" xuất hiện trong Kho văn bản thì ta được kết quả là một tập hợp ngữ cảnh (context) của "xã" không thuộc trong các tập hợp (từ) như "xã hội", "xã viên", "xã tắc, "hợp tác xã". Ngược lại, khi muốn tìm kiếm từ "xã hội" thì ta được kết quả là một tập hợp ngữ cảnh của từ "xã hội" khơng bao gồm tổ hợp có "xã + hội" đứng ngẫu nhiên cạnh nhau, dạng như trong trong câu "Ngôi nhà này được dùng làm nơi cho xã hội họp.". Ở đây, xã đứng độc lập, có nghĩa là đơn vị hành chính cơ sở ở nơng thơn, nó khơng kết hợp với hội (hội kết hợp với họp để thành từ hội họp).
- Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP), Đề tài thuộc Chương trình Khoa học Công nghệ cấp Nhà nước KC01/06-10, nhánh đề tài "Xử lí văn bản tiếng Việt" tiến hành nghiên cứu và xây dựng kho ngữ liệu tiếng Việt và kho ngữ liệu song ngữ Anh
– Việt. Ngồi ra nhóm tác giả cũng thực hiện các giải pháp phân loại từ, phân cụm từ, phân tích câu đối với văn bản tiếng Việt.
o Từ điển tiếng Việt: Khoảng 35.000 từ, với các thơng tin hình thái, ngữ pháp, ngữ nghĩa dùng cho xử lý ngơn ngữ tự nhiên;
o Treebank tiếng Việt: 70.000 câu đã được tách từ (90.000 nếu tính cả hai tập dữ liệu bên dưới); 10.000 câu đã được gán nhãn từ loại (20.000 nếu tính cả tập dữ liệu bên dưới); 10.000 cây cú pháp;
o Kho ngữ liệu song ngữ Anh-Việt: 80.000 cặp câu Kinh tế - Xã hội; 20.000 cặp câu Tin học.
- Trung tâm Ngơn ngữ học Tính tốn – ĐH Khoa học Tự nhiên – TP.HCM thực hiện xây dựng 2 kho ngữ liệu tiếng Việt (tên là VTB và VCor). Các ngữ liệu này đã được chuẩn hóa về mã (utf-8), dạng XML trong đó có các thẻ để đánh dấu từng câu (SEG id), từng đoạn (PARA), từng tập tin (DOC docid), ngôn ngữ (Language) và lĩnh vực (Domain). Ngữ liệu VTB đã được chú thích thủ cơng với nhãn ranh giới từ tiếng Việt, nhãn từ loại và nhãn thực thể có tên. Cịn ngữ liệu VCor chỉ được chú thích tự động nhãn ranh giới từ (do kích thước quá lớn). VTB có 201.594 câu,
5.501.225 lượt từ, độ dài trung bình mỗi câu là 27,3 từ và tổng số các từ/chuỗi (token) khác nhau là 118.455. Ngữ liệu VCor có 17.095.994 câu (42 lĩnh vực), gồm 346.454.533 từ và 443.301.776 chữ (tiếng/âm tiết), trung bình mỗi câu có khoảng 20 từ, mỗi từ có 1,28 âm tiết và mỗi âm tiết dài 3,27 con chữ. Ngồi ra, Trung tâm cịn xây dựng các kho ngữ liệu song ngữ cho các cặp câu Anh-Việt, Pháp-Việt, Hàn-Việt, Lào-Việt, Hoa-Việt.
- Nghiên cứu tại [39] đã triển khai xây dựng kho ngữ liệu được chú giải cho cặp ngôn ngữ Anh – Việt. Kết quả thu được kho ngữ liệu EVC với 5 triệu từ được thu thập từ nhiều nguồn tài nguyên, được chuẩn hóa và tổ chức gán nhãn, gióng hàng ở mức từ. Dữ liệu được kiểm tra và cải tiến chất lượng thông qua nhiều giải pháp.
-Nghiên cứu tại [13] thực hiện các bước xây dựng kho ngữ liệu thơ từ Internet, sau đó chuẩn hóa mơ hình chú giải tiếng Việt và áp dụng khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng việt và chú giải cho phân tích cú pháp tiếng Việt. Kết quả xây dựng công cụ Vncopus bằng ngôn ngữ Java và Python, thu thập kho ngữ liệu thơ tiếng Việt có kích thước khoảng 100 triệu từ. Đồng thời xây dựng mơ hình chú giải kho ngữ liệu tiếng Việt ở mức hình thái – cú pháp và mức phân tích cú pháp, xây dựng bộ quan hệ ngữ pháp bản tiếng Việt gồm 37 quan hệ ngữ pháp.
- Nghiên cứu tại [40] thực hiện quy trình khai thác câu song song từ các trang web để phục vụ cho hệ thống dịch máy Pháp – Việt theo phương pháp dịch thống kê. Kết quả đạt thu được 12.100 tài liệu song ngữ và 50.300 cặp câu song ngữ Pháp – Việt. Nhóm tác giả sử dụng Moses để xây dựng hệ thống dịch.
- Nghiên cứu tại [41] đã áp dụng bộ phân lớp Entropy cực đại kết hợp với bộ lọc độ dài câu và bộ lọc bao phủ từ để trích xuất các cặp câu thực sự song song và gần song song từ các nguồn tài nguyên trên internet, từ đó loại bỏ các cặp câu chất lượng kém ra khỏi kho ngữ liệu nhằm cải tiến chất lượng của dữ liệu. Nghiên cứu thu thập 6.716 tài liệu song ngữ Anh - Việt đã được gióng hàng mức câu, sau đó sử dụng bộ cơng cụ Giza++ để gióng hàng hai chiều ở mức từ. Q trình này sẽ tạo ra 2 kết quả gióng hàng từ, phần giao của kết quả gióng hàng này sẽ có độ chính xác cao.
-Nghiên cứu tại [42] đã xây dựng một kho ngữ liệu song ngữ Việt–Anh trong lĩnh vực du lịch và cải thiện một cơng cụ gióng hàng ở mức câu đã có cho văn bản song ngữ Việt–Anh, đạt được độ chính xác trên 90% cho các tập dữ liệu của họ. Với sự trợ giúp của cơng cụ này, nhóm tác giả đã xây dựng được kho ngữ liệu song ngữ Việt–Anh miền du lịch có gióng hàng mức câu, cho phép huấn luyện mơ hình dịch máy Việt–Anh tăng được khoảng 8,79 điểm BLEU so với các mơ hình được huấn luyện trên miền tổng quát.
- Nghiên cứu tại [43] đã xây dựng dữ liệu phục vụ hệ thống dịch Anh – Việt bằng giải pháp kết hợp dữ liệu đơn ngữ ngồi miền ở ngơn ngữ nguồn (tiếng Anh) với bản dịch của nó ở ngơn ngữ đích (tiếng Việt) để làm dữ liệu huấn luyện hệ dịch. Các thực nghiệm của nhóm tác giả đã chứng minh rằng phương pháp này dễ thực
hiện, khai thác được những ưu điểm của dữ liệu đơn ngữ như ln có sẵn, chi phí xây dựng thấp và đặc biệt là chất lượng của hệ dịch được và tăng 2,21 điểm BLEU.
Vấn đề nâng cao chất lượng các hệ thống dịch tự động là một bài tốn ln được các nhà nghiên cứu tập trung giải quyết. Trong hơn 20 năm phát triển gần đây của lĩnh vực dịch máy, tuy đã có những bước phát triển đáng kể nhưng đến nay kết quả của các hệ thống dịch máy vẫn còn là một khoảng cách xa so với các bản dịch do con người thực hiện. Đối với các ngôn ngữ phổ biến như tiếng Anh, tiếng Pháp, các hệ thống cho ra bản dịch có thể chấp nhận được trong một số lĩnh vực thơng dụng, có thể sử dụng để tham khảo nghĩa của ngơn ngữ đích mà khơng cần đến người phiên dịch. Tuy nhiên, đối với các ngơn ngữ ít phổ biến như tiếng Việt, chất lượng các câu dịch của hệ thống rất thấp, khó có thể áp dụng trong thực tế. Đặc biệt ở các lĩnh vực chuyên ngành như y tế, kỹ thuật, văn bản quy phạm pháp luật… các hệ thống dịch không dịch đúng các khái niệm chuyên môn nên nhiều văn bản dịch trở nên khó hiểu, khơng có giá trị.
1.4. Thực trạng chất lượng dịch tự động tiếng Việt
Có rất nhiều nghiên cứu của các tác giả trong và ngoài nước trong lĩnh vực dịch tự động liên quan đến tiếng Việt. Các nhà khoa học đã đề xuất các giải pháp nhằm nâng cao chất lượng của dịch máy tiếng Việt, trong đó bao gồm các giải pháp cải tiến mơ hình dịch cũng như xây dựng và cải tiến kho ngữ liệu phục vụ hệ thống dịch. Bên cạnh đó cịn có nhiều thực nghiệm xây dựng hệ thống dịch tự động tiếng Anh sang tiếng Việt bằng các mơ hình dịch khác nhau.
Đối với tiếng Việt, việc phát triển một hệ thống dịch tự động từ tiếng nước ngoài ra tiếng Việt được bắt đầu nghiên cứu vào những năm 60 thế kỷ 20 [44]. Các sản phẩm dịch máy hiện tại cho chất lượng dịch còn nhiều hạn chế do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng về ngữ nghĩa trong ngơn ngữ tiếng Việt. Đã có nhiều cơng trình nghiên cứu vấn đề dịch tiếng Việt, trong đó có một số kết quả đưa ra làm sản phẩm thương mại.
- EVTran: được nghiên cứu và phát triển từ năm 1989 [45]. EVTran là một hệ dịch
văn bản giữa tiếng Anh và tiếng Việt. EVTran đã được thương mại hóa và cấp phép cho một số công ty như Tinh Vân, Dotcom Solution, New Century, có phiên bản cài đặt trên máy tính hoặc dịch trực tiếp trên website, đã được tích hợp vào từ điển Vdict tại địa chỉ:
http://vdict.com/#translation. EVTran có thể dịch từ tiếng Anh sang tiếng Việt hoặc dịch
ngược lại với khả năng đáp ứng nhanh và có hỗ trợ các từ điển chuyên ngành. Chất lượng dịch thuật của EVTran tuy được cải thiện nhưng vẫn chưa hoàn hảo, và trong nhiều trường hợp vẫn chưa đáp ứng được nhu cầu người dùng.
- Cồ Việt: Công ty Cổ phần Tin học Lạc Việt ngoài cung cấp dịch vụ từ điển nổi
tiếng Lạc Việt đã phát triển thêm dịch vụ dịch tự động tại địa chỉ: http://tratu.coviet.vn/hoc-
tieng-anh/dich-van-ban.html. Hệ thống chỉ mới cung cấp dịch vụ dịch từ tiếng Anh sang
tiếng Việt, trong đó có hỗ trợ dịch trong một số lĩnh vực chuyên ngành như tin học, kế tốn, tốn học, y học, kỹ thuật.
Hình 1.6. Giao diện của phần mềm dịch EV-Shuttle và Cồ Việt
- Google Translate: là một công cụ dịch thuật trực tuyến được Google cung cấp.
Google Translate có thể dịch tự động một đoạn văn bản ngắn, hoặc dịch một trang web sang ngơn ngữ khác, đối với tài liệu có kích thước lớn người dùng cần tải lên cả tài liệu để dịch. Người dùng sau khi xem bản dịch có thể hỗ trợ Google cách dịch khác khi thấy kết quả khơng được tốt, hỗ trợ này có thể được sử dụng trong các lần dịch sau. Bộ máy dịch của Google Translate trước đây sử dụng mơ hình dịch máy thống kê và hiện nay sử dụng mơ hình mạng nơ ron đối với một số cặp ngôn ngữ. Google Translate sử dụng hàng tỷ văn bản đã được dịch sẵn của con người để huấn
luyện bộ máy dịch, vì vậy chất lượng dịch được tăng lên theo thời gian khi mà các văn bản ngày càng được nạp vào nhiều hơn với cấu trúc và ngữ cảnh ngày càng đa dạng. Hiện tại Google Translate hỗ trợ dịch giữa 109 ngôn ngữ khác nhau.
- Microsoft Translator: Dịch vụ dịch tự động của Microsoft hỗ trợ dịch 90 ngôn
ngữ khác nhau. Bộ máy dịch của Microsoft Translator hoạt động trên cơ sở phương pháp dịch máy thống kê. Ngoài dịch vụ dịch trên website, hệ thống này còn được được Microsoft phát triển thành ứng dụng dành riêng cho nền tảng Windows Phone. Thay vì sử dụng như một ứng dụng từ điển nhập từ tìm nghĩa thơng thường, Microsoft Translator cịn cho phép người dùng tra nghĩa và dịch thuật bằng nhiều cách như qua giọng nói và trực tiếp từ camera điện thoại. Microsoft đã ứng dụng hệ thống dịch này trên các sản phẩm của mình như Microsoft Office, Skype, Cortana…
- Nhiều hệ thống dịch trực tuyến khác cũng hỗ trợ dịch Anh – Việt như imTranslator, FreeTranslation, NiceTranslator… nhưng tất cả các ứng dụng này đều sử dụng các dịch vụ của Google hoặc Microsoft, thông qua các hàm API để lấy kết quả dịch từ các hệ thống này và hiển thị cho người dùng chứ khơng xây dựng mơ hình dịch riêng cho mình.
Nhìn chung, các hệ thống dịch hiện nay có thể dịch được hồn chỉnh các câu đơn giản, thơng dụng và cho kết quả tốt nhất khi dịch giữa hai ngôn ngữ là tiếng Anh và tiếng Việt. Tuy nhiên, khi dịch các văn bản, đặc biệt là các văn bản trong các lĩnh vực chuyên ngành thì chất lượng dịch tiếng Việt của các hệ thống dịch tự động vẫn còn nhiều hạn chế. Các kết quả dịch hầu như chỉ có thể cung cấp hàm ý của văn bản để tham khảo. Nhiều thuật ngữ hệ thống không dịch được hoặc dịch sai nghĩa trong ngữ cảnh làm cho người đọc hiểu sai ý của nội dung văn bản cần dịch.