7. Bố cục của luận án
1.7. Các nghiên cứu liên quan đến dịch máy thống kê cặp ngơn ngữ Việt-
Anh
Hệ thống dịch máy Anh – Việt được phát triển sớm nhất từ những năm 1970 bởi Logos Corporation cho việc dịch các tài liệu của khơng quân [47]. Cho đến năm 2005, cĩ bốn nhĩm phát triển hệ thống dịch máy cho tiếng Việt được cơng bố trong [44]. Trong số đĩ, hệ thống dịch máy Anh - Việt thương mại đầu tiên là EVTran với tiếp cận dịch dựa trên luật (rule-based) [64], sau đĩ các cải tiến Bitex Transfer Learning (BTL) [30] và chuyển đổi trật tự từ [31] được áp dụng để nâng cao chất lượng hệ thống dịch máy. Sau đĩ, các nghiên cứu chuyển dần sang sử dụng dịch máy thống kê và dịch máy nơ-ron. Hình 1.9 thể hiện sơ đồ minh họa các hướng tiếp cận chính cho các nghiên cứu về dịch máy Việt - Anh và Anh - Việt. Các nghiên cứu về dịch máy Việt - Anh và Anh
- Việt cĩ thể được phân loại thành 3 hướng tiếp cận chính là: (1) Hướng tiếp cận khơng dùng học máy; (2) Hướng tiếp cận dịch máy thống kê; (3) Hướng tiếp cận dịch máy nơ-ron. Trong phần này NCS tập trung phân tích các nghiên cứu theo hướng tiếp cận dịch máy thống kê. Các nghiên cứu theo hướng tiếp cận dịch máy thống kê cĩ thể được chia thành 3 nhĩm: nhĩm các nghiên cứu
xây dựng, tăng cường dữ liệu huấn luyện, nhĩm các nghiên cứu áp dụng các phương pháp tiền/hậu xử lý dữ liệu, nhĩm các nghiên cứu cải tiến mơ hình giĩng hàng.
Hệ dịch máy thống kê đầu tiên được phát triển cho cặp ngơn ngữ Việt – Anh là EVSMT1.0 [6]. Tuy nhiên các kết quả đạt được cịn nhiều hạn chế. Tác giả Vu Hoang và cộng sự [46] nghiên cứu áp dụng cây cú pháp phụ thuộc vào việc xử lý trật tự từ cho dịch máy thống kê dựa trên cụm từ cho cặp ngơn ngữ Việt - Anh.
X
Hình 1.12. Các hướng tiếp cận cho dịch máy Việt - Anh và Anh - Việt Cĩ nhiều nghiên cứu để nâng cao chất lượng hệ thống dịch máy cho các cặp ngơn ngữ cĩ tài nguyên hạn chế nĩi chung và tiếng Việt nĩi riêng, trong đĩ xây dựng bộ dữ liệu huấn luyện hoặc nâng cao chất lượng dữ liệu huấn luyện được nhiều nhà nghiên cứu quan tâm. Nguyen Quang Phuoc và cộng sự [94] nhận xét chất lượng hệ thống dịch máy phụ thuộc vào ngữ liệu song ngữ, trong khi đĩ tiếng Việt là ngơn ngữ cĩ ít tài nguyên song ngữ, từ đĩ các tác giả tập trung xây dựng kho ngữ liệu song ngữ Anh – Việt và phát triển hệ thống dịch máy dựa trên MOSES và kho ngữ liệu tự xây dựng. Các tác giả đã xây dựng được kho ngữ liệu song ngữ Anh – Việt với hơn 880.000 cặp câu song ngữ và hơn 11.000.000 câu tiếng Việt và 882.000 câu tiếng Anh để huấn luyện các mơ hình ngơn ngữ tương ứng. Các tác giả cũng xây dựng bộ dữ liệu để hiệu chỉnh
tham số với 2.089 cặp câu và 2.090 cặp câu để đánh giá (test). Dựa trên đánh giá bằng điểm BLEU với bộ ngữ liệu đã được xây dựng, các tác giả cho thấy hệ thống dịch đề xuất cĩ chất lượng tốt hơn các hệ dịch của Google và Microsoft Bing (Bảng 1.1).
Bảng 1.1. Kết quả thử nghiệm với bộ ngữ liệu cơng bố trong [94] English to Vietnamese Vietnamese to English
BLEU p1 p2 p3 p4 BP BLEU p1 p2 p3 p4 BP
Google 8,80 42,1 12,4 5,2 2,2 1,000 9,68 43,9 14,1 6,5 3,2 0,905 Bing 7,62 41,0 11,4 4,4 1,6 1,000 11,04 44,0 14,9 7,6 4,4 0,906 MOSES 10,08 45,4 14,7 6,1 2,6 0,998 11,33 41,3 14,5 7,4 4,1 0,978
Chất lượng giĩng hàng từ ảnh hưởng trực tiếp tới chất lượng hệ thống dịch máy, Takahiro Nomura và cộng sự [83] đề xuất hai tiếp cận để nâng cao chất lượng giĩng hàng từ cho cặp ngơn ngữ Anh – Việt: (1) xĩa đi những từ tiếng Anh khơng cĩ từ tương ứng phía tiếng Việt (ví dụ: mạo từ the) và (2): đề xuất phương pháp tách từ phía tiếng Việt để các từ cĩ nghĩa tương ứng phía tiếng Anh (ví dụ kết_quả tương ứng với result), các tác giả đã tiến hành thử nghiệm với bộ dữ liệu IWSLT2015, tuy nhiên kết quả chưa được cải tiến nhiều (thậm chí cịn kém đi), điều này được các tác giả lý giải do dữ liệu huấn luyện dùng để tách từ khơng đầy đủ, dẫn đến nhiều từ trong tập test khơng được tách từ đúng, dẫn đến làm giảm hiệu quả của hệ thống. Tiền xử lý dữ liệu cũng được quan tâm nghiên cứu, Viet Hong Tran và nhĩm nghiên cứu [119] đề xuất sử dụng các luật đảo trật tự từ bằng phương pháp thủ cơng để đảo trật tự trong bước tiền xử lý dữ liệu trước khi đưa vào huấn luyện hệ thống, nhĩm tác giả cũng đề xuất phương án xây dựng luật đảo trật tự từ tự động dựa vào phân lớp quan hệ trên cây cú pháp phụ thuộc [120], các luật này được học tự động từ kho ngữ liệu song ngữ. Kết quả thử nghiệm khi áp dụng cho dịch máy thống kê cho cặp ngơn ngữ Anh – Việt giúp tăng 0,69 điểm BLEU so với hệ thống dựa trên cụm từ. Đảo trật tự từ là một thách thức cho dịch máy Việt – Anh vì sự khác biệt về trật tự từ giữa tiếng Việt và tiếng Anh, Nguyen, N. T và cộng sự [82] mơ tả một cách tiếp cận chung để giải quyết vấn đề đảo trật tự từ trong bản dịch
máy thống kê Anh - Việt - Anh. Mơ hình của tác giả tự động trích xuất các quy tắc sắp xếp lại trong phạm vi ngắn và trong phạm vi dài dựa trên các nhãn từ loại và thơng tin giĩng hàng. Phương pháp đề xuất linh hoạt hơn các phương pháp khác đã được đề xuất trước đĩ. Để cĩ được một tập các luật sắp xếp lại thứ tự tốt hơn, các tác giả bỏ qua các luật được tự động tạo ra nếu trọng số của chúng thấp hơn ngưỡng α. Kết quả thực nghiệm cho thấy chất lượng dịch đã được cải thiện đáng kể so với mơ hình sắp xếp lại theo khoảng cách và so sánh với mơ hình từ vựng hĩa. Cách tiếp cận này khơng chỉ phù hợp với Anh-Việt mà cịn phù hợp với các cặp ngơn ngữ cĩ nhiều khác biệt về cú pháp, chẳng hạn như Anh-Trung và Trung-Việt.
Đối với cặp ngơn ngữ cĩ tài nguyên hạn chế như cặp Việt – Anh, do khơng cĩ nhiều dữ liệu huấn luyện nên dịch máy thống kê cĩ thể được huấn luyện và dịch tốt trong miền tương ứng (in domain), ngược lại, hệ thống cho kết quả rất kém khi dịch ngồi miền (out-of-domain), để khắc phục tính trạng này, nhĩm tác giả Pham, Nghia-Luan và cộng sự [93] đề xuất một phương thức mới để thích ứng miền cho dịch máy thống kê cho cặp ngơn ngữ Anh – Việt mà chỉ sử dụng ngữ liệu đơn ngữ để thích ứng miền cho mơ hình dịch. Phương thức được đề xuất cĩ hai bước: (1) sử dụng mơ hình xác suất để phân lớp các cụm từ phía đích (tiếng Việt) trong bảng cụm từ của mơ hình dịch và (2) tính tốn lại các xác suất dịch trực tiếp của các cụm từ trong mơ hình dịch giúp cho mơ hình dịch đáp ứng miền tốt hơn khi dịch. Kết quả thử nghiệm cho thấy phương thức đề xuất giúp tăng chất lượng của hệ dịch máy thống kê lên 0,9 điểm BLEU cho dịch trong miền.
Trong hội thảo quốc tế thường niên IWSLT (International Workshop on Spoken Language Translation) năm 2015, nhiều nhĩm nghiên cứu đã đưa ra các mơ hình dịch máy thống kê cho cặp ngơn ngữ Việt - Anh theo cả hai chiều Việt - Anh và Anh - Việt, các hệ thống tham gia cho MT campaign được tổng hợp trong [17] với kết quả được tính trên điểm BLEU, NIST và TER, các hệ thống dịch máy được huấn luyện và thử nghiệm trên tập dữ liệu được thống kê trong Bảng 1.2, các kết quả cho hệ thống dịch máy được thể hiện trên Bảng 1.3, trong đĩ hệ thống SU là hệ thống dịch máy nơ-ron, các hệ thống cịn lại là dịch máy thống kê. Các đội tham gia được thống kê trong Bảng 1.4.
Bảng 1.2. Các bộ dữ liệu song ngữ trong hội thảo IWSLT 2015 [17] Cặp Các tập ngơn ngữ dữ liệu Số lượng câu Số lượng từ Số lượng câu thêm vào tập TED En Foreign En Zh train 210k 4,27M 4,02M 1718 tst2014 tst2015 1.068 1.080 20,3k 20,0k 20,8k 20,7k 12 12 En Cs train 106k 2,09M 1,76M 918 tst2015 1.080 20,8k 17,9k 12 En Fr train 208k 4,23M 4,51M 1711 tst2014 tst2015 1.305 1.080 24,8k 27,5k 20,8k 22,0k 15 12 En De train 194k 3,94M 3,68M 1597 tst2014 tst2015 1.305 1.080 24,8k 23,8k 20,8k 19,7k 15 12 tst2014TEDx tst2015TEDx 1.414 2.809 28,1k 27,6k 41,0k 38,8k 10 14 En Th train 84k 1,66M 2,84M 746 tst2015 756 15,1k 27,5k 9 En Vi train 131k 2,63M 3,32M 1192 tst2015 1.080 20,8k 24,6k 12
Các bộ dữ liệu cho các ngơn ngữ được tập hợp từ các bộ dữ liệu đã được sử dụng tại hội thảo IWSLT2014 thêm vào một số lượng câu từ các bài nĩi chuyện (talks). Khác với các cặp ngơn ngữ khác, cặp En-De chỉ rõ các tập kiểm chứng (tst) được xây dựng từ gốc là ngơn ngữ nào, tst2014 và tst2015 là tập dữ liệu được dịch từ tiếng Anh sang tiếng Đức, tập tst2014TEDx và tst2015TEDx là các tập dữ liệu được dịch từ tiếng Đức sang tiếng Anh.
Bảng 1.3. Kết quả đánh giá các hệ thống dịch máy Anh–Việt và Việt–Anh trên bộ số liệu song ngữ IWSLT 2015 [17].
Bảng 1.4. Danh sách các đội tham gia MT campaign cho ngơn ngữ Anh–Việt và Việt–Anh trong hội thảo IWSLT [17]
PJAIT Polish-Japanese Academy of Information Technology, Poland [130]
JAIST Japan Advanced Inst. of Sc. and Technology; U. of Eng. and Technology; MITI [121]
KIT Karlsruhe Institute of Technology, Germany [42], [79] SU Stanford University, USA [70]
UNETI University Of Economic And Technical Industries, Vietnam [117]
UMD University of Maryland, USA [2]