Các nghiên cứu liên quan đến dịch máy thống kê cặp- 123docz.net

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

1.7. Các nghiên cứu liên quan đến dịch máy thống kê cặp ngôn ngữ Việt-

Anh

Hệ thống dịch máy Anh – Việt được phát triển sớm nhất từ những năm 1970 bởi Logos Corporation cho việc dịch các tài liệu của không quân [47]. Cho đến năm 2005, có bốn nhóm phát triển hệ thống dịch máy cho tiếng Việt được công bố trong [44]. Trong số đó, hệ thống dịch máy Anh - Việt thương

mại đầu tiên là EVTran với tiếp cận dịch dựa trên luật (rule-based) [64], sau đó các cải tiến Bitex Transfer Learning (BTL) [30] và chuyển đổi trật tự từ [31] được áp dụng để nâng cao chất lượng hệ thống dịch máy. Sau đó, các nghiên cứu chuyển dần sang sử dụng dịch máy thống kê và dịch máy nơ-ron. Hình 1.9 thể hiện sơ đồ minh họa các hướng tiếp cận chính cho các nghiên cứu về dịch máy Việt - Anh và Anh - Việt. Các nghiên cứu về dịch máy Việt - Anh và Anh

- Việt có thể được phân loại thành 3 hướng tiếp cận chính là: (1) Hướng tiếp

cận không dùng học máy; (2) Hướng tiếp cận dịch máy thống kê; (3) Hướng tiếp cận dịch máy nơ-ron. Trong phần này NCS tập trung phân tích các nghiên cứu theo hướng tiếp cận dịch máy thống kê. Các nghiên cứu theo hướng tiếp cận dịch máy thống kê có thể được chia thành 3 nhóm: nhóm các nghiên cứu

xây dựng, tăng cường dữ liệu huấn luyện, nhóm các nghiên cứu áp dụng các phương pháp tiền/hậu xử lý dữ liệu, nhóm các nghiên cứu cải tiến mơ hình

gióng hàng.

Hệ dịch máy thống kê đầu tiên được phát triển cho cặp ngôn ngữ Việt –

Anh là EVSMT1.0 [6]. Tuy nhiên các kết quả đạt được còn nhiều hạn chế. Tác

giả Vu Hoang và cộng sự [46] nghiên cứu áp dụng cây cú pháp phụ thuộc vào việc xử lý trật tự từ cho dịch máy thống kê dựa trên cụm từ cho cặp ngôn ngữ Việt - Anh.

Hình 1.12. Các hướng tiếp cận cho dịch máy Việt - Anh và Anh - Việt

Có nhiều nghiên cứu để nâng cao chất lượng hệ thống dịch máy cho các cặp ngơn ngữ có tài ngun hạn chế nói chung và tiếng Việt nói riêng, trong đó xây dựng bộ dữ liệu huấn luyện hoặc nâng cao chất lượng dữ liệu huấn luyện được nhiều nhà nghiên cứu quan tâm. Nguyen Quang Phuoc và cộng sự [94]

nhận xét chất lượng hệ thống dịch máy phụ thuộc vào ngữ liệu song ngữ, trong

khi đó tiếng Việt là ngơn ngữ có ít tài ngun song ngữ, từ đó các tác giả tập trung xây dựng kho ngữ liệu song ngữ Anh – Việt và phát triển hệ thống dịch máy dựa trên MOSES và kho ngữ liệu tự xây dựng. Các tác giả đã xây dựng được kho ngữ liệu song ngữ Anh – Việt với hơn 880.000 cặp câu song ngữ và hơn 11.000.000 câu tiếng Việt và 882.000 câu tiếng Anh để huấn luyện các mơ hình ngơn ngữ tương ứng. Các tác giả cũng xây dựng bộ dữ liệu để hiệu chỉnh

Dịch máy Việt – Anh, Anh - Việt

Không dùng học máy Dịch máy thống kê Dịch máy nơ-ron

Xây dựng,tăng cường dữ liệu

Tiền / hậu xử lý dữ liệu

Cải tiến

tham số với 2.089 cặp câu và 2.090 cặp câu để đánh giá (test). Dựa trên đánh giá bằng điểm BLEU với bộ ngữ liệu đã được xây dựng, các tác giả cho thấy hệ thống dịch đề xuất có chất lượng tốt hơn các hệ dịch của Google và Microsoft Bing (Bảng 1.1).

Bảng 1.1. Kết quả thử nghiệm với bộ ngữ liệu công bố trong [94]

English to Vietnamese Vietnamese to English

BLEU p1 p2 p3 p4 BP BLEU p1 p2 p3 p4 BP

Google 8,80 42,1 12,4 5,2 2,2 1,000 9,68 43,9 14,1 6,5 3,2 0,905

Bing 7,62 41,0 11,4 4,4 1,6 1,000 11,04 44,0 14,9 7,6 4,4 0,906

MOSES 10,08 45,4 14,7 6,1 2,6 0,998 11,33 41,3 14,5 7,4 4,1 0,978

Chất lượng gióng hàng từ ảnh hưởng trực tiếp tới chất lượng hệ thống dịch máy, Takahiro Nomura và cộng sự [83] đề xuất hai tiếp cận để nâng cao chất lượng gióng hàng từ cho cặp ngơn ngữ Anh – Việt: (1) xóa đi những từ tiếng Anh khơng có từ tương ứng phía tiếng Việt (ví dụ: mạo từ the) và (2): đề xuất phương pháp tách từ phía tiếng Việt để các từ có nghĩa tương ứng phía

tiếng Anh (ví dụ kết_quả tương ứng với result), các tác giả đã tiến hành thử nghiệm với bộ dữ liệu IWSLT2015, tuy nhiên kết quả chưa được cải tiến nhiều (thậm chí cịn kém đi), điều này được các tác giả lý giải do dữ liệu huấn luyện dùng để tách từ không đầy đủ, dẫn đến nhiều từ trong tập test không được tách từ đúng, dẫn đến làm giảm hiệu quả của hệ thống. Tiền xử lý dữ liệu cũng được quan tâm nghiên cứu, Viet Hong Tran và nhóm nghiên cứu [119] đề xuất sử dụng các luật đảo trật tự từ bằng phương pháp thủ công để đảo trật tự trong bước tiền xử lý dữ liệu trước khi đưa vào huấn luyện hệ thống, nhóm tác giả cũng đề xuất phương án xây dựng luật đảo trật tự từ tự động dựa vào phân lớp quan hệ trên cây cú pháp phụ thuộc [120], các luật này được học tự động từ kho ngữ liệu song ngữ. Kết quả thử nghiệm khi áp dụng cho dịch máy thống kê cho cặp ngôn ngữ Anh – Việt giúp tăng 0,69 điểm BLEU so với hệ thống dựa trên cụm từ. Đảo trật tự từ là một thách thức cho dịch máy Việt – Anh vì sự khác biệt về trật tự từ giữa tiếng Việt và tiếng Anh, Nguyen, N. T và cộng sự [82] mô tả một cách tiếp cận chung để giải quyết vấn đề đảo trật tự từ trong bản dịch

máy thống kê Anh - Việt - Anh. Mơ hình của tác giả tự động trích xuất các quy tắc sắp xếp lại trong phạm vi ngắn và trong phạm vi dài dựa trên các nhãn từ loại và thơng tin gióng hàng. Phương pháp đề xuất linh hoạt hơn các phương pháp khác đã được đề xuất trước đó. Để có được một tập các luật sắp xếp lại thứ tự tốt hơn, các tác giả bỏ qua các luật được tự động tạo ra nếu trọng số của chúng thấp hơn ngưỡng α. Kết quả thực nghiệm cho thấy chất lượng dịch đã được cải thiện đáng kể so với mơ hình sắp xếp lại theo khoảng cách và so sánh với mơ hình từ vựng hóa. Cách tiếp cận này không chỉ phù hợp với Anh-Việt mà cịn phù hợp với các cặp ngơn ngữ có nhiều khác biệt về cú pháp, chẳng hạn như Anh-Trung và Trung-Việt.

Đối với cặp ngơn ngữ có tài ngun hạn chế như cặp Việt – Anh, do khơng có nhiều dữ liệu huấn luyện nên dịch máy thống kê có thể được huấn luyện và dịch tốt trong miền tương ứng (in domain), ngược lại, hệ thống cho kết quả rất kém khi dịch ngoài miền (out-of-domain), để khắc phục tính trạng này, nhóm tác giả Pham, Nghia-Luan và cộng sự [93] đề xuất một phương thức mới để thích ứng miền cho dịch máy thống kê cho cặp ngôn ngữ Anh – Việt mà chỉ sử dụng ngữ liệu đơn ngữ để thích ứng miền cho mơ hình dịch. Phương thức được đề xuất có hai bước: (1) sử dụng mơ hình xác suất để phân lớp các cụm từ phía đích (tiếng Việt) trong bảng cụm từ của mơ hình dịch và (2) tính tốn lại các xác suất dịch trực tiếp của các cụm từ trong mơ hình dịch giúp cho mơ hình dịch đáp ứng miền tốt hơn khi dịch. Kết quả thử nghiệm cho thấy phương thức đề xuất giúp tăng chất lượng của hệ dịch máy thống kê lên 0,9

điểm BLEU cho dịch trong miền.

Trong hội thảo quốc tế thường niên IWSLT (International Workshop on Spoken Language Translation) năm 2015, nhiều nhóm nghiên cứu đã đưa ra các mơ hình dịch máy thống kê cho cặp ngôn ngữ Việt - Anh theo cả hai chiều Việt - Anh và Anh - Việt, các hệ thống tham gia cho MT campaign được tổng hợp trong [17] với kết quả được tính trên điểm BLEU, NIST và TER, các hệ thống dịch máy được huấn luyện và thử nghiệm trên tập dữ liệu được thống kê trong Bảng 1.2, các kết quả cho hệ thống dịch máy được thể hiện trên Bảng 1.3, trong đó hệ thống SU là hệ thống dịch máy nơ-ron, các hệ thống còn lại là dịch máy thống kê. Các đội tham gia được thống kê trong Bảng 1.4.

Bảng 1.2. Các bộ dữ liệu song ngữ trong hội thảo IWSLT 2015 [17] Cặp ngôn ngữ Các tập dữ liệu Số lượng câu Số lượng từ Số lượng câu thêm vào tập TED En Foreign En  Zh train 210k 4,27M 4,02M 1718 tst2014 1.068 20,3k 20,0k 12 tst2015 1.080 20,8k 20,7k 12 En  Cs train 106k 2,09M 1,76M 918 tst2015 1.080 20,8k 17,9k 12 En  Fr train 208k 4,23M 4,51M 1711 tst2014 1.305 24,8k 27,5k 15 tst2015 1.080 20,8k 22,0k 12 En  De     train 194k 3,94M 3,68M 1597 tst2014 1.305 24,8k 23,8k 15 tst2015 1.080 20,8k 19,7k 12 tst2014TEDx 1.414 28,1k 27,6k 10 tst2015TEDx 2.809 41,0k 38,8k 14 En  Th train 84k 1,66M 2,84M 746 tst2015 756 15,1k 27,5k 9 En  Vi train 131k 2,63M 3,32M 1192 tst2015 1.080 20,8k 24,6k 12

Các bộ dữ liệu cho các ngôn ngữ được tập hợp từ các bộ dữ liệu đã được sử dụng tại hội thảo IWSLT2014 thêm vào một số lượng câu từ các bài nói chuyện (talks). Khác với các cặp ngơn ngữ khác, cặp En-De chỉ rõ các tập kiểm chứng (tst) được xây dựng từ gốc là ngôn ngữ nào, tst2014 và tst2015 là tập dữ liệu được dịch từ tiếng Anh sang tiếng Đức, tập tst2014TEDx và tst2015TEDx là

các tập dữ liệu được dịch từ tiếng Đức sang tiếng Anh.

Bảng 1.3. Kết quả đánh giá các hệ thống dịch máy Anh–Việt và Việt–Anh trên bộ số liệu song ngữ IWSLT 2015 [17].

Bảng 1.4. Danh sách các đội tham gia MT campaign cho ngôn ngữ Anh–Việt và Việt–Anh trong hội thảo IWSLT [17]

PJAIT Polish-Japanese Academy of Information Technology, Poland [130]

JAIST Japan Advanced Inst. of Sc. and Technology; U. of Eng. and Technology; MITI [121]

KIT Karlsruhe Institute of Technology, Germany [42], [79]

SU Stanford University, USA [70]

UNETI University Of Economic And Technical Industries, Vietnam [117]

UMD University of Maryland, USA [2]

Các nghiên cứu liên quan đến dịch máy thống kê cặp ngôn ngữ Việt-

Bộ mã hóa tự động

Gióng hàng từ trong dịch máy thống kê