52 Dữ liệu và mơi trường thử nghiệm

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 104)

Dữ liệu sử dụng để thử nghiệm là bộ dữ liệu EVB của tác giả Ngơ Quốc Hưng (https://sites google com/a/uit edu vn/hungnq/evbcorpus), bộ dữ liệu bao

gồm 1 000 văn bản song ngữ Việt – Anh, sau khi chuẩn hĩa dữ liệu, bộ dữ liệu cĩ 45 308 cặp câu song ngữ từ bộ dữ liệu này, NCS chọn ra ngẫu nhiên 1 482 cặp câu để làm dữ liệu tinh chỉnh tham số, 1 527 cặp câu để làm dữ liệu đánh

giá, phân cịn lại 42 299 cặp câu để làm dữ liệu huấn luyện Mơ tả đặc điểm của các tập dữ liệu mơ tả trong bảng 3 9

Bảng 3 9 Các bộ dữ liệu sử dụng trong các thử nghiệm

Các mơ hình, cơng cụ được sử dụng trong các thử nghiệm như sau: - Mơ hình sử dụng trong dịch ngược EN-DE-EN: Sử dụng các mơ hình đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhĩm Facebook AI Research [81] Mơ hình ngơn ngữ tiếng Anh sử dụng để đánh giá độ đo

perplexity : Sử dụng mơ hình ngơn ngữ tiếng Anh đã được huấn luyện sẵn của nhĩm Facebook AI Research

- Kỹ thuật chia nhỏ từ sử dụng trong thử nghiệm là BPE với kích thước bảng từ vựng lần lượt là 3K, 4K, 5K, 6K, 7K

- Phần mềm MOSES (http://www statmt org/moses/) với mơ hình dịch máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt-Anh;

- Mơ hình ngơn ngữ trong hệ SMT được huấn luyện bằng cơng cụ KenLM;

- Mơ hình giĩng hàng từ là mơ hình IBM-HHM với cơng cụ giĩng hàng được sử dụng là GIZA++ Toolkit [86]

Bộ dữ liệu (EVB)

Huấn luyện Tinh chỉnh tham số Đánh giá Tiếng Tiếng Anh Việt Tiếng Tiếng Anh Việt Tiếng Tiếng Anh Việt Số lượng câu 42 299 42 299 1 482 1 482 1 527 1 527 Số lượng từ 821 224 1 121 425 27 868 37 717 31 086 42 559 Độ dài câu lớn nhất 149 185 80 136 100 150 Độ dài câu nhỏ nhất 2 2 2 2 2 2 Độ dài câu trung bình 19,41 26,51 18,80 25,45 20,36 27,87 Kích thước bảng từ vựng 35 426 16 022 5 305 3 157 5 647 3 257

3 5 3 Kết quả thử nghiệm

* Mơ hình baseline:

Baseline là mơ hình SMT với các tham số cài đặt mặc định, khơng áp dụng bất kỳ kỹ thuật nào khác với các bộ dữ liệu được tạo ra từ bộ EVB ban đầu với các mơ tả trong bảng 3 10 Kết quả thu được như sau:

- Số lượng cặp câu song ngữ huấn luyện: 42 299 - Điểm BLEU của hệ thống: 23,09

BaselineBT là mơ hình SMT huấn luyện trên bộ dữ liệu EVB kết hợp với tồn bộ dữ liệu giả lập thu được sau quá trình dịch ngược EN-DE-EN Kết quả thu được như sau:

Số lượng cặp câu song ngữ huấn luyện: 84 598 Điểm BLEU của hệ thống: 23,02

* Thử nghiệm với kỹ thuật BT cĩ áp dụng các độ đo thích nghi đề xuất trong Chương 2 của luận án:

Để thực hiện thử nghiệm, NCS sử dụng hệ thống dịch máy EN-DE-EN được huấn luyện trước để thu được các cặp câu giả lập, sau đĩ áp dụng kỹ thuật lựa chọn thích nghi với độ đo theo hiệu (H) và độ đo theo tỷ lệ (T) Kết quả thử nghiệm được trình bày trong bảng 3 10 và bảng 3 11

Bảng 3 10 Kết quả thử nghiệm BT với độ đo thích nghi H

Các kết quả thử nghiệm với độ đo thích nghi H được thể hiện bằng biểu đồ hình 3 8 Các kết quả thử nghiệm cho thấy với tồn bộ dữ liệu giả lập, hệ SMT cho chất lượng giảm so với ban đầu, khi áp dụng kỹ thuật lựa chọn thích nghi theo hiệu, chất lượng hệ dịch cĩ thể được cải thiện, với điểm số BLEU đạt được là 23,60 ở H<-10

Thử nghiệm Độ đo thích nghi theo hiệu H 0 -5 -10 -15 -20 -25

baseline 23,09

baselineBT 23,02

23 723 6 23 6 23 5 23 4 23 3 23 2 23 1 23 22 9 22 8 22 7 baseline baselineBT H 0 -5 -10 -15 -20 -25

Hình 3 8 Kết quả thử nghiệm BT với độ đo thích nghi H

Nhận xét về các kết quả thử nghiệm với độ đo thích nghi T bằng biểu đồ trên hình 3 7 tương tự như đối với độ đo thích nghi H với điểm BLEU thu được cao nhất là 23,47

Bảng 3 11 Kết quả thử nghiệm BT với độ đo thích nghi T

Thử nghiệm Độ đo thích nghi theo tỷ lệ T 0,40 0,45 0,50 0,55 0,60 0,65

baseline 23,09

baselineBT 23,02

23 6 23 5 23 4 23 3 23 2 23 1 23 22 9 22 8 22 7 baseline baselineBT T 0 4 0 45 0 5 0 55 0 6 0 65

Hình 3 9 Kết quả thử nghiệm BT với độ đo thích nghi T

Trong các thử nghiệm tiếp theo, NCS thực hiện chia nhỏ từ bằng kỹ thuật BPE với các bước lặp khác nhau trên các tập dữ liệu đã được tăng cường bằng phương pháp BT cĩ sử dụng kỹ thuật lựa chọn thích nghi

Kết quả thử nghiệm khi áp dụng chia nhỏ từ với dữ liệu giả lập được lựa chọn bằng độ đo theo hiệu được trình bày trong bảng 3 12 và hình 3 9

Bảng 3 12 Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi H

Thử nghiệm Độ đo thích nghi theo hiệu H 0 -5 -10 -15 -20 -25 baseline 23,09 baselineBT 23,02 SMT(H) 23,23 23,04 23,62 23,59 23,34 23,04 BPE-3K 23,24 23,30 23,29 23,21 23,24 23,53 BPE-4K 23,47 23,07 23,29 23,32 23,27 23,28 BPE-5K 23,57 23,46 23,32 23,19 23,62 23,39 BPE-6K 23,52 23,12 23,32 23,59 23,95 23,68 BPE-7K 23,34 23,11 23,01 23,15 23,16 23,48

24 2 24 23 8 23 6 23 4 23 2 23 22 8 baseline baselineBT H<0 H<-5 H<-10 H<-15 H<-20 H<-25 22 6 22 4 SMT(H) 3K 4K 5K 6K 7K

Hình 3 10 Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi H

Trên hình 3 10 là biểu đồ mơ tả các kết quả thử nghiệm, qua đĩ cĩ thể nhận thấy rằng hầu hết các hệ SMT được huấn luyện trên dữ liệu cĩ chia nhỏ từ và áp dụng cải tiến thuật tốn giĩng hàng từ đều cho kết quả tốt hơn so với khơng sử dụng kỹ thuật chia nhỏ từ, trong đĩ hệ SMT được huấn luyện trên tập dữ liệu được tăng cường với H<-10 và áp dụng kỹ thuật chia nhỏ từ BPE với kích thước bảng từ vựng 6K đạt kết quả cao nhất với điểm BLEU là 23,95 điểm tăng ∆���� = 0,86 so với Baseline

Thử nghiệm với các hệ SMT được huấn luyện trên các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi theo tỷ lệ T Kết quả được trình bày trong bảng 3 13

Bảng 3 13 Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi T

Thử nghiệm Độ đo thích nghi theo tỷ lệ T 0,40 0,45 0,50 0,55 0,60 0,65

baseline 23 09

baselineBT 23 02

24 2 24 23 8 23 6 23 4 23 2 23 22 8 22 6 22 4 22 2 22 baseline baslineBT T<0 40 T<0 45 T<0 50 T<0 55 T<0 60 T<0 65 SMT(T) 3K 4K 5K 6K 7K

Hình 3 11 Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi T

Trên hình 3 11 là biểu đồ mơ tả các kết quả thử nghiệm áp dụng chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT và lựa chọn thích nghi theo tỷ lệ T, tương tự như trong thử nghiệm trước, cĩ thể nhận thấy rằng hầu hết các hệ SMT được huấn luyện trên dữ liệu cĩ chia nhỏ từ và áp dụng cải tiến thuật tốn giĩng hàng từ đều cho kết quả tốt hơn so với khơng sử dụng kỹ thuật chia nhỏ từ, trong đĩ hệ SMT được huấn luyện trên tập dữ liệu được tăng cường với T<0,60 và áp dụng kỹ thuật chia nhỏ từ BPE với kích thước bảng từ vựng 5K

BPE-3K 22,85 22,90 23,64 22,84 23,61 23,51

BPE-4K 23,6 23,22 22,72 23,74 23,30 23,71

BPE-5K 23,47 23,61 23,43 23,49 23,96 23,31

BPE-6K 23,29 23,31 23,22 23,26 23,21 23,87

đạt kết quả cao nhất với điểm BLEU là 23,96 điểm, tăng ∆���� = 0,87 so với Baseline

Trên tập dữ liệu thử nghiệm, cĩ thể nhận thấy chia nhỏ từ với kích thước khoảng 5K, 6K mang lại nhiều kết quả tốt hơn so với khoảng kích thước 3K và 4K Bên cạnh đĩ, các kết quả thử nghiệm cũng cho thấy việc kết hợp chia nhỏ từ và tăng cường dữ liệu bằng BT cĩ lựa chọn thích nghi mang lại kết quả tốt hơn cho hệ SMT so với sử dụng đơn lẻ một phương pháp

3 6 Kết luận Chương 3

Trong chương này một phương pháp cải tiến mơ hình giĩng hàng từ sử dụng các kỹ thuật chia nhỏ từ trong hệ thống dịch máy thống kê cho cặp ngơn ngữ Việt - Anh để giải quyết vấn đề từ hiếm và sự khác biệt về hình thái giữa hai ngơn ngữ tiếng Anh và tiếng Việt nhằm nâng cao chất lượng hệ thống SMT đã được đề xuất Phương pháp đề xuất bao gồm 2 cải tiến đối với mơ hình giĩng hàng:

1 Áp dụng kỹ thuật chia nhỏ từ đối với các câu tiếng Anh trước khi đưa vào giĩng hàng trong hệ thống dịch máy Việt - Anh

2 Đề xuất thuật tốn tạo bảng giĩng hàng từ A* từ bảng A thu được ở bước giĩng hàng từ với dữ liệu đã được chia nhỏ từ trước khi xây dựng mơ hình dịch, giúp giữ nguyên chất lượng mơ hình ngơn ngữ trong hệ thống dịch máy

Phương pháp đề xuất đã được cài đặt, thử nghiệm với các kỹ thuật chia nhỏ từ khác nhau như BPE, Wordpiece, unigram và Morfessor Các kết quả thử nghiệm cho thấy việc áp dụng phương pháp đề xuất giúp tăng chất lượng hệ dịch thống dịch máy thống kê với cặp ngơn ngữ Việt - Anh, các kỹ thuật áp dụng đều làm cho hệ thống dịch tăng điểm BLEU so với hệ thống trước khi cải tiến

Trong chương này, luận án đã tiến hành các thử nghiệm cho mơ hình kết hợp hai phương pháp đã trình bày ở chương 2 và chương 3 với bộ dữ liệu EVB Kết quả thử nghiệm đã cho thấy việc áp dụng kết hợp 2 phương pháp cho kết quả cao hơn so với sử dụng đơn lẻ từng phương pháp

Kết quả nghiên cứu chính trong chương đã được cơng bố ở cơng trình [CT4]

KẾT LUẬN 1 Các kết quả nghiên cứu của luận án

Hiện nay, dịch máy mạng nơ-ron đã đạt được những thành tựu đáng kể, tuy nhiên, dịch máy thống kê vẫn cĩ những thế mạnh và cĩ thể phát huy như: dịch tốt trong điều kiện ngữ liệu huấn luyện hạn chế, khơng địi hỏi tài nguyên phần cứng cao như dịch máy nơ-ron; từ đĩ cĩ thể thấy rằng dịch máy thống kê cĩ thể áp dụng vào các ứng dụng dịch thuật trong các miền cụ thể (lĩnh vực khoa học kỹ thuật quân sự) trên các hệ thống máy tính cĩ cấu hình vừa phải, hoạt động ở chế độ ngoại tuyến (offline) Luận án nghiên cứu các phương pháp nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngơn ngữ Việt – Anh, trong đĩ tập trung vào phần tiền xử lý dữ liệu và nâng cao chất lượng giĩng hàng từ Các nghiên cứu đã được thực hiện nhằm nâng cao chất lượng từng phần của hệ thống dịch máy thống kê, từ đĩ nâng cao chất lượng tổng thể của cả hệ thống Các kết quả chính của luận án bao gồm:

i) Nghiên cứu các kỹ thuật tăng cường dữ liệu bằng dịch ngược, trên cơ sở phân tích các kỹ thuật này, lựa chọn phương pháp dịch ngược để tạo ra câu giả lập là câu phía đích (tiếng Anh) thơng qua ngơn ngữ trung gian (tiếng Đức) vì cặp ngơn ngữ Anh – Đức là cặp ngơn ngữ cĩ tài nguyên phong phú, được quan tâm nghiên cứu nhiều và cĩ các mơ hình dịch được huấn luyện sẵn cĩ chất lượng tốt Sau khi tạo ra các cặp câu giả lập, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu bằng mơ hình ngơn ngữ nhằm bổ sung ngữ liệu huấn luyện cho hệ thống dịch máy, trong luận án cũng chỉ ra rằng nếu khơng sử dụng các độ đo để lựa chọn dữ liệu, chất lượng dịch của hệ thống sẽ bị kém đi sau khi bổ sung dữ liệu huấn luyện

ii) Nghiên cứu các phương pháp chia nhỏ từ dựa trên thống kê và dựa trên đặc điểm hình thái từ, các phương pháp chia nhỏ từ này chỉ được áp dụng cho dịch máy nơ-ron nhằm giải quyết bài tốn từ hiếm (rare words) và từ nằm ngồi bảng từ vựng (out of vocabulary – OOV) mà chưa từng được áp dụng cho dịch máy thống kê Nghiên cứu các phương pháp nâng cao chất lượng giĩng hàng từ trong dịch máy thống kê, phân tích các đặc điểm hình thái ngơn ngữ

tiếng Anh, trên cơ sở đĩ, đề xuất cải tiến mơ hình giĩng hàng trong đĩ áp dụng các phương pháp chia nhỏ từ (subword) phía tiếng Anh và xây dựng thuật tốn giĩng hàng mới cho phù hợp với phương pháp chia nhỏ từ khi áp dụng vào dịch máy thống kê

iii) Cài đặt, thử nghiệm, so sánh, đánh giá hệ thống SMT trước và sau khi áp dụng các đề xuất cải tiến trên hệ thống SMT MOSES và các tập dữ liệu IWSLT2015, EVB

Kết quả thử nghiệm trên tập dữ liệu cho thấy các phương pháp đề xuất đều tăng chất lượng hệ dịch bằng đánh giá điểm BLEU, độ tăng phụ thuộc và tham số và phương pháp cụ thể áp dụng trong từng thử nghiệm

2 Những đĩng gĩp mới của luận án

- Đề xuất một phương pháp tăng cường dữ liệu cho dịch máy thống kê cặp ngơn ngữ Việt-Anh sử dụng kỹ thuật dịch ngược và độ đo thích nghi

- Đề xuất một phương pháp cải tiến mơ hình giĩng hàng từ sử dụng kỹ thuật chia nhỏ từ

3 Hướng nghiên cứu tiếp theo

Mặc dù đã đạt được các kết quả theo mục tiêu đề ra của luận án, do hạn chế về thời gian và khuơn khổ nội dung, luận án vẫn tồn tại một số điểm hạn chế:

- Việc thử nghiệm đánh giá chỉ dựa trên một số ít bộ số liệu được cơng bố nên các thử nghiệm đánh giá chưa được đa dạng với nhiều miền dữ liệu khác nhau Chất lượng giĩng hàng từ được đánh giá thơng qua điểm BLEU của hệ thống dịch máy mà chưa cĩ thử nghiệm đánh giá bằng các độ đo về chất lượng giĩng hàng từ như AER, precision, recall, F-measure nên chưa chỉ rõ được chất lượng giĩng hàng từ thay đổi như thế nào sau khi áp dụng các phương pháp chia nhỏ từ và cải tiến thuật tốn giĩng hàng

- Dịch ngược sử dụng ngơn ngữ trung gian địi hỏi phải cĩ ngữ liệu huấn luyện đủ lớn để huấn luyện mơ hình dịch hoặc phải cĩ mơ hình huấn luyện sẵn chất lượng tốt, trong nghiên cứu sử dụng mơ hình dịch máy nơ-ron cho cặp

ngơn ngữ Anh - Đức - Anh, điều này tăng thời gian tăng thời gian huấn luyện mơ hình dịch máy thống kê

Để khắc phục các tồn tại nêu trên, NCS đề xuất một số hướng nghiên cứu tiếp theo của luận án như sau:

1 Nghiên cứu, áp dụng kết hợp hai phương pháp đã đề xuất để nâng cao chất lượng hệ thống dịch máy thống kê, bên cạnh đĩ, tiếp tục nghiên cứu cải tiến các thành phần khác trong hệ thống dịch máy thống kê như mơ hình ngơn ngữ

2 Phương pháp chia nhỏ từ cĩ sẵn được xây dựng để áp dụng cho dịch máy nơ-ron, trong luận án đã sử dụng cho dịch máy thống kê, tuy nhiên cần nghiên cứu đề xuất phương pháp chia nhỏ từ phù hợp với kiến trúc và đặc điểm của dịch máy thống kê

3 Nghiên cứu, đề xuất áp dụng các phương pháp đã sử dụng trong luận án vào dịch máy nơ-ron để cĩ thể xây dựng hệ thống dịch máy tốt cho cả hai chiều Việt - Anh và Anh - Việt

DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ

[CT1] “Automatic Detection of Problematic Rules in Vietnamese Treebank”

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 104)

Tải bản đầy đủ (DOCX)

(127 trang)
w