7. Bố cục của luận án
3.4.4. Thử nghiệm mơ hình được cải tiến giĩng hàng từ sử dụng các kỹ thuật
chia nhỏ từ khác nhau
Trong phần này luận án tiến hành các thử nghiệm mơ hình giĩng hàng cải tiến được đề xuất cho hệ thống SMT cặp ngơn ngữ Việt - Anh với các kỹ thuật chia nhỏ từ khác nhau. Các thử nghiệm được tiến hành với qui trình như sau:
- Sử dụng kỹ thuật chia nhỏ từ để chia nhỏ (encode) các từ thuộc phía tiếng Anh của kho ngữ liệu song ngữ “IWLST’15”.
- Sử dụng phần mềm MOSES để huấn luyện mơ hình dịch máy thống kê cặp ngơn ngữ Việt- Anh.
- Sử dụng cơng cụ giĩng hàng GIZA++để tạo bảng giĩng hàng A.
- Áp dụng thuật tốn DecodeAlignmentTable (đã đề xuất ở Mục 3.3.3)
để tạo bảng giĩng hàng từ A* từ bảng giĩng hàng từ A thu được ở bước trên.
- Sử dụng cơng cụ KenLM huấn luyện mơ hình ngơn ngữ trên các câu
phía tiếng Anh gốc
- Đánh giá hệ thống dịch máy bằng tập dữ liệu tst2013.
Hình 3.7 minh họa quá trình thử nghiệm của các hệ thống cĩ áp dụng chia nhỏ từ và chuẩn hĩa bảng giĩng hàng từ A*. Trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet they had to be very qui_ et), sau
đĩ giĩng hàng từ trên các cặp câu vi-enbpe (khán giả phải thực sự yên tĩnh - they had to
be very qui_ et), bảng giĩng hàng A được chuẩn hĩa thành bảng giĩng hàng A*
theo thuật tốn mơ tả trong phần 3.3.3 (). Mơ hình ngơn ngữ được huấn luyện trên các câu ban đầu (they had to be very quiet). Trong quá trình đánh giá, vì bảng
giĩng hàng đã được chuẩn hĩa thành giĩng hàng “từ”-“từ” nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh chuẩn (anh đã bao giờ tự gửi một tấm thiệp chưa
? have you ever sent yourself a post_ card ?), khơng cần thực hiện chuẩn hĩa (giải
mã) các câu tiếng Anh và thực hiện tính điểm BLEU để đánh giá hệ thống.
Giai đoạn huấn luyện
Vi: khán giả phải thực sự yên tĩnh . En: they had to be very quiet .
Giai đoạn đánh giá
Vi: anh đã bao giờ tự gửi một tấm thiệp chưa ? Bước 1: chia nhỏ từ 2: giĩng hàng từ (A) 4: Huấn luyện mơ hình dịch 5: Huấn luyện mơ hình ngơn ngữ 6: Đánh giá hệ thống
Vi: khán giả phải thực sự yên tĩnh . En: they had to be very qui_ et . 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7
En: they had to be very quiet .
En: have you ever sent yourself a postcard ?
3: Chuẩn hĩa bảng giĩng hàng từ (A*)
0-0 2-1 2-2 2-3 3-3 3-4 4-4 5-5 6-5 7-6
Hình 3.6. Ví dụ huấn luyện hệ thống dịchmáy áp dụng chia nhỏ từ kết hợp với chuẩn hĩa bảng giĩng hàng từ A*.
Các thử nghiệm được tiến hành theo qui trình trên với các kỹ thuật chia nhỏ từ khác nhau bao gồm:
- Thử nghiệm sử dụng kỹ thuật chia nhỏ từ BPE vớikích thước bảng từ vựng mục tiêu lần lượt là 4K (4.000), 5K (5.000), 6K (6000), 8K (8.000). Hệ thống thu được là SMT-BPE-A* .
Bảng 3.3 dưới đây thống kê tuần suất xuất hiện các từ hiếm phía tiếng
Anh khi sử dụng kỹ thuật chia nhỏ từ BPE với bảng từ vựng mục tiêu cĩ các
kích thước khác nhau.
Ngữ liệu Kích thước bảng từ vựng Số lượng từ Số lượng từ xuất hiện <10 lần % từ xuất hiện <10 lần Số lượng từ xuất hiện <20 lần % từ xuất hiện <20 lần IWSLT2015 2.706.404 94.591 3,495 144.102 5,32 Sử dụng chia nhỏ từ BPE 4.000 3.307.167 544 0,016 1.576 0,048 5.000 3.216.123 760 0,024 2.382 0,074 6.000 3.149.614 1.058 0,033 3.488 0,111 8.000 3.057.980 1.847 0,060 6.347 0,208 Bảng 3.3 cho thấyviệc chia nhỏ từ giảm kích thước bảng từ vựng, từ đĩ tăng tần suất xuất hiện của từ hiếm trong ngữ liệu huấn luyện, giảm các từ cĩ tần suất xuất hiện thấp (các từ hiếm).
Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE, sử dụng bảng A* để giĩng hàng từđược trình bày Bảng 3.4 (BLEU
là kết quả so sánh với baseline).
Bảng 3.4. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE, sử dụng bảng A* để giĩng hàng từ
Hệ thống: SMT(BPE)-A* Kích thước bảng từ vựng BLEU BLEU 4.000 24,86 0,41 5.000 25,11 0,66 6.000 24,65 0,20 8.000 24,82 0,27
- Thử nghiệm sử dụng kỹ thuật chia nhỏ từ Wordpiece được hệ thống
SMT-Wordpiece-A*. Kết quả thử nghiệm thu được được trình bày trong Bảng
3.5 (BLEU là kết quả so sánh với baseline)
Bảng 3.5. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật Wordpiece, sử dụng bảng A* để giĩng hàng từ
Tiêu chí Hệ thống: SMT(Wordpiece)-A*
BLEU 24,87
BLEU 0,42
- Thử nghiệm sử dụng kỹ thuật chia nhỏ từ Unigramkích thước bảng từ vựng lần lượt được sử dụng là 4K (4.000), 5K (5.000), 6K (6000) được hệ thống
SMT-Unigram-A* . Kết quảthử nghiệmđược trình bày trong Bảng 3.6 (BLEU
là kết quả so sánh với baseline).
Bảng 3.6. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật Unigram, sử dụng bảng A* để giĩng hàng từ
Hệ thống: SMT(Unigram)-A* Kích thước bảng từ vựng BLEU BLEU 4.000 24,73 0,28 5.000 24,80 0,35 6.000 24,69 0,24
- Thử nghiệm sử dụng cơng cụ Morfessor 2.0 để chia nhỏ các từ thuộc phía tiếng Anh. Thử nghiệm này gồm hai mơ hình chia nhỏ từ với các kho ngữ liệu đơn ngữ khác nhau:
(i) Đối với hệ thống SMT-Morfessor1-A*thì sử dụng các câu phía tiếng Anh của kho ngữ liệu huấn luyện “IWSLT2015”
(ii) Đối với hệ thống SMT-Morfessor2-A*thì sử dụngngữ liệu đơn ngữ từ kho europarl-v7.en.
Các kết quả thử nghiệm được trình bày trong Bảng 3.7. (BLEUlà kết quả so sánh với baseline).
Bảng 3.7. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng phương pháp Morfessor theo hai mơ hình, sử dụng bảng giĩng hàng từ
A*
Hệ thống: SMT(Morfessor)-A*
Dữ liệu
huấn luyện BLEU BLEU
IWSLT2015 (en) 24,46 0,01
Europarl-v7.en 24,95 0,50
Tổng hợp các kết quả của các thử nghiệm được trình bày trong Bảng 3.8.
Từ kết quả cho thấy: việc áp dụng các kỹ thuật chia nhỏ từ khác nhau và sử dụng thuật tốn được đề xuất trong Mục 3.3.3 để xây dựng bảng giĩng hàng từ đều khiến cho hệ thống tốt hơn theo đánh giá bằng điểm BLEU. Trong đĩ, sử dụng kỹ thuật BPE để chia nhỏ từ với kích thước bảng từ vựng là 5.000 cho kết quả điểm BLEU đạt được cao nhất, tăng 0,81 điểm đối với dịch máy cho cặp ngơn ngữ Việt - Anh.
Các kết quả thử nghiệm trong phần này đã chứng minh được phương pháp cải tiến mơ hình giĩng hàng trong hệ thống dịch máy Việt –Anh sử dụng kỹ thuật chia nhỏtừ giúp nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngơn ngữ Việt - Anh.
Bảng 3.8.Kết quả thử nghiệm với mơ hình giĩng hàng từ cải tiến bằng kỹ thuật chia nhỏ từ.
Hệ thống Kích thước bảng từ vựng BLEU BLEU
Baseline 24,45
SMT-BPE-A 23,40 -1,05
SMT-BPE-A*
4.000 24,86 0,41
6.000 24,65 0,20 8.000 24,82 0,27 SMT-Wordpiece-A* 24,87 0,42 SMT-Unigram-A* 4.000 24,73 0,28 5.000 24,80 0,35 6.000 24,69 0,24 SMT-Morfessor1-A* 24,46 0,01 SMT-Morfessor2-A* 24,95 0,50