Điểm baseline thu được từ thử nghiệm sử dụng hệ thống dich MOSES với mơ hình cụm từ phân cấp và các tham số mặc định trên bộ dữ liệu huấn luyện bộ dữ liệu huấn luyện “IWLST’15”, bộ dữ liệu tinh chỉnh mơ hình là bộ “tst2012” và bộ dữ liệu đánh giá mơ hình là bộ “tst2013” Kết quả thu được như sau:
- Số lượng cặp câu song ngữ huấn luyện: 133 317
- Điểm BLEU của hệ thống: 24 45
- Điểm BLEU-c của hệ thống là: 24 05 3 4 3 Thử nghiệm với mơ hình chỉ chia nhỏ từ
Trong phần này luận án tiến hành thử nghiệm chỉ áp dụng kỹ thuật chia nhỏ từ được bảng giĩng hàng A và thực hiện huấn luyện hệ thống dịch máy thống kê cặp ngơn ngữ Việt - Anh với bảng giĩng hàng từ A này Thử nghiệm này được một hệ thống dịch gọi là hệ thống SMT-BPE-A Các bước tiến hành thử nghiệm như sau:
- Bước 1: Sử dụng kỹ thuật chia nhỏ từ BPE để chia nhỏ (encode) các từ thuộc phía tiếng Anh của kho ngữ liệu song ngữ C(V,E) với kích thước bảng từ vựng mục tiêu 5 000 (5K) Chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh, tập E sau khi thực hiện chia nhỏ từ được tập E’ - Bước 2: Sử dụng cơng cụ giĩng hàng GIZA++ để tạo bảng giĩng hàng
A(V → E’)
- Bước 3: Sử dụng phần mềm MOSES để huấn luyện mơ hình dịch máy thống kê cặp ngơn ngữ Việt- Anh với bảng giĩng hàng từ A(V → E’) - Bước 4: Sử dụng cơng cụ KenLM để huấn luyện mơ hình ngơn ngữ trên
các câu phía tiếng Anh đã được chia nhỏ từ E’
Bước 5: Đánh giá hệ thống dịch máy bằng tập dữ liệu tst2013 Vì mơ hình dịch và mơ hình ngơn ngữ được được huấn luyện trên tập dữ liệu cĩ các câu phía tiếng Anh đã được chia nhỏ từ E’, nên câu thu được từ hệ thống này cũng đã được chia nhỏ từ, để tính điểm BLEU cần kết hợp các từ đã được chia nhỏ (decode) các câu thu được để so sánh với các câu tham chiếu (reference) trong tập tst2013
Hình 3 5 minh họa quá trình thử nghiệm của hệ thống SMT-BPE-A, trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet��
they had to be very qui_ et), sau đĩ huấn luyện mơ hình dịch trên các cặp câu vi-enbpe
huấn luyện trên các câu đã được chia nhỏ (they had to be very qui_ et) Trong quá trình đánh giá, vì mơ hình dịch huấn luyện trên kho song ngữ cĩ câu tiếng Anh đã được chia nhỏ nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh đã chia nhỏ (anh đã bao giờ tự gửi một tấm thiệp chưa ?�� have you ever sent yourself a post_ card ?),
cần thực hiện chuẩn hĩa (giải mã) các câu tiếng Anh (have you ever sent yourself a post_ card ?�� have you ever sent yourself a postcard ?) sau đĩ tính điểm BLEU để đánh giá hệ thống
Giai đoạn huấn luyện Giai đoạn đánh giá
Bước 1: chia nhỏ từ 2: giĩng hàng từ 3: Huấn luyện mơ hình dịch 4: Huấn luyện mơ hình ngơn
Vi: khán giả phải thực sự yên tĩnh En: they had to be very quiet Vi: khán giả phải thực sự yên tĩnh En: they had to be very qui_ et 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7
En: they had to be very qui_ et
Vi: anh đã bao giờ tự gửi một tấm thiệp chưa ?
ngữ
En: have you ever sent yourself a post_
5: Đánh giá hệ card ?
thống
En: have you ever sent yourself a postcard ?
Hình 3 5 Ví dụ huấn luyện hệ thống dịch máy chỉ áp dụng chia nhỏ từ Bảng 3 2 Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ
bằng kỹ thuật BPE sử dụng bảng giĩng hàng từ A
Kết quả thử nghiệm được trình bày trong Bảng 3 2 Kết quả này cho thấy, việc chỉ áp dụng chia nhỏ từ và thực hiện huấn luyện hệ thống dịch máy thống kê khiến cho hệ thống trở nên kém hơn so với hệ thống gốc, điểm BLEU giảm so với mơ hình baselineBLEU = 1,05 Điều này cĩ thể lý giải là do việc chia
Tiêu chí Hệ thống SMT(BPE)-A
BLEU 23,40
nhỏ từ đã làm thay đổi các câu dùng để huấn luyện mơ hình ngơn ngữ, mơ hình ngơn ngữ khơng cịn hiệu quả trong việc lựa chọn các câu dịch tốt nhất Việc chia nhỏ từ chỉ giúp ích cho cơng đoạn huấn luyện mơ hình dịch, trực tiếp ở đây là bảng giĩng hàng từ
3 4 4 Thử nghiệm mơ hình được cải tiến giĩng hàng từ sử dụng các kỹ thuậtchia nhỏ từ khác nhau chia nhỏ từ khác nhau
Trong phần này luận án tiến hành các thử nghiệm mơ hình giĩng hàng cải tiến được đề xuất cho hệ thống SMT cặp ngơn ngữ Việt - Anh với các kỹ thuật chia nhỏ từ khác nhau Các thử nghiệm được tiến hành với qui trình như sau:
- Sử dụng kỹ thuật chia nhỏ từ để chia nhỏ (encode) các từ thuộc phía tiếng Anh của kho ngữ liệu song ngữ “IWLST’15”
- Sử dụng phần mềm MOSES để huấn luyện mơ hình dịch máy thống kê cặp ngơn ngữ Việt- Anh
- Sử dụng cơng cụ giĩng hàng GIZA++ để tạo bảng giĩng hàng A - Áp dụng thuật tốn DecodeAlignmentTable (đã đề xuất ở Mục 3 3 3) để tạo bảng giĩng hàng từ A* từ bảng giĩng hàng từ A thu được ở bước trên - Sử dụng cơng cụ KenLM huấn luyện mơ hình ngơn ngữ trên các câu phía tiếng Anh gốc
- Đánh giá hệ thống dịch máy bằng tập dữ liệu tst2013
Hình 3 7 minh họa quá trình thử nghiệm của các hệ thống cĩ áp dụng chia nhỏ từ và chuẩn hĩa bảng giĩng hàng từ A* Trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet � they had to be very qui_ et), sau đĩ giĩng hàng từ trên các cặp câu vi-enbpe (khán giả phải thực sự yên tĩnh - they had to be very qui_ et), bảng giĩng hàng A được chuẩn hĩa thành bảng giĩng hàng A* theo thuật tốn mơ tả trong phần 3 3 3 () Mơ hình ngơn ngữ được huấn luyện trên các câu ban đầu (they had to be very quiet) Trong quá trình đánh giá, vì bảng
giĩng hàng đã được chuẩn hĩa thành giĩng hàng “từ”-“từ” nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh chuẩn (anh đã bao giờ tự gửi một tấm thiệp chưa ?�� have you ever sent yourself a post_ card ?), khơng cần thực hiện chuẩn hĩa (giải mã) các câu tiếng Anh và thực hiện tính điểm BLEU để đánh giá hệ thống
Giai đoạn huấn luyện Giai đoạn đánh giá Bước 1: chia nhỏ từ 2: giĩng hàng từ (A) 3: Chuẩn hĩa bảng giĩng hàng từ (A*) 4: Huấn luyện mơ hình dịch 5: Huấn luyện mơ hình ngơn ngữ 6: Đánh giá hệ thống
Vi: khán giả phải thực sự yên tĩnh En: they had to be very quiet Vi: khán giả phải thực sự yên tĩnh En: they had to be very qui_ et 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7 0-0 2-1 2-2 2-3 3-3 3-4 4-4 5-5 6-5 7-6
En: they had to be very quiet
Vi: anh đã bao giờ tự gửi một tấm thiệp chưa ?
En: have you ever sent yourself a postcard ?
Hình 3 6 Ví dụ huấn luyện hệ thống dịch máy áp dụng chia nhỏ từ kết hợp với chuẩn hĩa bảng giĩng hàng từ A*
Các thử nghiệm được tiến hành theo qui trình trên với các kỹ thuật chia nhỏ từ khác nhau bao gồm:
- Thử nghiệm sử dụng kỹ thuật chia nhỏ từ BPE với kích thước bảng từ vựng mục tiêu lần lượt là 4K (4 000), 5K (5 000), 6K (6000), 8K (8 000) Hệ thống thu được là SMT-BPE-A*
Bảng 3 3 dưới đây thống kê tuần suất xuất hiện các từ hiếm phía tiếng Anh khi sử dụng kỹ thuật chia nhỏ từ BPE với bảng từ vựng mục tiêu cĩ các kích thước khác nhau
Bảng 3 3 cho thấy việc chia nhỏ từ giảm kích thước bảng từ vựng, từ đĩ tăng tần suất xuất hiện của từ hiếm trong ngữ liệu huấn luyện, giảm các từ cĩ tần suất xuất hiện thấp (các từ hiếm)
Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE, sử dụng bảng A* để giĩng hàng từ được trình bày Bảng 3 4 (BLEU
là kết quả so sánh với baseline)
Bảng 3 4 Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE, sử dụng bảng A* để giĩng hàng từ
Ngữ liệu Kích thước bảng từ vựng Số lượng từ Số lượng từ xuất hiện <10 lần % từ xuất hiện <10 lần Số lượng từ xuất hiện <20 lần % từ xuất hiện <20 lần IWSLT2015 2 706 404 94 591 3,495 144 102 5,32 Sử dụng chia nhỏ từ BPE 4 000 3 307 167 544 0,016 1 576 0,048 5 000 3 216 123 760 0,024 2 382 0,074 6 000 3 149 614 1 058 0,033 3 488 0,111 8 000 3 057 980 1 847 0,060 6 347 0,208 Hệ thống: SMT(BPE)-A* Kích thước bảng từ vựng BLEU BLEU 4 000 24,86 0,41 5 000 25,11 0,66 6 000 24,65 0,20 8 000 24,82 0,27
- Thử nghiệm sử dụng kỹ thuật chia nhỏ từ Wordpiece được hệ thống
SMT-Wordpiece-A* Kết quả thử nghiệm thu được được trình bày trong Bảng 3 5 (BLEU là kết quả so sánh với baseline)
Bảng 3 5 Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật Wordpiece, sử dụng bảng A* để giĩng hàng từ
- Thử nghiệm sử dụng kỹ thuật chia nhỏ từ Unigram kích thước bảng từ vựng lần lượt được sử dụng là 4K (4 000), 5K (5 000), 6K (6000) được hệ thống
SMT-Unigram-A* Kết quả thử nghiệm được trình bày trong Bảng 3 6 (BLEU
là kết quả so sánh với baseline)
Bảng 3 6 Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật Unigram, sử dụng bảng A* để giĩng hàng từ
- Thử nghiệm sử dụng cơng cụ Morfessor 2 0 để chia nhỏ các từ thuộc phía tiếng Anh Thử nghiệm này gồm hai mơ hình chia nhỏ từ với các kho ngữ liệu đơn ngữ khác nhau:
(i) Đối với hệ thống SMT-Morfessor1-A* thì sử dụng các câu phía tiếng Anh của kho ngữ liệu huấn luyện “IWSLT2015”
(ii) Đối với hệ thống SMT-Morfessor2-A* thì sử dụng ngữ liệu đơn ngữ từ kho europarl-v7 en Hệ thống: SMT(Unigram)-A* Kích thước bảng từ vựng BLEU BLEU 4 000 24,73 0,28 5 000 24,80 0,35 6 000 24,69 0,24 Tiêu chí Hệ thống: SMT(Wordpiece)-A* BLEU 24,87 BLEU 0,42
Các kết quả thử nghiệm được trình bày trong Bảng 3 7 (BLEU là kết quả so sánh với baseline)
Bảng 3 7 Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng phương pháp Morfessor theo hai mơ hình, sử dụng bảng giĩng hàng từ
A*
Tổng hợp các kết quả của các thử nghiệm được trình bày trong Bảng 3 8 Từ kết quả cho thấy: việc áp dụng các kỹ thuật chia nhỏ từ khác nhau và sử dụng thuật tốn được đề xuất trong Mục 3 3 3 để xây dựng bảng giĩng hàng từ đều khiến cho hệ thống tốt hơn theo đánh giá bằng điểm BLEU Trong đĩ, sử dụng kỹ thuật BPE để chia nhỏ từ với kích thước bảng từ vựng là 5 000 cho kết quả điểm BLEU đạt được cao nhất, tăng 0,81 điểm đối với dịch máy cho cặp ngơn ngữ Việt - Anh
Các kết quả thử nghiệm trong phần này đã chứng minh được phương pháp cải tiến mơ hình giĩng hàng trong hệ thống dịch máy Việt – Anh sử dụng kỹ thuật chia nhỏ từ giúp nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngơn ngữ Việt - Anh
Bảng 3 8 Kết quả thử nghiệm với mơ hình giĩng hàng từ cải tiến bằng kỹ thuật chia nhỏ từ Hệ thống Kích thước bảng từ vựng BLEU BLEU Baseline 24,45 SMT-BPE-A 23,40 -1,05 SMT-BPE-A* 4 000 24,86 0,41 5 000 25,26 0,81 Hệ thống: SMT(Morfessor)-A* Dữ liệu
huấn luyện BLEU BLEU
IWSLT2015 (en) 24,46 0,01
3 5 Kết hợp hai phương pháp đề xuất với tập ngữ liệu EVB
Như đã trình bày trong Chương 2 của luận án, dịch ngược cĩ thể mang lại kết quả tốt hơn cho hệ SMT, nhất là đối với các cặp ngơn ngữ cĩ tài nguyên hạn chế Bên cạnh đĩ, trong chương 2 cũng thử nghiệm và đánh giá việc sử dụng tồn bộ dữ liệu giả lập thu được sau khi dịch ngược cĩ thể làm cho chất lượng của hệ thống dịch máy bị giảm sút, do đĩ cần phải cĩ phương pháp lựa chọn dữ liệu giả lập phù hợp để lựa chọn và thu được bộ ngữ liệu huấn luyện đủ tốt để huấn luyện hệ SMT
Trong các phần trước của chương này, luận án đã trình bày phương pháp chia nhỏ từ, cải tiến phương pháp giĩng hàng từ nhằm tăng chất lượng giĩng hàng từ, qua đĩ tăng chất lượng của hệ SMT Các thử nghiệm, đánh giá bằng điểm BLEU cho thấy: việc áp dụng kỹ thuật chia nhỏ từ với tham số thích hợp cĩ thể giúp tăng chất lượng của hệ SMT
Dịch ngược nằm trong bước tiền xử lý dữ liệu, chia nhỏ từ thuộc bước huấn luyện hệ dịch, do đĩ luận án đề xuất kết hợp hai phương pháp: dịch ngược với độ đo thích nghi và chia nhỏ từ với cải tiến giĩng hàng từ nhằm làm tăng chất lượng của hệ SMT Mơ hình đề xuất được thể hiện trong Hình 3 5 Trong phần này, luận án cũng thực hiện các thử nghiệm với bộ song ngữ EVB của tác giả Ngơ Quốc Hưng (file EVBCorpus_EVBNews_v2 0 rar ) tải về từ địa chỉ https://sites google com/a/uit edu vn/hungnq/evbcorpus
6 000 24,65 0,20 8 000 24,82 0,27 SMT-Wordpiece-A* 24,87 0,42 SMT-Unigram-A* 4 000 24,73 0,28 5 000 24,80 0,35 6 000 24,69 0,24 SMT-Morfessor1-A* 24,46 0,01 SMT-Morfessor2-A* 24,95 0,50
3 5 1 Mơ hình đề xuất kết hợp dịch ngược và chia nhỏ từ
Mơ hình kết hợp được thể hiện trong Hình 3 7 Trong đĩ, ngữ liệu huấn luyện ban đầu sẽ được dịch ngược ở phía ngơn ngữ đích, sau đĩ áp dụng các kỹ thuật lựa chọn thích nghi đã đề cập trong Chương 2 để lựa chọn câu phía đích, kết hợp với các câu phía nguồn tương ứng để tạo ra các cặp câu song ngữ giả lập Các cặp câu song ngữ giả lập này kết hợp với kho ngữ liệu ban đầu để tạo thành kho ngữ liệu huấn luyện đầy đủ Các câu phía đích của kho ngữ liệu đầy đủ được sử dụng để huấn luyện mơ hình ngơn ngữ phía đích Khi đưa kho ngữ liệu đầy đủ vào huấn luyện hệ SMT, các câu phía đích được chia nhỏ bằng các phương pháp chia nhỏ đã trình bày trong Chương 3 Các câu đã được chia nhỏ phía đích kết hợp với các câu phía nguồn để tạo thành kho ngữ liệu huấn luyện đã chia nhỏ trong khi khi thực hiện huấn luyện giĩng hàng từ trên kho ngữ liệu huấn luyện đã chia nhỏ, kỹ thuật cải tiến phương pháp giĩng hàng từ được áp dụng để thu được bảng giĩng hàng từ đã được chuẩn hĩa Bảng giĩng hàng từ này được sử dụng để tiếp tục huấn luyện hệ SMT
Kho song ngữ huấn luyện
Chuẩn hĩa dữ liệu
Dịch ngược các câu phía đích Lựa chọn thích nghi các câu giả lập Kho song ngữ giả lập Kho song ngữ đầy đủ Chia nhỏ từ (subword) phía tiếng Anh
Trích rút cụm từ Giĩng hàng từ (tạo bảng giĩng hàng A)
Chuẩn hĩa bảng giĩng hàng (Tạo bảng giĩng hàng A*)
Huấn luyện mơ hình ngơn ngữ
Sinh mơ hình dịch Tinh chỉnh tham số
Kho song ngữ kiểm chứng
Hệ thống
dịch máy thống kê Đánh giá hệ thống
Kho song ngữ đánh giá
Hình 3 7 Mơ hình kết hợp dịch ngược và chia nhỏ từ
3 5 2 Dữ liệu và mơi trường thử nghiệm
Dữ liệu sử dụng để thử nghiệm là bộ dữ liệu EVB của tác giả Ngơ Quốc Hưng (https://sites google com/a/uit edu vn/hungnq/evbcorpus), bộ dữ liệu bao
gồm 1 000 văn bản song ngữ Việt – Anh, sau khi chuẩn hĩa dữ liệu, bộ dữ liệu cĩ 45 308 cặp câu song ngữ từ bộ dữ liệu này, NCS chọn ra ngẫu nhiên 1 482 cặp câu để làm dữ liệu tinh chỉnh tham số, 1 527 cặp câu để làm dữ liệu đánh
giá, phân cịn lại 42 299 cặp câu để làm dữ liệu huấn luyện Mơ tả đặc điểm của các tập dữ liệu mơ tả trong bảng 3 9
Bảng 3 9 Các bộ dữ liệu sử dụng trong các thử nghiệm