7. Bố cục của luận án
2.4.5. Đánh giá hiệu quả của phương pháp lựa chọn câu giả lập dựa trên các
độ đo thích nghi
- Hiệu quả của độ đo thích nghi theo hiệu
Để đánh giá hiệu quả của độ đo thích nghi theo hiệu được đề xuất trong Mục 2.3.3, luận án tiến hành thử nghiệm như sau: Đầu tiên áp dụng kỹ thuật dịch ngược để sinh các các câu tiếng Anh từ kho ngữ liệu “IWLST’15” gốc. Tiếp theo, sử dụng các độ đo thích nghi hiệu đã được đề xuất trong Mục 2.3.3 để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu tiếng Anh được đánh giá “tốt” và ghép với câu tiếng Việt gốc thành cặp câu giả lập thêm vào dữ liệu huấn luyện gốc tạo thành kho ngữ liệu huấn luyện mới “IWLST’15 + VE*” . Độ đo thích nghi theo theo hiệu được thử nghiệm với các giá trị ngưỡng ��
khác nhau bao gồm 10, 0, -10, -20, -30; Khi thay đổi các giá trị ngưỡng �� khác nhau thì số lượng cặp câu giả lập thu được để tăng cường dữ liệu huấn luyện là khác nhau. Với mỗi giá trị �� thì thu được một kho ngữ liệu huấn luyện mới và dùng nĩ để huấn luyện mơ hình dịch máy thống kê Việt- Anh. Mơ hình dịch thu được sau khi huấn luyện được đánh giá bằng điểm BLEU và BLEU_c. Sau
cùng sẽ so sánh điểm BLEU của mơ hình dịch huấn luyện với dữ liệu được tăng cường, và điểm BLEU của mơ hình dịch được huấn luyện với kho ngữ liệu gốc để đánh giá hiệu quả của độ đo thích nghi theo hiệu đã đề xuất.
Các kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES được trình bày ở Bảng 2.4. với:
Bảng 2.5 cho thấy khi áp dụng kỹ thuật dịch ngược với độ đo thích nghi theo hiệu để lựa chọn câu “tốt” bổ sung cho dữ liệu huấn luyện thì điểm BLEU của mơ hình dịch thu được đều tăng lên và giá trị tăng cao nhất là
∆���� = 0,31 khi áp dụng ngưỡng �� = −20 . Trong khi đĩ kết quả thử nghiệm ở Mục 2.3.4 cho thấy nếu chỉ áp dụng kỹ thuật dịch ngược mà khơng áp dụng các độ đo thích nghi để lựa chọn dữ liệu tăng cường thì điểm BLEU của mơ hình khơng tăng (thậm chí cịn bị giảm ∆����= −0,06).
Bảng 2.5. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo hiệu với các ngưỡng khác nhau
N0 N1 NS Điểm
BLEU BLEU Ttrain IDev TTest
Với dữ liệu huấn luyện IWSLT15
(khơng sử dụng
BT) 133.317 133.317 24,45
Thêm tồn bộ câu BT vào dữ
liệu huấn luyện 133.317 133.317 266.634 24,39 -0,06
H>10 133.317 28.457 161.864 24,44 -0,01 50 7 42 H>0 133.317 46.443 179.760 23,53 -0,92 49 2 34 H < 0 133.317 72.394 205.711 24,62 0,17 54 10 44 H < -10 133.317 50144 183.416 24,50 0,05 54 9 44 H < -20 133.317 38.520 171.837 24,76 0,31 49 5 43 Với H < -30 133.317 31.158 164.475 24,29 -0,16 47 6 43 Trong đĩ:
N0: Số lượng cặp câu ban đầu N1: Số lượng cặp câu tăng cường NS = N0 + N1
BLEU : Điểm BLEU của hệ thống thử nghiệm so với điểm BLEU của baseline
Ttrain : thời gian huấn luyện (phút)
IDev : Số vịng lặp tinh chỉnh tham số của mơ hình Ttest: thời gian chạy bộ dữ liệu test (phút)
Hình 2.6. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo hiệu với các ngưỡng khác nhau
-Hiệu quả của độ đo thích nghi theo tỉ lệ:
Để đánh giá hiệu quả của độ đo thích nghi theo tỉ lệ được đề xuất trong Mục 2.3.3, luận án tiến hành thử nghiệm tương tự như thử nghiệm đánh giá hiệu quả của độ đo thích nghi theo hiệu. Tuy nhiên, độ đo thích nghi theo tỉ lệ được thử nghiệm với các giá trị ngưỡng �� khác nhau bao gồm 0,5, 0,4, 0,3, 0,25, 0,2. Khi thay đổi các giá trị ngưỡng �� khác nhau thì số lượng cặp câu giả lập thu được để tăng cường dữ liệu huấn luyện cũng sẽ khác nhau. Với mỗi giá trị �� thì thu được một kho ngữ liệu huấn luyện mới và dùng nĩ để huấn luyện mơ hình dịch máy thống kê Việt- Anh.
4500 4000 3500 3000 DBLEU 2500 Điểm BLEU-c 2000 1500 Điểm BLEU 1000 500
Tổng số lượng cặp câu của dữ liệu huấn luyện
0
Tương tự như thử nghiệm ở phần đánh giá hiệu quả của độ đo thích nghi theo hiệu, mơ hình dịch thu được sau khi huấn luyện được đánh giá bằng điểm BLEU và BLEU_c, điểm BLEU của mơ hình dịch huấn luyện với dữ liệu được tăng cường và điểm BLEU của mơ hình dịch được huấn luyện với kho ngữ liệu gốc được so sánh để đánh giá hiệu quả của độ đo thích nghi theo tỉ lệ đã đề xuất.
Các kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES được trình bày ở Bảng 2.6. Bảng này cho thấy khi áp dụng kỹ thuật dịch ngược với độ đo thích nghi theo tỉ lệ để lựa chọn câu “tốt” bổ sung cho dữ liệu huấn luyện thì điểm BLEU của mơ hình dịch thu được cũng đều tăng lên và giá trị tăng cao nhất là ∆����= 0,79 khi áp dụng ngưỡng ��= 0,25.
Bảng 2.6. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo tỉ lệ với các ngưỡng khác nhau
N0 N1 NS Điểm BLEU
Điểm BLEU-
c BLEU Ttrain IDev TTest
Với dữ liệu huấn luyện IWSLT15 (khơng sử dụng BT) 133.317 133.317 24,45 24,05 Thêm tồn bộ câu BT vào dữ liệu huấn luyện 133.317 133.317 266.634 24,39 23,95 -0,06 T < 0,5 133.317 25.093 158.410 24,58 24,20 0,13 48 10 47 T < 0,4 133.317 18.314 151.631 24,37 23,95 -0,08 48 8 48 T < 0,3 133.317 15.044 148.361 24,55 24,13 0,1 47 8 49 T < 0,25 133.317 8.926 142.243 25,24 24,84 0,79 45 9 44 T < 0,2 133.317 6.149 139.466 24,76 24,36 0,31 47 6 43
Trong đĩ:
N0: Số lượng cặp câu ban đầu N1: Số lượng cặp câu tăng cường NS = N0 + N1
BLEU : Điểm BLEU của hệ thống thử nghiệm so với điểm BLEU của baseline Ttrain : thời gian huấn luyện (phút)
IDev : Số vịng lặp tinh chỉnh tham số của mơ hình Ttest: thời gian chạy bộ dữ liệu test (phút)
Hình 2.7. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo tỉ lệ với các ngưỡng khác nhau
- Hiệu quả của phương pháp lựa chọn câu dựa trên các độ đo thích nghi
Bảng 2.7 là tổng hợp kết quả của các thử nghiệm sử dụng phương pháp lựa chọn câu dựa trên các độ đo thích nghi với ngưỡng khác nhau. Bảng này cho thấy việc sử dụng phương pháp tăng cường dữ liệu sử dụng kỹ thuật dịch ngược và lựa chọn thích nghi đã giúp nâng cao độ chính xác cho mơ hình dịch máy thống kê Việt - Anh, trong đĩ việc sử dụng độ đo thích nghi theo tỉ lệ cho phép nâng cao điểm BLEU nhiều hơn so với độ đo thích nghi theo hiệu.
Với T < 0,3 Với T < 0,4 Với T < 0,5 500 0 Điểm BLEU 1000 Điểm BLEU-c 2000 1500 DBLEU 3500 3000 2500
Bảng 2.7. Kết quả thử nghiệm phương pháp lựa chọn câu giả lập theo các độ đo thích nghi với ngưỡng khác nhau trên hệ thống MOSES
N0 N1 NS Điểm BLEU Điểm BLEU- c BLEU Với dữ liệu huấn luyện IWSLT15 (khơng sử dụng BT) 133.317 133.317 24,45 24,05 Thêm tồn bộ câu BT vào dữ liệu huấn luyện 133.317 133.317 266.634 24,39 23,95 -0,06 H < 0 133.317 72.394 205.711 24,62 24,22 0,17 H < -10 133.317 50144 183.416 24,50 24,04 0,05 H < -20 133.317 38.520 171.837 24,76 24,35 0,31 H < -30 133.317 31.158 164.475 24,29 23,91 -0,16 T < 0,5 133.317 25.093 158.410 24,58 24,20 0,13 T < 0,4 133.317 18.314 151.631 24,37 23,95 -0,08 T < 0,3 133.317 15.044 148.361 24,55 24,13 0,1 T < 0,25 133.317 8.926 142.243 25,24 24,84 0,79 T < 0,2 133.317 6.149 139.466 24,76 24,36 0,31 Trong đĩ:
N0: Số lượng cặp câu ban đầu N1: Số lượng cặp câu tăng cường NS = N0 + N1