Đánh giá hiệu quả của phương pháp lựa chọn câu giả- 123docz.net

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

2.4. Thử nghiệm và đánh giá các kết quả

2.4.5. Đánh giá hiệu quả của phương pháp lựa chọn câu giả lập dựa trên các

độ đo thích nghi

- Hiệu quả của độ đo thích nghi theo hiệu

Để đánh giá hiệu quả của độ đo thích nghi theo hiệu được đề xuất trong Mục 2.3.3, luận án tiến hành thử nghiệm như sau: Đầu tiên áp dụng kỹ thuật dịch ngược để sinh các các câu tiếng Anh từ kho ngữ liệu “IWLST’15” gốc. Tiếp theo, sử dụng các độ đo thích nghi hiệu đã được đề xuất trong Mục 2.3.3 để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu tiếng Anh được đánh giá “tốt” và ghép với câu tiếng Việt gốc thành cặp câu giả lập thêm vào dữ liệu

huấn luyện gốc tạo thành kho ngữ liệu huấn luyện mới “IWLST’15 + VE*” .

Độ đo thích nghi theo theo hiệu được thử nghiệm với các giá trị ngưỡng 𝜃𝐻 khác nhau bao gồm 10, 0, -10, -20, -30; Khi thay đổi các giá trị ngưỡng 𝜃𝐻 khác nhau thì số lượng cặp câu giả lập thu được để tăng cường dữ liệu huấn luyện là khác nhau. Với mỗi giá trị 𝜃𝐻 thì thu được một kho ngữ liệu huấn luyện mới và

dùng nó để huấn luyện mơ hình dịch máy thống kê Việt- Anh. Mơ hình dịch thu được sau khi huấn luyện được đánh giá bằng điểm BLEU và BLEU_c. Sau cùng sẽ so sánh điểm BLEU của mơ hình dịch huấn luyện với dữ liệu được tăng cường, và điểm BLEU của mơ hình dịch được huấn luyện với kho ngữ liệu gốc để đánh giá hiệu quả của độ đo thích nghi theo hiệu đã đề xuất.

Các kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES được trình bày ở Bảng 2.4. với:

Bảng 2.5 cho thấy khi áp dụng kỹ thuật dịch ngược với độ đo thích nghi

theo hiệu để lựa chọn câu “tốt” bổ sung cho dữ liệu huấn luyện thì điểm BLEU của mơ hình dịch thu được đều tăng lên và giá trị tăng cao nhất là ∆𝐵𝐿𝐸𝑈= 0,31

khi áp dụng ngưỡng 𝜃𝐻 = −20 . Trong khi đó kết quả thử nghiệm ở Mục 2.3.4

cho thấy nếu chỉ áp dụng kỹ thuật dịch ngược mà không áp dụng các độ đo

thích nghi để lựa chọn dữ liệu tăng cường thì điểm BLEU của mơ hình khơng

tăng (thậm chí cịn bị giảm ∆𝐵𝐿𝐸𝑈= −0,06).

Bảng 2.5. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo hiệu với các ngưỡng khác nhau

N0 N1 NS Điểm

BLEU BLEU Ttrain IDev TTest

Với dữ liệu huấn luyện IWSLT15 (không sử dụng BT) 133.317 133.317 24,45 Thêm toàn bộ câu BT vào dữ liệu huấn luyện 133.317 133.317 266.634 24,39 -0,06 H>10 133.317 28.457 161.864 24,44 -0,01 50 7 42 H>0 133.317 46.443 179.760 23,53 -0,92 49 2 34 H < 0 133.317 72.394 205.711 24,62 0,17 54 10 44 H < -10 133.317 50144 183.416 24,50 0,05 54 9 44 H < -20 133.317 38.520 171.837 24,76 0,31 49 5 43 Với H < -30 133.317 31.158 164.475 24,29 -0,16 47 6 43 Trong đó:

N0: Số lượng cặp câu ban đầu N1: Số lượng cặp câu tăng cường NS = N0 + N1

BLEU : Điểm BLEU của hệ thống thử nghiệm so với điểm BLEU của baseline

Ttrain : thời gian huấn luyện (phút)

IDev : Số vịng lặp tinh chỉnh tham số của mơ hình Ttest: thời gian chạy bộ dữ liệu test (phút)

Hình 2.6. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo hiệu với các ngưỡng khác nhau

-Hiệu quả của độ đo thích nghi theo tỉ lệ:

Để đánh giá hiệu quả của độ đo thích nghi theo tỉ lệ được đề xuất trong Mục 2.3.3, luận án tiến hành thử nghiệm tương tự như thử nghiệm đánh giá hiệu quả của độ đo thích nghi theo hiệu. Tuy nhiên, độ đo thích nghi theo tỉ lệ được thử nghiệm với các giá trị ngưỡng 𝜃𝑇 khác nhau bao gồm 0,5, 0,4, 0,3,

0,25, 0,2. Khi thay đổi các giá trị ngưỡng 𝜃𝑇⁡khác nhau thì số lượng cặp câu giả lập thu được để tăng cường dữ liệu huấn luyện cũng sẽ khác nhau. Với mỗi

giá trị 𝜃𝑇 thì thu được một kho ngữ liệu huấn luyện mới và dùng nó để huấn luyện mơ hình dịch máy thống kê Việt- Anh.

0 500 1000 1500 2000 2500 3000 3500 4000 4500

Với H < 0 Với H < -10 Với H < -20 Với H < -30

DBLEU

Điểm BLEU-c

Điểm BLEU

Tổng số lượng cặp câu của dữ liệu huấn luyện

Tương tự như thử nghiệm ở phần đánh giá hiệu quả của độ đo thích nghi theo hiệu, mơ hình dịch thu được sau khi huấn luyện được đánh giá bằng điểm BLEU và BLEU_c, điểm BLEU của mơ hình dịch huấn luyện với dữ liệu được tăng cường và điểm BLEU của mơ hình dịch được huấn luyện với kho ngữ liệu gốc được so sánh để đánh giá hiệu quả của độ đo thích nghi theo tỉ lệ đã đề xuất.

Các kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES được trình bày ở Bảng 2.6. Bảng này cho thấy khi áp dụng kỹ thuật dịch ngược với độ đo thích nghi theo tỉ lệ để lựa chọn câu “tốt” bổ sung cho dữ liệu huấn luyện thì điểm BLEU của mơ hình dịch thu được cũng đều tăng lên và giá trị tăng cao

nhất là ∆𝐵𝐿𝐸𝑈= 0,79 khi áp dụng ngưỡng 𝜃𝑇 = 0,25.

Bảng 2.6. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo tỉ lệ với các ngưỡng khác nhau

N0 N1 NS Điểm

BLEU

Điểm BLEU-

BLEU Ttrain IDev TTest

Với dữ liệu huấn luyện IWSLT15 (không sử dụng BT) 133.317 133.317 24,45 24,05 Thêm toàn bộ câu BT vào dữ liệu huấn luyện 133.317 133.317 266.634 24,39 23,95 -0,06 T < 0,5 133.317 25.093 158.410 24,58 24,20 0,13 48 10 47 T < 0,4 133.317 18.314 151.631 24,37 23,95 -0,08 48 8 48 T < 0,3 133.317 15.044 148.361 24,55 24,13 0,1 47 8 49 T < 0,25 133.317 8.926 142.243 25,24 24,84 0,79 45 9 44 T < 0,2 133.317 6.149 139.466 24,76 24,36 0,31 47 6 43

Trong đó:

N0: Số lượng cặp câu ban đầu N1: Số lượng cặp câu tăng cường NS = N0 + N1

BLEU : Điểm BLEU của hệ thống thử nghiệm so với điểm BLEU của baseline

Ttrain : thời gian huấn luyện (phút)

IDev : Số vòng lặp tinh chỉnh tham số của mơ hình Ttest: thời gian chạy bộ dữ liệu test (phút)

Hình 2.7. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo tỉ lệ với các ngưỡng khác nhau

- Hiệu quả của phương pháp lựa chọn câu dựa trên các độ đo thích nghi

Bảng 2.7 là tổng hợp kết quả của các thử nghiệm sử dụng phương pháp lựa chọn câu dựa trên các độ đo thích nghi với ngưỡng khác nhau. Bảng này cho thấy việc sử dụng phương pháp tăng cường dữ liệu sử dụng kỹ thuật dịch ngược và lựa chọn thích nghi đã giúp nâng cao độ chính xác cho mơ hình dịch máy thống kê Việt - Anh, trong đó việc sử dụng độ đo thích nghi theo tỉ lệ cho phép nâng cao điểm BLEU nhiều hơn so với độ đo thích nghi theo hiệu.

0 500 1000 1500 2000 2500 3000 3500

Với T < 0,5 Với T < 0,4 Với T < 0,3

DBLEU

Điểm BLEU-c Điểm BLEU

Bảng 2.7. Kết quả thử nghiệm phương pháp lựa chọn câu giả lập theo các độ đo thích nghi với ngưỡng khác nhau trên hệ thống MOSES

N0 N1 NS Điểm BLEU Điểm BLEU- c BLEU Với dữ liệu huấn luyện IWSLT15 (không sử dụng BT) 133.317 133.317 24,45 24,05 Thêm toàn bộ câu BT vào dữ liệu huấn luyện 133.317 133.317 266.634 24,39 23,95 -0,06 H < 0 133.317 72.394 205.711 24,62 24,22 0,17 H < -10 133.317 50144 183.416 24,50 24,04 0,05 H < -20 133.317 38.520 171.837 24,76 24,35 0,31 H < -30 133.317 31.158 164.475 24,29 23,91 -0,16 T < 0,5 133.317 25.093 158.410 24,58 24,20 0,13 T < 0,4 133.317 18.314 151.631 24,37 23,95 -0,08 T < 0,3 133.317 15.044 148.361 24,55 24,13 0,1 T < 0,25 133.317 8.926 142.243 25,24 24,84 0,79 T < 0,2 133.317 6.149 139.466 24,76 24,36 0,31 Trong đó:

N0: Số lượng cặp câu ban đầu N1: Số lượng cặp câu tăng cường NS = N0 + N1

Đánh giá hiệu quả của phương pháp lựa chọn câu giả lập dựa trên các

Bộ mã hóa tự động

Gióng hàng từ trong dịch máy thống kê