Sau khi áp dụng kỹ thuật dịch ngược BT đối với bộ dữ liệu trung gian, trong trường hợp này là bộ song ngữ EN-DE-EN, ta sẽ thu được các câu giả lập tiếng Anh với số lượng tối đa bằng số câu tiếng Anh trong bộ dữ liệu ban đầu Nếu bổ sung tồn bộ các câu giả lập này vào bộ dữ liệu tiếng Anh ban đầu ta cĩ thể thu được bộ dữ liệu cĩ số lượng lớn hơn Tuy nhiên, điều này khơng đồng nghĩa với việc tăng cường chất lượng mơ hình dịch máy Kết quả thử nghiệm trong trường hợp lấy tồn bộ dữ liệu giả lập thu được từ quá trình BT đưa vào mơ hình dịch máy cho kết quả kém hơn trước khi tăng cường dữ liệu Điều này cĩ thể giải thích nguyên nhân từ việc một số lượng các câu giả lập thu được sau quá trình BT cĩ chất lượng khơng “tốt” Để tăng cường dữ liệu cho mơ hình dịch máy bằng việc bổ sung các câu “tốt” cần phải cĩ phương pháp lựa chọn câu giả lập một cách thích hợp Để giải quyết bài tốn này, luận án đề xuất phương pháp lựa chọn theo độ đo thích nghi dựa trên độ hỗn loạn thơng tin perplexity
Độ hỗn loạn thơng tin perplexity [12] là một trong những độ đo phổ biến nhất để đánh giá các mơ hình ngơn ngữ Perplexity thường được sử dụng như
một thước đo để đánh giá khả năng dự đốn dữ liệu thử nghiệm của một mơ hình ngơn ngữ (về cơ bản là phân phối xác suất trên các câu, cụm từ, chuỗi từ, v v ) Trong một mơ hình ngơn ngữ, độ hỗn loạn thơng tin perplexity của một bộ dữ liệu cĩ từ X chính là số từ cĩ thể đi sau từ X Do vậy, cĩ thể hiểu độ hỗn loạn thơng tin perplexity một cách đơn giản là sự lựa chọn từ trung bình mà một mơ hình ngơn ngữ phải đưa ra quyết định Độ hỗn loạn thơng tin perplexity càng thấp dẫn tới mơ hình ngơn ngữ sẽ gán xác suất cao hơn cho dữ liệu kiểm tra (tức là nĩ cĩ khả năng dự đốn các câu trong dữ liệu kiểm tra rất tốt), tức là độ chính xác của mơ hình ngơn ngữ càng cao
Để đánh giá độ hỗn loạn thơng tin perplexity cho cả mơ hình ngơn ngữ cần phải đánh giá độ hỗn loạn thơng tin perplexity của từng câu và vì vậy độ hỗn loạn thơng tin perplexity cũng cĩ thể áp dụng cho các câu Đối với tập hợp thử nghiệm cĩ các từ � = �1, �2, … ��, độ hỗn loạn thơng tin perplexity của mơ hình trên tập thử nghiệm được tính theo cơng thức:
� 1
��1�2…��) (2 1)
Ở đây lưu ý rằng độ hỗn loạn thơng tin perplexity được chuẩn hĩa bởi số lượng từ Trong cơng thức trên: P (w1 w2 … wn) là xác suất cĩ điều kiện (tiền nghiệm) và perplexity được tính theo cơng thức sau:
�
�(��|�1�2…��−1) 1
(2 2) Dựa vào cơng thức ta thấy rằng, xác suất cĩ điều kiện của cụm từ càng cao thì độ hỗn loạn thơng tin càng thấp Vì vậy, giảm thiểu độ hỗn loạn thơng tin đồng nghĩa việc tăng cực đại của tập thử nghiệm tương ứng với mơ hình ngơn ngữ
Bên cạnh đĩ, cũng cần lưu ý độ hỗn loạn thơng tin perplexity khơng phải là một cách xác định chắc chắn về tính hữu dụng của một mơ hình ngơn ngữ Một mơ hình cĩ độ hỗn loạn thơng tin perplexity thấp trên tập thử nghiệm cĩ thể khơng hoạt động tốt như nhau trong ứng dụng thế giới thực mà ở đĩ dữ liệu của nĩ cĩ thể khơng được lấy từ cùng một phân phối như tập thử nghiệm Tuy nhiên, do thiếu các phương tiện hiệu quả để đánh giá mơ hình ngơn ngữ, độ
����������(�) = √∏��=1
hỗn loạn thơng tin perplexity là một thước đo hữu ích để so sánh các mơ hình ngơn ngữ
Từ phân tích trên, luận án đề xuất chọn độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu cĩ perplexity thấp, loại bỏ các câu cĩ perplexity cao Cách đơn giản nhất để thực hiện là so sánh perplexity của câu với một ngưỡng hằng số � và chỉ lựa chọn các câu thỏa mãn điều kiện sau:
����������(�′) < � (2 3)
Với �′ là câu được sinh ra bằng kỹ thuật BT từ câu gốc � Tuy nhiên, vấn đề với cách lựa chọn này từ đặc tính của độ đo perplexity là câu càng dài thì �(�1�2 … �� ) càng thấp và vì vậy perplexity càng cao Do đĩ, việc lựa chọn một ngưỡng hằng số là khơng hợp lý và vì nĩ sẽ loại bỏ các câu dài, trong khi thực tế cho thấy các câu dài vẫn là câu “tốt”, câu ngắn hơn giữ lại chưa chắc đã “tốt” hơn Việc bổ sung câu giả lập khơng “tốt” vào kho ngữ liệu sẽ làm giảm hiệu suất mơ hình dịch máy Do đĩ, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ để đánh giá perplexity của câu �′ theo tương quan với perplexity của câu gốc �
- Độ đo thích nghi theo hiệu được đề xuất như sau:
� = ����������(�′) − ����������(�) (2 4)
Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện � < �� , trong đĩ �� là giá trị ngưỡng
-Độ đo thích nghi theo tỉ lệ được đề xuất như sau:
� = ��������������������( (� �′)) (2 5) Phương pháp lựa chọn thích nghi theo tỉ lệ lựa chọn các câu thỏa mãn điều kiện � < �� , trong đĩ �� là giá trị ngưỡng
Theo phương pháp này, độ đo perplexity của câu giả lập sẽ được so sánh sự chênh lệch với độ đo perplexity của câu gốc và khơng so sánh với ngưỡng tuyệt đối � của cả kho ngữ liệu huấn luyện Các ngưỡng �� và �� sẽ là các ngưỡng mềm dẻo hơn, từ đĩ cĩ thể giữ lại được các câu giả lập tốt hơn câu gốc khơng phụ thuộc vào độ dài của câu
Hình 2 4 dưới đây mơ tả thuật tốn lựa chọn câu giả lập dựa trên các độ đo thích nghi
Trong thuật tốn cĩ sử dụng hàm perplexity(s) là hàm tính độ phức tạp của câu s trong mơ hình ngơn ngữ, hàm AdaptiveMeasure(p,p’) là hàm tính độ đo thích nghi theo hiệu hoặc theo tỷ lệ được đề xuất, tham số là tham số để đánh giá độ thích nghi của câu e’ so với câu e
Thuật tốn Lựa chọn câu giả lập
Input:�; Tập các cặp câu song ngữ ban đầu (V,E), Tập các câu tiếng Anh nhận được sau khi dịch qua ngơn ngữ trung gian E’
Output: Tập các cặp câu giả lập (V*,E*) 1: V* ← ; E* ←
2: For each e’ in E’
3: 4: 5: 6: 7: 8: 9:
e ← Câu tiếng Anh tương ứng với e’ v ← Câu tiếng Việt tương ứng với e p ←perplexity(e) p’ ←perplexity(e’) If AdaptiveMeasure (p,p’)< V* ← v E* ← e 10: Return(V*,E*)
Hình 2 4 Thuật tốn lựa chọn câu giả lập