7. Bố cục của luận án
2.3.3. xuất các độ đo thích nghi để lựa chọn dữ liệu giả lập
Sau khi áp dụng kỹ thuật dịch ngược BT đối với bộ dữ liệu trung gian, trong trường hợp này là bộsong ngữ EN-DE-EN, ta sẽ thu được các câu giả lập tiếng Anh với số lượng tối đa bằng số câu tiếng Anh trong bộ dữ liệu ban đầu. Nếu bổ sung tồn bộ các câu giả lập này vào bộ dữ liệu tiếng Anh ban đầu ta cĩ thể thu được bộ dữ liệu cĩ số lượng lớn hơn. Tuy nhiên, điều này khơng đồng nghĩa với việc tăng cường chất lượng mơ hình dịch máy. Kết quả thử nghiệm trong trường hợp lấy tồn bộ dữ liệu giả lập thu được từ quá trình BT đưa vào mơ hình dịch máy cho kết quả kém hơn trước khi tăng cường dữ liệu. Điều này cĩ thể giải thích nguyên nhân từ việc một số lượng các câu giả lập thu được sau quá trình BT cĩ chất lượng khơng “tốt”. Để tăng cường dữ liệu cho mơ hình dịch máy bằng việc bổ sung các câu “tốt” cần phải cĩ phương pháp lựa chọn câu giả lập một cách thích hợp. Để giải quyết bài tốn này, luận án đề xuất phương pháp lựa chọn theo độ đo thích nghi dựa trên độ hỗn loạn thơng
tin perplexity.
Độ hỗn loạn thơng tin perplexity [12] là một trong những độ đo phổ biến nhất để đánh giá các mơ hình ngơn ngữ. Perplexity thường được sử dụng như
một thước đo để đánh giá khả năng dự đốn dữ liệu thử nghiệm của một mơ hình ngơn ngữ (về cơ bản là phân phối xác suất trên các câu, cụm từ, chuỗi từ, v.v.). Trong một mơ hình ngơn ngữ, độ hỗn loạn thơng tin perplexity của một bộ dữ liệu cĩ từ X chính là số từ cĩ thể đi sau từ X. Do vậy, cĩ thể hiểu độ hỗn loạn thơng tin perplexity một cách đơn giản là sự lựa chọn từ trung bình mà một mơ hình ngơn ngữ phải đưa ra quyết định. Độ hỗn loạn thơng tin perplexity càng thấp dẫn tới mơ hình ngơn ngữ sẽ gán xác suất cao hơn cho dữ liệu kiểm tra (tức là nĩ cĩ khả năng dự đốn các câu trong dữ liệu kiểm tra rất tốt), tức là độ chính xác của mơ hình ngơn ngữ càng cao.
Để đánh giá độ hỗn loạn thơng tin perplexity cho cả mơ hình ngơn ngữ
cần phải đánh giá độ hỗn loạn thơng tin perplexity của từng câu và vì vậy độ
hỗn loạn thơng tin perplexity cũng cĩ thể áp dụng cho các câu. Đối với tập hợp thử nghiệm cĩ các từ 𝑊 = 𝑤1, 𝑤2, … 𝑤𝑛, độ hỗn loạn thơng tin perplexity của mơ hình trên tập thử nghiệm được tính theo cơng thức:
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √𝑃 (𝑤 1
1𝑤2…𝑤𝑛)
𝑛
(2. 1)
Ở đây lưu ý rằng độ hỗn loạn thơng tin perplexity được chuẩn hĩa bởi số lượng từ. Trong cơng thức trên: P (w1 w2… wn) là xác suất cĩ điều kiện (tiền nghiệm) và perplexity được tính theo cơng thức sau:
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √∏ 𝑝(𝑤 1 𝑖|𝑤1𝑤2…𝑤𝑖−1) 𝑛 𝑖=1 𝑛 (2. 2)
Dựa vào cơng thức ta thấy rằng, xác suất cĩ điều kiện của cụm từ càng cao thì độ hỗn loạn thơng tin càng thấp. Vì vậy, giảm thiểu độ hỗn loạn thơng tin đồng nghĩa việc tăng cực đại của tập thử nghiệm tương ứng với mơ hình ngơn ngữ.
Bên cạnh đĩ, cũngcần lưu ý độ hỗn loạn thơng tin perplexity khơng phải là một cách xác định chắc chắn về tính hữu dụng của một mơ hình ngơn ngữ. Một mơ hình cĩ độ hỗn loạn thơng tin perplexity thấp trên tập thử nghiệm cĩ thể khơng hoạt động tốt như nhau trong ứng dụng thế giới thực mà ở đĩ dữ liệu của nĩ cĩ thể khơng được lấy từ cùng một phân phối như tập thử nghiệm. Tuy nhiên, do thiếu các phương tiện hiệu quả để đánh giá mơ hình ngơn ngữ, độ
hỗn loạn thơng tin perplexity là một thước đo hữu ích để so sánh các mơ hình
ngơn ngữ.
Từ phân tích trên, luận án đề xuất chọn độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu cĩ perplexity thấp, loại bỏ các câu cĩ perplexity cao. Cách đơn giản nhất để thực hiện là so sánh perplexity của câu với một ngưỡng hằng số𝜃 và chỉ lựa chọn các câu thỏa mãn điều kiện sau:
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) < 𝜃 (2. 3) Với 𝑠′là câu được sinh ra bằng kỹ thuật BT từ câu gốc 𝑠. Tuy nhiên, vấn đề với cách lựa chọn này từ đặc tính của độ đo perplexity là câu càng dài thì 𝑃(𝑤1𝑤2… 𝑤𝑛) càng thấp và vì vậy perplexity càng cao. Do đĩ, việc lựa chọn một ngưỡng hằng số là khơng hợp lý và vì nĩ sẽ loại bỏ các câu dài, trong khi thực tế cho thấy các câu dài vẫn là câu “tốt”, câu ngắn hơn giữ lại chưa chắc đã “tốt” hơn. Việc bổ sung câu giả lập khơng “tốt” vào kho ngữ liệu sẽ làm giảm hiệu suất mơ hình dịch máy. Do đĩ, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệđểđánh
giá perplexity của câu 𝑠′ theo tương quan với perplexity của câu gốc 𝑠.
- Độđo thích nghi theo hiệu được đề xuất như sau:
𝐻 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) − 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) (2. 4)
Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn
điều kiện 𝐻 < 𝜃𝐻, trong đĩ 𝜃𝐻 là giá trịngưỡng.
-Độđo thích nghi theo tỉ lệ được đề xuất như sau:
𝑇 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′)
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) (2. 5)
Phương pháp lựa chọn thích nghi theo tỉ lệ lựa chọn các câu thỏa mãn
điều kiện 𝑇 < 𝜃𝑇, trong đĩ 𝜃𝑇 là giá trị ngưỡng.
Theo phương pháp này, độ đo perplexity của câu giả lập sẽ được so sánh sự chênh lệch với độ đo perplexity của câu gốc và khơng so sánh với ngưỡng tuyệt đối 𝜃 của cả kho ngữ liệu huấn luyện. Các ngưỡng 𝜃𝐻 và 𝜃𝑇 sẽ là các ngưỡng mềm dẻo hơn, từ đĩ cĩ thể giữ lại được các câu giả lập tốt hơn câu gốc khơng phụ thuộc vào độ dài của câu.
Hình 2.4 dưới đây mơ tả thuật tốn lựa chọn câu giả lập dựa trên các độ đo thích nghi
Trong thuật tốn cĩ sử dụng hàm perplexity(s) là hàm tính độ phức tạp của câu strong mơ hình ngơn ngữ, hàm AdaptiveMeasure(p,p’) là hàm tính độ đo thích nghi theo hiệu hoặc theo tỷ lệ được đề xuất, tham số là tham sốđể đánh giá độ thích nghi của câu e’ so với câu e.
Thuật tốnLựa chọn câu giả lập
Input: 𝜃; Tập các cặp câu song ngữ ban đầu (V,E), Tập các câu tiếng Anh nhận được sau khi dịch qua ngơn ngữ trung gian E’
Output:Tập các cặp câu giả lập (V*,E*)
1: V* ← ; E* ← 2: For eache’ inE’
3: e ←Câu tiếng Anh tương ứng với e’
4: v ←Câu tiếng Việt tương ứng với e
5: p←perplexity(e) 6: p’←perplexity(e’) 7: If AdaptiveMeasure (p,p’)< 8: V* ← v 9: E* ← e 10: Return(V*,E*)
Hình 2.4. Thuật tốn lựa chọn câu giả lập