xuất các độ đo thích nghi để lựa chọn dữ liệu giả- 123docz.net

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

2.3. Đề xuất phương pháp tăng cường dữ liệu huấn luyện cho hệ thống dịch

2.3.3. xuất các độ đo thích nghi để lựa chọn dữ liệu giả lập

Sau khi áp dụng kỹ thuật dịch ngược BT đối với bộ dữ liệu trung gian, trong trường hợp này là bộ song ngữ EN-DE-EN, ta sẽ thu được các câu giả lập tiếng Anh với số lượng tối đa bằng số câu tiếng Anh trong bộ dữ liệu ban đầu. Nếu bổ sung toàn bộ các câu giả lập này vào bộ dữ liệu tiếng Anh ban đầu ta có thể thu được bộ dữ liệu có số lượng lớn hơn. Tuy nhiên, điều này không đồng nghĩa với việc tăng cường chất lượng mơ hình dịch máy. Kết quả thử nghiệm trong trường hợp lấy toàn bộ dữ liệu giả lập thu được từ quá trình BT đưa vào mơ hình dịch máy cho kết quả kém hơn trước khi tăng cường dữ liệu. Điều này có thể giải thích nguyên nhân từ việc một số lượng các câu giả lập thu được sau q trình BT có chất lượng khơng “tốt”. Để tăng cường dữ liệu cho mơ hình dịch máy bằng việc bổ sung các câu “tốt” cần phải có phương pháp lựa chọn câu giả lập một cách thích hợp. Để giải quyết bài tốn này, luận án đề xuất phương pháp lựa chọn theo độ đo thích nghi dựa trên độ hỗn loạn thơng

tin perplexity.

Độ hỗn loạn thông tin perplexity [12] là một trong những độ đo phổ biến nhất để đánh giá các mơ hình ngơn ngữ. Perplexity thường được sử dụng như

một thước đo để đánh giá khả năng dự đốn dữ liệu thử nghiệm của một mơ hình ngơn ngữ (về cơ bản là phân phối xác suất trên các câu, cụm từ, chuỗi từ, v.v.). Trong một mơ hình ngơn ngữ, độ hỗn loạn thơng tin perplexity của một bộ dữ liệu có từ X chính là số từ có thể đi sau từ X. Do vậy, có thể hiểu độ hỗn loạn thơng tin perplexity một cách đơn giản là sự lựa chọn từ trung bình mà một mơ hình ngơn ngữ phải đưa ra quyết định. Độ hỗn loạn thông tin perplexity càng thấp dẫn tới mơ hình ngơn ngữ sẽ gán xác suất cao hơn cho dữ liệu kiểm tra (tức là nó có khả năng dự đốn các câu trong dữ liệu kiểm tra rất tốt), tức là độ chính xác của mơ hình ngơn ngữ càng cao.

Để đánh giá độ hỗn loạn thơng tin perplexity cho cả mơ hình ngơn ngữ

cần phải đánh giá độ hỗn loạn thông tin perplexity của từng câu và vì vậy độ hỗn loạn thơng tin perplexity cũng có thể áp dụng cho các câu. Đối với tập hợp thử nghiệm có các từ 𝑊 = 𝑤1, 𝑤2, … 𝑤𝑛, độ hỗn loạn thông tin perplexity của

mơ hình trên tập thử nghiệm được tính theo cơng thức:

𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √𝑃 (𝑤 1

1𝑤2…𝑤𝑛) 𝑛

(2. 1)

Ở đây lưu ý rằng độ hỗn loạn thơng tin perplexity được chuẩn hóa bởi số lượng từ. Trong công thức trên: P (w1 w2 … wn) là xác suất có điều kiện (tiền

nghiệm) và perplexity được tính theo cơng thức sau:

𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √∏ 𝑝(𝑤 1 𝑖|𝑤1𝑤2…𝑤𝑖−1) 𝑛 𝑖=1 𝑛 (2. 2)

Dựa vào công thức ta thấy rằng, xác suất có điều kiện của cụm từ càng cao thì độ hỗn loạn thơng tin càng thấp. Vì vậy, giảm thiểu độ hỗn loạn thơng tin đồng nghĩa việc tăng cực đại của tập thử nghiệm tương ứng với mơ hình ngơn ngữ.

Bên cạnh đó, cũng cần lưu ý độ hỗn loạn thơng tin perplexity không phải là một cách xác định chắc chắn về tính hữu dụng của một mơ hình ngơn ngữ. Một mơ hình có độ hỗn loạn thơng tin perplexity thấp trên tập thử nghiệm có thể khơng hoạt động tốt như nhau trong ứng dụng thế giới thực mà ở đó dữ liệu của nó có thể khơng được lấy từ cùng một phân phối như tập thử nghiệm. Tuy nhiên, do thiếu các phương tiện hiệu quả để đánh giá mơ hình ngơn ngữ, độ

hỗn loạn thơng tin perplexity là một thước đo hữu ích để so sánh các mơ hình ngơn ngữ.

Từ phân tích trên, luận án đề xuất chọn độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu có perplexity thấp, loại bỏ các câu có perplexity cao. Cách đơn giản nhất để thực hiện là so sánh perplexity của câu với một ngưỡng hằng số 𝜃 và chỉ lựa chọn các câu thỏa mãn điều kiện

𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) < 𝜃 (2. 3)

Với 𝑠′ là câu được sinh ra bằng kỹ thuật BT từ câu gốc 𝑠. Tuy nhiên, vấn đề với cách lựa chọn này từ đặc tính của độ đo perplexity là câu càng dài thì 𝑃(𝑤1𝑤2… 𝑤𝑛) càng thấp và vì vậy perplexity càng cao. Do đó, việc lựa chọn một ngưỡng hằng số là khơng hợp lý và vì nó sẽ loại bỏ các câu dài, trong khi thực tế cho thấy các câu dài vẫn là câu “tốt”, câu ngắn hơn giữ lại chưa chắc đã “tốt” hơn. Việc bổ sung câu giả lập không “tốt” vào kho ngữ liệu sẽ làm giảm hiệu suất mơ hình dịch máy. Do đó, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ để đánh

giá perplexity của câu 𝑠′ theo tương quan với perplexity của câu gốc 𝑠.

- Độ đo thích nghi theo hiệu được đề xuất như sau:

𝐻 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) − 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) (2. 4) Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝐻 < 𝜃𝐻, trong đó 𝜃𝐻 là giá trị ngưỡng.

-Độ đo thích nghi theo tỉ lệ được đề xuất như sau: 𝑇 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′)

𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) (2. 5) Phương pháp lựa chọn thích nghi theo tỉ lệ lựa chọn các câu thỏa mãn điều kiện 𝑇 < 𝜃𝑇, trong đó 𝜃𝑇 là giá trị ngưỡng.

Theo phương pháp này, độ đo perplexity của câu giả lập sẽ được so sánh sự chênh lệch với độ đo perplexity của câu gốc và không so sánh với ngưỡng

tuyệt đối 𝜃 của cả kho ngữ liệu huấn luyện. Các ngưỡng 𝜃𝐻 và 𝜃𝑇 sẽ là các ngưỡng mềm dẻo hơn, từ đó có thể giữ lại được các câu giả lập tốt hơn câu gốc không phụ thuộc vào độ dài của câu.

Hình 2.4 dưới đây mơ tả thuật tốn lựa chọn câu giả lập dựa trên các độ đo thích nghi

Trong thuật tốn có sử dụng hàm perplexity(s) là hàm tính độ phức tạp của câu s trong mơ hình ngơn ngữ, hàm AdaptiveMeasure(p,p’) là hàm tính độ đo thích nghi theo hiệu hoặc theo tỷ lệ được đề xuất, tham số  là tham số để đánh giá độ thích nghi của câu e’ so với câu e.

Thuật toán Lựa chọn câu giả lập

Input: 𝜃; Tập các cặp câu song ngữ ban đầu (V,E), Tập các câu

tiếng Anh nhận được sau khi dịch qua ngôn ngữ trung gian E’

Output: Tập các cặp câu giả lập (V*,E*)

1: V* ←  ; E* ←  2: For each e’ in E’

3: e ← Câu tiếng Anh tương ứng với e’

4: v ← Câu tiếng Việt tương ứng với e

5: p ←perplexity(e) 6: p’ ←perplexity(e’) 7: If AdaptiveMeasure (p,p’)<  8: V* ← v 9: E* ← e 10: Return(V*,E*)

Hình 2.4. Thuật tốn lựa chọn câu giả lập

Xuất các độ đo thích nghi để lựa chọn dữ liệu giả lập

Bộ mã hóa tự động

Gióng hàng từ trong dịch máy thống kê