Các bước thực hiện của phương pháp tăng cường dữ liệu đề xuất

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 56)

- Bước 1: Back-translation: Bước này sử dụng kỹ thuật dịch ngược dùng ngôn ngữ trung gian tiếng Đức để sinh ra các câu tiếng Anh có nghĩa tương đương từ danh sách câu tiếng Anh trong kho dữ liệu song ngữ ban đầu,

được dịch sang một câu tiếng Đức và bước 2, câu tiếng Đức thu được lại được dịch ngược lại tiếng Anh để sinh ra câu tiếng Anh mới.

- Bước 2: Lựa chọn dữ liệu: Các câu tiếng Anh mới được sinh ra sẽ được ghép cặp với các câu tiếng Việt tương ứng trong dữ liệu huấn luyện song ngữ ban đầu để thành một cặp câu song ngữ Việt - Anh. Việc áp dụng kỹ thuật BT giúp tăng số lượng dữ liệu huấn luyện cho mơ hình học máy thống kê. Tuy nhiên, bên cạnh số lượng thì chất lượng dữ liệu cũng là một yếu tố rất quan trọng quyết định độ chính xác của các mơ hình học máy. Việc bổ sung các dữ liệu chất lượng kém có thể dẫn tới làm giảm độ chính xác của mơ hình học máy. Do đó luận án đã đề xuất bổ sung thêm bước lựa chọn dữ liệu để loại bỏ bớt dữ liệu trước khi đưa vào huấn luyện bằng cách đề xuất hai phương pháp lựa chọn thích nghi dựa trên độ phức tạp (perplexity). Đầu ra của Bước 2 là dữ liệu huấn luyện song ngữ tăng cường, bao gồm các cặp câu song ngữ Việt - Anh mới được lựa chọn.

Các câu tiếng Anh Các câu tiếng Việt Kho song ngữ ban đầu

Bước 1: Dịch ngược

Các câu giả lập phía tiếng Anh Bước 2: Lựa chọn dữ liệu

Ngữ liệu song ngữ tăng cường

Kho ngữ liệu song ngữ huấn luyện (ngữ liệu huấn luyện +

ngữ liệu tăng cường)

Bước 3: Huấn luyện mơ hình dịch máy thống kê

Mơ hình dịch máy đã được huấn luyện

- Bước 3: Huấn luyện mơ hình dịch máy thống kê: Dữ liệu huấn luyện

song ngữ tăng cường được bổ sung vào dữ liệu huấn luyện ban đầu để tạo thành một dữ liệu huấn luyện lớn hơn. Dữ liệu huấn luyện này được sử dụng để huấn luyện cho mơ hình dịch máy thống kê Việt - Anh.

2.3.2. Đề xuất áp dụng kỹ thuật dịch ngược sử dụng ngôn ngữ trung gian tiếng Đức Đức

Kỹ thuật dịch ngược được sử dụng để làm giàu kho ngữ liệu song ngữ với nhiều phương pháp sinh dữ liệu giả lập khác nhau. Luận án đề xuất lựa chọn phương pháp sinh dữ liệu song ngữ Việt- Anh giả lập bằng kỹ thuật dịch ngược sử dụng ngôn ngữ trung gian là tiếng Đức.

Ý tưởng chính của kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian như sau: Câu đơn ngữ phía đích ban đầu được dịch sang câu đơn ngữ trong một ngôn ngữ trung gian và lại được dịch về câu đơn ngữ phía đích ban đầu. Do sự phong phú của ngôn ngữ, cũng như khả năng của các hệ thống dịch máy, câu thu được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Câu thu được này được kết hợp với câu đơn ngữ phía nguồn tương ứng với câu đơn ngữ phía đích ban đầu trong ngữ liệu song ngữ tạo thành cặp song ngữ giả lập.

Kỹ thuật dịch ngược sử dụng ngôn ngữ trung gian cho áp dụng cho mơ hình dịch Việt Anh sẽ được thực hiện như sau: Đầu tiên, câu tiếng Anh được dịch sang một câu ngơn ngữ trung gian và sau đó, câu thu được lại được dịch ngược lại tiếng Anh để sinh ra câu tiếng Anh mới. Ngôn ngữ trung gian được lựa chọn cần có kho dữ liệu song ngữ (giữa ngơn ngữ đó và tiếng Anh) lớn để giúp cho mơ hình dịch giữa tiếng Anh và ngơn ngữ trung gian có chất lượng tốt. Việc lựa chọn tiếng Đức làm ngôn ngữ trung gian dựa trên hai lý do chính:

- Cặp ngơn ngữ Anh-Đức là cặp ngôn ngữ giàu tài nguyên. Các kho ngữ

liệu song ngữ Anh-Đức cơng khai có kích thước lớn, ví dụ trong kho ngữ liệu song ngữ ParaCrawl [5] là kho ngữ liệu song ngữ công khai lớn nhất được thu thâp từ các trang web sử dụng phần mềm mã nguồn mở, cặp ngơn ngữ Anh- Đức có 36.936.714 cặp câu.

- Có các mơ hình dịch cặp ngơn ngữ Anh-Đức và Đức-Anh huấn luyện

sự đến từ Facebook AI Research đã cơng bố các mơ hình dịch Anh-Đức được huấn luyện sẵn với 42,7 BLEU, mơ hình dịch Đức-Anh với 40,8 BLEU

Hình 2.3 minh họa kỹ thuật dịch ngược sử dụng ngôn ngữ trung gian là tiếng Đức được nghiên cứu sinh đề xuất. Kỹ thuật này gồm hai bước:

-Bước 1: Sử dụng mơ hình dịch Anh-Đức được huấn luyện trước để dịch

câu tiếng Anh sang câu tiếng Đức.

-Bước 2: Câu tiếng Đức thu được ở bước 1 lại được dịch sang câu tiếng

Anh mới sử dụng mơ hình dịch Đức-Anh được huấn luyện trước.

Hình 2.3. Kỹ thuật BT với ngơn ngữ trung gian tiếng Đức

2.3.3. Đề xuất các độ đo thích nghi để lựa chọn dữ liệu giả lập

Sau khi áp dụng kỹ thuật dịch ngược BT đối với bộ dữ liệu trung gian, trong trường hợp này là bộ song ngữ EN-DE-EN, ta sẽ thu được các câu giả lập tiếng Anh với số lượng tối đa bằng số câu tiếng Anh trong bộ dữ liệu ban đầu. Nếu bổ sung toàn bộ các câu giả lập này vào bộ dữ liệu tiếng Anh ban đầu ta có thể thu được bộ dữ liệu có số lượng lớn hơn. Tuy nhiên, điều này không đồng nghĩa với việc tăng cường chất lượng mơ hình dịch máy. Kết quả thử nghiệm trong trường hợp lấy toàn bộ dữ liệu giả lập thu được từ quá trình BT đưa vào mơ hình dịch máy cho kết quả kém hơn trước khi tăng cường dữ liệu. Điều này có thể giải thích nguyên nhân từ việc một số lượng các câu giả lập thu được sau q trình BT có chất lượng khơng “tốt”. Để tăng cường dữ liệu cho mơ hình dịch máy bằng việc bổ sung các câu “tốt” cần phải có phương pháp lựa chọn câu giả lập một cách thích hợp. Để giải quyết bài tốn này, luận án đề xuất phương pháp lựa chọn theo độ đo thích nghi dựa trên độ hỗn loạn thơng

tin perplexity.

Độ hỗn loạn thông tin perplexity [12] là một trong những độ đo phổ biến nhất để đánh giá các mơ hình ngơn ngữ. Perplexity thường được sử dụng như

một thước đo để đánh giá khả năng dự đốn dữ liệu thử nghiệm của một mơ hình ngơn ngữ (về cơ bản là phân phối xác suất trên các câu, cụm từ, chuỗi từ, v.v.). Trong một mơ hình ngơn ngữ, độ hỗn loạn thơng tin perplexity của một bộ dữ liệu có từ X chính là số từ có thể đi sau từ X. Do vậy, có thể hiểu độ hỗn loạn thông tin perplexity một cách đơn giản là sự lựa chọn từ trung bình mà một mơ hình ngơn ngữ phải đưa ra quyết định. Độ hỗn loạn thông tin perplexity càng thấp dẫn tới mơ hình ngơn ngữ sẽ gán xác suất cao hơn cho dữ liệu kiểm tra (tức là nó có khả năng dự đốn các câu trong dữ liệu kiểm tra rất tốt), tức là độ chính xác của mơ hình ngơn ngữ càng cao.

Để đánh giá độ hỗn loạn thơng tin perplexity cho cả mơ hình ngơn ngữ

cần phải đánh giá độ hỗn loạn thông tin perplexity của từng câu và vì vậy độ hỗn loạn thơng tin perplexity cũng có thể áp dụng cho các câu. Đối với tập hợp thử nghiệm có các từ 𝑊 = 𝑤1, 𝑤2, … 𝑤𝑛, độ hỗn loạn thông tin perplexity của

mơ hình trên tập thử nghiệm được tính theo cơng thức:

𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √𝑃 (𝑤 1

1𝑤2…𝑤𝑛) 𝑛

(2. 1)

Ở đây lưu ý rằng độ hỗn loạn thơng tin perplexity được chuẩn hóa bởi số lượng từ. Trong công thức trên: P (w1 w2 … wn) là xác suất có điều kiện (tiền

nghiệm) và perplexity được tính theo cơng thức sau:

𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √∏ 𝑝(𝑤 1 𝑖|𝑤1𝑤2…𝑤𝑖−1) 𝑛 𝑖=1 𝑛 (2. 2)

Dựa vào công thức ta thấy rằng, xác suất có điều kiện của cụm từ càng cao thì độ hỗn loạn thơng tin càng thấp. Vì vậy, giảm thiểu độ hỗn loạn thơng tin đồng nghĩa việc tăng cực đại của tập thử nghiệm tương ứng với mơ hình ngơn ngữ.

Bên cạnh đó, cũng cần lưu ý độ hỗn loạn thông tin perplexity không phải là một cách xác định chắc chắn về tính hữu dụng của một mơ hình ngơn ngữ. Một mơ hình có độ hỗn loạn thơng tin perplexity thấp trên tập thử nghiệm có thể khơng hoạt động tốt như nhau trong ứng dụng thế giới thực mà ở đó dữ liệu của nó có thể khơng được lấy từ cùng một phân phối như tập thử nghiệm. Tuy nhiên, do thiếu các phương tiện hiệu quả để đánh giá mơ hình ngơn ngữ, độ

hỗn loạn thơng tin perplexity là một thước đo hữu ích để so sánh các mơ hình ngơn ngữ.

Từ phân tích trên, luận án đề xuất chọn độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu có perplexity thấp, loại bỏ các câu có perplexity cao. Cách đơn giản nhất để thực hiện là so sánh perplexity của câu với một ngưỡng hằng số 𝜃 và chỉ lựa chọn các câu thỏa mãn điều kiện

sau:

𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) < 𝜃 (2. 3)

Với 𝑠′ là câu được sinh ra bằng kỹ thuật BT từ câu gốc 𝑠. Tuy nhiên, vấn đề với cách lựa chọn này từ đặc tính của độ đo perplexity là câu càng dài thì 𝑃(𝑤1𝑤2… 𝑤𝑛) càng thấp và vì vậy perplexity càng cao. Do đó, việc lựa chọn một ngưỡng hằng số là khơng hợp lý và vì nó sẽ loại bỏ các câu dài, trong khi thực tế cho thấy các câu dài vẫn là câu “tốt”, câu ngắn hơn giữ lại chưa chắc đã “tốt” hơn. Việc bổ sung câu giả lập không “tốt” vào kho ngữ liệu sẽ làm giảm hiệu suất mơ hình dịch máy. Do đó, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ để đánh

giá perplexity của câu 𝑠′ theo tương quan với perplexity của câu gốc 𝑠.

- Độ đo thích nghi theo hiệu được đề xuất như sau:

𝐻 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) − 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) (2. 4) Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝐻 < 𝜃𝐻, trong đó 𝜃𝐻 là giá trị ngưỡng.

-Độ đo thích nghi theo tỉ lệ được đề xuất như sau: 𝑇 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′)

𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) (2. 5) Phương pháp lựa chọn thích nghi theo tỉ lệ lựa chọn các câu thỏa mãn điều kiện 𝑇 < 𝜃𝑇, trong đó 𝜃𝑇 là giá trị ngưỡng.

Theo phương pháp này, độ đo perplexity của câu giả lập sẽ được so sánh sự chênh lệch với độ đo perplexity của câu gốc và không so sánh với ngưỡng

tuyệt đối 𝜃 của cả kho ngữ liệu huấn luyện. Các ngưỡng 𝜃𝐻 và 𝜃𝑇 sẽ là các ngưỡng mềm dẻo hơn, từ đó có thể giữ lại được các câu giả lập tốt hơn câu gốc không phụ thuộc vào độ dài của câu.

Hình 2.4 dưới đây mơ tả thuật tốn lựa chọn câu giả lập dựa trên các độ đo thích nghi

Trong thuật tốn có sử dụng hàm perplexity(s) là hàm tính độ phức tạp của câu s trong mơ hình ngơn ngữ, hàm AdaptiveMeasure(p,p’) là hàm tính độ đo thích nghi theo hiệu hoặc theo tỷ lệ được đề xuất, tham số  là tham số để đánh giá độ thích nghi của câu e’ so với câu e.

Thuật toán Lựa chọn câu giả lập

Input: 𝜃; Tập các cặp câu song ngữ ban đầu (V,E), Tập các câu

tiếng Anh nhận được sau khi dịch qua ngôn ngữ trung gian E’

Output: Tập các cặp câu giả lập (V*,E*)

1: V* ←  ; E* ←  2: For each e’ in E’

3: e ← Câu tiếng Anh tương ứng với e’

4: v ← Câu tiếng Việt tương ứng với e

5: p ←perplexity(e) 6: p’ ←perplexity(e’) 7: If AdaptiveMeasure (p,p’)<  8: V* ← v 9: E* ← e 10: Return(V*,E*)

Hình 2.4. Thuật tốn lựa chọn câu giả lập

2.4. Thử nghiệm và đánh giá các kết quả

Bảng 2.1 minh họa các câu giả lập nhận được sau khi tiến hành dịch ngược

qua mơ hình đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhóm

Facebook AI Research [81], luận văn xếp các câu này thành hai nhóm “tốt hơn”

Bảng 2.1. Minh họa các câu giả lập nhận được từ câu ban đầu sau khi dịch ngược Anh-Đức-Anh Ngôn ngữ Câu Điểm perplexity Perplexity(s) > Perplexity (s’) #ID 11

vi Mỗi năm , hơn 15,000 nhà khoa học đến San Francisco để tham dự hội nghị này .

en Over 15,000 scientists go to San Francisco every year for that . 107,5047 de Über 15.000 Wissenschaftler reisen dafür jedes Jahr nach San

Francisco .

engl More than 15,000 scientists travel to San Francisco each year . 44,9881 #ID 2602

vi Nó gợi ý rằng chúng ta quan tâm tới việc đạt đến đích , đển đỉnh

cao .

en It suggests that we care about reaching the end , a peak . 113,9231 de Es legt nahe , dass es uns darum geht , das Ende , einen Höhepunkt

, zu erreichen .

engl It suggests that we are trying to reach the end , a climax . 38,4016 #ID 5334

vi Nhưng tơi phải nói đó khơng phải là vì những thiên tai ,

en But I must say they are no longer natural disasters . 43,0472 de Aber ich muss sagen , dass es sich nicht mehr um

Naturkatastrophen handelt .

engl But I have to say that these are no longer natural disasters . 19,5766 #ID 7074

vi Đây là cách chúng hoạt động . Và thực vậy , đây là một công nghệ

chung .

en This is how it works , and really , this is a generic technology . 90,300 de So funktioniert es , und tatsächlich handelt es sich um eine

generische Technologie .

engl That is how it works , and indeed it is a generic technology . 42,0461

Perplexity(s) < Perplexity (s’)

#ID 536

en Some people shredded half the sheet of paper , so there was

some evidence left .

51,8945

de Einige Leute schredderten die Hälfte des Papiers , so dass einige Beweise übrig blieben .

engl Some people shredded half the paper , leaving some evidence . 110,5701 #ID 864

vi Vậy nên những ca sĩ nhạc hip hop thời kỳ đầu sẽ lặp đi lặp lại một số đoạn nhất định .

en So the early hip-hop guys would loop certain sections 353,1801 de Die frühen HipHop - Jungs würden also bestimmte Abschnitte

schleifen .

engl So the early hip - hop guys would grind out certain sections . 1341,0806 #ID 1142

vi Không dễ mà tinh chế nhựa bằng quá trình đun chảy lại , như là thuỷ tinh hay kim loại .

en Plastic is not purified by the re-melting process like glass and metal .

47,75

de Kunststoff wird durch das Umschmelzen nicht wie Glas und Metall gereinigt .

engl Plastic is not cleaned by remelting like glass and metal . 109,8686

Bảng 2.1 cho thấy các câu tiếng Anh thu được “tốt hơn” thường là các câu được lựa chọn từ cũng nghĩa và phù hợp hơn với ngữ cảnh so với câu gốc. Các câu “xấu hơn” thường làm mất từ, dẫn đến nghĩa của câu có thể bị thay đổi.

Luận văn tiền hành các thử nghiệm theo đề xuất của phần trên, các giá trị ngưỡng được lựa chọn với mục đích để đánh giá và kiểm nghiệm lại đề xuất trên bộ số liệu cụ thể.

2.4.1. Dữ liệu và môi trường thử nghiệm

Do cặp ngôn ngữ Việt - Anh là cặp ngơn ngữ có nguồn dữ liệu rất hạn chế, khơng có nhiều bộ dữ liệu công khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước đây cũng khơng có sẵn. Để thử nghiệm và đánh giá, luận án sử dụng kho ngữ liệu song ngữ IWSLT'15 English-Vietnamese data [Small], đây là bộ dữ liệu có đầy đủ các thành phần (train - dev – test) đã từng được sử dụng trong các cuộc thi tại hội thảo IWSLT năm 2015. Kho ngữ liệu song ngữ có thể

tải về từ nhóm nghiên cứu về ngôn ngữ tự nhiên Stanford NLP theo địa chỉ

(https://nlp.stanford.edu/projects/nmt/). Bảng 2.2. dưới đây là thống kê chi tiết

về kho ngữ liệu này:

Bảng 2.2. Các bộ dữ liệu sử dụng trong các thử nghiệm

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 56)

Tải bản đầy đủ (PDF)

(127 trang)