Xuất áp dụng kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 58)

7. Bố cục của luận án

2.3.2. xuất áp dụng kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian

tiếng Đức

Kỹ thuật dịch ngược được sử dụng để làm giàu kho ngữ liệu song ngữ với nhiều phương pháp sinh dữ liệu giả lập khác nhau. Luận án đề xuất lựa chọn phương pháp sinh dữ liệu song ngữ Việt- Anh giả lập bằng kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian là tiếng Đức.

Ý tưởng chính của kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian như sau: Câu đơn ngữ phía đích ban đầu được dịch sang câu đơn ngữ trong một ngơn ngữ trung gian và lại được dịch về câu đơn ngữ phía đích ban đầu. Do sự phong phú của ngơn ngữ, cũng như khả năng của các hệ thống dịch máy, câu thu được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Câu thu được này được kết hợp với câu đơn ngữ phía nguồn tương ứng với câu đơn ngữ phía đích ban đầu trong ngữ liệu song ngữ tạo thành cặp song ngữ giả lập.

Kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian cho áp dụng cho mơ hình dịch Việt Anh sẽ được thực hiện như sau: Đầu tiên, câu tiếng Anh được dịch sang một câu ngơn ngữ trung gian và sau đĩ, câu thu được lại được dịch ngược lại tiếng Anh để sinh ra câu tiếng Anh mới. Ngơn ngữ trung gian được lựa chọn cần cĩ kho dữ liệu song ngữ (giữa ngơn ngữ đĩ và tiếng Anh) lớn để giúp cho mơ hình dịch giữa tiếng Anh và ngơn ngữ trung gian cĩ chất lượng tốt. Việc lựa chọn tiếng Đức làm ngơn ngữ trung gian dựa trên hai lý do chính:

- Cặp ngơn ngữ Anh-Đức là cặp ngơn ngữ giàu tài nguyên. Các kho ngữ liệu song ngữ Anh-Đức cơng khai cĩ kích thước lớn, ví dụ trong kho ngữ liệu song ngữ ParaCrawl [5] là kho ngữ liệu song ngữ cơng khai lớn nhất được thu thâp từ các trang web sử dụng phần mềm mã nguồn mở, cặp ngơn ngữ Anh- Đức cĩ 36.936.714 cặp câu.

- Cĩ các mơ hình dịch cặp ngơn ngữ Anh-Đức và Đức-Anh huấn luyện sẵn cho kết quả cao. Trong [81] nhĩm nghiên cứu của Nathan Ng và các cộng

sự đến từ Facebook AI Research đã cơng bố các mơ hình dịch Anh-Đức được huấn luyện sẵn với 42,7 BLEU, mơ hình dịch Đức-Anh với 40,8 BLEU

Hình 2.3 minh họa kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian là tiếng Đức được nghiên cứu sinh đề xuất. Kỹ thuật này gồm hai bước:

-Bước 1: Sử dụng mơ hình dịch Anh-Đức được huấn luyện trước để dịch câu tiếng Anh sang câu tiếng Đức.

-Bước 2: Câu tiếng Đức thu được ở bước 1 lại được dịch sang câu tiếng Anh mới sử dụng mơ hình dịch Đức-Anh được huấn luyện trước.

Hình 2.3. Kỹ thuật BT với ngơn ngữ trung gian tiếng Đức 2.3.3. Đề xuất các độ đo thích nghi để lựa chọn dữ liệu giả lập

Sau khi áp dụng kỹ thuật dịch ngược BT đối với bộ dữ liệu trung gian, trong trường hợp này là bộ song ngữ EN-DE-EN, ta sẽ thu được các câu giả lập tiếng Anh với số lượng tối đa bằng số câu tiếng Anh trong bộ dữ liệu ban đầu. Nếu bổ sung tồn bộ các câu giả lập này vào bộ dữ liệu tiếng Anh ban đầu ta cĩ thể thu được bộ dữ liệu cĩ số lượng lớn hơn. Tuy nhiên, điều này khơng đồng nghĩa với việc tăng cường chất lượng mơ hình dịch máy. Kết quả thử nghiệm trong trường hợp lấy tồn bộ dữ liệu giả lập thu được từ quá trình BT đưa vào mơ hình dịch máy cho kết quả kém hơn trước khi tăng cường dữ liệu. Điều này cĩ thể giải thích nguyên nhân từ việc một số lượng các câu giả lập thu được sau quá trình BT cĩ chất lượng khơng “tốt”. Để tăng cường dữ liệu cho mơ hình dịch máy bằng việc bổ sung các câu “tốt” cần phải cĩ phương pháp lựa chọn câu giả lập một cách thích hợp. Để giải quyết bài tốn này, luận án đề xuất phương pháp lựa chọn theo độ đo thích nghi dựa trên độ hỗn loạn thơng tin perplexity.

Độ hỗn loạn thơng tin perplexity [12] là một trong những độ đo phổ biến nhất để đánh giá các mơ hình ngơn ngữ. Perplexity thường được sử dụng như

một thước đo để đánh giá khả năng dự đốn dữ liệu thử nghiệm của một mơ hình ngơn ngữ (về cơ bản là phân phối xác suất trên các câu, cụm từ, chuỗi từ, v.v.). Trong một mơ hình ngơn ngữ, độ hỗn loạn thơng tin perplexity của một bộ dữ liệu cĩ từ X chính là số từ cĩ thể đi sau từ X. Do vậy, cĩ thể hiểu độ hỗn loạn thơng tin perplexity một cách đơn giản là sự lựa chọn từ trung bình mà một mơ hình ngơn ngữ phải đưa ra quyết định. Độ hỗn loạn thơng tin perplexity càng thấp dẫn tới mơ hình ngơn ngữ sẽ gán xác suất cao hơn cho dữ liệu kiểm tra (tức là nĩ cĩ khả năng dự đốn các câu trong dữ liệu kiểm tra rất tốt), tức là độ chính xác của mơ hình ngơn ngữ càng cao.

Để đánh giá độ hỗn loạn thơng tin perplexity cho cả mơ hình ngơn ngữ cần phải đánh giá độ hỗn loạn thơng tin perplexity của từng câu và vì vậy độ hỗn loạn thơng tin perplexity cũng cĩ thể áp dụng cho các câu. Đối với tập hợp thử nghiệm cĩ các từ � = �1, �2, … ��, độ hỗn loạn thơng tin perplexity của

mơ hình trên tập thử nghiệm được tính theo cơng thức:

��� �� ��� ��(�) = � 1 (2. 1)

√�(�

1�2…��)

Ở đây lưu ý rằng độ hỗn loạn thơng tin perplexity được chuẩn hĩa bởi số lượng từ. Trong cơng thức trên: P (w1 w2 … wn) là xác suất cĩ điều kiện (tiền nghiệm) và perplexity được tính theo cơng thức sau:

��� �� ��� ��(�)

= �� ∏� 1 (2. 2)

√ �=1 �(�

�|�1�2…��−1)

Dựa vào cơng thức ta thấy rằng, xác suất cĩ điều kiện của cụm từ càng cao thì độ hỗn loạn thơng tin càng thấp. Vì vậy, giảm thiểu độ hỗn loạn thơng tin đồng nghĩa việc tăng cực đại của tập thử nghiệm tương ứng với mơ hình ngơn ngữ.

Bên cạnh đĩ, cũng cần lưu ý độ hỗn loạn thơng tin perplexity khơng phải là một cách xác định chắc chắn về tính hữu dụng của một mơ hình ngơn ngữ. Một mơ hình cĩ độ hỗn loạn thơng tin perplexity thấp trên tập thử nghiệm cĩ thể khơng hoạt động tốt như nhau trong ứng dụng thế giới thực mà ở đĩ dữ liệu của nĩ cĩ thể khơng được lấy từ cùng một phân phối như tập thử nghiệm. Tuy nhiên, do thiếu các phương tiện hiệu quả để đánh giá mơ hình ngơn ngữ, độ

hỗn loạn thơng tin perplexity là một thước đo hữu ích để so sánh các mơ hình ngơn ngữ.

Từ phân tích trên, luận án đề xuất chọn độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu cĩ perplexity thấp, loại bỏ các câu cĩ perplexity cao. Cách đơn giản nhất để thực hiện là so sánh perplexity của câu với một ngưỡng hằng số � và chỉ lựa chọn các câu thỏa mãn điều kiện sau:

��� �� ��� ��( ′�) < � (2. 3) Với �′ là câu được sinh ra bằng kỹ thuật BT từ câu gốc �. Tuy nhiên, vấn đề với cách lựa chọn này từ đặc tính của độ đo perplexity là câu càng dài thì

�(�1�2 … ��) càng thấp và vì vậy perplexity càng cao. Do đĩ, việc lựa chọn một ngưỡng hằng số là khơng hợp lý và vì nĩ sẽ loại bỏ các câu dài, trong khi thực tế cho thấy các câu dài vẫn là câu “tốt”, câu ngắn hơn giữ lại chưa chắc đã “tốt” hơn. Việc bổ sung câu giả lập khơng “tốt” vào kho ngữ liệu sẽ làm giảm

hiệu suất mơ hình dịch máy. Do đĩ, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ để đánh giá perplexity của câu �′ theo tương quan với perplexity của câu gốc �.

- Độ đo thích nghi theo hiệu được đề xuất như sau:

� = ��� �� ��� ��( ′�) − ��� �� ��� ��(�) (2. 4) Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện � < �, trong đĩ ��là giá trị ngưỡng.

-Độ đo thích nghi theo tỉ lệ được đề xuất như sau: =

� ����� ���

��( ′�)

����� ��� ��(�)

(2. 5) Phương pháp lựa chọn thích nghi theo tỉ lệ lựa chọn các câu thỏa mãn điều kiện � < �, trong đĩ ��là giá trị ngưỡng.

Theo phương pháp này, độ đo perplexity của câu giả lập sẽ được so sánh sự chênh lệch với độ đo perplexity của câu gốc và khơng so sánh với ngưỡng tuyệt đối � của cả kho ngữ liệu huấn luyện. Các ngưỡng ��và ��sẽ là các ngưỡng mềm dẻo hơn, từ đĩ cĩ thể giữ lại được các câu giả lập tốt hơn câu gốc khơng phụ thuộc vào độ dài của câu.

Hình 2.4 dưới đây mơ tả thuật tốn lựa chọn câu giả lập dựa trên các độ đo thích nghi

Trong thuật tốn cĩ sử dụng hàm perplexity(s) là hàm tính độ phức tạp của câu s trong mơ hình ngơn ngữ, hàm AdaptiveMeasure(p,p’) là hàm tính độ đo thích nghi theo hiệu hoặc theo tỷ lệ được đề xuất, tham số  là tham số để đánh giá độ thích nghi của câu e’ so với câu e.

Thuật tốn Lựa chọn câu giả lập

Input: �; Tập các cặp câu song ngữ ban đầu (V,E), Tập các câu tiếng Anh nhận được sau khi dịch qua ngơn ngữ trung gian E’

Output: Tập các cặp câu giả lập (V*,E*) 1: V* ; E*

2: For each e’ in E’

3: e ← Câu tiếng Anh tương ứng với e’

4: v ← Câu tiếng Việt tương ứng với e

5: p ←perplexity(e) 6: p’ ←perplexity(e’) 7: If AdaptiveMeasure (p,p’)<  8: V* ← v 9: E* ← e 10: Return(V*,E*)

Hình 2.4. Thuật tốn lựa chọn câu giả lập 2.4. Thử nghiệm và đánh giá các kết quả

Bảng 2.1 minh họa các câu giả lập nhận được sau khi tiến hành dịch ngược qua mơ hình đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhĩm Facebook AI Research [81], luận văn xếp các câu này thành hai nhĩm “tốt hơn” và “xấu hơn” trên cơ sở đánh giá độ hỗn loạn thơng tin của câu.

Bảng 2.1. Minh họa các câu giả lập nhận được từ câu ban đầu sau khi dịch ngược Anh-Đức-Anh Ngơn ngữ Câu Điểm perplexity Perplexity(s) > Perplexity (s’) #ID 11

vi Mỗi năm , hơn 15,000 nhà khoa học đến San Francisco để tham dự hội nghị này .

en Over 15,000 scientists go to San Francisco every year for that . 107,5047 de Über 15.000 Wissenschaftler reisen dafür jedes Jahr nach San

Francisco .

engl More than 15,000 scientists travel to San Francisco each year . 44,9881 #ID 2602

vi Nĩ gợi ý rằng chúng ta quan tâm tới việc đạt đến đích , đển đỉnh cao .

en It suggests that we care about reaching the end , a peak . 113,9231 de Es legt nahe , dass es uns darum geht , das Ende , einen

Hưhepunkt , zu erreichen .

engl It suggests that we are trying to reach the end , a climax . 38,4016 #ID 5334

vi Nhưng tơi phải nĩi đĩ khơng phải là vì những thiên tai ,

en But I must say they are no longer natural disasters . 43,0472 de Aber ich muss sagen , dass es sich nicht mehr um

Naturkatastrophen handelt .

engl But I have to say that these are no longer natural disasters . 19,5766 #ID 7074

vi Đây là cách chúng hoạt động . Và thực vậy , đây là một cơng nghệ chung .

en This is how it works , and really , this is a generic technology . 90,300 de So funktioniert es , und tatsächlich handelt es sich um eine

generische Technologie .

engl That is how it works , and indeed it is a generic technology . 42,0461

Perplexity(s) < Perplexity (s’)

#ID 536

en Some people shredded half the sheet of paper , so there was

some evidence left .

51,8945 de Einige Leute schredderten die Hälfte des Papiers , so dass einige

Beweise übrig blieben .

engl Some people shredded half the paper , leaving some evidence . 110,5701

#ID 864

vi Vậy nên những ca sĩ nhạc hip hop thời kỳ đầu sẽ lặp đi lặp lại một số đoạn nhất định .

en So the early hip-hop guys would loop certain sections 353,1801 de Die frühen HipHop - Jungs würden also bestimmte Abschnitte

schleifen .

engl So the early hip - hop guys would grind out certain sections . 1341,0806 #ID 1142

vi Khơng dễ mà tinh chế nhựa bằng quá trình đun chảy lại , như là thuỷ tinh hay kim loại .

en Plastic is not purified by the re-melting process like glass and metal .

47,75 de Kunststoff wird durch das Umschmelzen nicht wie Glas und

Metall gereinigt .

engl Plastic is not cleaned by remelting like glass and metal . 109,8686

Bảng 2.1 cho thấy các câu tiếng Anh thu được “tốt hơn” thường là các câu được lựa chọn từ cũng nghĩa và phù hợp hơn với ngữ cảnh so với câu gốc. Các câu “xấu hơn” thường làm mất từ, dẫn đến nghĩa của câu cĩ thể bị thay đổi.

Luận văn tiền hành các thử nghiệm theo đề xuất của phần trên, các giá trị ngưỡng được lựa chọn với mục đích để đánh giá và kiểm nghiệm lại đề xuất trên bộ số liệu cụ thể.

2.4.1. Dữ liệu và mơi trường thử nghiệm

Do cặp ngơn ngữ Việt - Anh là cặp ngơn ngữ cĩ nguồn dữ liệu rất hạn chế, khơng cĩ nhiều bộ dữ liệu cơng khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước đây cũng khơng cĩ sẵn. Để thử nghiệm và đánh giá, luận án sử dụng kho ngữ liệu song ngữ IWSLT'15 English-Vietnamese data [Small], đây là bộ dữ liệu cĩ đầy đủ các thành phần (train - dev – test) đã từng được sử dụng trong các cuộc thi tại hội thảo IWSLT năm 2015. Kho ngữ liệu song ngữ cĩ thể

tải về từ nhĩm nghiên cứu về ngơn ngữ tự nhiên Stanford NLP theo địa chỉ (https://nlp.stanford.edu/projects/nmt/). Bảng 2.2. dưới đây là thống kê chi tiết về kho ngữ liệu này:

Bảng 2.2. Các bộ dữ liệu sử dụng trong các thử nghiệm

Bộ dữ liệu

Huấn luyện

(IWLST’15) Tinh chỉnh tham số (tst2012) Đánh giá(tst2013) Tiếng

Anh

Tiếng Việt

Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt Số lượng câu 133.317 133.317 1.553 1.553 1.268 1.268 Số lượng từ 2.706.404 3.311.620 27.983 34.297 26.728 33.682 Độ dài câu lớn nhất 628 850 93 122 102 123 Độ dài câu nhỏ nhất 2 2 2 2 2 2 Độ dài câu trung bình 20,30 24,84 18,02 22,08 21,08 26,56

Các mơ hình được sử dụng trong các thử nghiệm như sau:

- Mơ hình dịch máy thống kê MOSES (http://ww.statmt.org/moses/) với mơ hình cụm từ phân cấp được sử dụng cho dịch thuật Việt - Anh

- Mơ hình sử dụng trong dịch ngược: Sử dụng các mơ hình đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhĩm Facebook AI Research [81].

- Mơ hình ngơn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mơ hình ngơn ngữ tiếng Anh đã được huấn luyện sẵn của nhĩm Facebook AI Research.

Phần mềm MOSES ( http://www.statmt.org/moses/) với mơ hình dịch máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt - Anh. Độ đo BLEU và BLEU_c [91] được sử dụng để đánh giá chất lượng hệ thống dịch máy.

2.4.2. Phương án thực hiện các thử nghiệm

Phương án thực hiện các thử nghiệm để đánh giá kết quả đạt được của các phương pháp đề xuất được minh họa bằng sơ đồ Hình 2.5. Các bước thực hiện như sau:

1. Sử dụng kho ngữ liệu song ngữ “IWLST’15” gốc để huấn luyện mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp cặp ngơn ngữ Việt

2.

- Anh và đánh giá chất lượng của mơ hình dịch máy thu được.

Hình 2.5. Tăng cường dữ liệu huấn luyện cho hệ thống SMT VI-EN 3. Áp dụng kỹ thuật dịch ngược đã trình bày ở Mục 2.3.2 để sinh các cặp câu song ngữ Việt - Anh giả lập. Đầu tiên, các câu đơn ngữ tiếng Anh trong kho ngữ liệu “IWLST’15” gốc được dịch sang tiếng Đức sử dụng hệ thống dịch máy Anh-Đức đã được huấn luyện trước của Facebook AI Research. Câu tiếng Đức thu được lại được dịch trở lại tiếng Anh sử dụng hệ thống dịch máy Đức- Anh đã được huấn luyện trước của Facebook AI Research. Tiếp theo, sử dụng

HỆ THỐNG SMT (VI-EN)

HỆ THỐNG DỊCH MÁY EN-DE-EN

Lựa chọn câu e’ (so sánh e’ và e) Các câu giả lập phía đích (e’)

Các câu giả lập được chọn (e’*)

Kho song ngữ giả lập (VE*) Các câu phía nguồn tương ứng (v*)

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 58)

Tải bản đầy đủ (DOC)

(127 trang)
w