Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện � < �� , trong đĩ �� là giá trị ngưỡng
-Độ đo thích nghi theo tỉ lệ được đề xuất như sau:
� = ��������������������( (� �′)) (2 5) Phương pháp lựa chọn thích nghi theo tỉ lệ lựa chọn các câu thỏa mãn điều kiện � < �� , trong đĩ �� là giá trị ngưỡng
Theo phương pháp này, độ đo perplexity của câu giả lập sẽ được so sánh sự chênh lệch với độ đo perplexity của câu gốc và khơng so sánh với ngưỡng tuyệt đối � của cả kho ngữ liệu huấn luyện Các ngưỡng �� và �� sẽ là các ngưỡng mềm dẻo hơn, từ đĩ cĩ thể giữ lại được các câu giả lập tốt hơn câu gốc khơng phụ thuộc vào độ dài của câu
Hình 2 4 dưới đây mơ tả thuật tốn lựa chọn câu giả lập dựa trên các độ đo thích nghi
Trong thuật tốn cĩ sử dụng hàm perplexity(s) là hàm tính độ phức tạp của câu s trong mơ hình ngơn ngữ, hàm AdaptiveMeasure(p,p’) là hàm tính độ đo thích nghi theo hiệu hoặc theo tỷ lệ được đề xuất, tham số là tham số để đánh giá độ thích nghi của câu e’ so với câu e
Thuật tốn Lựa chọn câu giả lập
Input:�; Tập các cặp câu song ngữ ban đầu (V,E), Tập các câu tiếng Anh nhận được sau khi dịch qua ngơn ngữ trung gian E’
Output: Tập các cặp câu giả lập (V*,E*) 1: V* ← ; E* ←
2: For each e’ in E’
3: 4: 5: 6: 7: 8: 9:
e ← Câu tiếng Anh tương ứng với e’ v ← Câu tiếng Việt tương ứng với e p ←perplexity(e) p’ ←perplexity(e’) If AdaptiveMeasure (p,p’)< V* ← v E* ← e 10: Return(V*,E*)
Hình 2 4 Thuật tốn lựa chọn câu giả lập
2 4 Thử nghiệm và đánh giá các kết quả
Bảng 2 1 minh họa các câu giả lập nhận được sau khi tiến hành dịch ngược qua mơ hình đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhĩm Facebook AI Research [81], luận văn xếp các câu này thành hai nhĩm “tốt hơn” và “xấu hơn” trên cơ sở đánh giá độ hỗn loạn thơng tin của câu
Bảng 2 1 Minh họa các câu giả lập nhận được từ câu ban đầu sau khi dịch ngược Anh-Đức-Anh Ngơn ngữ Câu Điểm perplexity Perplexity(s) > Perplexity (s’) #ID 11
vi Mỗi năm , hơn 15,000 nhà khoa học đến San Francisco để tham dự hội nghị này
en Over 15,000 scientists go to San Francisco every year for that 107,5047 de Über 15 000 Wissenschaftler reisen dafür jedes Jahr nach San
Francisco
engl More than 15,000 scientists travel to San Francisco each year 44,9881 #ID 2602
vi Nĩ gợi ý rằng chúng ta quan tâm tới việc đạt đến đích , đển đỉnh cao
en It suggests that we care about reaching the end , a peak 113,9231 de Es legt nahe , dass es uns darum geht , das Ende , einen
Hưhepunkt , zu erreichen
engl It suggests that we are trying to reach the end , a climax 38,4016 #ID 5334
vi Nhưng tơi phải nĩi đĩ khơng phải là vì những thiên tai ,
en But I must say they are no longer natural disasters 43,0472 de Aber ich muss sagen , dass es sich nicht mehr um
Naturkatastrophen handelt
engl But I have to say that these are no longer natural disasters 19,5766 #ID 7074
vi Đây là cách chúng hoạt động Và thực vậy , đây là một cơng nghệ chung
en This is how it works , and really , this is a generic technology 90,300 de So funktioniert es , und tatsächlich handelt es sich um eine
generische Technologie
engl That is how it works , and indeed it is a generic technology 42,0461
Perplexity(s) < Perplexity (s’)
#ID 536
Bảng 2 1 cho thấy các câu tiếng Anh thu được “tốt hơn” thường là các câu được lựa chọn từ cũng nghĩa và phù hợp hơn với ngữ cảnh so với câu gốc Các câu “xấu hơn” thường làm mất từ, dẫn đến nghĩa của câu cĩ thể bị thay đổi
Luận văn tiền hành các thử nghiệm theo đề xuất của phần trên, các giá trị ngưỡng được lựa chọn với mục đích để đánh giá và kiểm nghiệm lại đề xuất trên bộ số liệu cụ thể
2 4 1 Dữ liệu và mơi trường thử nghiệm
Do cặp ngơn ngữ Việt - Anh là cặp ngơn ngữ cĩ nguồn dữ liệu rất hạn chế, khơng cĩ nhiều bộ dữ liệu cơng khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước đây cũng khơng cĩ sẵn Để thử nghiệm và đánh giá, luận án sử dụng kho ngữ liệu song ngữ IWSLT'15 English-Vietnamese data [Small], đây là bộ dữ liệu cĩ đầy đủ các thành phần (train - dev – test) đã từng được sử dụng trong các cuộc thi tại hội thảo IWSLT năm 2015 Kho ngữ liệu song ngữ cĩ thể
en Some people shredded half the sheet of paper , so there was
some evidence left
51,8945 de Einige Leute schredderten die Hälfte des Papiers , so dass einige
Beweise übrig blieben
engl Some people shredded half the paper , leaving some evidence 110,5701 #ID 864
vi Vậy nên những ca sĩ nhạc hip hop thời kỳ đầu sẽ lặp đi lặp lại một số đoạn nhất định
en So the early hip-hop guys would loop certain sections 353,1801 de Die frühen HipHop - Jungs würden also bestimmte Abschnitte
schleifen
engl So the early hip - hop guys would grind out certain sections 1341,0806 #ID 1142
vi Khơng dễ mà tinh chế nhựa bằng quá trình đun chảy lại , như là thuỷ tinh hay kim loại
en Plastic is not purified by the re-melting process like glass and metal
47,75 de Kunststoff wird durch das Umschmelzen nicht wie Glas und
Metall gereinigt
tải về từ nhĩm nghiên cứu về ngơn ngữ tự nhiên Stanford NLP theo địa chỉ (https://nlp stanford edu/projects/nmt/) Bảng 2 2 dưới đây là thống kê chi tiết về kho ngữ liệu này:
Bảng 2 2 Các bộ dữ liệu sử dụng trong các thử nghiệm
Các mơ hình được sử dụng trong các thử nghiệm như sau:
- Mơ hình dịch máy thống kê MOSES (http://ww statmt org/moses/) với mơ hình cụm từ phân cấp được sử dụng cho dịch thuật Việt - Anh - Mơ hình sử dụng trong dịch ngược: Sử dụng các mơ hình đã được huấn
luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhĩm Facebook AI Research [81]
- Mơ hình ngơn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mơ hình ngơn ngữ tiếng Anh đã được huấn luyện sẵn của nhĩm Facebook AI Research
Phần mềm MOSES ( http://www statmt org/moses/) với mơ hình dịch máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt - Anh Độ đo BLEU và BLEU_c [91] được sử dụng để đánh giá chất lượng hệ thống dịch máy Bộ dữ liệu Huấn luyện (IWLST’15) Tinh chỉnh tham số (tst2012) Đánh giá (tst2013) Tiếng Tiếng Anh Việt
Tiếng Anh Tiếng Việt Tiếng Tiếng Anh Việt Số lượng câu 133 317 133 317 1 553 1 553 1 268 1 268 Số lượng từ 2 706 404 3 311 620 27 983 34 297 26 728 33 682 Độ dài câu lớn nhất 628 850 93 122 102 123 Độ dài câu nhỏ nhất 2 2 2 2 2 2 Độ dài câu trung bình 20,30 24,84 18,02 22,08 21,08 26,56
2 4 2 Phương án thực hiện các thử nghiệm
Phương án thực hiện các thử nghiệm để đánh giá kết quả đạt được của các phương pháp đề xuất được minh họa bằng sơ đồ Hình 2 5 Các bước thực hiện như sau:
1 Sử dụng kho ngữ liệu song ngữ “IWLST’15” gốc để huấn luyện mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp cặp ngơn ngữ Việt - Anh và đánh giá chất lượng của mơ hình dịch máy thu được
HỆ THỐNG SMT (VI-EN)
Câu phía đích (e) Kho song ngữban đầu (IWSLT15)
Kho song ngữ huấn luyện (IWSLT15 + VE*)
Các câu phía nguồn tương ứng (v*) HỆ THỐNG DỊCH MÁY EN-DE-EN Các câu giả lập phía đích (e’) Các câu giả lập được chọn (e’*)
Lựa chọn câu e’ (so sánh e’ và e)
Kho song ngữ giả lập (VE*)
Hình 2 5 Tăng cường dữ liệu huấn luyện cho hệ thống SMT VI-EN
2 Áp dụng kỹ thuật dịch ngược đã trình bày ở Mục 2 3 2 để sinh các cặp câu song ngữ Việt - Anh giả lập Đầu tiên, các câu đơn ngữ tiếng Anh trong kho ngữ liệu “IWLST’15” gốc được dịch sang tiếng Đức sử dụng hệ thống dịch máy Anh-Đức đã được huấn luyện trước của Facebook AI Research Câu tiếng Đức thu được lại được dịch trở lại tiếng Anh sử dụng hệ thống dịch máy Đức- Anh đã được huấn luyện trước của Facebook AI Research Tiếp theo, sử dụng
các độ đo thích nghi đã được đề xuất trong Mục 2 3 3 để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu tiếng Anh được đánh giá “tốt” để thêm vào dữ liệu huấn luyện gốc tạo thành kho ngữ liệu huấn luyện mới “IWLST’15 + VE*”
3 Sử dụng kho ngữ liệu song ngữ “IWLST’15+ VE* ” để huấn luyện mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp và đánh giá chất lượng của mơ hình dịch máy thu được
4 So sánh các kết quả thử nghiệm đánh giá mơ hình dịch với dữ liệu huấn luyện là kho ngữ liệu song ngữ “IWSLT15” gốc và mơ hình dịch với dữ liệu huấn luyện là kho ngữ liệu song ngữ đã được tăng cường “IWLST’15+VE* ” Từ đĩ đánh giá được hiệu quả của các phương pháp đã đề xuất trong Mục 2 3 1
5 Bước dịch ngược được thực hiện trên máy chủ với 04 card đồ họa NVIDIA GeForce 1080Ti Các thử nghiệm đối với hệ thống MOSES được thực hiện trên máy trạm HP WorkStation Z420, cấu hình như sau: CPU Intel Xeon E5-2680 2 70 GHz, bộ nhớ RAM 32 GB, card đồ họa NVIDIA GeForce GTX 1050 Ti, ổ cứng HDD 1TB, hệ điều hành Ubuntu bionic 18 04 05