CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY DỰA VÀO MẠNG NƠRON CHO CÁC NGÔN NGỮ TÀI NGUYÊN HẠN CHẾ NÂNG CAO CHẤT LƯỢNG MẠNG PHỤC VỤ
Trang 1ĐẠI HỌC HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
− − − − − − −⋆− − − − − −−
CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY DỰA VÀO
MẠNG NƠRON CHO CÁC NGÔN NGỮ
TÀI NGUYÊN HẠN CHẾ
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội - 2024
Trang 2ĐẠI HỌC HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
− − − − − − −⋆− − − − − −−
CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY
DỰA VÀO MẠNG NƠRON CHO CÁC NGÔN NGỮ
1 PGS.TS Nguyễn Phương Thái
2 GS.TS Nguyễn Lê Minh
Hà Nội - 2024
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan các nội dung trong luận án là kết quả nghiên cứu của tôi,được thực hiện dưới sự hướng dẫn của các thầy Các kết quả và số liệu trình bàytrong luận án là hoàn toàn trung thực và chưa từng được công bố trong bất kỳcông trình của ai khác Các nội dung trích dẫn từ các nghiên cứu của các tácgiả khác mà tôi trình bày trong luận án đã được ghi rõ nguồn trong phần tàiliệu tham khảo
Tác giả:
Hà Nội:
Trang 4Tôi cũng xin trân trọng biết ơn chủ nhiệm các đề tài TC.02-2016-03, 4.0.12/19-25 và các thành viên đã chia sẻ kinh nghiệm và hỗ trợ kinh phí trongquá trình tôi thực hiện luận án.
KC-Tôi xin trân trọng cảm ơn GS.TS Nguyễn Thanh Thuỷ, PGS.TS Lê SỹVinh, TS Trần Quốc Long, TS Lê Đức Trọng, TS Hoàng Thị Điệp, TS TriệuHải Long, TS Trần Hồng Việt, PGS.TS Nguyễn Việt Anh, PGS.TS Nguyễn ThịNhật Thanh - Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội, PGS.TS
Lê Thanh Hương - Đại học Bách khoa Hà Nội, PGS.TS Lê Hồng Phương, TS.Nguyễn Thị Minh Huyền - Trường Đại học Khoa học tự nhiên, Đại học QuốcGia Hà Nội, PGS.TS Nguyễn Đức Dũng - Viện Công nghệ thông tin, Viện Hànlân Khoa học và Công nghệ Việt Nam, PGS.TS Bùi Thu Lâm - Học viện Kỹthuật mật mã, PGS TS Phạm Văn Cường - Học viện Công nghệ Bưu chính -Viễn thông, TS Nguyễn Chí Thành - Viện Khoa học và Công nghệ Quân sự,
TS Trần Hữu Anh - Trường Đại học Thái Bình, TS Nguyễn Tiến Hà - Đại họcHùng Vương đã dành nhiều thời gian đọc và góp ý cho luận án Đồng thời, tôicũng xin gửi lời cảm ơn đến các thầy, cô trong Bộ môn Khoa học máy tính,Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc Gia HàNội đã tận tình chỉ bảo, cung cấp cho tôi những kiến thức nền tảng quý giá,tạo điều kiện tốt nhất cho tôi về môi trường làm việc trong suốt quá trình họctập, nghiên cứu tại Trường
Tôi xin trân trọng cảm ơn các thầy, cô, các nhà khoa học đã dành thời gianquý báu của mình để đọc luận án và đưa ra các góp ý xác đáng để luận án ngàycàng được hoàn thiện
Tôi xin chân thành cảm ơn Lãnh đạo Trường, Khoa, Bộ môn và đồng nghiệptại Trường Đại học Công nghệ thông tin và Truyền thông Thái Nguyên, nơi tôi
Trang 5công tác đã giúp đỡ, tạo mọi điều kiện, sắp xếp, bố trí thời gian cho tôi trongsuốt quá trình làm nghiên cứu sinh.
Cuối cùng, tôi vô cùng biết ơn cha, mẹ, chồng, con, cùng toàn thể anh, chị,
em trong gia đình và bạn bè đã luôn ủng hộ, chia sẻ, giúp đỡ và động viên tôivượt qua những khó khăn trong suốt quá trình học tập và nghiên cứu
NCS Ngô Thị Vinh
Trang 6Mục lục
Chương 1 TỔNG QUAN VỀ DỊCH MÁY CHO CẶP NGÔN
1.1 Giới thiệu về bài toán dịch máy 9
1.1.1 Dịch máy và các bước ngoặt chính trong quá trình phát triển 9 1.1.2 Một số khái niệm được sử dụng trong luận án 12
1.1.3 Phạm vi của luận án 14
1.1.4 Những thách thức trong mô hình dịch máy hiện nay 14
1.2 Các hướng nghiên cứu chính về bài toán dịch máy tài nguyên hạn chế 18
1.2.1 Các phương pháp thu thập dữ liệu 19
1.2.2 Các phương pháp dựa vào dữ liệu đơn ngữ 19
1.2.3 Các phương pháp dựa vào dịch máy đa ngữ 23
1.2.4 Các phương pháp dịch máy dựa vào các tài nguyên khác 26
1.2.5 Các phương pháp thay đổi mô hình 26
1.3 Một số công cụ và phương pháp sử dụng trong luận án 26
Trang 71.3.1 Kiến trúc hệ thống dịch máy dựa trên mạng nơron 26
1.3.2 Đánh giá chất lượng dịch máy 32
1.3.3 Hệ thống máy tính toán 34
1.3.4 Phương pháp lựa chọn dữ liệu dựa vào độ đo TF-IDF 34
1.3.5 Phương pháp tách từ không giám sát 35
1.4 Tóm tắt chương 36
Chương 2 ẢNH HƯỞNG CỦA PHÂN ĐOẠN TỪ LÊN CHẤT LƯỢNG CỦA HỆ THỐNG DỊCH MÁY 37 2.1 Đặt vấn đề 37
2.2 Phân đoạn từ cho văn bản tiếng Việt sử dụng học không giám sát 39 2.2.1 Ý tưởng đề xuất 40
2.2.2 Thực nghiệm và kết quả 42
2.3 Hệ thống dịch máy dựa trên các mức phân đoạn từ khác nhau 44
2.3.1 Ý tưởng 44
2.3.2 Sự khác biệt giữa kiến trúc Transformer và kiến trúc RNN khi dịch dựa trên các ký tự 46
2.3.3 Thực nghiệm và kết quả 47
2.4 Tóm tắt chương 49
Chương 3 TĂNG CƯỜNG DỮ LIỆU 51 3.1 Đặt vấn đề 51
3.2 Phương pháp đề xuất 55
3.3 Thực nghiệm và kết quả 58
3.3.1 Tập dữ liệu và tiền xử lý 58
3.3.2 Thiết lập hệ thống và huấn luyện 60
3.3.3 Kết quả và phân tích 60
3.3.4 Thảo luận thêm 67
3.4 Tóm tắt chương 71
Chương 4 XỬ LÝ TỪ HIẾM 72 4.1 Đặt vấn đề 72
4.2 Cải tiến quá trình giải mã 77
4.2.1 Ý tưởng 77
4.2.2 Thực nghiệm và kết quả 79
Trang 84.3 Kết hợp vectơ nhúng từ, tách hình thái từ có giám sát và sử dụng
cơ sở dữ liệu WordNet khi dịch từ hiếm 84
4.3.1 Kết hợp vectơ nhúng từ (word embedding) trong câu nguồn 85 4.3.2 Tách hình thái theo cách tiếp cận học có giám sát cho văn bản tiếng Anh 86
4.3.3 Sử dụng quan hệ đồng nghĩa trong cơ sở dữ liệu WordNet 87 4.3.4 Thực nghiệm và kết quả 90
4.4 Tóm tắt chương 94
Chương 5 DỊCH MÁY ĐA NGỮ 96 5.1 Đặt vấn đề 96
5.2 Hệ thống dịch máy từ tiếng Trung, Nhật sang tiếng Việt 100
5.2.1 Sử dụng các phương pháp phân đoạn từ khác nhau 100
5.2.2 Cải tiến hệ dịch đa ngữ sử dụng nhãn nhân tạo 107
5.3 Hệ thống dịch máy từ tiếng Anh, Pháp sang tiếng Việt 110
5.3.1 Phương pháp đề xuất 111
5.3.2 Thử nghiệm và kết quả 115
5.4 Tóm tắt chương 119
Trang 9DANH MỤC CÁC TỪ VIẾT TẮT
Adam SGD Adam Stochastic Gradient
Descent
Bộ tối ưu Adam sử dụngphương pháp cắt giảm gra-dient ngẫu nhiên
ALPAC Automatic Language
Proces-sing Advisory Committee
Ủy ban cố vấn về xử lý ngônngữ tự động của chính phủMỹ
ALT Asian Language Treebank Tập dữ liệu đa ngữ giữa một
số ngôn ngữ Châu ÁBLEU Bilingual Evaluation Un-
on Spoken Language lation
Trans-Hội nghị quốc tế về dịch máycho ngôn ngữ dạng văn nói
KSE The International
Confe-rence on Knowledge AndSystem Engineering
Hội thảo khoa học quốc tế
về Kỹ nghệ Tri thức và Hệthống
LoResMT The Workshop on
Technolo-gies for MT of Low ResourceLanguages
Hội nghị các kỹ thuật dịchmáy cho ngôn ngữ hạn chếtài nguyên
Trang 10LSTM Long Short-Term Memory Một dạng đơn vị nhớ trong
mạng nơron với các cổngkhác nhau cho phép bắt ngữcảnh dài của các chuỗi đầuvào
GRU Gated Recurrent Unit Một dạng đơn vị nhớ trong
mạng nơron có chức năngtương tự như LSTM nhưngcác tính toán có sự thay đổiNMT Neural Machine Translation Dịch máy dựa trên mạng nơ-
ronRNN Recurrent Neural Network Mạng nơron hồi quy
VLSP The seventh international
workshop on VietnameseLanguage and SpeechProcessing
Hội nghị xử lý ngôn ngữ vàtiếng nói tiếng Việt
VNICT The Vietnam Conference of
Selected ICT Problems
Hội thảo quốc gia về "Một sốvấn đề chọn lọc về công nghệthông tin và Truyền thôngSMT Statistical Machine Transla-
Work-Hội nghị xử lý ngôn ngữ
tự nhiên khu vực Châu Á:Phiên dành cho sinh viên
Trang 11TF-IDF Term Frequency - Inverse
Document Frequency
Một phương pháp lựa chọn
dữ liệu dựa vào tần số xuấthiện của các từ trong tập dữliệu
TER Translation Error Rate Tỷ lệ lỗi dịch
Trang 121.3 Các tham số cơ bản của các hệ thống dịch dựa trên mạng Transformer 32
2.1 Ví dụ về cách phân đoạn câu tiếng Nhật khi sử dụng ba phương
2.2 Kết quả thực nghiệm trên hệ thống dịch NMT giữa tiếng Việt vàtiếng Nhật trong phương pháp phân đoạn từ không giám sát chovăn bản tiếng Việt 43
2.3 Một số ví dụ về sự ánh xạ giữa các ký tự kanji trong tiếng Nhậtvới các từ trong tiếng Việt 45
2.4 So sánh kết quả thực nghiệm trên các hệ thống dịch giữa tiếngNhật và tiếng Việt 49
3.1 Minh hoạ phương pháp sinh ra dữ liệu tổng hợp trong cách tiếpcận của [40, 115] cho hệ thống dịch từ tiếng Anh sang tiếng Việt 52
3.2 Minh hoạ phương pháp sinh ra dữ liệu như trong cách tiếp cận của[40, 115] trong hệ thống dịch từ tiếng Nhật sang tiếng Việt 53
3.3 Ví dụ về các kỹ thuật sinh dữ liệu tổng hợp trong nghiên cứu của[115], các từ bị thay đổi được in đậm 54
3.4 Ví dụ về các cặp câu tổng hợp được sinh ra từ cặp câu gốc trích từtập dữ liệu TED Talks sử dụng các ngưỡng tần số ths khác nhau 56
3.5 Thống kê số lượng cặp câu trong tập dữ liệu ALT và TED Talksđược sử dụng trong thực nghiệm 59
3.6 Kết quả thực nghiệm phương pháp tăng cường dữ liệu tổng hợp đềxuất trên tập dữ liệu TED Talks với ngưỡng tần số thay thế là 7
và so sánh với hệ thống dịch dịch ngược 61
Trang 133.7 Kết quả thực nghiệm phương pháp tăng cường dữ liệu được đề xuấttrong luận án trên tập dữ liệu ALT, với ngưỡng tần số thay thế là 7 62
3.8 Số lượng các cặp câu trong văn bản tiếng Việt chứa các ATU khi
sử dụng ngưỡng thay thế ths = 7 trên các tập dữ liệu 63
3.9 Một số ví dụ về bản dịch tiếng Nhật của các hệ thống dịch ngược
từ tiếng Việt sang tiếng Nhật 65
3.10Điểm BLEU của hệ các hệ thống dịch ngược trên tập dữ liệu TEDTalk, mecab được sử dụng cho việc phân đoạn các văn bản tiếngNhật 65
3.11Điểm BLEU của hệ các hệ thống dịch ngược trên tập dữ liệu ALT,spacy được sử dụng cho việc phân đoạn các văn bản tiếng Nhật 66
3.12Thống kê số lượng các câu tiếng Nhật trên các tập dữ liệu song ngữNhật - Việt được phân đoạn bởi kytea, hoặc spacy, hoặc mecabvới giới hạn 150 đơn vị dịch 68
3.13Ví dụ so sánh bản dịch trong các hệ thống dịch máy được tăngcường dữ liệu khi sử dụng các phương pháp phân đoạn khác nhaucho văn bản tiếng Nhật 69
3.14Kích thước tập từ vựng phía ngôn ngữ đích khi áp dụng phươngpháp tăng cường dữ liệu với ngưỡng tần số là ths = 7 so với hệthống cơ sở 70
3.15Điểm BLEU của hệ thống dịch từ tiếng Nhật sang tiếng Việt khithay đổi tỷ lệ từ hiếm trong tập từ vựng trong phương pháp đề xuất 70
4.1 Minh hoạ cách tiếp cận của Lương và cộng sự trong [81] cho việc
xử lý các từ hiếm Các mẫu câu dược trích xuất từ tập dữ liệu TEDTalks 73
4.2 Minh hoạ cách gán nhãn dữ liệu và kết quả khi sử dụng mạng contrỏ trong nghiên cứu [99] để dịch từ hiếm trong hệ thống dịch từtiếng Đức sang tiếng Anh 76
4.3 Thống kê các tập dữ liệu huấn luyện hệ thống dịch máy trongphương pháp cải tiến quá trình giải mã 81
4.4 Điểm BLEU trên tập đánh giá ALT cho chiều dịch từ tiếng Trungsang tiếng Việt khi cải tiến quá trình giả mã 82
4.5 Điểm BLEU trên hệ thống dịch đa ngữ khi cải tiến quá trình giải
mã 83
4.6 Thống kê số lượng các từ hiếm trên tập đánh giá ALT được dịchđúng trên hệ thống dịch đa ngữ 85
Trang 144.7 Thống kê các tập dữ liệu được sử dụng trong ba phương pháp đềxuất 90
4.8 Số lượng từ hiếm trong các tập dữ liệu được thay thế bởi 1-bestcác từ đồng nghĩa với ths = 1 92
4.9 Kết quả thực nghiệm các hệ thống dịch trên cặp ngôn ngữ Việt theo điểm Multi-BLEU 92
Nhật-4.10Kết quả thực nghiệm các hệ thống dịch trên cặp ngôn ngữ Anh-Việttheo điểm multi-BLEU (điểm BLEU chuẩn) 93
4.11Thống kê số lượng từ được tách phụ tố trong văn bản tiếng Anh 93
4.12Một số thí dụ từ hệ thống dịch từ tiếng Anh sang tiếng Việt khikết hợp các phương pháp đề xuất với hệ thống dịch cơ sở 94
5.1 Ví dụ về sự tương quan giữa các từ Kanji trong văn bản tiếng Nhậtvới các từ trong văn bản tiếng Trung từ tập dữ liệu ALT 97
5.2 Ví dụ về các từ Kanji trong tiếng Nhật giống với các từ trong tiếngTrung nhưng lại mang ý nghĩa khác nhau 98
5.3 Ví dụ về sự tương quan giữa văn bản tiếng Anh và tiếng Pháp từtập dữ liệu TED Talks 99
5.4 Thống kê số lượng cặp câu trong tập dữ liệu ALT và TED Talkskhi được kết hợp huấn luyện 102
5.5 Số lượng câu đơn ngữ huấn luyện mô hình BERT 103
5.6 Kết quả thực nghiệm trên hệ thống dịch đa ngữ từ tiếng Trung,Nhật sang tiếng Việt trên tập dữ liệu TED Talks 104
5.7 Thống kê số lượng từ vựng chung được chia sẻ giữa văn bản tiếngTrung và tiếng Nhật từ tập huấn luyện trên miền TED Talks trongdịch máy đa ngữ 105
5.8 Kết quả thực nghiệm trên hệ thống dịch đa ngữ từ tiếng Trung,Nhật sang tiếng Việt trên tập dữ liệu ALT 106
5.9 Kết quả thực nghiệm trên hệ thống dịch đa ngữ tích hợp mô hìnhBERT trên tập dữ liệu TED Talks 106
5.10Kết quả thực nghiệm trên hệ thống dịch đa ngữ tích hợp mô hìnhBERT trên tập dữ liệu ALT 107
5.11Ví dụ về cách gán nhãn cho câu tiếng Trung và tiếng Nhật trongtập dữ liệu 109
5.12Điểm BLEU của các hệ thống dịch đa ngữ sử dụng phương phápgán nhãn Hệ thống cơ sở chỉ sử dụng tập dữ liệu song ngữ 109
Trang 155.13Ví dụ về bản dịch từ hệ thống dịch máy đa ngữ sử dụng gán nhãnnhân tạo 110
5.14Thống kê các tập dữ liệu song ngữ sử dụng trong hệ thống dịchmáy từ tiếng Anh, Pháp sang tiếng Việt 117
5.15Kết quả thực nghiệm trên hệ thống dịch đa ngữ từ tiếng Anh, Phápsang tiếng Việt so với hệ thống dịch máy cơ sở 118
Trang 161.4 Minh họa hệ thống dịch đa ngữ với tình huống zero-shot 25
1.5 Minh họa kiến trúc dịch hồi quy gồm Bộ mã hóa và giả mã với cáctrạng thái ẩn hai chiều 28
1.6 Minh họa kiến trúc Transformer gồm Bộ mã hoá và giải mã 1 lớp 30
3.1 Sự tương ứng giữa các đơn vị dịch chuẩn và các ATU trong câuđích Từ Ladakh có tần số < 7 nên không bị thay thế 57
3.2 Sơ đồ tổng thể về phương pháp sinh dữ liệu tổng hợp và cách tíchhợp vào hệ thống dịch NMT 57
4.1 Minh hoạ cách gán nhãn dữ liệu trong phương pháp cải tiến quátrình giải mã 78
4.2 Một số bản dịch từ hệ thống dịch máy đa ngữ khi so sánh hệ thốngcải tiến quá trình giải mã với hệ thống cơ sở 84
Trang 17DANH MỤC CÁC THUẬT TOÁN
1 Giải thuật dịch ngược (Back-Translation) 20
3 Giải thuật học chuyển đổi (transfer learning) trong dịch đa ngữcho cặp ngôn ngữ tài nguyên hạn chế 24
4 Giải thuật tách từ sử dụng học không giám sát cho văn bản tiếngViệt 41
5 Giải thuật sinh dữ liệu tổng hợp từ một cặp câu chuẩn đầu vào 56
6 Giải thuật sinh tập dữ liệu huấn luyện khi kết hợp phương pháp
đề xuất với phương pháp dịch ngược 66
7 Giải thuật tìm kiếm vị trí từ hiếm thứ j trong câu nguồn phù hợpvới từ hiếm thứ i trong câu đích 80
8 Giải thuật tách các hình thái từ theo cách tiếp cận học có giám sát 88
9 Giải thuật thay thế các từ hiếm bởi các từ đồng nghĩa 89
10 Giải thuật học các từ tương tự trong không gian đa ngữ 114
11 Giải thuật biến đổi vectơ từ hiếm trong không gian đa ngữ 116
Trang 18MỞ ĐẦU
Mỗi quốc gia hoặc vùng lãnh thổ trên thế giới thường sử dụng ngôn ngữ(tiếng nói, chữ viết) riêng, thậm chí trong một quốc gia có thể tồn tại nhiềungôn ngữ khác nhau Chẳng hạn như ở nước ta, bên cạnh tiếng Việt được sửdụng rộng rãi còn tồn tại nhiều thứ tiếng của các dân tộc khác như tiếng Dao,tiếng Mường, tiếng Khmer, Do nhu cầu phát triển kinh tế, xã hội, giao thươnghàng hoá, từ lâu dịch thuật đã trở thành công cụ chính để giúp con người traođổi thông tin qua lại giữa những người sử dụng các ngôn ngữ khác nhau đến từnhiều quốc gia, vùng, miền lãnh thổ Tuy nhiên, việc dịch thuật dựa vào phiêndịch thông qua các chuyên gia ngôn ngữ đòi hỏi nhiều thời gian và chi phí tốnkém nên khó đáp ứng được các yêu cầu thực tế Nhận thức được vấn đề này,ngay từ những thập niên 1950 và 1960 của thế kỷ 20 các nhà khoa học đã sớm
đề xuất các ý tưởng về việc xây dựng các hệ thống dịch máy tự động để đáp ứngnhu cầu dịch thuật trong thực tế Điển hình là hệ thống dịch của SYSTRANcủa Peter Toma ra đời năm 1968 và được sử dụng cho mục đích thương mại từnhững năm 1970 [50, 135] Những thập niên gần đây, dịch máy là chủ đề đượcquan tâm hàng đầu trong lĩnh vực xử lý ngôn ngữ tự nhiên
Ban đầu, các hệ thống dịch máy được phát triển dựa trên các cách tiếp cậnđơn giản như dịch dựa vào từ điển hoặc dịch thông qua các mẫu ví dụ sử dụngmột tập hữu hạn các luật được xây dựng bởi các chuyên gia ngôn ngữ [50] Cáchtiếp cận này tồn tại nhiều hạn chế khi không chỉ yêu cầu các bộ từ điển songngữ hay các mẫu ví dụ đủ lớn mà còn đòi hỏi nỗ lực xây dựng các luật từ cácchuyên gia Trên thực tế, ngữ cảnh của mỗi từ trong các văn bản thuộc mộtngôn ngữ nhất định thường biến đổi, đồng thời, đặc điểm cấu trúc ngữ phápcủa mỗi ngôn ngữ thường phức tạp, do vậy, rất khó để có thể xây dựng đượccác bộ luật hoàn chỉnh cho từng cặp ngôn ngữ Tiếp cận dịch máy thống kê(Statistical Machine Translation - SMT) [60, 63] ra đời được xem như một cuộccách mạng trong dịch máy khi các luật dịch được học tự động từ kho dữ liệusong ngữ Cách tiếp cận dịch này được sử dụng trong nhiều phiên bản thươngmại của các công ty lớn như Google, IBM, Microsoft cho đến năm 2015 Mặc dùcách tiếp cận dịch dựa vào thống kê đem lại những thành công to lớn cho các hệthống dịch máy nhưng vẫn tồn tại những hạn chế như: văn bản đầu ra thường
Trang 19không trôi chảy do bị mất ngữ cảnh dài, hệ thống dịch gồm nhiều thành phầnrời rạc nên việc phát triển các kỹ thuật mới sao cho đồng bộ toàn hệ thống làkhá khó khăn.
Như một bước tiến mới trong sự phát triển của dịch máy, Cho và Bahdanaucùng các cộng sự [9, 17] đã áp dụng thành công mô hình mạng nơron với việckhắc phục hiện tượng bản dịch không trôi chảy bằng cách sử dụng các đơn vịnhớ LSTM (Long Short-Term Memory) hay GRU (Gated Recurrent Unit ) Tiếp
đó, Vaswani [132] đề xuất mạng Transformer với cơ chế tự chú ý (self-attention)cho phép song song hoá các tính toán trong hệ thống dịch máy Với các kiếntrúc này, hệ thống dịch máy như một thể thống nhất nên việc phát triển các
kỹ thuật mới, đồng bộ có nhiều thuận lợi hơn so với kiến trúc dịch thống kê.Trong đó, cách tiếp cận dịch sử dụng mạng nơron (Neural Machine Translation
- NMT) dựa trên học có giám sát vẫn là cách tiếp cận chủ yếu và đạt đượcnhiều thành công hơn so với cách tiếp cận học không giám sát hoặc nửa giámsát Trong phương pháp học có giám sát, các kho dữ liệu song ngữ là một trongnhững yếu tố quan trọng hàng đầu quyết định chất lượng của hệ thống dịchmáy Tuy nhiên, trên thực tế, dữ liệu song ngữ luôn có hạn Để có được nguồn
dữ liệu tốt đòi hỏi nhiều thời gian, công sức và chi phí để các chuyên gia ngônngữ xây dựng Trên thế giới tồn tại khoảng hơn 7,000 ngôn ngữ được con người
sử dụng trong đời sống [70], trong đó có khoảng 6,500 ngôn ngữ được sử dụngrộng rãi [44] Tuy nhiên, các nghiên cứu về dịch máy cũng như một số hệ thốngdịch tự động lớn hiện nay như Google, Microsoft, SYSTRAN vẫn tập trung chủyếu vào các cặp ngôn ngữ có nhiều tài nguyên song ngữ (gọi tắt là các cặp ngônngữ giàu tài nguyên), trong khi chất lượng dịch cho các cặp ngôn ngữ ít tàinguyên song ngữ (gọi là cặp ngôn ngữ tài nguyên hạn chế) còn thấp [36, 61].Ngay cả hệ thống dịch được xem là khá mạnh hiện nay như chatGPT ch chưadịch tốt bằng Google [52, 96] Trong điều kiện khan hiếm tài nguyên song ngữ,các nhà nghiên cứu đã nỗ lực đề xuất nhiều giải pháp khác nhau để nâng caochất lượng dịch máy như: thu thập và xây dựng dữ liệu [27, 74, 116], sử dụng
dữ liệu đơn ngữ để sinh ra dữ liệu song ngữ tổng hợp [26, 40, 119, 146], sử dụngdịch đa ngữ [3, 36, 53] kết hợp với phương pháp học chuyển đổi [59, 153], môhình ngôn ngữ lớn [106], xử lý từ hiếm (các từ ít xuất hiện trong tập dữ liệuhuấn luyện) [81, 99, 118, 122, 129], cải tiến mô hình dịch [30, 36], sử dụng dữ
Trang 20liệu từ nhiều miền (dữ liệu về các lĩnh vực khác nhau như y tế, giáo dục, tintức, ) để cải thiện chất lượng dịch trên một miền cụ thể [47, 144] Các phươngpháp vừa nêu đều cho thấy sự cải thiện đáng kể hiệu năng của các hệ thốngdịch máy nhưng chúng vẫn tồn tại các nhược điểm khi áp dụng trong các hệthống dịch máy Cụ thể:
- Các phương pháp sinh dữ liệu song ngữ tổng hợp từ dữ liệu đơn ngữ cónhững hạn chế như: phương pháp dịch ngược (Back Translation) [26, 119] hoặcdịch tiến (Forward Translation) [146] đòi hỏi phải có một hệ thống dịch ban đầu
đủ tốt để sinh ra các bản dịch có chất lượng Điều này khá khó khăn đối vớicác cặp ngôn ngữ ít tài nguyên hoặc không có tài nguyên song ngữ Kỹ thuậttạo ra bản sao của ngôn ngữ nguồn hoặc đích [40] không phù hợp cho các cặpngôn ngữ sử dụng các bảng chữ cái khác nhau
- Phương pháp sử dụng các mô hình ngôn ngữ lớn để khởi tạo hệ thống dịchđòi hỏi nhiều nỗ lực thu thập dữ liệu đơn ngữ, mặc dù chúng sẵn có Ngoài ra,phương này bị hạn chế khi các tham số của mô hình ngôn ngữ bị điều chỉnh bởi
mô hình dịch máy với lượng dữ liệu nhỏ trong quá trình huấn luyện dẫn đếnhiệu quả của mô hình ngôn ngữ bị giới hạn
- Phương pháp sử dụng dịch đa ngữ [3, 36, 53] hay học chuyển đổi [59, 153]đòi hỏi các cặp ngôn ngữ giàu tài nguyên phải có nhiều điểm tương đồng vềmặt ngôn ngữ học (như cấu trúc ngữ pháp, từ vựng) với các cặp ngôn ngữ íttài nguyên, hoặc các cặp ngôn ngữ trong cùng hệ thống dịch máy cũng phải có
- Ngoài ra, việc chọn lọc các dữ liệu từ nhiều miền khác nhau để cải thiệnchất lượng dịch trên một miền cụ thể là rất cần thiết Các phương pháp chọn
Trang 21lọc dựa vào từ điển, tập từ vựng thường làm mất ngữ cảnh câu trong khi cácphương pháp chọn lọc dữ liệu sử dụng biểu diễn từ hoặc câu trong các mạngnơron phụ thuộc vào chất lượng dữ liệu, kiến trúc mạng và tốn nhiều thời gian.
Từ các nhược điểm vừa nêu, có thể thấy các phương pháp đã có chưa giảiquyết triệt để các khía cạnh khác nhau của bài toán dịch máy trong điều kiệnkhan hiếm tài nguyên song ngữ Vì vậy, việc đề xuất thêm các phương phápmới góp phần cải thiện chất lượng của các hệ thống dịch máy tài nguyên songngữ hạn chế là rất cần thiết Dưới sự định hướng, hỗ trợ của các thầy hướngdẫn và các cộng sự, tôi đã thực hiện luận án với đề tài "Cải tiến chất lượng dịchmáy dựa vào mạng nơron cho các ngôn ngữ tài nguyên hạn chế" nhằm đónggóp thêm các giải pháp để giải quyết các vấn đề còn tồn tại của bài toán này.Tuy nhiên, do điều kiện thời gian, trong luận án, tôi chỉ tập trung vào một sốhướng tiếp cận chính, bao gồm:
1 Ảnh hưởng của phân đoạn từ đến chất lượng dịch máy: chúng tôi đề xuấtcác hệ thống dịch dựa trên các phương pháp phân đoạn từ khác nhau Cáccâu trong văn bản thuộc các ngôn ngữ khác nhau được biểu diễn theo cácquy tắc riêng Ví dụ, các câu thuộc văn bản tiếng Anh hay tiếng Pháp, mỗi
từ được phân cách nhau bởi ít nhất một ký tự trắng, với các câu thuộc vănbản tiếng Việt, mỗi âm tiết được phân cách nhau bởi một khoảng trắng;các câu trong văn bản tiếng Trung hoặc tiếng Nhật, tiếng Khmer, tiếngLào, không sử dụng ký tự trắng mà các từ được viết liền mạch Do vậy,phân đoạn từ cũng được xem là một trong những bài toán quan trọng của
xử lý ngôn ngữ tự nhiên Đối với dịch máy, việc phân đoạn văn bản đầuvào cũng hết sức quan trọng trong quá trình tiền xử lý Các phương pháphọc không giám sát điển hình có thể áp dụng rộng rãi cho nhiều ngôn ngữtrong dịch máy như [66,118] Các phương pháp phân đoạn từ khác nhau cóthể cho hiệu năng dịch khác nhau Trong luận án, chúng tôi cũng đề xuấtcách tiếp cận phân đoạn bằng phương pháp học không giám sát cho vănbản tiếng Việt trong dịch máy Đồng thời, chúng tôi đề xuất hệ thống dịchNhật-Việt sử dụng các phương pháp phân đoạn khác nhau cho văn bản đầuvào trên hai kiến trúc dịch sử dụng mạng RNN và mạng Transformer Cáckết quả thực nghiệm được công bố tại hội nghị quốc tế về Dịch máy chongôn ngữ dạng văn nói IWSLT năm 2019 (công trình số 7), hội nghị KSE
Trang 22năm 2018 (công trình số 9) và tạp chí khoa học Đại học Thái Nguyên(công trình số 10).
2 Tăng cường dữ liệu song ngữ tổng hợp: chúng tôi đề xuất kỹ thuật làm giàu
dữ liệu và đạt được sự cải thiện đáng kể trên hiệu năng dịch Các kết quảchính liên quan đến cách tiếp cận này được công bố trên tạp chí quốc tế
"Applied Artificial Intelligence" thuộc danh mục SCIE (công trình số2)
3 Xử lý từ hiếm: chúng tôi đề xuất một số phương pháp nâng cao chất lượngdịch từ hiếm Dịch các từ hiếm là một trong những thách thức lớn của dịchmáy [51, 51, 61] Jean và cộng sự [51] đã chỉ ra rằng: cho dù tập dữ liệu lớn
cỡ nào thì các từ hiếm sẽ vẫn tồn tại Vì vậy, việc xử lý các từ hiếm trongdịch máy là rất cần thiết và nó càng cấp thiết hơn trong kiện tài nguyênhạn chế Các nghiên cứu trước đây đã nỗ lực đề xuất nhiều cách tiếp cậnkhác nhau để giải quyết vấn đề này, điển hình là [51, 81, 118, 122, 129].Tuy nhiên, vấn đề dịch các từ hiếm trong các hệ thống dịch máy hiện nayvẫn chưa được xử lý triệt để Để đóng góp thêm các kết quả cho hướngnghiên cứu này, chúng tôi đã đề xuất một số cách tiếp cận khác nhau đểtăng cường dịch các từ hiếm bao gồm: cải tiến quá trình giải mã thông quaviệc chú thích các từ hiếm, kết hợp vectơ biểu diễn từ (vectơ nhúng từ hayword embeddings) trong câu nguồn tới xác suất dự đoán đầu ra, sử dụngcác phụ tố (tiền tố, hậu tố) để tách từ có giám sát, sử dụng quan hệ từđồng nghĩa trong mạng từ Wordnet [28] Các kết quả được công bố tại cáchội nghị: Dịch máy cho các ngôn ngữ Châu Á WAT năm 2019 (công trình
số 8), Hội nghị xử lý ngôn ngữ Châu Á SWR AACL-IJCNLP năm 2022(công trình số 3), Hội nghị quốc gia VNICT năm 2021 (công trình số 4)
4 Sử dụng dịch đa ngữ: dịch đa ngữ là cách tiếp cận được nhiều nghiên cứugần đây và các công ty phần mềm hàng đầu thế giới như Google, Meta đặcbiệt quan tâm Các mô hình dịch đa ngữ cho phép người sử dụng đưa vào
hệ thống nhiều ngôn ngữ đầu và nhận bản dịch đầu ra ở nhiều ngôn ngữmong muốn Ưu điểm của mô hình dịch đa ngữ so với các mô hình dịchkhác là chúng chỉ sử dụng duy nhất một bộ tham số để học đồng thời mốiliên hệ giữa các văn bản đầu vào với văn bản đầu ra cho nhiều cặp ngônngữ khác nhau Tuy nhiên, cách tiếp cận này cũng đặt ra các thách thức
Trang 23lớn cho các hệ thống dịch máy như: (1) các ngôn ngữ thường sử dụng cácbảng chữ cái khác nhau, thí dụ, tiếng Anh, tiếng Đức sử dụng bảng chữ cáiLatinh, tiếng Việt cũng sử dụng bảng chữ cái Latinh nhưng kèm theo mộttập các ký tự có dấu, trong khi tiếng Trung sử dụng chữ tượng hình, tiếngNhật vừa kết hợp chữ tượng hình Kanji với chữ Hiragana và Katakana theocách viết riêng v.v Sự khác biệt này không những làm tăng bộ nhớ của
hệ thống dịch máy mà còn làm giảm khả năng chia sẻ thông tin giữa cácngôn ngữ trong không gian biểu diễn chung; (2) Ngoài sự khác biệt về chữviết, sự khác biệt về cấu trúc ngữ pháp, ngữ nghĩa của từ vựng cũng làmột trong những cản trở lớn đối với các hệ thống dịch máy Các nghiêncứu trước đây đã chỉ ra rằng các cặp ngôn ngữ cùng họ sẽ có nhiều lợi thếkhi được kết hợp với nhau trong cùng hệ thống dịch máy đa ngữ [36, 124].Với hướng nghiên cứu này, chúng tôi đề xuất hệ thống dịch máy đa ngữ từtiếng Trung, Nhật sang tiếng Việt sử dụng các phương pháp phân đoạn từkhác nhau cho văn bản tiếng Nhật và cải tiến chất lượng dịch bằng cách
sử dụng các nhãn nhân tạo Đồng thời, chúng tôi đề xuất các kỹ thuật tựđộng học mối quan hệ tương tự giữa các từ trong không gian đa ngữ cho
hệ thống dịch máy từ tiếng Anh, Pháp sang tiếng Việt Các kết quả thựcnghiệm được công bố tại hội nghị về các kỹ thuật dịch máy trong điều kiệntài nguyên hạn chế LoResMT năm 2020 (công trình số 5), tạp chí SCIE
"Applied Artificial Intelligence" (công trình số 2) và hội nghị SOICTnăm 2023 (công trình số 1) Bên cạnh việc đề xuất phương pháp mới, chúngtôi cũng thực nghiệm các phương pháp chọn lọc dữ liệu kết hợp sử dụng
mô hình được huấn luyện trước (pre-trained) để nâng cao chất lượng dịchmáy
Bên cạnh đó, trong khi các nghiên cứu về dịch máy cho các cặp ngôn ngữChâu Âu không ngừng triển mạnh mẽ, các nghiên cứu về dịch máy cho các cặpngôn ngữ châu Á còn khiêm tốn, chỉ tập trung chủ yếu vào dịch giữa tiếng Anhvới các tiếng khác Trong luận án, bên cạnh các thử nghiệm hệ thống dịch máycho cặp ngôn ngữ Anh-Việt - cặp ngôn ngữ đã được nhiều nghiên cứu xem xéttrước đó, chúng tôi tập trung chủ yếu vào các hệ thống dịch máy giữa các cặpngôn ngữ còn khá ít nghiên cứu chú ý đến như Trung-Việt, Nhật - Việt và bướcđầu xem xét các cặp ngôn ngữ Pháp-Việt, Khmer-Việt và Lào - Việt
Trang 24Như vậy, có thể tóm tắt các đóng góp chính của luận án "Cải tiến chấtlượng dịch máy dựa trên mạng nơron cho các ngôn ngữ tài nguyênhạn chế" bao gồm:
- Đề xuất các hệ thống dịch sử dụng các phương pháp phân đoạn từ khácnhau cho hệ thống dịch giữa tiếng Nhật và tiếng Việt (công trình 7, 9, 10)
- Đề xuất phương pháp làm giàu dữ liệu song ngữ trong điều kiện tài nguyênhạn chế (công trình số 2)
- Đề xuất các cách tiếp cận khác nhau để nâng cao chất lượng dịch các từhiếm bao gồm: cải tiến quá trình giải mã, kết hợp các vectơ nhúng từ tớixác suất dự đoán đầu ra, sử dụng các phụ tố để tách từ có giám sát trongvăn bản tiếng Anh, sử dụng quan hệ đồng nghĩa trong mạng từ WordNet(Công trình 3, 4, 8)
- Đề xuất các hệ thống dịch đa ngữ giữa các ngôn ngữ có điểm tương đồng
về mặt ngôn ngữ học và phương pháp học sự tương tự giữa các đơn vịdịch trong không gian dịch đa ngữ Đồng thời, chúng tôi áp dụng một số
kỹ thuật chọn lọc dữ liệu, mô hình được huấn luyện trước (pre-trained) đểnâng cao chất lượng dịch máy (công trình 1, 2, 5)
- Đề xuất kết hợp các phương pháp nâng cao hiệu quả dịch máy trên miền
cụ thể khi tài nguyên cho miền đó hạn chế (công trình 6) Do sự giới hạn
về số trang luận án nên chúng tôi không trình bày phương pháp này trongbáo cáo
- Bên cạnh các thử nghiệm cho cặp ngôn ngữ Anh-Việt, chúng tôi tập trungvào các cặp ngôn ngữ tài nguyên hạn chế và còn khá ít nghiên cứu nhưTrung-Việt, Nhật-Việt, Lào-Việt, Khmer-Việt, Pháp-Việt
- Ngoài việc sử dụng các tập dữ liệu Anh-Việt sẵn có, đã được công bố trước
đó, chúng tôi công bố một số tập dữ liệu thu thập được trong quá trìnhthực hiện luận án cho mục đích nghiên cứu, bao gồm các tập dữ liệu songngữ Anh-Việt, Pháp-Việt, Nhật-Việt, Trung-Việt
Trong luận án, chúng tôi chỉ tập trung trình bày một số đóng góp chính,không kể phần mở đầu và kết luận, nội dung của luận án bao gồm 05 chương:Chương 1 trình bày tổng quan về bài toán dịch máy, các khái niệm được
sử dụng trong luận án và phạm vi của luận án Đồng thời, chúng tôi cũng nêu
Trang 25các thách thức của bài toán dịch máy nói chung hiện nay và các hướng nghiêncứu chính cho bài toán dịch máy trong điều kiện tài nguyên song ngữ hạn chếnói riêng Phần cuối chương, chúng tôi trình bày các kiến thức cơ bản và cáccông cụ được sử dụng trong luận án như: kiến trúc RNN và Transformer vớicác tham số cấu hình cơ bản, hệ thống phần cứng cho thực nghiệm, các độ đođược sử dụng để đánh giá chất lượng hệ thống dịch máy và phương pháp lựachọn dữ liệu dựa vào độ đo TF-IDF.
Chương 2 trình bày các đề xuất về hệ thống dịch máy giữa tiếng Nhật vàtiếng Việt với việc đề xuất sử dụng các phương pháp phân đoạn từ khác nhau.Chương 3 trình bày đề xuất về phương pháp làm giàu dữ liệu song ngữ chocác cặp ngôn ngữ tài nguyên hạn chế Các kết quả được đánh giá trên hai tập
dữ liệu khác nhau cho cặp ngôn ngữ Trung-Việt và Nhật-Việt
Chương 4 trình bày các đề xuất khác nhau nhằm nâng cao hiệu quả dịchcác từ hiếm trong dịch máy Các kết quả được đánh giá trên các hệ thống dịchmáy với các cặp ngôn ngữ khác nhau như Anh - Việt, Trung - Việt, Nhật - Việt,Lào - Việt và Khmer - Việt
Chương 5 trình bày các đề xuất sử dụng dịch đa ngữ cho các ngôn ngữtương đồng từ tiếng Trung, Nhật sang tiếng Việt và từ tiếng Anh, Pháp sangtiếng Việt, đồng thời đề xuất các phương pháp học mối quan hệ tương tự giữacác từ trong không gian dịch đa ngữ
Trang 26án, các thách thức đối với hệ thống dịch máy hiện nay và đi sâu vào các cáchtiếp cận dịch trong điều kiện tài nguyên song ngữ hạn chế - hướng tiếp cậnchính liên quan trực tiếp tới các nội dung của luận án Tiếp đó, chúng tôi trìnhbày hai kiến trúc dịch máy dựa trên mạng nơron được sử dụng phổ biến, baogồm kiến trúc RNN và Transformer với các tham số cầu hình cơ bản trong cácthực nghiệm Cuối cùng, chúng tôi trình bày các độ đo để đánh giá chất lượngcủa hệ thống dịch máy và các phương pháp chung được sử dụng trong nhiềucông trình của luận án như: lựa chọn dữ liệu dựa vào độ đo TF-IDF, phân đoạn
từ bằng kỹ thuật BPE
1.1 Giới thiệu về bài toán dịch máy
1.1.1 Dịch máy và các bước ngoặt chính trong quá trình phát triểnKhái niệm về dịch máy (Machine Translation) hay còn gọi là dịch tự độngđược đề cập lần đầu tiên bởi Weaver năm 1955 [140] dùng để chỉ việc sử dụngmáy tính để dịch văn bản từ một ngôn ngữ này sang một ngôn ngữ khác Trảiqua hơn 70 năm hình thành và phát triển, các hệ thống dịch máy ngày nay đãđạt được nhiều thành tựu to lớn, bước đầu đáp ứng được nhu cầu của con ngườitrong nhiều lĩnh vực của đời sống như: dịch thuật, kinh doanh, giao thươnghàng hóa, giao lưu văn hóa giữa các quốc gia và vùng lãnh thổ Phần dưới đây
sẽ điểm qua một số bước ngoặt chính trong quá trình phát triển của dịch máy.Ban đầu, các hệ thống dịch máy được thiết kế chủ yếu phục vụ các ứng dụngcủa quân đội Năm 1954, sự hợp tác giữa Đại học Georgetown và tập đoàn IBM
đã cho ra đời hệ thống dịch máy đầu tiên cho phép dịch giữa tiếng Anh và
Trang 27tiếng Trung chạy trên máy tính IBM-701 đã đem lại tiếng vang lớn trong xãhội tại thời điểm đó Tuy nhiên, năm 1966, Uỷ ban cố vấn về xử lý ngôn ngữ
tự động của chính phủ Mỹ (ALPAC) đã đưa ra báo cáo hoài nghi về khả năngcủa hệ thống dịch máy Báo cáo này đã làm suy giảm niềm tin của các nhànghiên cứu về hệ thống dịch máy lúc đó và kéo theo các khó khăn về nguồnvốn đầu tư cho lĩnh vực này [50, 135] Mặc dù vậy, các nhà nghiên cứu vẫntiếp tục nỗ lực tìm ra các cách tiếp cận mới để giải quyết bài toán này Đếnnhững năm 1970, các nghiên cứu về dịch máy dựa trên luật (rule-based machinetranslation) được thiết kế bằng tay cùng với việc kết hợp sử dụng từ điển đãcho ra đời hệ thống dịch máy thương mại đầu tiên SYSTRAN được phát minhbởi Peter Toma (1968) Google vẫn duy trì hệ thống dịch dựa vào luật cho đếnnăm 2007 Tuy nhiên, cách tiếp cận dịch dựa vào luật đã thể hiện các hạn chếnhư khó khăn trong việc chuyển đổi dịch từ lĩnh vực này sang lĩnh vực khác,chẳng hạn, chuyển từ lĩnh vực du lịch sang lĩnh vực công nghệ thông tin, hay
từ cặp ngôn ngữ này sang cặp ngôn ngữ khác Trong các trường hợp này, hệthống dịch đòi hỏi phải xây dựng bổ sung hoặc xây dựng lại các luật Điều nàylàm cho hệ thống dịch máy khó có thể áp dụng rộng rãi
Song song với cách tiếp cận dựa vào luật, ở một tiếp cận khác, các nhà nghiêncứu đã phát hiện ra các lợi thế của dữ liệu song ngữ đối với các hệ thống dịchmáy Đầu tiên, dịch dựa trên ví dụ (example-based machine translation) được
đề xuất bởi Nagao và các cộng sự năm 1984 [89], sau đó cách tiếp cận này đượcnhiều nhà nghiên cứu chú ý đến vào đầu những năm 2000 [21, 130] Tiếp cậndịch dựa vào dữ liệu song ngữ tiếp tục phát triển thêm một bước mới với môhình dịch thống kê (SMT) được đề xuất đầu tiên bởi Brown và cộng sự năm
1990 [12] Sau đó, hàng loạt các nghiên cứu về dịch máy thống kê ra đời với bahướng tiếp cận chính là dịch dựa vào từ, dịch dựa vào cụm từ và dịch dựa vàocây cú pháp Trong đó, các tiếp cận dịch dựa trên cụm từ (phrase-based SMT )được đề xuất bởi Koehn và cộng sự năm 2003 [63] là cách cận đem lại nhiềuthành công nhất Hệ thống dịch máy thống kê gồm hai mô hình chính: mô hìnhdịch cho phép học các luật dựa trên dóng hàng tự động giữa văn bản nguồn vàvăn bản đích trong quá trình huấn luyện, sau đó, mô hình ngôn ngữ được sửdụng để giúp hệ thống dịch sinh ra văn bản đầu ra trôi chảy hơn Mặc dù đượcxem là cách tiếp cận thành công hơn so với tiếp cận dựa vào luật và dựa vào ví
Trang 28dụ nhưng các hệ thống SMT vẫn tồn tại những điểm yếu rõ ràng như: bản dịchđầu ra thường không trôi chảy; đối với các cặp ngôn ngữ có nhiều sự khác biệt
về cấu trúc câu (chẳng hạn như tiếng Anh và tiếng Nhật) thì thường cần thêm
mô hình đảo trật tự từ, hệ thống dịch gồm nhiều khối được huấn luyện với các
bộ tham số khác nhau như mô hình dóng hàng, mô hình ngôn ngữ, mô hìnhđảo trật tự từ Điều này làm cho việc phát triển các phương pháp mới gặp khókhăn trong việc đồng bộ các tham số của toàn bộ hệ thống Cách tiếp cận dịchnày được áp dụng trong các hệ thống dịch máy thương mại cho đến năm 2015.Các tiếp cận dịch dựa vào dữ liệu tiếp tục đạt được các thành tựu vượt bậcvới việc ứng dụng thành công mô hình mạng nơron trong dịch máy (NMT) vớikiến trúc chuỗi sinh chuỗi (sequence to sequence), viết tắt là seq2seq [9, 17] làđiển hình Hình 1.1 mình hoạ kiến trúc dịch máy chuỗi sinh chuỗi, trong đó,
Bộ mã hóa (Encoder ) thực hiện mã hóa câu đầu vào trong văn bản nguồn, Bộgiải mã (Decoder ) thực hiện mã hóa câu đầu vào trong văn bản đích trong quátrình huấn luyện và dự đoán kết quả đầu ra
Hình 1.1 Minh hoạ một kiến trúc chuỗi sinh chuỗi (seq2seq) trong dịch
máy được đề xuất bởi [9, 17]
Sự ra đời của kiến trúc dịch NMT đã mở ra hướng đi mới cho các nghiên cứu
về dịch máy tiếp tục phát triển với nhiều ưu điểm so với mô hình dịch thống kê,đặc biệt, hệ thống dịch đã khắc phục được tình trạng các văn bản đầu ra kémtrôi chảy như trong các hệ thống dịch trước đây Hiện tại, dịch dựa vào mạng
Trang 29nơron vẫn là cách tiếp cận chiếm ưu thế và đang được ứng dụng trong các hệthống dịch thương mại Chính vì vậy, trong luận án, chúng tôi thực hiện cácnghiên cứu tập trung chủ yếu dựa trên cách tiếp cận dịch này.
1.1.2 Một số khái niệm được sử dụng trong luận án
Ngôn ngữ tài nguyên hạn chế (low-resource/under-resource/data scarcitylanguage), theo Alexandre [82] có thể hiểu là ngôn ngữ ít được nghiên cứu hoặc
có ít các tài nguyên tính toán, tài nguyên dữ liệu hoặc ít được phổ biến hay ítcác đặc quyền (như các công cụ, kỹ thuật có thể áp dụng) cũng như không có
ưu thế ở một số khía cạnh khác
Theo đó, cặp ngôn ngữ tài nguyên hạn chế (low-resource language pairs)
là khái niệm được sử dụng rộng rãi trong dịch máy cũng có thể được hiểu theomột hoặc nhiều khía cạnh nào đó của ngôn ngữ tài nguyên hạn chế Thực tế,các nghiên cứu về dịch máy chủ yếu xem xét các cặp ngôn ngữ tài nguyên hạnchế trong điều kiện khan hiếm dữ liệu song ngữ [36, 59, 115, 153], hoặc chỉ sửdụng một lượng dữ liệu đủ nhỏ để đánh giá phương pháp đề xuất [40] Trongluận án, khái niệm về cặp ngôn ngữ tài nguyên hạn chế cũng được hiểu theonghĩa này Sự khan hiếm dữ liệu là nguyên nhân chính dẫn đến các nghiên cứuliên quan đến các cặp ngôn ngữ đó cũng như chất lượng dịch máy của chúngcòn khá hạn chế Haddow và cộng sự [43] chỉ ra rằng, khó có thể định nghĩachính xác như thế nào là cặp ngôn ngữ tài nguyên dữ liệu hạn chế vì khái niệmnày có thể thay đổi theo thời gian, phụ thuộc vào các kỹ thuật, công nghệ ởtừng giai đoạn, miễn là lượng dữ liệu tại thời điểm đó chưa đáp ứng được yêucầu thực tế khi áp dụng các công nghệ hiện có Các tập dữ liệu của các cặpngôn ngữ được xem là tài nguyên hạn chế được sử dụng trong các nghiên cứuhiện nay từ 0 đến vài triệu cặp câu Ví dụ, Zoph và cộng sự [153] xem xét cáccặp ngôn ngữ tài nguyên song ngữ hạn chế có kích thước từ 200 ngàn đến 1.8triệu cặp câu, Kocmi và cộng sự [59] xem xét các cặp ngôn ngữ tài nguyên hạnchế từ 800 đến 4 triệu cặp câu so với các cặp giàu tài nguyên từ 10 triệu đến
40 triệu cặp câu, Gu và cộng sự [36] khảo sát các cặp ngôn ngữ tài nguyên hạnchế có kích thước từ 600 cặp đến đến 638 ngàn cặp câu, Ha và cộng sự [40] xemxét phương pháp đề xuất khi sử dụng cặp ngôn ngữ tài nguyên hạn chế chứa
từ 13 ngàn đến 17 ngàn cặp câu song ngữ Từ việc xem xét các nghiên cứu đã
có, trong luận án, chúng tôi xem xét các phương pháp đề xuất cho các hệ thống
Trang 30dịch máy sử dụng các cặp ngôn ngữ tài nguyên song ngữ hạn chế có kích thước
từ vài chục ngàn (nhỏ nhất 18,088 cặp câu) đến 2.6 triệu (cặp Anh-Việt) cặpcâu Trong luận án, ngoài sự hạn chế về tài nguyên song ngữ, một số cặp ngônngữ tài nguyên hạn chế còn được hiểu là các cặp ngôn ngữ còn ít nghiên cứu,chưa có các bộ dữ liệu chuẩn cho việc đánh giá các hệ thống dịch và chất lượng
hệ thống dịch còn thấp như Pháp-Việt, Trung - Việt, Nhật - Việt, Khmer-Việt
và Lào-Việt
Từ hiếm (rare word) là các từ có tần suất xuất hiện thấp hoặc không xuấthiện trong tập từ vựng (các từ không xác định - unknown word) của hệ thốngdịch máy đang xem xét [61, 81, 93, 118, 129] Tỷ lệ phân bố giữa các từ phổbiến và các từ hiếm tuân theo luật Zipf [68]: "khi kích thước của tập dữ liệutăng lên, tần suất của các từ hiếm ít hơn nhiều so với các từ phổ biến trongkhi số lượng các từ hiếm duy nhất lớn hơn nhiều so với các từ phổ biến" Cácnghiên cứu về NMT thường sử dụng các tập từ vựng có kích thước giới hạn từ
30 ngàn đến 80 ngàn từ có tần số cao nhất, do đó, các từ không nằm trong tập
từ vựng sẽ được coi là các từ không xác định Với phương pháp dịch dựa trêncác từ con (sub-word ) trong [118] thì hầu hết các từ của một tập dữ liệu sẽ nằmtrong tập từ vựng với kích thước từ 30 đến 80 ngàn đơn vị dịch (gồm cả các
từ và các từ con), tuy nhiên, lúc này các từ hiếm có tần số xuất hiện thấp lạigia tăng Câu hỏi đặt ra là "các từ hoặc các từ con có tần số xuất hiện là baonhiêu thì được coi là các từ hiếm ?", không có con số quy định chính xác giá trịnày Ví dụ, Luong và cộng sự [81] sử dụng 40 ngàn từ có tần số cao nhất trongtập từ vựng, các từ còn lại được coi là từ hiếm, Gong và cộng sự [35] coi các từhiếm là các từ nằm ngoài 20% các từ phổ biến trong tập dữ liệu, Trieu và cộng
sự [129] coi các từ hiếm là các từ không xác định trong tập đánh giá đầu vào,Pham và cộng sự [99] coi các từ có tần suất xuất hiện từ 4 trở xuống là các từhiếm Trong luận án, chúng tôi quan sát thấy với các tập dữ liệu nhỏ (vài trămngàn cặp câu) thì các từ có tần số xuất hiện dưới 10 có thể coi là các từ hiếm
Hệ thống dịch đa ngữ được sử dụng trong luận án là hệ thống dịch máycho phép dịch giữa nhiều cặp ngôn ngữ trong cùng một hệ thống sử dụng chungmột bộ tham số duy nhất [53]
Dữ liệu tổng hợp (synthetic data, pseudo data) là dữ liệu được sinh rabằng cách nhân tạo (thường dùng các thuật toán) thay vì từ các sự kiện của thế
Trang 31giới thực1 Theo đó, khái niệm dữ liệu song ngữ tổng hợp được sử dụng trongluận án cũng được hiểu theo nghĩa này.
1.1.3 Phạm vi của luận án
Do sự giới hạn về thời gian nên trong luận án chúng tôi chỉ khảo sát các hệthống dịch máy có liên quan đến tiếng Việt Cụ thể, các văn bản tiếng Việt chủyếu đóng vài trò là ngôn ngữ đích trong các thực nghiệm Trong các hệ thốngdịch đa ngữ, chúng tôi chỉ xem xét các hệ thống dịch từ nhiều ngôn ngữ nguồnsang một ngôn ngữ đích
Các kết quả thực nghiệm cho các phương pháp đề xuất được đánh giá chủyếu trên các tập dữ liệu song ngữ thuộc nguôn TED Talks - nguồn được sửdụng rộng rãi trong các hội nghị lớn về xử lý ngôn ngữ tự nhiên và tập dữ liệuALT - nguồn được sử dụng rộng rãi trong các hội nghị xử lý ngôn ngữ tự nhiêncủa khu vực Châu Á Ngoài hai miền này, các tập dữ liệu song ngữ được xâydựng và thu thập bởi đề tài KC-4.0.12/19-25 (trong công trình số 3) và hội nghịVLSP năm 2020 (công trình số 6) cũng được cũng được sử dụng trong luận án.Đối với dữ liệu đơn ngữ, chúng tôi sử dụng các dữ liệu từ các nguồn đã đượccông bố và rộng rãi như DongDu2, CCAligned [27] và hội nghị VLSP 2020 [41].1.1.4 Những thách thức trong mô hình dịch máy hiện nay
Bên cạnh những thành công to lớn của các hệ thống dịch dựa vào mạng nơronhiện nay, NMT vẫn tồn tại nhiều thách thức lớn như được chỉ ra trong [61, 147].Các thách thức được nêu ra theo các quan điểm và góc nhìn khác nhau của cácnhà nghiên cứu, phần dưới đây nêu ra một số thách thức mà chúng tôi cho làquan trọng và bức thiết, đó là:
Thứ nhất là vấn đề khan hiếm tài nguyên song ngữ trong dịch máy Như đã
đề cập trong phần mở đầu, dữ liệu song ngữ là một trong những yếu tố quantrọng hàng đầu cho việc huấn luyện hệ thống NMT dựa trên cách tiếp cận học
có giám sát - một cách tiếp cận được xem là thành công hơn so với cách tiếpcận học không giám sát (dựa hoàn toàn vào dữ liệu đơn ngữ) [67] hoặc bángiám sát (dựa một phần vào dữ liệu đơn ngữ) [16] Cách tiếp cận học có giámsát giúp cho việc xây các hệ thống dịch máy đơn giản, gọn nhẹ và hiệu quả hơn
so với hai cách tiếp cận còn lại Tuy nhiên, việc yêu cầu dữ liệu song ngữ lại là
1 url=https://www.techtarget.com/searchcio/definition/synthetic-data
2.
Trang 32một thách thức lớn bởi dữ liệu tốt phải được xây dựng bởi các chuyên gia Việc
đề xuất các phương pháp nâng cao hiệu quả của hệ thống dịch máy tài nguyênhạn chế song ngữ là một trong những chủ đề được quan tâm hàng đầu trongdịch máy [43, 137] Mặc dù có nhiều cách tiếp cận được đề xuất, xong chưa cócách tiếp cận nào giải quyết triệt để vấn đề này Do vậy, đây vẫn là một vấn đề
mở đối với các nghiên cứu mới Trong luận án, chúng tôi đề xuất một kỹ thuậtmới, đơn giản và hiệu quả cho việc làm giàu dữ liệu song ngữ cho các hệ thốngdịch máy tài nguyên hạn chế
Thứ hai là vấn đề dịch các từ hiếm Quá trình suy luận thường không dựđoán chính xác các từ hiếm đặc biệt là các tên riêng, các thuật ngữ mới Đểgiải quyết vấn đề này, Luong và cộng sự [81] đề xuất sử dụng các ký hiệu đạidiện để thay thế các từ hiếm Ví dụ, các ký hiệu unk1, unk2, , unkn lần lượtthay thế các từ hiếm thứ 1, thứ 2, , thứ n trong câu đầu vào và dựa vào thứ
tự này để khôi phục chúng ở đầu ra Tuy nhiên, việc thay thế này lại gây nên
sự nhập nhằng về mặt ngữ cảnh khiến cho việc dịch các từ xung quanh bị ảnhhưởng Tiếp đó, Jean và cộng sự [51] đề xuất sử dụng một từ điển lớn với hivọng từ điển này có thể bao trùm được tất cả các từ vựng trong tập dữ liệu.Tuy nhiên, các tác giả đã chỉ ra rằng cho dù tập từ vựng lớn đến đâu thì các từhiếm vẫn tồn tại và chất lượng dịch cũng không cải thiện, chưa kể việc sử dụng
từ điển lớn làm gia tăng kích thước mô hình kéo theo sự gia tăng các tính toán
Để khắc phục nhược điểm của hai kỹ thuật trên, Sennrich và cộng sự [118] đã
đề xuất sử dụng kỹ thuật BPE (Byte-Pair Encoding) [31] nhằm phân tách mỗi
từ thành các từ con Kỹ thuật này cho phép xây dựng các từ điển mở cho các
hệ thống dịch máy với kích thước từ điển tương đối nhỏ và tiết kiệm bộ nhớ,đồng thời cải thiện đáng kể hiệu năng của các hệ thống dịch máy Việc phânđoạn từ thành các từ con sẽ hạn chế tối đa các từ không xuất hiện trong tập
dữ liệu Mặc dù vậy, sự thưa dữ liệu của chuỗi các từ con khiến các hệ thốngdịch máy khó có thể dịch chính xác các từ hiếm Gần đây, Vinyals và cộng sự[134] đề xuất sử dụng mạng con trỏ (Pointer Network) cho phép học tự độngviệc sao chép các từ hiếm từ văn bản nguồn sang văn bản đích Cách tiếp cậnnày được nhiều nghiên cứu xem xét và đưa ra các biến thể như trong [99, 122].Trong đó, các tác giả cũng chỉ ra những thành công đáng kể của kỹ thuật nàytrên các tập dữ liệu tương đối lớn ([99]: 2 triệu, [122]: 7 triệu và 13 triệu cặp
Trang 33Bảng 1.1 Ảnh hưởng của miền dữ liệu trong dịch máy trong nghiên
cứu [61] dựa trên điểm BLEU
Hệ thống
dịch Luật Y yế Tin học Kinh thánh
Phụ đề phim Tất cả
dữ liệu 30.5 - 32.8 45.1 - 42.2 35.3-44.7 17.9-17.9 26.4-20.8
Luật 31.1-34.4 12.1-18.2 3.5-6.9 1.3-2.2 2.8-6.0
Y tế 3.9-10.2 39.4-43.5 2.0-8.5 0.6-2.0 1.4-5.8 Tin học 1.9-3.7 6.5-5.3 42.1-39.8 1.8-1.6 3.9-4.7
Kinh thánh 0.4-1.8 0.0-2.1 0.0-2.3 15.9-18.8 1.0-5.5
Phụ đề
phim 7.0-9.9 9.3-17.8 9.2-13.6 9.0-8.4 25.9-22.1
câu) Tuy nhiên, vấn đề dịch các từ hiếm vẫn chưa được xử lý triệt để, cụ thể
là chúng tôi đã chỉ ra cách tiếp cận này không hiệu quả trong tình huống ít tàinguyên song ngữ Để góp phần khắc phục nhược điểm này, chúng tôi đã đề xuấtmột số cách tiếp cận khác nhau để nâng cao chất lượng dịch các từ hiếm trongđiều kiện tài nguyên hạn chế
Thứ ba là vấn đề lệch miền (out of domain) trong các hệ thống dịch máy.Nghĩa là một hệ thống dịch máy có thể dịch tốt các văn bản thuộc một hoặcmột số miền hay lĩnh vực nào đó (chẳng hạn như các miền du lịch, tin tức)nhưng lại không dịch tốt các văn bản thuộc thuộc miền khác (như miền vănhọc, miền luật) Điều kiện lý tưởng là có đủ dữ liệu song ngữ cho tất cả cáclĩnh vực của đời sống xã hội, tuy nhiên, đây là điều không khả thi trên thực tế.Bảng 1.1 thể hiện ảnh hưởng của vấn đề lệch miền trong dịch máy khi so sánhgiữa mô hình dịch SMT và NMT trong nghiên cứu [61], trong đó, hệ thống dịch
sử dụng mạng - NMT (điểm bên trái) bị ảnh hưởng nhiều hơn so với hệ thốngdịch sử dụng mô hình thống kê - SMT
Vấn đề dịch lệch miền đã được các nhà nghiên cứu xem xét trong các hệ thốngdịch thống kê [8, 10, 62] với các phương pháp lựa chọn dữ liệu (data selection)theo miền phù hợp hay tích hợp mô hình ngôn ngữ được huấn luyện trên lượng
dữ liệu đơn ngữ lớn trên miền đang xem xét Tuy nhiên không phải tất cả cácphương pháp áp dụng trong mô hình SMT đều có thể áp dụng cho mô hìnhNMT do kiến trúc dịch đã thay đổi Bên cạnh việc kế thừa và tiếp tục phát triểncác phương pháp chọn lọc dữ liệu từ mô hình dịch thống kê [22, 131, 136], cácnghiên cứu mới đề xuất kỹ thuật làm mịn (fine-tuning) [78], một trong những
Trang 34kỹ thuật được áp dụng rộng rãi trong kiến trúc NMT hiện nay Trên thực tế
dữ liệu song ngữ là khan hiếm trong nhiều lĩnh vực đối với mỗi cặp ngôn ngữnhất định Do vậy, vấn đề dịch chuyển miền dữ liệu vẫn là chủ đề cần quan tâmnghiên cứu hiện nay Trong luận án, chúng tôi vận dụng phương pháp lựa chọn
dữ liệu dựa vào độ đo TF-IDF (Term Frequency-Inverse Document Frequency)
để lựa chọn dữ liệu phù hợp nhằm nâng cao chất lượng dịch trong điều kiệntài nguyên hạn chế Phương pháp này được sử dụng trong nhiều công trình củaluận án, mục 1.3.4 sẽ trình chi tiết về ý tưởng của phương pháp này Ngoài ra,trong công trình số 6, chúng tôi đề xuất sử dụng kết hợp một số phương phápkhác nhau để cải thiện chất lượng hệ thống dịch máy trên miền tin tức trongcuộc thi về dịch máy ở hội nghị VLSP 2020
Thứ tư là vấn đề dịch câu dài, dịch các tài liệu Mặc dù kiến trúc Transformer[132] đã cho phép dịch các câu dài tốt hơn so với các mạng hồi quy [9, 17] nhưngvấn đề dịch câu dài vẫn là vấn đề đáng quan tâm trong dịch máy hiện nay[61, 90] Đặc biệt, đối với các văn bản thuộc các lĩnh vực hẹp, chuyên ngành, sựphụ thuộc ngữ cảnh có thể vượt ra ngoài phạm vi câu nên cần xem xét đến đoạnvăn hoặc toàn văn bản Lúc này, việc mã hóa ngữ cảnh dài sao cho đảm bảothông tin được lưu trữ cho cả đoạn hoặc nhiều đoạn hay toàn văn bản mà vẫnđảm bảo hiệu năng dịch là một thách thức lớn đối với các hệ thống dịch máy.Vấn đề này được đề cập trong các nghiên cứu gần đây, điển hình như [77, 85].Trong luận án, chúng tôi xem xét ảnh hưởng của độ dài câu lên hiệu năng của
hệ thống dịch khi sử dụng các phương pháp phân đoạn khác nhau
Thứ năm là vấn đề về tốc độ dịch chậm do việc sử dụng giải thuật tìm kiếmchùm trong quá trình dự đoán bản dịch của câu đầu vào Quá trình suy luậnbản dịch được thực hiện tuần tự từ trái qua phải với một độ rộng tìm kiếmnhất định (độ rộng chùm) và có thể làm gia tăng đáng kể kích thước bộ nhớ vớicác câu có độ dài lớn Kết quả là hệ thống dịch giảm tốc độ đáng kể và tốn bộnhớ khi kích thước chùm lớn Các nghiên cứu gần đây đã đề xuất các chiến lượckhác nhau nhằm hạn chế ảnh hưởng của vấn đề này Điển hình là Lee, Guo vàcộng sự [38, 71] đề xuất sử dụng mạng không tự hồi quy (Non-Autoregressive)trong quá trình giải mã nhằm giảm sự phụ thuộc của từ cần được dự đoán vàocác từ trước đó Cách tiếp cận này bước đầu đã đạt được các kết quả khả quan,tuy nhiên, vẫn có nhược điểm là các bản dịch đôi khi thiếu trôi chảy do bị mất
Trang 35ngữ cảnh Ở một khía cạnh khác, Yan và cộng sự [143] đề xuất kỹ thuật sửdụng bộ nhớ tạm thời (Cache Maintenance) để lưu trữ các tính toán trung giantại mỗi bước dự đoán bản dịch đầu ra Điều này giúp cải thiện đáng kể tốc độdịch trong khi giảm bớt chi phí tính toán Kỹ thuật này được chúng tôi áp dụngtrong các thử nghiệm của công trình số 3.
Ngoài ra, còn một số thách thức khác như vấn đề dịch các từ đa nghĩa, dịchcác thành ngữ, dịch văn bản dạng văn nói, đánh giá tự động các hệ thống dịchmáy cần gần với đánh giá của con người hơn, như được nêu trong [135, 147]
Từ các thách thức nêu trên, có thể thấy việc đề xuất các nghiên cứu mới đểgiải quyết các vấn đề còn tồn tại trong các hệ thống dịch máy hiện nay là rấtcần thiết Đây là động lực chính để chúng tôi thực hiện đề tài liên quan đếndịch máy, mà cụ thể là các nghiên cứu trên các cặp ngôn ngữ tài nguyên hạnchế, đặc biệt là có liên quan đến tiếng Việt
1.2 Các hướng nghiên cứu chính về bài toán dịch máy tài nguyênhạn chế
Như đã giới thiệu trong các phần trước, sự hạn chế về tài nguyên song ngữ
là một trong những trở ngại lớn trong việc xây dựng và phát triển các hệ thốngdịch máy hiện nay Trước thực trạng này, các nhà nghiên cứu đã đề xuất một
số cách tiếp cận khác nhau nhằm cải tiến chất lượng dịch tự động như được chỉ
ra trong [43, 137] Trong phần này, chúng tôi trình bày tổng quát về các hướngnghiên cứu chính và đi sâu vào một số cách tiếp cận đáng chú ý được nhiềunghiên cứu quan tâm
Theo Haddow và cộng sự [43], các hướng nghiên cứu chính cho bài toán tàinguyên song ngữ hạn chế được mô tả như trong Hình1.2 Trong đó, các phươngpháp được in đậm và bao quanh bởi các đường nét đứt có liên quan đến cácphương pháp đề xuất trong các công trình của luận án
Trong luận án, chúng tôi tìm hiểu bài toán với tất cả hướng nêu trên và đềxuất một số giải pháp góp phần giải quyết các khía cạnh khác nhau của bàitoán dịch máy tài nguyên hạn chế như: thu thập thêm các dữ liệu song ngữ chomục đích nghiên cứu, tăng cường dữ liệu song ngữ từ dữ liệu đơn ngữ hoặc songngữ gốc, sử dụng dịch đa ngữ và các mô hình ngôn ngữ, biến đổi hình thái từ
và phân đoạn từ, biến đổi vectơ từ trong không gian ẩn và cải tiến quá trình
Trang 36Hình 1.2 Tổng quan về các hướng nghiên cứu chính cho bài toán dịch
máy tài nguyên song ngữ hạn chế
giải mã Dưới đây sẽ trình bày chi tiết về các hướng và chỉ ra các đóng góp củachúng tôi trong từng hướng cụ thể
1.2.1 Các phương pháp thu thập dữ liệu
Nếu các dữ liệu song ngữ tồn tại thì có thể sử dụng các công cụ thu thập dữliệu Tuy nhiên, trên thực tế các nguồn dữ liệu song ngữ có chất lượng tốt luônkhan hiếm Các nghiên cứu thu thập dữ liệu từ các nguồn Web như CCAligned[27], CCMatrix [116], phụ đề phim [74] thường có chất lượng thấp Trong luận
án, chúng tôi thu thập các tập dữ liệu song ngữ từ các bài nói TED Talks chocác cặp ngôn ngữ Anh-Việt, Nhật-Việt, Pháp-Việt, Trung-Việt và công bố sửdụng cho mục đích nghiên cứu
Các phương pháp như xây dựng dữ liệu đòi hỏi nhiều thời gian và chi phí đểcác chuyên gia ngôn ngữ thực hiện nên khó khả thi
1.2.2 Các phương pháp dựa vào dữ liệu đơn ngữ
1.2.2.1 Sử dụng dữ liệu đơn ngữ để làm giàu dữ liệu song ngữ
Trong khi các tài nguyên song ngữ khan hiếm và đòi hỏi nhiều nỗ lực để xâydựng chúng thì dữ liệu đơn ngữ lại là một nguồn tài nguyên gần như vô tận,chúng được sản sinh hàng ngày theo nhu cầu của con người trong mọi lĩnh vựcvới hầu hết các ngôn ngữ được sử dụng trên thế giới Tận dụng lợi thế của dữ
Trang 37liệu đơn ngữ, các nhà khoa học đã đề xuất một số chiến lược khác nhau để sinh
ra dữ liệu song ngữ tổng hợp
Đầu tiên, phải kể đến kỹ thuật dịch ngược (Back-Translation) được đề xuấttrong nghiên cứu [119] Đây là kỹ thuật đơn giản, có thể áp dụng cho nhiềucặp ngôn ngữ, nhiều kiến trúc dịch máy khác nhau Mục tiêu của cách tiếp cậnnày là sinh ra dữ liệu song ngữ tổng hợp cho một cặp ngôn ngữ ít tài nguyênsong ngữ từ dữ liệu đơn ngữ của ngôn ngữ đích Gọi X là ngôn ngữ nguồn, Y
là ngôn ngữ đích, M là tập dữ liệu đơn ngữ chứa các câu đơn thuộc ngôn ngữđích Y∗ Trước hết, hệ thống dịch máy ngược được huấn luyện từ chiều ngônngữ Y sang ngôn ngữ X đến khi hội tụ, sau đó, mô hình tốt nhất (có độ chínhxác cao nhất trên tập phát triển) được sử dụng để suy luận dữ liệu đơn ngữ Y′
từ tập M nhằm sinh ra các bản dịch ở ngôn ngữ nguồn X′ Tập dữ liệu gồm cáccặp câu {X′, Y′} gọi là dữ liệu tổng hợp sẽ được ghép lại với tập dữ liệu songngữ chuẩn để huấn luyện mô hình dịch máy theo chiều từ ngôn ngữ X sangngôn ngữ Y Quá trình sinh dữ liệu tổng hợp và thủ tục huấn luyện được minhhoạ như Giải thuật 1 Một số biến thể của kỹ thuật này như kỹ thuật dịch tiến[146], dịch ngược bán giám sát [26]
Giải thuật 1: Giải thuật dịch ngược (Back-Translation)
Input: Cho tập dữ liệu D = {X,Y} gồm n cặp câu song ngữ, tập
M = {Y∗} gồm m câu đơn ngữ
Output: Mô hình NMT được tăng cường dữ liệu
1 BEGIN
2 Huấn luyện mô hình NMT T1 theo chiều Y →X
3 Chọn tập k câu đơn ngữ {Y′} ⊂M , với k <= m
Trang 38trong các công trình số 2, 5, 6, 9 để cải thiện chất lượng dịch, đồng thời so sánhvới các cách tiếp cận đề xuất.
1.2.2.2 Sử dụng dịch máy không giám sát
Dịch không giám sát là cách tiếp cận dịch dựa hoàn toàn vào dữ liệu đơnngữ được thực nghiệm bởi [6, 67] Cách tiếp cận này mở ra hướng đi mới tiềmnăng cho các nghiên cứu dịch máy tài nguyên hạn chế Ý tưởng chính của cáchtiếp cận này là xây dựng một không gian ẩn chung cho cả ngôn ngữ nguồn vàngôn ngữ đích Quá trình dịch gồm hai pha:
Pha 1: Thực hiện dóng hàng các vectơ từ giữa hai ngôn ngữ sử dụng một từđiển song ngữ khởi tạo
Pha 2: Thực hiện lặp đi lặp lại quá trình dịch ngược và quá trình giảm nhiễunhằm xây dựng lại cấu trúc câu ban đầu trong thủ tục huấn luyện
Quá trình này được minh hoạ như Hình 1.3 Ban đầu hàm C(x)sinh ra phiênbản nhiễu của câu nguồn x , sau đó, được biến đổi vào không gian ẩn Zsrc Câuđích y cũng được tạo ra phiên bản nhiễu C(y)trước khi được chuyển vào khônggian ẩn chung Quá trình huấn luyện thực hiện ánh xạ các vectơ từ của câunguồn sang câu đích và ngược lại Sau đó, câu đích được dịch sang câu nguồn
để thu được câu dự đoán x
Hình 1.3 Minh họa thủ tục huấn luyện trong phương pháp học máy
không giám sát
Tuy nhiên, cách tiếp cận này mới đạt được thành công trên các cặp ngônngữ giàu tài nguyên do sự đòi hỏi từ điển song ngữ khởi đầu, từ điển này có thểxây dựng thủ công hoặc sinh ra từ cơ chế dóng hàng tự động Do đó, hiệu năngđạt được trên cặp ngôn ngữ tài nguyên hạn chế vẫn còn nghèo nàn [39, 56, 83].Mặc dù vậy, đây vẫn là cách tiếp cận tiềm năng bởi nếu vấn đề từ điển songngữ khởi đầu được giải quyết thì phương pháp này có thể sẽ đem lại nhiều lợi
Trang 39thế cho các cặp ngôn ngữ tài nguyên hạn chế Bên cạnh đó, kiến trúc hệ thốngdịch không giám sát cũng cần được tinh chỉnh gọn nhẹ để dễ dàng cài đặt hơn.Cách tiếp cận dịch không giám sát có các hạn chế như vừa nêu nên chúngtôi chưa thực nghiệm trong luận án.
1.2.2.3 Sinh dữ liệu tổng hợp từ tập dữ liệu song ngữ có sẵn
Một số nghiên cứu đề xuất chỉnh sửa dữ liệu song ngữ sẵn có để sinh ra
dữ liệu song ngữ tổng hợp như loại bỏ, di chuyển, thay thế hoặc sao chép các
từ trong câu gốc phía nguồn hoặc đích để sinh ra câu tổng hợp trong khi giữnguyên câu phía còn lại [40, 115, 141] Các tiếp cận này thường làm mất ngữcảnh của câu và phụ thuộc vào khả năng chia sẻ thông tin giữa ngôn ngữ nguồn
và ngôn ngữ đích
Với hướng tiếp cận này, chúng tôi đề xuất phương pháp sinh dữ liệu tổnghợp nhưng khắc phục được các hạn chế của các tiếp cận vừa nêu
1.2.2.4 Sử dụng các mô hình được huấn luyện trước (pre-trained model )
Cách tiếp cận này tận dụng các mô hình đã được huấn luyện trước trained model ) trên một tập dữ liệu đơn ngữ lớn Ban đầu các nghiên cứu sửdụng các mô hình chuyển đổi từ vựng thành vectơ còn gọi là mô hình nhúng từ(word embedding models) [86], Glove [97] hay mô hình nhúng từ dựa trên các
(pre-từ con trong fastText [11] cho mục đích tăng cường sự biểu diễn từ, ký tựtrong dịch máy [17, 79, 91, 106] Bên cạnh đó, một số nghiên cứu sử dụng môhình ngôn ngữ được huấn luyện trên tập dữ liệu đơn ngữ lớn để khởi tạo vectơ
từ ban đầu cho mô hình dịch máy [108] Các mô hình nhúng từ và mô hìnhngôn ngữ theo cách tiếp cận trên đã góp phần cải thiện các hệ thống dịch máy.Tuy nhiên, các mô hình nhúng từ và mô hình ngôn ngữ theo các cách tiếp cậntrên tồn tại hạn chế là khó khăn trong việc đồng bộ với hệ thống dịch NMT do
sự khác biệt về kiến trúc và phương thức tích hợp Do đó, việc thực hiện làmmịn (fine-tuning) hoặc học chuyển đổi (transfer learning) tri thức từ các môhình này sang hệ thống NMT gặp những khó khăn nhất định Các nhà nghiêncứu tiếp tục mở rộng mô hình ngôn ngữ với việc dự đoán các mặt nạ mà điểnhình là mô hình ELMo [98], BERT [19], XLM [18], MASS [123] và mBART [76].Các mô hình này cho phép chuyển đổi thông tin được huấn luyện trên lượng dữliệu đơn ngữ lớn sang mô hình NMT bằng cách làm mịn trên tập dữ liệu mong
Trang 40muốn Thủ tục này được minh hoạ qua Giải thuật 2 Trong Giải thuật 2, ban
Giải thuật 2: Giải thuật tích hợp mô hình ngôn ngữ vào hệ thống dịch
NMT
Input: Cho tập dữ liệu N = {X,Y} gồm n cặp câu song ngữ, tập
M = {X∗} gồm m câu đơn ngữ; θ là tham số của mô hình ngônngữ L; θ′ là tham số của mô hình NMT
Output: Mô hình NMT sử dụng mô hình ngôn ngữ được huấn luyện
trước
1 BEGIN
2 Huấn luyện mô hình ngôn ngữ L trên tập M với tham số θ
3 Huấn luyện mô hình NMT trên tập N sử dụng mô hình L
4 để khởi tạo và làm mịn với tham số θ ∪ θ′
5 END
đầu, mô hình ngôn ngữ được huấn luyện trên tập dữ liệu đơn ngữ M gồm mcâu đơn ngữ (m lớn hơn nhiều lần so với số lượng cặp câu trong tập song ngữ)đến khi hội tụ Sau đó, đầu ra mô hình ngôn ngữ được tích hợp vào hệ thốngdịch máy NMT (thường được sử dụng để khởi tạo vectơ đầu vào cho hệ thốngdịch) Hệ thống dịch máy được huấn luyện với bộ tham số θ của nó cùng với bộtham số θ′ của mô hình ngôn ngữ
Trong luận án, chúng tôi đã đề xuất sử dụng mô hình BERT [19] để nângcao hiệu quả hệ thống dịch trong điều kiện tài nguyên hạn chế trong công trình