LỜI CAM ĐOANTôi cam đoan luận án tiến sĩ ngành Khoa học Máy tính, với đề tài “Xây dựng mô hình tích hợp tri thức ngôn ngữ trong dịch mấy mạng neural Anh-Việt” là công trình nghiên cứu củ
Trang 1DẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
NGUYÊN HỒNG BỬU LONG
XÂY DỰNG MÔ HÌNH TÍCH HỢP
TRI THỨC NGÔN NGU TRONG
DỊCH MAY MANG NEURAL ANH-VIỆT
TP Hồ Chí Minh — Năm 2023
Trang 2VIET NAM NATIONAL UNIVERSITY - HO CHI MINH
UNIVERSITY OF SCIENCE
NGUYEN HONG BUU LONG
CONSTRUCTING MODELS FOR
INTEGRATING LINGUISTIC KNOWLEDGE INTO
THE ENGLISH-VIETNAMESE NEURAL MACHINE TRANSLATION
Doctoral Thesis
Trang 3ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
NGUYEN HONG BUU LONG
Nganh: KHOA HOC MAY TINH
Phan biện độc lập 2: miễn
NGƯỜI HƯỚNG DAN KHOA HỌC: PGS.TS ĐINH DIEN
TP H6 Chi Minh — Nam 2023
Trang 4LỜI CAM ĐOAN
Tôi cam đoan luận án tiến sĩ ngành Khoa học Máy tính, với đề tài “Xây
dựng mô hình tích hợp tri thức ngôn ngữ trong dịch mấy mạng neural
Anh-Việt” là công trình nghiên cứu của bản thân tôi thực hiện dưới sự
hướng dẫn của PGS.TS Đinh Điền
Những kết quả nghiên cứu của luận án hoàn toàn trung thực, chính
xác và không trùng lắp với các công trình đã công bố trong và ngoài nước Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện
trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
Tác giả luận án
Nguyễn Hồng Bửu Long
Trang 5LỜI CẢM ƠN
Luận án này đã được hoàn thành với sự hướng dẫn tận tình, giúp đỡ và
động viên quý báu rất nhiều từ PGS.TS Dinh Điền, cán bộ hướng dẫn
mà tôi tôn trọng và bày tỏ lòng biết ơn sâu sắc nhất Đồng thời, Thầy
cũng là người luôn cho tôi những lời khuyên vô cùng quý giá về cả kiến
thức chuyên môn cũng như định hướng phát triển sự nghiệp.
Trong quá trình hoàn thành luận án, tôi đã được các Thầy Cô nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận
lợi và hỗ trợ Qua đây, tôi xin chân thành cảm ơn sự giúp đỡ và góp ýrất nhiệt tình của tập thể giảng viên, cán bộ Khoa Công nghệ thông tin
va Trung tâm Ngôn ngữ hoc Tinh toán, Trường Dai học Khoa học Tu
nhiên — Đại học Quốc gia Tp Hồ Chí Minh.
Tôi xin chân thành cảm ơn quý Thầy/Cô thành viên hội đồng đánh giá
luận án đã giành thời gian quý báu để nhận xét, đóng góp ý kiến giúp
cho luận án được hoàn thiện hơn và qua đó cũng giúp tôi củng cố lại kiến thức chuyên sâu về hướng nghiên cứu.
Cuối cùng tôi cảm ơn tất cả bạn bè, người thân và đặc biệt gia đình đã đóng góp nhiều ý kiến cũng như những lời động viên khích lệ quí báu
giúp tôi vượt qua khó khăn để hoàn thành tốt luận án.
1
Trang 6TRANG THONG TIN LUẬN
AN TIENG VIET
Dịch máy mang neural (NMT) đã chứng minh được sự hiệu quả và do
đó thu hút được sự chú ý của các nhà nghiên cứu trong những năm gần
đây Trong các ứng dụng thực tế, đầu vào của các hệ thống NMT là các
câu trong đó các từ được biểu diễn dưới dạng các vector riêng lẻ trong
một không gian vector từ Tuy nhiên, không gian vector từ này không
biểu diễn kết nối giữa các từ trong một câu, chăng hạn như các mối quan
hệ ngữ pháp hay ngữ nghĩa Các nghiên cứu gần đây cho thấy tri thức
ngôn ngữ bổ sung là điều cần thiết để tạo ra các bản dịch chính xác và phù hợp trong dịch máy Mặc dù đạt được bước đột phá đáng kể, thiết
kế và chức năng của những mô hình này chỉ phù hợp với dịch máy thống
kê Do đó, nhiệm vụ khảo sát, phân tích và áp dụng thông tin tri thức
bo sung cho các mô hình NMT cần được quan tâm một cách toàn diện.
Luận án nghiên cứu tính hữu ích của việc sử dụng tri thức ngôn ngữ bổsung để cải thiện các mô hình NMT hiện nay Luận án đề xuất sử dụng
nhiều loại tri thức ngôn ngữ ở các cấp độ từ vựng, ngữ pháp và ngữ
nghĩa nhằm đưa ra các phương pháp tiếp cận phù hợp để tích hợp tri
thức ngôn ngữ vào cả giai đoạn huấn luyện và suy luận của các mô hình
NMT phổ biến hiện nay gồm Seq2Seq, ConvSeq2Seq va Transformer.
ill
Trang 7Cụ thể, luận án nghiên cứu hai phương pháp tích hợp: 1) mô hình tích
hợp tri thức ngôn ngữ ở các cấp độ từ vựng, ngữ pháp và ngữ nghĩa cả
trong giai đoạn huấn luyện và suy luận, và 2) mô hình tích hợp tri thức
ngôn ngữ ở mức tổng quát vào chỉ giai đoạn huấn luyện.
Tích hợp tri thức ngôn ngữ vào các mô hình NMT mang lại rất nhiều lợi ích Đầu tiên, tích hợp tri thức ngôn ngữ cho phép giải quyết các vấn
đề về ngữ liệu thưa và nhập nhằng ngữ nghĩa Thứ hai, thông tin ngữpháp và ngữ nghĩa có cấu trúc được xây dựng từ tri thức ngôn ngữ có
thể cung cấp thông tin trừu tượng cao hơn cho văn bản, qua đó cải thiện
chất lượng các mối quan hệ từ trong không gian vector Cuối cùng, cơ
chế chú ý cũng có thể tận dụng tri thức ngôn ngữ để cải thiện thông tin
phụ thuộc giữa các từ trong câu.
Luận án đã đánh giá các mô hình đề xuất trên bốn cặp ngôn ngữ, bao gồm Anh - Việt (cặp ngôn ngữ chính), Anh - Đức, Anh - Pháp và Anh - Sóc Kết quả thực nghiệm trên các cặp ngôn ngữ khác nhau chứng minh
rằng các mô hình NMT có tích hợp tri thức ngôn ngữ cho chất lượngdịch tự động tốt hơn nhờ khả năng mô hình hóa một cách tường minh
các khía cạnh ngữ pháp và ngữ nghĩa của ngôn ngữ Ngoài ra, các mô
hình đề xuất phù hợp với cả cặp ngôn ngữ ít tài nguyên và cặp ngôn
ngữ giàu tài nguyên Các hướng phát triển trong tương lai của luận án
bao gồm: nghiên cứu các tri thức sâu hơn của ngôn ngữ, mở rộng dịch
ở cấp độ câu sang cấp độ văn bản (dịch máy cấp độ văn bản), mở rộng
số lượng ngôn ngữ trong mô hình dịch (dịch máy đa ngữ)
iv
Trang 8TRANG THONG TIN LUẬN
AN TIENG ANH
Neural machine translation (NMT) has proven its effectiveness and thus
has gained researchers’ attention in recent years In practical
applica-tions, the typical inputs to NMT systems are sentences in which words are represented as individual vectors in a word embedding space This
word embedding space does not show any connection among words within
a sentence such as syntactic or semantic role relationships Recent ies found that additional linguistic knowledge is essential to generate
stud-concise and appropriate translations in machine translation Although these models have made a significant progress, their design and functions
are limited to statistical machine translation systems only Consequently, the tasks of surveying, analyzing, and applying additional knowledge in- formation to NMT systems have not received comprehensive attention.
The thesis investigates the usefulness of utilising prior and external guistic knowledge for improving NMT models, which are also neural sequence models The thesis proposes the use of various types of lan- guage knowledge at the lexical, grammatical, and semantic levels to pro-
lin-vide suitable approaches for integrating linguistic knowledge into both the training and inference stages of popular NMT models, including
Seq2Seq, ConvSeq2Seq, and Transformer Specifically, the thesis
ex-V
Trang 9plores two types of integration: 1) to adapt linguistic knowledge at the
lexical, grammatical, and semantic levels in both training and inference
phases and 2) to adapt general linguistic knowledge to the training phase
only (i.e without changing the inference phase).
Integrating linguistic knowledge into NMT models yields several
ben-efits First, this addresses the problems of data sparsity and semantic ambiguity Second, structured syntactic and semantic information con- structed from linguistic knowledge could help complement the text by providing high-level abstract information, thereby improving the encod- ing of the word embedding Last, multi-head attention can also take advantage of linguistic information to improve the dependency among
words within a sentence.
The thesis evaluated our proposed models on four language pairs,
includ-ing English - Vietnamese (i.e the main pair), English - German, English
- French, and English — Czech Our experimental results on different language pairs prove that the NMT models with integrated linguistic knowledge yield better performance thanks to ability to model deeper
syntactic and semantic aspects of languages Additionally, these els are suitable for both low-resource language pairs and rich—resource languages pairs The future directions for the thesis include: exploring
mod-deeper language understanding in NMT models, expanding translation
from the sentence level to the document level (document-level NMT), and increasing the number of languages in the translation model (mul- tilingual NMT).
vi
Trang 10Danh mục các bảng so liệu xiii
Danh mục các ký hiệu, các chữ viết tắt xvi
Bảng chú thích thuật ngữ xvi
Trang 11a4 đá 13
CHƯƠNG 2 1
21 Tong quan dịhmáy| 15
2.1.1 Khao sát các phương pháp dich may| 16
2.1.2 Đánh giá chất lượng dich may} 24
2.2 Các mô hình dịch mấy mang neural] 28
2.2.1 Mô hình Seq2Sedl 30
2.2.2 Mô hình Seq2Seq với cơ chế chú ý| 31
2.2.3 Mô hình ConvSeq2Seqd 38
2.2.4 Mô hình Transformeril 41
2.3 Các tri thức ngôn ngữ ảnh hưởng đến dịch máy| 46
2.3.1 Trithtic ti vung) 47
2.3.2 Tri thứcngữ pháp 49
¬ HT 52 2.4 Kết chương 0000000000008 57 3.1 Giới thiệu Q Q Q Q 58 re 60 ee 61 3.3.1 Phân đoạn cụm từ| 62
vill
Trang 123.4.2 Các thiết lap mo hinh| 68
3.4.3 Kết quả trên tap song ngữ Anh-Việt| 68
¬ 70
3.4.5 Phân tích ảnh hưởng của chiều dài câu 71
3.4.6 Phân tích ảnh hưởng của trọng số chú ý| 72
Trang 13CHƯƠNG 5 |MÔ HÌNH TÍCH HỢP TRI THỨC NGỮ NGHĨA
5.1 Tích hợp tri thức ngữ nghĩa trừu tượng|
11 Mo hình đề xuất
5.1.2 Thực nghiệm
93 5.2.1 Công trình liên quan|
5.2.2 Mô hình đề xuất
5.2.3 Thực nghiệm
5.3 Kết chương TQ Q2 CHƯƠNG 6 |MÔ HÌNH TÍCH HỢP TRI THỨC TONG QUAT 6.1 Gidithiéu) 2 ee, 6.1.1 Cơ chế so khớp mô men
6.1.2 Cong trình liên quan|
62 Dac trưng dé xuatl
6.2.1 Đặc trưng so sánh văn bản|
6.2.2 Đặc trưng khoảng cách vector
63 Thucnghiém) 0 2.0004 6.3.1 Net lié@u) 2 ee, 6.3.2 Thiết lap thực nghiệm
136
Trang 14Danh mục công trình của tác giả 164
Tai liệu tham khảo 167
Trang 152.3 Mô hình Seq2Seq với vector ngữ cảnh cố định 31
2.4 Một lớp tính toán cơ chế chú ý của Bahdanau trong Seq2Seq.} 33
2.5 Cơ chế chú ý toàn cục| co 352.6 Cơ chế chú ý cụcbộ| 36
2.7 Mô hình ConvSeq2Seq| j8
28 Mô hình Transformer 43
2.9 Minh họa các loại cây cú pháp| - 92
2.10 Minh họa về các quan hệ ngữ nghĩa trong WordNet.| 54
3.1 Mô hình đề xuất tích hợp tri thức cụm từ 64
3.2_ Minh hoa ảnh hưởng của số lần lặp huấn luyện 71
Trang 164.1 Mô hình tích hợp tri thức từ loại| 78
5.6 Cơ chế chú ý kép} 02 0.20.0 00 000 104
5.7 Cac mô hình tích hợp ngữ nghĩa trừu tuong.| 107
5.8 _ Kết quả thử nghiệm khi thay đổi số lớp mã hóa đồ thi) 113
5.10 Minh họa đồ thị UCCA và đồ thị lay cộng đồng làm trung
tâm cho câu cuthé| 00 00000020 ee 121
5.11 Các luật biến đổi trong đồ thị cộng đồng
5.12 So sánh đồ thị gốc và đồ thị lấy cộng đồng làm trung tâm.|126
5.13 Mô hình dịch Transformer với lớp MC-GCN.| 129
5.14 Phân tích độ phức tạp tính toán theo độ dài câu| 133
Trang 17DANH MỤC CÁC BANG SO
LIÊU
2.1 Ví dụ ngữ liệu song ngữ cho dịch máy dựa trên ví dụ.|
2.2_ Ví dụ ảnh hưởng từ loại trong dịch Anh- Việt.
3.1 Thống kê ngữ liệu song ngữ IWSLT Anh-Việt
3.2_ Thống kê ngữ liệu song ngữ IWSLT Anh-Pháp.
3.3 Thống kê ngữ liệu song ngữ IWSLT Anh-Dức|
3.4 Kết quả thực nghiệm mô hình PhraseAttn.|
3.5 Kết quả thực nghiệm trên tập Anh-Pháp và Anh-Ditc
4.1 Thống kê ngữ liệu nhãn từ loại tiếng Anh và tiếng Việt.|
4.2 Ví dụ kết qua câu được gán nhãn từ loại qua công cụ.|
4.4_ Minh họa kết quả của mô hình tích hợp tri thức từ loại.|.
4.5 Các tham số cấu hình trong quá trình huấn luyện.|
80 80 82 83 90
Trang 185.5 Khảo sát phép kết trên mô hình LightConv-AMR.| 115
¬ 116
57 Phân tích lỗi - Ví dụ 2| so 117
5.8 Phan tích lỗi - Ví dụ 3| co 117
¬ 118
Trang 196.11 So sánh thời gian huấn luyện của hai hàm chi phí|
6.9 Các danh mục lỗi, ty lệ phan trăm lỗi và một số ví du
6.10 Ví dụ kết quả dich theo từng đặc trưng| 160
Xvl
Trang 20Convolutional Neural Network
Discrete Fourier Transform
Dynamic Slot Attention
XX
Tri tué nhan tao
Đồ thị lấy cộng đồng làm trung tam
Mạng neural tích chập
Biến đổi Fourier rời rạc
Cơ chế chú ý vị trí động
Trang 21Feed Forward Neural Network
Graph Convolutional Network
Graph Neural Network
Gated Residual Connection
Gated Recurrent Unit
Long Short-term Memory
Dịch máy dựa trên ví dụ
Mạng neural suy diễn tiến
Trang 22POS Part-of-speech Từ loại
RBMT Rule-based MT Dịch máy dựa trên luật
RNN Recurrent Neural Network Mang neural hồi quy
SMT Statistical MT Dich may théng ké
xxI
Trang 23BANG CHÚ THÍCH THUAT
NGỮ
Attention Mechanism Cơ chế chú ý
Average Node Degree Cấp độ nút trung bình
Capsule Neural Network Mang neural Capsule
Computational Graph Đồ thi tinh toán
Cross Attention Chú ý chéo
Deep Learning Học sâu
xIH
Trang 24Dependency Structure Cấu trúc phụ thuộc
Discourse Structure Cấu trúc diễn ngôn
Document-level NM Mô hình NMT cấp văn bản
Encoder-Decoder Mã hóa-gải mã
Global Attention Chú ý toàn cục
Graph-level Embedding Biểu diễn ở cấp độ đồ thị
Kernel Density Estimation Ứóc lượng mật độ kernel
Linguistic NÑgôn ngữ hoc
Local Attention Chú ý cục bộ
Moment Mô men
Morpheme Hình vị
XXIV
Trang 25Multi-head Attention-based Message Propagation Lan truyền thông điệp qua chú ý đa phương diện
Multi-task Learning Học đa tác vụ
Over-smoothing Problem Van đề quá mịn
Phrase Segmentation Phân đoạn từ
Pre-trained Model Mô hình tiền huấn luyện
Query-guided Capsule Network Mang CapsNet hướng truy van
Rule-based MT Dịch máy dựa trên luật
Self-attention Mechanism Co chế tự chú ý
Semantic Role Vai trò ngữ nghĩa
Sentence-level BERT BERT cấp độ câu
Sparse Attention Co chế chú ý thưa
XXV
Trang 26Syntax Tree Cây cú phấp
Text-based Data Dữ liệu văn ban
XXVI
Trang 27CHƯƠNG 1
GIỚI THIEU
Chương một trình bày tổng quát về động cơ nghiên cứu, tóm
tắt về các vấn đề tồn tại trong việc tích hợp tri thức vào dịchmáy mạng neural, đề ra các mục tiêu/phạm vi nghiên cứucũng như các đóng góp của luận án và bố cục của luận án
1.1 Động cơ nghiên cứu
Các mạng neural đã rất nhanh chóng trở thành hướng tiếp cận thống
trị cho hầu hết các tác vụ trong lĩnh vực trí tuệ nhân tạo, bao gồm cảdịch máy So với các hướng tiếp cận truyền thống trước đây, các mô
hình dịch máy mạng neural được huấn luyện theo kiểu end2end sử dụng
một cơ chế đơn giản nhưng hiệu quả Tuy nhiên, sự đơn giản này gây
ra rất nhiều khó khăn khi cần phải can thiệp vào bên trong mô hình dịch Không giống như các hệ thống dịch máy truyền thống được chia
ra thành các mô-đun chuyên biệt phục vụ cho một tac vụ con cụ thể,
các hệ thống dịch máy mạng neural huấn luyện trên các mạng neural rấtlớn được tối ưu trên toàn bộ tác vụ dịch máy Ví dụ, các hệ thống dịch
1
Trang 28máy thống kê có các thành phần phụ để xử lý sự lưu loát |2| (còn gọi là
mô hành ngôn ngữ), phát sinh từ [3] (còn gọi là mô hành dich), sắp xếp
từ HÌ hình thái từ và tích hợp đặc trưng để mô hình hóa các hiện
tượng ngôn ngữ khác nhau l6]: Trên khía cạnh khác, các hệ thống dịch
máy mạng neural chỉ bao gồm một mô hình đơn dựa trên kiến trúc mãhóa-giải mã và cơ chế chú ý Mặc dù có cấu tạo đơn giản hơn, các hệ
thống dịch máy mạng neural đã vượt qua các hệ thống dịch máy thống
kê chỉ sau một vài năm phát triển (7) Đánh giá của con người và phân
tích kết quả dịch cho thấy rằng sự vượt trội có được nhờ vào việc các hệ
thống dịch máy mang neural cho ra kết quả trôi chảy hơn các hệ dịch
may thống kê (3).
Theo tầm nhìn trong lĩnh vực dich máy đã được đề xuất bởi Vauquois
vào năm 1968 (Hình 1.1), mục tiêu chính của dịch máy là phân tích
một câu nguồn thành một dạng biểu diễn trung gian, tốt nhất là thành một biểu diễn ý nghĩa độc lập ngôn ngữ (gọi là liên ngôn ngữ) và sau đó phát sinh câu đích từ biểu diễn liên ngôn ngữ này Chiến lược nghiên
cứu hướng tới mục tiêu liên ngôn ngữ được bắt đầu với các mô hình dịch
từ vựng đơn giản, sau đó chuyển sang các biểu diễn trung gian phức tạp
hơn ở cấp độ cú pháp và ngữ nghĩa phụ thuộc vào ngôn ngữ.
Trước khi có dịch máy mạng neural, lĩnh vực dịch máy thống kê đã
đạt được rất nhiều thành tựu với hướng phát triển được đề xuất bởi
Vauquois với các mô hình có tích hợp tri thức ngôn ngữ Các tác giả
Koehn va Hoang |ð| đã trình bay một mô hình dịch được gia tố với các
yêu tố tri thức ngôn ngữ dựa trên mô hình dịch máy thống kê truyền
thống (3) Các mô hình dịch máy cần phải dat được hai mục tiêu lớn:
giải quyết vấn đề ngữ liệu thưa, đặc biệt có hiệu quả khi xử lý các từkhông có trong tập từ vựng (các từ có tần số xuất hiện thấp); và giải
quyết vấn đề nhập nhằng ngôn ngữ, qua đó làm tăng khả năng tổng
quát hóa của mô hình Trong các vấn đề trên, vấn đề về ngữ liệu thưa
2
Trang 29Ngữ nghĩa
Ngôn ngữ Ngôn ngữ nguon dich
Hình 1.1: Các cấp độ tri thức ngôn ngữ
có thể được xem là vấn đề đơn giản hơn chỉ xuất hiện trong các ngôn ngữ ít tài nguyên và theo lý thuyết có thể được giải quyết khi có nguồn
ngữ liệu lớn Tuy nhiên, vấn đề nhập nhằng ngôn ngữ là bản chất của
ngôn ngữ cho dù ngôn ngữ đó có ít hay nhiều tài nguyên thì vấn đề vẫn
tồn tại cần phải giải quyết Các hệ thống dịch máy thống kê tốt nhất
hiện nay cho các cặp ngôn ngữ phổ biến như Anh-Hoa và Anh-Đức đều
là mô hình dựa trên cú pháp [i0] Đối với các mô hình dựa trên cú pháp,
trong quá trình dịch, mô hình cũng sẽ xây dựng các cấu trúc cú phápcủa câu kết quả Do sự thành công của các mô hình dịch dựa trên cú
pháp, đã có rất nhiều nỗ lực để xây dựng các mô hình dịch có thể mô
hình hóa sâu hơn các thông tin ngữ nghĩa của ngôn ngữ.
Mặc dù tốt hơn hắn so với các hệ thống dịch máy thống kê, các hệ
thống dịch máy mạng neural lại không có khả năng tích hợp tri thức ngôn ngữ một cách tường minh từ bên ngoài dẫn đến việc mô hình các
tri thức ngôn ngữ không được tốt khi mô hình được huấn luyện trên các
ngôn ngữ ít tài nguyên Các hệ dich mấy mang neural xem quá trình
dịch như là một tác vụ dịch end2end nhằm biểu diễn một chuỗi từ trong
3
Trang 30ngôn ngữ này sang ngôn ngữ khác Ngay cả khi được tích hợp các đặc
trưng ngôn ngữ như từ loại, hình thái từ , các đặc trưng ngôn ngữ cũng
mới chỉ được tích hợp vào biểu diễn trên bề mặt từ mà không can thiệp
vào bên trong mô hình dịch (11) Tuy nhiên, với sự thành công của dịch
máy thống kê trong quá trình tích hợp tri thức ngôn ngữ, dịch máy mạngneural hiện đang chỉ xử lý trên bề mặt từ sẽ sớm tiến đến xử lý ở cấp độ
cụm từ và cao hơn nữa là cấp độ cú pháp và ngữ nghĩa bằng cách tích
hợp các tri thức ngôn ngữ vào mô hình dịch (12).
Việc tích hợp tri thức ngôn ngữ vào mô hình dịch máy mang neural
mang lại rất nhiều lợi ích:
1 Tích hợp tri thúc giúp mô hành biếu diễn được nhiều tri thức ngôn
ngữ: Ngoài việc nhận định các mô hình dịch sẽ sớm tiến đến xử lý
ở cấp độ cụm từ và cao hơn nữa là cấp độ cú pháp và ngữ nghĩa
bằng cách tích hợp các tri thức ngôn ngữ vào mô hình dịch [I2].Philipp Koehn cũng nhận định rằng tầm nhìn lâu dài cho nghiên
cứu dịch máy là phát triển các phương pháp sử dụng các biểu diễn
ngôn ngữ sâu hơn cho các giai đoạn xử lý.
2 Tích hợp tri thúc giúp giải quyét van đề ngữ liệu thưa: Hiện nay,
chúng ta chưa thể thu thập được ngữ liệu song ngữ có thể huấn
luyện cho mô hình đạt kết quả dịch cho nhiều ngôn ngữ, nhất làsong ngữ liên quan đến ngôn ngữ ít tài nguyên Ví dụ, nếu trongtiếng Việt có khoảng 40.000 từ và mỗi câu tiếng Việt có độ dài trung
bình 20 từ/câu, theo lý thuyết chúng ta sẽ có 40.0002 = 10% câu
ứng cử viên (số lượng rất lớn hơn cả số lượng hat cát trên thế giới
~ 107") Các câu ứng cử viên này sẽ được chọn lọc lại thông qua
các tri thức về ngôn ngữ (ví dụ, các câu đúng ngữ pháp) Số lượng
các câu này là cực kỳ lớn ( 10*°) do đó chúng ta sẽ không thể thu thập được tất cả các câu cần thiết để huấn luyện mô hình mạng
4