Luận án tiến sĩ Khoa học máy tính: Xây dựng mô hình tích hợp tri thức ngôn ngữ trong dịch máy mạng neural Anh - Việt

LỜI CAM ĐOANTôi cam đoan luận án tiến sĩ ngành Khoa học Máy tính, với đề tài “Xây dựng mô hình tích hợp tri thức ngôn ngữ trong dịch mấy mạng neural Anh-Việt” là công trình nghiên cứu củ

Trang 1

DẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYÊN HỒNG BỬU LONG

XÂY DỰNG MÔ HÌNH TÍCH HỢP

TRI THỨC NGÔN NGU TRONG

DỊCH MAY MANG NEURAL ANH-VIỆT

TP Hồ Chí Minh — Năm 2023

Trang 2

VIET NAM NATIONAL UNIVERSITY - HO CHI MINH

UNIVERSITY OF SCIENCE

NGUYEN HONG BUU LONG

CONSTRUCTING MODELS FOR

INTEGRATING LINGUISTIC KNOWLEDGE INTO

THE ENGLISH-VIETNAMESE NEURAL MACHINE TRANSLATION

Doctoral Thesis

Trang 3

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYEN HONG BUU LONG

Nganh: KHOA HOC MAY TINH

Phan biện độc lập 2: miễn

NGƯỜI HƯỚNG DAN KHOA HỌC: PGS.TS ĐINH DIEN

TP H6 Chi Minh — Nam 2023

Trang 4

LỜI CAM ĐOAN

Tôi cam đoan luận án tiến sĩ ngành Khoa học Máy tính, với đề tài “Xây

dựng mô hình tích hợp tri thức ngôn ngữ trong dịch mấy mạng neural

Anh-Việt” là công trình nghiên cứu của bản thân tôi thực hiện dưới sự

hướng dẫn của PGS.TS Đinh Điền

Những kết quả nghiên cứu của luận án hoàn toàn trung thực, chính

xác và không trùng lắp với các công trình đã công bố trong và ngoài nước Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện

trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định

Tác giả luận án

Nguyễn Hồng Bửu Long

Trang 5

LỜI CẢM ƠN

Luận án này đã được hoàn thành với sự hướng dẫn tận tình, giúp đỡ và

động viên quý báu rất nhiều từ PGS.TS Dinh Điền, cán bộ hướng dẫn

mà tôi tôn trọng và bày tỏ lòng biết ơn sâu sắc nhất Đồng thời, Thầy

cũng là người luôn cho tôi những lời khuyên vô cùng quý giá về cả kiến

thức chuyên môn cũng như định hướng phát triển sự nghiệp.

Trong quá trình hoàn thành luận án, tôi đã được các Thầy Cô nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận

lợi và hỗ trợ Qua đây, tôi xin chân thành cảm ơn sự giúp đỡ và góp ýrất nhiệt tình của tập thể giảng viên, cán bộ Khoa Công nghệ thông tin

va Trung tâm Ngôn ngữ hoc Tinh toán, Trường Dai học Khoa học Tu

nhiên — Đại học Quốc gia Tp Hồ Chí Minh.

Tôi xin chân thành cảm ơn quý Thầy/Cô thành viên hội đồng đánh giá

luận án đã giành thời gian quý báu để nhận xét, đóng góp ý kiến giúp

cho luận án được hoàn thiện hơn và qua đó cũng giúp tôi củng cố lại kiến thức chuyên sâu về hướng nghiên cứu.

Cuối cùng tôi cảm ơn tất cả bạn bè, người thân và đặc biệt gia đình đã đóng góp nhiều ý kiến cũng như những lời động viên khích lệ quí báu

giúp tôi vượt qua khó khăn để hoàn thành tốt luận án.

1

Trang 6

TRANG THONG TIN LUẬN

AN TIENG VIET

Dịch máy mang neural (NMT) đã chứng minh được sự hiệu quả và do

đó thu hút được sự chú ý của các nhà nghiên cứu trong những năm gần

đây Trong các ứng dụng thực tế, đầu vào của các hệ thống NMT là các

câu trong đó các từ được biểu diễn dưới dạng các vector riêng lẻ trong

một không gian vector từ Tuy nhiên, không gian vector từ này không

biểu diễn kết nối giữa các từ trong một câu, chăng hạn như các mối quan

hệ ngữ pháp hay ngữ nghĩa Các nghiên cứu gần đây cho thấy tri thức

ngôn ngữ bổ sung là điều cần thiết để tạo ra các bản dịch chính xác và phù hợp trong dịch máy Mặc dù đạt được bước đột phá đáng kể, thiết

kế và chức năng của những mô hình này chỉ phù hợp với dịch máy thống

kê Do đó, nhiệm vụ khảo sát, phân tích và áp dụng thông tin tri thức

bo sung cho các mô hình NMT cần được quan tâm một cách toàn diện.

Luận án nghiên cứu tính hữu ích của việc sử dụng tri thức ngôn ngữ bổsung để cải thiện các mô hình NMT hiện nay Luận án đề xuất sử dụng

nhiều loại tri thức ngôn ngữ ở các cấp độ từ vựng, ngữ pháp và ngữ

nghĩa nhằm đưa ra các phương pháp tiếp cận phù hợp để tích hợp tri

thức ngôn ngữ vào cả giai đoạn huấn luyện và suy luận của các mô hình

NMT phổ biến hiện nay gồm Seq2Seq, ConvSeq2Seq va Transformer.

ill

Trang 7

Cụ thể, luận án nghiên cứu hai phương pháp tích hợp: 1) mô hình tích

hợp tri thức ngôn ngữ ở các cấp độ từ vựng, ngữ pháp và ngữ nghĩa cả

trong giai đoạn huấn luyện và suy luận, và 2) mô hình tích hợp tri thức

ngôn ngữ ở mức tổng quát vào chỉ giai đoạn huấn luyện.

Tích hợp tri thức ngôn ngữ vào các mô hình NMT mang lại rất nhiều lợi ích Đầu tiên, tích hợp tri thức ngôn ngữ cho phép giải quyết các vấn

đề về ngữ liệu thưa và nhập nhằng ngữ nghĩa Thứ hai, thông tin ngữpháp và ngữ nghĩa có cấu trúc được xây dựng từ tri thức ngôn ngữ có

thể cung cấp thông tin trừu tượng cao hơn cho văn bản, qua đó cải thiện

chất lượng các mối quan hệ từ trong không gian vector Cuối cùng, cơ

chế chú ý cũng có thể tận dụng tri thức ngôn ngữ để cải thiện thông tin

phụ thuộc giữa các từ trong câu.

Luận án đã đánh giá các mô hình đề xuất trên bốn cặp ngôn ngữ, bao gồm Anh - Việt (cặp ngôn ngữ chính), Anh - Đức, Anh - Pháp và Anh - Sóc Kết quả thực nghiệm trên các cặp ngôn ngữ khác nhau chứng minh

rằng các mô hình NMT có tích hợp tri thức ngôn ngữ cho chất lượngdịch tự động tốt hơn nhờ khả năng mô hình hóa một cách tường minh

các khía cạnh ngữ pháp và ngữ nghĩa của ngôn ngữ Ngoài ra, các mô

hình đề xuất phù hợp với cả cặp ngôn ngữ ít tài nguyên và cặp ngôn

ngữ giàu tài nguyên Các hướng phát triển trong tương lai của luận án

bao gồm: nghiên cứu các tri thức sâu hơn của ngôn ngữ, mở rộng dịch

ở cấp độ câu sang cấp độ văn bản (dịch máy cấp độ văn bản), mở rộng

số lượng ngôn ngữ trong mô hình dịch (dịch máy đa ngữ)

iv

Trang 8

TRANG THONG TIN LUẬN

AN TIENG ANH

Neural machine translation (NMT) has proven its effectiveness and thus

has gained researchers’ attention in recent years In practical

applica-tions, the typical inputs to NMT systems are sentences in which words are represented as individual vectors in a word embedding space This

word embedding space does not show any connection among words within

a sentence such as syntactic or semantic role relationships Recent ies found that additional linguistic knowledge is essential to generate

stud-concise and appropriate translations in machine translation Although these models have made a significant progress, their design and functions

are limited to statistical machine translation systems only Consequently, the tasks of surveying, analyzing, and applying additional knowledge information to NMT systems have not received comprehensive attention.

The thesis investigates the usefulness of utilising prior and external guistic knowledge for improving NMT models, which are also neural sequence models The thesis proposes the use of various types of language knowledge at the lexical, grammatical, and semantic levels to pro-

lin-vide suitable approaches for integrating linguistic knowledge into both the training and inference stages of popular NMT models, including

Seq2Seq, ConvSeq2Seq, and Transformer Specifically, the thesis

ex-V

Trang 9

plores two types of integration: 1) to adapt linguistic knowledge at the

lexical, grammatical, and semantic levels in both training and inference

phases and 2) to adapt general linguistic knowledge to the training phase

only (i.e without changing the inference phase).

Integrating linguistic knowledge into NMT models yields several

ben-efits First, this addresses the problems of data sparsity and semantic ambiguity Second, structured syntactic and semantic information con- structed from linguistic knowledge could help complement the text by providing high-level abstract information, thereby improving the encod- ing of the word embedding Last, multi-head attention can also take advantage of linguistic information to improve the dependency among

words within a sentence.

The thesis evaluated our proposed models on four language pairs,

includ-ing English - Vietnamese (i.e the main pair), English - German, English

- French, and English — Czech Our experimental results on different language pairs prove that the NMT models with integrated linguistic knowledge yield better performance thanks to ability to model deeper

syntactic and semantic aspects of languages Additionally, these els are suitable for both low-resource language pairs and rich—resource languages pairs The future directions for the thesis include: exploring

mod-deeper language understanding in NMT models, expanding translation

from the sentence level to the document level (document-level NMT), and increasing the number of languages in the translation model (mul- tilingual NMT).

vi

Trang 10

Danh mục các bảng so liệu xiii

Danh mục các ký hiệu, các chữ viết tắt xvi

Bảng chú thích thuật ngữ xvi

Trang 11

a4 đá 13

CHƯƠNG 2 1

21 Tong quan dịhmáy| 15

2.1.1 Khao sát các phương pháp dich may| 16

2.1.2 Đánh giá chất lượng dich may} 24

2.2 Các mô hình dịch mấy mang neural] 28

2.2.1 Mô hình Seq2Sedl 30

2.2.2 Mô hình Seq2Seq với cơ chế chú ý| 31

2.2.3 Mô hình ConvSeq2Seqd 38

2.2.4 Mô hình Transformeril 41

2.3 Các tri thức ngôn ngữ ảnh hưởng đến dịch máy| 46

2.3.1 Trithtic ti vung) 47

2.3.2 Tri thứcngữ pháp 49

¬ HT 52 2.4 Kết chương 0000000000008 57 3.1 Giới thiệu Q Q Q Q 58 re 60 ee 61 3.3.1 Phân đoạn cụm từ| 62

vill

Trang 12

3.4.2 Các thiết lap mo hinh| 68

3.4.3 Kết quả trên tap song ngữ Anh-Việt| 68

¬ 70

3.4.5 Phân tích ảnh hưởng của chiều dài câu 71

3.4.6 Phân tích ảnh hưởng của trọng số chú ý| 72

Trang 13

CHƯƠNG 5 |MÔ HÌNH TÍCH HỢP TRI THỨC NGỮ NGHĨA

5.1 Tích hợp tri thức ngữ nghĩa trừu tượng|

11 Mo hình đề xuất

5.1.2 Thực nghiệm

93 5.2.1 Công trình liên quan|

5.2.2 Mô hình đề xuất

5.2.3 Thực nghiệm

5.3 Kết chương TQ Q2 CHƯƠNG 6 |MÔ HÌNH TÍCH HỢP TRI THỨC TONG QUAT 6.1 Gidithiéu) 2 ee, 6.1.1 Cơ chế so khớp mô men

6.1.2 Cong trình liên quan|

62 Dac trưng dé xuatl

6.2.1 Đặc trưng so sánh văn bản|

6.2.2 Đặc trưng khoảng cách vector

63 Thucnghiém) 0 2.0004 6.3.1 Net lié@u) 2 ee, 6.3.2 Thiết lap thực nghiệm

136

Trang 14

Danh mục công trình của tác giả 164

Tai liệu tham khảo 167

Trang 15

2.3 Mô hình Seq2Seq với vector ngữ cảnh cố định 31

2.4 Một lớp tính toán cơ chế chú ý của Bahdanau trong Seq2Seq.} 33

2.5 Cơ chế chú ý toàn cục| co 352.6 Cơ chế chú ý cụcbộ| 36

2.7 Mô hình ConvSeq2Seq| j8

28 Mô hình Transformer 43

2.9 Minh họa các loại cây cú pháp| - 92

2.10 Minh họa về các quan hệ ngữ nghĩa trong WordNet.| 54

3.1 Mô hình đề xuất tích hợp tri thức cụm từ 64

3.2_ Minh hoa ảnh hưởng của số lần lặp huấn luyện 71

Trang 16

4.1 Mô hình tích hợp tri thức từ loại| 78

5.6 Cơ chế chú ý kép} 02 0.20.0 00 000 104

5.7 Cac mô hình tích hợp ngữ nghĩa trừu tuong.| 107

5.8 _ Kết quả thử nghiệm khi thay đổi số lớp mã hóa đồ thi) 113

5.10 Minh họa đồ thị UCCA và đồ thị lay cộng đồng làm trung

tâm cho câu cuthé| 00 00000020 ee 121

5.11 Các luật biến đổi trong đồ thị cộng đồng

5.12 So sánh đồ thị gốc và đồ thị lấy cộng đồng làm trung tâm.|126

5.13 Mô hình dịch Transformer với lớp MC-GCN.| 129

5.14 Phân tích độ phức tạp tính toán theo độ dài câu| 133

Trang 17

DANH MỤC CÁC BANG SO

LIÊU

2.1 Ví dụ ngữ liệu song ngữ cho dịch máy dựa trên ví dụ.|

2.2_ Ví dụ ảnh hưởng từ loại trong dịch Anh- Việt.

3.1 Thống kê ngữ liệu song ngữ IWSLT Anh-Việt

3.2_ Thống kê ngữ liệu song ngữ IWSLT Anh-Pháp.

3.3 Thống kê ngữ liệu song ngữ IWSLT Anh-Dức|

3.4 Kết quả thực nghiệm mô hình PhraseAttn.|

3.5 Kết quả thực nghiệm trên tập Anh-Pháp và Anh-Ditc

4.1 Thống kê ngữ liệu nhãn từ loại tiếng Anh và tiếng Việt.|

4.2 Ví dụ kết qua câu được gán nhãn từ loại qua công cụ.|

4.4_ Minh họa kết quả của mô hình tích hợp tri thức từ loại.|.

4.5 Các tham số cấu hình trong quá trình huấn luyện.|

80 80 82 83 90

Trang 18

5.5 Khảo sát phép kết trên mô hình LightConv-AMR.| 115

¬ 116

57 Phân tích lỗi - Ví dụ 2| so 117

5.8 Phan tích lỗi - Ví dụ 3| co 117

¬ 118

Trang 19

6.11 So sánh thời gian huấn luyện của hai hàm chi phí|

6.9 Các danh mục lỗi, ty lệ phan trăm lỗi và một số ví du

6.10 Ví dụ kết quả dich theo từng đặc trưng| 160

Xvl

Trang 20

Convolutional Neural Network

Discrete Fourier Transform

Dynamic Slot Attention

XX

Tri tué nhan tao

Đồ thị lấy cộng đồng làm trung tam

Mạng neural tích chập

Biến đổi Fourier rời rạc

Cơ chế chú ý vị trí động

Trang 21

Feed Forward Neural Network

Graph Convolutional Network

Graph Neural Network

Gated Residual Connection

Gated Recurrent Unit

Long Short-term Memory

Dịch máy dựa trên ví dụ

Mạng neural suy diễn tiến

Trang 22

POS Part-of-speech Từ loại

RBMT Rule-based MT Dịch máy dựa trên luật

RNN Recurrent Neural Network Mang neural hồi quy

SMT Statistical MT Dich may théng ké

xxI

Trang 23

BANG CHÚ THÍCH THUAT

NGỮ

Attention Mechanism Cơ chế chú ý

Average Node Degree Cấp độ nút trung bình

Capsule Neural Network Mang neural Capsule

Computational Graph Đồ thi tinh toán

Cross Attention Chú ý chéo

Deep Learning Học sâu

xIH

Trang 24

Dependency Structure Cấu trúc phụ thuộc

Discourse Structure Cấu trúc diễn ngôn

Document-level NM Mô hình NMT cấp văn bản

Encoder-Decoder Mã hóa-gải mã

Global Attention Chú ý toàn cục

Graph-level Embedding Biểu diễn ở cấp độ đồ thị

Kernel Density Estimation Ứóc lượng mật độ kernel

Linguistic NÑgôn ngữ hoc

Local Attention Chú ý cục bộ

Moment Mô men

Morpheme Hình vị

XXIV

Trang 25

Multi-head Attention-based Message Propagation Lan truyền thông điệp qua chú ý đa phương diện

Multi-task Learning Học đa tác vụ

Over-smoothing Problem Van đề quá mịn

Phrase Segmentation Phân đoạn từ

Pre-trained Model Mô hình tiền huấn luyện

Query-guided Capsule Network Mang CapsNet hướng truy van

Rule-based MT Dịch máy dựa trên luật

Self-attention Mechanism Co chế tự chú ý

Semantic Role Vai trò ngữ nghĩa

Sentence-level BERT BERT cấp độ câu

Sparse Attention Co chế chú ý thưa

XXV

Trang 26

Syntax Tree Cây cú phấp

Text-based Data Dữ liệu văn ban

XXVI

Trang 27

CHƯƠNG 1

GIỚI THIEU

Chương một trình bày tổng quát về động cơ nghiên cứu, tóm

tắt về các vấn đề tồn tại trong việc tích hợp tri thức vào dịchmáy mạng neural, đề ra các mục tiêu/phạm vi nghiên cứucũng như các đóng góp của luận án và bố cục của luận án

1.1 Động cơ nghiên cứu

Các mạng neural đã rất nhanh chóng trở thành hướng tiếp cận thống

trị cho hầu hết các tác vụ trong lĩnh vực trí tuệ nhân tạo, bao gồm cảdịch máy So với các hướng tiếp cận truyền thống trước đây, các mô

hình dịch máy mạng neural được huấn luyện theo kiểu end2end sử dụng

một cơ chế đơn giản nhưng hiệu quả Tuy nhiên, sự đơn giản này gây

ra rất nhiều khó khăn khi cần phải can thiệp vào bên trong mô hình dịch Không giống như các hệ thống dịch máy truyền thống được chia

ra thành các mô-đun chuyên biệt phục vụ cho một tac vụ con cụ thể,

các hệ thống dịch máy mạng neural huấn luyện trên các mạng neural rấtlớn được tối ưu trên toàn bộ tác vụ dịch máy Ví dụ, các hệ thống dịch

1

Trang 28

máy thống kê có các thành phần phụ để xử lý sự lưu loát |2| (còn gọi là

mô hành ngôn ngữ), phát sinh từ [3] (còn gọi là mô hành dich), sắp xếp

từ HÌ hình thái từ và tích hợp đặc trưng để mô hình hóa các hiện

tượng ngôn ngữ khác nhau l6]: Trên khía cạnh khác, các hệ thống dịch

máy mạng neural chỉ bao gồm một mô hình đơn dựa trên kiến trúc mãhóa-giải mã và cơ chế chú ý Mặc dù có cấu tạo đơn giản hơn, các hệ

thống dịch máy mạng neural đã vượt qua các hệ thống dịch máy thống

kê chỉ sau một vài năm phát triển (7) Đánh giá của con người và phân

tích kết quả dịch cho thấy rằng sự vượt trội có được nhờ vào việc các hệ

thống dịch máy mang neural cho ra kết quả trôi chảy hơn các hệ dịch

may thống kê (3).

Theo tầm nhìn trong lĩnh vực dich máy đã được đề xuất bởi Vauquois

vào năm 1968 (Hình 1.1), mục tiêu chính của dịch máy là phân tích

một câu nguồn thành một dạng biểu diễn trung gian, tốt nhất là thành một biểu diễn ý nghĩa độc lập ngôn ngữ (gọi là liên ngôn ngữ) và sau đó phát sinh câu đích từ biểu diễn liên ngôn ngữ này Chiến lược nghiên

cứu hướng tới mục tiêu liên ngôn ngữ được bắt đầu với các mô hình dịch

từ vựng đơn giản, sau đó chuyển sang các biểu diễn trung gian phức tạp

hơn ở cấp độ cú pháp và ngữ nghĩa phụ thuộc vào ngôn ngữ.

Trước khi có dịch máy mạng neural, lĩnh vực dịch máy thống kê đã

đạt được rất nhiều thành tựu với hướng phát triển được đề xuất bởi

Vauquois với các mô hình có tích hợp tri thức ngôn ngữ Các tác giả

Koehn va Hoang |ð| đã trình bay một mô hình dịch được gia tố với các

yêu tố tri thức ngôn ngữ dựa trên mô hình dịch máy thống kê truyền

thống (3) Các mô hình dịch máy cần phải dat được hai mục tiêu lớn:

giải quyết vấn đề ngữ liệu thưa, đặc biệt có hiệu quả khi xử lý các từkhông có trong tập từ vựng (các từ có tần số xuất hiện thấp); và giải

quyết vấn đề nhập nhằng ngôn ngữ, qua đó làm tăng khả năng tổng

quát hóa của mô hình Trong các vấn đề trên, vấn đề về ngữ liệu thưa

2

Trang 29

Ngữ nghĩa

Ngôn ngữ Ngôn ngữ nguon dich

Hình 1.1: Các cấp độ tri thức ngôn ngữ

có thể được xem là vấn đề đơn giản hơn chỉ xuất hiện trong các ngôn ngữ ít tài nguyên và theo lý thuyết có thể được giải quyết khi có nguồn

ngữ liệu lớn Tuy nhiên, vấn đề nhập nhằng ngôn ngữ là bản chất của

ngôn ngữ cho dù ngôn ngữ đó có ít hay nhiều tài nguyên thì vấn đề vẫn

tồn tại cần phải giải quyết Các hệ thống dịch máy thống kê tốt nhất

hiện nay cho các cặp ngôn ngữ phổ biến như Anh-Hoa và Anh-Đức đều

là mô hình dựa trên cú pháp [i0] Đối với các mô hình dựa trên cú pháp,

trong quá trình dịch, mô hình cũng sẽ xây dựng các cấu trúc cú phápcủa câu kết quả Do sự thành công của các mô hình dịch dựa trên cú

pháp, đã có rất nhiều nỗ lực để xây dựng các mô hình dịch có thể mô

hình hóa sâu hơn các thông tin ngữ nghĩa của ngôn ngữ.

Mặc dù tốt hơn hắn so với các hệ thống dịch máy thống kê, các hệ

thống dịch máy mạng neural lại không có khả năng tích hợp tri thức ngôn ngữ một cách tường minh từ bên ngoài dẫn đến việc mô hình các

tri thức ngôn ngữ không được tốt khi mô hình được huấn luyện trên các

ngôn ngữ ít tài nguyên Các hệ dich mấy mang neural xem quá trình

dịch như là một tác vụ dịch end2end nhằm biểu diễn một chuỗi từ trong

3

Trang 30

ngôn ngữ này sang ngôn ngữ khác Ngay cả khi được tích hợp các đặc

trưng ngôn ngữ như từ loại, hình thái từ , các đặc trưng ngôn ngữ cũng

mới chỉ được tích hợp vào biểu diễn trên bề mặt từ mà không can thiệp

vào bên trong mô hình dịch (11) Tuy nhiên, với sự thành công của dịch

máy thống kê trong quá trình tích hợp tri thức ngôn ngữ, dịch máy mạngneural hiện đang chỉ xử lý trên bề mặt từ sẽ sớm tiến đến xử lý ở cấp độ

cụm từ và cao hơn nữa là cấp độ cú pháp và ngữ nghĩa bằng cách tích

hợp các tri thức ngôn ngữ vào mô hình dịch (12).

Việc tích hợp tri thức ngôn ngữ vào mô hình dịch máy mang neural

mang lại rất nhiều lợi ích:

1 Tích hợp tri thúc giúp mô hành biếu diễn được nhiều tri thức ngôn

ngữ: Ngoài việc nhận định các mô hình dịch sẽ sớm tiến đến xử lý

ở cấp độ cụm từ và cao hơn nữa là cấp độ cú pháp và ngữ nghĩa

bằng cách tích hợp các tri thức ngôn ngữ vào mô hình dịch [I2].Philipp Koehn cũng nhận định rằng tầm nhìn lâu dài cho nghiên

cứu dịch máy là phát triển các phương pháp sử dụng các biểu diễn

ngôn ngữ sâu hơn cho các giai đoạn xử lý.

2 Tích hợp tri thúc giúp giải quyét van đề ngữ liệu thưa: Hiện nay,

chúng ta chưa thể thu thập được ngữ liệu song ngữ có thể huấn

luyện cho mô hình đạt kết quả dịch cho nhiều ngôn ngữ, nhất làsong ngữ liên quan đến ngôn ngữ ít tài nguyên Ví dụ, nếu trongtiếng Việt có khoảng 40.000 từ và mỗi câu tiếng Việt có độ dài trung

bình 20 từ/câu, theo lý thuyết chúng ta sẽ có 40.0002 = 10% câu

ứng cử viên (số lượng rất lớn hơn cả số lượng hat cát trên thế giới

~ 107") Các câu ứng cử viên này sẽ được chọn lọc lại thông qua

các tri thức về ngôn ngữ (ví dụ, các câu đúng ngữ pháp) Số lượng

các câu này là cực kỳ lớn ( 10*°) do đó chúng ta sẽ không thể thu thập được tất cả các câu cần thiết để huấn luyện mô hình mạng

4

Tiêu đề	Xây dựng mô hình tích hợp tri thức ngôn ngữ trong dịch máy mạng neural Anh-Việt
Tác giả	Nguyễn Hồng Bửu Long
Người hướng dẫn	PGS.TS. Đinh Điền
Trường học	Trường Đại học Khoa học Tự nhiên
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận án tiến sĩ
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	60
Dung lượng	12,95 MB