Việc dịch các văn bản thuộc chuyên ngành hẹp, miềnđặc thù có tập từ vựng không cùng phân bố với tập từ vựng của ngữ liệu dùng để huấn luyện mô hình đang phải đối mặt với nhiều thách thức
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHAM NGHĨA LUAN
NGHIEN CUU MOT SO KY THUAT
THÍCH UNG MIEN TRONG DICH MAY THONG KE
ANH - VIET
LUAN AN TIEN SI CONG NGHE THONG TIN
Hà Nội - 2023
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHAM NGHĨA LUAN
NGHIEN CUU MOT SO KY THUAT THÍCH UNG MIEN TRONG DICH MAY THONG KE
ANH - VIET
Chuyên ngành: Hệ thống thông tin
Mã số: 9480104.01
LUẬN ÁN TIEN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 TS Nguyễn Văn Vinh
2 TS Phạm Việt Thắng
Hà Nội - 2023
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận án ”Nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Viét” là công trình
nghiên cứu của riêng tôi dưới sự hướng dẫn của thầy TS Nguyễn VănVinh và thầy TS Phạm Việt Thắng Các số liệu, kết quả được trìnhbày trong luận án là hoàn toàn trung thực và chưa từng được công bố
trong bất kỳ một công trình nào khác
» Tôi đã trích dẫn day đủ các tài liệu tham khảo, công trình nghiên
cứu liên quan ở trong nước và quốc tế Ngoại trừ các tài liệu tham
khảo này, luận án hoàn toàn là công việc của riêng tôi.
» Trong các công trình khoa học được công bố trong luận án, tôi
đã thể hiện rõ ràng và chính xác đóng góp của các đồng tác giả
và những gì do tôi đã đóng góp.
« Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh
tại Bộ môn Các Hệ thống thông tin, Khoa Công nghệ Thông tin,Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Phạm Nghĩa Luân
Trang 4LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc đến thầy
TS Nguyễn Văn Vinh và thầy TS Phạm Việt Thắng - những người
đã hướng dẫn, khuyến khích, truyền cảm hứng, chỉ bảo và tạo cho tôi
những điều kiện tốt nhất từ khi bắt đầu làm nghiên cứu sinh đến khi
hoàn thành luận án này.
Tôi xin chân thành cẩm ơn các thầy cô Khoa Công nghệ thông
tin, Trường Đại học Công nghệ, Dại học Quốc Gia Hà Nội, đặc biệt là
các thầy cô trong bộ môn đã tận tình chỉ bảo, cung cấp cho tôi nhữngkiến thức vô cùng quý giá, điều kiện tốt nhất cho tôi về môi trường
làm việc trong suốt quá trình học tập, nghiên cứu tại Trường
Đồng thời, tôi xin chân thành cảm ơn các đồng nghiệp tại TrườngĐại học Hai Phòng đã tạo mọi điều kiện, bố trí thời gian tốt nhất dành
cho tôi trong suốt quá trình làm nghiên cứu sinh
Cuối cùng, tôi xin chân thành cảm ơn những người thân trong
gia đình cùng toàn thể bạn bè, đồng nghiệp nơi tôi công tác đã luôn
ủng hộ, chia sẻ, động viên và khích lệ tôi trong suốt quá trình học tập
và nghiên cứu.
il
Trang 5TÓM TẮT
Cho đến nay, dịch máy thống kê (SMT-Statistical Machine
Trans-lation) là phương pháp dịch máy được nghiên cứu nhiều và phổ biến nhất trước khi phát triển dịch máy mạng nơ-ron (NMT-Neutral Ma-
chine Translation) Hiện nay, dịch máy NMT là cách tiếp cận hiện đại,tiên tiến nhất (State-Of-The-Art)
Cả dịch máy SMT và NMT đều là các phương pháp dịch máy dựatrên dữ liệu (DDMT-Data Driven Machine Translation), cách tiếp cận
này sử dụng kho ngữ liệu song song lớn (Parallel corpus) chủ yếu do
con người dịch làm cơ sở để tạo ra các bản dịch Về bản chất, phương
pháp dịch máy DDMT là cách tiếp cận theo phương pháp thống kê Vì
vậy, để tạo ra một mô hình dịch máy chất lượng tốt phụ thuộc rất lớn
vào số lượng và chất lượng của ngữ liệu huấn luyện Đối với các miền
có sin kho ngữ liệu song song lớn, chang hạn như miền tin tức thì chất
lượng dịch thuật đạt mức cao Tuy nhiên, trong vô số miền đặc thù
khác không có kho ngữ liệu song song lớn, chang hạn như miền y tế
hoặc miền pháp luật, chất lượng bản dịch kém đến mức có thể không
chấp nhận được Việc dịch các văn bản thuộc chuyên ngành hẹp, miềnđặc thù có tập từ vựng không cùng phân bố với tập từ vựng của ngữ
liệu dùng để huấn luyện mô hình đang phải đối mặt với nhiều thách
thức, thích ứng miền trong dịch máy là một miền nghiên cứu nhằm
giải quyết các van đề này để tối ưu hóa bản dịch trong một ngữ cảnh
« DN 2
hoặc miên cụ thé.
Hiện nay, các phương pháp thích ứng miền trong dịch máy theo
hai hướng tiếp cận phổ biến là (1) Hướng mô hình (cải tiến mô hình
trong miền đích) và (2) Hướng dữ liệu (cải tiến chất lượng hoặc tăng
cường, bổ sung thêm dữ liệu miền để huấn luyện mô hình).
Trang 6Luận án này tập trung giải quyết các thách thức đã nêu về thích
ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt, đã đề
xuất ba kỹ thuật thích ứng miền theo cả hai hướng tiếp cận trên, luận
án có ba đóng góp chính, cụ thể như sau:
(i)
(ii)
(iii)
Thứ nhất, đề xuất phương pháp tinh chỉnh bang cum từ
(phrase-table) cho SMT, đây là cách tiếp cận theo hướng mô hình Trong
SMT, mô hình dịch (translation model - còn gọi là bảng dịch cụm
từ) chứa danh sách các xác suất dịch của các cụm từ từ ngôn ngữ
nguồn sang ngôn ngữ đích theo cả hai chiều dịch, các xác suất
này được học tự động từ tập dữ liệu song ngữ Đề xuất này thực
hiện phân loại miền cho các cụm từ trong bảng cụm từ, từ đóđiều chỉnh, cập nhật lại xác suất dịch của các cụm từ này theo
hướng ưu tiên hơn trong miền đích
Thứ hai, đề xuất phương pháp sinh tự động dit liệu song ngữ cho
dịch máy, đây là cách tiếp cận theo hướng dữ liệu, cụ thể là tăng cường, bổ sung thêm dữ liệu cho huấn luyện Hiện nay, dịch máy NMT luôn trong tình trạng thiếu dữ liệu song ngữ để huấn luyện
mô hình, việc xây dựng dữ liệu song ngữ đủ lớn luôn là một thách
thức, đặc biệt dữ liệu song ngữ miền Do đó, luận án đã đề xuất
sử dụng ứng dụng Google Translate như một mô hình thành phần
trong các bước của kĩ thuật dịch ngược để sinh tự động dit liệu
giả song ngữ Đề xuất đặc biệt hiệu quả đối với các cặp ngôn ngữhoặc miền ít tài nguyên, giảm chi phí thời gian và có được dt liệu
giả song ngữ tốt hơn so với kĩ thuật dịch ngược thông thường
Thứ ba, đề xuất phương pháp cải tiến chất lượng của dữ liệu giả
song ngữ được sinh tự động ở đề xuất thứ hai, đây cũng là cách
tiếp cận theo hướng dt liệu nhưng mục đích là cải tiến chất lượngcủa dữ liệu cho huấn luyện Do đầu vào của phương pháp dịch
Trang 7ngược là một văn bản nhưng văn bản này thường có nhiễu vì có
thể chứa các lỗi về chính tả, ngữ pháp nên ảnh hưởng tới chất lượng của đầu ra Để giảm nhiễu, luận án đề xuất sửa lỗi chính
tả, ngữ pháp tự động cho văn bản đầu vào trước khi đưa vào dịch
ngược Đề xuất này góp phần cải thiện chất lượng của dữ liệu giảsong ngữ được sinh tự động.
Từ khóa: dịch máy, dịch máy thống kê, dịch máy mạng nơ-ron,thích ứng miền
Trang 8Mục lục
Lời cam đoan i
Lời cam ơn ii
Tom tat iii
Muc luc vi
Danh mục các từ viết tat ix
Danh muc cac bang x
Danh muc cac hinh vé xi
MỞ DAU 1
Tính cấp thiết của luậnán 1
Mục tiêu của luậnấn cố 4
Đóng góp của luậnấn c 5
Cấu trúc của luậnán 2 ẶẶ 7 1 TONG QUAN VE VAN DE NGHIEN CUU 9 1.1 Tổng quan về dich mấy 9
1.1.1 Khái niệm dich máấáy 9
1.1.2 Lịch sử dich máy 10
1.2 Dịch máy thống kê - 13
1.21 CosdtoAénhoc 0 02022002 14 1.2.2 Dich máy thống kê dựa vào từ 15
1.2.3 Dịch máy thống kê dựa vào cum từ 16
vi
Trang 9Nội dung vii
1.3 Dịch máy mang nơron 17
1.3.1 Kiến trúc Encoder-Decoder 18
1.3.2 Kiến trúc Transformer 21
1.4 Những thách thức trong dich máấáy 23
1.5 Đánh giá chất lượng mô hình dich máy 25
1.5.1 Phương pháp đánh giá chủ quan 25
1.5.2 Phương pháp đánh giá khách quan 25
1.6 Thích ứng miền trong dịch máy - 28
1.6.1 Thich tng miền 28
1.6.2 Thích ứng miền trong dịch máy 28
1.7 Ứng dụng dịch tự động Google Translate j1 1.8 Các nghiên cứu liên quan 32
1.9 Các tập dữ liệu thử nghiệm 39
1.10 Kết luận Chương l_ 40
2 PHƯƠNG PHÁP TINH CHỈNH BANG CUM TỪ 42 2.1 Giới thiệu ee es 42 2.2 Phương pháp tinh chỉnh bang dịch cum từ 45
2.2.1 Bảng dịch cụntừ 45
2.3 Phân loại văn ban .4 49 2.3.1 Phương pháp tỉnh chỉnh bảng dịch cụm từ 50
2.4 Thực nghiệm QC 53 2.4.1 Tap dữ liệu và cài đặt thực nghiệm 53
2.4.2 Tiền xử lý dữ liệu 54
2.4.3 Các thực nghiệm 56
2.4.4 Kết quả thực nghiệm 58
2.5 Kết luận Chuong2 000.4 62 3 PHƯƠNG PHÁP SINH TU DONG DU LIEU SONG NGU 63 3.1 Giới thiệu ee 63 3.2 Phương phap sinh tự động dữ liệu song ngữ 66
Trang 10Nội dung viii
3.2.1 Ky thuật dịch ngược trong dich méy 66
3.2.2 Phương phap sinh tự động dữ liệu song ngữ 67
3.3 Thực nghiệm cv 71 3.3.1 Tập dữ liệu và cài đặt thực nghiệm 71
3.3.2 Tiền xửlý dữliệu 72
3.3.3 Các thực nghiệm 73
3.3.4 Kết quả thực nghiệm 73
3.3.5 Phân tích và thảo luận 76
3.4 Kết luận Chương 3_ 77
4 CẢI TIEN CHAT LƯỢNG CUA PHƯƠNG PHAP SINH TU DONG DU LIEU SONG NGU 79 41 Gidithiéu ee 79 4.2 Cai tiến chất lượng của phương pháp sinh tự động dit liệu song ngữ ee 81 43 Thực nghiệm 2 00 86 4.3.1 Tập dữ liệu và cài đặt thực nghiệm 88
4.3.2 Cài đặt thực nghiệm 92
4.3.3 Kết quả thực nghiệm 92
4.4 Kết luận Chuong4 02000 102 KET LUAN 104 Tóm lược các kết quả va đóng góp của luậnán 104
Hạn chế và hướng phát triển của luậnán 105
DANH MỤC CÔNG TRÌNH KHOA HOC CUA TAC
GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 108
TÀI LIỆU THAM KHẢO 109
Trang 11DANH MỤC CÁC TỪ VIET TAT
Gated Recurrent Unit (Don vị hồi quy cổng)
Long Short Term Memory (Bộ nhớ dài ngắn hạn)
Natural Language Processing (Xử lý ngôn ngữ tự nhiên)
Neural Machine Translation (Dịch máy mạng nơ-ron)
Phrase-Based Statistical Machine Translation
(Dịch máy dựa trên cụm từ)
Position-independent word Error Rate
(Tỷ lệ lỗi từ độc lập vị trí)
Recurrent Neural Network (Mạng nơ-ron hồi quy)Statistical Machine Translation (Dịch máy thống kê)
Translation Error Rate (Tỷ lệ lỗi dịch)
Word Error Rate (Tỷ lệ lỗi từ)
1X
Trang 12Một số ví du kết qua dich của các mô hình 61
Kết quả thực nghiệm với phương pháp sinh tự động ditliệu song ngữ ca 75
Dữ liệu huấn luyện mô hình vnCheck 89
Chi tiết về tap dữ liệu để tao từ điển cum tt? 2 91
Đánh giá chất lượng mô hình vnCheck 93
Một số ví dụ sửa lỗi ngữ pháp của các mô hinh 94Kết quả khi không áp dụng mô hình vnCheck 95
Kết quả khi áp dụng mô hình vnCheck 98
Ví dụ kết quả dịch của Google Translate khi áp dụng và
không 4p dụng mô hình vnCheck 101
Trang 13Tổng quan bài toán dich méy
Tam giác Vauquois mô tả các phương pháp dịch
Kiến trúc cơ bản của mô hình dịch máy thống ké
Ví dụ minh hoa quá trình dịch dựa vào cụm từ
Kiến trúc mã hóa - giải mã (Encoder — Decoder)
Kiến trúc tổng quát của dịch máy mạng nơ-ron
Kiến trúc Transformer
Ứng dụng dịch tự động Google Translate sử dụng kiến
tric mang ñƠ-TON 200005 2 ae
Phương pháp tinh chỉnh bảng dich cum tt
Ví dụ một vài kết quả phân loại miền cụm từ
Ví dụ xác suất dịch của cụm từ trong bảng cụm tt
Chất lượng dịch của GNMT so với người dịch, điểm nằm
trong khoảng từ 0 đến 6, với 0 nghĩa là "bản dịch hoàn
toàn vô nghĩa” và 6 nghĩa là "bản dịch hoàn hao”.
Mô tả kỹ thuật dịch ngược
Mô tả phương pháp sinh tự động dữ liệu song ngữ cho
dịch mấy ee ee
So sánh chất lượng bản dịch khi dịch trong miền pháp
luật và miền chung
Xl
10 11 14
17
19 20 22
Trang 14Danh muc các hành vé xi
4.1 Đề xuất cải tiến chất lượng phương pháp sinh tự động
dữ liệu song ngữ cho dịch mấy 814.2 Phương pháp sửa lỗi cho văn bản tiếng Việt 83
4.3 Quá trình tạo từ điển cụm từ S5
4.4 Dịch ngược sử dung Google Translate với dữ liệu đầu vào
không áp dụng mô hình vnCheck 98
4.9 So sánh điểm BLEU của các mô hình khi sử dung và
không sử dung kĩ thuật cắt tỉa bảng cum từ 99
Trang 15MỞ ĐẦU
1 Tính cấp thiết của luận án
Dịch máy là một trong những lĩnh vực nghiên cứu khó và lâu đời
trong trí tuệ nhân tạo, thu hút sự quan tâm của nhiều nhóm nghiên cứu
trên thế giới Trong quá trình phát triển, các mô hình dịch máy được
sử dụng nhiều nhất là dịch máy thống kê dựa trên cụm từ (PBSMT)
[62] và dịch máy mạng nơ-ron (NMT) [119, 123] Trong thập kỷ qua,
bên cạnh dịch máy dựa trên cụm từ với các ưu điểm dịch đầy đủ, dễ
can thiệp xử lý gỡ lỗi, gần đây dịch máy mạng nơ-ron đã cho thấy
nhiều ưu điểm hơn so với dịch máy dựa trên cum từ [7, 15] Các ưu
điểm điển hình của dịch máy nơ-ron có thể kể tới dịch trôi chảy hơn,
sát nghĩa hơn Tuy nhiên, dịch máy mạng nơ-ron vẫn còn trường hợp
dịch không đầy đủ, hiện tượng từ chưa biết (unkown word) nhiều, quá
trình dịch như hộp đen nên khó can thiệp xử lý và gỡ lỗi Những vấn
đề của dịch máy mạng nơ-ron đã được chỉ ra trong các nghiên cứu
[94, 101].
Do các mô hình dịch máy SMT và NMT đều là các mô hình hướng
dữ liệu (DDMT) nên mô hình dự đoán không tốt khi tập dữ liệu thực
nghiệm và tập huấn luyện không cùng phân bố [101, 110], đây cũng là
thách thức cần giải quyết trong dịch máy, vấn đề này còn được gọi là
1
Trang 16Mở đầu 2
thích ứng miền Mục tiêu của thích ứng miền là đưa ra giải pháp nhằm
giảm sự khác biệt về phân phối miền giữa miền nguồn và miền đích để kiến thức đã học từ miền nguồn có thể được áp dụng cho miền đích,
có nhiều nghiên cứu đã được công bố cho cả phương pháp dịch máy
SMT và NMT được trình bày trong công trình [14] Hiện nay, thích
ứng miền trong dịch máy là bài toán còn nhiều thách thức và vẫn đượcnhiều nhóm nghiên cứu quan tâm [16, 44, 72, 98, 108, 109, 135]
Thích ứng miền cho dịch máy DDMT chủ yếu được chia thành haihướng tiếp cận chính: (1) Hướng dữ liệu (data centric) và (2) Hướng mô
hình (model centric) Trong dich máy SMT, các phương pháp hướng
dữ liệu tập trung vào việc chọn dữ liệu huấn luyện từ kho ngữ liệu
song ngữ ngoài miền dựa trên mô hình ngôn ngữ (LM) [9, 27, 79] hoặc
sinh đữ liệu giả song ngữ [70, 129, 130] Các phương pháp hướng mô
hình tập trung vào việc nội suy mô hình trong miền (in-domain) và môhình ngoài miền (out-domain) ở mức mô hình [53, 110] Tuy nhiên, do
các đặc điểm khác nhau của SMT và NMT, nhiều phương pháp thích ứng miền được nghiên cứu cho SMT không thể áp dụng trực tiếp được
cho NMT Trong dich máy NMT, các phương hướng dữ liệu tập trung
vào dit liệu đang được sử dụng hơn là các mô hình chuyên biệt, dữ liệu
được sử dụng có thể là ngữ liệu đơn ngữ miền [19, 25, 40, 136], hoặc
dữ liệu giả song ngữ (synthetic corpora) [31, 95, 112, 138], hoặc dữ liệu
song ngữ (parallel corpora) [23, 45, 78] Mặt khác, hướng mô hình tập trung vào xây dựng các mô hình NMT chuyên biệt [10, 66, 120, 137],
hoặc cải tiến kiến trúc NMT [26, 64, 131] hoặc cải tiến các thuật toán
giải mã [140].
Hiện nay, nghiên cứu về thích ứng miền trong dịch máy chủ yếu tập
trung vào các cặp ngôn ngữ giữa tiếng Anh và một số ngôn ngữ phổ
biến như tiếng Trung, tiếng Ấn độ, và một số ngôn ngữ Châu Âu như
Trang 17Mở đầu 3
tiếng Pháp, tiếng Tây Ban Nha Dối với cặp ngôn ngữ Anh-Việt, chưa
có nhiều nghiên cứu về thích ứng miền mặc dù các nghiên cứu nhằm
cải tiến chất lượng dịch máy cho cặp ngôn ngữ này đã và đang đượcquan tâm nhiều [24, 77, 83, 85, 99] Lĩnh vực nghiên cứu này còn nhiều
thách thức như:
1 Thiếu tài nguyên song ngữ; chưa tận dụng, khai thác được hết
các dạng tài nguyên ngôn ngữ có sẵn.
— Năm 2015, hội thảo quốc tế về dịch tiếng nói (IWSLT) đã
công bồ bộ dữ liệu cho cuộc thi về dịch máy Anh-Việt, bộ dữliệu gồm 133.137 cặp câu từ các bài trình bày trên website
TED (www.ted.com).
— Năm 2020, hội thao quốc tế về xử lý tiếng nói và ngôn ngữ
tiếng Việt (VLSP) đã công bố bộ dữ liệu cho cuộc về dịch
máy Anh-Việt [41], gồm khoảng 4,2 triệu cặp câu được thuthập từ nhiều nguồn và miền khác nhau (từ Open subtitle
chiếm 3,5 triệu cặp câu là các phụ đề phim; TED-like chiếm546.000 cặp câu thuộc các bài trình bày về giáo dục và công
nghệ; EVBcorpus chiếm 45.000 cặp câu thuộc nhiều miềnkhác nhau; Wiki-ALT chiếm 20.000 cặp câu từ các bai bao;
từ miền tin tức chiếm 20.000 cặp câu, còn lại khoảng 8.800
cặp câu từ các đoạn hội thoại ngắn)
— Năm 2021, nhóm nghiên cứu VinAT [24] đã công bố cho cộng
đồng nghiên cứu tập dữ liệu gồm 3,02 triệu cặp câu Anh-Việt
nhưng chủ yếu thuộc miền chung (miền tin tức, blog, wikl, ),
bộ dữ liệu này vẫn bị hạn chế đối với các miền đặc thù ví dự
như miền y tế, thể thao, pháp luật.
— Năm 2022, nhóm nghiên cứu VietAI [82] đã công bố, đóng
góp cho cộng đồng nghiên cứu dịch máy bộ dữ liệu song ngữ
Trang 18Mở đầu 4
đa miền MTet (gồm 11 miền) với gần 4,2 triệu cặp câu
Anh-Việt, tuy nhiên số lượng dữ liệu song ngữ, đặc biệt là song
ngữ miền trong bộ dữ liệu trên vẫn chưa đủ để huấn luyện
một hệ dịch Anh-Việt đủ tốt, đáp ứng nhu cầu sử dụng của
con người Hơn nữa, bộ dữ liệu trên bao gồm 11 miền, sốlượng cặp câu song ngữ cho từng miền vẫn còn hạn chế
2 Các nghiên cứu về thích ứng miền trên thế giới chủ yếu đối với
các cặp ngôn ngữ phổ biến, chưa có nhiều nghiên cứu riêng cho
các cặp ngôn ngữ ít tài nguyên, đặc biệt là tích hợp các đặc trưng
của từng ngôn ngữ, điều này đặc biệt đúng trong dịch máy thống
kê, vấn đề này đã được trình bày trong [14]
3 Dối với cặp ngôn ngữ Anh-Việt, theo hiểu biết của tác giả, hiện
nay mới có nghiên cứu của tác giả Nguyễn Tiến Hà về xây dựng
tài nguyên song ngữ Việt - Anh ứng dụng trong dịch máy miền
du lich [52], cải tiến chất lượng dịch máy tiếp cận theo hướng dựa
vào dữ liệu (data centric).
Với mong muốn giải quyết các vấn đề tồn tại, thách thức của thích
ứng miền trong dich máy cho ngôn ngữ Anh-Việt đã gợi ý và thúc day tác giả lựa chọn nghiên cứu đề tài: "Nghién cứu một số kỹ thuật thích ứng miền trong dich máy thống kê Anh- Việt”.
2 Mục tiêu của luận án
Luận án cung cấp cái nhìn tổng quan, đầy đủ về vấn đề thích ứng miền trong dịch máy thống kê Anh-Việt ở thời điểm hiện tại, đồng
thời nghiên cứu đề xuất các phương pháp nhằm nâng cao chất lượng
bản dịch theo miền cụ thể của dịch máy thống kê Anh-Việt.
2 oA 2 2 a Pa x
Các mục tiêu cụ thé của luận án gồm:
Trang 19Mở đầu 5
1 Nghiên cứu đề xuất các phương pháp giải quyết bài toán thích ứng
miền trong dịch máy thống kê dựa vào cụm từ (PBSMT-Phrase
based Statistical Machine Translation) theo hướng tiếp cận mô
hình, áp dụng cho cặp ngôn ngữ Anh-Việt.
2 Nghiên cứu đề xuất các phương pháp giải quyết bài toán thích
ứng miền trong dịch máy NMT theo hướng tiếp cận dữ liệu, áp
dụng cho cặp ngôn ngữ Anh-Việt.
Đề thực hiện các mục tiêu này, luận án triền khai thực hiện các nội dung sau:
1 Thu thập dữ liệu song ngữ Anh-Việt thuộc miền chung (các văn
bản chứa nội dung của nhiều miền khác nhau) và các miền khác,trong đó miền pháp luật được ưu tiên
2 Thu thập dữ liệu đơn ngữ tiếng Việt thuộc miền chung và miền
pháp luật.
3 Nghiên cứu kiến trúc, quá trình sinh ra bang cụm từ và quá trình
giải mã trong dịch máy SMT, từ đó đề xuất phương pháp để bộ
giải mã (decoder) chọn các giả thuyết dịch được ưu tiên hơn theo
miền đích
4 Nghiên cứu một số phương pháp tăng cường, bổ sung dữ liệu huấn
luyện cho dịch máy, từ đó đề xuất phương pháp sinh tự động dữ
liệu song ngữ miền đối với cặp Anh-Việt cho dịch máy NMT
5 Nghiên cứu một số kỹ thuật tiền xử lý, chuẩn hoá dữ liệu để giảm
các nhiễu phổ biến xuất hiện trong dữ liệu, từ đó đề xuất phương
pháp cải tiến chất lượng của dữ liệu giả song ngữ Anh-Việt được
sinh bởi phương pháp dịch ngược, sau đó bổ sung kho ngữ liệu
giả song ngữ này vào huấn luyện mô hình dịch máy NMT
Trang 20Mở đầu 6
3 Đóng góp của luận án
Luận án đã đạt được ba kết quả chính sau:
e Một là, đề xuất phương pháp tinh chỉnh bang cụm từ
(phrase-table) cho SMT, đây là cách tiếp cận theo hướng mô hình Trong
SMT, mô hình dịch (translation model - còn gọi là bảng dịch cụm
từ) chứa danh sách các xác suất dịch của các cụm từ từ ngôn ngữ
nguồn sang ngôn ngữ đích theo cả hai chiều dịch, các xác suất
này được học tự động từ tập dữ liệu song ngữ Đề xuất này thựchiện phân loại miền cho các cụm từ trong bảng cụm từ, từ đó
điều chỉnh, cập nhật lại xác suất dịch của các cụm từ này theohướng ưu tiên hơn trong miền đích Kết quả này được công bố
trong |CT7|.
e Hai là, đề xuất phương pháp sinh tự động dữ liệu song ngữ cho
dịch máy, đây là cách tiếp cận theo hướng dữ liệu, cụ thể là tăng cường, bổ sung thêm dữ liệu cho huấn luyện Hiện nay, dịch máy
NMT luôn trong tinh trạng thiếu dữ liệu song ngữ để huấn luyện
mô hình, việc xây dựng dữ liệu song ngữ đủ lớn luôn là một tháchthức, đặc biệt dữ liệu song ngữ miền Do đó, luận án đã đề xuất
sử dụng Google translate như một mô hình thành phần trong các
bước của kĩ thuật dịch ngược để sinh tự động dữ liệu giả song
ngữ Dề xuất đặc biệt hiệu quả đối với các cặp ngôn ngữ hoặc
miền ít tài nguyên, giảm chi phí thời gian và có được dữ liệu giả
song ngữ tốt hơn so với kĩ thuật dịch ngược thông thường Cáckết quả liên quan được công bố trong [CT4, CT5]
e Da là, đề xuất phương pháp cải tiến chất lượng của dữ liệu giả
song ngữ được sinh tự động ở đề xuất thứ hai, đây cũng là cách
tiếp cận theo hướng dit liệu nhưng mục đích là cải tiến chất lượng
Trang 21Mỏ đầu 7
của dit liệu cho huấn luyện Do đầu vào của phương pháp dich
ngược là một văn bản nhưng văn bản này thường có nhiễu vì có
thể chứa các lỗi về chính tả, ngữ pháp nên ảnh hưởng tới chất lượng của đầu ra Để giảm nhiễu, luận án đề xuất phương pháp
sửa lỗi chính tả, ngữ pháp tự động cho văn bản đầu vào trước khiđưa vào dịch ngược Dề xuất này góp phần cải thiện chất lượng
của dữ liệu giả song ngữ được sinh tự động Kết quả này được
trình bày trong [CT6, CT8].
Các nội dung và kết quả nghiên cứu trình bày trong luận án đã đượccông bố trong 08 công trình Trong đó, 03 báo cáo trong kỷ yếu của
hội nghị quốc tế có phản biện, được xuất bản bởi IEEE hoặc Springer;
03 báo cáo trong kỷ yếu của hội thảo quốc gia có phản biện; 01 bàibáo ở tạp chí trong nước có phản biện và 01 bài báo ở tạp chí quốc tế
có phản biện.
4 BO cục của luận án
Ngoài phần Mở đầu, Kết luận thì nội dung chính của luận án được tổ chức thành bốn chương, cụ thể:
e Chương 1 Trình bày tổng quan van đề nghiên cứu và các van
đề khác có liên quan tới luận án
e Chương 2 Trình bày nội dung, kết quả nghiên cứu của phương
pháp tinh chỉnh bảng cum từ cho dịch máy thống kê Anh-Việt
e Chương 3 Trình bày nội dung, kết quả nghiên cứu của phương
pháp sinh tự động dữ liệu song ngữ để tăng cường, bổ sung thêm
dữ liệu huấn luyện cho tập dữ liệu song ngữ ban đầu
Trang 22Mở đầu §
e Chương 4 Trình bày nội dung, kết quả nghiên cứu của đề xuất
cải tiến chất lượng dữ liệu giả song ngữ được sinh tự động bởi
phương pháp được trình bày trong Chương 3.
Bồ cục của luận án được thể hiện như Hình 1.
Nội dung luận án
Một số kỹ thuật thích ứng miền trong
dịch máy thông kê Anh-Việt
Giải quyết bài toán — | Xa
(theo hai hướng tiếp cận) Ket luận
sinh tự động dữ liệu song ngữ
Hình 1 : Bồ cục của luận án
Trang 23Chương 1
TONG QUAN VỀ VAN ĐỀ NGHIÊN
CỨU
Chương này trình bày tổng quan về các vấn đề nghiên cứu trong
luận án, bao gồm: dịch máy (Machine Translation - MT), dịch máy
thống kê (Statistical Machine Translation - SMT), dịch máy mạng
nơ-ron (Neural Machine Translation), mô hình dịch máy thống kê dựa
trên cụm từ (Phrase-based SMT), bài toán thích ứng miền trong dịch
máy; Dưa ra phân tích, đánh giá các công trình nghiên cứu liên quan,
các van đề còn tồn tại mà luận án sẽ tập trung giải quyết và xác định
nội dung nghiên cứu của luận án ở phần cuối chương
1.1 Tong quan về dịch máy
1.1.1 Khái niệm dich máy
Theo từ điển Cambridge, dịch máy (Machine Translation - MT) là
quá trình chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác
bằng máy tính
Trang 24Chương 1 Tổng quan vé van đề nghiên cứu 10
Ngoài ra, khái niệm dịch máy cũng được nhiều tác giả đã định
nghĩa, tuy có một vài điểm khác biệt nhưng hầu hết đều tương đương với định nghĩa sau: dịch máy là một mô hình sử dụng máy tính để chuyển đổi văn bản (hoặc âm thanh) từ một ngôn ngữ tự nhiên này
sang một ngôn ngữ tự nhiên khác.
Ngôn ngữ của văn bản (hoặc âm thanh) cần dịch còn gọi là ngôn
ngữ nguồn, ngôn ngữ của bản dịch được gọi là ngôn ngữ đích Tổng quan của bài toán dịch máy có thể mô tả như Hình 1.1.
Âm thanh
Hình ảnh
Tín hiệu
Văn bản
Hình 1.1 : Tong quan bài toán dịch may
1.1.2 Lich sử dich may
Những ý tưởng đầu tiên của dịch máy xuất hiện từ thế ky 17,
Descartes và Leibniz đã đề xuất các lý thuyết để tạo ra những bộ từ điển bằng cách sử dụng các mã số học chung Quá trình phát triển,
lĩnh vực dịch máy đã có nhiều thăng tram Nhìn chung, các cách tiếp
cận ban đầu đối dịch máy là dịch trực tiếp dựa vào các luật và các
từ điển dịch, sau đó là phương pháp dịch chuyển đổi và phương pháp
dịch dựa trên tri thức như dịch liên ngữ Tam giác Vauquois như Hình
Trang 25Chương 1 Tổng quan vé van đề nghiên cứu 11
1.2 được tác giả Bernard Vauquois [124] trình bày, mô tả các phương
Hình 1.2 : Tam giác Vauquois mô tả các phương pháp dịch
Hình 1.2 mô tả quá trình dịch văn bản từ ngôn ngữ nguồn sangngôn ngữ đích theo ba phương pháp khác nhau:
1 Phương pháp dịch trực tiếp, hệ thống sẽ dịch bằng cách thay
thế đơn giản những từ hoặc cụm từ trong ngôn ngữ nguồn bằngnhững từ hoặc cụm từ tương ứng trong ngôn ngữ đích.
2 Phương pháp dịch chuyển đổi, hệ thống thực hiện theo ba bước,
đầu tiên là chuyển đổi văn bản ở ngôn ngữ nguồn thành một dạng biểu diễn trung gian (thường là cây phân tích cú pháp), sau đó
thực hiện chuyển các biểu diễn trung gian này thành dạng văn
bản tương ứng trong ngôn ngữ đích, cuối cùng là sinh ra văn bản
ở ngôn ngữ đích.
3 Phương pháp dịch liên ngữ, hệ thống thực hiện chuyển đổi văn
bản từ ngôn ngữ nguồn sang văn ban 6 ngôn ngữ trung gian trước
Trang 26Chương 1 Tổng quan vé van đề nghiên cứu 12
khi thực hiện chuyển văn bản từ ngôn ngữ trung gian thành văn
bản ở ngôn ngữ đích.
Đầu năm 1990, một bước ngoặt lớn là có sự quan tâm nhiều hơncủa nhiều nhà nghiên cứu trong dịch máy dựa vào dit liệu Với sự phát
triển mạnh mẽ của Internet, nhu cầu trao đổi thông tin bùng no cùng
với sự tích lũy kiến thức về mặt ngôn ngữ, sức mạnh của máy tínhtăng lên và có nhiều kết quả mới về mặt lý thuyết, cho nên việc phát
triển các mô hình dịch tự động trở nên rất cần thiết.
Dịch dựa trên ví dụ là một trong những phương pháp tiếp cận sớmđược đưa ra trong dịch máy theo hướng dữ liệu [107] Nó cỗ gắng tim
một câu tương tự với đầu vào đã cho trong ví dụ được dịch trước đó
Sau đó, tạo ra những thay đổi thích hợp cho bản dịch được lựa chọn.
Phương pháp này nhanh hơn dựa trên luật nhưng không đảm bảo bản
dịch tốt hơn
Do sự gia tăng sức mạnh tính toán và khả năng tiếp cận các dữ liệu
lớn, phương pháp thống kê đã được đề xuất để thực hiện phân tích
sâu hơn so với các phương pháp tiếp cận dựa trên ví dụ Năm 1990,
Brown và cộng sự đã trình bày mô hình toán học của dịch máy thống
kê [97], tới năm 1993 thì các tác giả giới thiệu năm mô hình thống kê
được gọi là mô hình IBM và đưa ra các thuật toán để ước lượng các
tham số của mô hình [S] Mặc dù nhóm tác giả nghiên cứu trên mộtnền tảng toán học vững chắc nhưng vẫn chưa có nhiều nghiên cứu tậptrung cho dịch máy.
Năm 1999, nhiều nhà nghiên cứu đã cùng nhau cài đặt lại các môhình IBM tại hội thao mùa hè tại Dai học Johns Hopkins, nhóm tácgiả Al-Onaizan và cộng sự trong sáu tuần tại hội thảo đã cài đặt công
cụ dịch máy thống kê (SMT) (gọi là EGYPT) [3] và công cụ GIZA [90]
Trang 27Chương 1 Tổng quan vé van đề nghiên cứu 13
được đề cập trong báo cáo kỹ thuật cho việc gióng từ Franz Och sau
đó mở rộng các công cụ gióng từ thành GIZA++ [57], bổ sung thêm
nhiều tính năng cho việc học mô hình dịch thống kê từ dữ liệu văn bản
va được cài đặt như trong mô tả của Brown và cộng sự năm 1993 [8],
của Vogel và cộng sự năm 1996 [125] và của Och năm 2000 [90, 91].
Từ năm 2013, dịch máy phát triển sang một giai đoạn mới, bắt đầu
từ đề xuất kiến trúc mã hóa - giải mã (Encoder - Decoder) cho môhình dịch máy mạng nơ-ron [59], hiện nay kiến trúc Transformer [123]
được đánh giá là hiện đại, tiên tiến nhất (State-Of-The-Art) Với các
phương pháp dịch dựa trên mạng nơ-ron, kỹ thuật khai phá tri thức
từ kho ngữ liệu được thực hiện nhờ khả năng tính toán và lưu trữ của
máy tính, điều này đã làm thay đổi hoàn toàn các phương pháp dịch
truyền thống, mang lại chất lượng cao cho các mô hình dịch Một số
hệ dịch đã được ứng dụng phổ biến, tiêu biểu như hệ dịch tự động Google translate!, Bing Microsoft Translator 2.
1.2 Dịch máy thống kê
Dịch máy thống kê (SMT- Statistical Machine Translation) là một
phương pháp tiếp cận của dịch máy dựa trên phân tích thống kê tập
dữ liệu các cặp câu từ hai ngôn ngữ (ngữ liệu song ngữ).
Các phương pháp tiếp cận thống kê tương phản với các phươngpháp tiếp cận dựa trên luật trong dịch máy Thay vì xây dựng các từ
điển, các quy luật chuyển đổi bằng tay, hay ghi nhớ các đoạn giống
nhau từ kho ngữ liệu, dịch máy thống kê tự động xây dựng các từ
điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ
1 https://translate.google.com/
2 https://www.bing.com/translator
Trang 28Chương 1 Tổng quan vé van đề nghiên cứu 14
liệu Chính vì vậy, dịch máy dựa vào thống kê có tính linh hoạt cao,
áp dụng được cho bất kỳ cặp ngôn ngữ nào
1.2.1 Cơ sở toán hoc
Cơ sở toán học của dịch máy thống kê được Brown và cộng sự đề
xuất năm 1990 [97], hoạt động được mô tả như Hình 1.3
Hệ thông dịch máy thông kê
Hình 1.3 : Kiến trúc cơ bản của mô hình dịch máy thống kê
Bài toán dịch máy thống kê có thể được mô tả như sau: gọi 5 là câu
trong ngôn ngữ nguồn và T là câu trong ngôn ngữ dich, cặp (S, 7) là
cặp câu tương đương dịch Ứng với mỗi câu S$ được cho bat kỳ, ta đi
tìm câu 7' hợp lý nhất (là câu được dịch gần đúng nhất của câu nguồnsang câu đích), nghĩa là ta phải đi tìm xác suất P(S, 7) cực đại Vì S$
và 7' phụ thuộc lẫn nhau nên theo lý thuyết xác suất có điều kiện:
P(S,T) = P(S) + P(T | S) (1.1)
Trang 29Chương 1 Tổng quan vé van đề nghiên cứu 15
Khi đó bai toán dịch trở thành:
Trong công thức 1.3, mau số không phụ thuộc vào T, do đó bài
toán dịch máy trở thành tìm 7 để P(T)P(S | T) đạt giá trị lớn nhất.
Gọi P(T) là xác suất mô hình ngôn ngữ và P( | 7) là xác suất môhình dịch, khi đó một hệ thống dịch máy thống kê đòi hỏi một phương
pháp tính toán xác suất mô hình ngôn ngữ, một phương pháp tính
toán xác suất mô hình dịch và một phương pháp tìm kiếm câu đích 7
mà có giá trị P(T)P(S | 7) là lớn nhất
1.2.2 Dich máy thống kê dựa vào từ
Những năm 1990, IBM [8] đã đề xuất giải thuật cho năm mô hìnhdịch thống kê dựa vào từ (word-based) là IBM1, IBM2, IBM3, IBM4,IBM5 Các mô hình này được sử dụng rộng rãi trong các công trình
nghiên cứu về dịch máy thống kê sau này Phương pháp này, đơn vị
cơ sở được dịch là các từ Số từ trong câu được dịch là khác nhau phụthuộc vào các từ ghép, hình thái từ và thành ngữ Tuy nhiên, tùy vào
đặc điểm của ngôn ngữ, như cặp ngôn ngữ Anh-Việt cũng giống với
cặp ngôn ngữ Anh-Trung, Anh-Nhật, , hệ dịch phải đối mặt với khó
Trang 30Chương 1 Tổng quan vé van đề nghiên cứu 16
khăn trong quá trình sắp xếp trật tự của các từ tiếng Anh tương ứng
khi dịch sang câu tiếng Việt Trong quá trình dịch, kết nối từ tiếng Anh
tương ứng với từ tiếng Việt có thể là 1-1, 1-không, 1-nhiều, nhiéu-1
hoặc nhiều-nhiều Mô hình dịch dựa trên đơn vị từ không cho kết quả
tốt trong trường hợp kết nối nhiều-1, 1-nhiều hoặc nhiều-nhiều với trật
từ các từ trong câu tương ứng là khác nhau Khi đó, phân tích dựa
trên đơn vị cụm từ (phrase-based) được đề xuất để giải quyết vấn đề
này.
1.2.3 Dịch máy thống kê dựa vào cum từ
Mô hình này là mở rộng của mô hình dịch máy trên cơ sở từ, nhằmgiải quyết những hạn chế của mô hình dịch máy thống kê trên cơ sở
từ bang cách dịch các cum từ (phrase-based) [63] Trong đó độ dài các
cụm từ nguồn và cụm từ đích có thể khác nhau Khái niệm cụm từ ở
đây khác với cụm từ trong ngôn ngữ học, nó là một chuỗi các từ liền
nhau, được xác định bằng cách sử dụng các phương pháp thống kê để
trích rút từ các cặp câu song ngữ.
Trong [63], Koehn đã mô tả một cách khái quát quá trình dịch
thống kê dựa trên cụm từ như sau:
— Câu nguồn được tách thành các cụm từ
— Mỗi cum từ được dịch sang ngôn ngữ đích.
— Các cụm từ đã dịch được sắp xếp theo một thứ tự phù hợp
Ví dụ, Hình 1.4 minh họa quá trình dịch thống kê dựa trên đơn
vị cụm từ Ở đây, đầu vào là một câu tiếng Anh được tách thành các
cụm từ riêng biệt, mỗi cụm từ này sau đó được dịch lần lượt sang ngôn
ngữ đích (ở day là tiếng Việt), các cum từ này có độ dài có thể khác
Trang 31Chương 1 Tổng quan vé van đề nghiên cứu 17
nhau, sau đó thứ tự các cụm từ ở phía ngôn ngữ đích được sắp xếp lại
(reorder) cho phù hợp.
Input sentence | am living in a peaceful country
Output sentence | Tôi đang sống tại một thanh_ bình đất nước
Sentence is reordered | = Tdi dang sống tai một đất nước thanh_bình
Hình 1.4 : Ví dụ minh họa quá trình dịch dựa vào cụm ttt
Trước khi dịch máy mạng nơ-ron [69, 76, 80, 106, 116] phát triển,
phương pháp dịch máy thống kê dựa vào cụm từ đã cho thấy đây
là phương pháp dịch máy tốt nhất được biết đến, chiếm ưu thế trong
nghiên cứu cũng như trong thương mại vì hiệu quả của nó Mặc dù chất
lượng tốt hơn phương pháp dịch thống kê dựa trên đơn vị từ nhưng
phương pháp dịch thống kê dựa trên cụm từ vẫn chưa giải quyết được
một số vấn đề như ngữ pháp, khả năng lựa chọn cụm từ với tính chính
xác cao, dịch tên riêng, từ vựng có hạn [100].
1.3 Dịch máy mạng nơ-ron
Dịch máy mạng no-ron (Neural Machine Translation - NMT) là phương pháp sử dụng mang nơ-ron nhân tao (Artificial Neural Network
- NN) để giải quyết bài toán dịch máy (Machine Translation - MT).
Như trình bay ở trên, phương pháp dich theo cụm từ (phrase-based)
hoạt động theo cách chia nhỏ câu thành các cụm từ riêng biệt và tiếnhành dịch từng cụm từ một, sau đó các cụm từ này được ghép lại thành
một câu hoàn chỉnh, phương pháp này cho kết quả còn nhiều hạn chế
do cách tiếp cận không thực sự giống với cách mà con người sử dụng
Trang 32Chương 1 Tổng quan vé van đề nghiên cứu 18
trong dịch thuật, đó là đọc toàn bộ câu nguồn, hiểu ý nghĩa của toàn
bộ câu sau đó mới đưa ra câu dịch tương ứng Khác với phương pháp
dịch theo cụm, phương pháp dịch máy mạng nơ-ron tiếp cận hoàn toàntheo cách mà con người dịch, các kết quả cho thấy đây là cách tiếp cận
tốt hơn các phương pháp trước đây, chất lượng dịch có thể gần bằng
hoặc ngang với con người đối với một số cặp ngôn ngữ phổ biến và có
sự tương đồng cao như tiếng Anh - tiếng Pháp, tiếng Anh - tiếng Tây
Ban Nha [132].
Nam 2014, Sutskever và cộng sự đã dé xuất mô hình Seq2Seq
(Se-quence to Se(Se-quence) cho dịch máy mạng nơ-ron [119] Theo đó, một
câu đầu vào sẽ được dịch bằng cách đưa vào một bộ mã hóa và nối
tiếp với một bộ giải mã để dịch ra một câu ở ngôn ngữ khác Mô
hình này thực hiện mã hóa một chuỗi từ từ ngôn ngữ nguồn vào một
véc tơ liên tục (Continuous Vector) sử dụng mạng nơ-ron tích chập
(Convolutional Neural Network) và sau đó sử dụng mạng nơ-ron hồi
quy (Recurrent Neural Network) như là bộ giải mã để chuyển véc tơ
mã hóa trong quá trình mã hóa thành chuỗi từ ở ngôn ngữ đích Công
trình này được xem như mô hình dịch máy mạng nơ-ron đầu tiên Từ
những thành quả bước đầu đó, nhiều kiến trúc dịch máy mạng nơ-ron
đã được đề xuất và có những kết quả hứa hẹn, cho thấy sức mạnh vượttrội của phương pháp dịch mấy mạng nơ-ron so với các phương pháp
dịch máy truyền thống trước đây
1.3.1 Kiến trúc Encoder-Decoder
Đây là kiến trúc đầu tiên của mô hình dịch máy mạng nơ-ron, đặtnền móng cho các mô hình hiệu quả sau này Như đã mô tả ở trên,
dịch máy NMT bắt chước cách dịch của con người, gồm hai bước: đầu
tiên là đọc toàn bộ nội dung câu ở ngôn ngữ nguồn để hiểu ý nghĩa
Trang 33Chương 1 Tổng quan vé van đề nghiên cứu 19
rồi sau đó mới dịch câu đó sang ngôn ngữ mong muốn Vì thế, kiến
trúc đầu tiên của dịch máy NMT gồm hai thành phần là bộ mã hóa
(Encoder) và bộ giải mã (Decoder) [119], được mô tả như Hình 1.5 Bộ
mã hóa và bộ giải mã có thể được xây dựng từ những kiến trúc mạng
như RNN (Recurrent Neural Network) [105], LSTM (Long Short-term Memory) [47] hoặc GRU (Gate Recurrent Unit) [12].
0.5
lam a student Tôi là sinh viên
Hình 1.5 : Kiến trúc mã hóa - giải mã (Encoder - Decoder)
Như mô tả trong Hình 1.5, đầu vào của bộ mã hóa (encoder) là một
câu, bộ này thực hiện mã hóa toàn bộ câu nguồn và đầu ra là một véc
tơ biểu diễn ý nghĩa của câu Sau đó, bộ giải mã (decoder) sử dụng véc tơ này làm đầu vào để sinh câu dịch tương ứng trong ngôn ngữ đích Quá trình này được thể hiện chỉ tiết như trong Hình 1.6.
Hình 1.6 mô tả quá trình mã hóa và giải mã, mô hình này đọc mộtcâu “J am a student” ở ngôn ngữ nguồn và sinh ra câu dịch ”79 là sinh
vién” 6 ngôn ngữ dich.
O đây, bộ mã hóa và bộ giải mã đều được cấu tạo từ hai lớp RNN
cùng chiều chồng lên nhau, ký hiệu < s > và < /s > sử dụng để báo
hiệu bắt đầu và kết thúc quá trình giải mã Ngoài hai lớp RNN chồng
lên nhau ở bộ mã hóa và giải mã, còn có ba lớp mạng nơ-ron khác
gồm:
1 Một lớp embedding ở bộ mã hóa.
Trang 34Chương 1 Tổng quan vé van đề nghiên cứu 20
target output words
Hình 1.6 : Kiến trúc tổng quát của dich máy mang nơ-ron
2 Một lớp embedding và một lớp projection ở bộ giải mã (hai lớp
này dùng chung bộ trọng số, chỉ ngược chiều)
Trong đó, lớp embedding có vai trò chuyển một từ trong không gian
từ điển (vocab) của ngôn ngữ sang không gian véc tơ (có chiều tương
ứng với không gian của véc tơ ngữ cảnh), lớp projection ở bộ giải mã
có vai trò ngược lại, chuyển một từ thuộc không gian véc tơ sang không gian từ điển (vocab) của ngôn ngữ.
Có thể thấy, trong không gian véc tơ này thì bộ mã hóa đóng vai
trò nén ngữ nghĩa của một câu (tập hợp các từ thuộc không gian véc
tơ) của ngôn ngữ nguồn thành một véc tơ ngữ cảnh và chuyển sang bộ
giải mã để tiến hành giải nén véc tơ ngữ cảnh này thành một câu (tập
hợp các từ thuộc không gian véc tơ) của ngôn ngữ đích Để cho thuận tiện trong việc tính toán và chuyển đổi qua lại thì các chiều không gian
Trang 35Chương 1 Tổng quan vé van đề nghiên cứu 21
vóc tơ này sẽ đều có chung chiều là chiều của véc tơ ngữ cảnh (kích
thước của mạng RNN).
Mặc dù RNN ban đầu được đề xuất để phù hợp với các bài toán
theo trình tự thời gian (time-step) nhưng với những quãng quá dài thì
khả năng nắm bắt thông tin của RNN ở các quãng xa vẫn còn hạnchế Vì vậy, kiến trúc LSTM ra đời đã phần nào khắc phục được sự
mất mát thông tin theo thời gian dài ở RNN cơ bản
1.3.2 Kiến trúc Transformer
Mạng nơ-ron hồi quy (RNN) hiện nay đang là phần cốt lõi của các
mô hình dịch máy cũng như ứng dụng cho nhiều bài toán khác như môhình ngôn ngữ, các mô hình hỏi dap, Đặc biệt khi tích hợp thêm cơ
chế attention, các mô hình nơ-ron đã cho những kết quả vượt trội sovới các mô hình thống kê truyền thống Tuy nhiên, vẫn còn một số hạn
chế đang kể trong các mô hình này Điển hình như mạng RNN thường
xử lý ngôn ngữ theo thứ tự tuần tự từ trái qua phải hoặc từ phải qua
trái và tại mỗi thời điểm chỉ đọc một từ, điều này làm mô hình phải
xử lý qua nhiều bước để có thể đưa ra quyết định, dẫn tới việc không thể mô hình hóa được quan hệ của các từ ở xa nhau Hơn nữa, mô
hình RNN cũng khó có thể thực hiện việc song song hóa tính toán,
dẫn đến thời gian huấn luyện các mô hình lâu hơn Trong phần này,
luận án giới thiệu một mô hình mạng nơ-ron khác, gọi là Transformer
được đề xuất bởi nhóm nghiên cứu của Google AI vào năm 2017 [123]
có thể khắc phục được hai hạn chế đã kể trên của mạng RNN, các
thực nghiệm cũng chỉ ra rằng, mô hình Transformer cho kết quả tốthơn mô hình mã hóa-giải mã với attention cho một số cặp ngôn ngữ,
ví dụ như Anh-Đức, Anh-Pháp
Trang 36Chương 1 Tổng quan vé van đề nghiên cứu 22
Attention.
nhiéu phan
Vector nhúng Vector nhung
dau vao dau ra
Đâu vào Đầu ra
Hình 1.7 : Kiến trúc Transformer
Kiến trúc Transformer có thể coi như là một mô hình mở rộng của
mô hình mã hóa - giải mã với attention Nhưng thay vì sử dụng mạng
hồi quy RNN, mô hình này sử dụng cơ chế self-attention để có thể
song song hóa việc tính toán, làm giảm thời gian huấn luyện và môhình hóa được mối quan hệ giữa các từ mà không cần quan tâm đến
vị trí của chúng trong câu là xa hay gần nhau Hai thành phần mã
hóa và giải mã trong mô hình Transformer đều sử dụng self-attention
nhiều tầng, mã hóa vị trí, các tầng kết nối với nhau toàn bộ (fully
Trang 37Chương 1 Tổng quan vé van đề nghiên cứu 23
connected) như thể hiện trong Hình 1.7.
Về cơ bản, bộ mã hóa gồm N tầng giống nhau xếp chồng lên nhau,mỗi tầng có hai tầng con Tầng con thứ nhất là cơ chế self-attention
nhiều phan (multi-head), tang con thứ hai là mạng truyền thang day
đủ (fully connected feed-forward) Ngoài ra, có thể thêm kĩ thuật kết nối dư (residual connection), theo sau bởi một tầng chuẩn hóa (nor-
malization layer) Bộ giải mã cũng gồm tầng giống nhau xếp chồng.Tại mỗi tầng, bên cạnh hai tang con giống như bộ mã hóa, bộ giải mã
chèn thêm một tầng con ở giữa, cái thể hiện multi-head attention để
có thể mô hình hóa được các thông tin cần thiết của câu nguồn tại
mỗi thời điểm giải mã.
1.4 Những thách thức trong dịch may
Hiện nay, mặc dù các mô hình dịch máy đã có nhiều tiến bộ, nhưng
vẫn còn nhiều thách thức cần được giải quyết
— Hạn chế tài nguyên Một trong những vấn đề lớn nhất trong
các mô hình dịch máy gặp phải là việc thiếu hụt đữ liệu song ngữ
Dữ liệu này thông thường được tạo thủ công hoặc thu thập tự
động trên internet nhưng vẫn không thể đủ để huấn luyện các mô
hình dịch cho kết quả tốt Hơn nữa, các mô hình dịch thường chokết quả tốt trên miền dữ liệu được huấn luyện, nếu đem dich cho
dữ liệu thuộc miền khác, kết quả sẽ không tốt Ví dụ, đữ liệu songngữ được thu thập từ các trang báo song ngữ, chủ đề thường về
thể thao, giải trí, thì mô hình dịch được huấn luyện trên dữ liệu
này sẽ cho kết quả không tốt khi dịch các câu thuộc miền phápluật, y tế
Trang 38Chương 1 Tổng quan vé van đề nghiên cứu 24
— Tw nằm ngoài kho từ vựng (unknown words) Một van dé
quan trọng khác mà các mô hình dịch máy phải đối mặt là việcgiải quyết những từ nằm ngoài kho từ vựng Đó là những từ không
xuất hiện trong dữ liệu huấn luyện hoặc xuất hiện rất ít, những
từ này thường là tên riêng, các thuật ngữ hay từ đi mượn, các từ
này còn được gọi là các từ hiếm Các mô hình dịch hiện tại khigặp những từ hiếm này thường giữ nguyên không dịch dẫn đếnviệc câu dịch mất từ và ảnh hưởng đến việc dự đoán các từ dịch
Sau này.
Đối với dịch máy thống kê dựa vào cụm thì trật tự từ (word orders)cũng là một thách thức do các ngôn ngữ khác nhau thường có trật
tự từ khác nhau Ví dụ, một số cặp ngôn ngữ có thứ tự trong câu
là chủ ngữ - động từ - tân ngữ (tiếng Anh) nhưng trong ngônngữ khác lại là chủ ngữ - tân ngữ - động từ (tiếng Nhật) Việc
khác nhau giữa trật tự các từ trong câu nguồn và câu đích ảnhhưởng rất nhiều đến chất lượng của mô hình dịch máy Khi mô
hình dịch không thể học được việc ánh xạ tương ứng giữa trật tự
từ ở 2 ngôn ngữ, câu dịch sinh ra sẽ khiến người đọc khó hiểu.
Ngoài ra, dịch máy mạng nơ-ron vẫn còn một số thách thức đã được
Koehn và cộng sự chỉ ra năm 2017 [101] như:
— Rất khó xác định được lý do tại sao mô hình lại cho ra một bản
dịch cụ thể vì quá trình giải mã, dự đoán được diễn ra như trong hộp đen, do đó rất khó để xác định được nguyên nhân cụ thể
khiến bản dịch sai, dịch không sát nghĩa
— Các lỗi được sinh ra bởi dịch máy mạng nơ-ron đôi khi khá thất
thường, hệ dịch có thể chỉ sinh ra các từ, cụm từ ở đầu ra trôi
chảy, hợp ngữ cảnh nhưng lại ít liên quan đến câu nguồn
Trang 39Chương 1 Tổng quan vé van đề nghiên cứu 25
— Huấn luyện mô hình cần nhiều dữ liệu song ngữ để huấn luyện
hơn so dịch thống kê dựa vào cụm từ
— Cần nhiều thời gian để triển khai, huấn luyện hệ dịch mạng nơ-ron
do đòi hỏi phần cứng chuyên dụng
1.5 Đánh giá chất lượng mô hình dịch máy
Đánh giá chất lượng dịch của mô hình dịch máy là bài toán gắn
liền với lịch sử phát triển của dịch máy Ở đây, chất lượng dịch được
hiểu là mức hoàn thiện của bản dịch khi dịch một văn bản từ ngôn
ngữ nguồn sang ngôn ngữ đích Đã có nhiều phương pháp khác nhau
được nghiên cứu để đánh giá chất lượng của mô hình dịch, các phương pháp này có thể nhóm thành hai loại chính là phương pháp đánh giá
chủ quan (subjective evaluation) và phương pháp đánh giá khách quan
(objection evaluation).
1.5.1 Phương pháp đánh giá chủ quan
Phương pháp đánh giá chủ quan được thực hiện trực tiếp bởi con
người, đánh giá theo thang điểm cho các tiêu chí được xây dựng sẵn.
Phương pháp đánh giá chủ quan phụ thuộc vào khả năng của chuyên
gia đánh giá, cho kết quả tin cậy nhưng mất rất nhiều thời gian và chỉ
phí thực hiện cao.
1.5.2 Phương pháp đánh giá khách quan
Phương pháp đánh giá khách quan (còn gọi là đánh giá tự động)
sử dụng các chương trình thay cho con người để đánh giá Các chương
trình sẽ so khớp hoặc tính tỉ lệ lỗi của kết quả dịch từ mô hình so với
câu dịch tham khảo có sẵn (reference) Phương pháp đánh giá tự động
Trang 40Chương 1 Tổng quan vé van đề nghiên cứu 26
mặc dù cho kết quả kém tin cậy hơn so với phương pháp đánh giá chủ
quan nhưng được sử dụng rộng rãi vì cải thiện được những nhược điểm
của phương pháp đánh giá chủ quan như chi phi cao, tốc độ thực hiện
chậm, không thể tái sử dụng.
Có nhiều độ đo đã được nghiên cứu và phát triển để đánh giá
tự động chất lượng dịch của mô hình dịch máy, các độ đo có thể kể
tên như: BLEU (BiLingual Evaluation Understudy) [61], SacreBLEU
[104], WER (Word Error Rate) [68], PER (Position-independent word
Error Rate) [121], TER (Translation Error Rate) [74] Trong đó, độ
do BLEU được sử dung phổ biến nhất nên trong luận án này, tác giả chọn độ đo này để đánh giá chất lượng dịch của các mô hình.
BLEU là một phương pháp dùng để đánh giá chất lượng bản dịch
được đề xuất bởi IBM tại hội nghị ACL ở Philadelphie vào tháng
7-2001 [61] Ý tưởng chính của phương pháp là so sánh kết quả bản dich
tự động bằng máy với một bản dịch chuẩn dùng làm bản tham khảo.
Việc so sánh được thực hiện thông qua việc thống kê sự trùng khớp
của các từ trong hai bản dịch có tính đến thứ tự của chúng trong câu(phương pháp n-grams theo từ) [49] Phương pháp này dựa trên hệ số
tương quan giữa bản dịch tự động và bản dịch tham khảo được thực
hiện bởi con người để đánh giá chất lượng của một hệ thống dịch Điểm
BLEU được tính theo công thức 1.4.