Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng ViệtNghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN VĂN BÌNH
NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN
CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng, 12/2021
Trang 2ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN VĂN BÌNH
NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN
CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
1 PGS.TS Huỳnh Công Pháp
2 GS Vincent Berment
Đà Nẵng, 12/2021
Trang 3LỜI CAM ĐOAN
Tôi tên là Nguyễn Văn Bình Tôi xin cam đoan đây là công trình nghiên cứu
do tôi thực hiện Các nội dung và kết quả nghiên cứu được trình bày trong Luận án
là trung thực và mọi tham khảo đều được trích dẫn, chỉ rõ nguồn tham khảo theođúng quy định
Tác giả
Nguyễn Văn Bình
Trang 4MỤC LỤC
LỜI CAM ĐOAN 3
MỤC LỤC 4
DANH MỤC CÁC TỪ VIẾT TẮT 7
DANH MỤC BẢNG BIỂU 8
DANH MỤC HÌNH VẼ 10
MỞ ĐẦU 13
1 Đặt vấn đề 13
2 Mục tiêu nghiên cứu 14
3 Đối tượng và phạm vi nghiên cứu 14
4 Phương pháp nghiên cứu 15
5 Bố cục của luận án 15
6 Đóng góp chính của luận án 16
TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 19
1.1.Giới thiệu 19
1.2.Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động 21
Các phương pháp dịch tự động 21
Kho ngữ liệu trong dịch tự động 28
Đánh giá chất lượng hệ thống dịch tự động 33
1.3.Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt 43
Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch 43 Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt 45
1.4.Thực trạng chất lượng dịch tự động tiếng Việt 48
1.5.Kết luận Chương 1 52
Trang 5GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG
TIẾNG VIỆT 53
2.1.Giới thiệu 53
2.2.Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt 54
Tổ chức đánh giá 55
Nhận xét, đánh giá 60
Đề xuất giải pháp đánh giá chất lượng dựa trên quá trình hiệu đính bản dịch 61
2.3.Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn 69
Tổng quan 69
Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu 70
Giải pháp nâng cao chất lượng kho ngữ liệu 71
Đánh giá vai trò của kho ngữ liệu đối với kết quả hệ thống dịch 87
2.4.Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mô hình máy học mạng nơ ron 91
Tổng quan 91
Giải pháp cải tiến chất lượng dịch tiếng Việt bằng mô hình học máy mạng nơ ron 91
Kết quả xây dựng hệ thống dịch 102
Giải pháp xây dựng hệ thống dịch ngữ nghĩa 104
2.5.Kết luận Chương 2 109
HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR 111
3.1.Giới thiệu 111
3.2.Xây dựng kho ngữ liệu 112
Quy trình các bước triển khai 112
Xây dựng kho ngữ liệu song ngữ số lượng lớn 113
Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa 117
Trang 6Xây dựng kho ngữ liệu ontology 118
3.3.Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản pháp luật (VIKI Translator) 122
Quy trình các bước triển khai 122
Tổ chức huấn luyện mô hình và điều chỉnh tham số mô hình 122
Xây dựng các mô đun của hệ thống dịch 124
3.4.Đánh giá kết quả 125
Kết quả thực nghiệm 125
Đánh giá của người dùng 128
3.5.Kết luận Chương 3 130
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 131
1 Kết luận 131
2 Hướng phát triển 132
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 133
TÀI LIỆU THAM KHẢO 135
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT
ALPAC Automatic Language Processing
mạng nơ ron của Google
HTER Human Translation Error Rate Chỉ số lỗi khi dịch bởi con
người
NIST National Institute of Standards and
Technology
Chỉ số đánh giá chất lượng bản dịch NIST
NMT Neural Network Translation Dịch máy sử dụng mạng nơ ron
SMT Statistical Machine Translation Dịch máy thống kê
TBL Transformation-Based Learning Dịch máy chuyển đổi
WMT Workshop on Statistical Machine
Translation
Hội thảo về dịch máy thống kê
Trang 8DANH MỤC BẢNG BIỂU
Bảng 1.1 Chi tiết kho ngữ liệu EuroMatrix 30
Bảng 1.2 Tổng hợp một số kho ngữ liệu 31
Bảng 1.3 Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy 36
Bảng 1.4 Mô phỏng kết quả đánh giá bằng hình thức xếp hạng 37
Bảng 1.5 Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa trên MOSES 43
Bảng 1.6 So sánh kết quả dịch sử dụng MOSES và hệ thống Google, Microsoft 44
Bảng 1.7 Kết quả đánh giá trên tập dữ liệu TED tst2015 của IWSLT 2015 44
Bảng 1.8 Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian 45
Bảng 1.9 Ví dụ về một số câu hệ thống dịch sai nghĩa 50
Bảng 2.1 Thông tin về dữ liệu phục vụ đánh giá 55
Bảng 2.2 Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt 57
Bảng 2.3 Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh 57
Bảng 2.4 Kết quả đánh giá bằng phương pháp chủ quan 59
Bảng 2.5 Trung bình các chỉ số trên 5 bộ dữ liệu 67
Bảng 2.6 Kết quả sau khi hiệu chỉnh bản dịch 67
Bảng 2.7 Bảng tóm tắt đặc trưng các kho ngữ liệu phổ biến 72
Bảng 2.8 Số liệu kho ngữ liệu sử dụng để đánh giá sự ảnh hưởng đến chất lượng 89 Bảng 2.9 Chất lượng các mô hình dịch nhận được 90
Bảng 2.10 Mô tả dữ liệu phục vụ xây dựng hệ thống dịch 103
Bảng 2.11 So sánh chất lượng hệ thống dịch theo các phương pháp khác nhau 104
Bảng 3.1 Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng 114
Bảng 3.2 Tổng hợp quy mô kho ngữ liệu của một số công bố 115
Trang 9Bảng 3.3 Kết quả đánh giá và so sánh chất lượng hệ thống dịch Anh-Việt 125Bảng 3.4 So sánh điểm BLEU đạt được ở một số nghiên cứu xây dựng hệ thống dịch tiếng Việt 126Bảng 3.5 So sánh số lượng câu dịch đúng 127Bảng 3.6 Ví dụ về các câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng 127
Trang 10DANH MỤC HÌNH VẼ
Hình 1.1 Tổng quan bài toán dịch tự động 19
Hình 1.2 Mô hình tổng quát của phương pháp dịch dựa trên ví dụ 22
Hình 1.3 Mô hình hóa phương pháp dịch thống kê 25
Hình 1.4 Một ánh xạ giữa các factor trong ngôn ngữ nguồn và ngôn ngữ đích 27
Hình 1 5 Tích hợp thêm các lớp thông tin về lemma, POS vào dữ liệu huấn luyện27 Hình 1.6 Giao diện của phần mềm dịch EV-Shuttle và Cồ Việt 49
Hình 2.1 Hai yếu tố then chốt của hệ thống dịch tự động: Dữ liệu và Phương pháp dịch 53
Hình 2.2 Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt 55
Hình 2.3 Chương trình hỗ trợ trích xuất kết quả dịch từ các hệ thống 56
Hình 2.4 Biểu đồ so sánh kết quả đánh giá bằng phương pháp chủ quan 60
Hình 2.5 Chương trình tính chỉ số Tpe và Ope thông qua quá trình hiệu đính 64
Hình 2.6 Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch 65
Hình 2.7 Sự tương đồng giữa Tpe, Ope và ED, WER 68
Hình 2.8 Chỉ số BLEU, NIST trước và sau khi hiệu chỉnh 69
Hình 2.9 Quan hệ giữa các dạng dữ liệu của các kho ngữ liệu 72
Hình 2.10 Định dạng chuẩn biểu diễn kho ngữ liệu 74
Hình 2.11 Giải pháp chuyển đổi các kho ngữ liệu 77
Hình 2.12 Giải pháp mở rộng ngôn ngữ cho kho ngữ liệu 77
Hình 2.13 Giải pháp thêm dữ liệu vào kho ngữ liệu 79
Hình 2.14 Hệ thống nhận dạng và phân loại thực thể danh từ riêng từ kho ngữ liệu 84
Trang 11Hình 2.15 Trích nội dung tập tin từ điển khi sử dụng mô hình dịch thống kê và dịch
sử dụng mạng nơ ron 85
Hình 2.16 Kết quả xác định ranh giới từ tiếng Việt 87
Hình 2.17 Quy trình đánh giá sự ảnh hưởng của số lượng kho ngữ liệu đến chất lượng bản dịch 89
Hình 2.18 So sánh tương quan giữa số lượng kho ngữ liệu và chất lượng hệ thống dịch 90
Hình 2.19 Mô hình dịch tự động sử dụng mạng nơ ron 92
Hình 2.20 Nguyên tắc hoạt động của mạng RNN 93
Hình 2.21 Minh họa bộ mã hóa – giải mã 94
Hình 2.22 Minh họa mô hình seq2seq dùng attention trong bài toán dịch máy [57] 95
Hình 2.23 Mô hình CBOW và Skip-gram trình bày tại [63] 98
Hình 2.24 Kiến trúc Bộ Mã hóa và Bộ Giải mã 99
Hình 2.25 Quá trình mã hóa câu nguồn để tạo véc tơ ngữ nghĩa 100
Hình 2.26 Minh họa Bộ Giảm mã thực hiện các bước dịch một câu 101
Hình 2.27 Quá trình giải mã tái tạo câu được dịch 102
Hình 2.28 Tích hợp cơ chế attention trong Bộ Giải mã 102
Hình 2.29 Mô hình hệ thống dịch ngữ nghĩa 107
Hình 2.30 Giao diện hệ thống dịch ngữ nghĩa 109
Hình 3.1 Quy trình triển khai thực nghiệm hệ thống dịch Anh - Việt 112
Hình 3.2 Sơ đồ trình tự các bước xây dựng kho ngữ liệu 112
Hình 3.3 Môi trường cho phép mở rộng kho ngữ liệu 118
Hình 3.4 Phân cấp các lớp và thuộc tính các lớp 119
Hình 3.5 Minh họa phân lớp dữ liệu 120
Trang 12Hình 3.6 Mô tả ngữ nghĩa của kho ngữ liệu 121
Hình 3.7 Sơ đồ trình tự các bước xây dựng hệ thống dịch 122
Hình 3.8 Mô hình tổ chức của hệ thống website dịch tự động 124
Hình 3.9 Giao diện hệ thống dịch tự động VIKI Translator 128
Hình 3.10 Biểu đồ số lượng người sử dụng hàng tháng (Nguồn: Google Analytics) 129
Hình 3.11 Thống kê tổng số người dùng (Nguồn: Google Analytics) 130
Hình 3.12 Thống kê số lượng liên kết (Nguồn: ahrefs.com) 130
Trang 13MỞ ĐẦU
Nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa, giữa mỗingười trong xã hội hiện đại ngày càng tăng làm cho việc dịch thuật trở nên quantrọng và cần thiết Dịch thuật sử dụng con người là công việc thủ công, tuy chấtlượng cao nhưng tốc độ chậm, năng suất thấp và giá thành cao mà không thể tái sửdụng Trong khi đó, một phiên dịch viên dù giỏi đến đâu cũng không thể cập nhậthết được một lượng thông tin khổng lồ trong nền kinh tế toàn cầu đang phát triểnnhư vũ bão Vì vậy, sử dụng hệ thống dịch tự động bằng máy tính để trợ giúp choquá trình dịch thuật là cần thiết
Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang lại hiệu quảvới chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài liệu lớn thuộc các lĩnh vựcchuyên môn khác nhau Khi đó các hệ dịch máy sẽ trở thành công cụ giúp conngười tiếp cận kho tri thức khổng lồ viết bằng các ngôn ngữ khác nhau
Những chương trình máy tính đầu tiên thực hiện công việc dịch tự động đãđược các nhà khoa học trên thế giới nghiên cứu và phát triển từ giữa thế kỷ 20 [1].Đối với dịch tự động từ tiếng Việt sang các ngôn ngữ khác, đã có nhiều nghiên cứu
và các sản phẩm ứng dụng được nhiều người dùng quan tâm và sử dụng, điển hình
là hệ thống dịch của Google, Microsoft, EVTran [2]… Các hệ thống này cho phépdịch tự động văn bản với một cặp ngôn ngữ đã chọn trước, ví dụ dịch từ tiếng Anhsang tiếng Việt hoặc ngược lại
Khi sử dụng một hệ thống dịch tự động, người dùng quan tâm đến chất lượngcủa bản dịch Tuy nhiên hiện nay chất lượng dịch tự động của giữa các cặp ngônngữ ít phổ biến (low-resource) khá thấp [3], kể cả dịch từ tiếng Việt sang tiếng Anh
và các ngôn ngữ khác, nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của vănbản Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội dung mộtphần hoặc toàn bộ nội dung chính của văn bản Các hệ thống dịch tự động mặc dù
đã được sử dụng rộng rãi nhưng cũng cần có nhiều cải tiến mới có thể mang lại kếtquả dịch có chất lượng hơn, giúp cho người đọc hiểu được văn bản cần dịch
Trang 14Chính vì vậy, cần thiết phải có những đánh giá về mặt khoa học để có những
số liệu cụ thể minh chứng cho chất lượng của các hệ thống dịch tiếng Việt, từ đóphân tích và đề xuất các giải pháp nhằm nâng cao chất lượng của dịch tự động tiếngViệt, giúp các hệ thống dịch tự động cho các kết quả dịch chính xác hơn, trở thànhcông cụ hiệu quả giúp cho người dùng hiểu được các văn bản tiếng nước ngoài màkhông phải tốn thời gian tra từ điển Các kết quả dịch cũng có thể trở thành bản dịchtham khảo hỗ trợ có hiệu quả trong công tác dịch thuật
Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã chọn đềtài “Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dungnghiên cứu luận án Tiến sỹ kỹ thuật của mình
Mục tiêu chung của nghiên cứu là đề xuất được các giải pháp cụ thể nhằmcải tiến chất lượng của các hệ thống dịch tiếng Việt nói chung, trong đó phân tích cụthể cho bài toán dịch tự động giữa cặp ngôn ngữ Việt – Anh Các mục tiêu cụ thểgồm:
- Đánh giá được thực trạng của các hệ thống dịch tự động tiếng Việt đang hoạtđộng hiện nay;
- Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa cặp ngôn ngữ Anh – Việt;
- Xây dựng được hệ thống dịch tự động Anh – Việt trong lĩnh vực cụ thể là văn bản quy phạm pháp luật
Đối tượng nghiên cứu của luận án gồm:
- Các phương pháp đánh giá chất lượng hệ thống dịch tự động
- Kho ngữ liệu sử dụng để huấn luyện và xây dựng mô hình dịch tự động
- Các phương pháp dịch tự động
- Các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay
Trang 15Với các mục tiêu và đối tượng nghiên cứu mô tả trên, phạm vi nghiên cứucủa luận án giới hạn ở một số nội dung sau:
- Tập trung nghiên cứu, đánh giá các hệ thống dịch tự động phổ biến hiện nay,
đề xuất giải pháp cải tiến chất lượng dịch tự động đối với cặp ngôn ngữ tiếngViệt – tiếng Anh
- Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt
và ngược lại ở một lĩnh vực hẹp là lĩnh vực văn bản quy phạm pháp luật
- Triển khai ứng dụng trên nền tảng website nhằm thuận tiện truy cập đối vớingười dùng
- Phương pháp lý thuyết: Nghiên cứu các tài liệu có liên quan đến các nội dung
về đặc trưng của ngôn ngữ tiếng Việt, biểu diễn và lưu trữ văn bản bản, tríchrút văn bản, phương pháp đánh giá, phương pháp xây dựng kho ngữ liệu, cácphương pháp dịch máy, học máy sử dụng mạng nơ ron, xử lý dữ liệu
- Phương pháp thực nghiệm: Trên cơ sở kết quả nghiên cứu liên quan, triểnkhai thực nghiệm đánh giá các hệ thống dịch tự động, triển khai xây dựngkho ngữ liệu lớn phục vụ hệ thống dịch, cải tiến chất lượng kho ngữ liệu, xâydựng và huấn luyện mô hình dịch cho cặp ngôn ngữ Anh – Việt
Trên cơ sở các mục tiêu của nghiên cứu đã đề ra và giới hạn đối tượng, phạm
vi nghiên cứu, nhằm đảm bảo tính hợp lý và trình tự nghiên cứu đã thực hiện trongthời gian triển khai nghiên cứu, luận án được tổ chức thành ba chương và phần mởđầu, kết luận, cụ thể như sau:
Chương 1 Tổng quan về dịch tự động và chất lượng dịch tự động tiếng Việt hiện nay Chương này trình bày tổng quan các vấn đề được triển khai nghiên cứu
trong luận án, bao gồm các khái niệm cơ bản trong lĩnh vực dịch tự động, cácphương pháp dịch, kho ngữ liệu dùng trong dịch tự động, các phương pháp đánh giáchất lượng hệ thống dịch và các nghiên cứu tổng quan của vấn đề cải tiến chấtlượng dịch tự động Nội dung chương này cũng giới thiệu các hệ thống dịch tiếngViệt hiện nay
Trang 16và đánh giá khái quát chất lượng của hệ thống, phân tích các khía cạnh cần nghiêncứu và tổ chức thực nghiệm nhằm cải tiến chất lượng của hệ thống dịch, tập trungđến vấn đề quan trọng nhất là cải tiến kho ngữ liệu và áp dụng phương pháp dịchphù hợp.
Chương 2 Giải pháp cải tiến chất lượng dịch tự động tiếng Việt Trên cơ sở
các phương pháp đánh giá chất lượng hệ thống dịch tiếng Việt đã được nghiên cứu,bao gồm phương pháp đánh giá chủ quan và khách quan, Chương 2 trình bày quytrình đánh giá và xây dựng kịch bản đánh giá chất lượng của một số hệ thống dịch
tự động Anh - Việt phổ biến nhất hiện nay Từ thực trạng chất lượng dịch nhậnđược luận án đề xuất một số giải pháp nhằm cải tiến chất lượng của các kho ngữliệu tiếng Việt ở khía cạnh số lượng và chất lượng, sau đó triển khai thực nghiệmmột số giải pháp cải tiến và tiến hành xây dựng kho ngữ liệu lớn phục vụ việc huấnluyện các mô hình dịch tiếng Việt chất lượng tốt Về phương pháp dịch, luận án đềxuất áp dụng mô hình dịch mạng nơ ron cho cặp ngôn ngữ Anh – Việt để ứng dụngnhững ưu điểm nổi bật của phương pháp học máy sử dụng mạng nơ ron Đồng thời,
đề xuất giải pháp để triển khai hệ thống dịch ngữ nghĩa dựa trên ngữ cảnh, giúp chocác hệ thống dịch có thể cung cấp thêm nhiều tầng ngữ nghĩa cho người dùng đểhiểu được toàn vẹn nội dung văn bản
Chương 3 Thực nghiệm và đánh giá kết quả Từ các giải pháp đề xuất ở
Chương 2, nội dung Chương 3 triển khai các bước thực nghiệm xây dựng kho ngữliệu lớn và xây dựng mô hình dịch máy mạng nơ ron cho cặp ngôn ngữ Anh – Việt,sau đó xây dựng hệ thống dịch lĩnh vực văn bản quy phạm pháp luật VIKITranslator và triển khai trên môi trường Internet để cung cấp dịch vụ cho ngườidùng thực tế, qua đó đánh giá hiệu quả của hệ thống dịch và các phương pháp đã đềxuất
Trang 17chứng chất lượng dịch tự động tiếng Việt Các bước thực hiện gồm: xây dựng bộ dữliệu đánh giá đầy đủ, tin cậy; lập trình ứng dụng hỗ trợ đánh giá; tổ chức đánh giátheo cả phương pháp chủ quan (đánh giá tự động thông qua các chỉ số BLEU,NIST) và khách quan (do con người thực hiện); thu nhận số liệu và phân tích, đánhgiá Từ quá trình triển khai đánh giá này, luận án cũng đề xuất giải pháp đánh giáchất lượng hệ thống dịch thông qua quá trình hậu xử lý nhằm giúp tiết kiệm thờigian và nguồn lực tổ chức đánh giá Kết quả đóng góp này được thể hiện ở côngtrình số (2,6)
(2) Đề xuất được giải pháp cải tiến chất lượng dịch tiếng Việt thông qua cảitiến kho ngữ liệu Luận án đã nghiên cứu và minh chứng được một trong những tácnhân quan quan trọng ảnh hưởng đến chất lượng dịch tự động của các hệ thống dịch
đó là kho ngữ liệu Do đó, luận án đã tập trung đề xuất và triển khai các giải phápkhác nhau để cải tiến kho ngữ liệu bao gồm cả khía cạnh chất lượng và khối lượng.Các giải pháp cụ thể đó là mở rộng và hợp nhất kho ngữ liệu; giải pháp xây dựngkho ngữ liệu lớn; giải pháp xác định danh từ riêng bằng cách kết hợp thuật toánMaximum Matching và phân tích mối quan hệ giữa các thành tố văn bản; giải phápxác định ranh giới từ ghép tiếng Việt từ mô hình phân phối từ và cụm từ trong vănbản Giải pháp cải tiến chất lượng dịch tiếng Việt bằng cách cải tiến kho ngữ liệu đãđược triển khai cài đặt, thử nghiệm và đánh giá đã cho kết quả chất lượng dịch đượccải tiến rõ nét, thể hiện ở các công trình (1,4,5,8,9)
(3) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt bằng phương phápdịch trí tuệ nhân tạo, áp dụng mô hình học máy mạng nơ ron Đây được xem nhưgiải pháp mới, tốt nhất tại thời điểm nghiên cứu và đề xuất (năm 2017) để cải tiếnchất lượng dịch tự động nói chung, nhất là dịch tự động tiếng Việt Giải pháp ápdụng mạng nơ ron mà luận án đề xuất cho phép dịch toàn bộ câu cùng lúc thay vìdịch theo cụm từ như phương pháp dịch máy thống kê Phương pháp mạng nơ ron
ưu việt hơn tất cả các phương pháp trước đó vì có thể hiểu được cả ngữ nghĩa củacâu thay vì dịch dựa trên bộ nhớ dịch các cụm từ Giải pháp này đã được luận án đềxuất, triển khai, cài đặt thử nghiệm và đã cho ra kết quả dịch có chất lượng tốt hơnnhiều so với các phương pháp khác và với các hệ thống dịch tự động tiếng Việtđang hoạt động hiện nay đối với lĩnh vực hẹp được thử nghiệm, thể hiện tại côngtrình (3,7)
Trang 18(4) Đề xuất giải pháp mới để xây dựng hệ thống dịch tự động hướng ngữnghĩa Luận án đề xuất mô hình và giải pháp xây dựng hệ thống dịch tự động hướngngữ nghĩa dựa theo ngữ cảnh thông qua cải tiến mô hình dịch sử dụng mạng nơ ronkết hợp với kho ngữ liệu lớn đã được làm giàu ngữ nghĩa Bằng giải pháp này, kếtquả dịch được hệ thống xử lý ngữ nghĩa trước khi hiển thị cho người dùng, từ đóbiểu diễn thêm các tầng ngữ nghĩa khác giúp cho bản dịch có đầy đủ thông tin vàngười đọc có thể hiểu toàn vẹn ý nghĩa của bản dịch Kết quả đóng góp này đượcthể hiện ở công trình số (10,11)
(5) Đóng góp về mặt thực nghiệm và sản phẩm sử dụng thực tế: xây dựng,triển khai thực nghiệm được hệ thống dịch tự động Anh –Việt VIKI Translator, chokết quả thử nghiệm chất lượng dịch tiếng Việt lĩnh vực hẹp (văn bản quy phạm phápluật) tốt hơn so với các hệ thống dịch tiếng Việt đang hoạt động Hệ thống dịch đãcung cấp cho người dùng thông qua môi trường Internet tại địa chỉhttps://vikitranslator.com, đã có hơn 1.500.000 lượt người dùng trên trang web, hơn30.000 lượt tải và cài đặt phần mềm, nhận được đánh tích cực từ phía người dùngvới điểm số trung bình trên 4,5/5,0 từ Google Play và Chrome Extensions Có hơn
30 bài viết từ các blog, trang web khác viết bài đánh giá và hướng dẫn sử dụng, với582.561 liên kết về trang chủ của hệ thống Bên cạnh đó, một kết quả quan trọngkhác có ý nghĩa thực tế và đóng góp về mặt thực nghiệm mà luận án đã xây dựngđược đó là kho ngữ liệu lớn và có chất lượng tốt các cặp ngôn ngữ Anh – Việt vớihơn 1.479.000 cặp câu song ngữ (phần lớn thuộc lĩnh vực văn bản quy phạm phápluật)
Trang 19TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY
có thể có hoặc không có sự hỗ trợ của con người Dịch tự động (MT) khác với
phương pháp dịch CAT (Computer-Aided Translation), trong đó người dịch sẽ sử
dụng một phần mềm máy tính để hỗ trợ cho việc dịch thuật nhằm tăng hiệu quả của
quá trình dịch thuật và tiết kiệm thời gian
Trong các nghiên cứu về lĩnh vực dịch tự động, văn bản đầu vào cần dịchđược gọi là văn bản nguồn (được viết bằng ngôn ngữ nguồn) và văn bản đã được
máy tính dịch gọi là văn bản đích (được viết bằng ngôn ngữ đích) Tổng quan về bài
toán dịch tự động có thể mô tả trong Hình 1.1
Bộ máydịch tựđộng
Hình 1.1 Tổng quan bài toán dịch tự động
Mục tiêu lý tưởng của các hệ thống dịch là tạo ra được các bản dịch chất
Dữ liệu đầu vào
Kết quả dịch
Trang 20lượng cao, có thể sử dụng và thay thế cho công việc dịch thuật thủ công của conngười Tuy
Trang 21nhiên, trên thực tế kết quả dịch cần phải được chỉnh sửa lại Quá trình chỉnh sửa kếtquả dịch của các hệ thống dịch tự động được gọi là quá trình hiệu đính bản dịch(post- edited).
Xây dựng và ứng dụng các hệ thống dịch tự động là xu thế tất yếu hiện nay,
vì các hệ thống này sẽ giúp cho việc dịch thuật giữa các ngôn ngữ trở nên dễ dàng,nhanh chóng và tiết kiệm Tính đến năm 2021, sau 15 năm triển khai, hệ thốngGoogle Translate đã hỗ trợ dịch tự động 109 ngôn ngữ, cung cấp dịch vụ cho hàngtriệu người sử dụng mỗi ngày Trong khi đó, Microsoft Translator cũng là hệ thốngdịch tự động được nhiều người sử dụng và hỗ trợ 90 ngôn ngữ Một số sản phẩmphục vụ dịch tự động giữa tiếng Việt với các ngôn ngữ khác cũng được nghiên cứunhư phần mềm EVTtran (EV-Shuttle), công cụ dịch văn bản của Lạc Việt, Vdict
Bên cạnh tính năng dịch trực tiếp văn bản còn có nhiều dịch vụ cung cấp ứngdụng khác có sử dụng kết quả của hệ thống dịch: dịch toàn bộ trang web, dịch nộidung email, nhận dạng văn bản trên hình ảnh và dịch, nhận dạng giọng nói và dịchsang ngôn ngữ khác Nguyên tắc chung của các hệ thống này là xử lý dữ liệu đầuvào (hình ảnh, âm thanh, ký hiệu…) thành văn bản nguồn, sau đó gọi các hàm APIcủa các hệ thống dịch để đưa văn bản nguồn vào và lấy kết quả dịch, từ đó chuyểnđổi thành dữ liệu đầu ra phù hợp
Như thể hiện ở Hình 1.1, dữ liệu đầu vào của một hệ thống dịch thuật thôngthường biểu diễn ở dạng văn bản Các dữ liệu khác như hình ảnh, âm thanh… sẽđược nhận dạng và chuyển đổi sang dữ liệu văn bản trước khi đưa vào hệ thốngdịch Tương tự, kết quả dịch là một văn bản và có thể sẽ được chuyển đổi sang cácđịnh dạng khác (như âm thanh, lời nói) để hiển thị cho người dùng
Bộ máy dịch tự động là một chương trình máy tính có nhiệm vụ tiếp nhậnvăn bản ở ngôn ngữ nguồn, sau đó bằng các thuật toán của mình để đưa ra dự đoánkết quả dịch ở ngôn ngữ đích Các thuật toán ở bài toán dịch tự động hoạt động trên
cơ sở tổng hợp và xử lý tri thức từ ngôn ngữ tự nhiên, chẳng hạn thông qua từ điển,các cặp câu dịch mẫu; các luật ngữ pháp; thống kê từ ngữ, mô hình ngôn ngữ…
Trang 221.2 Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động
mở rộng ở nhiều hướng tiếp cận khác nhau
Trong quá trình phát triển của lĩnh vực dịch tự động, đã có nhiều phươngpháp dịch được đề xuất và nghiên cứu Các phương pháp dịch được áp dụng rộngrãi và cho kết quả khả quan có thể kể đến là phương pháp dịch dựa trên ví dụ vàphương pháp dịch thống kê
1.2.1.1 Dịch tự động dựa trên ví dụ
Phương pháp dịch máy dựa trên ví dụ (EBMT: Example-Based MachineTranslation) được đề xuất lần đầu tiên vào năm 1984 tại công trình [5] Phươngpháp dịch này còn được tác giả gọi là phương pháp dịch tự động dựa trên suy luận
từ các ví dụ, hay dịch máy theo nguyên lý tương tự, có ý tưởng chính như sau: việcdịch một câu đơn giản không cần dựa trên quá trình phân tích sâu về mặt ngôn ngữ,thay vào đó, chúng ta phân tách câu đầu vào thành các cụm từ rời rạc, sau đó dịchcác cụm từ này sang ngôn ngữ khác, và cuối cùng chỉ cần ghép nối các cụm từ nàylại với nhau theo một thứ tự đúng để tạo thành một câu dài hoàn chỉnh Việc dịchcác cụm từ rời rạc sẽ được thực hiện theo nguyên tắc dịch tương tự, sử dụng các ví
dụ mẫu để tham khảo
Ba thành phần quan trọng của phương pháp dịch dựa trên ví dụ là: phân táchcác cụm từ trên cơ sở đối sánh từ dữ liệu các ví dụ thực tế, xác định các văn bảndịch tương ứng và kết hợp các cụm từ để tạo thành văn bản đích
Trang 23Kết quả của phương pháp dịch này được minh họa theo Sato và Nagao tại [6]dưới đây, đã được chuyển sang tiếng Việt:
(1) He buys a book on international politics
(2) a He buys a notebook
Anh ấy mua một quyển sổ tay.
b I read a book on international politics
Tôi đọc một quyển sách về chính trị quốc tế.
(3) Anh ấy mua một quyển sách về chính trị quốc tế
Trong đó, (1) là câu nguồn cần dịch, (2) là các mẫu câu trong tập hợp dữ liệu
ví dụ đã có sẵn, (3) là kết quả dịch (câu đích) Câu nguồn (1) được tách thành haiphân đoạn dựa trên các mẫu ví dụ tại (2a) và (2b) Sau đó ghép các bản dịch từ cáccâu ví dụ để thu được câu đích (3)
Mô hình tổng quát của phương pháp dịch dựa trên ví dụ thể hiện ở hình sau[7]:
Hình 1.2 Mô hình tổng quát của phương pháp dịch dựa trên ví dụ
Trang 24(1) Ở giai đoạn phân tích văn bản nguồn, phương pháp này thực hiện đốisánh các câu nguồn với tập câu ví dụ đã có sẵn để chọn các câu có chứa các cụm từtrong câu nguồn (2) Từ các cặp câu được chọn, thực hiện việc gióng hàng để táchcác cụm từ tương ứng ở ngôn ngữ đích (3) Các cụm từ sau đó sẽ được ghép lại theomột cách phù hợp để tạo ra câu cần dịch (4) Trường hợp các câu đầu vào trùngkhớp chính xác
Trang 25với câu đã có sẵn trong dữ liệu thì không cần phải thực hiện các bước tách đoạn như
ở trên mà lấy ngay câu đã dịch tương ứng
Phương pháp dịch dựa trên ví dụ là một mô hình dịch trên nền tảng các kho
dữ liệu, vì vậy độ chính xác của kết quả dịch phụ thuộc vào số mẫu ví dụ đã có sẵn.Với kho dữ liệu có số lượng các cặp câu ví dụ càng lớn thì chất lượng dịch đạt đượccàng tốt
Tiếp cận dịch bằng ví dụ có nhiều ưu điểm:
• Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ thống
Tiếp cận dịch bằng ví dụ có điểm yếu đó là sự quá phụ thuộc vào chất lượngcủa các cặp ví dụ được sử dụng để làm mẫu và thuật toán đối sánh mẫu thực hiệnkhá chậm so với một số tiếp cận khác (vì chưa có thuật toán hiệu quả trong việc tìmkiếm sự xuất hiện của một đoạn văn bản trong toàn bộ tập mẫu)
Phương pháp dịch này phù hợp để dịch thuật đối với một số lĩnh vực hẹp,chiều dài các câu ngắn, ít có sự nhập nhằng ngữ nghĩa, chẳng hạn trong dự báo thờitiết, trong một số tài liệu kỹ thuật phù hợp
1.2.1.2 Dịch tự động bằng phương pháp thống kê
Dịch tự động dựa trên phương pháp thống kê (SMT - Statistical MachineTranslation) là một hướng phát triển đầy tiềm năng trong những năm vừa qua bởinhững ưu điểm vượt trội so với các phương pháp khác [8] Thay vì xây dựng các từđiển, các quy luật chuyển đổi bằng tay, mô hình dịch thống kê tự động xây dựng các
từ điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ liệu Chính
vì vậy, dịch máy dựa vào thống kê có thể áp dụng được cho bất kỳ cặp ngôn ngữnào
Trang 26Dịch thống kê là phương pháp dịch máy, trong đó các bản dịch được tạo ratrên cơ sở thực hiện thống kê và phân tích các cặp câu song ngữ từ tập dữ liệu huấnluyện để tạo ra mô hình học máy [9] Chính vì vậy, phương pháp này khác biệt sovới phương pháp dịch tự động dựa trên ví dụ hoặc một số các tiếp cận dựa trên luật
đã được nghiên cứu trước đây
Phương pháp dịch thống kê có thể được mô tả như sau: Câu đích được dịch
theo phân bố xác suất p(e|f) trong đó e là ngôn ngữ đích dịch từ f là ngôn ngữ
(1.1)
ngữ)
- p(f|e) là xác suất để câu nguồn f là bản dịch của câu đích e (mô hình dịch)
Như vậy để giải quyết bài toán dịch thống kê và tìm được xác suất xuất hiệncủa câu đích, cần thực hiện hai bài toán là tìm mô hình dịch và mô hình ngôn ngữ Câu dịch được chọn bằng cách tìm ra xác suất cao nhất theo công thức:
ẽ = arg max p(e| ) = arg max pƒ (ƒ|
Việc tìm kiếm trên câu đích trên tất cả các chuỗi có khả năng là bản dịch sẽphát sinh vấn đề về hiệu suất của mô hình, cần phải áp dụng nhiều kỹ thuật để giớihạn không gian tìm kiếm nhưng vẫn đạt được chất lượng bản dịch máy
Bên cạnh đó, việc lưu trữ toàn bộ các đơn vị ngôn ngữ (như văn bản, đoạnvăn, câu) để tìm kiếm xác suất là không khả thi vì số lượng thực tế rất lớn Vì vậy
mô hình ngôn ngữ thường được tính xấp xỉ thông qua mô hình n-gram, nghĩa là cáccâu được tách thành các cụm từ liên tiếp nhau chiều dài n (n thường có giá trị từ 1đến 5, n càng lớn thì kích thước dữ liệu tăng lên đáng kể) Khi đó cần giải quyếtthêm bài toán gióng hàng, tức là sắp xếp lại trật tự của các cụm từ đã được dịch saocho phù hợp nhất với ngôn ngữ thực tế, trên cơ sở mô hình ngôn ngữ đích đã học
Trang 27Hình 1.3 Mô hình hóa phương pháp dịch thống kê
Các mô hình dịch thống kê ban đầu thường dùng mô hình lấy cơ sở theo từ,sau đó phát triển các mô hình theo cơ sở cụm từ, kết hợp cú pháp hoặc cấu trúc bán
cú pháp để làm tăng chất lượng dịch kết quả dịch
Trong phương pháp dịch này, đơn vị được dịch là các từ Số từ trong câuđược dịch là khác nhau phụ thuộc vào các từ ghép, hình thái từ và thành ngữ Tham
số độ dài của chuỗi từ được dịch gọi là độ hỗn loạn, tức là số từ của ngôn ngữ đích
mà từ của ngôn ngữ nguồn sinh ra Sự khác nhau về mặt ngôn ngữ học giữa tiếngAnh và tiếng Việt dẫn đến sự phức tạp trong quá trình sắp xếp trật tự của các từ saukhi nhận được bản dịch của từng từ Các hệ thống dịch dựa trên cụm từ thường sửdụng thư viện Giza++ [10] để gióng hàng câu, trích rút ra các cặp câu song ngữ và
mô hình ngôn ngữ
Koehn mô tả quá trình dịch thống kê dựa trên cụm từ tại [11] như sau:
+ Câu nguồn được tách thành các cụm từ;
Trang 28+ Mỗi cụm từ được dịch sang ngôn ngữ đích;
+ Các cụm từ đã dịch được sắp xếp theo một thứ tự phù hợp
Các cụm từ ở đây không tách theo ý nghĩa ngôn ngữ học (tức là một cụm từ
có trọn vẹn nghĩa, đủ cú pháp), mà là các cụm từ thu được từ phương pháp thống kêthông qua kỹ thuật n-gram Độ dài cụm từ nguồn và cụ từ đích có thể khác nhau.Phương pháp dịch thống kê trên cơ sở cụm từ sẽ làm tăng chất lượng bằng cách dịch
cả cụm từ thay vì dịch từng từ, giúp cho bản dịch thể hiện được ngữ cảnh của nộidung cần dịch
Phương pháp dịch máy thống kê dựa trên đơn vị cụm từ được đánh giá cóchất lượng tốt khi áp dụng cho các cặp ngôn ngữ như tiếng Anh-Trung, Anh-Ả rập.Tuy chất lượng có tốt hơn mô hình dịch thống kê dựa trên đơn vị từ, mô hình dịchthống kê dựa trên cụm từ vẫn chưa giải quyết được một số vấn đề của bài toán dịchmáy như ngữ pháp, khả năng lựa chọn cụm từ có tính chính xác cao, dịch tên hoặctrường hợp lượng từ vựng có hạn
Dịch máy thống kê trên cơ sở cú pháp dựa trên ý tưởng dịch các đơn vị cúpháp (phân tích cây cú pháp của câu), thay vì dịch những từ đơn hay cụm từ nhưtrong dịch máy thống kê trên cơ sở cụm từ
Hiện nay, rất nhiều cách tiếp cận khác ra đời nhằm cải thiện chất lượng của
hệ dịch, tích hợp thêm các thông tin ngôn ngữ như tiến hành tiền xử lý, sử dụng cácthông tin về ngữ pháp để chuyển đổi câu ngôn ngữ nguồn về một dạng gần với ngônngữ đích trước khi thực hiện việc gióng hàng
Liên quan đến các mã nguồn mở ứng dụng trong lĩnh vực dịch máy thống kê,một trong những mã nguồn được sử dụng phổ biến trong các nghiên cứu là Moses[12] (http://www.statmt.org/moses/) Đây là hệ thống mã nguồn mở hoàn chỉnh cho
mô hình dịch thống kê dựa trên cụm từ Ưu điểm vượt trội của Moses là cho phéptích hợp thêm các thông tin ngôn ngữ một cách mềm dẻo bằng cách thêm các tham
số (factors) vào hệ thống Chính vì vậy Moses khắc phục sự thiếu hụt các thông tin
về ngôn ngữ như hình thái học, cú pháp, gán nhãn, từ gốc,… dẫn đến hệ thốngkhông
Trang 29có khả năng dịch được những từ không xuất hiện trong tập dữ liệu học, giúp môhình có khả năng nhận biết được ngữ cảnh khác nhau của câu cần dịch, sự khácnhau về cú pháp của các cặp ngôn ngữ Moses cho phép người dùng thêm vào cáclớp thông tin về ngôn ngữ vào mô hình dịch và trong dữ liệu huấn luyện.
Hình 1.4 Một ánh xạ giữa các tham số trong ngôn ngữ nguồn và ngôn ngữ đích
Trang 30Kho ngữ liệu trong dịch tự động
Kho ngữ liệu (corpus) được hiểu là tập hợp văn bản đơn ngữ, đa ngữ haysong ngữ [13] Trong định nghĩa của Từ điển Cambridge, kho ngữ liệu có thể là tậphợp tài nguyên dưới dạng văn bản hoặc giọng nói
Kho ngữ liệu đa ngữ là một tập các văn bản (tài liệu) được viết bằng nhiềungôn ngữ
Kho ngữ liệu song song là một tập các văn bản (tài liệu) trong nhiều ngônngữ khác nhau, trong đó có một ngôn ngữ nguồn và một (hoặc nhiều) ngôn ngữ đích(được dịch từ ngôn ngữ nguồn)
Kho ngữ liệu song ngữ là một tập hợp dữ liệu gồm các cặp văn bản đã đượcdịch tương ứng Sự tương ứng của các bản dịch ở đây được thể hiện ở cấp độ vănbản, nghĩa là kho ngữ liệu gồm các văn bản thuộc ngôn ngữ nguồn và ngôn ngữđích đã được dịch tương ứng, hoặc tương tự đối với các cấp độ khác bao gồm: cấp
độ đoạn, cấp độ câu, cấp độ cụm từ và cấp độ từ
Để giải quyết các bài toán liên quan đến lĩnh vực xử lý ngôn ngữ tự nhiên,một tài nguyên rất cần thiết đó là các kho ngữ liệu song ngữ Các kho ngữ liệu songngữ này có thể được sử dụng cho nhiều mục đích khác nhau như: nghiên cứu ngônngữ học so sánh, tìm kiếm thông tin xuyên ngữ, dịch máy Các kho ngữ liệu songngữ này là nguồn tài nguyên để từ đó có thể trích xuất tương ứng các đơn vị ngônngữ (từ, ngữ, câu, đoạn, văn bản ) của hai ngôn ngữ, từ đó giải quyết các vấn đềliên quan Kết quả của các bài toán nêu trên phụ thuộc rất nhiều vào độ lớn và chấtlượng của kho ngữ liệu song song được sử dụng Trên thế giới đã có rất nhiều khongữ liệu song ngữ song song được xây dựng để phục vụ cho các mục tiêu như trên
Các kho ngữ liệu có thể chỉ chứa dữ liệu thô (nội dung văn bản) hoặc đãđược phân tích để gán thêm các nhãn ngôn ngữ như ranh giới từ, từ gối, từ loại củatừ… Về cơ bản, nội dung của kho ngữ liệu gồm các phần: (1) Các thông tin về vănbản;
(2) Nội dung văn bản; (3) Các nhãn ngôn ngữ
Kho ngữ liệu là nền tảng để xây dựng, đánh giá và cải tiến chất lượng của các
hệ thống dịch tự động Nếu có được kho ngữ liệu đa ngữ đủ lớn về khối lượng, tốtvề
Trang 31chất lượng thì chắc chắn chất lượng dịch của các hệ thống dịch tự động hiện nay sẽđược cải thiện đáng kể [14].
Đã có nhiều kho ngữ liệu quốc tế được nghiên cứu và công bố có số lượngngôn ngữ và khối lượng dữ liệu tương đối lớn như EuroParl (11 ngôn ngữ, 34-55triệu từ), JRC-Acquis (22 ngôn ngữ, 11-22 triệu từ), XinHua News (2 ngôn ngữ, 12-
14 triệu từ), EuroMatrix (9 ngôn ngữ lấy nguồn từ các kỷ yếu của Quốc hội Châu
Âu từ năm 1996–2006), Canadian Hansard (song ngữ Anh-Pháp, 2.8 triệu cặp câu),WaCky (hơn 1 tỷ từ được thu thập từ Internet) …
Trong các kho ngữ liệu song ngữ tiếng Việt, dữ liệu được tổng hợp ở nhiềulĩnh vực khác nhau Lượng dữ liệu đối với từng lĩnh vực chưa nhiều, đặc biệt dữliệu thuộc các lĩnh vực hẹp, chuyên sâu như lĩnh vực y tế, văn bản quy phạm phápluật… hầu như xuất hiện rất ít trong các kho ngữ liệu nói trên Các kho ngữ liệu đãđược xây dựng trong lĩnh vực xử lý ngôn ngữ tiếng Việt hiện nay phần lớn thuộccác nhóm sau:
- Phục vụ nghiên cứu từ điển tiếng Việt: nội dung văn bản trong kho ngữ liệu
đã được tách từ, phân tích từ loại phục vụ cho việc xây dựng từ điển song ngữ
-Phục vụ nghiên cứu ngôn ngữ: gồm các kho ngữ liệu được chú giải ngữpháp, gán nhãn ngữ pháp, phân cụm và phân tích câu tiếng Việt; xây dựng tập cácquy tắc ngữ pháp tiếng Việt dùng cho xử lý tự động ngôn ngữ; nghiên cứu và xâydựng bộ phân tích cú pháp, câu tiếng Việt [15]
- Phục vụ các nghiên cứu xử lý ngôn ngữ tự nhiên, trong đó có dịch tự độngtiếng Việt: kho ngữ liệu dùng cho các hệ thống dịch, cải tiến chất lượng hệ thốngdịch…
Ngoài kho ngữ liệu song ngữ, kho ngữ liệu đơn ngữ cũng đóng vai trò rấtquan trọng trong nhiều phương pháp dịch, đặc biệt đối với phương pháp dịch thống
kê Từ kho ngữ liệu đơn ngữ, các thuật toán xử lý sẽ tổng hợp được mô hình ngônngữ thông qua thống kê ở quy mô lớn, làm cơ sở để mô hình dịch đưa ra quyết địnhlựa chọn từ ngữ phù hợp với ngữ cảnh, đúng ngữ pháp và trôi chảy ở ngôn ngữ đích.Vấn đề xây dựng kho ngữ liệu đơn ngữ tiếng Việt trở nên đơn giản hơn vì hiện nay
đã có nhiều tài liệu xuất bản dưới dạng văn bản số, như nguồn tài liệu tin tức, báocáo khoa học,
Trang 32tài liệu nghiên cứu, học tập, tác phẩm văn học… Từ nguồn tài liệu này hoàn toàn cóthể trích rút văn bản để xây dựng được kho ngữ liệu đơn ngữ có giá trị.
1.2.2.1 Các kho ngữ liệu hiện nay
Trên thế giới hiện có rất nhiều kho ngữ liệu song ngữ song song được chia sẽmiễn phí cho cộng đồng nghiên cứu Dưới đây là một vài kho ngữ liệu song ngữsong song tiêu biểu:
- Kho ngữ liệu song ngữ song song được xây dựng từ sự hỗ trợ của dự ánEuroMatrix Kho ngữ liệu này gồm các cặp ngôn ngữ khác nhau được lấy nguồn từcác kỷ yếu (proceeding) của Quốc hội Châu Âu (European Parliament) từ năm 1996
– 2006 [16] Kho ngữ liệu song ngữ song song này gồm 10 cặp ngôn ngữ như đượcliệt kê dưới đây:
Bảng 1.1 Chi tiết kho ngữ liệu EuroMatrix
Kho ngữ liệu song ngữ
Số từ ở ngônngữ L1
Số từ ở ngônngữ L2
Trang 33catalogId=LDC95T20) Dữ liệu văn bản thuần chủ yếu được lấy từ trang web củaQuốc hội Canada.
- Kho ngữ liệu song ngữ song song Hoa – Anh PKU 863 của đại học BắcKinh gồm hơn 200.000 cặp câu thuộc nhiều lĩnh vực kinh tế xă hội khác nhau (chia
sẻ tại liên kết: http://www.ling.lancs.ac.uk/corplang/863parallel/)
Ngoài ra, có một số kho ngữ liệu song ngữ với số lượng câu lớn được liệt kêtrong bảng dưới đây:
1.2.2.2 Cấu trúc cơ bản của kho ngữ liệu song ngữ
Kho ngữ liệu song ngữ chứa các văn bản của hai ngôn ngữ khác nhau, vì vậyngoài nội dung còn có các thông tin đã được xử lý như gióng hàng, gán nhãn từ…
Về cơ bản, các kho ngữ liệu sẽ chứa những thông tin sau đây:
- Phần dữ liệu nguyên thủy/thô (primary data) :
oThông tin về văn bản: id, title, authors…: được gọi là phần đầu (Header)
oThông tin về cấu trúc và nội dung: các phần (section), đoạn (paragraph), câu (sentence)… : được gọi phần Text
- Phần chú giải ngôn ngữ học (linguistic annotation)
oRanh giới đoạn, câu, từ
oTừ loại của từ (POS)
oGốc từ (lemma)
Trang 34- Thông tin về gióng hàng (alignment)
Hình dưới đây là một đoạn trích dẫn từ kho ngữ liệu IWSLT15.TED, là khongữ liệu Anh – Việt được sử dụng cho mục đích nghiên cứu tại hội thảo IWSTL(The International Workshop on Spoken Language Translation) năm 2015 Kho ngữliệu biểu diễn bằng định dạng XML, gồm các thông tin chung về tài liệu như: địnhdanh (setid), ngôn ngữ nguồn (srclang) là tiếng Anh, ngôn ngữ đích (tgtlang) làtiếng Việt, định danh văn bản (docid), thể loại (genre), đường dẫn (url), mô tả(description), từ khóa (keywords), tiêu đề (title) và dữ liệu được đánh số theo trườngid
<description>Robert Gupta,người đánh vĩ cầm của dàn nhạc LA
Philharmonic,nói về 1 bài học ông dành cho 1 nhà soạn nhạc thông minh </description>
<keywords>talks, TED Conference, TED Fellows, arts, brain,
education, entertainment, live music, mental health, music,
violin</keywords>
<talkid>805</talkid>
<title>Âm nhạc là liều thuốc, là sự sáng suốt.</title>
<seg id="1">Vào 1 ngày nhà viết báo Los Angeles Times Steve
Lopez đang đi dọc trên con đường trong khu phố ở Lost Angeles thì nghe 1 bản nhạc tuyệt vời </seg>
<seg id="2">Và bắt nguồn là từ một người đàn ông, một người
Mỹ gốc Phi, thu hút, vạm vỡ, vô gia cư, đang chơi vĩ cầm chỉ với 2 sợi dây </seg>
lí tiếng nói và văn bản tiếng Việt" (https://vlsp.hpda.vn/), lĩnh vực Xã hội Các câu
tiếng Anh được đặt trong thẻ <endoc> và các cấu tiếng Việt đặt trong thẻ <vndoc>.
Trang 35Đánh giá chất lượng hệ thống dịch tự động
Đánh giá chất lượng hệ thống dịch tự động là hoạt động nhằm xác định mức
độ hoàn thiện của bản dịch do máy tính đưa ra hoặc so sánh chất lượng dịch giữacác hệ thống dịch tự động khác nhau Ở đây, chất lượng dịch được hiểu là mức độhoàn thiện của bản dịch hay sự phù hợp của kết quả dịch khi dịch một văn bản (hoặccâu, đoạn, từ) từ ngôn ngữ nguồn sang ngôn ngữ đích
Mục đích của quá trình đánh giá chất lượng các hệ thống dịch tự động:
- Xác định mức độ hoàn thiện của hệ thống dịch;
- Đánh giá và so sánh hiệu quả của hệ thống dịch đối với từng lĩnh vực nội dung khác nhau;
- Đánh giá và so sánh chất lượng dịch giữa các hệ thống dịch tự động;
- Đánh giá và so sánh hiệu quả của các mô hình dịch khác nhau;
Trang 36- Đánh giá và tìm hiểu những tồn tại của hệ thống dịch để có hướng khắcphục nhằm nâng cao chất lượng bản dịch;
- Khuyến cáo người dùng khi sử dụng kết quả của các hệ thống dịch
Đánh giá chất lượng hệ thống dịch là một bài toán có lịch sử lâu dài, gắn liềnvới sự phát triển của các hệ thống dịch Hiện nay, có nhiều phương pháp và độ đokhác nhau để đánh giá chất lượng dịch tự động, có thể nhóm thành hai loại chính làđánh giá chủ quan (subjective evaluation) và đánh giá khách quan (objectiveevaluation)
1.2.3.1 Phương pháp đánh giá chủ quan
Đánh giá chủ quan do con người trực tiếp thực hiện, dựa trên việc đánh giáthang điểm cho các tiêu chí được xây dựng sẵn Cách đánh giá chủ quan cho kết quảtin cậy nhưng tốn nhiều thời gian và chi phí, có phụ thuộc vào khả năng của ngườiđánh giá
Từ những năm 1960, khi triển khai hệ thống Appendix 10 của ALPAC [17],các nhà nghiên cứu đã đưa ra các thực nghiệm để đánh giá mức độ dễ hiểu và tínhđầy đủ thông tin từ các kết quả dịch máy có được Một trong những phương phápđầu tiên để đánh giá là dựa trên sự phán xét chủ quan của con người để đưa ra mộtthang điểm về sự chính xác ngữ nghĩa và sự trôi chảy của kết quả dịch khi so sánhvới một hoặc nhiều bản dịch của chuyên gia
Một số phương pháp đánh chủ quan đã được nghiên cứu và sử dụng trongcộng đồng dịch máy Trong một số trường hợp, chất lượng của bản dịch được đánhgiá trực tiếp từ người đánh giá, hoặc thông qua các bài kiểm tra đọc hoặc các tác vụtương tự đối với bản dịch, ở các trường hợp khác có thể được đo đạc bằng khốilượng công việc được sử dụng để hiệu chỉnh bản dịch máy
Hai trong số các thông số đánh giá thông dụng bằng phương pháp chủ quan
do con người thực hiện là tính trôi chảy (fluency) và tính đầy đủ (adequacy) [17][18] Đánh giá tính trôi chảy yêu cầu người đánh giá phải là một người nói thôngthạo ngôn
Trang 37ngữ cần đánh giá, thực hiện việc đánh giá xem kết quả của bản dịch có trôi chảy haykhông, bất kể kết quả này có chính xác với câu nguồn hoặc không.
Khi đánh giá tính đầy đủ, người đánh giá không cần quan tâm đến mức độtrôi chảy của bản dịch, mà chỉ cần xác định những thông tin từ ngôn ngữ gốc cóđược thể hiện đầy đủ trong bản dịch hay không Yêu cầu đối với người đánh giátrong trường hợp này được ràng buộc nghiêm ngặt hơn so với đánh giá tính trôichảy Người đánh giá phải thông thạo cả ngôn ngữ nguồn và đích, khi đó mới có thểxác định chính xác các thông tin có thể hiện đầy đủ giữa các bản dịch
Trên thực tế, nếu người đánh giá chỉ thông thạo ngôn ngữ đích vẫn có thểđánh giá được tính đầy đủ bằng cách sử dụng tập hợp các bản dịch chính xác có sẵn
để đối chiếu thông tin
Tính trôi chảy và tính đầy đủ thông tin được đánh giá độc lập trên từng câudịch và thường được thiết lập trên thang đo gồm 5 hoặc 7 mức độ [19] Trong một
số trường hợp có thể lấy giá trị trung bình để chuyển thành một số đo duy nhất chomỗi đánh giá
Một số nghiên cứu cũng đã phân tích và chỉ ra sự tương quan không chặt chẽgiữa những người đánh giá khi sử dụng phương pháp đánh giá chủ quan [20][21] vànêu lên nhiều vấn đề đối với độ tin cậy của phương pháp này Tuy nhiên, đánh giáchủ quan dựa trên con người vẫn thường được sử dụng như là một phương pháp cơbản trong đánh giá chất lượng bản dịch máy
Đánh giá tính đầy đủ ngữ nghĩa (semantic adequacy) cũng được nghiên cứutại [22][23] và được sử dụng như là một tiêu chuẩn hữu ích để đánh giá sự hoànthiện của một hệ thống dịch máy, mặc dù sự tin cậy đối với phương pháp đánh giáchủ quan vẫn còn nhiều vấn đề đặt ra
Quá trình hiệu đính bản dịch (post-editing) để sửa lỗi và hoàn thiện bản dịchmáy cũng được sử dụng như là một phương pháp thông dụng để đo đạc chất lượngbản dịch Những bản dịch chính xác sẽ đòi hỏi ít sự chỉnh sửa, còn những bản dịchchất lượng thấp sẽ tốn nhiều chi phí để hoàn thiện hơn Phương pháp này dựa trên
Trang 38các các chỉ số được thu thập được thông qua khối lượng lớn công việc hiệu đính bảndịch bởi con người thay vì nhận được kết quả thông qua các thang điểm đánh giá.
Kịch bản tổng quát để thực hiện một bản đánh giá chất lượng bản dịch máy như sau:
Dữ liệu đầu vào:
oVăn bản ở ngôn ngữ nguồn (source language)
oBản dịch do máy tính tạo ra
oBản dịch chính xác dùng để tham khảo (reference translation)
Nhiệm vụ:
oĐánh giá chất lượng của bản dịch do máy tính tạo ra
Kết quả đầu ra:
oĐiểm đánh giá theo các tiêu chí cụ thể
Để cụ thể hóa việc đánh giá chất lượng theo phương pháp chủ quan, thôngthường người ta sử dụng các thang đo đối với tính đầy đủ và tính trôi chảy [24][18]
Tính đầy đủ xác định bản dịch có đầy đủ nội dung, đồng nghĩa với câu nguồnhay không, có thông tin bị mất đi, hoặc bổ sung thông tin mới, hoặc thông tin bị sailệch hay không Tính đầy đủ được xác định thông qua thang đo gồm 5 mức độ [19]:tất cả (all) - hầu hết (most) - nhiều (much) - ít (little) - không có thông tin liên quan(none)
Bảng 1.3 Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy
Fluency (Tính trôi chảy)
Trang 39Tính trôi chảy xác định bản dịch có trôi chảy ở ngôn ngữ đích hay không, sửdụng đúng ngữ pháp và từ ngữ hay không Tính trôi chảy được thể hiện thông quathang đo gồm 5 mức độ: hoàn thiện (flawless) - tốt (good) - không tự nhiên (non-native) - không trôi chảy (disfluent) - không thể hiểu được (incomprehensible).
Mặc dù hai chỉ số đánh giá chất lượng dịch này được đánh giá độc lập vớinhau, nhưng nghiên cứu tại [18] chỉ ra rằng có sự liên hệ chặt chẽ giữa số đo tínhđầy đủ và tính trôi chảy của những người đánh giá bản dịch Trên thực tế, ngườiđánh giá khó xác định được thông tin của bản dịch nếu bản dịch đó không trôi chảy,điều này dẫn đến điểm của tính đầy đủ nhận được sẽ thấp Ngược lại, một bản dịchthể hiện được đầy đủ thông tin từ câu nguồn, thông thường là một bản dịch trôichảy, đúng ngữ pháp Việc tách bạch hai chỉ số về tính đầy đủ và tính trôi chảy sẽdẫn đến những khó khăn khi kết hợp điểm đánh giá để cho ra một số liệu duy nhấttrong trường hợp cần thiết Nghiên cứu của NIST Open Machine TranslationEvaluation [19] đề xuất chỉ sử dụng chỉ số tính đầy đủ thông tin, nhưng mở rộngthang đo thành 7 mức độ để cho phép kết quả đánh giá thể hiện chi tiết hơn
Phương pháp đánh giá bằng hình thức xếp hạng được giới thiệu tại WMT 2007
[18] nhằm khắc phục một số hạn chế khi đánh giá bởi chỉ số tính đầy đủ và tính trôichảy Phương pháp này thay thế các thang điểm bằng sự đánh giá tương quan giữacác bản dịch thông qua việc xếp hạng Đối với phương pháp này, người đánh giánhận được một bản dịch tham chiếu chính xác (reference translation) và các bảndịch máy cần đánh giá Người đánh giá thực hiện việc xếp hạng các bản dịch từ tốtnhất đến tệ nhất Trong một số trường hợp, có thể đưa ra hai bản dịch và yêu cầungười đánh giá chọn bản dịch tốt nhất khi so sánh với bản dịch tham chiếu Phươngpháp này trong nhiều trường hợp cho thấy kết quả đánh giá nhất quán hơn, theothực nghiệm tại [25]
Bảng 1.4 Mô phỏng kết quả đánh giá bằng hình thức xếp hạng
Trang 40c Đánh giá thông qua hiệu đính bản dịch
Hiệu đính bản dịch là quá trình chỉnh sửa bản dịch máy thành một bản dịchchính xác Thay vì trực tiếp đánh giá các chỉ số chất lượng một cách tương đối haytuyệt đối, phương pháp đánh giá thông qua hiệu đính bản dịch thực hiện đo đạc sốlượng tối thiểu công việc cần thiết để chỉnh sửa một bản dịch máy thành bản dịchchính xác Một trong các chỉ số thông dụng nhất khi áp dụng phương pháp này làHTER (human-targeted translation edit rate) [21], đây cũng là phương pháp đánhgiá bán tự động khi vừa dựa trên sử chỉnh sửa chủ quan của con người, vừa sử dụngcác công thức để tính toán tự động HTER xác định số bước tối thiểu mà người đánhgiá tham gia chỉnh sửa bản dịch để trở thành một bản dịch chính xác Phương phápnày hướng đến so sánh bản dịch máy với một trong các bản dịch tham chiếu gầnnhất nhằm đạt được số bước chỉnh sửa ít nhất có thể
Phương pháp đánh giá chủ quan có những nhược điểm như sau:
- Chi phí cao: quá trình tổ chức đánh giá thực hiện hoàn toàn thủ công, vìvậy chi phí để đánh giá rất cao, đồng thời cần có sự tham gia của nhiều người đểđánh giá một kết quả nhằm đảm bảo tính chính xác của việc đánh giá
- Không thể tái sử dụng: mỗi đánh giá thực hiện trực tiếp trên một bản dịch
cụ thể, vì vậy khó có thể tái sử dụng trong trường hợp lặp lại một phần các bản dịch
1.2.3.2 Phương pháp đánh giá khách quan (đánh giá tự động)
Đánh giá khách quan là sử dụng các chương trình thay cho con người đểđánh giá Các chương trình sẽ so khớp hoặc đo tỉ lệ lỗi của kết quả từ hệ thống dịchvới câu dịch tham khảo đã có sẵn
Các chỉ số đánh giá tự động như BLEU, NIST, METEOR, WER, PER,GTM, TER, CDER… đã được nghiên cứu và phát triển để cải thiện những nhượcđiểm của