Luận án tiến sĩ Công nghệ thông tin: Nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt

Việc dịch các văn bản thuộc chuyên ngành hẹp, miềnđặc thù có tập từ vựng không cùng phân bố với tập từ vựng của ngữ liệu dùng để huấn luyện mô hình đang phải đối mặt với nhiều thách thức

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHAM NGHĨA LUAN

NGHIEN CUU MOT SO KY THUAT

THÍCH UNG MIEN TRONG DICH MAY THONG KE

ANH - VIET

LUAN AN TIEN SI CONG NGHE THONG TIN

Hà Nội - 2023

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHAM NGHĨA LUAN

NGHIEN CUU MOT SO KY THUAT THÍCH UNG MIEN TRONG DICH MAY THONG KE

ANH - VIET

Chuyên ngành: Hệ thống thông tin

Mã số: 9480104.01

LUẬN ÁN TIEN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 TS Nguyễn Văn Vinh

2 TS Phạm Việt Thắng

Hà Nội - 2023

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận án ”Nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Viét” là công trình

nghiên cứu của riêng tôi dưới sự hướng dẫn của thầy TS Nguyễn VănVinh và thầy TS Phạm Việt Thắng Các số liệu, kết quả được trìnhbày trong luận án là hoàn toàn trung thực và chưa từng được công bố

trong bất kỳ một công trình nào khác

» Tôi đã trích dẫn day đủ các tài liệu tham khảo, công trình nghiên

cứu liên quan ở trong nước và quốc tế Ngoại trừ các tài liệu tham

khảo này, luận án hoàn toàn là công việc của riêng tôi.

» Trong các công trình khoa học được công bố trong luận án, tôi

đã thể hiện rõ ràng và chính xác đóng góp của các đồng tác giả

và những gì do tôi đã đóng góp.

« Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh

tại Bộ môn Các Hệ thống thông tin, Khoa Công nghệ Thông tin,Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Phạm Nghĩa Luân

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc đến thầy

TS Nguyễn Văn Vinh và thầy TS Phạm Việt Thắng - những người

đã hướng dẫn, khuyến khích, truyền cảm hứng, chỉ bảo và tạo cho tôi

những điều kiện tốt nhất từ khi bắt đầu làm nghiên cứu sinh đến khi

hoàn thành luận án này.

Tôi xin chân thành cẩm ơn các thầy cô Khoa Công nghệ thông

tin, Trường Đại học Công nghệ, Dại học Quốc Gia Hà Nội, đặc biệt là

các thầy cô trong bộ môn đã tận tình chỉ bảo, cung cấp cho tôi nhữngkiến thức vô cùng quý giá, điều kiện tốt nhất cho tôi về môi trường

làm việc trong suốt quá trình học tập, nghiên cứu tại Trường

Đồng thời, tôi xin chân thành cảm ơn các đồng nghiệp tại TrườngĐại học Hai Phòng đã tạo mọi điều kiện, bố trí thời gian tốt nhất dành

cho tôi trong suốt quá trình làm nghiên cứu sinh

Cuối cùng, tôi xin chân thành cảm ơn những người thân trong

gia đình cùng toàn thể bạn bè, đồng nghiệp nơi tôi công tác đã luôn

ủng hộ, chia sẻ, động viên và khích lệ tôi trong suốt quá trình học tập

và nghiên cứu.

il

Trang 5

TÓM TẮT

Cho đến nay, dịch máy thống kê (SMT-Statistical Machine

Trans-lation) là phương pháp dịch máy được nghiên cứu nhiều và phổ biến nhất trước khi phát triển dịch máy mạng nơ-ron (NMT-Neutral Ma-

chine Translation) Hiện nay, dịch máy NMT là cách tiếp cận hiện đại,tiên tiến nhất (State-Of-The-Art)

Cả dịch máy SMT và NMT đều là các phương pháp dịch máy dựatrên dữ liệu (DDMT-Data Driven Machine Translation), cách tiếp cận

này sử dụng kho ngữ liệu song song lớn (Parallel corpus) chủ yếu do

con người dịch làm cơ sở để tạo ra các bản dịch Về bản chất, phương

pháp dịch máy DDMT là cách tiếp cận theo phương pháp thống kê Vì

vậy, để tạo ra một mô hình dịch máy chất lượng tốt phụ thuộc rất lớn

vào số lượng và chất lượng của ngữ liệu huấn luyện Đối với các miền

có sin kho ngữ liệu song song lớn, chang hạn như miền tin tức thì chất

lượng dịch thuật đạt mức cao Tuy nhiên, trong vô số miền đặc thù

khác không có kho ngữ liệu song song lớn, chang hạn như miền y tế

hoặc miền pháp luật, chất lượng bản dịch kém đến mức có thể không

chấp nhận được Việc dịch các văn bản thuộc chuyên ngành hẹp, miềnđặc thù có tập từ vựng không cùng phân bố với tập từ vựng của ngữ

liệu dùng để huấn luyện mô hình đang phải đối mặt với nhiều thách

thức, thích ứng miền trong dịch máy là một miền nghiên cứu nhằm

giải quyết các van đề này để tối ưu hóa bản dịch trong một ngữ cảnh

« DN 2

hoặc miên cụ thé.

Hiện nay, các phương pháp thích ứng miền trong dịch máy theo

hai hướng tiếp cận phổ biến là (1) Hướng mô hình (cải tiến mô hình

trong miền đích) và (2) Hướng dữ liệu (cải tiến chất lượng hoặc tăng

cường, bổ sung thêm dữ liệu miền để huấn luyện mô hình).

Trang 6

Luận án này tập trung giải quyết các thách thức đã nêu về thích

ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt, đã đề

xuất ba kỹ thuật thích ứng miền theo cả hai hướng tiếp cận trên, luận

án có ba đóng góp chính, cụ thể như sau:

(i)

(ii)

(iii)

Thứ nhất, đề xuất phương pháp tinh chỉnh bang cum từ

(phrase-table) cho SMT, đây là cách tiếp cận theo hướng mô hình Trong

SMT, mô hình dịch (translation model - còn gọi là bảng dịch cụm

từ) chứa danh sách các xác suất dịch của các cụm từ từ ngôn ngữ

nguồn sang ngôn ngữ đích theo cả hai chiều dịch, các xác suất

này được học tự động từ tập dữ liệu song ngữ Đề xuất này thực

hiện phân loại miền cho các cụm từ trong bảng cụm từ, từ đóđiều chỉnh, cập nhật lại xác suất dịch của các cụm từ này theo

hướng ưu tiên hơn trong miền đích

Thứ hai, đề xuất phương pháp sinh tự động dit liệu song ngữ cho

dịch máy, đây là cách tiếp cận theo hướng dữ liệu, cụ thể là tăng cường, bổ sung thêm dữ liệu cho huấn luyện Hiện nay, dịch máy NMT luôn trong tình trạng thiếu dữ liệu song ngữ để huấn luyện

mô hình, việc xây dựng dữ liệu song ngữ đủ lớn luôn là một thách

thức, đặc biệt dữ liệu song ngữ miền Do đó, luận án đã đề xuất

sử dụng ứng dụng Google Translate như một mô hình thành phần

trong các bước của kĩ thuật dịch ngược để sinh tự động dit liệu

giả song ngữ Đề xuất đặc biệt hiệu quả đối với các cặp ngôn ngữhoặc miền ít tài nguyên, giảm chi phí thời gian và có được dt liệu

giả song ngữ tốt hơn so với kĩ thuật dịch ngược thông thường

Thứ ba, đề xuất phương pháp cải tiến chất lượng của dữ liệu giả

song ngữ được sinh tự động ở đề xuất thứ hai, đây cũng là cách

tiếp cận theo hướng dt liệu nhưng mục đích là cải tiến chất lượngcủa dữ liệu cho huấn luyện Do đầu vào của phương pháp dịch

Trang 7

ngược là một văn bản nhưng văn bản này thường có nhiễu vì có

thể chứa các lỗi về chính tả, ngữ pháp nên ảnh hưởng tới chất lượng của đầu ra Để giảm nhiễu, luận án đề xuất sửa lỗi chính

tả, ngữ pháp tự động cho văn bản đầu vào trước khi đưa vào dịch

ngược Đề xuất này góp phần cải thiện chất lượng của dữ liệu giảsong ngữ được sinh tự động.

Từ khóa: dịch máy, dịch máy thống kê, dịch máy mạng nơ-ron,thích ứng miền

Trang 8

Mục lục

Lời cam đoan i

Lời cam ơn ii

Tom tat iii

Muc luc vi

Danh mục các từ viết tat ix

Danh muc cac bang x

Danh muc cac hinh vé xi

MỞ DAU 1

Tính cấp thiết của luậnán 1

Mục tiêu của luậnấn cố 4

Đóng góp của luậnấn c 5

Cấu trúc của luậnán 2 ẶẶ 7 1 TONG QUAN VE VAN DE NGHIEN CUU 9 1.1 Tổng quan về dich mấy 9

1.1.1 Khái niệm dich máấáy 9

1.1.2 Lịch sử dich máy 10

1.2 Dịch máy thống kê - 13

1.21 CosdtoAénhoc 0 02022002 14 1.2.2 Dich máy thống kê dựa vào từ 15

1.2.3 Dịch máy thống kê dựa vào cum từ 16

vi

Trang 9

Nội dung vii

1.3 Dịch máy mang nơron 17

1.3.1 Kiến trúc Encoder-Decoder 18

1.3.2 Kiến trúc Transformer 21

1.4 Những thách thức trong dich máấáy 23

1.5 Đánh giá chất lượng mô hình dich máy 25

1.5.1 Phương pháp đánh giá chủ quan 25

1.5.2 Phương pháp đánh giá khách quan 25

1.6 Thích ứng miền trong dịch máy - 28

1.6.1 Thich tng miền 28

1.6.2 Thích ứng miền trong dịch máy 28

1.7 Ứng dụng dịch tự động Google Translate j1 1.8 Các nghiên cứu liên quan 32

1.9 Các tập dữ liệu thử nghiệm 39

1.10 Kết luận Chương l_ 40

2 PHƯƠNG PHÁP TINH CHỈNH BANG CUM TỪ 42 2.1 Giới thiệu ee es 42 2.2 Phương pháp tinh chỉnh bang dịch cum từ 45

2.2.1 Bảng dịch cụntừ 45

2.3 Phân loại văn ban .4 49 2.3.1 Phương pháp tỉnh chỉnh bảng dịch cụm từ 50

2.4 Thực nghiệm QC 53 2.4.1 Tap dữ liệu và cài đặt thực nghiệm 53

2.4.2 Tiền xử lý dữ liệu 54

2.4.3 Các thực nghiệm 56

2.4.4 Kết quả thực nghiệm 58

2.5 Kết luận Chuong2 000.4 62 3 PHƯƠNG PHÁP SINH TU DONG DU LIEU SONG NGU 63 3.1 Giới thiệu ee 63 3.2 Phương phap sinh tự động dữ liệu song ngữ 66

Trang 10

Nội dung viii

3.2.1 Ky thuật dịch ngược trong dich méy 66

3.2.2 Phương phap sinh tự động dữ liệu song ngữ 67

3.3 Thực nghiệm cv 71 3.3.1 Tập dữ liệu và cài đặt thực nghiệm 71

3.3.2 Tiền xửlý dữliệu 72

3.3.3 Các thực nghiệm 73

3.3.5 Phân tích và thảo luận 76

3.4 Kết luận Chương 3_ 77

4 CẢI TIEN CHAT LƯỢNG CUA PHƯƠNG PHAP SINH TU DONG DU LIEU SONG NGU 79 41 Gidithiéu ee 79 4.2 Cai tiến chất lượng của phương pháp sinh tự động dit liệu song ngữ ee 81 43 Thực nghiệm 2 00 86 4.3.1 Tập dữ liệu và cài đặt thực nghiệm 88

4.3.2 Cài đặt thực nghiệm 92

4.4 Kết luận Chuong4 02000 102 KET LUAN 104 Tóm lược các kết quả va đóng góp của luậnán 104

Hạn chế và hướng phát triển của luậnán 105

DANH MỤC CÔNG TRÌNH KHOA HOC CUA TAC

GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 108

TÀI LIỆU THAM KHẢO 109

Trang 11

DANH MỤC CÁC TỪ VIET TAT

Gated Recurrent Unit (Don vị hồi quy cổng)

Long Short Term Memory (Bộ nhớ dài ngắn hạn)

Natural Language Processing (Xử lý ngôn ngữ tự nhiên)

Neural Machine Translation (Dịch máy mạng nơ-ron)

Phrase-Based Statistical Machine Translation

(Dịch máy dựa trên cụm từ)

Position-independent word Error Rate

(Tỷ lệ lỗi từ độc lập vị trí)

Recurrent Neural Network (Mạng nơ-ron hồi quy)Statistical Machine Translation (Dịch máy thống kê)

Translation Error Rate (Tỷ lệ lỗi dịch)

Word Error Rate (Tỷ lệ lỗi từ)

1X

Trang 12

Một số ví du kết qua dich của các mô hình 61

Kết quả thực nghiệm với phương pháp sinh tự động ditliệu song ngữ ca 75

Dữ liệu huấn luyện mô hình vnCheck 89

Chi tiết về tap dữ liệu để tao từ điển cum tt? 2 91

Đánh giá chất lượng mô hình vnCheck 93

Một số ví dụ sửa lỗi ngữ pháp của các mô hinh 94Kết quả khi không áp dụng mô hình vnCheck 95

Kết quả khi áp dụng mô hình vnCheck 98

Ví dụ kết quả dịch của Google Translate khi áp dụng và

không 4p dụng mô hình vnCheck 101

Trang 13

Tổng quan bài toán dich méy

Tam giác Vauquois mô tả các phương pháp dịch

Kiến trúc cơ bản của mô hình dịch máy thống ké

Ví dụ minh hoa quá trình dịch dựa vào cụm từ

Kiến trúc mã hóa - giải mã (Encoder — Decoder)

Kiến trúc tổng quát của dịch máy mạng nơ-ron

Kiến trúc Transformer

Ứng dụng dịch tự động Google Translate sử dụng kiến

tric mang ñƠ-TON 200005 2 ae

Phương pháp tinh chỉnh bảng dich cum tt

Ví dụ một vài kết quả phân loại miền cụm từ

Ví dụ xác suất dịch của cụm từ trong bảng cụm tt

Chất lượng dịch của GNMT so với người dịch, điểm nằm

trong khoảng từ 0 đến 6, với 0 nghĩa là "bản dịch hoàn

toàn vô nghĩa” và 6 nghĩa là "bản dịch hoàn hao”.

Mô tả kỹ thuật dịch ngược

Mô tả phương pháp sinh tự động dữ liệu song ngữ cho

dịch mấy ee ee

So sánh chất lượng bản dịch khi dịch trong miền pháp

luật và miền chung

Xl

10 11 14

17

19 20 22

Trang 14

Danh muc các hành vé xi

4.1 Đề xuất cải tiến chất lượng phương pháp sinh tự động

dữ liệu song ngữ cho dịch mấy 814.2 Phương pháp sửa lỗi cho văn bản tiếng Việt 83

4.3 Quá trình tạo từ điển cụm từ S5

4.4 Dịch ngược sử dung Google Translate với dữ liệu đầu vào

không áp dụng mô hình vnCheck 98

4.9 So sánh điểm BLEU của các mô hình khi sử dung và

không sử dung kĩ thuật cắt tỉa bảng cum từ 99

Trang 15

MỞ ĐẦU

1 Tính cấp thiết của luận án

Dịch máy là một trong những lĩnh vực nghiên cứu khó và lâu đời

trong trí tuệ nhân tạo, thu hút sự quan tâm của nhiều nhóm nghiên cứu

trên thế giới Trong quá trình phát triển, các mô hình dịch máy được

sử dụng nhiều nhất là dịch máy thống kê dựa trên cụm từ (PBSMT)

[62] và dịch máy mạng nơ-ron (NMT) [119, 123] Trong thập kỷ qua,

bên cạnh dịch máy dựa trên cụm từ với các ưu điểm dịch đầy đủ, dễ

can thiệp xử lý gỡ lỗi, gần đây dịch máy mạng nơ-ron đã cho thấy

nhiều ưu điểm hơn so với dịch máy dựa trên cum từ [7, 15] Các ưu

điểm điển hình của dịch máy nơ-ron có thể kể tới dịch trôi chảy hơn,

sát nghĩa hơn Tuy nhiên, dịch máy mạng nơ-ron vẫn còn trường hợp

dịch không đầy đủ, hiện tượng từ chưa biết (unkown word) nhiều, quá

trình dịch như hộp đen nên khó can thiệp xử lý và gỡ lỗi Những vấn

đề của dịch máy mạng nơ-ron đã được chỉ ra trong các nghiên cứu

[94, 101].

Do các mô hình dịch máy SMT và NMT đều là các mô hình hướng

dữ liệu (DDMT) nên mô hình dự đoán không tốt khi tập dữ liệu thực

nghiệm và tập huấn luyện không cùng phân bố [101, 110], đây cũng là

thách thức cần giải quyết trong dịch máy, vấn đề này còn được gọi là

1

Trang 16

Mở đầu 2

thích ứng miền Mục tiêu của thích ứng miền là đưa ra giải pháp nhằm

giảm sự khác biệt về phân phối miền giữa miền nguồn và miền đích để kiến thức đã học từ miền nguồn có thể được áp dụng cho miền đích,

có nhiều nghiên cứu đã được công bố cho cả phương pháp dịch máy

SMT và NMT được trình bày trong công trình [14] Hiện nay, thích

ứng miền trong dịch máy là bài toán còn nhiều thách thức và vẫn đượcnhiều nhóm nghiên cứu quan tâm [16, 44, 72, 98, 108, 109, 135]

Thích ứng miền cho dịch máy DDMT chủ yếu được chia thành haihướng tiếp cận chính: (1) Hướng dữ liệu (data centric) và (2) Hướng mô

hình (model centric) Trong dich máy SMT, các phương pháp hướng

dữ liệu tập trung vào việc chọn dữ liệu huấn luyện từ kho ngữ liệu

song ngữ ngoài miền dựa trên mô hình ngôn ngữ (LM) [9, 27, 79] hoặc

sinh đữ liệu giả song ngữ [70, 129, 130] Các phương pháp hướng mô

hình tập trung vào việc nội suy mô hình trong miền (in-domain) và môhình ngoài miền (out-domain) ở mức mô hình [53, 110] Tuy nhiên, do

các đặc điểm khác nhau của SMT và NMT, nhiều phương pháp thích ứng miền được nghiên cứu cho SMT không thể áp dụng trực tiếp được

cho NMT Trong dich máy NMT, các phương hướng dữ liệu tập trung

vào dit liệu đang được sử dụng hơn là các mô hình chuyên biệt, dữ liệu

được sử dụng có thể là ngữ liệu đơn ngữ miền [19, 25, 40, 136], hoặc

dữ liệu giả song ngữ (synthetic corpora) [31, 95, 112, 138], hoặc dữ liệu

song ngữ (parallel corpora) [23, 45, 78] Mặt khác, hướng mô hình tập trung vào xây dựng các mô hình NMT chuyên biệt [10, 66, 120, 137],

hoặc cải tiến kiến trúc NMT [26, 64, 131] hoặc cải tiến các thuật toán

giải mã [140].

Hiện nay, nghiên cứu về thích ứng miền trong dịch máy chủ yếu tập

trung vào các cặp ngôn ngữ giữa tiếng Anh và một số ngôn ngữ phổ

biến như tiếng Trung, tiếng Ấn độ, và một số ngôn ngữ Châu Âu như

Trang 17

Mở đầu 3

tiếng Pháp, tiếng Tây Ban Nha Dối với cặp ngôn ngữ Anh-Việt, chưa

có nhiều nghiên cứu về thích ứng miền mặc dù các nghiên cứu nhằm

cải tiến chất lượng dịch máy cho cặp ngôn ngữ này đã và đang đượcquan tâm nhiều [24, 77, 83, 85, 99] Lĩnh vực nghiên cứu này còn nhiều

thách thức như:

1 Thiếu tài nguyên song ngữ; chưa tận dụng, khai thác được hết

các dạng tài nguyên ngôn ngữ có sẵn.

— Năm 2015, hội thảo quốc tế về dịch tiếng nói (IWSLT) đã

công bồ bộ dữ liệu cho cuộc thi về dịch máy Anh-Việt, bộ dữliệu gồm 133.137 cặp câu từ các bài trình bày trên website

TED (www.ted.com).

— Năm 2020, hội thao quốc tế về xử lý tiếng nói và ngôn ngữ

tiếng Việt (VLSP) đã công bố bộ dữ liệu cho cuộc về dịch

máy Anh-Việt [41], gồm khoảng 4,2 triệu cặp câu được thuthập từ nhiều nguồn và miền khác nhau (từ Open subtitle

chiếm 3,5 triệu cặp câu là các phụ đề phim; TED-like chiếm546.000 cặp câu thuộc các bài trình bày về giáo dục và công

nghệ; EVBcorpus chiếm 45.000 cặp câu thuộc nhiều miềnkhác nhau; Wiki-ALT chiếm 20.000 cặp câu từ các bai bao;

từ miền tin tức chiếm 20.000 cặp câu, còn lại khoảng 8.800

cặp câu từ các đoạn hội thoại ngắn)

— Năm 2021, nhóm nghiên cứu VinAT [24] đã công bố cho cộng

đồng nghiên cứu tập dữ liệu gồm 3,02 triệu cặp câu Anh-Việt

nhưng chủ yếu thuộc miền chung (miền tin tức, blog, wikl, ),

bộ dữ liệu này vẫn bị hạn chế đối với các miền đặc thù ví dự

như miền y tế, thể thao, pháp luật.

— Năm 2022, nhóm nghiên cứu VietAI [82] đã công bố, đóng

góp cho cộng đồng nghiên cứu dịch máy bộ dữ liệu song ngữ

Trang 18

Mở đầu 4

đa miền MTet (gồm 11 miền) với gần 4,2 triệu cặp câu

Anh-Việt, tuy nhiên số lượng dữ liệu song ngữ, đặc biệt là song

ngữ miền trong bộ dữ liệu trên vẫn chưa đủ để huấn luyện

một hệ dịch Anh-Việt đủ tốt, đáp ứng nhu cầu sử dụng của

con người Hơn nữa, bộ dữ liệu trên bao gồm 11 miền, sốlượng cặp câu song ngữ cho từng miền vẫn còn hạn chế

2 Các nghiên cứu về thích ứng miền trên thế giới chủ yếu đối với

các cặp ngôn ngữ phổ biến, chưa có nhiều nghiên cứu riêng cho

các cặp ngôn ngữ ít tài nguyên, đặc biệt là tích hợp các đặc trưng

của từng ngôn ngữ, điều này đặc biệt đúng trong dịch máy thống

kê, vấn đề này đã được trình bày trong [14]

3 Dối với cặp ngôn ngữ Anh-Việt, theo hiểu biết của tác giả, hiện

nay mới có nghiên cứu của tác giả Nguyễn Tiến Hà về xây dựng

tài nguyên song ngữ Việt - Anh ứng dụng trong dịch máy miền

du lich [52], cải tiến chất lượng dịch máy tiếp cận theo hướng dựa

vào dữ liệu (data centric).

Với mong muốn giải quyết các vấn đề tồn tại, thách thức của thích

ứng miền trong dich máy cho ngôn ngữ Anh-Việt đã gợi ý và thúc day tác giả lựa chọn nghiên cứu đề tài: "Nghién cứu một số kỹ thuật thích ứng miền trong dich máy thống kê Anh- Việt”.

2 Mục tiêu của luận án

Luận án cung cấp cái nhìn tổng quan, đầy đủ về vấn đề thích ứng miền trong dịch máy thống kê Anh-Việt ở thời điểm hiện tại, đồng

thời nghiên cứu đề xuất các phương pháp nhằm nâng cao chất lượng

bản dịch theo miền cụ thể của dịch máy thống kê Anh-Việt.

2 oA 2 2 a Pa x

Các mục tiêu cụ thé của luận án gồm:

Trang 19

Mở đầu 5

1 Nghiên cứu đề xuất các phương pháp giải quyết bài toán thích ứng

miền trong dịch máy thống kê dựa vào cụm từ (PBSMT-Phrase

based Statistical Machine Translation) theo hướng tiếp cận mô

hình, áp dụng cho cặp ngôn ngữ Anh-Việt.

2 Nghiên cứu đề xuất các phương pháp giải quyết bài toán thích

ứng miền trong dịch máy NMT theo hướng tiếp cận dữ liệu, áp

dụng cho cặp ngôn ngữ Anh-Việt.

Đề thực hiện các mục tiêu này, luận án triền khai thực hiện các nội dung sau:

1 Thu thập dữ liệu song ngữ Anh-Việt thuộc miền chung (các văn

bản chứa nội dung của nhiều miền khác nhau) và các miền khác,trong đó miền pháp luật được ưu tiên

2 Thu thập dữ liệu đơn ngữ tiếng Việt thuộc miền chung và miền

pháp luật.

3 Nghiên cứu kiến trúc, quá trình sinh ra bang cụm từ và quá trình

giải mã trong dịch máy SMT, từ đó đề xuất phương pháp để bộ

giải mã (decoder) chọn các giả thuyết dịch được ưu tiên hơn theo

miền đích

4 Nghiên cứu một số phương pháp tăng cường, bổ sung dữ liệu huấn

luyện cho dịch máy, từ đó đề xuất phương pháp sinh tự động dữ

liệu song ngữ miền đối với cặp Anh-Việt cho dịch máy NMT

5 Nghiên cứu một số kỹ thuật tiền xử lý, chuẩn hoá dữ liệu để giảm

các nhiễu phổ biến xuất hiện trong dữ liệu, từ đó đề xuất phương

pháp cải tiến chất lượng của dữ liệu giả song ngữ Anh-Việt được

sinh bởi phương pháp dịch ngược, sau đó bổ sung kho ngữ liệu

giả song ngữ này vào huấn luyện mô hình dịch máy NMT

Trang 20

Mở đầu 6

3 Đóng góp của luận án

Luận án đã đạt được ba kết quả chính sau:

e Một là, đề xuất phương pháp tinh chỉnh bang cụm từ

(phrase-table) cho SMT, đây là cách tiếp cận theo hướng mô hình Trong

SMT, mô hình dịch (translation model - còn gọi là bảng dịch cụm

từ) chứa danh sách các xác suất dịch của các cụm từ từ ngôn ngữ

nguồn sang ngôn ngữ đích theo cả hai chiều dịch, các xác suất

này được học tự động từ tập dữ liệu song ngữ Đề xuất này thựchiện phân loại miền cho các cụm từ trong bảng cụm từ, từ đó

điều chỉnh, cập nhật lại xác suất dịch của các cụm từ này theohướng ưu tiên hơn trong miền đích Kết quả này được công bố

trong |CT7|.

e Hai là, đề xuất phương pháp sinh tự động dữ liệu song ngữ cho

dịch máy, đây là cách tiếp cận theo hướng dữ liệu, cụ thể là tăng cường, bổ sung thêm dữ liệu cho huấn luyện Hiện nay, dịch máy

NMT luôn trong tinh trạng thiếu dữ liệu song ngữ để huấn luyện

mô hình, việc xây dựng dữ liệu song ngữ đủ lớn luôn là một tháchthức, đặc biệt dữ liệu song ngữ miền Do đó, luận án đã đề xuất

sử dụng Google translate như một mô hình thành phần trong các

bước của kĩ thuật dịch ngược để sinh tự động dữ liệu giả song

ngữ Dề xuất đặc biệt hiệu quả đối với các cặp ngôn ngữ hoặc

miền ít tài nguyên, giảm chi phí thời gian và có được dữ liệu giả

song ngữ tốt hơn so với kĩ thuật dịch ngược thông thường Cáckết quả liên quan được công bố trong [CT4, CT5]

e Da là, đề xuất phương pháp cải tiến chất lượng của dữ liệu giả

song ngữ được sinh tự động ở đề xuất thứ hai, đây cũng là cách

tiếp cận theo hướng dit liệu nhưng mục đích là cải tiến chất lượng

Trang 21

Mỏ đầu 7

của dit liệu cho huấn luyện Do đầu vào của phương pháp dich

ngược là một văn bản nhưng văn bản này thường có nhiễu vì có

thể chứa các lỗi về chính tả, ngữ pháp nên ảnh hưởng tới chất lượng của đầu ra Để giảm nhiễu, luận án đề xuất phương pháp

sửa lỗi chính tả, ngữ pháp tự động cho văn bản đầu vào trước khiđưa vào dịch ngược Dề xuất này góp phần cải thiện chất lượng

của dữ liệu giả song ngữ được sinh tự động Kết quả này được

trình bày trong [CT6, CT8].

Các nội dung và kết quả nghiên cứu trình bày trong luận án đã đượccông bố trong 08 công trình Trong đó, 03 báo cáo trong kỷ yếu của

hội nghị quốc tế có phản biện, được xuất bản bởi IEEE hoặc Springer;

03 báo cáo trong kỷ yếu của hội thảo quốc gia có phản biện; 01 bàibáo ở tạp chí trong nước có phản biện và 01 bài báo ở tạp chí quốc tế

có phản biện.

4 BO cục của luận án

Ngoài phần Mở đầu, Kết luận thì nội dung chính của luận án được tổ chức thành bốn chương, cụ thể:

e Chương 1 Trình bày tổng quan van đề nghiên cứu và các van

đề khác có liên quan tới luận án

e Chương 2 Trình bày nội dung, kết quả nghiên cứu của phương

pháp tinh chỉnh bảng cum từ cho dịch máy thống kê Anh-Việt

e Chương 3 Trình bày nội dung, kết quả nghiên cứu của phương

pháp sinh tự động dữ liệu song ngữ để tăng cường, bổ sung thêm

dữ liệu huấn luyện cho tập dữ liệu song ngữ ban đầu

Trang 22

Mở đầu §

e Chương 4 Trình bày nội dung, kết quả nghiên cứu của đề xuất

cải tiến chất lượng dữ liệu giả song ngữ được sinh tự động bởi

phương pháp được trình bày trong Chương 3.

Bồ cục của luận án được thể hiện như Hình 1.

Nội dung luận án

Một số kỹ thuật thích ứng miền trong

dịch máy thông kê Anh-Việt

Giải quyết bài toán — | Xa

(theo hai hướng tiếp cận) Ket luận

sinh tự động dữ liệu song ngữ

Hình 1 : Bồ cục của luận án

Trang 23

Chương 1

TONG QUAN VỀ VAN ĐỀ NGHIÊN

CỨU

Chương này trình bày tổng quan về các vấn đề nghiên cứu trong

luận án, bao gồm: dịch máy (Machine Translation - MT), dịch máy

thống kê (Statistical Machine Translation - SMT), dịch máy mạng

nơ-ron (Neural Machine Translation), mô hình dịch máy thống kê dựa

trên cụm từ (Phrase-based SMT), bài toán thích ứng miền trong dịch

máy; Dưa ra phân tích, đánh giá các công trình nghiên cứu liên quan,

các van đề còn tồn tại mà luận án sẽ tập trung giải quyết và xác định

nội dung nghiên cứu của luận án ở phần cuối chương

1.1 Tong quan về dịch máy

1.1.1 Khái niệm dich máy

Theo từ điển Cambridge, dịch máy (Machine Translation - MT) là

quá trình chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác

bằng máy tính

Trang 24

Chương 1 Tổng quan vé van đề nghiên cứu 10

Ngoài ra, khái niệm dịch máy cũng được nhiều tác giả đã định

nghĩa, tuy có một vài điểm khác biệt nhưng hầu hết đều tương đương với định nghĩa sau: dịch máy là một mô hình sử dụng máy tính để chuyển đổi văn bản (hoặc âm thanh) từ một ngôn ngữ tự nhiên này

sang một ngôn ngữ tự nhiên khác.

Ngôn ngữ của văn bản (hoặc âm thanh) cần dịch còn gọi là ngôn

ngữ nguồn, ngôn ngữ của bản dịch được gọi là ngôn ngữ đích Tổng quan của bài toán dịch máy có thể mô tả như Hình 1.1.

Âm thanh

Hình ảnh

Tín hiệu

Văn bản

Hình 1.1 : Tong quan bài toán dịch may

1.1.2 Lich sử dich may

Những ý tưởng đầu tiên của dịch máy xuất hiện từ thế ky 17,

Descartes và Leibniz đã đề xuất các lý thuyết để tạo ra những bộ từ điển bằng cách sử dụng các mã số học chung Quá trình phát triển,

lĩnh vực dịch máy đã có nhiều thăng tram Nhìn chung, các cách tiếp

cận ban đầu đối dịch máy là dịch trực tiếp dựa vào các luật và các

từ điển dịch, sau đó là phương pháp dịch chuyển đổi và phương pháp

dịch dựa trên tri thức như dịch liên ngữ Tam giác Vauquois như Hình

Trang 25

1.2 được tác giả Bernard Vauquois [124] trình bày, mô tả các phương

Hình 1.2 : Tam giác Vauquois mô tả các phương pháp dịch

Hình 1.2 mô tả quá trình dịch văn bản từ ngôn ngữ nguồn sangngôn ngữ đích theo ba phương pháp khác nhau:

1 Phương pháp dịch trực tiếp, hệ thống sẽ dịch bằng cách thay

thế đơn giản những từ hoặc cụm từ trong ngôn ngữ nguồn bằngnhững từ hoặc cụm từ tương ứng trong ngôn ngữ đích.

2 Phương pháp dịch chuyển đổi, hệ thống thực hiện theo ba bước,

đầu tiên là chuyển đổi văn bản ở ngôn ngữ nguồn thành một dạng biểu diễn trung gian (thường là cây phân tích cú pháp), sau đó

thực hiện chuyển các biểu diễn trung gian này thành dạng văn

bản tương ứng trong ngôn ngữ đích, cuối cùng là sinh ra văn bản

ở ngôn ngữ đích.

3 Phương pháp dịch liên ngữ, hệ thống thực hiện chuyển đổi văn

bản từ ngôn ngữ nguồn sang văn ban 6 ngôn ngữ trung gian trước

Trang 26

khi thực hiện chuyển văn bản từ ngôn ngữ trung gian thành văn

bản ở ngôn ngữ đích.

Đầu năm 1990, một bước ngoặt lớn là có sự quan tâm nhiều hơncủa nhiều nhà nghiên cứu trong dịch máy dựa vào dit liệu Với sự phát

triển mạnh mẽ của Internet, nhu cầu trao đổi thông tin bùng no cùng

với sự tích lũy kiến thức về mặt ngôn ngữ, sức mạnh của máy tínhtăng lên và có nhiều kết quả mới về mặt lý thuyết, cho nên việc phát

triển các mô hình dịch tự động trở nên rất cần thiết.

Dịch dựa trên ví dụ là một trong những phương pháp tiếp cận sớmđược đưa ra trong dịch máy theo hướng dữ liệu [107] Nó cỗ gắng tim

một câu tương tự với đầu vào đã cho trong ví dụ được dịch trước đó

Sau đó, tạo ra những thay đổi thích hợp cho bản dịch được lựa chọn.

Phương pháp này nhanh hơn dựa trên luật nhưng không đảm bảo bản

dịch tốt hơn

Do sự gia tăng sức mạnh tính toán và khả năng tiếp cận các dữ liệu

lớn, phương pháp thống kê đã được đề xuất để thực hiện phân tích

sâu hơn so với các phương pháp tiếp cận dựa trên ví dụ Năm 1990,

Brown và cộng sự đã trình bày mô hình toán học của dịch máy thống

kê [97], tới năm 1993 thì các tác giả giới thiệu năm mô hình thống kê

được gọi là mô hình IBM và đưa ra các thuật toán để ước lượng các

tham số của mô hình [S] Mặc dù nhóm tác giả nghiên cứu trên mộtnền tảng toán học vững chắc nhưng vẫn chưa có nhiều nghiên cứu tậptrung cho dịch máy.

Năm 1999, nhiều nhà nghiên cứu đã cùng nhau cài đặt lại các môhình IBM tại hội thao mùa hè tại Dai học Johns Hopkins, nhóm tácgiả Al-Onaizan và cộng sự trong sáu tuần tại hội thảo đã cài đặt công

cụ dịch máy thống kê (SMT) (gọi là EGYPT) [3] và công cụ GIZA [90]

Trang 27

được đề cập trong báo cáo kỹ thuật cho việc gióng từ Franz Och sau

đó mở rộng các công cụ gióng từ thành GIZA++ [57], bổ sung thêm

nhiều tính năng cho việc học mô hình dịch thống kê từ dữ liệu văn bản

va được cài đặt như trong mô tả của Brown và cộng sự năm 1993 [8],

của Vogel và cộng sự năm 1996 [125] và của Och năm 2000 [90, 91].

Từ năm 2013, dịch máy phát triển sang một giai đoạn mới, bắt đầu

từ đề xuất kiến trúc mã hóa - giải mã (Encoder - Decoder) cho môhình dịch máy mạng nơ-ron [59], hiện nay kiến trúc Transformer [123]

được đánh giá là hiện đại, tiên tiến nhất (State-Of-The-Art) Với các

phương pháp dịch dựa trên mạng nơ-ron, kỹ thuật khai phá tri thức

từ kho ngữ liệu được thực hiện nhờ khả năng tính toán và lưu trữ của

máy tính, điều này đã làm thay đổi hoàn toàn các phương pháp dịch

truyền thống, mang lại chất lượng cao cho các mô hình dịch Một số

hệ dịch đã được ứng dụng phổ biến, tiêu biểu như hệ dịch tự động Google translate!, Bing Microsoft Translator 2.

1.2 Dịch máy thống kê

Dịch máy thống kê (SMT- Statistical Machine Translation) là một

phương pháp tiếp cận của dịch máy dựa trên phân tích thống kê tập

dữ liệu các cặp câu từ hai ngôn ngữ (ngữ liệu song ngữ).

Các phương pháp tiếp cận thống kê tương phản với các phươngpháp tiếp cận dựa trên luật trong dịch máy Thay vì xây dựng các từ

điển, các quy luật chuyển đổi bằng tay, hay ghi nhớ các đoạn giống

nhau từ kho ngữ liệu, dịch máy thống kê tự động xây dựng các từ

điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ

1 https://translate.google.com/

2 https://www.bing.com/translator

Trang 28

liệu Chính vì vậy, dịch máy dựa vào thống kê có tính linh hoạt cao,

áp dụng được cho bất kỳ cặp ngôn ngữ nào

1.2.1 Cơ sở toán hoc

Cơ sở toán học của dịch máy thống kê được Brown và cộng sự đề

xuất năm 1990 [97], hoạt động được mô tả như Hình 1.3

Hệ thông dịch máy thông kê

Hình 1.3 : Kiến trúc cơ bản của mô hình dịch máy thống kê

Bài toán dịch máy thống kê có thể được mô tả như sau: gọi 5 là câu

trong ngôn ngữ nguồn và T là câu trong ngôn ngữ dich, cặp (S, 7) là

cặp câu tương đương dịch Ứng với mỗi câu S$ được cho bat kỳ, ta đi

tìm câu 7' hợp lý nhất (là câu được dịch gần đúng nhất của câu nguồnsang câu đích), nghĩa là ta phải đi tìm xác suất P(S, 7) cực đại Vì S$

và 7' phụ thuộc lẫn nhau nên theo lý thuyết xác suất có điều kiện:

P(S,T) = P(S) + P(T | S) (1.1)

Trang 29

Khi đó bai toán dịch trở thành:

Trong công thức 1.3, mau số không phụ thuộc vào T, do đó bài

toán dịch máy trở thành tìm 7 để P(T)P(S | T) đạt giá trị lớn nhất.

Gọi P(T) là xác suất mô hình ngôn ngữ và P( | 7) là xác suất môhình dịch, khi đó một hệ thống dịch máy thống kê đòi hỏi một phương

pháp tính toán xác suất mô hình ngôn ngữ, một phương pháp tính

toán xác suất mô hình dịch và một phương pháp tìm kiếm câu đích 7

mà có giá trị P(T)P(S | 7) là lớn nhất

1.2.2 Dich máy thống kê dựa vào từ

Những năm 1990, IBM [8] đã đề xuất giải thuật cho năm mô hìnhdịch thống kê dựa vào từ (word-based) là IBM1, IBM2, IBM3, IBM4,IBM5 Các mô hình này được sử dụng rộng rãi trong các công trình

nghiên cứu về dịch máy thống kê sau này Phương pháp này, đơn vị

cơ sở được dịch là các từ Số từ trong câu được dịch là khác nhau phụthuộc vào các từ ghép, hình thái từ và thành ngữ Tuy nhiên, tùy vào

đặc điểm của ngôn ngữ, như cặp ngôn ngữ Anh-Việt cũng giống với

cặp ngôn ngữ Anh-Trung, Anh-Nhật, , hệ dịch phải đối mặt với khó

Trang 30

khăn trong quá trình sắp xếp trật tự của các từ tiếng Anh tương ứng

khi dịch sang câu tiếng Việt Trong quá trình dịch, kết nối từ tiếng Anh

tương ứng với từ tiếng Việt có thể là 1-1, 1-không, 1-nhiều, nhiéu-1

hoặc nhiều-nhiều Mô hình dịch dựa trên đơn vị từ không cho kết quả

tốt trong trường hợp kết nối nhiều-1, 1-nhiều hoặc nhiều-nhiều với trật

từ các từ trong câu tương ứng là khác nhau Khi đó, phân tích dựa

trên đơn vị cụm từ (phrase-based) được đề xuất để giải quyết vấn đề

này.

1.2.3 Dịch máy thống kê dựa vào cum từ

Mô hình này là mở rộng của mô hình dịch máy trên cơ sở từ, nhằmgiải quyết những hạn chế của mô hình dịch máy thống kê trên cơ sở

từ bang cách dịch các cum từ (phrase-based) [63] Trong đó độ dài các

cụm từ nguồn và cụm từ đích có thể khác nhau Khái niệm cụm từ ở

đây khác với cụm từ trong ngôn ngữ học, nó là một chuỗi các từ liền

nhau, được xác định bằng cách sử dụng các phương pháp thống kê để

trích rút từ các cặp câu song ngữ.

Trong [63], Koehn đã mô tả một cách khái quát quá trình dịch

thống kê dựa trên cụm từ như sau:

— Câu nguồn được tách thành các cụm từ

— Mỗi cum từ được dịch sang ngôn ngữ đích.

— Các cụm từ đã dịch được sắp xếp theo một thứ tự phù hợp

Ví dụ, Hình 1.4 minh họa quá trình dịch thống kê dựa trên đơn

vị cụm từ Ở đây, đầu vào là một câu tiếng Anh được tách thành các

cụm từ riêng biệt, mỗi cụm từ này sau đó được dịch lần lượt sang ngôn

ngữ đích (ở day là tiếng Việt), các cum từ này có độ dài có thể khác

Trang 31

nhau, sau đó thứ tự các cụm từ ở phía ngôn ngữ đích được sắp xếp lại

(reorder) cho phù hợp.

Input sentence | am living in a peaceful country

Output sentence | Tôi đang sống tại một thanh_ bình đất nước

Sentence is reordered | = Tdi dang sống tai một đất nước thanh_bình

Hình 1.4 : Ví dụ minh họa quá trình dịch dựa vào cụm ttt

Trước khi dịch máy mạng nơ-ron [69, 76, 80, 106, 116] phát triển,

phương pháp dịch máy thống kê dựa vào cụm từ đã cho thấy đây

là phương pháp dịch máy tốt nhất được biết đến, chiếm ưu thế trong

nghiên cứu cũng như trong thương mại vì hiệu quả của nó Mặc dù chất

lượng tốt hơn phương pháp dịch thống kê dựa trên đơn vị từ nhưng

phương pháp dịch thống kê dựa trên cụm từ vẫn chưa giải quyết được

một số vấn đề như ngữ pháp, khả năng lựa chọn cụm từ với tính chính

xác cao, dịch tên riêng, từ vựng có hạn [100].

1.3 Dịch máy mạng nơ-ron

Dịch máy mạng no-ron (Neural Machine Translation - NMT) là phương pháp sử dụng mang nơ-ron nhân tao (Artificial Neural Network

- NN) để giải quyết bài toán dịch máy (Machine Translation - MT).

Như trình bay ở trên, phương pháp dich theo cụm từ (phrase-based)

hoạt động theo cách chia nhỏ câu thành các cụm từ riêng biệt và tiếnhành dịch từng cụm từ một, sau đó các cụm từ này được ghép lại thành

một câu hoàn chỉnh, phương pháp này cho kết quả còn nhiều hạn chế

do cách tiếp cận không thực sự giống với cách mà con người sử dụng

Trang 32

trong dịch thuật, đó là đọc toàn bộ câu nguồn, hiểu ý nghĩa của toàn

bộ câu sau đó mới đưa ra câu dịch tương ứng Khác với phương pháp

dịch theo cụm, phương pháp dịch máy mạng nơ-ron tiếp cận hoàn toàntheo cách mà con người dịch, các kết quả cho thấy đây là cách tiếp cận

tốt hơn các phương pháp trước đây, chất lượng dịch có thể gần bằng

hoặc ngang với con người đối với một số cặp ngôn ngữ phổ biến và có

sự tương đồng cao như tiếng Anh - tiếng Pháp, tiếng Anh - tiếng Tây

Ban Nha [132].

Nam 2014, Sutskever và cộng sự đã dé xuất mô hình Seq2Seq

(Se-quence to Se(Se-quence) cho dịch máy mạng nơ-ron [119] Theo đó, một

câu đầu vào sẽ được dịch bằng cách đưa vào một bộ mã hóa và nối

tiếp với một bộ giải mã để dịch ra một câu ở ngôn ngữ khác Mô

hình này thực hiện mã hóa một chuỗi từ từ ngôn ngữ nguồn vào một

véc tơ liên tục (Continuous Vector) sử dụng mạng nơ-ron tích chập

(Convolutional Neural Network) và sau đó sử dụng mạng nơ-ron hồi

quy (Recurrent Neural Network) như là bộ giải mã để chuyển véc tơ

mã hóa trong quá trình mã hóa thành chuỗi từ ở ngôn ngữ đích Công

trình này được xem như mô hình dịch máy mạng nơ-ron đầu tiên Từ

những thành quả bước đầu đó, nhiều kiến trúc dịch máy mạng nơ-ron

đã được đề xuất và có những kết quả hứa hẹn, cho thấy sức mạnh vượttrội của phương pháp dịch mấy mạng nơ-ron so với các phương pháp

dịch máy truyền thống trước đây

1.3.1 Kiến trúc Encoder-Decoder

Đây là kiến trúc đầu tiên của mô hình dịch máy mạng nơ-ron, đặtnền móng cho các mô hình hiệu quả sau này Như đã mô tả ở trên,

dịch máy NMT bắt chước cách dịch của con người, gồm hai bước: đầu

tiên là đọc toàn bộ nội dung câu ở ngôn ngữ nguồn để hiểu ý nghĩa

Trang 33

rồi sau đó mới dịch câu đó sang ngôn ngữ mong muốn Vì thế, kiến

trúc đầu tiên của dịch máy NMT gồm hai thành phần là bộ mã hóa

(Encoder) và bộ giải mã (Decoder) [119], được mô tả như Hình 1.5 Bộ

mã hóa và bộ giải mã có thể được xây dựng từ những kiến trúc mạng

như RNN (Recurrent Neural Network) [105], LSTM (Long Short-term Memory) [47] hoặc GRU (Gate Recurrent Unit) [12].

0.5

lam a student Tôi là sinh viên

Hình 1.5 : Kiến trúc mã hóa - giải mã (Encoder - Decoder)

Như mô tả trong Hình 1.5, đầu vào của bộ mã hóa (encoder) là một

câu, bộ này thực hiện mã hóa toàn bộ câu nguồn và đầu ra là một véc

tơ biểu diễn ý nghĩa của câu Sau đó, bộ giải mã (decoder) sử dụng véc tơ này làm đầu vào để sinh câu dịch tương ứng trong ngôn ngữ đích Quá trình này được thể hiện chỉ tiết như trong Hình 1.6.

Hình 1.6 mô tả quá trình mã hóa và giải mã, mô hình này đọc mộtcâu “J am a student” ở ngôn ngữ nguồn và sinh ra câu dịch ”79 là sinh

vién” 6 ngôn ngữ dich.

O đây, bộ mã hóa và bộ giải mã đều được cấu tạo từ hai lớp RNN

cùng chiều chồng lên nhau, ký hiệu < s > và < /s > sử dụng để báo

hiệu bắt đầu và kết thúc quá trình giải mã Ngoài hai lớp RNN chồng

lên nhau ở bộ mã hóa và giải mã, còn có ba lớp mạng nơ-ron khác

gồm:

1 Một lớp embedding ở bộ mã hóa.

Trang 34

target output words

Hình 1.6 : Kiến trúc tổng quát của dich máy mang nơ-ron

2 Một lớp embedding và một lớp projection ở bộ giải mã (hai lớp

này dùng chung bộ trọng số, chỉ ngược chiều)

Trong đó, lớp embedding có vai trò chuyển một từ trong không gian

từ điển (vocab) của ngôn ngữ sang không gian véc tơ (có chiều tương

ứng với không gian của véc tơ ngữ cảnh), lớp projection ở bộ giải mã

có vai trò ngược lại, chuyển một từ thuộc không gian véc tơ sang không gian từ điển (vocab) của ngôn ngữ.

Có thể thấy, trong không gian véc tơ này thì bộ mã hóa đóng vai

trò nén ngữ nghĩa của một câu (tập hợp các từ thuộc không gian véc

tơ) của ngôn ngữ nguồn thành một véc tơ ngữ cảnh và chuyển sang bộ

giải mã để tiến hành giải nén véc tơ ngữ cảnh này thành một câu (tập

hợp các từ thuộc không gian véc tơ) của ngôn ngữ đích Để cho thuận tiện trong việc tính toán và chuyển đổi qua lại thì các chiều không gian

Trang 35

vóc tơ này sẽ đều có chung chiều là chiều của véc tơ ngữ cảnh (kích

thước của mạng RNN).

Mặc dù RNN ban đầu được đề xuất để phù hợp với các bài toán

theo trình tự thời gian (time-step) nhưng với những quãng quá dài thì

khả năng nắm bắt thông tin của RNN ở các quãng xa vẫn còn hạnchế Vì vậy, kiến trúc LSTM ra đời đã phần nào khắc phục được sự

mất mát thông tin theo thời gian dài ở RNN cơ bản

1.3.2 Kiến trúc Transformer

Mạng nơ-ron hồi quy (RNN) hiện nay đang là phần cốt lõi của các

mô hình dịch máy cũng như ứng dụng cho nhiều bài toán khác như môhình ngôn ngữ, các mô hình hỏi dap, Đặc biệt khi tích hợp thêm cơ

chế attention, các mô hình nơ-ron đã cho những kết quả vượt trội sovới các mô hình thống kê truyền thống Tuy nhiên, vẫn còn một số hạn

chế đang kể trong các mô hình này Điển hình như mạng RNN thường

xử lý ngôn ngữ theo thứ tự tuần tự từ trái qua phải hoặc từ phải qua

trái và tại mỗi thời điểm chỉ đọc một từ, điều này làm mô hình phải

xử lý qua nhiều bước để có thể đưa ra quyết định, dẫn tới việc không thể mô hình hóa được quan hệ của các từ ở xa nhau Hơn nữa, mô

hình RNN cũng khó có thể thực hiện việc song song hóa tính toán,

dẫn đến thời gian huấn luyện các mô hình lâu hơn Trong phần này,

luận án giới thiệu một mô hình mạng nơ-ron khác, gọi là Transformer

được đề xuất bởi nhóm nghiên cứu của Google AI vào năm 2017 [123]

có thể khắc phục được hai hạn chế đã kể trên của mạng RNN, các

thực nghiệm cũng chỉ ra rằng, mô hình Transformer cho kết quả tốthơn mô hình mã hóa-giải mã với attention cho một số cặp ngôn ngữ,

ví dụ như Anh-Đức, Anh-Pháp

Trang 36

Attention.

nhiéu phan

Vector nhúng Vector nhung

dau vao dau ra

Đâu vào Đầu ra

Hình 1.7 : Kiến trúc Transformer

Kiến trúc Transformer có thể coi như là một mô hình mở rộng của

mô hình mã hóa - giải mã với attention Nhưng thay vì sử dụng mạng

hồi quy RNN, mô hình này sử dụng cơ chế self-attention để có thể

song song hóa việc tính toán, làm giảm thời gian huấn luyện và môhình hóa được mối quan hệ giữa các từ mà không cần quan tâm đến

vị trí của chúng trong câu là xa hay gần nhau Hai thành phần mã

hóa và giải mã trong mô hình Transformer đều sử dụng self-attention

nhiều tầng, mã hóa vị trí, các tầng kết nối với nhau toàn bộ (fully

Trang 37

connected) như thể hiện trong Hình 1.7.

Về cơ bản, bộ mã hóa gồm N tầng giống nhau xếp chồng lên nhau,mỗi tầng có hai tầng con Tầng con thứ nhất là cơ chế self-attention

nhiều phan (multi-head), tang con thứ hai là mạng truyền thang day

đủ (fully connected feed-forward) Ngoài ra, có thể thêm kĩ thuật kết nối dư (residual connection), theo sau bởi một tầng chuẩn hóa (nor-

malization layer) Bộ giải mã cũng gồm tầng giống nhau xếp chồng.Tại mỗi tầng, bên cạnh hai tang con giống như bộ mã hóa, bộ giải mã

chèn thêm một tầng con ở giữa, cái thể hiện multi-head attention để

có thể mô hình hóa được các thông tin cần thiết của câu nguồn tại

mỗi thời điểm giải mã.

1.4 Những thách thức trong dịch may

Hiện nay, mặc dù các mô hình dịch máy đã có nhiều tiến bộ, nhưng

vẫn còn nhiều thách thức cần được giải quyết

— Hạn chế tài nguyên Một trong những vấn đề lớn nhất trong

các mô hình dịch máy gặp phải là việc thiếu hụt đữ liệu song ngữ

Dữ liệu này thông thường được tạo thủ công hoặc thu thập tự

động trên internet nhưng vẫn không thể đủ để huấn luyện các mô

hình dịch cho kết quả tốt Hơn nữa, các mô hình dịch thường chokết quả tốt trên miền dữ liệu được huấn luyện, nếu đem dich cho

dữ liệu thuộc miền khác, kết quả sẽ không tốt Ví dụ, đữ liệu songngữ được thu thập từ các trang báo song ngữ, chủ đề thường về

thể thao, giải trí, thì mô hình dịch được huấn luyện trên dữ liệu

này sẽ cho kết quả không tốt khi dịch các câu thuộc miền phápluật, y tế

Trang 38

— Tw nằm ngoài kho từ vựng (unknown words) Một van dé

quan trọng khác mà các mô hình dịch máy phải đối mặt là việcgiải quyết những từ nằm ngoài kho từ vựng Đó là những từ không

xuất hiện trong dữ liệu huấn luyện hoặc xuất hiện rất ít, những

từ này thường là tên riêng, các thuật ngữ hay từ đi mượn, các từ

này còn được gọi là các từ hiếm Các mô hình dịch hiện tại khigặp những từ hiếm này thường giữ nguyên không dịch dẫn đếnviệc câu dịch mất từ và ảnh hưởng đến việc dự đoán các từ dịch

Sau này.

Đối với dịch máy thống kê dựa vào cụm thì trật tự từ (word orders)cũng là một thách thức do các ngôn ngữ khác nhau thường có trật

tự từ khác nhau Ví dụ, một số cặp ngôn ngữ có thứ tự trong câu

là chủ ngữ - động từ - tân ngữ (tiếng Anh) nhưng trong ngônngữ khác lại là chủ ngữ - tân ngữ - động từ (tiếng Nhật) Việc

khác nhau giữa trật tự các từ trong câu nguồn và câu đích ảnhhưởng rất nhiều đến chất lượng của mô hình dịch máy Khi mô

hình dịch không thể học được việc ánh xạ tương ứng giữa trật tự

từ ở 2 ngôn ngữ, câu dịch sinh ra sẽ khiến người đọc khó hiểu.

Ngoài ra, dịch máy mạng nơ-ron vẫn còn một số thách thức đã được

Koehn và cộng sự chỉ ra năm 2017 [101] như:

— Rất khó xác định được lý do tại sao mô hình lại cho ra một bản

dịch cụ thể vì quá trình giải mã, dự đoán được diễn ra như trong hộp đen, do đó rất khó để xác định được nguyên nhân cụ thể

khiến bản dịch sai, dịch không sát nghĩa

— Các lỗi được sinh ra bởi dịch máy mạng nơ-ron đôi khi khá thất

thường, hệ dịch có thể chỉ sinh ra các từ, cụm từ ở đầu ra trôi

chảy, hợp ngữ cảnh nhưng lại ít liên quan đến câu nguồn

Trang 39

— Huấn luyện mô hình cần nhiều dữ liệu song ngữ để huấn luyện

hơn so dịch thống kê dựa vào cụm từ

— Cần nhiều thời gian để triển khai, huấn luyện hệ dịch mạng nơ-ron

do đòi hỏi phần cứng chuyên dụng

1.5 Đánh giá chất lượng mô hình dịch máy

Đánh giá chất lượng dịch của mô hình dịch máy là bài toán gắn

liền với lịch sử phát triển của dịch máy Ở đây, chất lượng dịch được

hiểu là mức hoàn thiện của bản dịch khi dịch một văn bản từ ngôn

ngữ nguồn sang ngôn ngữ đích Đã có nhiều phương pháp khác nhau

được nghiên cứu để đánh giá chất lượng của mô hình dịch, các phương pháp này có thể nhóm thành hai loại chính là phương pháp đánh giá

chủ quan (subjective evaluation) và phương pháp đánh giá khách quan

(objection evaluation).

1.5.1 Phương pháp đánh giá chủ quan

Phương pháp đánh giá chủ quan được thực hiện trực tiếp bởi con

người, đánh giá theo thang điểm cho các tiêu chí được xây dựng sẵn.

Phương pháp đánh giá chủ quan phụ thuộc vào khả năng của chuyên

gia đánh giá, cho kết quả tin cậy nhưng mất rất nhiều thời gian và chỉ

phí thực hiện cao.

1.5.2 Phương pháp đánh giá khách quan

Phương pháp đánh giá khách quan (còn gọi là đánh giá tự động)

sử dụng các chương trình thay cho con người để đánh giá Các chương

trình sẽ so khớp hoặc tính tỉ lệ lỗi của kết quả dịch từ mô hình so với

câu dịch tham khảo có sẵn (reference) Phương pháp đánh giá tự động

Trang 40

mặc dù cho kết quả kém tin cậy hơn so với phương pháp đánh giá chủ

quan nhưng được sử dụng rộng rãi vì cải thiện được những nhược điểm

của phương pháp đánh giá chủ quan như chi phi cao, tốc độ thực hiện

chậm, không thể tái sử dụng.

Có nhiều độ đo đã được nghiên cứu và phát triển để đánh giá

tự động chất lượng dịch của mô hình dịch máy, các độ đo có thể kể

tên như: BLEU (BiLingual Evaluation Understudy) [61], SacreBLEU

[104], WER (Word Error Rate) [68], PER (Position-independent word

Error Rate) [121], TER (Translation Error Rate) [74] Trong đó, độ

do BLEU được sử dung phổ biến nhất nên trong luận án này, tác giả chọn độ đo này để đánh giá chất lượng dịch của các mô hình.

BLEU là một phương pháp dùng để đánh giá chất lượng bản dịch

được đề xuất bởi IBM tại hội nghị ACL ở Philadelphie vào tháng

7-2001 [61] Ý tưởng chính của phương pháp là so sánh kết quả bản dich

tự động bằng máy với một bản dịch chuẩn dùng làm bản tham khảo.

Việc so sánh được thực hiện thông qua việc thống kê sự trùng khớp

của các từ trong hai bản dịch có tính đến thứ tự của chúng trong câu(phương pháp n-grams theo từ) [49] Phương pháp này dựa trên hệ số

tương quan giữa bản dịch tự động và bản dịch tham khảo được thực

hiện bởi con người để đánh giá chất lượng của một hệ thống dịch Điểm

BLEU được tính theo công thức 1.4.

Tiêu đề	Nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê Anh - Việt
Tác giả	Phạm Nghĩa Luận
Người hướng dẫn	TS. Nguyễn Văn Vinh, TS. Phạm Việt Thắng
Trường học	Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận án tiến sĩ
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	144
Dung lượng	39,54 MB