Mô hình xử lý khoảng trống từ vựng trong dịch máy anh việt

án đề xuất phương pháp giải quyết vấn đề khoảng trống từ vựng trong dịch máy tự động Anh - Việt bằng mô hình dịch từ sang ngữ ngữ là một cụm từ có cấu trúc ngữ pháp trong tiếng Việt - gọ

Trang 1

ĐẠI HỌC BÁCH KHOA TP.HCM

-

LÊ MẠNH HẢI

MÔ HÌNH XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG

TRONG DỊCH MÁY ANH VIỆT

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP HCM – Năm 2010

Trang 2

ĐẠI HỌC BÁCH KHOA TP HCM

-

LÊ MẠNH HẢI

MƠ HÌNH XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG TRONG

DỊCH MÁY ANH VIỆT

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 62.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS.TS PHAN THỊ TƯƠI

TP.HỒ CHÍ MINH – 2010

Trang 3

Lời cam đoan

Tôi xin cam đoan luận án này là công trình nghiên cứu khoa học của tôi Các kết quả của luận án là trung thực và chưa từng được ai khác công bố trong bất

kỳ công trình nào khác

Tp Hồ Chí Minh, ngày 20 tháng 11 năm 2009

Người thực hiện

NCS Lê Mạnh Hải

Trang 4

LỜI CẢM ƠN Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc của mình tới PGS-TS Phan Thị Tươi, người đã trực tiếp hướng dẫn, động viên và giúp đỡ tôi trong suốt quá trình thực hiện luận án này Tôi cũng xin cảm ơn các thầy trong khoa Công nghệ thông tin Trường Đại học Bách khoa thành phố Hồ Chí Minh đã đóng góp nhiều ý kiến và tạo điều kiện để tôi thực hiện luận án

Luận án của tôi cũng khó có thể hoàn thành nếu không có sự hỗ trợ từ gia đình, bạn bè, và đặc biệt là nhóm nghiên cứu sinh trong khoa CNTT-Trường Đại học Bách khoa thành phố Hồ Chí Minh - Những người đã trực tiếp đóng góp công sức và những ý kiến thiết thực cho thành công của nghiên cứu

TP.HCM, ngày 20-11-2009 Người thực hiện

NCS Lê Mạnh Hải

Trang 5

án đề xuất phương pháp giải quyết vấn đề khoảng trống từ vựng trong dịch máy tự động Anh - Việt bằng mô hình dịch từ sang ngữ (ngữ là một cụm từ

có cấu trúc ngữ pháp trong tiếng Việt) - gọi tắt là mô hình dịch ngữ Khi sử

dụng một ngữ để truyền tải những thông tin mà lẽ ra chỉ cần một từ thực hiện, các hệ thống dịch máy sẽ gặp trở ngại rất lớn khi tái tạo câu đích Các thông tin về cấu trúc câu nguồn khi đó không đủ để xây dựng câu đích

Luận án thực hiện các công việc sau:

Nghiên cứu hiện tượng khoảng trống từ vựng trong dịch máy Anh Việt, tác động của hiện tượng này lên dịch máy và các phương pháp đã được đề xuất để xử lý khoảng trống từ vựng

Xây dựng từ điển song ngữ Anh Việt hỗ trợ mô hình dịch ngữ để thực hiện dịch một từ tiếng Anh sang một ngữ tiếng Việt mà vẫn đảm bảo ngữ pháp cho câu đích Từ điển này có cấu trúc nét, tương thích ngữ

pháp chức năng từ vựng (Lexical Functional Grammar - LFG)

- Đề xuất giải pháp mô hình dịch ngữ bằng các giải thuật xử lý khoảng trống từ vựng và thực nghiệm với 200 câu có khoảng trống từ vựng

Trang 6

ABSTRACT

A lexical gap or lacuna is an absence of a word in a particular language

Phenomenon of "Lexical gap" is mentioned in many natural language processing (NLP) studies For example, English word "abeyant" has meaning "temporarily suspended" in Vietnamese, which has no Vietnamese equivalent single word In English – Vietnamese machine translation, lexical gap causes many difficulties in terms of both accuracy as well as speed The thesis proposes an English - Vietnamese model which translates word – to - phrase in case of lexical gap referred as model for English – Vietnamese machine translation in order to solve lexical gap problem Phrase in the model is a structure with features When using a structure to convey the information that perhaps only one word, machine translation systems will face enormous obstacles when landing reconstruction nwith a phrase structure Information structures from source sentence then are not enough resources to build the target sentence

Thesis has solved the following problems:

- Study the phenomenon of gaps in vocabulary English-Vietnamese machine translation and the impact of this phenomenon on machine translation

- Building bilingual dictionaries English Vietnamese language support service model to perform a translation from English to a Vietnamese language grammar This dictionary features a compatible function grammatical structure

- Propose solutions service model in terms of algorithm processing lexical gap and perform a translation of 200 sentences from English to Vietnamese

Trang 7

MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT VIII DANH MỤC CÁC BẢNG IX DANH MỤC CÁC HÌNH VẼ X DANH MỤC CÁC GIẢI THUẬT XII

Chương 1- MỞ ĐẦU 1

1.1 Mục đích, ý nghĩa của luận án 1

1.2 Đối tượng, phạm vi nghiên cứu 3

1.2.1 Đối tượng nghiên cứu 3

1.2.2 Các đóng góp chính của luận án: 5

1.2.3 Phạm vi nghiên cứu 6

1.3 Nhiệm vụ của luận án 8

1.4 Phương pháp nghiên cứu 8

1.5 Cấu trúc của luận án 9

Chương 2- TỔNG QUAN VỀ KHOẢNG TRỐNG TỪ VỰNG 10

2.1 Khoảng trống từ vựng 10

2.1.1 Các nghiên cứu về khoảng trống từ vựng 10

2.1.2 Phân loại và hướng tiếp cận 11

2.1.3 Hướng tiếp cận của luận án trong việc xử lý khoảng trống từ vựng 15

2.1.4 Khảo sát khoảng trống từ vựng giữa hai ngôn ngữ Anh - Việt 16

2.2 Các phương pháp dịch máy và khoảng trống từ vựng 24

2.3 Kết chương 30

Chương 3- CƠ SỞ LÝ THUYẾT VĂN PHẠM 31

3.1 Văn phạm cấu trúc ngữ hướng tâm (HPSG) 31

3.1.1 Tổng quan về HPSG 32

3.1.2 Hệ thống các ma trận của HPSG 35

3.1.3 Các phép toán trong HPSG 40

3.2 Văn phạm chức năng từ vựng (LFG) 45

3.2.1 Các khái niệm về LFG 46

3.2.2 Cấu trúc thành tố (C-Structure) 46

3.2.3 Cấu trúc chức năng (F-Structure) 48

3.2.4 Liên kết cấu trúc thành phần với cấu trúc chức năng 50

Chương 4- NGỮ PHÁP CHỨC NĂNG TỪ VỰNG TIẾNG VIỆT 54

4.1 Văn phạm tiếng Việt 54

4.1.1 Các xu hướng nghiên cứu ngữ pháp tiếng Việt 54

4.1.2 Ngữ pháp chức năng tiếng Việt 58

Trang 8

4.2 Văn phạm chức năng từ vựng tiếng Việt 64

4.2.1 Cấu trúc thành tố của VLFG 64

4.2.2 Cấu trúc chức năng của VLFG 68

4.2.3 Ánh xạ cấu trúc chức năng vào cấu trúc thành tố của VLFG 71

Chương 5- TỪ ĐIỂN NÉT CHO MÔ HÌNH DỊCH NGỮ 75

5.1 Từ điển song ngữ Anh – Việt 75

5.1.1 Nhiệm vụ của từ điển Anh - Việt 75

5.1.2 Hệ thống từ loại tiếng Anh 77

5.1.3 Hệ thống các cấu trúc nét dùng lưu trữ từ tiếng Anh 78

5.2 Các phần mềm và ngữ liệu tiếng Anh 80

5.3 Các từ điển điện tử dùng trong dịch máy Anh Việt 81

5.4 Hệ thống từ tương đương tiếng Việt 84

5.5 Cấu trúc mẫu cho các ngữ trong từ điển song ngữ Anh - Việt 88

Chương 6- GIẢI PHÁP XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG : MÔ HÌNH DỊCH SỬ DỤNG NGỮ 92

6.1 Mô hình dịch sử dụng ngữ 92

6.1.1 Mô hình dịch ngữ và đóng góp của luận án 92

6.1.2 Hoạt động của mô hình dịch ngữ: 95

6.2 Các giải thuật xử lý khoảng trống từ vựng trong mô hình dịch ngữ 102 6.2.1 Phép thay thế một nút lá bằng một cấu trúc 107

6.2.2 Phép rút gọn một cấu trúc 112

6.2.3 Phép chuyển vị một cấu trúc 116

6.2.4 Xử lý sai lệch cú pháp 118

6.2.5 Xử lý khuyết cấu trúc thành phần 119

6.3 Đánh giá hiệu quả hoạt động của mô hình dịch ngữ 120

6.3.1 Phương pháp chọn ngữ liệu: 121

6.3.2 Việc phân tích cấu trúc tiếng Anh 121

6.3.3 Đánh giá kết quả 122

Chương 7- KẾT LUẬN 126

7.1 Các kết quả đạt được 126

7.2 Các khó khăn và hướng phát triển 128

7.3 Kết luận 129

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 130

TÀI LIỆU THAM KHẢO 131 PHỤ LỤC A A

Trang 9

PHỤ LỤC B B PHỤ LỤC C C PHỤ LỤC D I PHỤ LỤC E N

Trang 10

DANH MỤC CÁC TỪ VIẾT TẮT

STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt

1 DICT dictionary network

protocol Giao thức mạng từ điển

3 EBMT Example-Based Machine

Translation Dịch máy theo mẫu

Translation Dịch máy xác suất

10 VLFG Vietnamese Lexical

Functional Grammar

Văn phạm chức năng từ vựng tiếng Việt

Trang 11

DANH MỤC CÁC BẢNG

Bảng 2.1 Mục từ trong từ điển thông thường (nguồn: [5]) 17

Bảng 2.2 Xác suất một từ là khoảng trống từ vựng 19

Bảng 2.3 Ví dụ các từ là khoảng trống từ vựng (xác suất P=1) 19

Bảng 2.4 Khoảng trống từ vựng theo từ loại có P=1 .19

Bảng 2.5 Các khoảng trống từ vựng theo ngữ dụng từ 8725 câu của Penn TreeBank 20

Bảng 2.6 Khoảng trống từ vựng theo từ loại của 7.455 từ gốc có P=1 .22

Bảng 2.7 Khoảng trống từ vựng theo từ loại của 7.455 từ gốc có P=0.5 .23

Bảng 2.8 Khoảng trống từ vựng Anh –Ý theo từ loại (nguồn: [44]) .24

Bảng 4.1 Phân bổ các luật cú pháp 66

Bảng 4.2 Các từ loại thực từ dùng trong VLFG .69

Bảng 4.3 Biểu diễn ánh xạ giữa các cấu trúc bằng quan hệ hàm ánh xạ 73

Bảng 5.1 Cấu trúc mục từ trong từ điển song ngữ Anh-Việt (Nguồn:[47]) 76

Bảng 5.2 Các từ loại tiếng Anh sử dụng trong luận án 78

Bảng 5.3 Chuẩn DICT 82

Bảng 5.4 Số lượng từ các loại trong cơ sở dữ liệu của Wordnet .83

Bảng 5.5 Định dạng từ vựng trong Englex (nguồn: [36]) 83

Bảng 5.6 Từ loại phức N (danh từ) trong Englex .84

Bảng 5.7 Số lượng từ các loại chính trong cơ sở dữ liệu của Englex 84

Bảng 5.8 Số lượng cụm từ cần xử lý theo từ loại .87

Bảng 5.9 Các mẫu cụm từ tiếng Việt cho từ điển Anh - Việt 89

Bảng 5.10 Tỷ lệ phân bổ khoảng trống từ vựng theo các mẫu cấu trúc VLFG 90

Bảng 6.1 Tỷ lệ các câu có chứa khoảng trống từ vựng 122

Bảng 6.2 Kết quả dịch 200 câu mẫu .124

Bảng 6.3 Cải thiện chất lượng dịch .124

Bảng 6.4 Các câu sai cấu trúc và số bậc của cụm từ chèn thêm 125

Trang 12

DANH MỤC CÁC HÌNH VẼ

Hình 2.1 Các trường hợp gây ra khoảng trống từ vựng 13

Hình 2.2 Các bước xác định khoảng trống từ vựng Anh - Ý (nguồn: [44]) 15

Hình 2.3 Mô hình dịch thẳng 25

Hình 2.4 Mô hình dịch chuyển đổi .25

Hình 2.5 Mô hình dịch qua ngôn ngữ trung gian 25

Hình 2.6 Khoảng trống từ vựng ảnh hưởng tới dịch máy 29

Hình 3.1 Các trường phái lý thuyết văn phạm của ngôn ngữ tính toán hiện đại .32

Hình 3.2 Ví dụ ma trận giá trị trong HPSG 34

Hình 3.3 Cách biểu diễn khác của ma trận trị từ “proves” (nguồn: [43]) 35

Hình 3.4 Hệ thống các ký hiệu (các cấu trúc riêng) của HPSG (nguồn:[43]) .36

Hình 3.5 Ma trận giá trị và biểu diễn toán học 37

Hình 3.6 Ma trận giá trị của một động từ (nguồn: [43]) .38

Hình 3.7 Giá trị của “SS|LOC|CAT” với động từ “chase” .38

Hình 3.8 Các kiểu ma trận của cụm từ (nguồn: [46]) .40

Hình 3.9 Phép gộp trực tiếp“<” .41

Hình 3.10 Phép gộp gián tiếp 41

Hình 3.11 Phép hợp nhất “+” 41

Hình 3.12 Phép hợp nhất “+” không thực hiện được 42

Hình 3.13 Luật thành phần trọng tâm đứng trước .43

Hình 3.14 Luật thành phần trọng tâm đi sau các tham tố .43

Hình 3.15 Ví dụ luật phức cho cụm danh từ (nguồn: [43]) .44

Hình 3.16 Cấu trúc thành tố và mô tả toán học (nguồn: [55]) 47

Hình 3.17 Một cấu trúc thành tố của một câu tiếng Anh (nguồn: [52]) .48

Hình 3.18 Một ma trận chức năng đơn giản (nguồn: [52]) 48

Hình 3.19 Hệ các phương trình ràng buộc tương đương ma trận trong hình 3.18 .48

Hình 3.20 Biểu diễn cấu trúc chức năng một câu tiếng Anh ở hình 3.17 50

Hình 3.21 Hai cấu trúc tồn tại song song (nguồn: [55]) .51

Hình 3.22 Ánh xạ giữa 2 cấu trúc thành tố và cấu trúc chức năng (nguồn: [55]) .52

Hình 4.1 Cấu trúc câu một bậc (nguồn: [4]) .61

Hình 4.2 Cấu trúc câu hai bậc (nguồn: [4]) .63

Hình 4.3 Ma trận word 70

Hình 4.4 Ma trận phrase .70

Hình 4.5 Ma trận chức năng 71

Hình 4.6 Ánh xạ f giữa cấu trúc thành tố và cấu trúc chức năng 72

Hình 4.7 Ràng buộc ADV làm COMMENT trong TOPIC là cụm động từ .73

Trang 13

Hình 5.1 Các ma trận sign, synsem và cat 79

Hình 5.2 Ma trận kiểu word 79

Hình 5.3 Ràng buộc của kiểu nn (ma trận danh từ) 80

Hình 5.4 Ràng buộc của kiểu tvb (ngoại động từ) 80

Hình 5.5 Ma trận giá trị của danh từ “book” 80

Hình 5.6 Danh từ “book” trong từ điển song ngữ Anh - Việt 85

Hình 5.7 Danh từ “altigraph” trong từ điển song ngữ Anh - Việt 86

Hình 5.8 Động từ “lionize” trong từ điển song ngữ Anh - Việt 87

Hình 6.1 Mô hình dịch sử dụng ngữ .93

Hình 6.2 Cấu trúc câu “They found the book on the table.” 94

Hình 6.3 Cấu trúc câu “Chúng nó đã tìm thấy quyển sách trên cái bàn.” 94

Hình 6.4 Mô hình dịch ngữ: Các thành phần bổ sung .95

Hình 6.5 Cấu trúc câu “He lionizes me in Roma.” 97

Hình 6.6 Cấu trúc câu “Anh ấy đưa tôi đi thăm cảnh lạ ở Roma.” 98

Hình 6.7 Hoạt động của mô hình dịch ngữ 101

Hình 6.8 Lưu đồ dòng dữ liệu của mô hình dịch ngữ 102

Hình 6.9 Cấu trúc câu ví trước khi chèn .109

Hình 6.10 Cấu trúc của khoảng trống từ vựng “altigraph” (M) 110

Hình 6.11 Cấu trúc đích sau khi chèn (V’) .110

Hình 6.12 Cấu trúc câu dịch “I see a polyglot teacher” (V) 111

Hình 6.13 Cấu trúc cụm từ tương ứng “polyglot” (C) 112

Hình 6.14 Cấu trúc đích sau khi chèn (V’) .112

Hình 6.15 Cấu trúc câu trước khi rút gọn .114

Hình 6.16 Cấu trúc câu sau phép rút gọn 114

Hình 6.17 Cấu trúc thành tố câu sau khi áp dụng phép chuyển vị 117

Hình 6.18 Cấu trúc câu tiếng Anh “I see a polyglot teacher” 122

Trang 14

DANH MỤC CÁC GIẢI THUẬT

Giải thuật 4.1 Đếm chiều cao cấu trúc thành phần (cây cú pháp) 67

Giải thuật 6.1: Xác định khoảng trống từ vựng 103

Giải thuật 6.2: Xử lý khoảng trống từ vựng (giải thuật tổng quát) 106

Giải thuật 6.3 Thay một nút trong cấu trúc cho trước bằng một cấu trúc 108

Giải thuật 6.4 Rút gọn một cấu trúc 115

Giải thuật 6.5 Chuyển vị một cấu trúc 116

Giải thuật 6.6 Xử lý sai lệch cú pháp 118

Giải thuật 6.7 Xử lý khuyết cấu trúc thành phần 120

Trang 15

Chương 1- MỞ ĐẦU

1.1 Mục đích, ý nghĩa của luận án

Dịch máy hay dịch tự động là các hệ thống sử dụng máy tính để chuyển một văn bản hay câu nói từ một ngôn ngữ tự nhiên này sang một ngôn ngữ tự nhiên khác Năm 1954, công ty IBM lần đầu tiên thử nghiệm máy tính để dịch 60 câu tiếng Nga sang tiếng Anh và tuyên bố sẽ có hệ thống dịch tự động trong vòng 10 năm Tuy nhiên trong báo cáo cuối cùng năm 1966, dự án đã kết thúc không thành công Trong nhiều thập niên qua, các tổ chức và cá nhân đã tham gia nhiều dự án, xây dựng các hệ dịch máy tổng thể hoặc giải quyết từng vấn đề của dịch tự động Chẳng hạn hệ thống SYSTRAN của Bộ Quốc phòng Mỹ do Peter Toma xây dựng là

hệ thống dịch đa ngôn ngữ (22 ngôn ngữ), EVTRAN của Viện Ứng dụng Công Nghệ là phần mềm dịch từ tiếng Anh sang tiếng Việt … Nhìn chung, các hệ thống dịch máy hiện nay chưa đáp ứng được nhu cầu dịch tự động và vẫn đang được tích cực nghiên cứu ([42], Hutchins công bố năm 2009) Các khó khăn chính mà dịch máy phải giải quyết là nhập nhằng ngữ nghĩa và cấu trúc, sai lệch từ vựng và cấu trúc, các câu ẩn dụ và thành ngữ ([18], Arnald và cộng sự công bố năm 1994) Luận

án này nghiên cứu và giải quyết vấn đề khoảng trống từ vựng (lexical gap) - một trong các nguyên nhân của sai lệch từ vựng và cấu trúc- trong dịch máy Anh – Việt Khoảng trống từ vựng là hiện tượng thiếu từ vựng tương ứng ở ngôn ngữ đích (tiếng Việt) so với ngôn ngữ nguồn (tiếng Anh) Hiện tượng “khoảng trống từ vựng” được đề cập đến trong nhiều tài liệu về dịch máy ([12] của Huỳnh Trung Tín

và cộng sự công bố năm 2005,[32] của Dorr công bố năm 1994, [40] của Hai và cộng sự công bố năm 1997, [48] của Bentivogli và cộng sự công bố năm 2000, [57] của Santos công bố năm 1990) Bách khoa toàn thư mở Wikipedia [61] định nghĩa về khoảng trống từ vựng như sau: “Khoảng trống từ vựng là sự thiếu vắng từ trong một ngôn ngữ cụ thể”1 Chẳng hạn từ tiếng Anh “abeyant” có nghĩa là “tạm

1 Nguyên văn: “A lexical gap or lacuna is an absence of a word in a particular language”

Trang 16

thời đình chỉ” (xem [14] Bùi Phụng công bố năm 1995 và [16] của Viện khoa học

xã hội Việt nam, năm 1993), không có từ tương ứng trong tiếng Việt (“tạm thời đình chỉ” là cụm từ với các thành phần là “tạm thời” và “đình chỉ”)

Trong dịch máy, khoảng trống từ vựng gây ra nhiều khó khăn cả về độ chính xác cũng như tốc độ dịch Tuy nhiên luận án chỉ xét chủ yếu về độ chính xác câu dịch Trong khi dịch thủ công người dịch có thể sử dụng câu chú giải thêm vào để diễn đạt thông tin bổ sung thì các nghiên cứu dịch máy chưa từng đề cập tới việc dịch một câu nguồn sang hai hoặc nhiều câu đích (Arnold và cộng sự đề cập trong [18] năm 1994) Vì vậy khoảng trống từ vựng là một thách thức thật sự cho các hệ thống dịch máy

Lý thuyết dịch (xem [12] của Huỳnh Trung Tín và cộng sự công bố năm 2005) chỉ ra 10 nguyên nhân gây ra khoảng trống từ vựng và 7 phương pháp khắc phục khi dịch (bằng tay) Các nghiên cứu về xử lý ngôn ngữ tự nhiên và dịch máy cũng chỉ ra các nguyên nhân tương tự (xem thêm mục 2.1), tuy nhiên cách tiếp cận nhằm giải quyết vấn đề chưa được nghiên cứu đầy đủ (xem [32] của Dorr năm

1994, [40] của Hai và cộng sự năm 1997, [44] của Janssen năm 2004) và phụ thuộc vào từng phương pháp dịch tự động có sử dụng từ điển hay kho ngữ liệu (xem [27] của Carbonell và cộng sự năm 1992, [48] của Bentivogli và cộng sự, năm 2009, [39] của Gawron năm 1999)

Một trong những giải pháp thô sơ được áp dụng trong dịch máy khi gặp khoảng trống từ vựng là sử dụng từ nguyên gốc (từ không thể dịch sang từ tương ứng được sử dụng nguyên văn như một từ vay mượn) Giải pháp này không phải không hữu hiệu khi những văn bản được dịch là các tài liệu chuyên ngành như y tế, công nghệ thông tin… Nhưng vấn đề là tần suất xuất hiện của khoảng trống từ vựng phải nhỏ Nếu không, bản dịch sẽ đầy các từ ngoại lai và chất lượng dịch sẽ trở nên thấp Các nghiên cứu của Carbonell và cộng sự [27] năm 1992, [40] của Hai và cộng sự năm 1997, [48] của Bentivogli và cộng sự năm 2009 cho thấy tần suất xuất hiện khoảng trống từ vựng khác nhau khi dịch giữa hai ngôn ngữ của hai nền văn hóa gần nhau như Anh - Đức, Việt – Thái, Anh -Ý thấp hơn nhiều khi dịch Anh -

Trang 17

Việt, Thái - Đức Vì vậy dịch máy Anh - Việt rất cần một giải pháp có tính hệ thống cho vấn đề khoảng trống từ vựng Đây chính là vấn đề mà luận án nghiên cứu giải quyết

Luận án đề xuất phương pháp giải quyết vấn đề khoảng trống từ vựng trong dịch máy tự động Anh - Việt bằng mô hình dịch từ sang ngữ (ngữ còn gọi là cụm từ

có cấu trúc ngữ pháp trong tiếng Việt theo [1] của Diệp Quang Ban (công bố năm 2004), [8] cùa Nguyễn Kim Thản (công bố năm 1997) và [9] (năm 1999) của

Nguyễn Tài Cẩn) - gọi tắt là mô hình dịch ngữ Khi sử dụng một ngữ để truyền tải

những thông tin mà lẽ ra chỉ cần một từ thực hiện, các hệ thống dịch máy sẽ gặp trở ngại rất lớn khi tái tạo câu đích Các thông tin về cấu trúc câu nguồn khi đó không

đủ để xây dựng câu đích Các vấn đề phát sinh càng phức tạp nếu tồn tại hai hoặc nhiều cụm từ có các thành tố đan xen với các thành tố của cụm từ khác Trường hợp này không bao giờ xảy ra đối với các từ vì ngay cả những từ ghép phức tạp nhất cũng có cấu trúc vững chắc và ổn định

1.2 Đối tượng, phạm vi nghiên cứu

1.2.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu của luận án là hiện tượng khoảng trống từ vựng trong

dịch máy Anh – Việt và giải pháp dịch ngữ nhằm giải quyết hiện tượng trên Mô

hình dịch ngữ được phát triển từ mô hình dịch chuyển đổi chuẩn, dựa trên các tri thức ngôn ngữ ngữ tự nhiên dưới dạng tập luật (rule-based machine translation) được Arnold trình bày trong [34]

Các bài toán chính cần giải quyết trong phạm vi luận án bao gồm:

Bài toán 1: Tạo từ điển song ngữ Anh – Việt với các cấu trúc nét cho phép

lưu trữ các thông tin ngữ pháp, đặc biệt là các cụm từ thay vì chỉ là một từ Việc tạo

ra các mẫu cấu trúc cho các từ và cụm từ dùng trong từ điển song ngữ cho phép việc

xử lý các cấu trúc theo cùng một giải thuật Một khó khăn trong việc chọn từ và nghĩa tương đương trong từ điển là nhập nhằng nghĩa từ (một từ tiếng Anh có nhiều nghĩa, do đó có nhiều từ / cụm từ tiếng Việt tương đương) Luận án không giải

Trang 18

quyết trực tiếp vấn đề chống nhập nhằng nghĩa từ vựng, với giả định nghĩa thứ nhất trong từ điển là nghĩa thông dụng nhất và được chọn mặc nhiên Với hướng tiếp cận này, bài toán thứ nhất lại được chia làm hai bài toán nhỏ là:

Bài toán 1A: Xây dựng văn phạm chức năng từ vựng tiếng Việt với 2 cấu

trúc tồn tại song song là cấu trúc thành tố và cấu trúc chức năng Việc xây dựng một khung văn phạm tiếng Việt hoàn chỉnh nằm ngoài khả năng của luận án, tuy nhiên các luật chính của văn phạm sẽ phải được xây dựng để tạo nền tảng cho mô hình dịch ngữ (được nêu trong bài toán 2) hoạt động

Bài toán 1B: Xây dựng từ điển song ngữ Anh – Việt với các cấu trúc nét

Từ điển song ngữ gồm phần tiếng Anh và tiếng Việt Do bài toán nhập nhằng nghĩa từ là một thách thức chưa giải quyết được của ngôn ngữ tự nhiên và không nằm trong khuôn khổ luận án, nên từ điển được xây dựng sẽ chỉ giải quyết vấn đề khoảng trống từ vựng

Bài toán 2: Xây dựng mô hình dịch ngữ với các giải thuật chèn, lược bớt,

chuyển vị các cấu trúc thành tố trong cấu trúc câu tiếng Việt dựa trên các mẫu cấu trúc tìm được trong từ điển từ bài toán 1A áp dụng các ràng buộc văn phạm tìm được trong bài toán 1B Mô hình được xây dựng phải giải quyết các công việc sau đây:

Bài toán 2A: Xác định được các khoảng trống từ vựng trong câu cần dịch

Việc xác định một từ là khoảng trống từ vựng có thể dựa trên từ điển hiện hữu hoặc kho ngữ liệu Mặc dù từ điển khó được cập nhật và thể hiện hết các nghĩa trong các ngữ cảnh khác nhau, ưu điểm nổi bật của phương pháp sử dụng từ điển

để kiểm tra một từ có phải là khoảng trống từ vựng hay không là các từ điển đã có sẵn Nguy cơ tiềm ẩn của phương pháp này là một số từ tuy trong từ điển là khoảng trống từ vựng nhưng trong thực tế có thể có từ tương đương mà nhóm tác giả từ điển không đề cập đến

Bài toán 2B: Tìm trong từ điển các cấu trúc tương ứng của khoảng trống từ

vựng và áp dụng các thuật toán xử lý khoảng trống từ vựng tạo ra câu tiếng Việt

Trang 19

phù hợp ngữ pháp tiếng Việt – tức là biến đổi cụm từ/câu đích có cấu trúc phù

Đóng góp thứ hai:

Xây dựng các từ điển cung cấp từ vựng dưới dạng các mẫu cấu trúc cụm từ phức tạp với các nét của văn phạm chức năng từ vựng tiếng Việt được sử dụng trong mô hình nói trên

Các từ điển dùng trong dịch máy có thể chứa các từ vựng và các cụm từ Để các cụm từ này có thể được phân tích thành các thành phần nhỏ hơn, các mẫu cụm

từ được áp dụng chứa các nét với các cấu trúc nét có thể lồng nhau Đây là một tính mới của từ điển song ngữ Anh -Việt dùng cho dịch máy

Trang 20

1.2.3 Phạm vi nghiên cứu

Luận án nghiên cứu phương pháp xử lý khoảng trống từ vựng trong dịch máy Anh - Việt Mô hình dịch máy mà luận án xây dựng không nhằm tạo ra tập luật hoàn chỉnh để phân tích câu nguồn cũng như tạo ra câu đích Luận án giả định

là đã có một mô hình dịch chuyển đổi sử dụng tập luật ánh xạ từ tiếng Anh sang tiếng Việt trong trường hợp các từ tiếng Anh có từ Việt tương ứng Phạm vi của luận án tập trung vào giải quyết bài toán về khoảng trống từ vựng nhằm nâng cao chất lượng dịch khi gặp những từ tiếng Anh không có từ tiếng Việt tương đương Các vấn đề khác như nhập nhằng ngữ nghĩa, nhập nhằng cú pháp hay tính đúng đắn của văn phạm (tập luật văn phạm tiếng Anh, tiếng Việt, tập luật chuyển đổi ngữ pháp Anh -Việt) v.v…, không nằm trong phạm vi của luận án

Luận án sử dụng một số từ điển Anh - Việt thông dụng như [5] của Hồ Ngọc Đức, [14] của Bùi Phụng công bố năm 1995, [16] của Viện khoa học xã hội năm 1993 và cũng không đề cập tính đúng đắn của các từ điển này, tức là thừa nhận mọi định nghĩa về từ loại của một từ vựng cũng như nghĩa tiếng Việt tương ứng mà các tác giả đã đưa ra trong từ điển đó Cũng cần thấy rằng việc xác định ranh giới giữa một từ tiếng Việt với một ngữ cũng là một vấn đề gây tranh cãi (xem [6] của Hồ Lê, công bố năm 2003 và [8] của Nguyễn Kim Thản công bố năm 1997) và nằm ngoài phạm vi nghiên cứu này

Các khái niệm “từ” sử dụng trong luận án dựa trên các tiêu chí được nêu ra trong [3] của Đinh Điền là:

- Tính cố định (không thể chêm –xen)

- Tính độc lập

- Tính có từ loại và quan hệ cú pháp

Cũng theo [8] (Nguyễn kim Thản, năm 1997), [9] (Nguyễn Tài Cẩn, năm 1999) và [3] (Đinh Điền, năm 1996),, từ tiếng Việt có từ đơn (như “tôi”, “đi” …)

và từ ghép (như “nhà cửa”, “tàu hỏa”, “nhỏ nhắn” …)

Các công trình nghiên cứu ngữ pháp tiếng Việt cũng thống nhất sự tồn tại của cụm từ dưới các thuật ngữ như “từ tổ” trong [7] (Mai Ngọc Chử và cộng sự

Trang 21

công bố năm 1997), “ngữ” trong [1] (Diệp Quang Ban công bố năm 2004), “cú” hay “tiểu cú” trong [4] (Cao Xuân Hạo công bố năm 2004) Các cụm từ lại được chia thành cụm từ cố định (thành ngữ, tục ngữ…) và cụm từ tự do Việc phân biệt các từ (thường là từ ghép) với các cụm từ trong tiếng Việt được đánh giá là rất phức tạp và gây nhiều tranh cãi (xem [4], [6], [8]) Nguyễn Kim Thản trong [8] đã

sử dụng bốn tiêu chí sau để phân định từ và cụm từ:

- Dựa trên trọng âm,

- Dựa trên tính chất thành tố trực tiếp,

- Dựa trên quan hệ trật tự của các thành tố trực tiếp,

- Dựa trên khả năng cải biến của tổ hợp

Các tiêu chí trên nếu dùng để đánh giá các trường hợp khoảng trống từ vựng trong các từ điển hiện có sẽ gặp nhiều khó khăn vì các trường hợp gây tranh cãi giữa từ ghép và cụm từ Luận án giới hạn các trường hợp khoảng trống từ vựng bằng các tiêu chí chặt hơn để đảm bảo mọi truờng hợp xét đến đều là khoảng trống

từ vựng Tiêu chí mà luận án sử dụng để định nghĩa một cụm từ (một ngữ) gồm:

1 Cụm từ có từ 3 âm tiết trở lên và có thành tố trung tâm (thỏa mãn hai tiêu chí đầu)

2 Các thành tố vẫn có nghĩa khi không có các thành phần còn lại, hoặc khi đổi vị trí các thành tố khác (thỏa mãn hai tiêu chí sau)

Chẳng hạn cụm từ “ người lái xe” là ngữ vì có 3 âm tiết với thành tố trung tâm là “người” Các thành tố “người”, “lái” và “xe” giữ nguyên ý nghĩa ngay cả khi được sử dụng trong các tình huống khi các thành tố khác bị thay đổi hoặc loại

bỏ Đây chỉ là tiêu chí giới hạn của đề tài, không phải là định nghĩa chuẩn Một cụm từ có thể chỉ có hai âm tiết như “lính trơn”, “nỗi buồn” (xem [8] của Nguyễn Kim Thản, năm 1997) Việc giới hạn ngữ có ba âm tiết trở lên chỉ nhằm giảm bớt khối lượng các ngữ cần xử lý Mặt khác, nếu áp dụng cho các cụm từ hai âm tiết thì rất khó phân biệt từ ghép và cụm từ như đã nêu trên Các nghiên cứu sâu hơn

về các ngữ có hai từ đơn âm có thể là một hướng nghiên cứu tiếp sau luận án này

Trang 22

Các thuật ngữ “ cụm từ” hay “ngữ” dùng trong luận án này được hiểu với hai giới hạn nói trên

1.3 Nhiệm vụ của luận án

Luận án này nhằm thực hiện các công việc sau:

- Nghiên cứu hiện tượng khoảng trống từ vựng trong dịch máy Anh -Việt

và tác động của hiện tượng này lên dịch máy Công việc này được trình bày trong phần tổng quan về khoảng trống từ vựng

- Xây dựng từ điển song ngữ Anh Việt hỗ trợ mô hình dịch ngữ để thực hiện dịch một từ tiếng Anh sang một ngữ tiếng Việt mà vẫn đảm bảo ngữ pháp cho câu đích Từ điển này có cấu trúc nét, tương thích ngữ

pháp chức năng từ vựng (Lexical Functional Grammar - LFG)

- Đề xuất giải pháp mô hình dịch ngữ bằng các giải thuật xử lý khoảng

trống từ vựng với ngữ pháp hướng tâm cho câu tiếng Anh (Head -

Driven Phrase Grammar - HPSG) và ngữ pháp chức năng từ vựng

(Lexical Functional Grammar – LFG) cho phần tiếng Việt và thực

nghiệm trên 200 câu tiếng Anh có khoảng trống từ vựng

1.4 Phương pháp nghiên cứu

Phương pháp nghiên cứu trong luận án này chủ yếu dựa trên việc xây dựng cấu trúc nét cho từ vựng, cụm từ cũng như câu để truyền tải thông tin từ văn bản nguồn sang văn bản đích và áp dụng cấu trúc này vào xây dựng từ điển song ngữ Mỗi từ tiếng Anh có thể được ánh xạ sang một từ hoặc một cụm từ tiếng Việt với một cấu trúc xác định trước Như vậy cấu trúc ngữ pháp của câu đích sẽ cần phải biến đổi phụ thuộc tùy theo các cấu trúc thành tố của các từ vựng do khoảng trống từ vựng tạo ra Để đảm bảo tốc độ dịch, các cấu trúc cụm từ trong từ điển

sẽ được chuẩn hóa thành các mẫu và việc thay đổi cấu trúc câu đích sẽ được thực hiện với một số mẫu này Việc đưa các mẫu cụm từ sẽ làm giảm đáng kể tập luật khi tái tạo câu đích Đây cũng là một đóng góp của luận án Mặc dù có thể áp dụng cho nhiều mô hình dịch khác nhau, nhưng luận án tập trung xây dựng

Trang 23

phương pháp xử lý khoảng trống từ vựng cho mô hình dịch chuyển đổi dựa trên tập luật Mô hình dịch chuyển đổi là một dạng của dịch máy dựa trên kiến thức ngôn ngữ và đã được nhiều nhà khoa học nghiên cứu tương đối kỹ trong thời gian qua (xem thêm mục 2.2)

1.5 Cấu trúc của luận án

Luận án bao gồm 7 chương Chương 1 giới thiệu nhiệm vụ và phương pháp luận Chương 2 sẽ trình bày các quan điểm nghiên cứu trong và ngoài nước về khoảng trống từ vựng cho các hệ thống dịch máy khác nhau Chương 3 mô tả các

lý thuyết về văn phạm nét thông dụng và các từ điển điện tử được áp dụng cho các

hệ thống dịch máy Đây chính là cơ sở lý thuyết của luận án Chương 4 là một đóng góp của luận án, trình bày một số quan điểm về văn phạm chức năng tiếng Việt trên các bình diện cú pháp học, ngữ pháp chức năng và ngữ dụng Các cấu trúc ngữ pháp của ngữ được xây dựng trong chương 4 sẽ dùng để tạo từ điển song ngữ Anh – Việt ở chương 5, cho phép ánh xạ từ một từ sang một ngữ Đây là đóng góp thứ hai của luận án Chương 6 trình bày mô hình dịch ngữ với các giải thuật chèn, xóa, đổi cấu trúc ngữ pháp khi gặp hiện tượng khoảng trống từ vựng Các kết quả thực nghiệm của mô hình và từ điển cũng được phân tích ở chương này Mô hình dịch máy sử dụng cụm từ là giải pháp của luận án cho phép xử lý khoảng trống từ vựng trong dịch máy Anh – Việt Sau cùng là chương 7 với các đánh giá, thảo luận về hướng phát triển của luận án và kết luận

Trang 24

Chương 2- TỔNG QUAN VỀ KHOẢNG TRỐNG TỪ VỰNG

Chương này sẽ trình bày khoảng trống từ vựng từ góc độ của ngôn ngữ học

và các khả năng xuất hiện trong thực tế khi dịch máy Một số kết quả trong các đánh giá về tần suất xuất hiện khoảng trống từ vựng giữa hai ngôn ngữ Anh –Việt đã được công bố trong [46]

2.1 Khoảng trống từ vựng

Khoảng trống từ vựng được nghiên cứu trong nhiều công trình lý luận về dịch thuật và dịch máy Mặc dù có nhiều nghiên cứu cho thấy sự xuất hiện của khoảng trống từ vựng trong quá trình dịch, nhưng cách phân loại khoảng trống từ vựng có khác biệt

2.1.1 Các nghiên cứu về khoảng trống từ vựng

Các tài liệu giáo khoa có đề cập đến khoảng trống từ vựng bao gồm “lý thuyết dịch” của Huỳnh Trung Tín và cộng sự ([12], năm 2005), “Machine

Translation: an Introductory Guide” ([34], năm 1994) của Douglas Arnold và

cộng sự Các nghiên cứu chuyên sâu về khoảng trống từ vựng tương đối rộng Barnett ([22], năm 1994) nghiên cứu về hiện tượng máy dịch không sát giữa tiếng Anh và tiếng Pháp và ngược lại Trong giai đoạn những năm 1990 -1995 các mô hình dịch qua ngôn ngữ trung gian cho phép dịch từ một ngôn ngữ sang nhiều ngôn ngữ khác được coi là sẽ mang lại hiệu quả cao ([27] của Carbonell

và cộng sự) Dịch ngược là một mô hình rút gọn chỉ sử dụng cho hai ngôn ngữ (chẳng hạn từ Anh sang Pháp rồi từ Pháp sang Anh) và cho phép đánh giá độ chính xác khi dịch Nếu câu dịch nhận được sau khi dịch ngược trùng với câu ban đầu thì quá trình dịch hoàn tất Tuy nhiên Barnett đã gặp phải khó khăn rất lớn khi chọn khái niệm tương ứng cho các từ trong cả hai lần dịch xuôi và ngược, khiến câu được dịch và kết quả sau hai lần dịch sai lệch nhau Phương pháp này sau đó ít được nhắc tới trong các tài liệu sau năm 1995 Dorr ([32], năm 1994) nghiên cứu về khoảng trống từ vựng trong mô hình máy dịch thông

Trang 25

qua ngôn ngữ trung gian giữa tiếng Anh và các ngôn ngữ châu Âu khác như tiếng Đức, Pháp và Ý Trên cơ sở giả định về một hệ thống từ có quan hệ ngữ nghĩa hoàn chỉnh, Dorr đề xuất giải pháp ánh xạ các thành phần của câu từ mức

từ và cụm từ sang các thành phần gần nhất trong cây ý niệm và do đó giải quyết được sự sai lệch do khoảng trống từ vựng gây ra Bài toán cây ngữ nghĩa (cơ sở

dữ liệu ý niệm) không chỉ giải quyết vấn đề khoảng trống từ vựng mà còn cho phép phân tích ngôn ngữ tự nhiên ở mức ngữ nghĩa, và có ứng dụng rộng rãi trong xử lý ngôn ngữ tự nhiên Một trong các kết quả của hướng nghiên cứu này

là cơ sở ngữ nghĩa tiếng Anh WordNet (xem [63] của Miller, George năm 1995) Sau đó Janssen trong [44] (năm 2004) đã sử dụng cơ sở từ vựng ý niệm EuroWordNet để xử lý khoảng trống từ vựng giữa tiếng Anh và Ý (không nêu rõ ứng dụng dịch máy) Các kết quả nghiên cứu của Janssen cho thấy khoảng trống từ vựng giữa tiếng Anh và Ý chiếm khoảng 7,8% trong tổng số 60901 từ được xem xét Một nghiên cứu khác của Hai và cộng sự [40] (năm 1997) nghiên cứu về khoảng trống từ vựng trong dịch máy Việt – Anh Đây là nghiên cứu đầu tiên về khoảng trống từ vựng giữa tiếng Việt và tiếng Anh Phương pháp giải quyết khoảng trống từ vựng bằng cách sử dụng cụm từ tự do thay các khoảng trống từ vựng trong nghiên cứu này cho phép tăng độ chính xác của một số câu dịch, nhưng cũng làm tăng các câu sai ngữ pháp trong bản dịch Nghiên cứu của Hai cũng không đưa ra kết quả thực nghiệm và đánh giá đầy đủ về giải pháp được đề xuất

2.1.2 Phân loại và hướng tiếp cận

Trong khi Huỳnh Trung Tín và cộng sự trong [12] cho rằng khoảng trống từ vựng chỉ là một trong sáu nguyên nhân gây ra hiện tượng dịch không sát thì Dougnal ([34], năm 1994) lại xếp các khoảng trống từ vựng với các từ lóng và thành ngữ - cũng là trường hợp phải dùng một cụm từ có kết cấu đặc biệt để chỉ nghĩa của một từ Tuy nhiên, có thể thấy các trường hợp mà [12] mô tả khá sát với

Trang 26

[32] do Dorr công bố năm 1994 Các trường hợp xuất hiện đặc thù của khoảng trống từ vựng được trình bày trong hai công trình này là:

1 Tính đặc thù về văn hóa Chẳng hạn

Tiếng Anh (E): Congressmen – Tiếng Việt (V): Đại biểu Quốc hội

2 Không có khái niệm tương ứng : (E): accessible – (V) ???

3 Quá nhiều thông tin: (E): whistle-stop: (V): Sự dừng lại trên đường đi vận động bầu cử (để nói chuyện với cử tri) của các TT Mỹ

4 Khác thang đo: (E): billionaire (US dollar) (V): tỷ phú (tiền Việt)

5 Quá chung/quá riêng : (E): bitch - (V): con chó sói cái, con chồn cái

(E): hut- (V): nhà gỗ tạm thời cho binh lính

6 Có ẩn ý: (E): notorious – (V): ai cũng biết vì một hành động hoặc tính xấu nào đó (nổi tiếng xấu?)

7 Có thông tin về mức độ: (E):batter – (V): đập liên hồi, đánh dã man

8 Khác từ loại (E): attention! (danh từ)- (V): chú ý! (động từ)

9 Từ vay mượn: (E): outdoor – (V): ngoài trời

Một cách hình thức, khoảng trống từ vựng là trường hợp khi ánh xạ một từ tiếng Anh sang tiếng Việt ta không có từ tương đương Có 3 trường hợp được Dorr nêu trong [32] là: a) từ nguồn rộng nghĩa hơn từ đích b) từ nguồn hẹp nghĩa hơn và c) từ nguồn và từ đích có một số nghĩa trùng, một số nghĩa không trùng (hình 2.1) Chẳng hạn: từ trong tiếng Đức không có từ tương đương từ “vehicle” trong tiếng Anh, nhưng có từ tương đối gần có thể dùng thay thế như “car”, “van” chỉ có điều các từ này cụ thể hơn, và do đó không phải lúc nào cũng dùng thay thế được Ngược lại, từ Anh “filly” có nghĩa là “ngựa cái non” rõ ràng hẹp nghĩa (cụ thể hơn) từ “con ngựa” trong tiếng Việt Trong trường hợp thứ ba, chẳng hạn từ

“vegetable” tiếng Anh có thể nói rất gần từ “rau” tiếng Việt, nhưng lại bao gồm cả

“khoai tây”, vốn không được coi là “rau” mà là “lương thực”, và không thể dùng

để chỉ các loài rau như, “rau thơm”, “rau chuối”

Trang 27

Hình 2.1 Các trường hợp gây ra khoảng trống từ vựng

Có nhiều cách tiếp cận để giải quyết vấn đề khoảng trống từ vựng

Huỳnh Trung Tín và cộng sự trong [12] nêu ra các phương pháp dịch thủ công khi gặp các khoảng trống từ vựng là:

1 Sử dụng từ chung / riêng hơn

và chỉ dừng ở mức ý tưởng (sử dụng ngôn ngữ trung gian) Việc xác định hai từ sát nghĩa (chung hơn hoặc riêng hơn) là bài toán phức tạp ngay cả khi có cơ sở dữ liệu ngữ nghĩa từ vựng như WordNet [31] và điều dễ thấy là chất lượng dịch sẽ giảm

do sai lệch thông tin Đề xuất của Dorr trong các công trình [31],[32] và [33] đã được thực hiện trong mô hình dịch qua ngôn ngữ trung gian (xem mục 2.2 “Các

mô hình dịch máy và khoảng trống từ vựng”) Phương pháp này sử dụng một cơ sở

từ vựng ngữ nghĩa (kiểu WordNet), ví dụ:

(E): bludgeon -(V): đánh bằng dùi cui [5]

Do “bludgeon” là khoảng trống từ vựng trong tiếng Việt, phải dùng Trong Wordnet [63] chẳng hạn, gần nghĩa với “bludgeon” là từ “hit” Tìm

“hit” trong [5] có kết quả:

Trang 28

(E): “hit” – (V): đánh

Vì “hit” không phải là khoảng trống từ vựng nên có thể dùng thay thế

“bludgeon” Nếu từ gần nghĩa (từ “hit” chẳng hạn) vẫn là khoảng trống từ vựng thì tiếp tục tìm từ gần nhất cho đến khi tìm được từ có từ tiếng Việt tương ứng Kết quả dịch sẽ không thật sát nghĩa Ví dụ: thay “bludgeon” trong câu sau bằng “hit”

sẽ được:

(E): The fighter bludgeons his opponent

(V): Người chiến binh đánh kẻ thù của anh ta

Câu dịch sát nghĩa phải là:

(V): Người chiến binh đánh kẻ thù của anh ta bằng dùi cui

Việc xác định một từ là khoảng trống từ vựng trong một ngôn ngữ cụ thể cũng là bài toán phức tạp Theo định nghĩa đã đưa ở chương 1, nếu một từ không

có từ tương ứng trong ngôn ngữ khác thì đó là khoảng trống từ vựng Nhưng phương pháp tìm có thể đưa ra các kết quả khác nhau Janssen [44] đề xuất một

giải thuật xác định khoảng trống từ vựng là Translation Group (TGR), sử dụng cả

từ điển song ngữ kết hợp cơ sở ngữ nghĩa EuroWordNet Các bước xác định khoảng trống từ vựng giữa tiếng Anh và Ý được Janssen trình bày như trong hình 2.2 Trong hình 2.2 Janssen lọc lấy các từ đơn (trong từ điển còn có các từ phức), rồi loại bớt các từ tìm thấy trong từ điển đơn ngữ tiếng Ý, sau đó phân chia các từ không tìm thấy nghĩa thành các từ là khoảng trống từ vựng do từ gốc không có nghĩa tương đương hoặc từ gốc có nghĩa nhưng từ biến hình không có nghĩa

(semantics gap) Loại khoảng trống từ vựng có gốc từ có nghĩa lại được kiểm tra

xem có phải là động từ có khuôn xác định hoặc có từ so sánh được trước khi ghi vào mục khoảng trống ngữ nghĩa Mục tiêu của quá trình này là tìm các khoảng trống từ vựng do ngữ pháp và cấu tạo từ gây ra Việc tìm ra nguyên nhân gây ra khoảng trống từ vựng có thể hữu ích khi xử lý chúng trong các ứng dụng Cần lưu

ý là [44] không đề cập tới các ứng dụng cụ thể, và do đó chỉ dừng ở mức khảo sát khoảng trống từ vựng Anh – Ý

Trang 29

Tuy nhiên do không có cơ sở từ vựng ngữ nghĩa tiếng Việt, việc xác định khoảng trống từ vựng Anh – Việt chỉ còn có thể dựa trên từ điển song ngữ Anh – Việt

2.1.3 Hướng tiếp cận của luận án trong việc xử lý khoảng trống từ vựng

Luận án này chọn phương pháp sử dụng các cụm từ bổ sung (thường là ngữ) khi gặp khoảng trống từ vựng khi dịch máy Anh Việt Khó khăn nảy sinh là cấu trúc cụm từ bổ sung thường phức tạp và khi tham gia vào cấu trúc câu đích có thể làm cấu trúc câu bị biến dạng và không phù hợp với ngôn ngữ đích Một số phép xử lý cần được thực hiện nhằm giải quyết khó khăn trên Các phép xử lý nhằm duy trì cấu trúc câu tiếng Việt được trình bày trong [10] bao gồm:

- Phép lược: rút bớt thành tố từ một cấu trúc để tạo ra một cấu trúc đơn

giản hơn Phép lược phải đảm bảo hai tiêu chí là: a) không được biến câu trọn vẹn thành câu không trọn vẹn và b) không làm thay đổi các quan hệ ngữ pháp vốn có giữa các thành tố

- Phép thế: thay một thành tố bằng một thành tố khác

Trang 30

- Phép bổ sung: thêm một thành tố vào một cấu trúc (thường là các hư

2.1.4 Khảo sát khoảng trống từ vựng giữa hai ngôn ngữ Anh - Việt

Để làm rõ ảnh hưởng của khoảng trống từ vựng tới dịch máy Anh Việt, luận

án sẽ tiếp cận từ hai góc độ: góc độ từ điển và góc độ ngữ dụng Không phải mọi

hệ thống dịch máy đều cần từ điển Các hệ dịch xác suất và dịch theo mẫu thường dùng các kho ngữ liệu song ngữ để tìm các từ hoặc cụm từ tương ứng Nhưng nếu

hệ thống dịch chuyển đổi thì từ điển là thành phần không thể thiếu Douglas [34] chỉ ra rằng từ điển là thành phần lớn nhất của dịch máy (dịch chuyển đổi), cần nhiều nhân lực nhất và tốn nhiều thời gian xử lý nhất Luận án khảo sát các từ điển cung cấp bởi Hồ Ngọc Đức [5], Bùi Phụng [14], và từ điển của Viện khoa học xã hội [16] và thấy không có sự khác biệt lớn nào giữa các từ điển này

Các điểm chung cho các từ điển song ngữ Anh Việt [5],[14] và [16] là các biến hình, biến thể của một từ được đưa về một mục từ Như vậy các từ dạng biến thể (chẳng hạn danh từ số nhiều như “books”, các thì của động từ “booking”,

“booked”, tính từ so sánh…) không được coi là mục từ riêng, ngoại trừ khi các từ này có ý nghĩa khác với từ gốc Số lượng các mục từ của [5] là 58.187 từ Tuy nhiên một từ có thể có nhiều nghĩa, và có thể sử dụng với nhiều từ loại khác nhau, khi đó tất cả các nghĩa được liệt kê theo một thứ tự Toàn bộ từ điển [5] có 132.298 nghĩa, như vậy một từ có bình quân hơn 2 nghĩa

Trang 31

Bảng 2.1 Mục từ trong từ điển thông thường (nguồn: [5])

- rút ra, chiết ra, tách ra

=to abstract butter from milk+ tách bơ ra khỏi sữa

- lấy trộm, ăn cắp

- tóm tắt, trích yếu

Ví dụ: trong [5], mục từ “abstract” cung cấp các thông tin như ở bảng 2.1 Trong bảng 2.1 mỗi mục từ được ký hiệu bằng “@”, từ loại bắt đầu bằng “*”, các nghĩa khác nhau đặt trên các dòng khác nhau và bắt đầu bằng dấu “-“ Cụm từ cố định (trường hợp ngoại lệ) được ký hiệu bởi đấu “!” còn các ví dụ được đánh dấu bằng “=” cho phần tiếng Anh, “+” cho phần tiếng Việt

Trong ví dụ này, từ gốc “abstract” có thể nhận 3 từ loại là tính từ, danh từ

và ngoại động từ Với từ loại là tính từ, “abstract” có 4 nghĩa khác nhau là danh từ,

Trang 32

“abstract” có thể nhận hai nghĩa và khi là động từ thì có thể ánh xạ thành một trong năm nghĩa tiếng Việt

Một vấn đề nảy sinh là chọn nghĩa nào (đánh dấu bằng dấu “-” cụ thể là

“bản tóm tắt” hay “vật trừu tượng”…) và trong một nghĩa có nhiều từ đồng nghĩa, chọn từ nào (“lấy trộm” hay “ăn cắp” …) Mặc dù vấn đề chọn từ nằm ngoài phạm vi nghiên cứu của luận án này, nhưng thực tế việc chọn nghĩa từ có một mối liên quan mật thiết với khoảng trống từ vựng Thật vậy, với những mục từ có nhiều nghĩa, một số nghĩa có thể có từ tương ứng, một số nghĩa không có từ tương ứng Như vậy nếu một từ có N nghĩa, trong đó M nghĩa không có từ tương ứng, thì xác suất khoảng trống từ vựng của từ đó là P =M/N Trong điều kiện chưa giải quyết được bài toán chọn nghĩa từ thì giải pháp đơn giản nhất là chọn nghĩa có từ tương ứng thay vì chọn nghĩa có khoảng trống từ vựng Trong ví dụ trên, nếu gặp từ

“abstract” dạng tính từ, chọn nghĩa “trừu tượng” không gây ra khoảng trống từ vựng, trong khi chọn nghĩa “không thực tế” sẽ tạo ra khoảng trống từ vựng Tuy nhiên trong một số trường hợp, nếu chọn các nghĩa có liên quan đến khoảng trống

từ vựng có thể cho một bản dịch sát nghĩa hơn Thống kê được đưa trong bảng 2.2 Trường hợp một từ có P<1 tức là một số nghĩa có từ tương đương, một số nghĩa có cụm từ tương đương Luận án tập trung giải quyết các trường hợp có P=1 là khi mọi nghĩa đều là cụm từ (xem ví dụ trong bảng 2.3)

Như vậy có 24.895 từ trong số 58.187 từ liệt kê trong từ điển có liên quan đến khoảng trống từ vựng, trong đó 16.435 từ chắc chắn là khoảng trống từ vựng (xác suất P=1 tức là mọi nghĩa đều không có từ Việt tương đương) Bảng 2.3 liệt

kê một số trường hợp khoảng trống từ vựng có P=1

Nếu các nghĩa từ được chọn với xác xuất như nhau, thì xác suất để một từ là khoảng trống từ vựng sẽ là 16.435/58.187 = 0,28 hay cứ 4 từ thì có một từ là khoảng trống từ vựng Tuy nhiên trên thực tế các trường hợp khoảng trống từ vựng trong từ điển xuất hiện trong các văn bản (ngữ dụng) không cùng xác suất

Về mặt từ loại, bảng 2.4 cho thấy phân bổ các từ trong [5] theo từ loại có xác suất khoảng trống từ vựng P=1

Trang 33

abatis đống cây chướng ngại

abatised có đống cây chướng ngại

abbacy chức vị trưởng tu viện

abbess bà trưởng tu viện

abbot cha trưởng tu viện

abeyance tình trạng tạm thời không có người nhận

Bảng 2.4 Khoảng trống từ vựng theo từ loại có P=1

Trang 34

Bảng 2.5 Các khoảng trống từ vựng theo ngữ dụng từ 8725 câu của Penn TreeBank

Từ Từ loại Nghĩa tiếng Việt Số lần xuất hiện

abortion danh từ tình trạng phát triển không đầy đủ 32

Thực tế cho thấy các từ xuất hiện nhiều nhất trong các văn bản phụ thuộc vào từ loại và lĩnh vực mà văn bản đó đề cập (ngữ dụng) Bảng 2.5 thống kê một

số từ thường gặp nhất trong dữ liệu của Penn Treebank [62], tập hợp ngữ liệu từ các bài viết có thể loại báo chí thuộc lĩnh vực xã hội Luận án khảo sát 8725 câu ngữ liệu của Penn TreeBank, với 176.625 từ bao gồm 15.284 từ chưa xử lý (chẳng hạn “say”, “said” được coi là hai từ vì khác nhau về hình thức) Bảng 2.5 thống kê các từ xuất hiện trong kho ngữ liệu huấn luyện, sắp xếp theo thứ tự từ điển

Việc thống kê các từ liên quan khoảng trống từ vựng trong một văn bản cho thấy xác suất xảy ra khoảng trống từ vựng không chỉ phụ thuộc vào thể loại văn bản mà còn phụ thuộc vào lĩnh vực

Trang 35

Tuy nhiên việc xác định một từ tiếng Anh (bao gồm cả từ biến hình – chẳng hạn “books”, “booking”, “booked”) có gây nên vấn đề khoảng trống từ vựng hay không, không đơn thuần là tìm và đếm các từ mà từ điển phải sử dụng cụm từ để diễn giải, vì hai lý do sau:

- Từ tiếng Anh trong các văn bản không có trong từ điển Các từ điển thông thường chỉ chứa các từ gốc (chẳng hạn chỉ chứa từ “book” mà không chứa

“books”, “booked”…), ngoại trừ các từ đặc biệt Các từ trong văn bản là các biến hình của từ gốc

- Một từ sử dụng trong văn bản có thể tương ứng nhiều từ gốc (chẳng hạn từ “unchangeability” không có trong từ điển Anh-Việt và có hai từ gốc là

“change” và “ability”), hoặc từ loại (tính từ, danh từ hay động từ- phụ thuộc vào cấu trúc ngữ pháp của câu trong văn bản – chẳng hạn từ “books” có thể là danh từ

số nhiều hoặc động từ đi với danh từ/đại từ ngôi thứ ba số ít) Như vậy để xác định chính xác từ loại của từ gốc, trước tiên phải phân tích được cấu trúc ngữ pháp – bài toán trở nên khó giải quyết vì một từ tiếng Anh có thể là khoảng trống từ vựng khi thuộc một từ loại này nhưng lại có từ tiếng Việt tương đương nếu thuộc từ loại khác Như vậy khả năng một từ là khoảng trống từ vựng còn phụ thuộc vào hệ thống ngữ pháp và thuật toán phân tích cấu trúc câu

Để đơn giản hóa các vấn nêu trên, luận án sử dụng một số giả định sau trong tính toán tần suất xuất hiện khoảng trống từ vựng:

- Mọi từ sử dụng trong văn bản đều có thể chuyển về từ gốc bằng một số giải thuật (chẳng hạn giải thuật KIMMO [36])

- Xác suất một từ được nhận một trong các nghĩa trong từ điển là như nhau (không phân tích ngữ pháp câu) Do đó các nghĩa đưa ra trong từ điển có khả năng xuất hiện như nhau

Các bước tiến hành xác định khoảng trống từ vựng như sau:

1 Các văn bản được rút trích sẽ được phân loại theo lĩnh vực Trong trường hợp cụ thể là ngữ liệu huấn luyện của Penn Treebank [62] với 8.725 câu rút trích

Trang 36

từ các bài báo Các văn bản được quét để tìm các từ Có 176.625 từ, không kể các

số, ngày tháng …

2 Các từ được sắp xếp để tránh trùng lặp Có 15.284 từ không trùng nhau

3 Các từ được xử lý để tìm từ gốc Chẳng hạn xếp “book”, “books” vào một

từ gốc Có 12.304 từ có từ gốc, 2.980 từ không có trong từ điển – phần lớn trong

số này là tên riêng Số từ gốc là 7.455 từ

4 Các từ gốc được so khớp với các từ trong từ điển có khoảng trống từ vựng Với P=1, kết quả tìm được 933 từ là khoảng trống từ vựng Đây là những từ mà mọi nghĩa đều không có từ tiếng Việt tương ứng Nếu so khớp với tập 19.674 từ

có xác suất khoảng trống từ vựng P>0.5 thì có 2.451 từ là khoảng trống từ vựng (tương đương cứ 3 từ thì có 1 từ là khoảng trống từ vựng) Đây là các từ mà trên một nửa các nghĩa tiếng Việt có thể nhận là cụm từ

5 Phân loại các khoảng trống từ vựng:

Các bảng 2.6 và 2.7 cho thấy danh từ chính là loại từ gặp khoảng trống từ vựng nhiều nhất Với P=1 phân bổ khoảng trống từ vựng của 7.455 từ gốc trong [5] theo từ loại như ở bảng 2.6, với P=0.5 phân bổ khoảng trống từ vựng theo từ loại như trong bảng 2.7

Bảng 2.6 Khoảng trống từ vựng theo từ loại của 7.455 từ gốc có P=1

Trang 37

Bảng 2.7 Khoảng trống từ vựng theo từ loại của 7.455 từ gốc có P=0.5

án chỉ dựa vào so sánh tỷ lệ tương đối trong từng bảng 2.6 và 2.8 (tức là cùng phương pháp xác định khoảng trống từ vựng) Trong bảng 2.6 (khoảng trống từ vựng Anh -Viêt), trong 933 trường hợp khoảng trống từ vựng có 672 danh từ, tỷ lệ

là 72% Số liệu tương ứng trong bảng 2.8 là 1784/4738 = 37,7% Đặc biệt trong các khoảng trống từ vựng khi dịch tính từ giữa tiếng Anh –Ý (bảng 2.8) chiếm tỷ

lệ khá cao (30%) các trường hợp khoảng trống từ vựng Tỷ lệ này ở cặp ngôn ngữ Anh – Việt là 164/933 = 17,6%

Trang 38

Bảng 2.8 Khoảng trống từ vựng Anh –Ý theo từ loại (nguồn: [44])

ws

Nouns (31,978) 23,800 74.4 6,394 20.0 1,784 5.6 Verbs (12,939) 10,226 79.0 1,755 13,6 958 7.4 Adjectives (13,113) 10,455 79.7 1,217 9.3 1,441 11.0 Adverbs (2,871) 1,890 65.8 426 14.9 555 19.3 Total (60,901) 46,371 76.1 9,792 16.1 4,738 7.8

Phần tiếp theo sẽ trình bày ảnh hưởng của khoảng trống từ vựng đối với các

hệ thống dịch máy

2.2 Các phương pháp dịch máy và khoảng trống từ vựng

Cách xử lý khoảng trống từ vựng phụ thuộc rất nhiều vào các phương pháp dịch, cụ thể hơn – phụ thuộc vào cách ánh xạ từ ngôn ngữ nguồn sang ngôn ngữ đích

Trong lịch sử phát triển dịch máy, hai mô hình chuẩn được công nhận trong các nghiên cứu trước đây là dịch máy theo luật (Rule-Based Machine Translation - RBMT) [22],[25],[26] và dịch máy theo xác xuất (Statistical Machine Translation - SMT) [22], [7] Trong khoảng mười năm gần đây các nghiên cứu về một hệ thống

khác được đề cập nhiều với tên gọi là “Dịch máy theo mẫu” (Example Based

Machine Translation - EBMT) [12] và [4] Luận án tập trung nghiên cứu các cách

tiếp cận của từng mô hình với vấn đề khoảng trống từ vựng

Mô hình RBMT sử dụng các kiến thức về từng ngôn ngữ dưới dạng các luật Mặc dù được chia ra làm nhiều thể nhỏ hơn dựa trên phương pháp như dịch

thẳng còn gọi là dịch từ sang từ (direct translation - hình 2.1), dịch chuyển đổi (transfer model - hình 2.2) hay dịch qua ngôn ngữ trung gian (inter-lingual model

– hình 2.3) Các mô hình này đều xử lý ngôn ngữ nguồn bằng các luật dựa trên các tri thức ngôn ngữ (văn phạm và ngữ nghĩa …) Câu nguồn được phân tích thành chuỗi các từ hoặc cụm từ và ánh xạ sang thành phần tương ứng của ngôn ngữ đích Các mô hình trên về cơ bản giống nhau Sự khác nhau của các mô hình trên là dịch thẳng chỉ dùng các luật về từ vựng, mô hình dịch chuyển đổi chú trọng nhiều cấu

Trang 39

trúc ngữ pháp, còn dịch qua ngôn ngữ trung gian tập trung nhiều ở mức ngữ nghĩa.

Hình 2.3 Mô hình dịch thẳng

Hình 2.4 Mô hình dịch chuyển đổi

Hình 2.5 Mô hình dịch qua ngôn ngữ trung gian

Thành phần không thể thiếu của tất cả các mô hình trên là từ điển Có thể sử dụng ba loại từ điển: từ điển đơn ngữ ngôn ngữ nguồn, từ điển song ngữ và từ điển đơn ngữ ngôn ngữ đích Việc xây dựng các từ điển chiếm một khối lượng lớn công việc cộng với việc bổ sung các luật sao cho không chồng chéo khiến cho mô hình khó mở rộng Việc đưa các luật dựa theo cách sử dụng ngôn ngữ phụ thuộc vào

Văn bản

nguồn

Phân tích văn bản nguồn

Chuyển đổi sang văn bản đích

Văn bản đích

Văn bản nguồn

Văn bản đích Chuyển đổi từ và cấu trúc

Văn bản nguồn

Phân tích văn

Văn bản đích Ngôn ngữ trung gian

Trang 40

quan điểm tạo luật của các trường phái ngôn ngữ học, vốn chưa thống nhất trong Việt ngữ RMBT đã từng được nghiên cứu nhiều trong khoảng ba thập niên từ những năm 70 thế kỷ trước Hướng nghiên cứu thuần túy dịch theo tập luật văn phạm phi ngữ cảnh không được phát triển trong khoảng hơn một thập kỷ qua vì độ phức tạp của tập luật Tuy nhiên với việc phát triển các lý thuyết về văn phạm nét tăng cường (như HPSG, LFG được trình bày ở chương 3), các dạng dịch máy theo văn phạm – ngữ nghĩa đang có xu hướng thịnh hành trở lại, nhất là trong các công

trình dịch theo mẫu (Example-Based Machine Translation - EBMT) Đối với vấn

đề khoảng trống từ vựng, RBMT xử lý theo những gì mà từ điển cung cấp Vì vậy

xử lý khoảng trống từ vựng cũng chính là xử lý từ điển ở mức từ vựng Các nghiên cứu [3], [17] và [31] đề xuất các giải pháp cho khoảng trống từ vựng bằng cách thay thế từ gần nghĩa nói chung không thích hợp với dịch máy Anh - Việt, khi tần suất khoảng trống từ vựng khá lớn, gây sai lệch về nghĩa giữa câu nguồn và đích

Mô hình dịch xác suất SMT dựa trên các mô hình toán học thống kê vốn không được các nhà ngôn ngữ học coi trọng trong nhiều thập kỷ trước, đã tạo bước đột phá gần đây khi có nhiều kho ngữ văn được xử lý theo phương pháp thống kê cho kết quả dịch nhanh với độ chính xác chấp nhận được [26] Hai thuận lợi lớn về mặt công nghệ là khả năng xử lý dữ liệu của các hệ thống tính toán ngày càng tăng vượt bậc và khả năng lưu trữ ngữ liệu lên hàng trăm triệu văn bản phục vụ xử lý

Ngoài sự khác biệt về phương pháp tính không dựa vào ngôn ngữ học - tức

là không phụ thuộc tri thức về ngôn ngữ, mô hình SMT còn khác biệt RBMT ở chỗ không cần sử dụng từ điển Nguồn từ vựng được rút trích và đối chiếu dựa trên các kho ngữ liệu đơn ngữ hoặc song ngữ Các kho ngữ liệu này càng lớn thì độ chính xác dịch thuật càng cao Kho ngữ liệu cần chứa hàng chục triệu câu trở lên để có thể tạo các số liệu thống kê đáng tin cậy [22]

Nguyên lý hoạt động của SMT được trình bày trong [26] thông qua biểu thức 2.1 Trong biểu thức 2.1 ký hiệu P(e|f) là xác suất chuỗi f được dịch ra chuỗi e (xác suất của e khi có f) P(e) là xác suất xuất hiện chuỗi e SMT xây dựng mô hình dịch sao cho biểu thức 2.1 đạt giá trị cực đại (nguồn: [26]):

Định dạng
Số trang	167
Dung lượng	1,37 MB

Mô hình xử lý khoảng trống từ vựng trong dịch máy anh việt

Phân loại và hướng tiếp cậ n

Hệ thống từ loại tiếng Anh