Sử dụng ngôn ngữ trục trong dịch đa ngữ

Hiện nay có một ngôn ngữ được xây dựng cho dịch máy dựa vào phương pháp trung gian gọi là UNL, ngôn ngữ này cho phép người sử dụng có thể biểu diễn tất cả các tri thức của mọi ngôn ngữ t

Trang 1

Đà Nẵng 2018

Trang 2

PHAN THỊ LỆ THUYỀN

Chuyên ngành : KHOA HỌC MÁY TÍNH

Trang 3

Tôi cam đoan đây là kết quả nghiên cứu của riêng tôi Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tác giả

NCS Phan Thị Lệ Thuyền

Trang 4

LỜI CẢM ƠN

-

Trước tiên, tác giả xin gửi lời cảm ơn đến Ban Đào tạo - Đại học Đà Nẵng, Khoa Công nghệ Thông tin, Phòng Đào tạo Trường Đại học Bách khoa - Đại học

Đà Nẵng đã tạo điều kiện thuật lợi trong thời gian học tập và nghiên cứu

Tác giả muốn tri ân đến các Thầy Cô giáo Khoa Công nghệ Thông tin Trường Đại học Bách khoa - Đại học Đà Nẵng, đặc biệt là thầy Võ Trung Hùng đã tận tình giúp đỡ tác giả từ những bước đi đầu tiên hình thành ý tưởng, cũng như trong suốt quá trình nghiên cứu Thầy luôn ủng hộ, động viên và tạo điều kiện tốt nhất để tác giả hoàn thành luận án Tác giả nhận thấy sự trưởng thành sau những năm được học tập và nghiên cứu dưới sự hướng dẫn của Thầy

Tác giả chân thành cảm ơn các chuyên gia, các nhà ngôn ngữ học (PGS.TS Nguyễn Ngọc Chinh, TS Nguyễn Quý Thành) đã dành thời gian để hỗ trợ tác giả

nghiên cứu về mặt ngôn ngữ học, kiểm tra, đánh giá các kết quả dịch tự động và so sánh chất lượng dịch các hệ thống Sự giúp đỡ của các nhà ngôn ngữ học đã giúp ích rất nhiều trong suốt quá trình nghiên cứu và hoàn thành báo cáo luận án này

Tác giả xin gửi lời cảm ơn chân thành tới các anh chị NCS của Khoa Công nghệ Thông tin Trường Đại học Bách khoa - Đại học Đà Nẵng, những người thân

và bạn bè luôn bên cạnh động viên, hỗ trợ về mặt tinh thần để tác giả vượt qua khó khăn và hoàn thành tốt luận án

Trang 5

-i-

MỤC LỤC

DANH MỤC HÌNH VẼ iv

DANH MỤC BẢNG vii

MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ DỊCH MÁY VÀ NGÔN NGỮ UNL 7

1.1 Một số khái niệm sử dụng trong luận án 7

1.2 Một số hướng tiếp cận trong dịch tự động 9

1.2.1 Dịch máy dựa trên luật 10

1.2.2 Dịch máy dựa trên ngữ liệu 12

1.2.3 Phương pháp dịch kết hợp 14

1.2.4 Đánh giá 15

1.3 Dịch đa ngữ 16

1.4 Vấn đề dịch tự động cho tiếng Việt 20

1.5 Tổng quan về UNL 22

1.5.1 Giới thiệu 22

1.5.2 Ngôn ngữ UNL 22

1.5.3 Hệ thống UNL 29

1.5.4 Một số kết quả nghiên cứu liên quan 31

1.5.5 Ứng dụng UNL làm ngôn ngữ trục trong hệ thống dịch đa ngữ 33

1.6 Tiểu kết chương 35

Chương 2 ĐỀ XUẤT MÔ HÌNH DỊCH TIẾNG VIỆT - UNL 37

2.1 Đặt vấn đề 37

2.2 Ngữ pháp tiếng Việt 39

2.3 Đề xuất mô hình dịch 41

Trang 6

-ii-

2.3.1 Công cụ EnCoVie 42

2.3.2 Công cụ DeCoVie 45

2.3.3 Từ điển trong UNL 46

2.3.4 Luật ngữ pháp trong UNL 49

2.4 Một số vấn đề cần xử lý cho tiếng Việt 56

Chương 3 GIẢI PHÁP XÂY DỰNG TỪ ĐIỂN VÀ LUẬT 60

3.1 Giải pháp xây dựng từ điển tiếng Việt - UNL 60

3.2 Giải pháp xây dựng luật ngữ pháp 69

3.2.1 Xây dựng luật mã hóa 69

3.2.2 Xây dựng luật giải mã 83

Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 96

4.1 Xây dựng công cụ EnCoVie và DeCoVie 96

4.1.1 Xây dựng công cụ EnCoVie 96

4.1.2 Xây dựng công cụ DeCoVie 99

4.2 Thử nghiệm và đánh giá 114

4.2.1 Từ điển tiếng Việt – UNL 114

4.2.2 Dịch đa ngữ qua ngôn ngữ trục UNL 115

KẾT L ẬN 123

TÀI LIỆ THAM KHẢO 128

PHỤ LỤC 137

Trang 7

-iii-

ANH MỤC CÁC TỪ VIẾT T T

LGW Left Generation Window Cửa sổ tạo ra bên trái

RGW Right Generation Window Cửa sổ tạo ra bên phải

UNL Universal Networking Language Ngôn ngữ mạng dùng chung UNLKB Universal Networking Language Cơ sở tri thức của ngôn ngữ

Trang 8

-iv-

ANH MỤC HÌNH VẼ

Hình Sơ đồ hệ thống dịch trực tiếp [13] 11

Hình Sơ đồ hệ thống dịch chuyển đổi [13] 11

Hình Sơ đồ hệ thống dịch qua ngôn ngữ trung gian [13] 12

Hình Sơ đồ hệ thống dịch dựa trên ví dụ [13] 13

Hình Sơ đồ hệ thống dịch dựa trên thống kê [13] 14

Hình Kết hợp phương pháp dịch dựa trên luật và thống kê [13] 14

Hình Mô hình dịch máy dựa trên luật 15

Hình Dịch trực tiếp giữa các cặp ngôn ngữ trong dịch đa ngữ 16

Hình ịch qua ngôn ngữ trục trong dịch đa ngữ 17

Hình Mô hình đánh giá dịch trực tiếp và dịch qua ngôn ngữ trung gian 17

Hình Biểu diễn câu tiếng Anh sang UNL 28

Hình Biểu diễn biểu thức UNL dưới dạng đồ thị 29

Hình Cơ chế chuyển đổi của hệ thống UNL 29

Hình Hệ thống UNL14 30

Hình Quá trình chuyển đổi dữ liệu trong dự án UNL – EOLSS [15] 33

Hình Hệ thống UNL cho các ngôn ngữ 34

Hình Dịch qua ngôn ngữ trục UNL 34

Hình Mô hình dịch tiếng Việt – UNL 42

Hình Sơ đồ chuyển đổi của công cụ EnCoVie 43

Hình Danh sách các nút trong Node-list 43

Hình Sơ đồ liên kết các Headword 44

Trang 9

-v-

Hình Sơ đồ mã hóa câu tiếng Việt sang UNL 44

Hình Sơ đồ chuyển đổi của công cụ DeCoVie 45

Hình Mối quan hệ nhị phân giữa hai từ vựng 45

Hình Sơ đồ mã hóa biểu thức UNL sang câu tiếng Việt 46

Hình Trạng thái cuối cùng của Node-list 46

Hình Sử dụng UW để tìm HeadWord trong quá trình giải mã 48

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “+” 51

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “-” 52

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “<” 52

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “>” 53

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “:” 54

Hình Luật chèn phải một nút từ Node vào Node-list 54

Hình Luật chèn trái một nút từ Node vào Node-list 55

Hình Luật xóa nút phải một nút từ Node-list 56

Hình Luật xóa nút trái một nút từ Node-list 56

Hình Mô-đun xử lý câu tiếng Việt đầu vào [9] 58

Hình Luật ngữ pháp chuyển đổi tiếng Việt sang biểu thức UNL 69

Hình Đồ thị biểu diễn biểu thức UNL 83

Hình Mối tương quan giữa hai ngôn ngữ tiếng Việt và UNL 83

Hình Sắp xếp trật tự các từ câu đầu ra tiếng Việt 84

Hình Đồ thị UNL biểu diễn cho biểu thức có một nút con 84

Hình Đồ thị UNL biểu diễn cho biểu thức có nhiều nút con 86

Trang 10

-vi-

Hình Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 1 88

Hình Đồ thị biểu diễn biểu thức UNL 100

Hình Đồ thị biểu diễn biểu thức UNL chứa một hay nhiều nút con 106

Hình Đồ thị biểu diễn biểu thức UNL chứa nút kết hợp 112

Hình Hệ thống dịch đa ngữ dựa vào UNL 118

Hình Biểu đồ chất lượng dịch qua UNL và dịch trực tiếp 120

Trang 11

-vii-

ANH MỤC BẢNG

Bảng Kết quả đánh giá qua tiếng Pháp 19

Bảng Kết quả đánh giá qua tiếng Đức 19

Bảng Tỷ lệ giống/khác giữa 2 bản dịch máy 20

Bảng Các quan hệ được định nghĩa trong UNL [66] 24

Bảng Các thuộc tính được định nghĩa trong UNL [66] 25

Bảng Mô tả hình thức bảng trong biểu thức UNL [66] 27

Bảng Tỷ lệ giống/khác giữa dịch qua UNL và tiếng Anh 38

Bảng Các mô hình câu đơn [ ] 40

Bảng Tập nhãn từ loại trong từ điển cho tiếng Việt [9] 48

Bảng Tập nhãn từ loại con trong từ điển cho tiếng Việt [9] 49

Bảng Số mục từ tiếng Việt – UNL thu được với giải pháp thứ nhất 115

Bảng Một số ví dụ câu không khớp ở máy chủ tiếng Anh 118

Bảng Tỷ lệ thay đổi giữa dịch qua UNL và trực tiếp 119

Trang 12

bị hạn chế bởi ngôn ngữ? Hiện có hai giải pháp chính để giải quyết vấn đề này: thứ nhất là phát triển các hệ thống, các ứng dụng, các nguồn dữ liệu đa ngữ để người sử dụng có thể lựa chọn ngôn ngữ mà họ muốn khi sử dụng; thứ hai là ứng dụng các phần mềm dịch tự động để dịch các giao diện, nội dung từ ngôn ngữ hiện có sang ngôn ngữ mà người sử dụng chọn lựa

Hiện có nhiều hệ thống dịch đa ngữ được xây dựng với nhiều hướng tiếp cận khác nhau và chất lượng bản dịch ngày càng được cải thiện Tuy nhiên, đầu ra bản dịch của các hệ thống này hầu hết chỉ mang tính tham khảo vì chưa thể hiện hết ý nghĩa, văn phong của câu nguồn Hơn nữa trên thế giới hiện đang sử dụng hơn

5 ngôn ngữ có chữ viết, việc phát triển một hệ thống dịch đa ngữ cho từng cặp ngôn ngữ là vô cùng khó khăn và nhất là những ngôn ngữ có số lượng người dùng

ít1 Một trong những hướng tiếp cận mới trong dịch đa ngữ đang được quan tâm là

sử dụng ngôn ngữ trục để dịch, hướng tiếp cận này giảm chi phí xây dựng phần mềm từ (n*(n-1)) xuống còn (2*n) và giải quyết các cặp ngôn ngữ thiếu tài nguyên hoặc không tương đồng cấu trúc ngữ pháp [13]

Văn phạm câu nguồn trong phương pháp dịch qua ngôn ngữ trục được phân tích và biểu diễn qua một ngôn ngữ khác gọi là ngôn ngữ trung gian và sau đó sử

1

https://en.wikipedia.org/ (2015)

Trang 13

2

dụng văn phạm của ngôn ngữ đích để dịch từ ngôn ngữ trung gian này Ưu điểm của phương pháp này là chỉ cần phân tích ngôn ngữ nguồn để chuyển sang ngôn ngữ trung gian và ngược lại Ngoài ra, trong hệ thống dịch đa ngữ, chúng ta dễ dàng bổ sung ngôn ngữ mới này vào hệ thống nhưng nhược điểm là làm thế nào tìm ra một ngôn ngữ mà có thể biểu diễn tất cả thông tin mọi ngôn ngữ tự nhiên và không nhập nhằng về ngữ nghĩa

Trong những năm gần đây, nhiều ngôn ngữ tự nhiên có kho ngữ liệu song

ngữ lớn (như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp,…) được lựa chọn làm ngôn

ngữ trung gian trong dịch tự động hoặc xây dựng kho ngữ liệu song ngữ [6][55] Tuy nhiên với phương pháp dịch hai lần thông qua ngôn ngữ thứ ba, chất lượng bản dịch không cao vì không khử được tính nhập nhằng của từ loại trong ngôn ngữ tự nhiên [6] Đến nay, hướng tiếp cận này thường sử dụng cho các cặp ngôn ngữ không tương đồng về cấu trúc ngữ pháp hoặc khan hiếm nguồn tài nguyên dữ liệu

Hiện nay có một ngôn ngữ được xây dựng cho dịch máy dựa vào phương pháp trung gian gọi là UNL, ngôn ngữ này cho phép người sử dụng có thể biểu diễn tất cả các tri thức của mọi ngôn ngữ tự nhiên trên máy tính mà không bị nhập nhằng

về ngữ nghĩa UNL bao gồm các thành phần như một ngôn ngữ tự nhiên: từ vựng

(UW), quan hệ (relation), thuộc tính (attributes) và cơ sở tri thức ngôn ngữ (UNLKB) Trong UNL, liên kết giữa các từ vựng dựa trên quan hệ ngữ nghĩa và gắn

các thuộc tính để miêu tả khía cạnh của người nói

Mục đích ra đời của UNL là cung cấp cho người sử dụng Internet khả năng truy cập vào các trang web bằng ngôn ngữ của họ Hệ thống dịch tự động đa ngữ bao gồm nhiều máy chủ ngôn ngữ khác nhau được dịch thông qua ngôn ngữ trục là UNL Mỗi máy chủ ngôn ngữ sẽ đảm nhận hai chức năng, đó là dịch một văn bản từ ngôn ngữ nguồn sang ngôn ngữ UNL gọi là quá trình mã hóa và dịch ngược lại sang ngôn ngữ đích gọi là quá trình giải mã Đến nay, nhiều ngôn ngữ trên thế giới đã tích hợp vào nền tảng UNL tạo thành một hệ thống dịch đa ngữ như: tiếng Nga, tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha,… Vấn đề đặt ra là làm thế

Trang 14

3

nào để tích hợp máy chủ tiếng Việt vào nền tảng UNL trong khi nó chưa được triển khai?

Xuất phát từ nhu cầu thực tiễn trên, tác giả đã chọn “Sử ụng ngôn ngữ rục

r ng ịch a ngữ” làm đề tài nghiên cứu của luận án tiến sỹ kỹ thuật nhằm đóng

góp cho sự phát triển dịch tự động Đặc biệt, kết quả nghiên cứu của luận án mở ra một hướng nghiên cứu mới cho dịch tự động giữa tiếng Việt với các ngôn ngữ khác

và là cơ hội phát triển một hệ thống dịch tự động đa ngữ đối với các ngôn ngữ ở Việt Nam như: tiếng Việt, Chăm, Ba-na, Ê-đê, Jrai,…

2 Mục iêu nghiên cứu

Mục tiêu chung của luận án là nghiên cứu và thử nghiệm hệ thống dịch tự động đa ngữ có thể áp dụng cho tiếng Việt và các ngôn ngữ của các dân tộc ít người

ở Việt Nam

Mục tiêu cụ thể của luận án gồm:

- Đề xuất hướng tiếp cận mới trong dịch tự động đa ngữ cho tiếng Việt dựa trên ngôn ngữ trục

- Xây dựng và thử nghiệm hệ thống dịch tự động đa ngữ cho tiếng Việt dựa trên ngôn ngữ trục UNL và hệ thống UNL sẵn có

- Đề xuất hướng mở rộng hệ thống dịch tự động đa ngữ hiện có cho các ngôn ngữ của các dân tộc ít người tại Việt Nam

3 Đối ượng và phạm vi nghiên cứu

ựa trên mục tiêu, đối tượng nghiên cứu của luận án gồm:

- Các hướng tiếp cận trong dịch tự động;

- Các vấn đề dịch tự động cho tiếng Việt;

- Ứng dụng UNL trong dịch tự động

Phạm vi nghiên cứu trong luận án gồm:

- Hướng tiếp cận dựa trên ngôn ngữ trục UNL trong dịch tự động;

- Cấu trúc ngữ pháp câu tiếng Việt và biểu thức UNL;

Trang 15

4

- Hệ thống dịch đa ngữ cho tiếng Việt và UNL;

- Giải pháp dịch tự động giữa tiếng Việt và UNL

4 Nội ung nghiên cứu

Để đạt được mục tiêu đề ra, nội dung nghiên cứu của luận án gồm:

- Nghiên cứu một số phương pháp dịch tự động;

- Nghiên cứu ứng dụng UNL trong dịch tự động;

- Nghiên cứu các hướng tiếp cận trong dịch tự động cho tiếng Việt;

- Đề xuất giải pháp dịch đa ngữ cho tiếng Việt dựa vào UNL;

- Xây dựng hệ thống thử nghiệm dịch tự động Việt – UNL

5 Phương pháp nghiên cứu

Các phương pháp nghiên cứu trong luận án được sử dụng gồm:

- Phương pháp lý thuyết: Phân tích các tài liệu sẵn có từ các nguồn tài liệu liên quan đến đề tài Nghiên cứu tài liệu về các hướng tiếp cận trong dịch tự động, các hệ thống dịch đa ngữ, các giải pháp dịch thông qua ngôn ngữ trung gian, nghiên cứu về UNL và các công cụ ứng dụng Trên cơ sở nghiên cứu, tác giả hệ thống hóa thành cơ sở lý luận để nghiên cứu và đề xuất hướng giải quyết của luận án

- Phương pháp thực nghiệm: Nghiên cứu đánh giá thực nghiệm từng mô hình ứng dụng UNL cho tiếng Việt, từ đó so sánh, đánh giá với mô hình, phương pháp được đề xuất

- Phương pháp chuyên gia: Lấy ý kiến các chuyên gia về kết quả của các

bản dịch và ý kiến của người sử dụng

6 Đóng góp chính của luận án

Đóng góp chính của luận án bao gồm:

1) Đề xuất được giải pháp để tích hợp tiếng Việt vào hệ thống UNL Hệ thống UNL đã được nghiên cứu và phát triển trên năm (từ 1996) và đã hỗ trợ

dịch tự động cho hơn 4 ngôn ngữ Tuy nhiên, việc nghiên cứu để tích hợp tiếng

Trang 16

5

Việt vào hệ thống UNL chưa được triển khai Luận án đã nghiên cứu một cách hệ

thống về ngôn ngữ và UNL; để trên cơ sở đó đề xuất được mô hình tổng thể và các

giải pháp liên quan để tích hợp tiếng Việt vào UNL Việc tích hợp này có ý nghĩa quan trọng vì chỉ cần tích hợp được tiếng Việt vào hệ thống UNL thì chúng ta có thể dịch tự động từ tiếng Việt sang tất cả các ngôn ngữ khác đã có trên hệ thống UNL và ngược lại

2) Đề xuất giải pháp và xây dựng thành công từ điển tiếng Việt – UNL Từ

điển là cơ sở của bất kỳ hệ thống dịch tự động nào và việc xây dựng thành công từ điển tiếng Việt – UNL là một đóng góp quan trọng để tích hợp tiếng Việt vào hệ thống UNL Luận án đã nghiên cứu đặc điểm của từ điển trong UNL và các từ điển sẵn có của tiếng Việt để từ đó xây dựng từ điển Việt – UNL với 235 mục từ

3) Đề xuất giải pháp và xây dựng tập luật mã hoá (phục vụ dịch tiếng Việt sang UNL) và tập luật giải mã (phục vụ dịch từ UNL sang tiếng Việt) Trên cơ

nghiên cứu các luật trong hệ thống UNL và một số công cụ liên quan, luận án đã đề xuất giải pháp cải tiến và xây dựng các luật phục vụ quá trình dịch tự động giữa tiếng Việt và UNL Đã xây dựng được 32 luật mã hoá cho một số cấu trúc câu tiếng Việt để dịch sang biểu thức UNL và luật giải mã cho chiều dịch ngược lại

4) Đề xuất giải pháp và xây dựng 2 công cụ: EnCoVie là chương trình dịch

tự động từ tiếng Việt sang UNL và DeCoVie là chương trình dịch tự động từ UNL sang tiếng Việt Đây là chương trình để dịch tự động dựa trên từ điển và các tập luật được xây dựng

Những đóng góp này có ý nghĩa về mặt khoa học là mở ra một hướng nghiên cứu mới về dịch tự động cho tiếng Việt bên cạnh những phương pháp đã có Về mặt thực tiễn là xây dựng bộ từ điển, các tập luật và hai chương trình dịch Đây là tiền

đề để tiếp tục hoàn thiện hệ thống dịch UNL – tiếng Việt và phục vụ cho các nghiên cứu sau này trong lĩnh vực dịch tự động

7 Bố cục luận án

Ngoài các nội dung như: mở đầu, kết luận, hướng phát triển, tài liệu tham

Trang 17

6

khảo và phụ lục, luận án được tổ chức thành chương:

Chương 1: Tổng quan về dịch máy và ngôn ngữ UNL Trình bày các kết

quả nghiên cứu liên quan đến dịch tự động, các hệ thống dịch đa ngữ cho tiếng Việt, đánh giá chất lượng dịch giữa phương pháp dịch trung gian và dịch trực tiếp các cặp dịch Ngoài ra nội dung chương cũng trình bày kết quả nghiên cứu về ngôn ngữ UNL, một số thành tựu liên quan UNL và ứng dụng UNL làm ngôn ngữ trục trong hệ thống

dịch đa ngữ

Chương 2: Đề xuất mô hình dịch tiếng Việt - UNL Trình bày kết quả thử

nghiệm dịch tự động cho tiếng Việt dựa vào UNL trên các công cụ có sẵn Đề xuất mô hình dịch cho tiếng Việt và UNL dựa trên lý thuyết hệ thống UNL và các công cụ dịch tự động UNL đã được thử nghiệm cho các ngôn ngữ khác và tiếng Việt

Chương 3: Xây dựng từ điển và tập luật Trình bày các giải pháp xây dựng

bộ từ điển tiếng Việt – UNL, xây dựng tập luật mã hóa và giải mã cho hai công cụ EnCoVie và DeCoVie

Chương 4: Thử nghiệm và đánh giá Xây dựng hai công cụ chuyển đổi câu

tiếng Việt sang UNL và ngược lại Trình bày các kết quả thử nghiệm và đánh giá về các nội dung: xây dựng bộ từ điển tiếng Việt – UNL, chuyển đổi của hai công cụ

EnCoVie và DeCoVie, hệ thống dịch đa ngữ qua ngôn ngữ trục UNL (gồm ba ngôn ngữ tự nhiên trong hệ thống: tiếng Việt, tiếng Anh và tiếng Nga)

Trang 18

1.1 Một số khái niệm sử dụng trong luận án

Dịch máy (Machine translation): Quá trình dịch tự động từ một ngôn ngữ nguồn (Source language) sang ngôn ngữ đích (Target language) mà không có sự can thiệp của con người trong quá trình dịch [13] Ví dụ, khi dịch từ tiếng Việt (văn bản hay lời nói) sang tiếng Anh chúng ta chỉ cần sử dụng một công cụ để dịch

Dịch song ngữ (Bilingual translation): Quá trình dịch một hoặc hai chiều

giữa hai ngôn ngữ với nhau2 Ví dụ, trong một hệ thống chúng ta dịch từ tiếng Việt sang tiếng Anh và có thể dịch ngược lại

Dịch đa ngữ (Multilanguage translation): Quá trình dịch từ một ngôn ngữ

sang nhiều ngôn ngữ khác [74] Ví dụ, sử dụng một công cụ để dịch từ tiếng Việt sang nhiều tiếng khác: tiếng Anh, tiếng Pháp, tiếng Nga

Dịch qua ngôn ngữ trung gian (Interlingual translation): Là quá trình dịch từ

ngôn ngữ nguồn sang ngôn ngữ đích nhưng qua một ngôn ngữ thứ ba làm ngôn ngữ trung gian để chuyển tiếp giữa hai ngôn ngữ [13] Ví dụ, cần dịch văn bản từ ngôn ngữ A sang ngôn ngữ B, chúng ta dịch ngôn ngữ A sang ngôn ngữ P và từ ngôn ngữ

P tiếp tục dịch sang ngôn ngữ B Ngôn ngữ P trong trường hợp này được gọi là ngôn ngữ trung gian

2

https://en.wikipedia.org/ (2015)

Trang 19

Từ điển (Dictionary): Từ điển là nơi cung cấp thông tin hoặc giải thích một

sự vật hay hiện tượng một cách ngắn gọn và chính xác nhất [73] Từ điển chứa danh sách các từ, ngữ được sắp xếp theo thứ tự ABC Ngoài ra, đôi khi từ điển còn chứa các thông tin về cách phát âm, chú ý ngữ pháp, dạng biến thể của từ, cách sử dụng hay câu ví dụ

Từ điển song ngữ (Bilingual dictionary): Dùng để dịch các từ hoặc cụm từ

của ngôn ngữ này sang ngôn ngữ khác3 Từ điển song ngữ có thể là từ điển một chiều hoặc hai chiều

Luật ngữ pháp (Grammar rule): Bao gồm toàn bộ các quy tắc, quy luật kết

hợp để tạo nên các cụm từ, câu của ngôn ngữ [13] Ví dụ, trong tiếng Việt sắp xếp

trật tự từ sẽ có nghĩa khác nhau: “sữa bò” và “bò sữa”

Phân tích cú pháp nông (Shallow parsing): Quá trình phân tích cú pháp (Syntactic) hoặc mối quan hệ ngữ pháp (Grammatical relations) giữa các thành phần trong câu [13] Ví dụ, câu tiếng Việt “tôi đi học” được phân tích cú pháp nông

như sau: [tôi]pp[đivt [họcnt]]vp

Phân tích cú pháp sâu (Deep parsing): Quá trình phân tích và xác định ngữ nghĩa (Semantic analyzer) của một ngôn ngữ [13] Ví dụ, trong tiếng Việt từ

“đường kính” nghĩa có thể là “chất ngọt dùng để pha làm đồ uống” hoặc “đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu”

3

https://en.wikipedia.org/ (2015)

Trang 20

9

Ngôn ngữ UNL ( Universal Networking Language): Là ngôn ngữ nhân tạo có

các thành phần tương ứng như các ngôn ngữ tự nhiên Mục đích ra đời của UNL là biểu diễn tất cả các thông tin tri thức của mọi ngôn ngữ tự nhiên trong máy tính [52]

Mã hóa (Encode): Quá trình dịch tự động từ một ngôn ngữ tự nhiên sang

ngôn ngữ UNL [64] Ví dụ, dịch một câu tiếng Anh sang ngôn ngữ UNL

Giải mã (Decode): Quá trình dịch tự động từ ngôn ngữ UNL sang một ngôn

ngữ tự nhiên [65] Ví dụ, dịch một biểu thức UNL sang tiếng Anh

Máy chủ ngôn ngữ (Language server): Sử dụng để chuyển đổi giữa ngôn ngữ

tự nhiên và UNL4 Một máy chủ ngôn ngữ gồm hai thành phần cốt lõi là EnConverter và DeConverter EnConverter dùng để chuyển đổi một văn bản được viết trong ngôn ngữ tự nhiên sang một văn bản được viết trong ngôn ngữ UNL còn DeConverter chuyển đổi ngược lại của EnConverter

Hệ thống UNL (UNL System): Một hệ thống UNL bao gồm ba thành phần

chính: tài nguyên ngôn ngữ, phần mềm xử lý tài nguyên ngôn ngữ và các công cụ

hỗ trợ để duy trì, vận hành phần mềm xử lý ngôn ngữ hoặc phát triển tài nguyên ngôn ngữ4 Tài nguyên ngôn ngữ gồm các kiến thức về khái niệm, mối quan hệ giữa các khái niệm, từ điển, các luật ngữ pháp Các công cụ hỗ trợ như tạo ra biểu thức UNL, kiểm tra biểu thức UNL, giữ liên kết giữa từ điển và ngôn ngữ tự nhiên

Công cụ EnCoVie (Encode Converter for Vietnamese): ùng để chuyển đổi

một câu được viết trong tiếng Việt sang dạng văn bản tương đương được viết trong ngôn ngữ UNL

Công cụ DeCoVie (Decode Converter for Vietnamese): ùng để chuyển đổi

văn bản được viết trong ngôn ngữ UNL sang một câu tương đương được viết trong tiếng Việt

1.2 Một số hướng tiếp cận trong dịch tự ộng

Trong tiếng Anh khoảng cách trắng là dấu hiệu nhận diện ranh giới giữa các

4

http://www.undl.org/(2015)

Trang 21

10

từ trong câu, nhưng trong tiếng Việt thì dấu hiệu nhận dạng này lại chưa chính xác

Ví dụ, câu tiếng Anh “I am a teacher” sẽ là “I / am / a / teacher”, nhưng câu tiếng Việt “tôi là giáo viên” thì không thể hiểu “tôi / là / giáo / viên” mà phải là “tôi / là / giáo viên”

Hoặc khi sử dụng từ "đường" trong tiếng Việt, nếu không có thông tin kèm theo để làm rõ nghĩa thì có thể được hiểu là “đường: road”, “đường: sugar”,…?

Một số vấn đề nêu trên có thể khá dễ dàng để nhận ra và hiểu đối với con người nhưng đối với máy tính thì đây không phải đơn giản để xử lý Trong quá trình dịch chuyển đổi giữa hai ngôn ngữ tự nhiên, nếu việc tách các từ, cụm từ và xử lý ngữ nghĩa tốt sẽ cho ra một bản dịch tốt

Đến nay có nhiều hướng tiếp cận được đề xuất, tuy nhiên chất lượng của bản dịch cần có sự tham gia chỉnh sửa của con người Trong mục này, tác giả trình bày một số hướng tiếp cận trong các hệ thống dịch đa ngữ hiện nay

1.2.1 Dịch máy dựa trên luật

ịch máy dựa trên luật (Rule- based machine translation) là hướng tiếp cận

truyền thống dựa trên cơ sở phân tích hình thái học, cú pháp và ngữ nghĩa của ngôn ngữ đích và ngôn ngữ nguồn Ưu điểm, các luật chuyển đổi được xây dựng độc lập trên mỗi cấu trúc và không ảnh hưởng đến các cấu trúc khác Nhược điểm, mỗi cấu trúc được xây dựng tập luật thủ công nên mất nhiều chi phí

Trong hướng tiếp cận dịch máy dựa trên luật có ba phương pháp: dịch trực tiếp, dịch chuyển đổi cú pháp và dịch qua ngôn ngữ trung gian

1.2.1.1 Dịch trực tiếp

ịch trực tiếp (Direct translation) còn được gọi là dịch máy dựa vào từ điển,

nghĩa là thay thế giữa từ với từ của hai ngôn ngữ Phương pháp dịch này không chú trọng đến ngữ nghĩa giữa các từ trong câu đầu ra, câu đích không tự nhiên vì thiếu quan hệ ngữ nghĩa, không chặt chẽ cấu trúc ngữ pháp

Phương pháp dịch trực tiếp thích hợp cho các bản dịch cho cụm từ, từ hoặc

Trang 22

11

các cặp ngôn ngữ có cấu trúc tương tự nhau [ ][ ]

H nh 1.1 Sơ ồ hệ hống ịch rực iếp [13]

1.2.1.2 Dịch chuyển đổi cú pháp

H nh 1.2 Sơ ồ hệ hống ịch chuyển ổi [13]

Dịch chuyển đổi cú pháp (Syntactic transfer translation) là phương pháp

dịch dựa vào chuyển đổi cấu trúc ngữ pháp giữa ngôn ngữ nguồn và ngôn ngữ đích Nhược điểm của phương pháp này chỉ tập trung vào phân tích cú pháp mà không giải quyết về ngữ nghĩa [29]

1.2.1.3 Dịch qua ngôn ngữ trung gian

Văn bản nguồn

Phân tích câu nguồn

Sắp xếp câu đích

Văn bản đích

Từ điển song ngữ

Phân tích hình thái và cú pháp Văn bản nguồn

Cấu trúc câu nguồn

ngôn ngữ nguồn

Văn bản đích Tạo câu ngôn ngữ đích

Chuyển đổi cấu trúc và từ Cấu trúc câu đích

Luật chuyển

Luật văn

Trang 23

12

Phương pháp dịch qua ngôn ngữ trung gian (Intermediate translation) là dịch

từ ngôn ngữ nguồn sang ngôn ngữ đích thông qua một ngôn ngữ thứ ba, ngôn ngữ thứ ba trong trường hợp này được gọi là ngôn ngữ trung gian So với phương pháp dịch trực tiếp, phương pháp dịch qua ngôn ngữ trung gian có những ưu điểm sau:

- Không phụ thuộc vào nguồn tài nguyên, tương quan ngữ pháp giữa ngôn ngữ nguồn và ngôn ngữ đích [55]

- Giảm chi phí xây dựng phần mềm trong hệ thống dịch đa ngữ [13]

H nh 1.3 Sơ ồ hệ hống ịch qua ngôn ngữ rung gian [13]

1.2.2 Dịch máy dựa trên ngữ liệu

Dịch máy dựa trên ngữ liệu (Corpus-based machine translation) là hướng

tiếp cận dịch dựa vào các kho ngữ liệu được huấn luyện sẵn Ưu điểm của phương pháp này là khi kho ngữ liệu càng lớn thì chất lượng bản dịch đầu ra càng tốt

1.2.2.1 Dịch dựa trên ví dụ

Đặc trưng của phương pháp dịch dựa trên ví dụ (Example-based translation)

là “so khớp” mẫu (Pattern) tương tự, phương pháp này dựa hoàn toàn vào kho ngữ

liệu song ngữ được huấn luyện sẵn và không có sự phân tích về cú pháp, ngữ nghĩa của ngôn ngữ [17]

Thực tế chúng ta không thể lưu trữ tất cả các câu mẫu của ngôn ngữ, khái

niệm “so khớp” ở đây không phải là so nguyên câu dịch mà so khớp cấu trúc khung

mẫu cơ bản [13] Nghĩa là câu đầu vào sẽ được phân thành các cụm từ, sau đó dịch riêng lẻ các cụm từ và ghép nối tạo thành một bản dịch hoàn chỉnh Ví dụ dịch một

câu tiếng Anh “He buys a book on political science.” sang tiếng Việt, sẽ sử dụng kho ngữ liệu tiếng Anh và tiếng Việt như sau: “He buys a notebook – Anh ấy mua một sổ tay.” và “I read a book on political science –Tôi đọc một cuốn sách về khoa

Tiếng Anh

ịch

Trang 24

13

học chính trị.” Hệ thống phân cụm từ câu đầu vào thành “He buys – anh ấy mua”

và “a book on political science - một cuốn sách về khoa học chính trị” Sau đó ghép nối các cụm từ tạo thành câu tiếng Việt đầu ra “Anh ấy mua một cuốn sách về khoa học chính trị”

H nh 1.4 Sơ ồ hệ hống ịch ựa rên ví ụ [13]

Ý tưởng của phương pháp dịch thống kê được trình bày như sau:

Văn bản đầu vào f (còn gọi là ngôn ngữ nguồn Ví dụ câu tiếng Anh) được

dịch để tìm ra các chuỗi đầu ra e* (còn gọi là ngôn ngữ đích Ví dụ tiếng Việt) Tiếp

theo, dựa trên các chuỗi đầu ra e*

để tìm ra một chuỗi đích được cho là có chất

lượng bản dịch tốt nhất (được gọi là e)

Công thức tìm e* như sau:

(1.1) Trong đó, P(f/e) là mô hình dịch dùng để tính xác xuất có điều kiện giữa câu

Tập mẫu song ngữ

Tập mẫu đích

Trang 25

14

nguồn f và câu đích e P(e) là mô hình ngôn ngữ để tìm ra chuỗi e tốt nhất

H nh 1.5 Sơ ồ hệ hống ịch ựa rên hống kê [13]

Ban đầu mô hình dịch được xây dựng dựa vào đơn vị từ (Word based), nghĩa

là mỗi từ của ngôn ngữ nguồn được dịch ra thành nhiều từ của ngôn ngữ đích và sau

đó được ghép ngẫu nhiên các từ để tạo thành các bản dịch hoàn chỉnh [63] Tuy nhiên phương pháp này tạo ra rất nhiều bản dịch vô nghĩa Một phương pháp khác

được đề xuất gọi là dịch dựa vào cụm từ (Phrase based), phương pháp này sẽ khắc

phục hạn chế của phương pháp dựa vào đơn vị từ [7][50]

1.2.3 Phương pháp dịch kết hợp

H nh 1.6 Kế hợp phương pháp ịch ựa rên luậ và hống kê [13]

Đặc trưng của phương pháp dịch kết hợp (Hybrid translation approaches) là

Mô hình dịch P(f |e) Ngữ liệu song ngữ

Mô hình ngôn ngữ P(e)

Ngữ liệu đơn ngữ Văn bản đích (e)

Bộ giải mã Tìm kiếm e*= argmax P(f |e)P(e)

Văn vản nguồn (f)

Câu nguồn

ịch dựa trên luật

- Câu đầu ra máy (TL1)

- Câu đầu ra máy (TL )

ịch dựa trên thống kê

Các bản dịch Câu đích tốt nhất

Trang 26

15

sử dụng các ưu điểm của nhiều phương pháp khác nhau trong mỗi giai đoạn dịch [ ][ ] nhằm tạo ra một bản dịch cuối tốt nhất Ví dụ hệ thống dịch Promt sử dụng phương pháp dịch dựa trên luật để xử lý dữ liệu đầu vào, sau đó sử dụng phương pháp thống kê để tạo ra bản dịch cuối5

1.2.4 Đánh giá

Sau khi nghiên cứu ba hướng tiếp cận trong dịch tự động, tác giả có một số đánh giá như sau:

H nh 1.7 Mô hình ịch máy ựa rên luật 6

Phương pháp dịch máy dựa vào từ điển phù hợp trong các trường hợp dịch tương ứng 1 – 1, cặp ngôn ngữ tương đồng cấu trúc ngữ pháp Phương pháp dịch chuyển đổi cú pháp tốt hơn so với dịch trực tiếp vì có quá trình phân tích ngữ pháp, tuy nhiên không có sự phân giải ngữ nghĩa nên chưa giải quyết các trường hợp nhập nhằng về ngữ nghĩa Phương pháp dịch qua ngôn ngữ trung gian hiệu quả hơn so

với hai phương pháp trên (hình 1.7) và nó có thể dịch cho các trường hợp cặp ngôn

ngữ khác xa cấu trúc ngữ pháp, nghèo nàn tài nguyên ngôn ngữ

Phương pháp dịch dựa vào ví dụ và phương pháp dịch thống kê đều sử dụng kho ngữ liệu để dịch, chất lượng bản dịch đầu ra cải thiện khi kho ngữ liệu càng

5 http://www.online-translator.com (2015)

6

https://en.wikipedia.org (2015)

Chuyển đổi ịch trực tiếp

Ngôn ngữ trung gian

Câu nguồn ở phương pháp dịch qua ngôn ngữ trung gian được phân tích đầy đủ nhất, nếu quá trình phân tích ngôn ngữ nguồn tốt thì quá trình chuyển đổi sang câu đích càng ngắn

Trang 27

1.3 Dịch a ngữ

Trong hệ thống dịch trực tiếp, các cặp dịch ngôn ngữ được xây dựng độc lập với nhau Khi cần thêm một ngôn ngữ mới vào hệ thống, người phát triển sẽ bổ sung số mô-đun bằng số ngôn ngữ tham gia [ ] Điều này sẽ dẫn đến tăng chi phí khi phát triển hệ thống

H nh 1.8 ịch rực iếp giữa các cặp ngôn ngữ r ng ịch a ngữ

Hiện nay trên thế giới đang sử dụng hơn ngôn ngữ có chữ viết7 và tồn tại nhiều cặp ngôn ngữ không tương đồng cấu trúc ngữ pháp hoặc không có sẵn kho ngữ liệu [ ], nếu xây dựng hệ thống dịch đa ngữ bằng phương pháp này sẽ tốn nhiều chi phí

Một giải pháp được quan tâm với mục đích giảm chi phí xây dựng mô-đun

dịch trong hệ thống dịch đa ngữ (từ n*(n-1) xuống còn 2*n) như hình

7 https://en.wikipedia.org/ (2015)

Tiếng Đức Tiếng Pháp

Trang 28

17

H nh 1.9 ịch qua ngôn ngữ rục r ng ịch a ngữ

Tuy nhiên, vấn đề đặt ra là chất lượng bản dịch đầu ra giữa dịch trực tiếp giữa các cặp ngôn ngữ và dịch thông qua ngôn ngữ trục sẽ như thế nào? Tác giả tiến hành thử nghiệm dựa trên một tập dữ liệu có sẵn được định dạng xml [74] dựa vào công cụ Google translator Mô hình hệ thống đánh giá được đề xuất như sau:

H nh 1.10 Mô hình ánh giá ịch rực iếp và ịch qua ngôn ngữ rung gian

Tiếng Anh Tiếng Việt

Ngôn ngữ trục

ịch tự động

Đánh giá mức độ khác biệt

Kết quả đánh giá

Trang 29

18

Thử nghiệm tiến hành qua hai lần dịch như sau:

Lần thứ nhất, dịch trực tiếp giữa các cặp ngôn ngữ Hệ thống gửi văn bản

lên công cụ Google translator để dịch từ ngôn ngữ nguồn sang ngôn ngữ đích

Lần thứ hai, dịch qua một ngôn ngữ trung gian Hệ thống gửi văn bản lên công cụ Google translator hai lần: lần một, dịch từ ngôn ngữ nguồn sang một ngôn ngữ trung gian (tiếng Pháp, tiếng Đức) và trả về một kết quả tạm thời Lần hai, dịch

kết quả tạm thời sang ngôn ngữ đích

Kết quả đánh giá được tiến hành một cách tự động dựa vào hai phương pháp BLEU và NIST Việc đánh giá dựa trên so sánh sự trùng lặp từ với từ giữa bản dịch cần đánh giá và một bản dịch tham khảo Trong trường hợp có nhiều hơn một bản dịch tham khảo, hệ thống sẽ tiến hành so sánh bản dịch cần đánh giá với lần lượt các bản dịch tham khảo, bản dịch tốt hơn là bản có số điểm đánh giá tốt hơn

Phương pháp BLUE tính điểm theo công thức sau [70]:

- : là số lượng các từ trong bản dịch tham khảo

- : là số lượng các từ trong bản dịch bằng máy

Giá trị scoreBLEU nằm trong khoảng từ đến 1 Bản dịch nào có điểm scoreBLEU càng thấp thì độ trùng khớp giữa bản dịch máy, bản dịch mẫu càng nhiều và bản dịch đó càng chính xác

Công thức tính điểm của phương pháp NIST [70]:

Trang 30

Những trọng số thông tin được sử dụng để tính toán trên các N-gram trong tập tất cả các bản dịch tham khảo theo công thức:

( )

- N1 = số lượng các tương ứng của các từ wi…wn-1

- N2 = số lượng các tương ứng của các từ wi…wn

-  là hệ số được chọn bằng 0.5 khi số lượng các từ trong bản dịch máy nhỏ hơn hoặc bằng 2/3 số lượng các từ trong bản dịch tham khảo, ngược lại thì  = 1

- N = 5 (xét tất cả các cụm có độ dài là 5)

- Ltra: số lượng các từ trong bản dịch máy

- Lref: số lượng các từ trong bản dịch tham khảo

Bảng số liệu thống kê kết quả tính điểm số BLEU và NIST (thử nghiệm với hai ngôn ngữ trung gian: tiếng Pháp và tiếng Đức) được trình bày qua hai bảng 1.1

và 1.2 như sau:

Bảng 1.1 Kế quả ánh giá qua iếng Pháp

Phương pháp ánh giá

Trung gian: tiếng Anh  tiếng Pháp  tiếng Việt 0.00075 1.97572

Bảng 1.2 Kế quả ánh giá qua iếng Đức

Phương pháp ánh giá

Trung gian: tiếng Anh  tiếng Đức  tiếng Việt 0.00072 1.85885

Trang 31

20

Lấy kết quả dịch trên tiếp tục so sánh trên hai phương diện ngữ pháp và ngữ nghĩa bởi các chuyên gia ngôn ngữ Tỷ lệ số câu giống và khác so với bản dịch tham khảo được thống kê như bảng 1.3:

Bảng 1.3 Tỷ lệ giống/khác giữa 2 bản ịch máy

Dịch qua ngôn ngữ trung gian 17602 (29%) 41117 (71%)

Theo bảng 1.3, chênh lệch giữa câu giống nhau của hai phương pháp dịch là 2% là do: nhập nhằng về ngữ nghĩa của ngôn ngữ tự nhiên nên khi dịch qua hai lần

sẽ làm ảnh hưởng đến chất lượng

Tuy nhiên, nếu so hiệu quả kinh tế xây dựng một hệ thống dịch đa ngữ với n ngôn ngữ tham gia thì phương pháp sử dụng ngôn ngữ trung gian để dịch là một hướng nghiên cứu được quan tâm Và nếu tồn tại một ngôn ngữ có thể biểu diễn được tất cả ngôn ngữ tự nhiên mà không gây nhập nhằng về ngữ nghĩa thì tỷ lệ chất lượng dịch câu giống giữa hai phương pháp sẽ gần nhau

1.4 Vấn ề dịch tự ộng cho tiếng Việt

Dịch tự động cho tiếng Việt bắt đầu nghiên cứu vào những năm với mục đích phục vụ chính trị và quân sự Năm công ty Logos nghiên cứu dịch từ tiếng Anh sang tiếng Việt và ra đời hệ thống dịch Logos I với bộ từ điển hỗ trợ hơn 1.000 mục từ vào năm Năm hệ thống dịch Anh-Việt với tên EVTRAN được sử dụng rộng rãi tại Việt Nam, năm phiên bản EVTRAN 2.0 có hơn 200.000 mục từ và năm phiên bản EVTRAN 3.0 có hơn mục từ

Trong những năm gần đây, nhu cầu sử dụng dịch văn bản tiếng Việt sang các ngôn ngữ trên thế giới tăng lên rất nhanh: do nhu cầu đọc nhanh để lấy thông tin về khoa học, công nghệ và kỹ thuật của các nước trên thế giới; do nhu cầu trong giao tiếp; … Dịch tự động miễn phí hỗ trợ dịch hai chiều cho tiếng Việt với nhiều ngôn

Trang 32

21

ngữ trên thế giới được sử dụng trực tuyến miễn phí như: Promt, Vdict, Google

translator (dịch văn bản tiếng Việt sang 103 ngôn ngữ trên thế giới),…, nhưng hầu

hết các bản dịch chưa thể hiện ý nghĩa văn phong câu nguồn nên chỉ được sử dụng

để tham khảo và cần có sự chỉnh sửa của con người mới hoàn thiện Ở Việt Nam có rất nhiều nhóm tham gia nghiên cứu dịch tự động cho tiếng Việt nhưng chủ yếu cho cặp ngôn ngữ phổ biến như Anh – Việt và Pháp – Việt [13][32]

Việt Nam có 54 dân tộc (khoảng 92 triệu người) trong đó cộng đồng người Kinh (còn gọi là người Việt và ngôn ngữ sử dụng là tiếng Việt) chiếm khoảng

86.2% Việc nghiên cứu và phát triển hệ thống dịch tự động cho tiếng Việt chưa giải quyết 13.8% dân số còn lại Hiện trong nước có nhiều nhóm nghiên cứu về dịch tự động giữa tiếng Việt với các ngôn ngữ khác ở Việt Nam: hệ thống dịch Việt – Ê đê với khoảng , câu được huấn luyện8; dịch Việt - K’ho với khoảng 212 cặp câu song ngữ và 622 mục từ [42];… Hầu hết các nghiên cứu mới áp dụng một số lĩnh vực: dạy học, dự báo thời tiết, Nguyên nhân một phần là do thiếu nguồn tài trợ để phát triển hệ thống, thiếu tính kế thừa và tài nguyên ngôn ngữ khan hiếm

Vấn đề đặt ra là làm thế nào để xây dựng nhanh mà giảm chi phí cho một hệ thống dịch đa ngữ cho tiếng Việt với các ngôn ngữ trên thế giới và một hệ thống dịch đa ngữ cho các ngôn ngữ ở Việt Nam?

Một hướng tiếp cận được quan tâm là xây dựng hệ thống dịch đa ngữ dựa vào ngôn ngữ trục Với hướng tiếp cận này: mỗi nhóm nghiên cứu chỉ cần xây dựng hai mô-đun dịch cho ngôn ngữ của mình và ngôn ngữ trục; dễ dàng tích hợp các mô-đun riêng lẻ mà không ảnh hưởng đến hoạt động hệ thống

Vậy làm thế nào để tìm ra một ngôn ngữ mà có thể biểu diễn tất cả ngôn ngữ

tự nhiên và không nhập nhằng về ngữ nghĩa Hiện nay tồn tại một ngôn ngữ gọi là UNL và nó có đủ các thành phần của một ngôn ngữ tự nhiên Mục đích ra đời của UNL như là một ngôn ngữ trung gian để biểu diễn tất các ngôn ngữ tự nhiên trên

8

dichtudongvietede.net (2015)

Trang 33

Nhiệm vụ ra đời của UNL là tạo một cơ sở hệ thống dịch đa ngữ, với mục đích cho phép tất cả mọi người chia sẻ thông tin bằng ngôn ngữ của họ9 Để đạt được mục đích trên, dự án UNL đã mời các cá nhân và các tổ chức tham gia xây dựng nền tảng UNL về các lĩnh vực khoa học, văn hóa, xã hội và kinh tế cho tất cả các ngôn ngữ khác nhau trên thế giới

Năm , UNL được phát triển bởi một viện nghiên cứu của trường đại học United Nations ở Nhật Bản10 Ngay khi được thành lập, các chuyên gia về khoa học máy tính và ngôn ngữ học đã xây dựng nguồn tài liệu về ngôn ngữ và phát triển phần mềm của hệ thống UNL ưới sự chỉ đạo của trung tâm UNL, các viện và các trường trên thế giới đã và đang nghiên cứu phát triển cho ngôn ngữ của họ Tháng / , đại học United Nations thành lập tổ chức quỹ tài trợ UNDL chịu trách nhiệm phát triển và quản lý dự án UNL9

1.5.2 Ngôn ngữ UNL

UNL có tất cả các thành phần tương ứng như một ngôn ngữ tự nhiên, tuy nhiên sự biểu diễn của nó không nhập nhằng về ngữ nghĩa11 Các khái niệm được

9 http://www.undl.org/(2015)

10 http://www.undl.org/(2015)

11

http://www.unlweb.net(2015)

Trang 34

23

định nghĩa trong UNL gọi là từ vựng (UW), các từ vựng được liên kết với với nhau

để tạo thành biểu thức UNL Các liên kết này được gọi là quan hệ (Relation) nhằm

xác định vai trò của mỗi từ vựng trong biểu thức Ý nghĩa chủ quan của người nói

trong câu nguồn sẽ được thể hiện qua các thuộc tính (Attributes) gắn sau mỗi UW

Ngoài ra một thành phần được dùng để định nghĩa ngữ nghĩa của từ vựng được gọi

là cơ sở tri thức UNL (UNLKB), UNLKB đảm bảo chắc chắn nghĩa của từ vựng

không nhập nhằng

1) Từ vựng: Từ vựng là yếu tố cơ bản để xây dựng biểu thức UNL Từ vựng

có đa số là những từ tiếng Anh (có bổ sung những từ khác ngoài tiếng Anh) và

những điều kiện ràng buộc về ngữ nghĩa Từ vựng được định nghĩa là một chuỗi các

ký tự với các ràng buộc theo cú pháp sau:

<UW> ::= <HeadWord> [<Constraint list>]

<Relation label> ::= “icl” | “iof” | “pof” | “aoj” |

<character> ::= “A” | | “Z” | “a” | | “z” | 0

| 1 | 2 | | 9 | “_” | ” “ | “#” |

“!” | “$” | “%” | “=” | “^” | “~” | “|”

| “@” | “+” | “-“ | “<” | “>” | “?”

“HeadWord” là một mục từ thực (đơn giản hoặc phức tạp) trong tiếng Anh

và nó không phải là một chuỗi để định nghĩa từ “Constraint list” là danh sách ràng

buộc giới hạn khái niệm từ vựng của một tập con hoặc một khái niệm riêng chứa

Trang 35

24

trong từ vựng cơ bản “Relation label” được sử dụng để liên kết giữa HeadWord và

“character” Các nhãn trong “Relation label” thường dùng như: “icl” để phân loại thuộc một lớp của HeadWord (ví dụ, table(icl>furniture)), “iof” để mô tả một lớp lớn mà HeadWord thuộc về (ví dụ, Paris(iof>city)), “pof” mô tả HeadWord là một phần thuộc về tổng quát (ví dụ, finger(pof>hand)), “aoj” mô tả một thuộc tính thuộc tổng quát mà HeadWord là một giá trị thuộc về (ví dụ, blue(aoj>color))…

“character” là các UW được định nghĩa trong UNLKB và dùng để phân biệt giữa

các HeadWord

Trong một định nghĩa UW, nếu có nhiều ràng buộc ngữ nghĩa thì các ràng

buộc được phân cách nhau bởi dấu phẩy “,”

Ví dụ, từ “drink” trong tiếng Anh nếu không có các ràng buộc ngữ nghĩa thì được hiểu có thể là “Đưa chất lỏng vào miệng, chất lỏng được đưa vào miệng, chất lỏng với cồn, hút…” Nhưng nếu từ được định nghĩa mà có ràng buộc ngữ nghĩa như “drink(agt> thing,obj>liquid)” thì định nghĩa của UW được hiểu là “Đưa chất lỏng vào miệng”

Một ví dụ khác về từ “milk”, nếu từ vựng được định nghĩa ràng buộc ngữ nghĩa là “milk(icl>dairy_product>thing)” thì định nghĩa của UW được hiểu là “một loại chất lỏng bổ dưỡng có màu trắng được tiết ra bởi động vật có vú” Nhưng nếu định nghĩa với ràng buộc ngữ nghĩa khác “milk(icl>foodstuff>thing)” thì được hiểu

là “một loại thức ăn có chất dinh dưỡng giống như sữa”

2) Quan hệ: Có 56 nhãn quan hệ được định nghĩa bằng chuỗi gồm hai hoặc

ba ký tự Các quan hệ trong UNL được sử dụng gắn kết hai UW nên được gọi là các quan hệ nhị phân

Bảng 1.4 Các quan hệ ược ịnh nghĩa r ng NL [66]

Trang 36

25

Các mối quan hệ trong UNL được xây dựng theo hai nguyên tắc sau đây:

Nguyên tắc 1 (điều kiện cần thiết): Khi một UW có các quan hệ với nhiều

hơn một từ vựng, mỗi nhãn quan hệ cần được thiết lập để có thể nhận biết mỗi mối quan hệ trên cơ sở đủ kiến thức về khái niệm của mỗi UW [66]

Nguyên tắc 2 (điều kiện đủ): Khi có các mối quan hệ giữa các từ vựng, mỗi

nhãn quan hệ nên được thiết lập để có thể giải thích được vai trò của mỗi từ vựng liên quan đến nhãn quan hệ [66]

3) Thuộc tính: Được sử dụng mô tả các thông tin về đặc điểm ngữ pháp thể

hiện quan điểm của người nói và được gắn sau mỗi UW Thuộc tính trong UNL được chia thành nhóm trong bảng

Bảng 1.5 Các huộc ính ược ịnh nghĩa r ng NL [66]

Tính logic của từ vựng @transitive, @symmetric, @identifiable,

@disjointed Khía cạnh thời gian người nói @past, @present, @future

Quan điểm người nói trên khía

cạnh của sự kiện

@begin, @complete, @continue, @custom,

@end, @experience, @progress, @repeat,

@state, @just, @soon, @yet Quan điểm của người nói tham

chiếu đến các khái niệm

@generic, @def, @indef, @not, @ordinal

Quan điểm của người nói nhấn

mạnh, trọng tâm và chủ đề

@contrast, @emphasis, @entry, @qfocus,

@theme, @title

@topic

Trang 37

26

Thái độ của người nói

@affirmative, @confirmation, @exclamation,

@humility, @imperative, @interrogative,

@invitation, @polite, @request, @respect,

@vocative

Cảm xúc và chỉ trích của người

nói

@ability, @get-benefit, @give-benefit,

@conclusion, @consequence, @sufficient,

@consent, @dissent, @grant, @grant-not,

@although, @discontented, @expectation,

@wish, @insistence, @intention, @want, @will,

@need @obligation, @obligation-not, @should,

@unavoidable, @certain, @inevitable, @may,

@possible, @probable, @rare, @unreal,

@admire, @blame, @contempt, @regret,

@surprised, @troublesome

Thỏa thuận ngầm

@passive, @pl, @angle_bracket, @brace,

@double_parenthesis, @double_quote,

@parenthesis, @single_quote, @square_bracket

4) Biểu hức NL: Một biểu thức UNL là tập hợp các quan hệ nhị phân

được định dạng như sau [66]:

<relation>(<uw1>,<uw2>)

Trong đó: <relation> là một trong các quan hệ và <uw1>, <uw2> là hai từ vựng có quan hệ với nhau qua <relation>

Mỗi từ vựng trong biểu thức có thể là một siêu từ vựng chứa một tập quan hệ

nhị phân con khác và các quan hệ nhị phân con này được gọi là một “scope” Như

vậy, một scope được xem như là một từ vựng nên có thể kết nối với các từ vựng khác hoặc các scope khác Một mối quan hệ nhị phân trong một scope được phân biệt với những scope khác bằng cách gán ID cho các <relation>, các ID có giá trị từ

[00-99] Ví dụ một biểu thức UNL sau có định nghĩa một siêu từ vựng “:01” chứa

Trang 38

27

hai quan hệ nhị phân “agt” và “plc”

{unl}

agt(hear(icl>perceive(agt>person,obj>thing)).@ability.@entry, I(icl>person).@topic)

obj(hear(icl>perceive(agt>person,obj>thing)).@ability.@entry,:01)

agt:01(bark(agt>dog).@progress.@entry,dog(icl>mammal).@indef) plc:01(bark(agt>dog).@progress.@entry,outside(icl>area))

{/unl}

Một biểu thức UNL được đặt trong cặp thẻ sau: {unl} và {/unl}, nếu biểu thức UNL chỉ gồm một từ vựng thì từ vựng này sẽ được chứa trong cặp thẻ [W] và [/W] Có hai hình thức thể hiện biểu thức UNL: bảng và danh sách

Bảng 1.6 Mô ả h nh hức bảng trong biểu hức NL [66]

Một biểu thức UNL bao gồm một tập hợp

các mối quan hệ nhị phân

Ví dụ, trường hợp một câu tiếng Anh “The sky was blue?!” được biểu diễn

sang UNL như sau:

Trước hết, xác định mối quan hệ ngữ nghĩa giữa hai ngôn ngữ :

Trang 39

Dựa vào (1.5), UW được xem như một mô tả trạng thái thuộc tính của UW1

vì vậy mối quan hệ nhị phân giữa UW1 và UW2 Trong UNL, quan hệ “aoj” định nghĩa một điều mà đang ở một trạng thái hoặc thuộc tính nào đó Câu “the sky was blue?!” được biểu diễn dưới dạng UNL như sau12:

H nh 1.11 Biểu iễn câu iếng Anh sang NL

Để diễn tả quan điểm của người nói trong câu nguồn, trong UNL sẽ gắn các

thuộc tính sau mỗi UW như sau: “the @def- đã được xác định trước đó”, “was

@past - thể hiện thì quá khứ”, “? @interrogative–thể hiện sự hỏi, chất vấn”,

“! @exclamation – thể hiện sự cảm thán” Biểu thức UNL được viết lại như sau:

{unl}

aoj(blue(icl>color).@entry.@past.@interrogative.@exclamation,sky(icl>natural world).@def)

Trang 40

H nh 1.13 Cơ chế chuyển ổi của hệ hống NL

Một máy chủ ngôn ngữ bao gồm hai chức năng là EnConverter và DeConverter EnCoverter và DeConverter là hai phần mềm cốt lõi trong hệ thống UNL EnConverter là phần mềm dùng để chuyển đổi văn bản một ngôn ngữ tự

blue(icl>color) @entry.@past.@interrogative.@exclamation

sky(icl>natural world)

.@def obj

Định dạng
Số trang	187
Dung lượng	2,09 MB