Hiện nay có một ngôn ngữ được xây dựng cho dịch máy dựa vào phương pháp trung gian gọi là UNL, ngôn ngữ này cho phép người sử dụng có thể biểu diễn tất cả các tri thức của mọi ngôn ngữ t
Trang 1
Đà Nẵng 2018
Trang 2PHAN THỊ LỆ THUYỀN
Chuyên ngành : KHOA HỌC MÁY TÍNH
Trang 3Tôi cam đoan đây là kết quả nghiên cứu của riêng tôi Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tác giả
NCS Phan Thị Lệ Thuyền
Trang 4LỜI CẢM ƠN
-
Trước tiên, tác giả xin gửi lời cảm ơn đến Ban Đào tạo - Đại học Đà Nẵng, Khoa Công nghệ Thông tin, Phòng Đào tạo Trường Đại học Bách khoa - Đại học
Đà Nẵng đã tạo điều kiện thuật lợi trong thời gian học tập và nghiên cứu
Tác giả muốn tri ân đến các Thầy Cô giáo Khoa Công nghệ Thông tin Trường Đại học Bách khoa - Đại học Đà Nẵng, đặc biệt là thầy Võ Trung Hùng đã tận tình giúp đỡ tác giả từ những bước đi đầu tiên hình thành ý tưởng, cũng như trong suốt quá trình nghiên cứu Thầy luôn ủng hộ, động viên và tạo điều kiện tốt nhất để tác giả hoàn thành luận án Tác giả nhận thấy sự trưởng thành sau những năm được học tập và nghiên cứu dưới sự hướng dẫn của Thầy
Tác giả chân thành cảm ơn các chuyên gia, các nhà ngôn ngữ học (PGS.TS Nguyễn Ngọc Chinh, TS Nguyễn Quý Thành) đã dành thời gian để hỗ trợ tác giả
nghiên cứu về mặt ngôn ngữ học, kiểm tra, đánh giá các kết quả dịch tự động và so sánh chất lượng dịch các hệ thống Sự giúp đỡ của các nhà ngôn ngữ học đã giúp ích rất nhiều trong suốt quá trình nghiên cứu và hoàn thành báo cáo luận án này
Tác giả xin gửi lời cảm ơn chân thành tới các anh chị NCS của Khoa Công nghệ Thông tin Trường Đại học Bách khoa - Đại học Đà Nẵng, những người thân
và bạn bè luôn bên cạnh động viên, hỗ trợ về mặt tinh thần để tác giả vượt qua khó khăn và hoàn thành tốt luận án
Trang 5-i-
MỤC LỤC
DANH MỤC HÌNH VẼ iv
DANH MỤC BẢNG vii
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ DỊCH MÁY VÀ NGÔN NGỮ UNL 7
1.1 Một số khái niệm sử dụng trong luận án 7
1.2 Một số hướng tiếp cận trong dịch tự động 9
1.2.1 Dịch máy dựa trên luật 10
1.2.2 Dịch máy dựa trên ngữ liệu 12
1.2.3 Phương pháp dịch kết hợp 14
1.2.4 Đánh giá 15
1.3 Dịch đa ngữ 16
1.4 Vấn đề dịch tự động cho tiếng Việt 20
1.5 Tổng quan về UNL 22
1.5.1 Giới thiệu 22
1.5.2 Ngôn ngữ UNL 22
1.5.3 Hệ thống UNL 29
1.5.4 Một số kết quả nghiên cứu liên quan 31
1.5.5 Ứng dụng UNL làm ngôn ngữ trục trong hệ thống dịch đa ngữ 33
1.6 Tiểu kết chương 35
Chương 2 ĐỀ XUẤT MÔ HÌNH DỊCH TIẾNG VIỆT - UNL 37
2.1 Đặt vấn đề 37
2.2 Ngữ pháp tiếng Việt 39
2.3 Đề xuất mô hình dịch 41
Trang 6-ii-
2.3.1 Công cụ EnCoVie 42
2.3.2 Công cụ DeCoVie 45
2.3.3 Từ điển trong UNL 46
2.3.4 Luật ngữ pháp trong UNL 49
2.4 Một số vấn đề cần xử lý cho tiếng Việt 56
2.5 Tiểu kết chương 58
Chương 3 GIẢI PHÁP XÂY DỰNG TỪ ĐIỂN VÀ LUẬT 60
3.1 Giải pháp xây dựng từ điển tiếng Việt - UNL 60
3.2 Giải pháp xây dựng luật ngữ pháp 69
3.2.1 Xây dựng luật mã hóa 69
3.2.2 Xây dựng luật giải mã 83
3.3 Tiểu kết chương 94
Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 96
4.1 Xây dựng công cụ EnCoVie và DeCoVie 96
4.1.1 Xây dựng công cụ EnCoVie 96
4.1.2 Xây dựng công cụ DeCoVie 99
4.2 Thử nghiệm và đánh giá 114
4.2.1 Từ điển tiếng Việt – UNL 114
4.2.2 Dịch đa ngữ qua ngôn ngữ trục UNL 115
4.3 Tiểu kết chương 122
KẾT L ẬN 123
TÀI LIỆ THAM KHẢO 128
PHỤ LỤC 137
Trang 7-iii-
ANH MỤC CÁC TỪ VIẾT T T
LGW Left Generation Window Cửa sổ tạo ra bên trái
RGW Right Generation Window Cửa sổ tạo ra bên phải
UNL Universal Networking Language Ngôn ngữ mạng dùng chung UNLKB Universal Networking Language Cơ sở tri thức của ngôn ngữ
Trang 8-iv-
ANH MỤC HÌNH VẼ
Hình Sơ đồ hệ thống dịch trực tiếp [13] 11
Hình Sơ đồ hệ thống dịch chuyển đổi [13] 11
Hình Sơ đồ hệ thống dịch qua ngôn ngữ trung gian [13] 12
Hình Sơ đồ hệ thống dịch dựa trên ví dụ [13] 13
Hình Sơ đồ hệ thống dịch dựa trên thống kê [13] 14
Hình Kết hợp phương pháp dịch dựa trên luật và thống kê [13] 14
Hình Mô hình dịch máy dựa trên luật 15
Hình Dịch trực tiếp giữa các cặp ngôn ngữ trong dịch đa ngữ 16
Hình ịch qua ngôn ngữ trục trong dịch đa ngữ 17
Hình Mô hình đánh giá dịch trực tiếp và dịch qua ngôn ngữ trung gian 17
Hình Biểu diễn câu tiếng Anh sang UNL 28
Hình Biểu diễn biểu thức UNL dưới dạng đồ thị 29
Hình Cơ chế chuyển đổi của hệ thống UNL 29
Hình Hệ thống UNL14 30
Hình Quá trình chuyển đổi dữ liệu trong dự án UNL – EOLSS [15] 33
Hình Hệ thống UNL cho các ngôn ngữ 34
Hình Dịch qua ngôn ngữ trục UNL 34
Hình Mô hình dịch tiếng Việt – UNL 42
Hình Sơ đồ chuyển đổi của công cụ EnCoVie 43
Hình Danh sách các nút trong Node-list 43
Hình Sơ đồ liên kết các Headword 44
Trang 9-v-
Hình Sơ đồ mã hóa câu tiếng Việt sang UNL 44
Hình Sơ đồ chuyển đổi của công cụ DeCoVie 45
Hình Mối quan hệ nhị phân giữa hai từ vựng 45
Hình Sơ đồ mã hóa biểu thức UNL sang câu tiếng Việt 46
Hình Trạng thái cuối cùng của Node-list 46
Hình Sử dụng UW để tìm HeadWord trong quá trình giải mã 48
Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “+” 51
Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “-” 52
Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “<” 52
Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “>” 53
Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “:” 54
Hình Luật chèn phải một nút từ Node vào Node-list 54
Hình Luật chèn trái một nút từ Node vào Node-list 55
Hình Luật xóa nút phải một nút từ Node-list 56
Hình Luật xóa nút trái một nút từ Node-list 56
Hình Mô-đun xử lý câu tiếng Việt đầu vào [9] 58
Hình Luật ngữ pháp chuyển đổi tiếng Việt sang biểu thức UNL 69
Hình Đồ thị biểu diễn biểu thức UNL 83
Hình Mối tương quan giữa hai ngôn ngữ tiếng Việt và UNL 83
Hình Sắp xếp trật tự các từ câu đầu ra tiếng Việt 84
Hình Sắp xếp trật tự các từ câu đầu ra tiếng Việt 84
Hình Đồ thị UNL biểu diễn cho biểu thức có một nút con 84
Hình Đồ thị UNL biểu diễn cho biểu thức có nhiều nút con 86
Trang 10-vi-
Hình Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 1 88
Hình Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 2 89
Hình Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 3 92
Hình Đồ thị biểu diễn biểu thức UNL 100
Hình Đồ thị biểu diễn biểu thức UNL chứa một hay nhiều nút con 106
Hình Đồ thị biểu diễn biểu thức UNL chứa nút kết hợp 112
Hình Hệ thống dịch đa ngữ dựa vào UNL 118
Hình Biểu đồ chất lượng dịch qua UNL và dịch trực tiếp 120
Trang 11-vii-
ANH MỤC BẢNG
Bảng Kết quả đánh giá qua tiếng Pháp 19
Bảng Kết quả đánh giá qua tiếng Đức 19
Bảng Tỷ lệ giống/khác giữa 2 bản dịch máy 20
Bảng Các quan hệ được định nghĩa trong UNL [66] 24
Bảng Các thuộc tính được định nghĩa trong UNL [66] 25
Bảng Mô tả hình thức bảng trong biểu thức UNL [66] 27
Bảng Tỷ lệ giống/khác giữa dịch qua UNL và tiếng Anh 38
Bảng Các mô hình câu đơn [ ] 40
Bảng Tập nhãn từ loại trong từ điển cho tiếng Việt [9] 48
Bảng Tập nhãn từ loại con trong từ điển cho tiếng Việt [9] 49
Bảng Số mục từ tiếng Việt – UNL thu được với giải pháp thứ nhất 115
Bảng Một số ví dụ câu không khớp ở máy chủ tiếng Anh 118
Bảng Tỷ lệ thay đổi giữa dịch qua UNL và trực tiếp 119
Trang 12bị hạn chế bởi ngôn ngữ? Hiện có hai giải pháp chính để giải quyết vấn đề này: thứ nhất là phát triển các hệ thống, các ứng dụng, các nguồn dữ liệu đa ngữ để người sử dụng có thể lựa chọn ngôn ngữ mà họ muốn khi sử dụng; thứ hai là ứng dụng các phần mềm dịch tự động để dịch các giao diện, nội dung từ ngôn ngữ hiện có sang ngôn ngữ mà người sử dụng chọn lựa
Hiện có nhiều hệ thống dịch đa ngữ được xây dựng với nhiều hướng tiếp cận khác nhau và chất lượng bản dịch ngày càng được cải thiện Tuy nhiên, đầu ra bản dịch của các hệ thống này hầu hết chỉ mang tính tham khảo vì chưa thể hiện hết ý nghĩa, văn phong của câu nguồn Hơn nữa trên thế giới hiện đang sử dụng hơn
5 ngôn ngữ có chữ viết, việc phát triển một hệ thống dịch đa ngữ cho từng cặp ngôn ngữ là vô cùng khó khăn và nhất là những ngôn ngữ có số lượng người dùng
ít1 Một trong những hướng tiếp cận mới trong dịch đa ngữ đang được quan tâm là
sử dụng ngôn ngữ trục để dịch, hướng tiếp cận này giảm chi phí xây dựng phần mềm từ (n*(n-1)) xuống còn (2*n) và giải quyết các cặp ngôn ngữ thiếu tài nguyên hoặc không tương đồng cấu trúc ngữ pháp [13]
Văn phạm câu nguồn trong phương pháp dịch qua ngôn ngữ trục được phân tích và biểu diễn qua một ngôn ngữ khác gọi là ngôn ngữ trung gian và sau đó sử
1
https://en.wikipedia.org/ (2015)
Trang 132
dụng văn phạm của ngôn ngữ đích để dịch từ ngôn ngữ trung gian này Ưu điểm của phương pháp này là chỉ cần phân tích ngôn ngữ nguồn để chuyển sang ngôn ngữ trung gian và ngược lại Ngoài ra, trong hệ thống dịch đa ngữ, chúng ta dễ dàng bổ sung ngôn ngữ mới này vào hệ thống nhưng nhược điểm là làm thế nào tìm ra một ngôn ngữ mà có thể biểu diễn tất cả thông tin mọi ngôn ngữ tự nhiên và không nhập nhằng về ngữ nghĩa
Trong những năm gần đây, nhiều ngôn ngữ tự nhiên có kho ngữ liệu song
ngữ lớn (như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp,…) được lựa chọn làm ngôn
ngữ trung gian trong dịch tự động hoặc xây dựng kho ngữ liệu song ngữ [6][55] Tuy nhiên với phương pháp dịch hai lần thông qua ngôn ngữ thứ ba, chất lượng bản dịch không cao vì không khử được tính nhập nhằng của từ loại trong ngôn ngữ tự nhiên [6] Đến nay, hướng tiếp cận này thường sử dụng cho các cặp ngôn ngữ không tương đồng về cấu trúc ngữ pháp hoặc khan hiếm nguồn tài nguyên dữ liệu
Hiện nay có một ngôn ngữ được xây dựng cho dịch máy dựa vào phương pháp trung gian gọi là UNL, ngôn ngữ này cho phép người sử dụng có thể biểu diễn tất cả các tri thức của mọi ngôn ngữ tự nhiên trên máy tính mà không bị nhập nhằng
về ngữ nghĩa UNL bao gồm các thành phần như một ngôn ngữ tự nhiên: từ vựng
(UW), quan hệ (relation), thuộc tính (attributes) và cơ sở tri thức ngôn ngữ (UNLKB) Trong UNL, liên kết giữa các từ vựng dựa trên quan hệ ngữ nghĩa và gắn
các thuộc tính để miêu tả khía cạnh của người nói
Mục đích ra đời của UNL là cung cấp cho người sử dụng Internet khả năng truy cập vào các trang web bằng ngôn ngữ của họ Hệ thống dịch tự động đa ngữ bao gồm nhiều máy chủ ngôn ngữ khác nhau được dịch thông qua ngôn ngữ trục là UNL Mỗi máy chủ ngôn ngữ sẽ đảm nhận hai chức năng, đó là dịch một văn bản từ ngôn ngữ nguồn sang ngôn ngữ UNL gọi là quá trình mã hóa và dịch ngược lại sang ngôn ngữ đích gọi là quá trình giải mã Đến nay, nhiều ngôn ngữ trên thế giới đã tích hợp vào nền tảng UNL tạo thành một hệ thống dịch đa ngữ như: tiếng Nga, tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha,… Vấn đề đặt ra là làm thế
Trang 143
nào để tích hợp máy chủ tiếng Việt vào nền tảng UNL trong khi nó chưa được triển khai?
Xuất phát từ nhu cầu thực tiễn trên, tác giả đã chọn “Sử ụng ngôn ngữ rục
r ng ịch a ngữ” làm đề tài nghiên cứu của luận án tiến sỹ kỹ thuật nhằm đóng
góp cho sự phát triển dịch tự động Đặc biệt, kết quả nghiên cứu của luận án mở ra một hướng nghiên cứu mới cho dịch tự động giữa tiếng Việt với các ngôn ngữ khác
và là cơ hội phát triển một hệ thống dịch tự động đa ngữ đối với các ngôn ngữ ở Việt Nam như: tiếng Việt, Chăm, Ba-na, Ê-đê, Jrai,…
2 Mục iêu nghiên cứu
Mục tiêu chung của luận án là nghiên cứu và thử nghiệm hệ thống dịch tự động đa ngữ có thể áp dụng cho tiếng Việt và các ngôn ngữ của các dân tộc ít người
ở Việt Nam
Mục tiêu cụ thể của luận án gồm:
- Đề xuất hướng tiếp cận mới trong dịch tự động đa ngữ cho tiếng Việt dựa trên ngôn ngữ trục
- Xây dựng và thử nghiệm hệ thống dịch tự động đa ngữ cho tiếng Việt dựa trên ngôn ngữ trục UNL và hệ thống UNL sẵn có
- Đề xuất hướng mở rộng hệ thống dịch tự động đa ngữ hiện có cho các ngôn ngữ của các dân tộc ít người tại Việt Nam
3 Đối ượng và phạm vi nghiên cứu
ựa trên mục tiêu, đối tượng nghiên cứu của luận án gồm:
- Các hướng tiếp cận trong dịch tự động;
- Các vấn đề dịch tự động cho tiếng Việt;
- Ứng dụng UNL trong dịch tự động
Phạm vi nghiên cứu trong luận án gồm:
- Hướng tiếp cận dựa trên ngôn ngữ trục UNL trong dịch tự động;
- Cấu trúc ngữ pháp câu tiếng Việt và biểu thức UNL;
Trang 154
- Hệ thống dịch đa ngữ cho tiếng Việt và UNL;
- Giải pháp dịch tự động giữa tiếng Việt và UNL
4 Nội ung nghiên cứu
Để đạt được mục tiêu đề ra, nội dung nghiên cứu của luận án gồm:
- Nghiên cứu một số phương pháp dịch tự động;
- Nghiên cứu ứng dụng UNL trong dịch tự động;
- Nghiên cứu các hướng tiếp cận trong dịch tự động cho tiếng Việt;
- Đề xuất giải pháp dịch đa ngữ cho tiếng Việt dựa vào UNL;
- Xây dựng hệ thống thử nghiệm dịch tự động Việt – UNL
5 Phương pháp nghiên cứu
Các phương pháp nghiên cứu trong luận án được sử dụng gồm:
- Phương pháp lý thuyết: Phân tích các tài liệu sẵn có từ các nguồn tài liệu liên quan đến đề tài Nghiên cứu tài liệu về các hướng tiếp cận trong dịch tự động, các hệ thống dịch đa ngữ, các giải pháp dịch thông qua ngôn ngữ trung gian, nghiên cứu về UNL và các công cụ ứng dụng Trên cơ sở nghiên cứu, tác giả hệ thống hóa thành cơ sở lý luận để nghiên cứu và đề xuất hướng giải quyết của luận án
- Phương pháp thực nghiệm: Nghiên cứu đánh giá thực nghiệm từng mô hình ứng dụng UNL cho tiếng Việt, từ đó so sánh, đánh giá với mô hình, phương pháp được đề xuất
- Phương pháp chuyên gia: Lấy ý kiến các chuyên gia về kết quả của các
bản dịch và ý kiến của người sử dụng
6 Đóng góp chính của luận án
Đóng góp chính của luận án bao gồm:
1) Đề xuất được giải pháp để tích hợp tiếng Việt vào hệ thống UNL Hệ thống UNL đã được nghiên cứu và phát triển trên năm (từ 1996) và đã hỗ trợ
dịch tự động cho hơn 4 ngôn ngữ Tuy nhiên, việc nghiên cứu để tích hợp tiếng
Trang 165
Việt vào hệ thống UNL chưa được triển khai Luận án đã nghiên cứu một cách hệ
thống về ngôn ngữ và UNL; để trên cơ sở đó đề xuất được mô hình tổng thể và các
giải pháp liên quan để tích hợp tiếng Việt vào UNL Việc tích hợp này có ý nghĩa quan trọng vì chỉ cần tích hợp được tiếng Việt vào hệ thống UNL thì chúng ta có thể dịch tự động từ tiếng Việt sang tất cả các ngôn ngữ khác đã có trên hệ thống UNL và ngược lại
2) Đề xuất giải pháp và xây dựng thành công từ điển tiếng Việt – UNL Từ
điển là cơ sở của bất kỳ hệ thống dịch tự động nào và việc xây dựng thành công từ điển tiếng Việt – UNL là một đóng góp quan trọng để tích hợp tiếng Việt vào hệ thống UNL Luận án đã nghiên cứu đặc điểm của từ điển trong UNL và các từ điển sẵn có của tiếng Việt để từ đó xây dựng từ điển Việt – UNL với 235 mục từ
3) Đề xuất giải pháp và xây dựng tập luật mã hoá (phục vụ dịch tiếng Việt sang UNL) và tập luật giải mã (phục vụ dịch từ UNL sang tiếng Việt) Trên cơ
nghiên cứu các luật trong hệ thống UNL và một số công cụ liên quan, luận án đã đề xuất giải pháp cải tiến và xây dựng các luật phục vụ quá trình dịch tự động giữa tiếng Việt và UNL Đã xây dựng được 32 luật mã hoá cho một số cấu trúc câu tiếng Việt để dịch sang biểu thức UNL và luật giải mã cho chiều dịch ngược lại
4) Đề xuất giải pháp và xây dựng 2 công cụ: EnCoVie là chương trình dịch
tự động từ tiếng Việt sang UNL và DeCoVie là chương trình dịch tự động từ UNL sang tiếng Việt Đây là chương trình để dịch tự động dựa trên từ điển và các tập luật được xây dựng
Những đóng góp này có ý nghĩa về mặt khoa học là mở ra một hướng nghiên cứu mới về dịch tự động cho tiếng Việt bên cạnh những phương pháp đã có Về mặt thực tiễn là xây dựng bộ từ điển, các tập luật và hai chương trình dịch Đây là tiền
đề để tiếp tục hoàn thiện hệ thống dịch UNL – tiếng Việt và phục vụ cho các nghiên cứu sau này trong lĩnh vực dịch tự động
7 Bố cục luận án
Ngoài các nội dung như: mở đầu, kết luận, hướng phát triển, tài liệu tham
Trang 176
khảo và phụ lục, luận án được tổ chức thành chương:
Chương 1: Tổng quan về dịch máy và ngôn ngữ UNL Trình bày các kết
quả nghiên cứu liên quan đến dịch tự động, các hệ thống dịch đa ngữ cho tiếng Việt, đánh giá chất lượng dịch giữa phương pháp dịch trung gian và dịch trực tiếp các cặp dịch Ngoài ra nội dung chương cũng trình bày kết quả nghiên cứu về ngôn ngữ UNL, một số thành tựu liên quan UNL và ứng dụng UNL làm ngôn ngữ trục trong hệ thống
dịch đa ngữ
Chương 2: Đề xuất mô hình dịch tiếng Việt - UNL Trình bày kết quả thử
nghiệm dịch tự động cho tiếng Việt dựa vào UNL trên các công cụ có sẵn Đề xuất mô hình dịch cho tiếng Việt và UNL dựa trên lý thuyết hệ thống UNL và các công cụ dịch tự động UNL đã được thử nghiệm cho các ngôn ngữ khác và tiếng Việt
Chương 3: Xây dựng từ điển và tập luật Trình bày các giải pháp xây dựng
bộ từ điển tiếng Việt – UNL, xây dựng tập luật mã hóa và giải mã cho hai công cụ EnCoVie và DeCoVie
Chương 4: Thử nghiệm và đánh giá Xây dựng hai công cụ chuyển đổi câu
tiếng Việt sang UNL và ngược lại Trình bày các kết quả thử nghiệm và đánh giá về các nội dung: xây dựng bộ từ điển tiếng Việt – UNL, chuyển đổi của hai công cụ
EnCoVie và DeCoVie, hệ thống dịch đa ngữ qua ngôn ngữ trục UNL (gồm ba ngôn ngữ tự nhiên trong hệ thống: tiếng Việt, tiếng Anh và tiếng Nga)
Trang 181.1 Một số khái niệm sử dụng trong luận án
Dịch máy (Machine translation): Quá trình dịch tự động từ một ngôn ngữ nguồn (Source language) sang ngôn ngữ đích (Target language) mà không có sự can thiệp của con người trong quá trình dịch [13] Ví dụ, khi dịch từ tiếng Việt (văn bản hay lời nói) sang tiếng Anh chúng ta chỉ cần sử dụng một công cụ để dịch
Dịch song ngữ (Bilingual translation): Quá trình dịch một hoặc hai chiều
giữa hai ngôn ngữ với nhau2 Ví dụ, trong một hệ thống chúng ta dịch từ tiếng Việt sang tiếng Anh và có thể dịch ngược lại
Dịch đa ngữ (Multilanguage translation): Quá trình dịch từ một ngôn ngữ
sang nhiều ngôn ngữ khác [74] Ví dụ, sử dụng một công cụ để dịch từ tiếng Việt sang nhiều tiếng khác: tiếng Anh, tiếng Pháp, tiếng Nga
Dịch qua ngôn ngữ trung gian (Interlingual translation): Là quá trình dịch từ
ngôn ngữ nguồn sang ngôn ngữ đích nhưng qua một ngôn ngữ thứ ba làm ngôn ngữ trung gian để chuyển tiếp giữa hai ngôn ngữ [13] Ví dụ, cần dịch văn bản từ ngôn ngữ A sang ngôn ngữ B, chúng ta dịch ngôn ngữ A sang ngôn ngữ P và từ ngôn ngữ
P tiếp tục dịch sang ngôn ngữ B Ngôn ngữ P trong trường hợp này được gọi là ngôn ngữ trung gian
2
https://en.wikipedia.org/ (2015)
Trang 19Từ điển (Dictionary): Từ điển là nơi cung cấp thông tin hoặc giải thích một
sự vật hay hiện tượng một cách ngắn gọn và chính xác nhất [73] Từ điển chứa danh sách các từ, ngữ được sắp xếp theo thứ tự ABC Ngoài ra, đôi khi từ điển còn chứa các thông tin về cách phát âm, chú ý ngữ pháp, dạng biến thể của từ, cách sử dụng hay câu ví dụ
Từ điển song ngữ (Bilingual dictionary): Dùng để dịch các từ hoặc cụm từ
của ngôn ngữ này sang ngôn ngữ khác3 Từ điển song ngữ có thể là từ điển một chiều hoặc hai chiều
Luật ngữ pháp (Grammar rule): Bao gồm toàn bộ các quy tắc, quy luật kết
hợp để tạo nên các cụm từ, câu của ngôn ngữ [13] Ví dụ, trong tiếng Việt sắp xếp
trật tự từ sẽ có nghĩa khác nhau: “sữa bò” và “bò sữa”
Phân tích cú pháp nông (Shallow parsing): Quá trình phân tích cú pháp (Syntactic) hoặc mối quan hệ ngữ pháp (Grammatical relations) giữa các thành phần trong câu [13] Ví dụ, câu tiếng Việt “tôi đi học” được phân tích cú pháp nông
như sau: [tôi]pp[đivt [họcnt]]vp
Phân tích cú pháp sâu (Deep parsing): Quá trình phân tích và xác định ngữ nghĩa (Semantic analyzer) của một ngôn ngữ [13] Ví dụ, trong tiếng Việt từ
“đường kính” nghĩa có thể là “chất ngọt dùng để pha làm đồ uống” hoặc “đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu”
3
https://en.wikipedia.org/ (2015)
Trang 209
Ngôn ngữ UNL ( Universal Networking Language): Là ngôn ngữ nhân tạo có
các thành phần tương ứng như các ngôn ngữ tự nhiên Mục đích ra đời của UNL là biểu diễn tất cả các thông tin tri thức của mọi ngôn ngữ tự nhiên trong máy tính [52]
Mã hóa (Encode): Quá trình dịch tự động từ một ngôn ngữ tự nhiên sang
ngôn ngữ UNL [64] Ví dụ, dịch một câu tiếng Anh sang ngôn ngữ UNL
Giải mã (Decode): Quá trình dịch tự động từ ngôn ngữ UNL sang một ngôn
ngữ tự nhiên [65] Ví dụ, dịch một biểu thức UNL sang tiếng Anh
Máy chủ ngôn ngữ (Language server): Sử dụng để chuyển đổi giữa ngôn ngữ
tự nhiên và UNL4 Một máy chủ ngôn ngữ gồm hai thành phần cốt lõi là EnConverter và DeConverter EnConverter dùng để chuyển đổi một văn bản được viết trong ngôn ngữ tự nhiên sang một văn bản được viết trong ngôn ngữ UNL còn DeConverter chuyển đổi ngược lại của EnConverter
Hệ thống UNL (UNL System): Một hệ thống UNL bao gồm ba thành phần
chính: tài nguyên ngôn ngữ, phần mềm xử lý tài nguyên ngôn ngữ và các công cụ
hỗ trợ để duy trì, vận hành phần mềm xử lý ngôn ngữ hoặc phát triển tài nguyên ngôn ngữ4 Tài nguyên ngôn ngữ gồm các kiến thức về khái niệm, mối quan hệ giữa các khái niệm, từ điển, các luật ngữ pháp Các công cụ hỗ trợ như tạo ra biểu thức UNL, kiểm tra biểu thức UNL, giữ liên kết giữa từ điển và ngôn ngữ tự nhiên
Công cụ EnCoVie (Encode Converter for Vietnamese): ùng để chuyển đổi
một câu được viết trong tiếng Việt sang dạng văn bản tương đương được viết trong ngôn ngữ UNL
Công cụ DeCoVie (Decode Converter for Vietnamese): ùng để chuyển đổi
văn bản được viết trong ngôn ngữ UNL sang một câu tương đương được viết trong tiếng Việt
1.2 Một số hướng tiếp cận trong dịch tự ộng
Trong tiếng Anh khoảng cách trắng là dấu hiệu nhận diện ranh giới giữa các
4
http://www.undl.org/(2015)
Trang 2110
từ trong câu, nhưng trong tiếng Việt thì dấu hiệu nhận dạng này lại chưa chính xác
Ví dụ, câu tiếng Anh “I am a teacher” sẽ là “I / am / a / teacher”, nhưng câu tiếng Việt “tôi là giáo viên” thì không thể hiểu “tôi / là / giáo / viên” mà phải là “tôi / là / giáo viên”
Hoặc khi sử dụng từ "đường" trong tiếng Việt, nếu không có thông tin kèm theo để làm rõ nghĩa thì có thể được hiểu là “đường: road”, “đường: sugar”,…?
Một số vấn đề nêu trên có thể khá dễ dàng để nhận ra và hiểu đối với con người nhưng đối với máy tính thì đây không phải đơn giản để xử lý Trong quá trình dịch chuyển đổi giữa hai ngôn ngữ tự nhiên, nếu việc tách các từ, cụm từ và xử lý ngữ nghĩa tốt sẽ cho ra một bản dịch tốt
Đến nay có nhiều hướng tiếp cận được đề xuất, tuy nhiên chất lượng của bản dịch cần có sự tham gia chỉnh sửa của con người Trong mục này, tác giả trình bày một số hướng tiếp cận trong các hệ thống dịch đa ngữ hiện nay
1.2.1 Dịch máy dựa trên luật
ịch máy dựa trên luật (Rule- based machine translation) là hướng tiếp cận
truyền thống dựa trên cơ sở phân tích hình thái học, cú pháp và ngữ nghĩa của ngôn ngữ đích và ngôn ngữ nguồn Ưu điểm, các luật chuyển đổi được xây dựng độc lập trên mỗi cấu trúc và không ảnh hưởng đến các cấu trúc khác Nhược điểm, mỗi cấu trúc được xây dựng tập luật thủ công nên mất nhiều chi phí
Trong hướng tiếp cận dịch máy dựa trên luật có ba phương pháp: dịch trực tiếp, dịch chuyển đổi cú pháp và dịch qua ngôn ngữ trung gian
1.2.1.1 Dịch trực tiếp
ịch trực tiếp (Direct translation) còn được gọi là dịch máy dựa vào từ điển,
nghĩa là thay thế giữa từ với từ của hai ngôn ngữ Phương pháp dịch này không chú trọng đến ngữ nghĩa giữa các từ trong câu đầu ra, câu đích không tự nhiên vì thiếu quan hệ ngữ nghĩa, không chặt chẽ cấu trúc ngữ pháp
Phương pháp dịch trực tiếp thích hợp cho các bản dịch cho cụm từ, từ hoặc
Trang 2211
các cặp ngôn ngữ có cấu trúc tương tự nhau [ ][ ]
H nh 1.1 Sơ ồ hệ hống ịch rực iếp [13]
1.2.1.2 Dịch chuyển đổi cú pháp
H nh 1.2 Sơ ồ hệ hống ịch chuyển ổi [13]
Dịch chuyển đổi cú pháp (Syntactic transfer translation) là phương pháp
dịch dựa vào chuyển đổi cấu trúc ngữ pháp giữa ngôn ngữ nguồn và ngôn ngữ đích Nhược điểm của phương pháp này chỉ tập trung vào phân tích cú pháp mà không giải quyết về ngữ nghĩa [29]
1.2.1.3 Dịch qua ngôn ngữ trung gian
Văn bản nguồn
Phân tích câu nguồn
Sắp xếp câu đích
Văn bản đích
Từ điển song ngữ
Phân tích hình thái và cú pháp Văn bản nguồn
Cấu trúc câu nguồn
ngôn ngữ nguồn
Văn bản đích Tạo câu ngôn ngữ đích
Chuyển đổi cấu trúc và từ Cấu trúc câu đích
Luật chuyển
Luật văn
Trang 2312
Phương pháp dịch qua ngôn ngữ trung gian (Intermediate translation) là dịch
từ ngôn ngữ nguồn sang ngôn ngữ đích thông qua một ngôn ngữ thứ ba, ngôn ngữ thứ ba trong trường hợp này được gọi là ngôn ngữ trung gian So với phương pháp dịch trực tiếp, phương pháp dịch qua ngôn ngữ trung gian có những ưu điểm sau:
- Không phụ thuộc vào nguồn tài nguyên, tương quan ngữ pháp giữa ngôn ngữ nguồn và ngôn ngữ đích [55]
- Giảm chi phí xây dựng phần mềm trong hệ thống dịch đa ngữ [13]
H nh 1.3 Sơ ồ hệ hống ịch qua ngôn ngữ rung gian [13]
1.2.2 Dịch máy dựa trên ngữ liệu
Dịch máy dựa trên ngữ liệu (Corpus-based machine translation) là hướng
tiếp cận dịch dựa vào các kho ngữ liệu được huấn luyện sẵn Ưu điểm của phương pháp này là khi kho ngữ liệu càng lớn thì chất lượng bản dịch đầu ra càng tốt
1.2.2.1 Dịch dựa trên ví dụ
Đặc trưng của phương pháp dịch dựa trên ví dụ (Example-based translation)
là “so khớp” mẫu (Pattern) tương tự, phương pháp này dựa hoàn toàn vào kho ngữ
liệu song ngữ được huấn luyện sẵn và không có sự phân tích về cú pháp, ngữ nghĩa của ngôn ngữ [17]
Thực tế chúng ta không thể lưu trữ tất cả các câu mẫu của ngôn ngữ, khái
niệm “so khớp” ở đây không phải là so nguyên câu dịch mà so khớp cấu trúc khung
mẫu cơ bản [13] Nghĩa là câu đầu vào sẽ được phân thành các cụm từ, sau đó dịch riêng lẻ các cụm từ và ghép nối tạo thành một bản dịch hoàn chỉnh Ví dụ dịch một
câu tiếng Anh “He buys a book on political science.” sang tiếng Việt, sẽ sử dụng kho ngữ liệu tiếng Anh và tiếng Việt như sau: “He buys a notebook – Anh ấy mua một sổ tay.” và “I read a book on political science –Tôi đọc một cuốn sách về khoa
Tiếng Anh
ịch
ịch
Trang 2413
học chính trị.” Hệ thống phân cụm từ câu đầu vào thành “He buys – anh ấy mua”
và “a book on political science - một cuốn sách về khoa học chính trị” Sau đó ghép nối các cụm từ tạo thành câu tiếng Việt đầu ra “Anh ấy mua một cuốn sách về khoa học chính trị”
H nh 1.4 Sơ ồ hệ hống ịch ựa rên ví ụ [13]
Ý tưởng của phương pháp dịch thống kê được trình bày như sau:
Văn bản đầu vào f (còn gọi là ngôn ngữ nguồn Ví dụ câu tiếng Anh) được
dịch để tìm ra các chuỗi đầu ra e* (còn gọi là ngôn ngữ đích Ví dụ tiếng Việt) Tiếp
theo, dựa trên các chuỗi đầu ra e*
để tìm ra một chuỗi đích được cho là có chất
lượng bản dịch tốt nhất (được gọi là e)
Công thức tìm e* như sau:
(1.1) Trong đó, P(f/e) là mô hình dịch dùng để tính xác xuất có điều kiện giữa câu
Tập mẫu song ngữ
Tập mẫu đích
Trang 2514
nguồn f và câu đích e P(e) là mô hình ngôn ngữ để tìm ra chuỗi e tốt nhất
H nh 1.5 Sơ ồ hệ hống ịch ựa rên hống kê [13]
Ban đầu mô hình dịch được xây dựng dựa vào đơn vị từ (Word based), nghĩa
là mỗi từ của ngôn ngữ nguồn được dịch ra thành nhiều từ của ngôn ngữ đích và sau
đó được ghép ngẫu nhiên các từ để tạo thành các bản dịch hoàn chỉnh [63] Tuy nhiên phương pháp này tạo ra rất nhiều bản dịch vô nghĩa Một phương pháp khác
được đề xuất gọi là dịch dựa vào cụm từ (Phrase based), phương pháp này sẽ khắc
phục hạn chế của phương pháp dựa vào đơn vị từ [7][50]
1.2.3 Phương pháp dịch kết hợp
H nh 1.6 Kế hợp phương pháp ịch ựa rên luậ và hống kê [13]
Đặc trưng của phương pháp dịch kết hợp (Hybrid translation approaches) là
Mô hình dịch P(f |e) Ngữ liệu song ngữ
Mô hình ngôn ngữ P(e)
Ngữ liệu đơn ngữ Văn bản đích (e)
Bộ giải mã Tìm kiếm e*= argmax P(f |e)P(e)
Văn vản nguồn (f)
Câu nguồn
ịch dựa trên luật
- Câu đầu ra máy (TL1)
- Câu đầu ra máy (TL )
- Câu đầu ra máy (TL )
ịch dựa trên thống kê
Các bản dịch Câu đích tốt nhất
Trang 2615
sử dụng các ưu điểm của nhiều phương pháp khác nhau trong mỗi giai đoạn dịch [ ][ ] nhằm tạo ra một bản dịch cuối tốt nhất Ví dụ hệ thống dịch Promt sử dụng phương pháp dịch dựa trên luật để xử lý dữ liệu đầu vào, sau đó sử dụng phương pháp thống kê để tạo ra bản dịch cuối5
1.2.4 Đánh giá
Sau khi nghiên cứu ba hướng tiếp cận trong dịch tự động, tác giả có một số đánh giá như sau:
H nh 1.7 Mô hình ịch máy ựa rên luật 6
Phương pháp dịch máy dựa vào từ điển phù hợp trong các trường hợp dịch tương ứng 1 – 1, cặp ngôn ngữ tương đồng cấu trúc ngữ pháp Phương pháp dịch chuyển đổi cú pháp tốt hơn so với dịch trực tiếp vì có quá trình phân tích ngữ pháp, tuy nhiên không có sự phân giải ngữ nghĩa nên chưa giải quyết các trường hợp nhập nhằng về ngữ nghĩa Phương pháp dịch qua ngôn ngữ trung gian hiệu quả hơn so
với hai phương pháp trên (hình 1.7) và nó có thể dịch cho các trường hợp cặp ngôn
ngữ khác xa cấu trúc ngữ pháp, nghèo nàn tài nguyên ngôn ngữ
Phương pháp dịch dựa vào ví dụ và phương pháp dịch thống kê đều sử dụng kho ngữ liệu để dịch, chất lượng bản dịch đầu ra cải thiện khi kho ngữ liệu càng
5 http://www.online-translator.com (2015)
6
https://en.wikipedia.org (2015)
Chuyển đổi ịch trực tiếp
Ngôn ngữ trung gian
Câu nguồn ở phương pháp dịch qua ngôn ngữ trung gian được phân tích đầy đủ nhất, nếu quá trình phân tích ngôn ngữ nguồn tốt thì quá trình chuyển đổi sang câu đích càng ngắn
Trang 271.3 Dịch a ngữ
Trong hệ thống dịch trực tiếp, các cặp dịch ngôn ngữ được xây dựng độc lập với nhau Khi cần thêm một ngôn ngữ mới vào hệ thống, người phát triển sẽ bổ sung số mô-đun bằng số ngôn ngữ tham gia [ ] Điều này sẽ dẫn đến tăng chi phí khi phát triển hệ thống
H nh 1.8 ịch rực iếp giữa các cặp ngôn ngữ r ng ịch a ngữ
Hiện nay trên thế giới đang sử dụng hơn ngôn ngữ có chữ viết7 và tồn tại nhiều cặp ngôn ngữ không tương đồng cấu trúc ngữ pháp hoặc không có sẵn kho ngữ liệu [ ], nếu xây dựng hệ thống dịch đa ngữ bằng phương pháp này sẽ tốn nhiều chi phí
Một giải pháp được quan tâm với mục đích giảm chi phí xây dựng mô-đun
dịch trong hệ thống dịch đa ngữ (từ n*(n-1) xuống còn 2*n) như hình
7 https://en.wikipedia.org/ (2015)
Tiếng Đức Tiếng Pháp
Trang 2817
H nh 1.9 ịch qua ngôn ngữ rục r ng ịch a ngữ
Tuy nhiên, vấn đề đặt ra là chất lượng bản dịch đầu ra giữa dịch trực tiếp giữa các cặp ngôn ngữ và dịch thông qua ngôn ngữ trục sẽ như thế nào? Tác giả tiến hành thử nghiệm dựa trên một tập dữ liệu có sẵn được định dạng xml [74] dựa vào công cụ Google translator Mô hình hệ thống đánh giá được đề xuất như sau:
H nh 1.10 Mô hình ánh giá ịch rực iếp và ịch qua ngôn ngữ rung gian
Tiếng Anh Tiếng Việt
Ngôn ngữ trục
ịch tự động
Đánh giá mức độ khác biệt
Kết quả đánh giá
Trang 2918
Thử nghiệm tiến hành qua hai lần dịch như sau:
Lần thứ nhất, dịch trực tiếp giữa các cặp ngôn ngữ Hệ thống gửi văn bản
lên công cụ Google translator để dịch từ ngôn ngữ nguồn sang ngôn ngữ đích
Lần thứ hai, dịch qua một ngôn ngữ trung gian Hệ thống gửi văn bản lên công cụ Google translator hai lần: lần một, dịch từ ngôn ngữ nguồn sang một ngôn ngữ trung gian (tiếng Pháp, tiếng Đức) và trả về một kết quả tạm thời Lần hai, dịch
kết quả tạm thời sang ngôn ngữ đích
Kết quả đánh giá được tiến hành một cách tự động dựa vào hai phương pháp BLEU và NIST Việc đánh giá dựa trên so sánh sự trùng lặp từ với từ giữa bản dịch cần đánh giá và một bản dịch tham khảo Trong trường hợp có nhiều hơn một bản dịch tham khảo, hệ thống sẽ tiến hành so sánh bản dịch cần đánh giá với lần lượt các bản dịch tham khảo, bản dịch tốt hơn là bản có số điểm đánh giá tốt hơn
Phương pháp BLUE tính điểm theo công thức sau [70]:
- : là số lượng các từ trong bản dịch tham khảo
- : là số lượng các từ trong bản dịch bằng máy
Giá trị scoreBLEU nằm trong khoảng từ đến 1 Bản dịch nào có điểm scoreBLEU càng thấp thì độ trùng khớp giữa bản dịch máy, bản dịch mẫu càng nhiều và bản dịch đó càng chính xác
Công thức tính điểm của phương pháp NIST [70]:
Trang 30
Những trọng số thông tin được sử dụng để tính toán trên các N-gram trong tập tất cả các bản dịch tham khảo theo công thức:
( )
- N1 = số lượng các tương ứng của các từ wi…wn-1
- N2 = số lượng các tương ứng của các từ wi…wn
- là hệ số được chọn bằng 0.5 khi số lượng các từ trong bản dịch máy nhỏ hơn hoặc bằng 2/3 số lượng các từ trong bản dịch tham khảo, ngược lại thì = 1
- N = 5 (xét tất cả các cụm có độ dài là 5)
- Ltra: số lượng các từ trong bản dịch máy
- Lref: số lượng các từ trong bản dịch tham khảo
Bảng số liệu thống kê kết quả tính điểm số BLEU và NIST (thử nghiệm với hai ngôn ngữ trung gian: tiếng Pháp và tiếng Đức) được trình bày qua hai bảng 1.1
và 1.2 như sau:
Bảng 1.1 Kế quả ánh giá qua iếng Pháp
Phương pháp ánh giá
Trung gian: tiếng Anh tiếng Pháp tiếng Việt 0.00075 1.97572
Bảng 1.2 Kế quả ánh giá qua iếng Đức
Phương pháp ánh giá
Trung gian: tiếng Anh tiếng Đức tiếng Việt 0.00072 1.85885
Trang 3120
Lấy kết quả dịch trên tiếp tục so sánh trên hai phương diện ngữ pháp và ngữ nghĩa bởi các chuyên gia ngôn ngữ Tỷ lệ số câu giống và khác so với bản dịch tham khảo được thống kê như bảng 1.3:
Bảng 1.3 Tỷ lệ giống/khác giữa 2 bản ịch máy
Dịch qua ngôn ngữ trung gian 17602 (29%) 41117 (71%)
Theo bảng 1.3, chênh lệch giữa câu giống nhau của hai phương pháp dịch là 2% là do: nhập nhằng về ngữ nghĩa của ngôn ngữ tự nhiên nên khi dịch qua hai lần
sẽ làm ảnh hưởng đến chất lượng
Tuy nhiên, nếu so hiệu quả kinh tế xây dựng một hệ thống dịch đa ngữ với n ngôn ngữ tham gia thì phương pháp sử dụng ngôn ngữ trung gian để dịch là một hướng nghiên cứu được quan tâm Và nếu tồn tại một ngôn ngữ có thể biểu diễn được tất cả ngôn ngữ tự nhiên mà không gây nhập nhằng về ngữ nghĩa thì tỷ lệ chất lượng dịch câu giống giữa hai phương pháp sẽ gần nhau
1.4 Vấn ề dịch tự ộng cho tiếng Việt
Dịch tự động cho tiếng Việt bắt đầu nghiên cứu vào những năm với mục đích phục vụ chính trị và quân sự Năm công ty Logos nghiên cứu dịch từ tiếng Anh sang tiếng Việt và ra đời hệ thống dịch Logos I với bộ từ điển hỗ trợ hơn 1.000 mục từ vào năm Năm hệ thống dịch Anh-Việt với tên EVTRAN được sử dụng rộng rãi tại Việt Nam, năm phiên bản EVTRAN 2.0 có hơn 200.000 mục từ và năm phiên bản EVTRAN 3.0 có hơn mục từ
Trong những năm gần đây, nhu cầu sử dụng dịch văn bản tiếng Việt sang các ngôn ngữ trên thế giới tăng lên rất nhanh: do nhu cầu đọc nhanh để lấy thông tin về khoa học, công nghệ và kỹ thuật của các nước trên thế giới; do nhu cầu trong giao tiếp; … Dịch tự động miễn phí hỗ trợ dịch hai chiều cho tiếng Việt với nhiều ngôn
Trang 3221
ngữ trên thế giới được sử dụng trực tuyến miễn phí như: Promt, Vdict, Google
translator (dịch văn bản tiếng Việt sang 103 ngôn ngữ trên thế giới),…, nhưng hầu
hết các bản dịch chưa thể hiện ý nghĩa văn phong câu nguồn nên chỉ được sử dụng
để tham khảo và cần có sự chỉnh sửa của con người mới hoàn thiện Ở Việt Nam có rất nhiều nhóm tham gia nghiên cứu dịch tự động cho tiếng Việt nhưng chủ yếu cho cặp ngôn ngữ phổ biến như Anh – Việt và Pháp – Việt [13][32]
Việt Nam có 54 dân tộc (khoảng 92 triệu người) trong đó cộng đồng người Kinh (còn gọi là người Việt và ngôn ngữ sử dụng là tiếng Việt) chiếm khoảng
86.2% Việc nghiên cứu và phát triển hệ thống dịch tự động cho tiếng Việt chưa giải quyết 13.8% dân số còn lại Hiện trong nước có nhiều nhóm nghiên cứu về dịch tự động giữa tiếng Việt với các ngôn ngữ khác ở Việt Nam: hệ thống dịch Việt – Ê đê với khoảng , câu được huấn luyện8; dịch Việt - K’ho với khoảng 212 cặp câu song ngữ và 622 mục từ [42];… Hầu hết các nghiên cứu mới áp dụng một số lĩnh vực: dạy học, dự báo thời tiết, Nguyên nhân một phần là do thiếu nguồn tài trợ để phát triển hệ thống, thiếu tính kế thừa và tài nguyên ngôn ngữ khan hiếm
Vấn đề đặt ra là làm thế nào để xây dựng nhanh mà giảm chi phí cho một hệ thống dịch đa ngữ cho tiếng Việt với các ngôn ngữ trên thế giới và một hệ thống dịch đa ngữ cho các ngôn ngữ ở Việt Nam?
Một hướng tiếp cận được quan tâm là xây dựng hệ thống dịch đa ngữ dựa vào ngôn ngữ trục Với hướng tiếp cận này: mỗi nhóm nghiên cứu chỉ cần xây dựng hai mô-đun dịch cho ngôn ngữ của mình và ngôn ngữ trục; dễ dàng tích hợp các mô-đun riêng lẻ mà không ảnh hưởng đến hoạt động hệ thống
Vậy làm thế nào để tìm ra một ngôn ngữ mà có thể biểu diễn tất cả ngôn ngữ
tự nhiên và không nhập nhằng về ngữ nghĩa Hiện nay tồn tại một ngôn ngữ gọi là UNL và nó có đủ các thành phần của một ngôn ngữ tự nhiên Mục đích ra đời của UNL như là một ngôn ngữ trung gian để biểu diễn tất các ngôn ngữ tự nhiên trên
8
dichtudongvietede.net (2015)
Trang 33Nhiệm vụ ra đời của UNL là tạo một cơ sở hệ thống dịch đa ngữ, với mục đích cho phép tất cả mọi người chia sẻ thông tin bằng ngôn ngữ của họ9 Để đạt được mục đích trên, dự án UNL đã mời các cá nhân và các tổ chức tham gia xây dựng nền tảng UNL về các lĩnh vực khoa học, văn hóa, xã hội và kinh tế cho tất cả các ngôn ngữ khác nhau trên thế giới
Năm , UNL được phát triển bởi một viện nghiên cứu của trường đại học United Nations ở Nhật Bản10 Ngay khi được thành lập, các chuyên gia về khoa học máy tính và ngôn ngữ học đã xây dựng nguồn tài liệu về ngôn ngữ và phát triển phần mềm của hệ thống UNL ưới sự chỉ đạo của trung tâm UNL, các viện và các trường trên thế giới đã và đang nghiên cứu phát triển cho ngôn ngữ của họ Tháng / , đại học United Nations thành lập tổ chức quỹ tài trợ UNDL chịu trách nhiệm phát triển và quản lý dự án UNL9
1.5.2 Ngôn ngữ UNL
UNL có tất cả các thành phần tương ứng như một ngôn ngữ tự nhiên, tuy nhiên sự biểu diễn của nó không nhập nhằng về ngữ nghĩa11 Các khái niệm được
9 http://www.undl.org/(2015)
10 http://www.undl.org/(2015)
11
http://www.unlweb.net(2015)
Trang 3423
định nghĩa trong UNL gọi là từ vựng (UW), các từ vựng được liên kết với với nhau
để tạo thành biểu thức UNL Các liên kết này được gọi là quan hệ (Relation) nhằm
xác định vai trò của mỗi từ vựng trong biểu thức Ý nghĩa chủ quan của người nói
trong câu nguồn sẽ được thể hiện qua các thuộc tính (Attributes) gắn sau mỗi UW
Ngoài ra một thành phần được dùng để định nghĩa ngữ nghĩa của từ vựng được gọi
là cơ sở tri thức UNL (UNLKB), UNLKB đảm bảo chắc chắn nghĩa của từ vựng
không nhập nhằng
1) Từ vựng: Từ vựng là yếu tố cơ bản để xây dựng biểu thức UNL Từ vựng
có đa số là những từ tiếng Anh (có bổ sung những từ khác ngoài tiếng Anh) và
những điều kiện ràng buộc về ngữ nghĩa Từ vựng được định nghĩa là một chuỗi các
ký tự với các ràng buộc theo cú pháp sau:
<UW> ::= <HeadWord> [<Constraint list>]
<Relation label> ::= “icl” | “iof” | “pof” | “aoj” |
<character> ::= “A” | | “Z” | “a” | | “z” | 0
| 1 | 2 | | 9 | “_” | ” “ | “#” |
“!” | “$” | “%” | “=” | “^” | “~” | “|”
| “@” | “+” | “-“ | “<” | “>” | “?”
“HeadWord” là một mục từ thực (đơn giản hoặc phức tạp) trong tiếng Anh
và nó không phải là một chuỗi để định nghĩa từ “Constraint list” là danh sách ràng
buộc giới hạn khái niệm từ vựng của một tập con hoặc một khái niệm riêng chứa
Trang 3524
trong từ vựng cơ bản “Relation label” được sử dụng để liên kết giữa HeadWord và
“character” Các nhãn trong “Relation label” thường dùng như: “icl” để phân loại thuộc một lớp của HeadWord (ví dụ, table(icl>furniture)), “iof” để mô tả một lớp lớn mà HeadWord thuộc về (ví dụ, Paris(iof>city)), “pof” mô tả HeadWord là một phần thuộc về tổng quát (ví dụ, finger(pof>hand)), “aoj” mô tả một thuộc tính thuộc tổng quát mà HeadWord là một giá trị thuộc về (ví dụ, blue(aoj>color))…
“character” là các UW được định nghĩa trong UNLKB và dùng để phân biệt giữa
các HeadWord
Trong một định nghĩa UW, nếu có nhiều ràng buộc ngữ nghĩa thì các ràng
buộc được phân cách nhau bởi dấu phẩy “,”
Ví dụ, từ “drink” trong tiếng Anh nếu không có các ràng buộc ngữ nghĩa thì được hiểu có thể là “Đưa chất lỏng vào miệng, chất lỏng được đưa vào miệng, chất lỏng với cồn, hút…” Nhưng nếu từ được định nghĩa mà có ràng buộc ngữ nghĩa như “drink(agt> thing,obj>liquid)” thì định nghĩa của UW được hiểu là “Đưa chất lỏng vào miệng”
Một ví dụ khác về từ “milk”, nếu từ vựng được định nghĩa ràng buộc ngữ nghĩa là “milk(icl>dairy_product>thing)” thì định nghĩa của UW được hiểu là “một loại chất lỏng bổ dưỡng có màu trắng được tiết ra bởi động vật có vú” Nhưng nếu định nghĩa với ràng buộc ngữ nghĩa khác “milk(icl>foodstuff>thing)” thì được hiểu
là “một loại thức ăn có chất dinh dưỡng giống như sữa”
2) Quan hệ: Có 56 nhãn quan hệ được định nghĩa bằng chuỗi gồm hai hoặc
ba ký tự Các quan hệ trong UNL được sử dụng gắn kết hai UW nên được gọi là các quan hệ nhị phân
Bảng 1.4 Các quan hệ ược ịnh nghĩa r ng NL [66]
Trang 3625
Các mối quan hệ trong UNL được xây dựng theo hai nguyên tắc sau đây:
Nguyên tắc 1 (điều kiện cần thiết): Khi một UW có các quan hệ với nhiều
hơn một từ vựng, mỗi nhãn quan hệ cần được thiết lập để có thể nhận biết mỗi mối quan hệ trên cơ sở đủ kiến thức về khái niệm của mỗi UW [66]
Nguyên tắc 2 (điều kiện đủ): Khi có các mối quan hệ giữa các từ vựng, mỗi
nhãn quan hệ nên được thiết lập để có thể giải thích được vai trò của mỗi từ vựng liên quan đến nhãn quan hệ [66]
3) Thuộc tính: Được sử dụng mô tả các thông tin về đặc điểm ngữ pháp thể
hiện quan điểm của người nói và được gắn sau mỗi UW Thuộc tính trong UNL được chia thành nhóm trong bảng
Bảng 1.5 Các huộc ính ược ịnh nghĩa r ng NL [66]
Tính logic của từ vựng @transitive, @symmetric, @identifiable,
@disjointed Khía cạnh thời gian người nói @past, @present, @future
Quan điểm người nói trên khía
cạnh của sự kiện
@begin, @complete, @continue, @custom,
@end, @experience, @progress, @repeat,
@state, @just, @soon, @yet Quan điểm của người nói tham
chiếu đến các khái niệm
@generic, @def, @indef, @not, @ordinal
Quan điểm của người nói nhấn
mạnh, trọng tâm và chủ đề
@contrast, @emphasis, @entry, @qfocus,
@theme, @title
@topic
Trang 3726
Thái độ của người nói
@affirmative, @confirmation, @exclamation,
@humility, @imperative, @interrogative,
@invitation, @polite, @request, @respect,
@vocative
Cảm xúc và chỉ trích của người
nói
@ability, @get-benefit, @give-benefit,
@conclusion, @consequence, @sufficient,
@consent, @dissent, @grant, @grant-not,
@although, @discontented, @expectation,
@wish, @insistence, @intention, @want, @will,
@need @obligation, @obligation-not, @should,
@unavoidable, @certain, @inevitable, @may,
@possible, @probable, @rare, @unreal,
@admire, @blame, @contempt, @regret,
@surprised, @troublesome
Thỏa thuận ngầm
@passive, @pl, @angle_bracket, @brace,
@double_parenthesis, @double_quote,
@parenthesis, @single_quote, @square_bracket
4) Biểu hức NL: Một biểu thức UNL là tập hợp các quan hệ nhị phân
được định dạng như sau [66]:
<relation>(<uw1>,<uw2>)
Trong đó: <relation> là một trong các quan hệ và <uw1>, <uw2> là hai từ vựng có quan hệ với nhau qua <relation>
Mỗi từ vựng trong biểu thức có thể là một siêu từ vựng chứa một tập quan hệ
nhị phân con khác và các quan hệ nhị phân con này được gọi là một “scope” Như
vậy, một scope được xem như là một từ vựng nên có thể kết nối với các từ vựng khác hoặc các scope khác Một mối quan hệ nhị phân trong một scope được phân biệt với những scope khác bằng cách gán ID cho các <relation>, các ID có giá trị từ
[00-99] Ví dụ một biểu thức UNL sau có định nghĩa một siêu từ vựng “:01” chứa
Trang 3827
hai quan hệ nhị phân “agt” và “plc”
{unl}
agt(hear(icl>perceive(agt>person,obj>thing)).@ability.@entry, I(icl>person).@topic)
obj(hear(icl>perceive(agt>person,obj>thing)).@ability.@entry,:01)
agt:01(bark(agt>dog).@progress.@entry,dog(icl>mammal).@indef) plc:01(bark(agt>dog).@progress.@entry,outside(icl>area))
{/unl}
Một biểu thức UNL được đặt trong cặp thẻ sau: {unl} và {/unl}, nếu biểu thức UNL chỉ gồm một từ vựng thì từ vựng này sẽ được chứa trong cặp thẻ [W] và [/W] Có hai hình thức thể hiện biểu thức UNL: bảng và danh sách
Bảng 1.6 Mô ả h nh hức bảng trong biểu hức NL [66]
Một biểu thức UNL bao gồm một tập hợp
các mối quan hệ nhị phân
Ví dụ, trường hợp một câu tiếng Anh “The sky was blue?!” được biểu diễn
sang UNL như sau:
Trước hết, xác định mối quan hệ ngữ nghĩa giữa hai ngôn ngữ :
Trang 39Dựa vào (1.5), UW được xem như một mô tả trạng thái thuộc tính của UW1
vì vậy mối quan hệ nhị phân giữa UW1 và UW2 Trong UNL, quan hệ “aoj” định nghĩa một điều mà đang ở một trạng thái hoặc thuộc tính nào đó Câu “the sky was blue?!” được biểu diễn dưới dạng UNL như sau12:
H nh 1.11 Biểu iễn câu iếng Anh sang NL
Để diễn tả quan điểm của người nói trong câu nguồn, trong UNL sẽ gắn các
thuộc tính sau mỗi UW như sau: “the @def- đã được xác định trước đó”, “was
@past - thể hiện thì quá khứ”, “? @interrogative–thể hiện sự hỏi, chất vấn”,
“! @exclamation – thể hiện sự cảm thán” Biểu thức UNL được viết lại như sau:
{unl}
aoj(blue(icl>color).@entry.@past.@interrogative.@exclamation,sky(icl>natural world).@def)
Trang 40H nh 1.13 Cơ chế chuyển ổi của hệ hống NL
Một máy chủ ngôn ngữ bao gồm hai chức năng là EnConverter và DeConverter EnCoverter và DeConverter là hai phần mềm cốt lõi trong hệ thống UNL EnConverter là phần mềm dùng để chuyển đổi văn bản một ngôn ngữ tự
blue(icl>color) @entry.@past.@interrogative.@exclamation
sky(icl>natural world)
.@def obj