1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt

159 910 4
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 159
Dung lượng 1,12 MB

Nội dung

Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt

Trang 1

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC

LUẬN VĂN CỬ NHÂN TIN HỌC

GIÁO VIÊN HƯỚNG DẪN TS ĐINH ĐIỀN

Trang 2

Lời cảm tạ

Lời đầu tiên chúng em xin chân thành cảm ơn thầy Đinh Điền, người đã trực tiếp hướng dẫn chúng em hoàn thành luận văn này Thầy là người đã truyền thụ cho chúng em rất nhiều kiến thức về tin học và ngôn ngữ học, giúp chúng em có được hiểu biết sâu hơn về một trong các ứng dụng có ý nghĩa vô cùng to lớn trong cuộc sống của tin học – vấn đề dịch máy

Chúng em cũng xin chân thành cảm ơn các thầy cô trong khoa Công nghệ thông tin đã tận tình chỉ bảo và giúp đỡ cho chúng em trong suốt thời gian chúng em học đại học và trong quá trình chúng em thực hiện luận văn

Chúng con xin chân thành cảm ơn ba mẹ, các anh và những người thân trong gia đình đã nuôi dạy, tạo mọi điều kiện tốt nhất cho chúng con học tập và động viên chúng con trong thời gian thực hiện luận văn

Và cuối cùng, chúng tôi xin gởi lời cảm ơn đến tất cả bạn bè và nhất là các bạn trong nhóm VCL (Vietnamese Computational Linguistics), những người đã hỗ trợ chúng tôi trong quá trình chúng tôi hoàn thiện luận văn này

Tp Hồ Chí Minh, tháng 07 năm 2003

Nguyễn Lưu Thùy Ngân - 9912621

Đỗ Xuân Quang - 9912652

Trang 3

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN

Trang 4

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN

Trang 5

Lời nói đầu

Cho đến nay, sau hơn 50 năm phát triển, dịch máy chứng tỏ là một ứng dụng vô cùng thiết thực, đồng thời cũng là một bài toán khá hóc búa đặt ra cho các nhà khoa học trên toàn thế giới Từ đầu thập niên 1960, các nhà khoa học đã đúc kết lại ba chiến lược dịch máy cơ bản, đó là dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi Và qua thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng định được tính hiệu quả và tiềm năng của nó, và đây cũng là cách tiếp cận mà chúng em đã và đang theo đuổi để xây dựng một hệ dịch tự động từ tiếng Anh sang tiếng Việt

Trong hệ dịch dựa trên sự chuyển đổi, khối chuyển đổi cây cú pháp (cấu trúc) giữ một vai trò quan trọng, quyết định chất lượng hệ dịch Vì lý do đó, chúng em đã quyết định chọn “Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch Anh-Việt” làm đề tài luận văn tốt nghiệp cử nhân của mình Khối chuyển đổi cây cú pháp đảm nhiệm việc thay đổi trật tự, chèn, xoá các thành phần trong cây cú pháp của câu tiếng Anh sao cho sau khi hoàn tất việc gắn nghĩa, ta sẽ thu được câu tiếng Việt có trật tự từ hợp lý

Luận văn được tổ chức thành các phần chính sau:

™ Chương 1: Giới thiệu tầm quan trọng, mục tiêu, phạm vi của đề tài, cơ sở lý thuyết ngôn ngữ học, tin học và hướng tiếp cận vấn đề

™ Chương 2: Điểm qua các cách tiếp cận chuyển đổi cấu trúc

™ Chương 3: Thuật toán nền tảng, mô hình học và mô hình áp dụng chuyển đổi cây cú pháp

™ Chương 4: Thiết kế – Cài đặt ™ Chương 5: Thử nghiệm – đánh giá

™ Chương 6: Kết quả – Kết luận – Hướng phát triển ™ Phần phụ lục Tài liệu tham khảo

Trang 6

1.2Các chiến lược dịch máy 16

1.1.1 Chiến lược dịch trực tiếp 16

1.1.2 Chiến lược dịch dựa trên ngôn ngữ trung gian 17

1.1.3 Chiến lược dịch dựa trên sự chuyển đổi 18

1.2Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên chuyển đổi 20

1.3Cơ sở lý thuyết 22

1.3.1 Cơ sở lý thuyết ngôn ngữ học của việc chuyển đổi 23

1.3.2 Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề 33

Chương 22 35

CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI CẤU TRÚC TRONG DỊCH MÁY 35

2.1Hướng tiếp cận dựa trên luật cố định 35

2.1.1 Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cố định 35

2.1.2 Nhận xét 38

Trang 7

2.2Hướng tiếp cận sử dụng case-frame 39

2.2.1 Chuyển đổi các thông tin cấp độ câu 40

2.2.2 Chuyển đổi ngữ động từ 41

2.2.3 Sự chuyển đổi của định ngữ, bổ ngữ 42

2.2.4 Tự điển chuyển đổi 43

2.4Cách tiếp cận phân tích ngữ pháp song song 53

2.4.1 Ngữ pháp chuyển dịch đảo có thống kê (SITG) 53

2.4.2 Thuật toán phân tích cú pháp song song với SITG 55

MÔ HÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP 66

3.1Phương pháp học hướng lỗi dựa trên sự chuyển trạng thái 66

3.1.1 Ý tưởng 66

3.1.2 Thuật toán học TBL của Eric Brill 68

3.1.3 Nhận xét 70

Trang 8

3.2Thuật toán học nhanh FnTBL 71

3.2.1 Hình thức hóa TBL 72

3.2.2 Thuật toán FnTBL 73

3.3Mô hình chuyển đổi cây cú pháp sử dụng thuật toán FnTBL 78

3.3.1 Mô hình áp dụng chuyển đổi cây cú pháp 80

3.3.2 Mô hình học luật chuyển đổi bằng phương pháp học FnTBL 82

3.4Nâng cao khả năng mở rộng cho mô hình học 95

4.2.3 Xây dựng cây quan hệ 103

4.2.4 Thuật toán chuyển đổi theo nguyên tắc 105

4.3Học chuyển đổi cùng cấp 106

4.3.1 Xây dựng ngữ liệu học 106

4.3.2 Xây dựng khung luật cho bộ học chuyển đổi cùng cấp 108

4.3.3 Sơ đồ lớp của chương trình học 114

4.3.4 Xây dựng bộ luật (giai đoạn học cùng cấp) 114

4.3.5 Áp dụng bộ luật chuyển đổi cùng cấp 116

4.4Học chuyển đổi khác cấp 117

4.4.1 Xây dựng ngữ liệu học 117

4.4.2 Xây dựng khung luật cho quá trình học chuyển đổi khác cấp 120

4.4.3 Sơ đồ lớp của chương trình học 125

4.4.4 Xây dựng bộ luật (giai đoạn học khác cấp) 125

Trang 9

4.4.5 Áp dụng bộ luật chuyển đổi khác cấp 127

Chương 55 128

THỬ NGHIỆM – ĐÁNH GIÁ 128

5.1Thử nghiệm 128

5.1.1 Độ đo sử dụng 128

5.1.2 Kết quả học rút luật chuyển đổi 129

5.1.3 Một số kết quả chuyển đổi 131

Trang 10

PHỤ LỤC 6 156CÁC NHÃN QUAN HỆ NGỮ PHÁP 156TÀI LIỆU THAM KHẢO 157

Trang 11

Danh sách các hình

Hình 1: Mô hình dịch trực tiếp 16

Hình 2: Mô hình dịch dựa trên ngôn ngữ trung gian 17

Hình 3: Mô hình dịch dựa trên sự chuyển đổi 18

Hình 4: Hình tháp minh họa các chiến lược dịch máy 20

Hình 5: Cây cú pháp của câu “I have already read that interesting book.” 21

Hình 6: So sánh trật tự định ngữ tiếng Anh và tiếng Việt 26

Hình 7: Áp dụng luật cố định để thực hiện việc chuyển đổi cấu trúc 36

Hình 8: Trường hợp chuyển đổi khác cấp luật cố định không thể thực hiện được 37

Hình 9: Khả năng chuyển đổi cú pháp của luật cố định 38

Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG 46

Hình 11: Tác tố kết hợp 47

Hình 12: Tác tố thay thế 48

Hình 13: Một số mẫu cây sơ cấp trong tự điển chuyển đổi cây Anh-Pháp 50

Hình 14: Cây phân tích ngữ pháp chuyển dịch đảo 55

Hình 15: Chuyển đổi khung giữa các ngôn ngữ 63

Hình 16: Sơ đồ phương pháp học TBL tổng quát 70

Hình 17: Một ví dụ minh hoạ chuyển đổi cây cú pháp 79

Hình 18: Mô hình áp dụng chuyển đổi cây cú pháp 81

Hình 19: Mô hình học luật chuyển đổi cây cú pháp theo thuật toán FnTBL 82

Hình 20: Ví dụ về các quan hệ ngữ pháp trong ngữ 85

Trang 12

Hình 21: Xây dựng ngữ tiếng Việt từ các quan hệ ngữ pháp 86

Hình 22: Lưu đồ thuật toán gán nhãn chuyển đổi cơ sở cho ngữ liệu 87

Hình 23: Lưu đồ thuật toán học luật chuyển đổi cùng cấp – FnTBL 90

Hình 24: Lưu đồ học luật chuyển đổi khác cấp (FnTBL) 94

Hình 25: Mô hình tổng thể của quá trình học luật chuyển đổi Anh-Việt 97

Hình 26: Kết quả phân tích cú pháp: “Last week, I saw a very interesting film.” 100

Hình 27: Cây quan hệ của câu “Last week, I saw a very interesting film.” 104

Hình 28: Cây tiếng Anh đã chuyển đổi các thành phần đúng với tiếng Việt 107

Hình 29: Cây cú pháp của câu “What is a computer ?” 111

Hình 30: Cây cú pháp của (E) sau khi được áp dụng luật R 113RHình 31: Sơ đồ lớp khối học luật chuyển đổi cùng cấp 114

Hình 32: Mô hình áp dụng tập luật chuyển đổi cùng cấp 116

Hình 33: Cây cú pháp của câu tiếng Anh “It is a good type of book.” 118

Hình 34: Một cây cú pháp tiếng Anh sau khi chuyển sang cấu trúc tiếng Việt 119

Hình 35: Một phần cây cú pháp với đường đi của thành phần [ADVP] 123

Hình 36: Sơ đồ lớp khối học luật chuyển đổi khác cấp 125

Hình 37: Mô hình áp dụng tập luật chuyển đổi khác cấp 127

Hình 38: Đánh giá tập luật học chuyển đổi cùng cấp 130

Hình 39: Đánh giá tập luật học chuyển đổi khác cấp 131

Trang 13

Danh sách các bảng

Bảng 1: Trật tự các thành phần trong ngữ danh từ tiếng Anh 27

Bảng 2: Trật tự các thành phần trong ngữ danh từ tiếng Việt 28

Bảng 3: Danh sách 23 cấu trúc vị từ - đối số trong tiếng Hoa 61

Bảng 4: Một số quan hệ ngữ pháp được ánh xạ cùng các ngoại lệ 84

Bảng 5: Các quan hệ trong câu tiếng Anh 103

Bảng 6: Ý nghĩa các ký hiệu dùng trong mô tả ngữ liệu học giai đoạn 1 108

Bảng 7: Các thành phần trong khung luật học bước 1 109

Bảng 8: Các khung luật dùng trong học luật chuyển đổi cùng cấp 109

Bảng 9: Ý nghĩa các khuôn mẫu trong khung luật 110

Bảng 10: Các đặc trưng ngôn ngữ của các mẫu rút ra từ cây cú pháp tiếng Anh 112

Bảng 11: Các thành phần trong khung luật học chuyển đổi khác cấp 120

Bảng 12: Các khung luật dùng trong học luật chuyển đổi khác cấp 121

Bảng 13: Ý nghĩa các thành phần trong khung luật bước 2 122

Bảng 14: Một phần cây cú pháp minh hoạ việc đánh ID tương đối cho route 123

Bảng 15: Tóm tắt kết quả học luật chuyển đổi cùng cấp 130

Bảng 16: Tóm tắt kết quả học luật chuyển đổi cùng cấp 131

Bảng 17: Kết quả thử nghiệm việc áp dụng chuyển đổi cây cú pháp 135

Trang 14

1.1 Đặt vấn đề

Chế tạo ra một loại máy có khả năng dịch tự động để giúp cho con người vượt qua rào cản ngôn ngữ là một mơ ước của loài người đã có từ thế kỷ XVII, rất lâu trước khi máy tính điện tử ra đời Và chẳng bao lâu sau khi máy tính điện tử đầu tiên ra đời, bên cạnh những ứng dụng tính toán trong lĩnh vực toán học và vật lý, người ta đã nghĩ ngay đến việc sử dụng “bộ não máy tính” cho những ứng dụng không liên quan đến số, trong đó có vấn đề dịch tự động Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác được đề cập đến trong những cuộc thảo luận giữa Andrew D Booth và Warren Weaver vào năm 1946 Vượt qua nhiều trở ngại về lý thuyết và công nghệ, Booth và các cộng sự của ông đã cho ra mắt “hệ dịch dựa trên tự điển” đầu tiên tại hội nghị của MIT vào năm 1952

Từ bước khởi đầu đó, dịch máy đã ngày càng thu hút được sự quan tâm nghiên cứu của nhiều nhà khoa học máy tính, nhiều nhà ngôn ngữ học, và được cộng đồng thế giới thừa nhận hiệu quả to lớn của nó Dịch máy không những giúp cho

Trang 15

việc dịch các tài liệu, dịch các trang Web nhanh chóng và ít tốn công sức hơn, việc giao lưu trao đổi văn hoá giữa các nước dễ dàng hơn, mà còn có ý nghĩa trong việc bảo mật cho tài liệu quan trọng cần dịch thuật

Tuy vậy, để có được một hệ dịch tự động cho kết quả dịch tốt là cả một quá trình nghiên cứu và xây dựng cực kỳ phức tạp, phụ thuộc rất nhiều vào các ngôn ngữ cần dịch Điều này khiến cho dịch máy đã từng lâm vào một thời kỳ “khủng hoảng” về phương pháp xây dựng một hệ dịch Từ năm 1960, sau một thập kỷ ra đời, dịch máy đã có nhiều chiến lược, phương pháp rõ ràng hơn cũng như mục tiêu của hệ dịch máy được đặt ra sát với thực tế hơn Người ta nhận thấy rằng tham vọng xây dựng được một hệ dịch tự động có khả năng dịch tất cả mọi câu của một ngôn ngữ tự nhiên là điều không tưởng, mục tiêu hệ dịch phải thu gọn lại trong một lĩnh vực hẹp để hạn chế bớt tính nhập nhằng của ngôn ngữ

Có 3 chiến lược dịch máy, đó là : ™ Dịch trực tiếp

™ Dịch dựa trên ngôn ngữ trung gian ™ Dịch dựa trên chuyển đổi

Cho đến nay, các hệ dịch dựa trên chuyển đổi được đánh giá cao vì tính khả thi của nó Tùy thuộc vào hai ngôn ngữ cần dịch mà hệ thống có thể thiết kế các khối phân tích, chuyển đổi, tái tạo với độ phức tạp thích hợp Một số hệ dịch dựa trên chuyển đổi tiêu biểu như, hệ dịch Anh-Pháp METEO được xây dựng bởi đại học Montreal - TAUM, được đưa vào sử dụng để dịch các bản tin dự báo thời tiết; hệ dịch GETA (Đại học Grenoble, 1971-),

Trong các hệ dịch dựa trên chuyển đổi, bước chuyển đổi là bước quan trọng nhất, giữ vai trò quyết định chất lượng hệ dịch Chuyển đổi này bao gồm hai phần chuyển đổi chính, đó là chuyển đổi từ vựng và chuyển đổi cấu trúc Chuyển đổi từ vựng là quá trình chọn nghĩa đúng cho các từ ở ngôn ngữ nguồn thể hiện sang từ tương ứng của ngôn ngữ đích Còn chuyển đổi cấu trúc là quá trình sắp xếp lại, thêm bớt, thay thế các thành phần cấu trúc của câu ở ngôn ngữ nguồn để có được cấu trúc tương ứng ở ngôn ngữ đích

Trang 16

Trong luận văn này, chúng em tìm hiểu và xây dựng chương trình chuyển đổi cây cú pháp Anh-Việt, đóng vai trò là một khối chuyển đổi cấu trúc trong hệ dịch tự động Anh-Việt dựa trên sự chuyển đổi Như đã trình bày ở phần trên, việc thực hiện một chương trình có khả năng bao quát tất cả các cấu trúc chuyển đổi có thể có là một vấn đề không tưởng trong xử lý ngôn ngữ tự nhiên Do đó, chúng em giới hạn đề tài chuyển đổi cây cú pháp này ở các văn bản thuộc lĩnh vực khoa học kỹ thuật

Kết quả của chương trình chuyển đổi cây cú pháp Anh - Việt thể hiện gián tiếp qua trật tự từ trong câu tiếng Việt được dịch ra (không quan tâm đến nghĩa của từ chọn có thực sự chính xác hay không)

Trong phần tiếp theo, chúng em trình bày tóm tắt về ba chiến lược dịch máy để chúng ta có thể có một cái nhìn bao quát hơn về hệ dịch dựa trên sự chuyển đổi, thấy được các ưu điểm của nó so với hai chiến dịch còn lại

1.2 Các chiến lược dịch máy 1.1.1 Chiến lược dịch trực tiếp

Chiến lược này có cách tiếp cận dịch máy đơn giản nhất Thiết kế của hệ xử lý các hệ thống này rất đơn giản, bao gồm 3 khối chính :

™ Phân tích hình thái : đảm nhận việc đưa từ trong ngôn ngữ nguồn về dạng gốc của nó để có thể thực hiện việc tra tự điển

™ Tra từ điển song ngữ: xác định từ tương ứng từ gốc trong ngôn ngữ đích ™ Sắp xếp trật tự từ đơn giản : quá trình này thường dựa trên những qui luật

cố định và đơn giản vì ta không thể xây dựng luật xử lý trật tự phức tạp hơn nếu không có những phân tích ngôn ngữ nguồn cần thiết

Hình 1: Mô hình dịch trực tiếp Văn bản

nguồn

Phân tích hình thái

Tra từ điển song ngữ

Sắp xếp trật tự đơn

giản

Văn bản kết quả

Trang 17

Các hệ dịch này hạn chế tối đa các bước phân tích cần thiết để giải quyết nhập nhằng, cũng như đơn giản hoá cả việc xác định các thành phần tương ứng ở ngôn ngữ đích thông qua tự điển lẫn xác định trật tự đúng của các từ trong ngôn ngữ đích Giữa khối phân tích và tái tạo câu không có bất kỳ bước trung gian nào Các từ trong văn bản nguồn chỉ qua một bước phân tích hình thái duy nhất Cách làm này chỉ phù hợp khi ngôn ngữ nguồn và đích có rất nhiều điểm giống nhau như tiếng Anh và tiếng Tây Ban Nha, không phù hợp với phần lớn ngôn ngữ khác

1.1.2 Chiến lược dịch dựa trên ngôn ngữ trung gian

Trong chiến lược này, ngữ nghĩa của văn bản ngôn ngữ nguồn được biểu diễn lại theo một ngôn ngữ trung gian, và văn bản ngôn ngữ đích cũng được phát sinh từ ngôn ngữ trung gian này Do đó, chỉ có duy nhất một cách biểu diễn cho một đơn vị ngữ nghĩa, bất kể ngôn ngữ gốc của nó là gì

Hình 2: Mô hình dịch dựa trên ngôn ngữ trung gian

Xử lý trong hệ thống dựa trên ngôn ngữ trung gian bao gồm hai bước quan trọng, đó là :

™ Phân tích văn bản nguồn để biểu diễn lại dưới dạng thức của một ngôn ngữ trung gian

™ Sử dụng những đơn vị ngữ nghĩa và cấu trúc cú pháp của ngôn ngữ đích để phát sinh văn bản kết quả từ cách biểu diễn theo dạng ngôn ngữ trung gian Ngôn ngữ trung gian được sử dụng trong những hệ dịch như vậy đòi hỏi phải đủ phong phú để biểu diễn được tất cả các đơn vị từ vựng và cú pháp của các ngôn ngữ liên quan trong quá trình dịch Do đó, việc tự định nghĩa hay tìm kiếm một

Trang 18

ngôn ngữ trung gian thoả điều kiện là điều cực kỳ khó khăn Hơn nữa, tất cả những thông tin cần thiết trong bước tái tạo phải nằm trong ngôn ngữ trung gian này

1.1.3 Chiến lược dịch dựa trên sự chuyển đổi

Hình 3: Mô hình dịch dựa trên sự chuyển đổi

Chiến lược này chia quá trình dịch thành 3 giai đoạn ™ Phân tích

™ Chuyển đổi ™ Phát sinh

Chiến lược dịch dựa trên chuyển đổi phân tích và biểu diễn lại câu ngôn ở ngữ nguồn theo một dạng thức trung gian thích hợp cho việc chuyển đổi Khối phát sinh câu sẽ nhận dạng thức trung gian của ngôn ngữ đích và tạo câu ở ngôn ngữ đích Sự chuyển đổi giữa hai dạng thức trung gian được thực hiện nhờ khối chuyển đổi, khối này sử dụng những tự điển chuyển đổi chứa các tương quan từ vựng giữa hai ngôn ngữ nguồn và đích và một tập hợp các luật chuyển đổi

Văn bản nguồn

Biểu diễn trung gian của ngôn ngữ nguồn

Văn bản kết quảNgữ pháp ngôn

ngữ nguồn / Tự điển

Luật chuyển đổi / Tự điển

Biểu diễn trung gian của ngôn ngữ đích Ngữ pháp ngôn

ngữ đích / Tự điển

PHÂN TÍCH

CHUYỂN ĐỔI

PHÁT SINH

Trang 19

Quá trình phân tích có thể được thực hiện ở nhiều cấp độ khác nhau tùy thuộc vào hai ngôn ngữ, chẳng hạn như phân tích hình thái, cấu trúc, ngữ nghĩa, Các cấp độ phân tích khác nhau dẫn đến nhiều cấp độ của dạng thức trung gian Những dạng thức này chứa các thành phần từ vựng nguồn và đích, phản ánh cấu trúc của hai ngôn ngữ Có nhiều loại biểu diễn khác nhau được sử dụng trong các hệ dịch dựa trên sự chuyển đổi như: cây phụ thuộc, cấu trúc ngữ,

Chiến lược dịch máy dựa trên chuyển đổi có nhiều ưu điểm Trước hết, tính tương đồng giữa ngôn ngữ nguồn và đích càng cao thì bước chuyển đổi càng đơn giản Tương tự, giai đoạn phân tích và phát sinh cũng sẽ đơn giản hơn so với các hệ dịch dựa trên ngôn ngữ trung gian

Trong ba chiến lược nói trên thì chiến lược dựa trên sự chuyển đổi được quan tâm nhiều nhất vì tính khả thi cao và rất linh động Bằng chứng là có nhiều hệ dịch dựa trên sự chuyển đổi ra đời và hoạt động hiệu quả.[21]

Trang 20

1.2 Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên chuyển đổi

Hình 4: Hình tháp minh họa các chiến lược dịch máy1

Trên lý thuyết, phân tích ngữ pháp càng sâu, gánh nặng ở bước chuyển đổi càng giảm Hai vấn đề lớn mà khối chuyển đổi cần giải quyết là chuyển đổi từ vựng và chuyển đổi cấu trúc

Chuyển đổi từ vựng là thay thế các từ của văn bản nguồn bằng các từ tương ứng của ngôn ngữ đích Công việc này sẽ rất đơn giản nếu như mỗi từ của ngôn ngữ nguồn tương ứng với một từ duy nhất ở ngôn ngữ đích nhưng trên thực tế, mỗi từ ở ngôn ngữ nguồn có thể không có từ tương ứng hoặc có nhiều từ tương ứng ở ngôn ngữ đích Chọn lựa như thế nào cho đúng vào ngữ cảnh của câu cần dịch là vấn đề mà chuyển đổi từ vựng phải giải quyết

Chuyển đổi cấu trúc là bước sắp xếp các thành phần ngữ pháp của ngôn ngữ nguồn, bao gồm cả chèn, xoá các thành phần sao cho kết quả dịch tuân thủ những luật ngữ pháp của ngôn ngữ đích, văn bản kết xuất sẽ gần với ngôn ngữ tự nhiên

Ngôn ngữ trung gian

Văn bản nguồn

Chuyển đổi

Dịch trực tiếp

Văn bản đích

Trang 21

hơn mà vẫn giữ đúng ngữ nghĩa và sắc thái của văn bản gốc Như vậy khối chuyển đổi cấu trúc giữ nhiệm vụ thực hiện những thay đổi cần thiết khi biểu diễn trung gian của ngôn ngữ nguồn không thể ánh xạ trực tiếp thành cách biểu diễn tương tự trong ngôn ngữ đích do có sự khác biệt về cấu trúc của hai ngôn ngữ

Cấu trúc cú pháp của một câu được biểu diễn dưới dạng cây cú pháp Chuyển đổi cấu trúc của một câu từ ngôn ngữ nguồn sang ngôn ngữ đích tức là quá trình xác định mối liên hệ giữa các thành phần trong cây cú pháp và tìm ra những qui luật để chuyển cây cú pháp đó về dạng phù hợp với ngôn ngữ đích Nói cách khác ta phải tìm một cây cú pháp tương đương với cây cú pháp của ngôn ngữ nguồn

Ví dụ : Có câu tiếng Anh “I have read that interesting book.” được phân tích

cú pháp và các nghĩa của từ trong câu đã được chọn đúng như sau (từ có nghĩa ε tức là từ chỉ đóng vai trò cú pháp, nó không có nghĩa thực sự) :

Hình 5: Cây cú pháp của câu “I have already read that

.S

Trang 22

Nếu chỉ đơn thuần là gắn nghĩa thì câu tiếng Việt được phát sinh là “Tôi rồi

đọc đó thú vị cuốn sách ” Trong tiếng Việt, câu này hoàn toàn vô nghĩa vì trật tự

các thành phần ở sai vị trí sẽ dẫn đến trật tự từ sai và ta không biết được nghĩa chính xác của câu là gì

Chương trình chuyển đổi cây cú pháp có nhiệm vụ thay đổi vị trí, chèn hoặc xoá các thành phần trong cây cú pháp sao cho trật tự từ bề mặt của câu trở nên đúng Trong ví dụ trên, ta thấy nếu chương trình chuyển đổi thay đổi cây cú pháp của câu theo các luật sau :

1 (ADJP (DT) (A))→ (ADJP (A) (DT)) : Nếu ngữ tính từ bao gồm một chỉ định từ (DT) đứng trước một tính từ (A) thì đảo trật tự 2 thành phần con đó

2 (NP (ADJP) (N)) → (NP (N) (ADJP)) : Nếu ngữ danh từ bao gồm một ngữ tính từ (ADJP) đứng trước danh từ (N) thì đảo trật tự 2 thành phần con đó 3 (VP (AUX have) (VP)) → (VP ε (VP)) : Nếu ngữ động từ bao gồm một trợ

động từ have đứng trước một ngữ động từ khác từ xoá trợ động từ đi

4 (VP (ADV already) (VP)) → (VP (VP) (ADV already)) : Nếu ngữ động từ bao

gồm trạng từ already đứng trước ngữ động từ thì đảo trật tự 2 thành phần

này

Æ câu tiếng Việt “Tôi đọc cuốn sách thú vị đó rồi.” sẽ là một câu có nghĩa

1.3 Cơ sở lý thuyết

Để chuyển đổi cây cú pháp, chúng ta phải có được :

™ Kết quả phân tích ngữ pháp của một câu tiếng Anh ra dạng cây cú pháp và những thông tin cần thiết khác để xác định mối liên hệ giữa các thành phần cây cú pháp Nhưng chỉ cần quan tâm đến những mối liên hệ có ảnh hưởng đến việc chuyển đổi cấu trúc cú pháp của câu

™ Bộ luật chuyển đổi từ cây cú pháp tiếng Anh sang cây cú pháp tiếng Việt

Trang 23

1.3.1 Cơ sở lý thuyết ngôn ngữ học của việc chuyển đổi

“Yếu tố nào gây ra sự khác biệt trong cấu trúc câu giữa hai ngôn ngữ ?”, đó là câu hỏi đầu tiên đặt ra cho những người muốn tự động hoá việc chuyển đổi cấu trúc câu giữa hai ngôn ngữ Đây cũng là một vấn đề lớn mà các nhà ngôn ngữ học so sánh phải giải quyết Với cặp ngôn ngữ Anh - Việt, đã có nhiều công trình nghiên cứu về vấn đề này, tuy nhiên hầu như chưa có công trình nào giải quyết trọn vẹn vì ngay cả ngữ pháp tiếng Việt hiện vẫn chưa được nghiên cứu đầy đủ Có người quan niệm ngữ pháp tiếng Việt cũng giống như ngữ pháp tiếng Anh (quan niệm “dĩ Âu vi trung”), lại có ý kiến cho rằng nên phân tích ngữ pháp câu tiếng Việt theo cấu trúc Đề - Thuyết

Vì mục tiêu cuối cùng của chương trình chuyển đổi cây cú pháp là trật tự các từ trong câu phát sinh phải đúng, chúng em chọn cách phân tích cú pháp câu tiếng Việt theo ngữ pháp tạo sinh của Chomsky với các nhãn cú pháp (thành tố kết thúc và thành tố không kết thúc) giống như ngữ pháp tiếng Anh để so sánh sự khác biệt cú pháp câu tiếng Việt và tiếng Anh nhằm giảm bớt độ phức tạp của bài toán đặt ra, đồng thời sử dụng được nhiều kết quả của ngành ngôn ngữ học so sánh

1.3.1.1 Ngữ pháp tạo sinh

™ Ngữ pháp

Để tạo thành một câu có nghĩa trong một ngôn ngữ nào đó, ta không thể chỉ đơn giản kết hợp các từ bất kỳ theo thứ tự ngẫu nhiên, mà sự kết hợp đó phải tuân thủ những luật ngữ pháp của ngôn ngữ đó

Định nghĩa: Ngữ pháp G được định nghĩa là sự hợp thành của 4 thành phần

(N, ,P,S0)

G= Σ , với :

™ N : tập hợp các thành tố không kết thúc (nonterminal) như NP, VP, ™ ∑ : tập hợp các thành tố kết thúc (terminal) như Adj, Noun, ™ P : Tập hợp các luật ngữ pháp

™ S0 : Ký hiệu thành tố khởi đầu câu

Trang 24

Tập hợp luật ngữ pháp bao gồm 2 loại luật là luật từ pháp và luật cú pháp Luật từ pháp đảm bảo cho mỗi từ tồn tại trong câu đều có nghĩa riêng Luật cú pháp quy định trật tự kết hợp các thành phần ngữ pháp để tạo thành một câu hoàn chỉnh có nghĩa

™ Cây cú pháp

Trong định nghĩa ngữ pháp trên ta thấy mọi câu đều bắt đầu bằng ký hiệu S0 và được biểu diễn bằng một chuỗi phân cấp của các thành tố Cấu trúc ngữ pháp của một câu có thể rất phức tạp, vì vậy để biểu diễn nó, người ta dùng cây cú pháp thể hiện các mối quan hệ giữa các thành phần trong luật ngữ pháp bằng sơ đồ trực quan dạng cây Mỗi cây cú pháp có một nút gốc đóng vai trò là S0, mỗi nút lá tương ứng với một từ (thành tố kết thúc)

Định nghĩa: Cho G=(N,Σ,P,S0) là một ngữ pháp phi ngữ cảnh S0 biểu diễn nút gốc hay nút khởi đầu của cây phân cấp

1 Nếu S0→X1 X2 Xn là một luật ngữ pháp (∈P) thì ta gắn các nút X1,X2, , Xn vào làm con của nút gốc theo thứ tự từ trái sang phải

2 Nếu có nút con Xi và các luật Xi→Y1 Y2 Yn, thì ta sẽ gắn các nút Y1,Y2, , Yn vào làm con trực tiếp của nút Xi theo thứ tự từ trái sang phải

3 Tiếp tục như thế cho đến khi tập hợp các nút con cuối cùng đều là thành tố kết thúc (terminal) hoặc là chuỗi rỗng ε

Trong luận văn này, chúng em sử dụng bộ phân tích cú pháp tiếng Anh EGT (2001) cho kết quả phân tích cú pháp có độ chính xác cao nhất trên thế giới hiện nay Bộ nhãn cú pháp và nhãn từ loại sử dụng là bộ nhãn của Penn Tree Bank (phụ lục 5)

1.3.1.2 Những khác biệt trong cấu trúc tiếng Việt so với tiếng Anh

Tiếng Anh và tiếng Việt cùng loại hình trật tự S-V-O là loại hình phổ biến thứ nhì sau loại hình S-O-V Tuy nhiên, trật tự từ trong các ngữ có một số điểm khác nhau, nhất là thành phần định ngữ trong danh ngữ Đối với tiếng Việt, trật tự từ và từ hư là hai phương tiện ngữ pháp chủ yếu Theo quan điểm ngôn ngữ học truyền

Trang 25

thống: các nhân tố trật tự từ phụ thuộc vào cấu trúc của đơn vị ngôn ngữ và phụ thuộc vào các mối quan hệ giữa các thành tố Có nhân tố bên ngoài và có nhân tố bên trong, chuyển đổi cấu trúc chỉ tập trung vào những nhân tố bên ngoài chứ không quan tâm đến cấu trúc của từ Do đó việc khảo sát trật tự từ trong các thành phần trong ngữ và cao hơn là trật tự các thành phần trong câu sẽ là cơ sở để xây dựng cách thức khai thác nguồn tri thức chuyển đổi cấu trúc

1.3.1.2.1 Trong phạm vi ngữ

™ Ngữ danh từ : trật tự các thành phần bổ nghĩa cho danh từ chính trong ngữ danh từ có nhiều điểm khác biệt so với tiếng Anh Vị trí của thành phần bổ nghĩa so với danh từ chính phụ thuộc vào loại chức năng bổ nghĩa của nó Định ngữ được chia thành 2 loại căn cứ vào vị trí của nó so với danh từ chính: tiền định ngữ (đứng trước) và hậu định ngữ (đứng sau)

™ Tiền định ngữ tiếng Anh có thể là tính từ miêu tả, danh từ, động danh từ, động tính từ, phó từ, danh từ chỉ sở hữu cách, chỉ định từ, tính từ sở hữu, số từ Đối với tiếng Việt, phần lớn các tiền định ngữ này đứng sau danh từ chính Tuy nhiên cũng có một số trường hợp ngoại lệ

Trang 26

Hình 6: So sánh trật tự định ngữ tiếng Anh và tiếng Việt (0: vị trí danh từ chính trong ngữ, -: từ bổ nghĩa đứng trước danh từ

chính, +: từ bổ nghĩa đứng sau danh từ chính)

forest Nam Cat Tien → rừng Nam Cát Tiên

Định ngữ là động danh từ hay động tính từ : freezing point → điểm đông đặc

-1 0 0 +1 Định ngữ là phó từ:

the after years → những năm sau đó

Định ngữ là chỉ định từ hay tính từ sở hữu: that man → người đàn ông đó

her friend → bạn của cô ấy -1 0 0 +1 Định ngữ là số đếm:

One sister → một cô em gái -1 0 -1 0 Định ngữ là số thứ tự:

The last Mohicans → người Mohican cuối cùng

Trang 27

Dưới đây là bảng tóm tắt trật tự phổ biến của các thành phần trong danh ngữ tiếng Anh và tiếng Việt Trong danh ngữ, thành phần nào có vị trí nhỏ hơn sẽ đứng trước

4 Cardinal Number One, One hundred

8 Shape, length Round, long

6 Tính từ chỉ trạng thái vật liệu Thiếc

Trang 28

7 Quốc tịch Việt, Hoa

15 Tính từ chỉ sở hữu Của cô ta

Bảng 2: Trật tự các thành phần trong ngữ danh từ tiếng Việt

™ Hậu định ngữ

Không có sự khác biệt về trật tự của hậu định ngữ so với danh từ chính trong tiếng Anh và tiếng Việt

The girl with blond hair → Cô gái có mái tóc vàng

™ Ngữ động từ, ngữ tính từ : Phần lớn có cấu trúc giống nhau ở 2 ngôn ngữ

1.3.1.2.2 Trong phạm vi mệnh đề

Ở mức mệnh đề, chúng ta quan tâm đến trật tự các thành phần ngữ pháp như : chủ từ, động từ chính, trợ động từ, túc từ trực tiếp, túc từ gián tiếp, trạng ngữ, Một cách đơn giản ta có thể coi mệnh đề là một câu đơn vì nó có các thành phần chủ từ, động từ chính

Tiếng Anh và tiếng Việt đều thuộc loại hình ngôn ngữ S-V-O, nên nhìn chung trật tự của nhánh trong cây cú pháp giữ vai trò là một quan hệ ngữ pháp trong mệnh có xu hướng không thay đổi nhiều Theo kết quả khảo sát thì thành phần trạng ngữ và thành phần hỏi trong câu hỏi tiếng Anh có trật tự bị thay đổi nhiều nhất

™ Trạng ngữ

Trạng ngữ chỉ thời gian trong tiếng Anh thường nằm cuối câu, nhưng ngược lại trong tiếng Việt chúng thường nằm ở đầu câu Trạng ngữ chỉ thể cách, tần suất

Trang 29

trong tiếng Anh có thể xuất hiện ở đầu câu, sau chủ ngữ, hoặc cuối câu tùy theo từng loại trạng ngữ Nói chung, đặc điểm riêng của từng ngôn ngữ và thói quen sử dụng ngôn ngữ đã hình thành nên những trật tự tự nhiên không tuân theo một qui luật cụ thể nào

tương ứng Chẳng hạn khi muốn hỏi “Con chó của bạn đã cắn ai vậy?”, ta dùng “Whom did your dog bite ?”, từ hỏi whom cho biết ta đang muốn hỏi túc từ của động từ chính trong câu và whom giữ vị trí đầu câu

Trật tự các thành phần trong câu hỏi tiếng Việt không thay đổi so với các loại câu khẳng định, phủ định Nhưng trong đó, xuất hiện các từ được thêm vào như “không”, “phải không”,

1.3.1.2.3 Phạm vi câu

Thành phần được khảo sát trật tự là các mệnh đề Hầu hết mệnh đề (chính hay phụ) trong tiếng Anh đều giữ nguyên trật tự khi dịch sang tiếng Việt Điều này làm giảm bớt độ phức tạp cho bài toán chuyển đổi trật tự các thành phần trong một câu

1.3.1.2.4 Hư từ

Tiếng Việt có 3 tập hợp từ cơ bản:

™ Thực từ: chiếm số lượng lớn nhất trong vốn từ, mang ý nghĩa ngữ vựng Thực từ có thể đứng làm trung tâm các ngữ, tập hợp chung quanh chúng là những thành tố phụ Thực từ có thể giữ chức vụ ngữ pháp trong câu, tức là làm thành phần câu (thành phần chính và phụ), xa hơn nữa là thực từ có khả năng độc lập tạo câu

Trang 30

™ Từ tính thái: có số lượng nhỏ, nhưng có đặc trưng riêng về bản chất ngữ pháp Nó không có ý nghĩa từ vựng và cũng không có ý nghĩa ngữ pháp Từ tình thái diễn đạt mối quan hệ giữa người nói với thực tại, nhờ đó góp phần hình thành mục đích phát ngôn Từ tình thái không làm thành phần của câu

™ Hư từ: có số lượng rất ít, có tính chất ngữ pháp, là phương tiện biểu đạt mối quan hệ giữa các khái niệm trong tư duy theo cách thức phản ánh bằng ngôn ngữ của người bản ngữ Hư từ không làm trung tâm của ngữ, chỉ làm thành tố phụ nhưng cũng rất ít, đa số các trường hợp, hư từ được dùng làm yếu tố liên kết “xúc tác” của các đơn vị cấu trúc ngữ pháp Hư từ không độc lập tạo câu và cũng không làm thành phần câu

Hư từ tiếng Việt bao gồm hai tập con: hư từ làm từ phụ diễn đạt các ý nghĩa ngữ pháp của thực từ, còn gọi là hư từ từ pháp, hư từ với chức năng liên kết, còn gọi là hư từ cú pháp, bao gồm cả liên từ và giới từ

Trong bài toán chuyển đổi cây cú pháp, ta phải quan tâm đến hư từ vì nó có liên quan đến cấu trúc cả các đơn vị ngữ pháp, đồng thời hư từ từ loại là từ loại không có trong tiếng Anh, là những từ mà máy tự động thêm vào để câu dịch phát sinh có nghĩa rõ ràng và tự nhiên hơn

Ví dụ:

I am going to school → Tôi đang đi học

He ate a loaf of bread → Anh ta đã ăn một ổ bánh mì

1.3.1.3 Các nhân tố ảnh hưởng

Từ những kết quả nghiên cứu của ngành ngôn ngữ học so sánh, ta có thể xác định được những nhân tố nào ảnh hưởng đến sự khác biệt giữa cấu trúc tiếng Anh và tiếng Việt Dựa trên cơ sở đó, chương trình chuyển đổi sẽ tự động rút ra các luật để chuyển đổi các thành phần trong cây cú pháp của tiếng Anh cho phù hợp với tiếng Việt Trật tự các thành phần cây cú pháp phụ thuộc vào những nhân tố sau :

Trang 31

1.3.1.3.1 Nhân tố về loại hình ngôn ngữ

Theo kết quả nghiên cứu của Greenberg: trật tự và đặc điểm các thành phần trong câu bị ảnh hưởng rất lớn bởi loại hình ngôn ngữ và loại hình trật tự từ Những nghiên cứu về sự khác biệt trật tự các thành phần giữa hai ngôn ngữ Anh và Việt nói trên cũng chứng minh thêm về điều này Chẳng hạn một số khác biệt:

™ Vị trí danh từ sở hữu và vật sở hữu : Mary’s shirt Æ áo sơ mi của Mary

™ Hư từ trong tiếng Việt: “I went to school” Æ “Tôi đã đi học” (có hư từ “đã”), nhưng câu “I went to school yesterday” Æ “Tôi đi học hôm qua” (không cần có hư từ “đã”)

1.3.1.3.2 Nhân tố về hình thái

Trong tiếng Việt, một trong những nhân tố ảnh hưởng đến trật tự các thành phần là chiều dài của chúng Chẳng hạn, trong câu có hai thành phần bổ ngữ trực tiếp và bổ ngữ gián tiếp thì thành phần nào “nặng” hơn (gồm nhiều từ hơn) sẽ nằm sau thành phần bổ ngữ “nhẹ” hơn (gồm ít từ hơn) Ta có thể thấy rõ hơn trong ví dụ sau:

™ Tôi viết thư cho mẹ (+);

Tôi viết cho mẹ thư (-)2

™ Tôi viết một lá thư dài đầy tình cảm cho mẹ (-); Tôi viết cho mẹ một lá thư dài đầy tình cảm (+)

Trang 32

“Any computer is controlled by programmed instructions.” (Bị động)

Æ “Bất kỳ máy tính nào cũng được điều khiển bởi các lệnh được lập trình sẵn”

(Chủ động)

™ Ở tiếng Anh, người ta thường sử dụng dạng danh hoá (nominalization) Trong khi đó, ở tiếng Việt dạng động hoá (verbalization) lại được dùng nhiều hơn Trong các tài liệu khoa học kỹ thuật, hiện tượng này còn phổ biến hơn nữa Chẳng hạn như “machine translation” → “dịch máy”

1.3.1.3.4 Nhân tố về ngữ nghĩa

Ngữ nghĩa và cấu trúc của các thành phần câu có liên quan mật thiết với nhau Cấu trúc cũng thể hiện một phần ngữ nghĩa, và ngữ nghĩa cũng góp phần qui định cấu trúc Trong tiếng Việt, danh từ chỉ một loài/ thứ chung chung nào đó, sẽ được chuyển đổi (trật tự/ chèn/ xoá) khác với danh từ chỉ một loài/ thứ cụ thể

Trang 33

1.3.1.3.5 Các nhân tố khác

Ngoài những nhân tố nói trên, một số nhân tố khác cũng ảnh hưởng đến trật tự các thành phần như:

™ Nhân tố chiến lược và định hướng của người nói

™ Nhân tố tôn ti trật tự của các sự vật trong thế giới khách quan ™ Nhân tố phân đoạn thực tại

™ Nhân tố đặc thù ngôn ngữ

Nhận xét :

Như vậy, trong thực tế có rất nhiều nhân tố có thể ảnh hưởng đến trật tự từ trong câu hay trật tự các thành phần cú pháp trong cây cú pháp do ngôn ngữ tự nhiên vốn rất đa dạng, phong phú Tuy nhiên, trong giới hạn luận văn này, như đã nói, chúng em chỉ tập trung nghiên cứu giải quyết các cấu trúc trong văn bản tài liệu khoa học kỹ thuật để phục vụ cho hệ dịch trong lĩnh vực khoa học kỹ thuật Mặt khác, máy tính chỉ có thể làm việc với những thông tin biểu diễn được thành dữ liệu trên máy Do đó, trong những nhân tố ảnh hưởng đã trình bày, những nhân tố được đưa vào chương trình, xem như những đặc trưng cho quá trình chuyển đổi cây cú pháp là các nhân tố về: loại hình ngôn ngữ, hình thái, và cú pháp

1.3.2 Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề

Tri thức chuyển đổi cú pháp giữa hai ngôn ngữ nằm trong những cặp câu dịch tự nhiên Một người Việt biết tiếng Anh, tức là họ đã có hiểu biết về ngữ pháp cũng như từ vựng tiếng Anh, khi gặp câu “I have an interesting book”, họ có thể dịch ngay là “Tôi có một quyển sách thú vị” Tri thức chuyển đổi ngữ danh từ tiếng Anh “an interesting book” thành “một quyển sách thú vị” chính là tri thức chuyển đổi cần được khai thác, biểu diễn trên máy tính theo cách thức mà máy tính có thể đọc và áp dụng được cho những trường hợp mới Trong luận văn này, chúng em chọn cách biểu diễn tri thức chuyển đổi dưới dạng luật

Trong nhiều hệ dịch đơn giản trước đây, bộ luật chuyển đổi này được các chuyên gia ngôn ngữ xây dựng bằng tay, một số hệ dịch sử dụng phương pháp

Trang 34

thống kê Tuy nhiên, cho dù xây dựng bằng phương pháp nào đi chăng nữa thì việc xây dựng cũng phải dựa trên cơ sở là những văn bản do chính con người dịch chứ không thể là những trường hợp do các chuyên gia dịch tự nghĩ ra Khi khối lượng dữ liệu chứa tri thức chuyển đổi này ngày càng tăng thì việc xây dựng bằng tay trở nên khó khăn hơn Do đó, cần phải có một phương pháp tự động rút bộ luật chuyển đổi từ ngữ liệu

Các phương pháp máy học ra đời đã đáp ứng được nhu cầu đó Khối lượng dữ liệu lớn không còn là một vấn đề trở ngại Chúng ta cũng có thể lựa chọn phương pháp máy học phù hợp với loại ngữ liệu, mục đích của công việc, và tận dụng được tối đa ưu điểm của phương pháp đó Trong bài toán chuyển đổi cây cú pháp, chúng em chọn phương pháp học dựa trên sự chuyển trạng thái (Transformation Based Learrning), gọi tắt là TBL, chúng em xây dựng thuật toán học dựa trên tư tưởng của thuật toán “TBL nhanh” [16] được cải tiến từ TBL gốc (được trình bày chi tiết trong chương 3)

Hiệu quả của thuật toán học rút luật chuyển đổi cú pháp không chỉ phụ thuộc vào tính đúng đắn và hiệu quả của bản thân thuật toán đó mà còn phụ thuộc vào: chất lượng của bộ phân tích ngữ pháp (cho thông tin cú pháp và từ loại), những thông tin phân tích phụ khác cho câu tiếng Anh (như vai trò của các thành phần trong cây cú pháp, )

Trang 35

2.1 Hướng tiếp cận dựa trên luật cố định

Từ những thập niên 60-70, chiến lược dịch máy dựa trên chuyển đổi đã được quan tâm và đầu tư nghiên cứu Trong các hệ dịch này, bộ phận chuyển đổi cấu trúc được đảm nhận bởi các luật chuyển đổi cố định, đảm bảo việc ánh xạ các cấu trúc cố định từ ngôn ngữ nguồn sang ngôn ngữ đích Đây là cách tiếp cận đơn giản nhất và kết quả đạt được đặt biệt cao đối với những hệ dịch có lĩnh vực dịch hẹp và chuyên biệt Các luật chuyển đổi là do con người nghĩ ra và được đưa ra bởi các chuyên gia ngôn ngữ học sau đó được đưa vào bộ phận chuyển đổi trong hệ dịch Đặc tính cơ bản cần được bảo đảm đối với các luật chuyển đổi cố định là chúng cần phải gắn liền với các luật sinh của văn phạm được sử dụng để phân tích câu trong ngôn ngữ nguồn

2.1.1 Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cố định

Giả sử chúng ta xét luật sinh đối với tiếng Anh như sau:

Trang 36

(E) NP → DT JJ NN3

trong đó:

NP là ngữ danh từ (thành tố không kết thúc) DT là định từ (thành tố kết thúc)

JJ là tính từ (thành tố kết thúc) NN là danh từ (thành tố kết thúc)

ví dụ danh ngữ tiếng Anh là : a/DT good/JJ book/NN

với tiếng Việt, tính từ bổ nghĩ cho danh từ thường đứng sau danh từ, chính vì vậy để có thể dịch được danh ngữ trên sang tiếng Việt thì luật sinh phải được viết lại là:

Trang 37

Xét một phần cây tổng quát như hình bên dưới Ở đây ngữ tiếng Anh là “a

good type of book”, yêu cầu chuyển đổi sang trật tự từ tiếng Việt phải là “a type book good (of)” → “một dạng sách hay” Chúng ta thấy xuất hiện một yêu cầu phải

chuyển bộ phận book/NN là con trực tiếp của thành tố không kết thúc PP sang làm con trực tiếp của một thành tố không kết thúc khác là NP đồng thời xoá hẳn of/IN

Hình 8: Một trường hợp chuyển đổi khác nút cha mà luật cố định không thể thực hiện được (a) ngữ tiếng Anh gốc; (b) trật tự mới

trong ngữ khi chuyển đổi sang cấu trúc tiếng Việt

Hướng tiếp cận dựa trên luật chuyển đổi cố định cung cấp khả năng chuyển đổi, chèn, xoá các thành phần của vế phải của cùng một luật sinh trong văn phạm xác định nhưng không thể mở rộng để áp dụng trong việc chuyển đổi giữa các thành phần khác cấp hoặc khác cha Đây là một trong những khuyết điểm chính làm cho các hệ dịch có bộ phận chuyển đổi cấu trúc theo hướng tiếp cận này nhanh chóng gặp phải sự hạn chế về mặt thực tiễn Một khuyết điểm chính nữa của hướng tiếp cận này là sự không bao quát của tập luật Để xây dựng được một bộ luật chuyển đổi cố định từ cây cú pháp nguồn sang cây cú pháp đích người ta phải bỏ ra rất nhiều công sức và thời gian và phải được xây dựng bởi các chuyên gia ngôn ngữ học so sánh để đảm bảo cho tập luật đầy đủ và hiệu quả nhất Tuy nhiên lý do chính để hướng tiếp cận này không khả thi là do sự xuất hiện của hiện tượng mâu thuẫn giữa các luật chuyển đổi Một khi số lượng luật chuyển đổi tăng lên, việc đảm bảo

NP

NP PP

DT JJ NN a good type

IN NN of book

of book

(a) (b)

Trang 38

cho các luật này tương tác được tốt với nhau mà không gây mâu thuẫn là gần như không thể thực hiện được bởi những đặc trưng hết sức đa dạng của ngôn ngữ

Hình 9: Khả năng chuyển đổi cú pháp của luật cố định R1→R’1: khả thi; R1→R”1: không khả thi

2.1.2 Nhận xét

Chuyển đổi cấu trúc dựa trên luật chuyển đổi cố định là một hướng tiếp cận mang tính đơn giản và giải quyết được khá nhiều trường hợp phổ biến trong các ngôn ngữ Tuy nhiên chất lượng đánh giá trên số lượng lớn các câu tiếng Anh khi được dịch sang tiếng Việt không cao, điều đó chứng tỏ rằng một giới hạn tiềm ẩn đã

được “định sẵn” cho hướng tiếp cận này Đặc tính của hệ thống luật được xây dựng

bằng tay có ảnh hưởng trực tiếp đến chất lượng chuyển đổi như số lượng luật, trật tự sắp xếp các luật cũng như tính hỗ tương giữa các luật này hoàn toàn là do cảm tính của người xây dựng Tuy nhiên điểm mạnh của cách tiếp cận dựa trên luật là cho phép chúng ta kiểm soát được các cấu trúc đặc thù và hạn chế được sự chuyển đổi quá tự do Việc bổ sung luật luôn cần phải được khảo sát cẩn thận và chính xác tránh xảy ra hiện tượng mâu thuẫn giữa các luật

N122 N111 N112 N121

N123

N11 N12

N122 N111

N123

Trang 39

2.2 Hướng tiếp cận sử dụng case-frame

Phương pháp chuyển đổi sử dụng cách biểu diễn trung gian case-frame (biểu diễn khung) đã được ứng dụng cho tiếng Anh-Thổ Nhĩ Kỳ [20]

Trong cách tiếp cận này, câu tiếng Anh được phân tích thành dạng QLF (Quasi Logical Form) [20], sau đó được chuyển thành biểu diễn trung gian dạng case-frame QLF không được chọn làm biểu diễn trung gian cho giai đoạn chuyển đổi vì nhiều lý do Trước hết, QLF là một cấu trúc vị từ đối số (predicate-argument), nó không chứa đựng những chức năng cú pháp của một câu Thực hiện việc chuyển đổi cấu trúc trên cách biểu diễn đó hoàn toàn không khả thi Hơn nữa, sử dụng QLF làm biểu diễn trung gian sẽ giới hạn khả năng của hệ dịch máy vào bộ phân tích CLE và do đó hệ thống sẽ chỉ làm việc với ngôn ngữ nguồn là tiếng Anh Một lý do khác là thông tin cần thiết cho câu tiếng Thổ trong một QLF rất khó đạt được Vì thế, để thực thi một hệ dịch máy có tính uyển chuyển, không phụ thuộc ngôn ngữ nguồn hay một bộ phân tích nào đó, một cách biểu diễn tổng quát hơn, đó là case-frame Case-frame đã được tận dụng như một cách biểu diễn trung gian

Quá trình chuyển đổi sử dụng case-frame thực chất là một quá trình ánh xạ tuần tự từ case-frame này sang case-frame kia theo cách thức xây dựng dần Những điểm đặc trưng và những mối quan hệ ngữ pháp của case-frame nhập được chuyển đổi riêng Sau đó, chúng lại kết hợp với nhau để phát triển thành một case-frame ngôn ngữ đích Những luật chuyển đổi có dạng sau (theo ký hiệu ngôn ngữ Prolog):

Rulename (SourceCF, Variable, Checklist) :- If condition then Variable = TargetCf

Bước đầu tiên trong giai đoạn chuyển đổi là xác định loại câu nguồn, chẳng hạn như : câu đơn, câu điều kiện, câu liên hợp, Nếu câu là một câu ghép chứa các mệnh đề độc lập, thì những mệnh đề này được xem xét riêng như từng case-frame riêng lẻ Tiếp tục đệ qui, mỗi case-frame này sẽ được phân tích để tạo ra một bản liệt kê những mục cần kiểm tra (checklist) của câu bao gồm tất cả những thông tin quan trọng về câu hay mệnh đề

Trang 40

Các thành tố của khối chuyển đổi chỉ có thể truy xuất một phần nào đó của case-frame, sau đó, nếu một luật chuyển đổi cần tham khảo đến những tính chất của một phần ở xa nó trong case-frame, thì những tính chất xác định đó có thể nằm ngoài phạm vi truy xuất của nó Để giải quyết vấn đề này, ở mức chiếu cực đại, thông tin quan trọng có thể đòi hỏi bới việc chuyển đổi từ vựng cấu trúc và phức hợp được lưu lại trong một bản liệt kê những mục cần kiểm tra Khi tiến trình chuyển đổi tiếp tục thực hiện, bản liệt kê này được tham chiếu đến để hạn chế việc dịch mặc định và kiểm soát những ngoại lệ

Có 3 loại bản liệt kê các mục cần kiểm tra được sử dụng trong suốt quá trình chuyển đổi, đó là bản liệt kê cấp độ câu, động từ, và danh ngữ Bản liệt kê câu có thể được truy xuất tới từ bất cứ đâu trong khối chuyển đổi, trong khi đó bản liệt kê động từ và danh ngữ được sử dụng cho chuyển đổi động từ và danh ngữ

2.2.1 Chuyển đổi các thông tin cấp độ câu

Bảng liệt kê những mục kiểm tra của câu không chỉ bao gồm những thuộc tính thể hiện trong case-frame chẳng hạn như cách (mood), thể (voice) và động từ (chỉ những động từ đòi hỏi chuyển đổi phức tạp) của câu, mà còn chứa những thông tin dẫn xuất sẽ được thêm vào case-frame của tiếng Thổ Những thông tin dẫn xuất là loại mệnh đề Thổ được quyết định từ động từ nguồn, loại bổ ngữ của câu nếu có, và thuộc tính hành động nói dẫn xuất từ thông tin về thì và thể

Theo sự phát triển của bản liệt kê các mục cần kiểm tra câu, khối chuyển đổi bắt đầu xây dựng cấu trúc case-frame tiếng Thổ theo cách từ trên xuống Đầu tiên, những thông tin mới, s-form và loại mệnh đề được lấy từ bản liệt kê các mục cần kiểm tra và được chèn vào biểu diễn trung gian Nếu câu được xử lý có một thuộc tính đặc trưng, thì quan hệ giữa đối tượng vị từ với chủ từ được xác lập

Ví dụ:

Biểu diễn case-frame tiếng Anh

Ngày đăng: 10/11/2012, 08:14

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Aravind K.Joshi & Yves Schabes, An Eearley Type Parsing Algorimth for Tree Adjoining Grammars, Proceedings of the 26 th Meeting of the Association for Computational Linguistics, Buffalo, June 1998 Sách, tạp chí
Tiêu đề: An Eearley Type Parsing Algorimth for Tree Adjoining Grammars
[2] Aravind K.Joshi, An Introduction to Tree Adjoining Grammars, A. Manaster- Rammer, editor, Mathematics of Language. John Benjamins, Amsterdam, 1987 Sách, tạp chí
Tiêu đề: An Introduction to Tree Adjoining Grammars
[3] David Yarowsky and Grace Ngai. Inducing Multilingual POS Taggers and NP Bracketers via Robust Projection across Aligned Corpora, Proceedings of HLT-02, 2002 Sách, tạp chí
Tiêu đề: Inducing Multilingual POS Taggers and NP Bracketers via Robust Projection across Aligned Corpora
[4] Đinh Điền, Dịch tự động Anh - Việt dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ, Luận án tiến sĩ toán học, ĐHKHTN - ĐHQG Tp.HCM, 2003 Sách, tạp chí
Tiêu đề: Dịch tự động Anh - Việt dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ
[5] Dinh Dien, Hoang Kiem, Van Toan, Quoc Hung, Phu Hoi, Thuy Ngan, Xuan Quang, Word alignment in English – Vietnamese bilingual corpus, Proceedings of International Conference on East-Asia Language Processing and Internet Information Tecnology 2002, Hanoi, Vietnam, 2002, pp. 3-11 Sách, tạp chí
Tiêu đề: Word alignment in English – Vietnamese bilingual corpus
[6] Dinh Dien, Thuy Ngan, Xuan Quang, A Hybrid Approach to Word Order Transfer in the English-to-Vietnamese Machine Translation, paper at MT – Summit IX, Lousiana., USA, 2003 Sách, tạp chí
Tiêu đề: A Hybrid Approach to Word Order Transfer in the English-to-Vietnamese Machine Translation
[8] Eric Brill, A corpus-based approach to language learning, PhD-dissertation Sách, tạp chí
Tiêu đề: A corpus-based approach to language learning
[9] James Allen, University of Rochester, Natural Language Understanding, the Benjamin/Cummings Publishing Company, Inc., 1995 Sách, tạp chí
Tiêu đề: Natural Language Understanding
[10] Ken Samuel, Presentation for DFKI about TBL, Lecture of University, 1997 Sách, tạp chí
Tiêu đề: Presentation for DFKI about TBL
[11] Kuang-Hua Chen & Hsin-His Chen, A Hybrid Approach to Machine Translation System Design, Computational Linguistics and Chinese Languge Processing. Vol. 1, no. 1, August 1996 Sách, tạp chí
Tiêu đề: A Hybrid Approach to Machine Translation System Design
[12] Ngô Quốc Hưng và Phạm Phú Hội, Liên kết từ trong song ngữ Anh-Việt (Ứng dụng trong khảo sát trật tự từ), Luận văn tốt nghiệp cử nhân tin học, ĐHKHTN, 2002 Sách, tạp chí
Tiêu đề: Liên kết từ trong song ngữ Anh-Việt (Ứng dụng trong khảo sát trật tự từ)
[13] Nguyễn Đức Dân, Phạm trù thứ tự trong tiếng Việt, Tập san khoa học A – ĐHTH TP. HCM, số 1/1995 Sách, tạp chí
Tiêu đề: Phạm trù thứ tự trong tiếng Việt
[14] Nguyễn Lưu Thùy Ngân, Đỗ Xuân Quang, Nguyễn Văn Toàn, Ứng dụng phân tích ngữ pháp song song vào song ngữ Anh-Việt, Hội nghị khoa học trường ĐHKHTN lần III, 2002, pp. 192-196 Sách, tạp chí
Tiêu đề: Ứng dụng phân tích ngữ pháp song song vào song ngữ Anh-Việt
[16] Radu Floriance & Grace Ngai, Transformation-Based Learning in the Fast Lane : A generative Approach, ACL 2001 Sách, tạp chí
Tiêu đề: Transformation-Based Learning in the Fast Lane : A generative Approach
[17] Rebecca Hwa, Philip Resnik, Amy Weinberg, and Okan Kolak, Evaluating Translational Correspondence using Annotation Projection, ACL 2002 Sách, tạp chí
Tiêu đề: Evaluating Translational Correspondence using Annotation Projection
[18] Stuart Sheiber & Yves Schabes, Synchronous Tree Adjoining Grammars, Proceedings of 13 th COLING-90, Helsinki, ACL 1990 Sách, tạp chí
Tiêu đề: Synchronous Tree Adjoining Grammars
[19] Trần Quốc Bảo, Tìm hiểu và cài đặt bộ phân tích cú phấp dựa trên văn phạm TAG (Tree adjoining grammar) để phân tích cú pháp câu tiếng Anh, Luận văn cử nhân tin học, ĐHKHTN, 2002 Sách, tạp chí
Tiêu đề: Tìm hiểu và cài đặt bộ phân tích cú phấp dựa trên văn phạm TAG (Tree adjoining grammar) để phân tích cú pháp câu tiếng Anh
[20] Cigdem Keyder Turhan, Structural transfer in an English to Turkish machine translation system, PhD-dissertation, The Middle East Technical University, 1998 Sách, tạp chí
Tiêu đề: Structural transfer in an English to Turkish machine translation system

HÌNH ẢNH LIÊN QUAN

Hình 3: Mơ hình dịch dựa trên sự chuyển đổi - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 3 Mơ hình dịch dựa trên sự chuyển đổi (Trang 18)
Hình 3: Mô hình dịch dựa trên sự chuyển đổi - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 3 Mô hình dịch dựa trên sự chuyển đổi (Trang 18)
Hình 4: Hình tháp minh họa các chiến lược dịch máy1 - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 4 Hình tháp minh họa các chiến lược dịch máy1 (Trang 20)
Hình 4: Hình tháp minh họa các chiến lược dịch máy 1 - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 4 Hình tháp minh họa các chiến lược dịch máy 1 (Trang 20)
hơn mà vẫn giữ đúng ngữ nghĩa và sắc thái của văn bảng ốc. Như vậy khối chuyển - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
h ơn mà vẫn giữ đúng ngữ nghĩa và sắc thái của văn bảng ốc. Như vậy khối chuyển (Trang 21)
Hình 5: Cây cú pháp của câu “I have already read that - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 5 Cây cú pháp của câu “I have already read that (Trang 21)
Bảng 1: Trật tự các thành phần trong ngữ danh từ tiếng Anh  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Bảng 1 Trật tự các thành phần trong ngữ danh từ tiếng Anh (Trang 27)
Dưới đây là bảng tĩm tắt trật tự phổ biến của các thành phần trong danh ngữ - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
i đây là bảng tĩm tắt trật tự phổ biến của các thành phần trong danh ngữ (Trang 27)
Bảng 1: Trật tự các thành phần trong ngữ danh từ tiếng  Anh - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Bảng 1 Trật tự các thành phần trong ngữ danh từ tiếng Anh (Trang 27)
9 Hình dạng, chiều dài Trịn - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
9 Hình dạng, chiều dài Trịn (Trang 28)
Bảng 2: Trật tự các thành phần trong ngữ danh từ tiếng Việt - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Bảng 2 Trật tự các thành phần trong ngữ danh từ tiếng Việt (Trang 28)
Hình 9: Khả năng chuyển đổi cú pháp của luật cố định. R1→R’ 1: khả thi; R1→R”1: khơng khả thi  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 9 Khả năng chuyển đổi cú pháp của luật cố định. R1→R’ 1: khả thi; R1→R”1: khơng khả thi (Trang 38)
Hình 9: Khả năng chuyển đổi cú pháp của luật cố định. - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 9 Khả năng chuyển đổi cú pháp của luật cố định (Trang 38)
tương ứng. Tương tự, thơng tin hình thái như động từ cĩ được dẫn xuất từ một từ - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
t ương ứng. Tương tự, thơng tin hình thái như động từ cĩ được dẫn xuất từ một từ (Trang 43)
Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 10 Giản đồ cây khởi tạo và cây phụ trợ của TAG (Trang 46)
Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 10 Giản đồ cây khởi tạo và cây phụ trợ của TAG (Trang 46)
Hình 11: Tác tố kết hợp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 11 Tác tố kết hợp (Trang 47)
Hình 12: Tác tố thay thế - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 12 Tác tố thay thế (Trang 48)
Hình 12: Tác tố thay thế - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 12 Tác tố thay thế (Trang 48)
Hình 7 minh hoạ một số mẫu cây sơ cấp trong tự điển chuyển đổi cây. - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 7 minh hoạ một số mẫu cây sơ cấp trong tự điển chuyển đổi cây (Trang 50)
™ TAG làm ột mơ hình văn phạm mạnh mẽ, được sử dụng để làm nền tảng cho STAG.  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
l àm ột mơ hình văn phạm mạnh mẽ, được sử dụng để làm nền tảng cho STAG. (Trang 52)
Hình 14: Cây phân tích ngữ pháp chuyển dịch đảo. Các mũi tên chỉ ra hai thành phần chuyển đổi trật tự  cho nhau - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 14 Cây phân tích ngữ pháp chuyển dịch đảo. Các mũi tên chỉ ra hai thành phần chuyển đổi trật tự cho nhau (Trang 55)
Hình 15: Chuyển đổi khung giữa các ngơn ngữ - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 15 Chuyển đổi khung giữa các ngơn ngữ (Trang 63)
Hình 15: Chuyển đổi khung giữa các ngôn ngữ - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 15 Chuyển đổi khung giữa các ngôn ngữ (Trang 63)
Hình 16: Sơ đồ phương pháp học TBL tổng quát - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 16 Sơ đồ phương pháp học TBL tổng quát (Trang 70)
Hình 17: Minh hoạ chuyển đổi câycú pháp cho câu “The microprocessor is plugged into the computer’s motherboard.”  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 17 Minh hoạ chuyển đổi câycú pháp cho câu “The microprocessor is plugged into the computer’s motherboard.” (Trang 79)
Hình 17: Minh hoạ chuyển đổi cây cú pháp cho câu “The  microprocessor is plugged into the computer’s motherboard.” - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 17 Minh hoạ chuyển đổi cây cú pháp cho câu “The microprocessor is plugged into the computer’s motherboard.” (Trang 79)
3.3.1 Mơ hình áp dụng chuyển đổi câycú pháp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
3.3.1 Mơ hình áp dụng chuyển đổi câycú pháp (Trang 80)
Hình 18: Mơ hình áp dụng chuyển đổi câycú pháp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 18 Mơ hình áp dụng chuyển đổi câycú pháp (Trang 81)
Hình 18: Mô hình áp dụng chuyển đổi cây cú pháp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 18 Mô hình áp dụng chuyển đổi cây cú pháp (Trang 81)
Hình 20: Ví dụ về các quan hệ ngữ pháp trong ngữ - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 20 Ví dụ về các quan hệ ngữ pháp trong ngữ (Trang 85)
Hình 21: Xây dựng ngữ tiếng Việt từ các quan hệ ngữ pháp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 21 Xây dựng ngữ tiếng Việt từ các quan hệ ngữ pháp (Trang 86)
Hình 22: Lưu đồ thuật toán gán nhãn chuyển đổi cơ sở cho ngữ liệu - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 22 Lưu đồ thuật toán gán nhãn chuyển đổi cơ sở cho ngữ liệu (Trang 87)
Hình 23: Lưu đồ thuật tốn học luật chuyển đổi cùng cấp – FnTBL  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 23 Lưu đồ thuật tốn học luật chuyển đổi cùng cấp – FnTBL (Trang 90)
Hình 23: Lưu đồ thuật toán học luật chuyển đổi        cùng cấp – FnTBL - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 23 Lưu đồ thuật toán học luật chuyển đổi cùng cấp – FnTBL (Trang 90)
Hình 24: Lưu đồ học luật chuyển đổi khác cấp (FnTBL) Bắt đầu - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 24 Lưu đồ học luật chuyển đổi khác cấp (FnTBL) Bắt đầu (Trang 94)
Hình 26: Kết quả sau khi phân tích cú pháp câu “Last week, I saw a very interesting film.”  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 26 Kết quả sau khi phân tích cú pháp câu “Last week, I saw a very interesting film.” (Trang 100)
Hình 26: Kết quả sau khi phân tích cú pháp câu “Last  week, I saw a very interesting film.” - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 26 Kết quả sau khi phân tích cú pháp câu “Last week, I saw a very interesting film.” (Trang 100)
Hình 28: Cây cú pháp tiếng Anh đã được chuyển đổi  trật tự các thành phần cho đúng với tiếng Việt - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 28 Cây cú pháp tiếng Anh đã được chuyển đổi trật tự các thành phần cho đúng với tiếng Việt (Trang 107)
Bảng 6: Ý nghĩa các ký hiệu dùng trong mơ tản gữ liệu học giai đoạn 1 - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Bảng 6 Ý nghĩa các ký hiệu dùng trong mơ tản gữ liệu học giai đoạn 1 (Trang 108)
Bảng 6: Ý nghĩa các ký hiệu dùng trong mô tả ngữ liệu học giai đoạn 1 - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Bảng 6 Ý nghĩa các ký hiệu dùng trong mô tả ngữ liệu học giai đoạn 1 (Trang 108)
Hình 30: Câycú pháp của (( EE )) sau khi được áp dụng luật RR - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 30 Câycú pháp của (( EE )) sau khi được áp dụng luật RR (Trang 113)
Hình 30: Cây cú pháp của  (E ( E) )  sau khi được áp dụng luật R R - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 30 Cây cú pháp của (E ( E) ) sau khi được áp dụng luật R R (Trang 113)
Hình 31: Sơ đồ lớp khối học luật chuyển đổi cùngcấp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 31 Sơ đồ lớp khối học luật chuyển đổi cùngcấp (Trang 114)
Hình 31: Sơ đồ lớp khối học luật chuyển đổi cùng cấp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 31 Sơ đồ lớp khối học luật chuyển đổi cùng cấp (Trang 114)
Hình 32: Mơ hình áp dụng tập luật chuyển đổi cùngcấp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 32 Mơ hình áp dụng tập luật chuyển đổi cùngcấp (Trang 116)
Hình 32: Mô hình áp dụng tập luật chuyển đổi cùng cấp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 32 Mô hình áp dụng tập luật chuyển đổi cùng cấp (Trang 116)
Hình 33: Câycú pháp của câu tiếng Anh “It isa good type of book.” - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 33 Câycú pháp của câu tiếng Anh “It isa good type of book.” (Trang 118)
Hình 33: Cây cú pháp của câu tiếng Anh “It is a good type of book.” - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 33 Cây cú pháp của câu tiếng Anh “It is a good type of book.” (Trang 118)
Hình 34: Câycú pháp câu “This isa good type of book.” sau khi được chuyển sang cấu trúc tiếng Việt  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 34 Câycú pháp câu “This isa good type of book.” sau khi được chuyển sang cấu trúc tiếng Việt (Trang 119)
Hình 34: Cây cú pháp câu “This is a good type of book.” sau khi được  chuyển sang cấu trúc tiếng Việt - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 34 Cây cú pháp câu “This is a good type of book.” sau khi được chuyển sang cấu trúc tiếng Việt (Trang 119)
Bảng 14: Một phần câycú pháp minh hoạ cho việc đánh định danh tương đối cho khuơn mẫu route  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Bảng 14 Một phần câycú pháp minh hoạ cho việc đánh định danh tương đối cho khuơn mẫu route (Trang 123)
AU UX X NN PP - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
AU UX X NN PP (Trang 123)
Bảng 14: Một phần cây cú pháp minh hoạ cho việc  đánh định danh tương đối cho khuôn mẫu route - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Bảng 14 Một phần cây cú pháp minh hoạ cho việc đánh định danh tương đối cho khuôn mẫu route (Trang 123)
Hình 36: Sơ đồ lớp khối học luật chuyển đổi khác cấp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 36 Sơ đồ lớp khối học luật chuyển đổi khác cấp (Trang 125)
Hình 37: Mơ hình áp dụng tập luật chuyển đổi khác cấp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 37 Mơ hình áp dụng tập luật chuyển đổi khác cấp (Trang 127)
Hình 37: Mô hình áp dụng tập luật chuyển đổi khác cấp - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 37 Mô hình áp dụng tập luật chuyển đổi khác cấp (Trang 127)
Hình 38: Đánh giá tập luật học chuyển đổi cùngcấp – 137 luật đầu cho kết quả tốt nhất  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 38 Đánh giá tập luật học chuyển đổi cùngcấp – 137 luật đầu cho kết quả tốt nhất (Trang 130)
Hình 39: Đánh giá tập luật học chuyển đổi khác cấp – 112 luật đầu cho kết quả tốt nhất  - Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
Hình 39 Đánh giá tập luật học chuyển đổi khác cấp – 112 luật đầu cho kết quả tốt nhất (Trang 131)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w