Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

154 708 2
Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC TP H C M VĂN CHÍ NAM TN XỬ LÝ NGỮ NGHĨA H TRONG HỆ DỊCH TỰ ĐỘNG ANH – VIỆT C N TT -Ð H K CHO CÁC TÀI LIỆU TIN HỌC K ho a LUẬN VĂN CỬ NHÂN TIN HỌC TP Hồ Chí Minh – Năm 2003 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC TP H C M VĂN CHÍ NAM - 9912618 TN XỬ LÝ NGỮ NGHĨA H TRONG HỆ DỊCH TỰ ĐỘNG ANH – VIỆT TT -Ð H K CHO CÁC TÀI LIỆU TIN HỌC K ho a C N LUẬN VĂN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN TS ĐINH ĐIỀN NIÊN KHOÁ 1999 - 2003 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN H C M TP TN H K -Ð H TT C N ho a K Tp Hồ Chí Minh, ngày tháng 07 năm 2003 TS Đinh Điền NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN H C M TP TN H K -Ð H TT C N ho a K Tp Hồ Chí Minh, ngày tháng 07 năm 2003 Lời Cảm Ơn Sau thời gian thực luận văn tốt nghiệp, đến nay, công việc liên quan đến luận văn hoàn tất Trong suốt thời gian này, H C cho phép tơi có đơi điều gửi đến người vô biết ơn M nhận nhiều giúp đỡ Ở phần luận văn, TP Xin gởi lời cảm ơn chân thành đến Thầy Đinh Điền, người tận tình hướng dẫn, động viên, giúp đỡ em suốt thời gian TN qua Nếu lời dẫn, tài liệu, ngữ liệu, lời động viên khích lệ Thầy luận văn khó lịng hồn thiện K H Cũng xin gửi lời biết ơn đến nhà, đến pá, đến má, đến mẹ, đến -Ð H dượng ba, đến chế Hiền, đến chế Nghí, người ln dành tình thương yêu cho Nàm, người hỗ trợ, dõi TT theo bước Nàm tất năm học vừa qua Xin tri ân tất Thầy Cô, người dày công dạy dỗ, C N truyền cho em nhiều tri thức quí báu ho a Cảm ơn bạn, anh nhóm VCL đóng góp bạn, anh cho luận văn Đặc biệt xin gởi lời cảm ơn đến với K anh Ngô Quốc Hưng, anh Phạm Phú Hội, bạn Nguyễn Thái Ngọc Duy cho công cụ phục vụ luận văn góp ý cho chương trình Cảm ơn tất bạn bè tôi, người sát cánh vui niềm vui, chia sẻ khó khăn tơi Cịn nhiều điều khơng thể diễn tả hết lời, xin ghi nhớ tim Văn Chí Nam Lời Nói Đầu Những năm gần đây, với phát triển nhanh chóng lĩnh vực cơng nghệ thơng tin, việc sử dụng tài liệu để nắm bắt tri thức vô phổ biến Song khó khăn lớn nhiều người Việt việc hiểu ngôn ngữ thể tài liệu (mà chủ yếu tiếng Anh) Do đó, M tạo lập hệ thống dịch tài liệu tin học từ tiếng Anh sang tiếng Việt có ý H C nghĩa to lớn Chắc chắn giúp nhiều người Việt có điều kiện tiếp cận tốt nội dung, kiến thức tin học giới TP Nhưng vấn đề khó khăn gặp phải việc thiết lập hệ dịch tự động tính nhập nhằng vốn có ngơn ngữ tự nhiên, nhập nhằng lớn TN nhập nhằng ngữ nghĩa Việc chọn nghĩa thích hợp cho từ công H việc không dễ dàng lý thú Giải tốt vấn đề ngữ nghĩa nâng K cao chất lượng cho hệ dịch tự động Anh – Việt -Ð H Đề tài hướng đến việc giải tốt nhập nhằng nghĩa từ tài liệu tin học nhờ vào việc huấn luyện ngữ liệu song ngữ để rút luật chuyển đổi Thông qua việc kết hợp khối khác dịch tự động, tạo TT câu dịch tiếng Việt hiểu Sự thay đổi lĩnh vực xem xét không ảnh hưởng nhiều đến cấu trúc mơ hình Chúng tơi thực việc giới hạn lĩnh vực C N ngồi ý nghĩa nêu phía cịn có lý thử nghiệm mơ hình xử lý ngữ nghĩa mới, xem xét tính tương hỗ từ thông tin ngữ liệu song ngữ đảm bảo chất ho a lượng câu dịch K Luận văn tổ chức thành chương phụ lục ¾ Chương giới thiệu tổng quan dịch máy nói chung xử lý ngữ nghĩa nói riêng ¾ Chương giới thiệu sở lý thuyết cần sử dụng, có đề cập đến thuật tốn huấn luyện ¾ Chương đưa mơ hình cài đặt cho khối xử lý ngữ nghĩa ¾ Chương cụ thể hố mơ hình cài đặt ¾ Chương tổng kết luận văn đề hướng phát triển Mục Lục Lời Nói Đầu i Mục Lục ii Danh Sách Hình vii M Danh Sách Bảng Biểu viii H C Chương TỔNG QUAN .1 1.1 SƠ LƯỢC VỀ DỊCH MÁY TP 1.1.1 Lịch sử Dịch Máy 1.1.2 Khái niệm Dịch Máy TN 1.1.3 Các bước xử lý hệ Dịch Máy H 1.2 XỬ LÝ NGỮ NGHĨA TRONG DỊCH MÁY 10 K 1.2.1 Vai trò chức xử lý ngữ nghĩa 10 -Ð H 1.2.2 Các mức độ nhập nhằng tầng xử lý ngữ nghĩa 12 1.2.2.1 Nhập nhằng mức từ vựng 12 1.2.2.2 Mức độ nhập nhằng cấu trúc .12 TT 1.2.2.3 Mức độ nhập nhằng liên câu 13 C N 1.2.2.4 Mức độ nhập nhằng theo thể loại văn 14 1.2.3 Các khó khăn xử lý ngữ nghĩa 15 ho a 1.2.3.1 Nhập nhằng nghĩa 15 K 1.2.3.2 Phụ thuộc vào ngữ cảnh 15 1.2.3.3 Phụ thuộc vào tri thức 15 1.2.3.4 Sự khác biệt tiếng Anh Việt .16 1.2.3.5 Yếu tố khác 16 1.3 CÁC CÁCH TIẾP CẬN TRONG XỬ LÝ NGỮ NGHĨA VÀ CÁC CƠNG TRÌNH TRƯỚC ĐÂY 17 1.3.1 Xử lý ngữ nghĩa thời gian đầu 17 ii 1.3.2 Dựa trí tuệ nhân tạo 18 1.3.3 Dựa sở tri thức 20 1.3.3.1 Từ điển máy 20 1.3.3.2 Từ điển đồng nghĩa .22 1.3.3.3 Từ điển điện toán 23 M 1.3.4 Dựa ngữ liệu 24 H C Chương CƠ SỞ LÝ THUYẾT .27 2.1 CƠ SỞ LÝ THUYẾT VỀ NGÔN NGỮ HỌC 28 TP 2.1.1 Nghĩa từ 28 2.1.1.1 Cơ cấu nghĩa từ .29 TN 2.1.1.2 Phân tích nghĩa từ 29 H 2.1.1.3 Nghĩa từ hoạt động ngôn ngữ .30 K 2.1.2 Quan hệ đồng nghĩa trái nghĩa từ vựng 30 -Ð H 2.1.2.1 Từ đồng nghĩa .30 2.1.2.2 Từ trái nghĩa 31 TT 2.1.3 Biến đổi từ vựng 31 2.1.3.1 Những biến đổi bề mặt 31 C N 2.1.3.2 Những biến đổi chiều sâu từ vựng 32 2.2 HỌC DỰA TRÊN CHUYỂN ĐỔI .32 ho a 2.2.1 Học dựa chuyển đổi ? 32 K 2.2.2 Giải thuật học dựa chuyển đổi tổng quát 33 2.2.3 Mơ tả trình tự tạo luật chuyển đổi 35 2.2.4 Yêu cầu việc áp dụng thuật toán học dựa chuyển đổi vào xử lý ngữ nghĩa 37 2.2.5 Nhận xét .38 2.3 MỘT SỐ GIẢI THUẬT HỌC DỰA TRÊN CHUYỂN ĐỔI CẢI TIẾN 39 2.3.1 Lazy TBL .39 iii 2.3.2 TBL đa chiều 40 2.3.3 TBL nhanh 40 2.4 THUẬT TOÁN FAST-TBL .41 2.4.1 Quy ước 41 2.4.2 Phát sinh luật 42 M 2.4.2.1 Trường hợp 43 H C 2.4.2.2 Trường hợp 44 2.5 VĂN PHẠM PHỤ THUỘC 46 TP 2.5.1 Giới thiệu .46 2.5.2 Vận dụng văn phạm phụ thuộc vào xử lý ngữ nghĩa 49 TN 2.5.3 Các loại quan hệ phân tích cú pháp dựa văn phạm H phụ thuộc 50 K Chương MƠ HÌNH CÀI ĐẶT 53 -Ð H 3.1 CÁC NGUỒN TRI THỨC ĐỂ XỬ LÝ NGỮ NGHĨA .54 3.1.1 Tri thức từ loại hình thái 54 3.1.2 Tri thức ngôn từ .56 TT 3.1.3 Tri thức quan hệ cú pháp ràng buộc ngữ nghĩa 57 C N 3.1.4 Tri thức chủ đề 58 3.1.5 Tri thức tần suất nghĩa từ 59 ho a 3.2 CÁC BƯỚC THỰC HIỆN 59 K 3.3 MƠ HÌNH HUẤN LUYỆN CHO BỘ GÁN NHÃN NGỮ NGHĨA 61 3.4 HỆ THỐNG NHÃN NGỮ NGHĨA .62 3.4.1 Yêu cầu hệ thống nhãn ngữ nghĩa 62 3.4.2 Cơ sở việc phân lớp ngữ nghĩa 63 3.4.3 Nhận xét hệ thống nhãn ngữ nghĩa có liên quan 64 3.5 CHUẨN BỊ NGỮ LIỆU HUẤN LUYỆN 66 3.5.1 Giới thiệu kho ngữ liệu song ngữ Anh-Việt VCLEVC .66 iv 3.5.2 Rút trích thống kê từ ngữ liệu song ngữ 68 3.5.2.1 Thống kê nghĩa tiếng Việt 68 3.5.2.2 Thống kê tần số xuất nghĩa từ tiếng Anh 69 3.5.2.3 Ý nghĩa 70 3.5.3 Xây dựng ngữ liệu huấn luyện .70 M 3.5.3.1 Gán nhãn ngữ nghĩa bán tự động cho ngữ liệu .71 H C 3.5.3.2 Xây dựng “ngữ liệu vàng” 72 Chương CÀI ĐẶT THỬ NGHIỆM .75 TP 4.1 GÁN NHÃN CƠ SỞ 76 4.1.1 Mơ hình gán nhãn sở .76 TN 4.1.2 Xử lý ngôn từ, thành ngữ .78 H 4.1.3 Xử lý ràng buộc lựa chọn 79 K 4.1.3.1 Cơ sở tri thức .79 -Ð H 4.1.3.2 Thuật toán .79 4.1.4 Xử lý dựa lĩnh vực xem xét 81 TT 4.1.5 Xử lý dựa tần số xuất 82 4.2 MẪU LUẬT 82 C N 4.2.1 Các từ ngữ cảnh 83 4.2.2 Từ gốc ngữ cảnh 83 ho a 4.2.3 Từ loại ngữ cảnh .83 K 4.2.4 Nhãn ngữ nghĩa ngữ cảnh 83 4.2.5 Từ có quan hệ ngữ pháp ngữ cảnh .84 4.2.6 Các nhãn ngữ cảnh có quan hệ ngữ pháp 84 4.3 GẮN NGHĨA TIẾNG VIỆT 84 4.3.1 Các từ không cần gắn nghĩa tiếng Việt 85 4.3.2 Gắn thêm lượng từ Những 86 4.3.2.1 Mô tả .86 v ... Dịch ngôn ngữ cách thay từ ngôn ngữ nguồn với từ ngơn ngữ đích cách máy móc Những hệ dịch trực tiếp phù hợp Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học. .. ngôn ngữ thứ n Hình 1-4 : Một hệ dịch liên ngơn ngữ cho n ngôn ngữ khác Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học TỔNG QUAN ‰ Dịch dựa luật : Đây cách... ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC TP H C M VĂN CHÍ NAM - 9912618 TN XỬ LÝ NGỮ NGHĨA H TRONG HỆ DỊCH TỰ ĐỘNG ANH – VIỆT TT -Ð H K CHO CÁC TÀI LIỆU TIN HỌC

Ngày đăng: 10/11/2012, 08:14

Hình ảnh liên quan

Hình 1- 1: Các chiến lược trong dịch máy (do nhĩm GETA đề xuất) - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 1.

1: Các chiến lược trong dịch máy (do nhĩm GETA đề xuất) Xem tại trang 16 của tài liệu.
Hình 1- 2: Một hệ dịch trực tiếp - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 1.

2: Một hệ dịch trực tiếp Xem tại trang 17 của tài liệu.
Hình 1-4 : Một hệ dịch liên ngơn ngữ ch on ngơn ngữ khác nhau - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 1.

4 : Một hệ dịch liên ngơn ngữ ch on ngơn ngữ khác nhau Xem tại trang 18 của tài liệu.
Hình 1-5 Các bước xử lý trong hệ dịch máy dựa trên chuyển đổi cú phápTiền Xử Lý - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 1.

5 Các bước xử lý trong hệ dịch máy dựa trên chuyển đổi cú phápTiền Xử Lý Xem tại trang 22 của tài liệu.
Hình 1- 6: Cây phân cấp mã ngữ nghĩa trong LDOCE - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 1.

6: Cây phân cấp mã ngữ nghĩa trong LDOCE Xem tại trang 35 của tài liệu.
Hình 2- 1: Lưu đồ giải thuật học dựa trên chuyển đổi - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 2.

1: Lưu đồ giải thuật học dựa trên chuyển đổi Xem tại trang 46 của tài liệu.
CƠ SỞ LÝ THUYẾT - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
CƠ SỞ LÝ THUYẾT Xem tại trang 48 của tài liệu.
Hình 2-3 : Minh hoạ một cây cú pháp thơng thường - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 2.

3 : Minh hoạ một cây cú pháp thơng thường Xem tại trang 60 của tài liệu.
Hình 2- 5: Hình ảnh một cây quan hệ phụ thuộc - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 2.

5: Hình ảnh một cây quan hệ phụ thuộc Xem tại trang 61 của tài liệu.
Hình 2-4 : Kết quả khi phân tích câu sử dụng văn phạm phụ thuộc - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 2.

4 : Kết quả khi phân tích câu sử dụng văn phạm phụ thuộc Xem tại trang 61 của tài liệu.
MƠ HÌNH CÀI ĐẶT - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
MƠ HÌNH CÀI ĐẶT Xem tại trang 73 của tài liệu.
MƠ HÌNH CÀI ĐẶT - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
MƠ HÌNH CÀI ĐẶT Xem tại trang 74 của tài liệu.
Hình 3-3 : Thể hiện các mối liên kết của một cặp câu - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 3.

3 : Thể hiện các mối liên kết của một cặp câu Xem tại trang 80 của tài liệu.
MƠ HÌNH CÀI ĐẶT - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
MƠ HÌNH CÀI ĐẶT Xem tại trang 81 của tài liệu.
MƠ HÌNH CÀI ĐẶT - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
MƠ HÌNH CÀI ĐẶT Xem tại trang 82 của tài liệu.
MƠ HÌNH CÀI ĐẶT - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
MƠ HÌNH CÀI ĐẶT Xem tại trang 84 của tài liệu.
MƠ HÌNH CÀI ĐẶT - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
MƠ HÌNH CÀI ĐẶT Xem tại trang 86 của tài liệu.
MƠ HÌNH CÀI ĐẶT - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
MƠ HÌNH CÀI ĐẶT Xem tại trang 87 của tài liệu.
Hình 4- 1: Mơ hình cho phương pháp gán nhãn cơ sở - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình 4.

1: Mơ hình cho phương pháp gán nhãn cơ sở Xem tại trang 91 của tài liệu.
Mẫu luật được tạo chỉ chứa các thơng tin từ loại và hình thái. - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

u.

luật được tạo chỉ chứa các thơng tin từ loại và hình thái Xem tại trang 100 của tài liệu.
Bảng 4- 2: Tĩm tắt một số trường hợp giải quyết cho động từ be 4.3.4. Các trường hợp đi kèm với giới từ - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Bảng 4.

2: Tĩm tắt một số trường hợp giải quyết cho động từ be 4.3.4. Các trường hợp đi kèm với giới từ Xem tại trang 103 của tài liệu.
Bảng 4-3 : Một số tri thức được áp dụng để giải quyết giới từ - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Bảng 4.

3 : Một số tri thức được áp dụng để giải quyết giới từ Xem tại trang 104 của tài liệu.
Bảng 4-4 : Kết quả một số luật chuyển đổi trong xử lý ngữ nghĩa - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Bảng 4.

4 : Kết quả một số luật chuyển đổi trong xử lý ngữ nghĩa Xem tại trang 106 của tài liệu.
Bảng kết quả thử nghiệm trên đây mang tính chất tham khảo cho tính đúng đắn của mơ hình - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Bảng k.

ết quả thử nghiệm trên đây mang tính chất tham khảo cho tính đúng đắn của mơ hình Xem tại trang 107 của tài liệu.
FRM Hình dáng Form - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Hình d.

áng Form Xem tại trang 116 của tài liệu.
MD Modal Từ hình thái - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

odal.

Từ hình thái Xem tại trang 119 của tài liệu.
Đây thì/là một hình ảnh nổi trong một máy tính hiện đại. - Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

y.

thì/là một hình ảnh nổi trong một máy tính hiện đại Xem tại trang 126 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan