1. Trang chủ
  2. » Luận Văn - Báo Cáo

Chuyển ngữ và xử lý nhập nhằng cho cụm danh từ việt anh

86 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 645,37 KB

Nội dung

1 Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN HIẾU ĐỀ TÀI LUẬN VĂN THẠC SĨ Chuyên ngành : Khoa học máy tính CHUYỂN NGỮ VÀ XỬ LÝ NHẬP NHẰNG CHO CỤM DANH TỪ VIỆT - ANH TP HỒ CHÍ MINH, tháng 09 năm 2007 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm TRƯỜNG ĐẠI HỌC BÁCH KHOA PHÒNG ĐÀO TẠO SĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC Tp HCM, ngày tháng năm 200 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phái: Ngày, tháng, năm sinh: Nơi sinh: Chuyên ngành: MSHV: I- TÊN ĐỀ TÀI: II- NHIỆM VỤ VÀ NỘI DUNG: III- NGÀY GIAO NHIỆM VỤ (Ngày bắt đầu thực LV ghi Quyết định giao đề tài): IV- NGÀY HOÀN THÀNH NHIỆM VỤ: V- CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): CÁN BỘ HƯỚNG DẪN (Học hàm, học vị, họ tên chữ ký) CN BỘ MÔN QL CHUYÊN NGÀNH Nội dung đề cương luận văn thạc sĩ Hội đồng chuyên ngành thơng qua TRƯỞNG PHỊNG ĐT – SĐH Ngày tháng năm TRƯỞNG KHOA QL NGÀNH LỜI CẢM ƠN Đầu tiên, tơi xin bày tỏ lịng biết ơn sâu sắc tới công lao PGS.TS Phan Thị Tươi, người tận tình hướng dẫn giúp đỡ tơi trong suốt q trình làm luận văn Tơi tỏ lịng cám ơn chân thành tới quan cá nhân sau đây: - Phòng Đào tạo sau đại học, trường Đại học Bách khoa thành phố Hồ Chí Minh - Các thầy, cô khoa Công Nghệ Thông Tin trường Đại học Bách khoa thành phố Hồ Chí Minh - Th.S Nguyễn Chánh Thành: NCS ngành Khoa học máy tính trường Đại học Bách khoa thành phố Hồ Chí Minh - Tồn thể người thân gia đình bạn bè thân hữu Đã quan tâm, giúp đỡ, động viên, tạo điều kiện thuận lợi cho tơi hồn thành luận văn TP Hồ Chí Minh, Tháng 07 năm 2007 Tác giả Nguyễn Văn Hiếu TÓM TẮT LUẬN VĂN Mục đích nghiên cứu: Đưa mơ hình giải pháp hỗ trợ việc chuyển ngữ xử lý nhập nhằng cho cụm danh từ tiếng Việt Cấu trúc luận văn: Luận văn dài 70 trang, gồm phần: Mở đầu, Tổng quan nghiên cứu có liên quan đến đề tài, Cơ sở lý luận đề tài, Chuyển ngữ xử lý nhập nhằng cụm danh từ, Kết luận khuyến nghị hướng phát triển Trong phần mở đầu, chúng tơi trình bày lý chọn đề tài, nội dung nhiệm vụ đề tài, ý nghĩa khoa học thực tiễn đề tài Trong phần tổng quan, chúng tơi trình bày kết nghiên cứu giới Việt nam có liên quan đến đề tài, gồm phương pháp để xây dựng ma trận xác suất chuyển ngữ “phương pháp mơ hình kết hợp”, “phương pháp lặp”; phương pháp chuyển ngữ dựa chuyển đổi “chuyển đổi case-frame”, “chuyển đổi cấu trúc vị từ - đối số” Trong phần sơ lý luận, chúng tơi trình bày lý luận cần thiết cho việc xây dựng giải pháp chuyển ngữ xử lý nhập nhằng cụm danh từ tiếng Việt, bao gồm vấn đề phương pháp xây dựng từ điển điện tử, kho ngữ liệu, xây dựng ma trận xác suất chuyển ngữ phương pháp lựa chọn, chuyển ngữ dựa luật cố định, cấu trúc cụm danh từ tiếng Việt, cấu trúc cụm danh từ tiếng Anh, khác biệt hai cấu trúc nhân tố ảnh hưởng đến khác biệt Trong phần chuyển ngữ xử lý nhập nhằng cụm danh từ, chúng tơi đưa mơ hình giải pháp để chuyển ngữ xử lý nhập nhằng Việc chuyển ngữ xử lý nhập nhằng tiến hành theo ba bước: Tách cụm danh từ phức tạp thành cụm danh từ sở, chuyển ngữ xử lý nhập nhằng cho cụm danh từ sở, kết hợp cụm danh từ sở để tạo cụm danh từ phức tạp kết Đồng thời chúng tơi trình bày mơ hình cài đặt hệ thống kết thực nghiệm.Và cuối từ kết nghiên cứu thực nghiệm, chúng tơi trình bày kết luận hướng phát triển đề tài MỤC LỤC Nội dung Trang MỞ ĐẦU CHƯƠNG TỔNG QUAN CÁC NGHIÊN CỨU TRÊN THẾ GIỚI VÀ VIỆT NAM CÓ LIÊN QUAN ĐẾN ĐỀ TÀI 1.1 Xây dựng ma trận xác suất chuyển ngữ 1.1.1 Phương pháp mơ hình kết hợp cực đại 1.1.2 Phương pháp lặp 1.2 Dịch máy 11 1.2.1 Sơ lược dịch máy 11 1.2.2 Chiến lược dịch máy dựa chuyển đổi 12 1.2.3 Các hướng tiếp cận chuyển đổi cấu trúc dịch máy 13 1.3 Kết luận chương 16 CHƯƠNG CƠ SỞ LÝ LUẬN CỦA ĐỀ TÀI 18 2.1 Từ điển điện tử 18 2.1.1 Từ điển dành cho máy 18 2.1.2 Cấu trúc vĩ mô vi mô từ điển 19 2.1.3 Các vấn đề tiếng Việt cần xét xây dựng từ điển 22 2.1.4 Phương pháp xây dựng từ điển liệu 23 2.2 Kho ngữ liệu 25 2.2.1 Khái niệm 25 2.2.2 Xây dựng kho ngữ liệu 25 2.2.3 Khai thác kho ngữ liệu 28 2.3 Xây dựng ma trận xác suất chuyển ngữ dùng phương pháp lựa chọn 28 2.4 Dịch máy 30 2.4.1 Dịch máy dựa tập luật cố định 31 2.4.2 Cơ chế chuyển đổi cách tiếp cận dựa luật cố định 32 2.5 Cấu tạo cụm danh từ Anh - Việt 33 2.5.1 Cấu tạo cụm danh từ tiếng Việt 33 2.5.2 Cấu tạo cụm danh từ tiếng Anh 38 2.5.3 Những khác biệt cấu trúc tiếng Việt so với tiếng Anh 40 2.5.4 Các nhân tố ảnh hưởng đến khác biệt 42 2.6 Kết luận chương 44 CHƯƠNG CHUYỂN NGỮ VÀ XỬ LÝ NHẬP NHẰNG CHO CỤM 45 DANH TỪ VIỆT - ANH 3.1 Một số vấn đề lý thuyết 45 3.1.1.Giải thuật tách cụm danh từ phức tạp 45 3.1.2 Kết hợp cụm danh từ sở thành cụm danh từ phức tạp 46 3.1.3.Thu thập luật chuyển đổi cụm danh từ sở 47 3.2.Giải thuật chuyển ngữ xử lý nhập nhằng 48 3.3.Cài đặt thực nghiệm 56 3.3.1 Cài đặt 56 3.3.2 Thực nghiệm 61 3.4 Kết luận chương 67 KẾT LUẬN VÀ KHUYẾN NGHỊ HƯỚNG PHÁT TRIỂN 69 KẾT LUẬN 69 KHUYẾN NGHỊ MỘT SỐ HƯỚNG ĐỂ PHÁT TRIỂN ĐỀ TÀI 70 PHỤ LỤC 71 TÀI LIỆU THAM KHẢO 75 DANH MỤC CÁC BẢNG BẢNG TRANG Bảng 2.1 Cấu trúc mục từ MRD 22 Bảng 2.2 Các dấu tiếng Việt 22 Bảng 2.3 Cấu trúc “tiếng” tiếng Việt 22 Bảng 2.4 Cấu trúc bảng băm từ điển 23 Bảng 2.5 Cấu trúc cụm danh từ tiếng Việt 35 Bảng 2.6 Vị trí từ cụm danh từ tiếng Anh 42 Bảng 2.7 Vị trí từ cụm danh từ tiếng Việt 42 Bảng 3.1 Độ tương tự từ 53 Bảng 3.2 Xác suất bi-gram 54 DANH MỤC CÁCH HÌNH HÌNH TRANG Hình1.1 Mạng liên kết phương pháp lặp 10 Hình 2.1 Giải thuật tính tần số đồng xuất phương pháp lựa chọn 30 Hình 2.2 Sự chuyển đổi cú pháp phương pháp dịch máy dựa luật 32 Hình 3.1 Giải thuật chuyển ngữ xử lý nhập nhằng cụm danh từ tiếng Việt 49 Hình 3.2 Mơ hình cài đặt hệ thống 56 Hình 3.3 Giao diện chương trình 60 Hình 3.4 Phương pháp thực nghiệm 62 10 MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Trong xã hội đại, thông tin chìa khóa thành cơng Chính vậy, việc tìm kiếm, truy cập rút trích thơng tin quan trọng nhu cầu thiết yếu Để đáp ứng nhu cầu người ta xây dựng hệ thống truy xuất thông tin chủ yếu dựa vào ngôn ngữ tiếng Anh chúng thể tính hiệu ứng dụng thực tế Song môi trường World Wide Web (WWW) ngày phát triển to lớn vấn đề đa ngôn ngữ WWW quan tâm nhiều người sử dụng quốc gia khác ln có nhu cầu địa hóa thơng tin việc truy vấn Để giải yêu cầu người ta cần phải có hệ thống truy xuất thơng tin xun ngơn ngữ, lĩnh vực Cross Language Information Retrieval (CLIR) Hệ thống tìm kiếm thơng tin xun ngơn ngữ (CLIR) hệ thống tìm kiếm cho phép người dùng nhập câu truy vấn ngơn ngữ để tìm kiếm tài liệu ngơn ngữ khác Vì câu truy vấn người dùng nhập vào tài liệu cần tìm kiếm thuộc ngơn ngữ khác nên cần phải có qui trình chuyển ngữ quy trình tìm kiếm hệ tìm kiếm đơn ngữ Các hệ tìm kiếm đơn ngữ thực tốt qui trình tìm kiếm đơn ngữ Do đó, vấn đề phải xây dựng qui trình chuyển ngữ hoạt động có hiệu Chính qui trình chuyển ngữ làm phát sinh nhiều vấn đề CLIR, cộm vấn đề nhập nhằng ngữ nghĩa chuyển ngữ Vì vậy, giải nhập nhằng ngữ nghĩa vấn đề cốt lõi Giải tốt vấn đề giúp cho hệ chuyển ngữ có chất lượng tốt Bên cạnh đó, góp phần giúp cho máy tính có khả hiểu ngôn ngữ tự nhiên, trở nên gần gũi với người Có nhiều cách tiếp cận chuyển ngữ hệ thống CLIR, cách tiếp cận thường phân loại thành nhóm là: “Query Translation”, xử lý theo hướng chuyển ngữ cho truy vấn ngôn ngữ nguồn cho phù hợp với ngôn ngữ 72 loại cụm danh từ tiếng Anh có chiều dài lớn chiều dài cụm danh từ tiếng Việt Kết thực Heuristic1 Cụm từ tiếng Việt Kết chuyển ngữ Xử lý cách so sánh chiều dài Truyền thống anh hùng Heroic tradition Heroic tradition Revolutionary Heroic tradition Cuộc chiến tranh xâm lược A dirty war of aggression A war of aggression A war of aggression Hội đồng bầu cử Central electoral council electoral council electoral council Bệnh viện trung ương Central hospital Central hospital Hue central hospital Quy luật kinh tế The economic rule The economic The economic rule rule of socialism Chú ý việc tính chiều dài cụm danh từ - Đối với cụm danh từ tiếng Việt, danh từ loại (sự, việc, cuộc, niềm, ), hư từ liên từ (và, cho, của, các, những, ) giới từ (về, tại, ) khơng tính vào chiều dài cụm danh từ Những từ lưu danh sách vn_stoplist - Tương tự cụm danh từ tiếng Anh, tư a, an, the, of, and, about, for, lưu danh sách eng_stoplist, khơng tính vào chiều dài cụm danh từ Với cách tính này, Chúng tơi đưa số minh họa kết chương trình chương trình chuyển ngữ: 73 Chiều dài 2-length Chiều dài 3-length Cụm danh từ tiếng Việt Kết thực chương trình ca chiến thắng song of victory giá trị đồng tiền the value of the currency yêu cầu tài the financing requirement Cụm danh từ tiếng Việt Kết thực chương trình Luật Đầu tư nước ngồi the law on foreign investment mơi trường thuận lợi cho an enabling environment for investment đầu tư mục tiêu sách the monetary policy objective tiền tệ Heuristic Xắp xếp kết giảm dần theo xác suất cụm danh từ Nếu phép giao cho nhiều cụm danh từ, tất cụm danh từ xuất hình với thứ tự giảm dần xác suất Dưới kết minh họa thực chương trình STT Cụm danh từ tiếng Việt Kết thực chương trình Con ngựa bất kham an unruly horse : 1E-08 a restive horse : 1E-08 Lợi nhuận béo bở fat profits : 0.333 big profits : 0.007 hiệp ước bất tương xâm non-aggression pact : 0.0001 non-aggression treaty : 0.0001 chiến đấu bền bỉ an enduring struggle : 0.035 a presevering struggle : 1E-08 bàn bida billiard table : 0.0001 pool table : 0.0001 74 Các kết chuyển ngữ xử lý nhập nhằng dựa luật cố định Chúng trình bày số ví dụ minh họa kết chuyển ngữ xử lý nhập nhằng phương pháp chuyển ngữ dựa luật thống kê tần số đồng xuất STT Cụm từ tiếng Việt Cụm từ tiếng Anh Kết chuyển ngữ Kết chọn Động lực chủ yếu Prime movers Main movers Prime movers Main engines Prime movers Prime engines Chief movers Chief engines Chính sách kinh tế Economic policies Economic policies Economic policies Tuyên bố mở đầu Introductory statements - Introductory Do vấn đề statements liệu thưa, ba - cụm introductory từ có declaration xác suất - E - 12 introductory proclamation Quyền kinh doanh Trading right - Business right Do vấn đề - Business authority liệu thưa, ba - business power cụm - trading right xác suất - trading authority E - 12 từ có - trading power Hạn chế xuất Chỉ dẫn địa lý Export restriction Geographical indications - Export limitation export - export restriction restriction - Geographical Geographical indications - indications Geographical directions - Geographical instruction Kiểu dáng công nghiệp Industrial designs Industrial designs Industrial 75 designs Bí mật thương mại Trade secrets - Trade secrets Trade secrets - Trade secrecies Kinh tế quốc gia National economy National economy National economy 10 Đầu tư trực tiếp nước Foreign direct investment - Foreign live investment - Foreign Foreign direct investment direct investment - overseas direct investment - overseas live investment 11 Quỹ tiền tệ quốc tế International fund monetary - International International monetary fund monetary - fund International monetary budget 3.3.2.4 Phân tích kết thực nghiệm Chúng tiến hành chuyển ngữ 350 cụm danh từ tiếng Việt, gồm 171 cụm danh từ có độ dài 2, 126 cụm danh từ có độ dài 3, 53 cụm từ có độ dài 4, kết thực chương trình sau Số cụm danh từ Số cụm danh từ Độ xác chuyển ngữ chuyển ngữ 171 147 86% 126 81 64% 53 23 43% Tổng cộng 350 251 72% Từ thực nghiệm cho phép rút số kết luận Chiều dài cụm danh từ Chương trình gặp phải nhiều lỗi vấn đề liệu thưa Vấn đề khắc phục đơn giản việc có kho ngữ liệu lớn phong phú Chương trình cịn gặp phải số lỗi sai chuyển đổi cấu trúc cú pháp phải thêm bớt hư từ, danh từ loại, mạo từ 76 Độ xác trung bình 72%, kết khả quan Tuy nhiên, độ xác phụ thuộc vào độ dài cụm danh từ Kết chuyển ngữ cho danh từ có chiều dài cao, độ xác giảm nhanh chiều dài cụm danh từ tăng lên Điều khẳng định việc tiền xử lý tách cụm danh từ phức tạp thành cụm danh từ sở hợp lý 3.4 Kết luận chương Trong chương đề xuất phương pháp chuyển ngữ xử lý nhập nhằng chuyển ngữ cụm danh từ tiếng Việt sang tiếng Anh Việc chuyển ngữ thực hai phương pháp : - Phương pháp tập hợp - Phương pháp dùng luật cố định Đối với việc dùng tập hợp Việc chuyển ngữ phương pháp tập hợp có ưu điểm lớn chuyển ngữ cụm danh từ khối thống thực phép giao tập hợp, mà phần tử tập hợp cụm danh từ Bởi đơn vị xử lý cụm danh từ Điều cụm danh từ tiếng Anh có tính ổn định cao, việc chuyển ngữ dựa từ cho kết khơng xác Đối với phương pháp giao tập hợp đề xuất dùng luật chuyển đổi để lọc lại cụm danh từ thỏa mãn luật chuyển đổi nhiều cụm danh từ, chúng tơi tính xác suất dựa mơ hình bi-gram Đối với việc dùng luật Người ta xây dựng sở liệu với đầy đủ tất cụm danh từ đích, áp dụng phương pháp tập hợp có nhiều cụm danh từ khơng chuyển được, cải thiện thêm phương pháp cách dùng luật chuyển đổi để chuyển cụm danh từ chuyển [13] Chúng dùng phương pháp dựa luật cố định, với tập luật chuyển đổi lưu sở liệu 77 Xử lý nhập nhằng Kiểm tra chiều dài tương ứng cụm danh từ tiếng Việt cụm danh từ tiếng Anh tương ứng Tính xác suất cụm danh từ tiếng Anh tạo dựa xác suất bi-gram Tính ma trận xác suất chuyển ngữ, xác định xác suất để từ tiếng Anh từ chuyển ngữ tương ứng cho từ tiếng Việt 78 KẾT LUẬN VÀ KHUYẾN NGHỊ HƯỚNG PHÁT TRIỂN KẾT LUẬN Từ việc nghiên cứu vấn đề lý thuyết kết việc thực nghiệm, rút số kết luận sau: 1.1.CLIR ngày phát triển to lớn có nhiều ứng dụng thiết thực việc nâng cao hiệu truy hồi thông tin cho người sử dụng Vì vậy, việc nghiên cứu CLIR có ý nghĩa khoa học lẫn thực tiễn Có nhiều hướng tiếp cận để xây dựng hệ thống CLIR, hướng tiếp cận chuyển ngữ truy vấn sử dụng phổ biến tính đơn giản hiệu so với hướng tiếp cận chuyển ngữ tài liệu Trong chuyển ngữ truy vấn, người ta quan tâm nhiều đến chuyển ngữ truy vấn cụm danh từ cụm động từ Khi chuyển ngữ cụm danh từ, người ta cố gắng chuyển ngữ đơn vị thống nhất, cách làm cho kết có độ xác cao cụm danh từ tiếng Anh thường ổn định Tuy nhiên, cách làm xử lý cụm danh từ tạo từ điển cụm danh từ chứa cụm danh từ dùng thực tế Người ta phải kết hợp thêm phương pháp chuyển ngữ khác để giải trường hợp cụm danh từ chưa lưu từ điển 1.2.Trong đề tài nghiên cứu mình, chúng tơi đề xuất mơ hình chuyển ngữ xử lý nhập nhằng chuyển ngữ cụm danh từ tiếng Việt sang tiếng Anh phương pháp tập hợp phương pháp dùng luật cố định Chúng đề xuất dùng luật chuyển đổi để lọc lại cụm danh từ thỏa mãn luật chuyển đổi nhiều cụm danh từ, chúng tơi tính xác suất dựa mơ hình bi-gram Chúng tơi dùng luật chuyển đổi để chuyển ngữ cho cụm danh từ chuyển ngữ phương pháp giao tập hợp Tập luật chuyển đổi lưu sở liệu Độ xác việc chuyển ngữ phụ thuộc vào chiều dài cụm danh từ, điều phần thực nghiệm việc xử lý tách cụm danh từ phức tạp thành cụm danh từ sở hoàn toàn hợp lý 79 1.3 Để kiểm tra hiệu mơ hình chúng tơi đề xuất, tiến hành thực nghiệm Kết thực nghiệm cho thấy độ xác đạt 72% Đây kết chấp nhận KHUYẾN NGHỊ MỘT SỐ HƯỚNG ĐỂ PHÁT TRIỂN ĐỀ TÀI Chương trình cịn gặp phải số lỗi khiến việc thực thi thiếu ổn định Chúng khắc phục lỗi thời gian sớm nhất, đồng thời tinh chỉnh giải thuật để chương trình thực nhanh Để giải vấn đề liệu thưa , dự định tăng kích thước kho ngữ liệu Chúng tơi dự định tăng kích thước từ điển song ngữ Việt – Anh để xử lý nhiều văn dùng thực tế Mặc dù phương pháp “giao tập hợp” giải tốt trường hợp mà cụm danh từ tiếng Việt tiếng Anh có khác biệt việc thêm bớt danh từ loại, giới từ, liên từ hư từ, phương pháp chuyển ngữ dùng luật mà cài đặt gặp phải vấn đề thêm bớt từ kể Chúng nghiên cứu Heuristic để giải tốt vấn đề thời gian tới Chúng tơi cịn dự định nghiên cứu để chuyển ngữ xử lý nhập nhằng cho loại cụm từ khác như: cụm động từ, cụm tính từ, 80 PHỤ LỤC DANH TỪ CHỈ LOẠI (Danh từ theo sau động vật) STT Danh từ loại Danh từ theo sau Áng Văn Bài Thơ, diễn văn Bản Tuyên ngôn Bộ Từ điển, máy Bông Hoa Bức Tranh, ảnh Cái Bàn, ghế Cây Nến, đèn Căn Phòng, nhà 10 Chiếc Bàn, ghế 11 Con Dao, thuyền 12 Cơn Gió 13 Cuốn Sách, 14 Đóa Hoa 15 Hịn Đạn, bi 16 Khẩu Súng 17 Lá Bùa, đơn 18 Làn Gió, sóng 19 Màn Kịch 20 Món Quà, nợ 21 Nền Văn hóa, văn minh 22 Nóc Nhà 23 Ngọn Cờ, núi 24 Ngơi Nhà, đền 81 25 Pho Tuợng, truyện 26 Quả Bom, núi 27 Quyển Sách, 28 Tấm ảnh, tranh 29 Tấn Tuồng, kịch 30 Tòa Nhà, lâu đài 31 Thanh Gươm, kiếm 32 Thửa Ruộng, đất 33 Vì Sao, vua 34 Vở Kịch, tuồng DANH TỪ CHỈ LOẠI (Danh từ theo sau người vật) STT Danh từ loại Danh từ theo sau Anh Sinh viên, niên Bà Chủ nhiệm Bác Phu xe Chị Giáo viên Bậc Vĩ nhân, anh hùng Cái Tí, Tỉu Cậu Học trị Con Mẹ mìn Cơ Y tá 10 Chàng Thi sĩ 11 Chú Tài xế 12 Đấng Anh hùng 13 Em Học sinh 14 Lão Quản gia 82 15 Mụ Phù thủy 16 Nàng Công chúa 17 Người Giáo viên, Mỹ 18 Tay Nhà buôn 19 Tên Gián điệp 20 Thằng Mật thám 21 Vị Chủ tịch 22 Viên Đại úy HỆ THỐNG NHÃN TỪ LOẠI CỦA PENN TREEBANK STT Nhãn từ loại Ý nghĩa CC Liên từ kết hợp CD Số đếm DT Định từ EX “Có” FW Từ tiếng nước ngồi IN Giới từ liên từ JJ Tính từ JJR Tính từ so sánh JJS Tính từ so sánh 10 LS Dấu liệt kê 11 MD Động từ tình thái 12 NN Danh từ số không đếm 13 NNS Danh từ số nhiều 14 NNP Danh từ riêng số 15 NNPS Danh từ riêng số nhiều 16 PDT Tiền định từ 83 17 POS Dấu sở hữu cách 18 PRP Đại từ nhân xưng 19 PPS Đại từ sở hữu 20 RB Trạng từ 21 RBR Trạng từ so sánh 22 RBS Trạng từ so sánh 23 RP Tiểu từ 24 SYM Ký hiệu 25 TO “to” 26 UH Thán từ 27 VB Động từ nguyên mẫu không to 28 VBD Động từ khứ 29 VBG Hiện phân từ 30 VBN Quá khứ phân từ 31 VBP Động từ khơng phải ngơi thứ số 32 VBZ Động từ ngơi thứ số 33 WDT Định từ bắt đầu Wh- 34 WP Đại từ bắt đầu Wh- 35 WPZ Đại từ sở hữu bắt đầu Wh- 36 WRB Trạng từ bắt đầu Wh- 84 TÀI LIỆU THAM KHẢO Tiếng Viêt [1] Diệp Quang Ban (2004), Ngữ pháp tiếng Việt tập1, 2, Nhà xuất giáo dục, Hà Nội [2] Đinh Điền (2006), Giáo trình xử lý ngơn ngữ tự nhiên, NXB Đại học quốc gia thành phố Hồ Chí Minh [3] Đỗ Thanh (2002), Từ điển từ công cụ tiếng Việt, Nhà xuất giáo dục, Hà Nội [4] Hoàng Phê (2002), Từ điển tả tiếng Việt phổ thơng, Nhà xuất Đà Nẵng [5] Nguyễn Lưu Thùy Ngân, Đỗ Xuân Quang (2003), Xây dựng chương trình chuyển đổi cú pháp hệ dịch tự động Anh - Việt, Luận văn, trường Đại học Khoa học tự nhiên, thành phố Hồ Chí Minh [6] Trần Lê Hồng Dũ, Đinh Điền, Văn Chí Nam (2005), “Kết hợp nguồn tri thức khác để xử lý nhập nhằng ngữ nghĩa cho hệ dịch Anh - Việt”, Kỷ yếu hội thảo khoa học [7] Trần Văn Điền (1995), Văn phạm tiếng Anh thực hành, Nhà xuất thành phố Hồ Chí Minh [8] Văn Chí Nam (2003), Xử lý ngữ nghĩa dịch tự động Anh - Việt, Luận văn, trường Đại học Khoa học tự nhiên, thành phố Hồ Chí Minh Tiếng Anh [9] Mirna Adriani(2001), “English - Dutch CLIR using Query Translation Techniques”, Crosslanguage Evaluation Forum(CLEF) [10] James Allen (1995), Natural language understanding, The Benjamin/Cummings publishing company, Inc 1995 [11] Yunbo Cao, Hong Li (2002), “Base noun phrase translation using web data and EM algorithm”, C02 - 1011 [12] Matthew S Dryer (2004), “Noun Phrase structure”, The second edition of Shopen anthology 85 [13] Jianfeng Gao, Jian-Yun Nie, Endong Xun, Jian Zhang, Ming Zhou, Changning Huang (2001), “Improving Query Translation for Cross - Language Information Retrieval using Statistical Model”, ACM 1-58113-331-6/01/0009 [14] Yi Liu, Rong Jin (2005), “Query Translation Disambiguation As Graph Partitioning”, American Association for Artificial Intelligence [15] Yi Liu, Rong Jin, Joyce Y.Chai (2005), “A Maximun Coherence Model for Dictionary-based Cross-language Information Retrieval”, ACM - 59593-034 - 5/05 [16] Fernando López - Ostenero, Julio Gonzalo, Felisa Verdejo (2004), “Noun phrases as building blocks for cross - language Search Assistance”, Elsevier Ltd [17] Christof Monz, Bonnie J.Dorr (2005), “Iterative Translation Disambiguation for Cross - language Information Retrieval”, SIGIR’ 05 [18] Thai P Nguyen, Akira Shimazu (2006), “ Improving Phrase-Based SMT with Morpho-Syntactic Analysis and Transformation ”, The 7th Conference of the Association for machine translation in America [19] Yan Qu, Grey Grefenstette, David Evans (2002), “Resolving translation ambiguity using monolingual corpora”, Clairvoyance CLEF-2002 Experiments [20] Stephen D Richardson, Lucy Vanderwende, William Dolan (2004), “Combining Dictionary - Based Method for Natural Language Analysis”, One Microsoft Way, Redmond, WA 98052-6399 [21] Stephanie Seneff, Chao Wang John Lee (2006), “Combining linguistic and statistical methods for bi-directional English - Chinese translation in the flight domain”, Amta06 [22] Lucia Specia (2005), “A hybrid model for WSD in English - Portuguese machine translation”, CLUK2005 [23] Jianmin Yao, Hao Yu, Treju Zhao (2002), “Automatic information transfer between English and Chinese ”, W02 - 1613 86 [24] Yilu Zhou, Jialun Qin, Michael Chau, Hsinchun Chen (2003), “Experiments on Chinese - English cross-language Retrieval”, Proceeding of NTCIR - 4, Tokyo, April 2003 ... phần chuyển ngữ xử lý nhập nhằng cụm danh từ, đưa mơ hình giải pháp để chuyển ngữ xử lý nhập nhằng Việc chuyển ngữ xử lý nhập nhằng tiến hành theo ba bước: Tách cụm danh từ phức tạp thành cụm danh. .. tạo cụm danh từ tiếng Anh Danh từ phần bắt buộc của cụm danh từ tiếng Anh, xác định nghĩa cụm từ Danh từ từ từ cụm từ thay cho tồn cụm từ 48 2.5.2.1 Từ hạn định(determiners) Đối với số cụm danh. .. CHƯƠNG CHUYỂN NGỮ VÀ XỬ LÝ NHẬP NHẰNG CHO CỤM 45 DANH TỪ VIỆT - ANH 3.1 Một số vấn đề lý thuyết 45 3.1.1.Giải thuật tách cụm danh từ phức tạp 45 3.1.2 Kết hợp cụm danh từ sở thành cụm danh từ phức

Ngày đăng: 11/02/2021, 23:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w