Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 101 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
101
Dung lượng
39,06 MB
Nội dung
ĐẠI H Ọ C Q U Ố C GIA H À NỘI KHOA CÔNG NGHỆ TRƯƠNG XUÂN NAM MỘT PHƯƠNG PHÁP XÂY DựNG HỆ CO SỞ TRI THỨC CHO CHƯƠNG TRÌNH DỊCH T ự• ĐỘNG • • C h u y ê n n g nh: C ô n g n g h ệ t h ô n g tin M ã sổ: 1.01.10 LUẬN VĂN T H Ạ C s ĩ N g i h n g d ẫ n k h o a học: P G S T S H Sĩ Đ m Hà N ộ i - N ă m 2004 ĐẠI H Ọ C Q U Ố C GIA H À NỘI KHOA CÔNG NGHỆ TRƯƠNG XUÂN NAM MỘT PHƯƠNG PHÁP XÂY DựNG HỆ CO SỞ TRI THỨC CHO CHƯƠNG TRÌNH DỊCH T ự• ĐỘNG • • C h u y ê n n g nh: C ô n g n g h ệ t h ô n g tin M ã sổ: 1.01.10 LUẬN VĂN T H Ạ C s ĩ N g i h n g d ẫ n k h o a học: P G S T S H Sĩ Đ m Hà N ộ i - N ă m 2004 rương Xuân Nam - Trang I - Luận văn thạc sĩ MỤC LỤC M Ò Đ Ầ U C H Ư Ơ N G - T Ổ N G Q U A N VỀ D ỊC H T ự Đ Ộ N G N G Ô N N G Ữ T ự N H I Ê N 1.1 Vấn đề dịch máy - dịch tự động ngôn ngữ tự n h i ê n 1.1.1 Định nghĩa dịch m y 1.1.2 Vai trò dịch m y 1.1.3 Phân loại dịch m y 1.2 Lịch sử ngành dịch m y .9 1.2.1 Giai đoạn tiền máy t í n h .9 1.2.2 Giai đoạn trước A L P A C 10 1.2.3 Giai đoạn phục h i 11 1.2.4 Giai đoạn n a y 12 1.3 M ột số chiến lược dịch m y .14 1.3.1 Dịch trực tiếp 14 1.3.2 Dịch chuyển đ ổ i 15 1.3.3 Dịch liên n g ữ 17 1.3.4 Dịch thống kê (Statistical Machine T r a n s l a t i o n ) 18 1.3.5 Dịch ví dụ (Example-Based Machine Translation) 19 1.4 Phạ m vi nghiên cứu luận v ă n 20 1.4.1 Trọng tâm nghiên cứu luận v ă n 21 1.4.2 M ục tiêu luận v ă n .22 C H Ư Ơ N G - C A U T R Ú C C Ủ A M Ộ T H Ệ D ỊC H T ự Đ Ộ N G Đ Ơ N G I Ả N 23 2.1 M ộ t s ố k h i n i ệ m c b ả n 23 2.1.1 Từ vựng ’ 23 2.1.2 Phân loại ngữ p h p .23 2.1.3 Luật văn p h m 24 2.1.4 Phân loại ngữ ng h ĩa 25 2.1.5 Cú pháp điều k h i ể n 25 2.2 Cấu trúc hệ dịch tự động đơn g iả n 25 2.2.1 Sơ đồ hệ dịch tự đ ộ n g .26 2.2.2 Hoạt động hệ d ị c h .27 2.3 Phầ n xử lý từ v ự n g 27 2.3.1 Chức năng, nhiệm vụ xử lý từ v ự n g 27 2.3.2 Hoạt động phần x lý từ v ự n g 27 2.3.3 Các kĩ thuật sử dụng phần xử lý từ v ự n g 28 2.3.4 M ột số vấn đề x lý từ v ự n g 29 2.4 Phầ n xử lý ngữ p h p 30 2.4.1 Chức năng, nhiệ m vụ xử lý ngữ p h p 30 2.4.2 Hoạt động phần x lý ngữ p h p .31 2.4.3 Các kĩ thuật sử dụng phần x lý ngữ p h p 32 2.4.4 Một sổ vấn đề xử lý ngữ p h p 33 2.5 P hầ n xử lý ngữ n g h ĩ a 34 MỞ Đ ÂU T'rurcmg Xu -11 Nam - Trang - Luận văn thạc sĩ 2.5.1 Chức năng, nhiệm vụ xử lý ngừ n g h ĩ a 34 2.52 Hoạt động phần xử lý ngữ n g h ĩ a 34 2.53 Các kĩ thuật sử dụng phần xử iý ngữ n g h ĩ a .35 2.5 l M ộ t số vấn đề xử lý ngữ n g h ĩ a 35 2.6 Các thành phần k h c 36 2.61 Kh ối tiền xử l ý 36 2.62 Khối thu thập quản lý tri t h ứ c 37 2.7 Nhìn lại vấn đề hệ d ị c h 37 C H Ư Ơ N 3 - X Ử L Ý N G Ữ N G H I A B Ằ N G c ú P H Á P Đ IỀ U K H I Ế N 40 3.1 Một số p h n g pháp xử lý ngữ nghĩa dịch tự đ ộ n g .40 3.11 Chọn nghĩa đơn g i ả n 40 3.12 Chọn nghĩa dựa thống kê - xác s u ấ t 41 3.13 Chọn nghĩa dựa phân tích tổ họp ngữ n g h ĩ a 42 3.2 Xử lý na;ữ nghĩa bàng cú pháp điều kh iể n 43 3.21 Khái n iệ m cú pháp điều kh iể n 43 3.22 Phân loại cú pháp điều k h i ể n 43 3.23 Hoạt đ ộ n g cú pháp điều khiển việc xử lýngữ n g h ĩ a 44 -3.3 Các vấn đề tro n g xử lý ng ữ nghĩa cú pháp điều k h i ể n 48 3.3J Tính p h ứ c tạp cú pháp điều k h i ể n 48 3.32 Tính c ứ n g nhắc cú pháp điều k h iể n 50 3.33 Đánh g iá hiệu ứng dụng cú pháp điều k h i ể n 51 -3.4 Phư ơng hư n g giải học tự đ ộ n g 53 3.41 Đ ơn giản hoá cú pháp điều kh iể n 53 3.4K h ả nă ng sinh tri thức dịch từ mẫu dịch c ó 54 3.43 Sử dụng tri thức dịch để sinh tự động cú pháp điều k h iể n 54 C H Ư Ơ K j - M Ô H I N H T Ả N G T R Ư Ở N G T R O N G x L Ý N G Ữ N G H Ĩ A 56 ‘4.1 Giới thiệu m hình tăng t r n g 56 4.11 Đặt vấ n đ ề 56 4.11 Cấu trúc thành phần sở tri t h ứ c 56 4.13 Sơ đồ hoạt động mơ hình tăng t r n g 59 l\ X lý mẫu dịch dóng hàng văn b ả n 61 4.21 Bài tốn dóng hàng văn b ả n 61 4.22 Vị trí củ a dóng hàng văn hệ học d ị c h 62 4.23 Thuật tốn dóng hàng văn n h a n h 63 4.21 Đ n h giá dóng hàng văn b ả n 66 HỰ LỰ C T H A M K H Ả O 88 A - GIA O D IỆ N C Ủ A H Ệ D Ị C H 93 B - G IA O D IẸ N CỬA H Ẹ H Ọ C D Ị C H 95 c - D A N H M Ụ C C Á C T H U Ạ T t o n 97 D - D A N H M Ụ C C Á C H Ì N H V Ẽ 98 E - D A N H M Ụ C C Á C B Ả N G B I Ê U 99 T rưoTg Xuân Nam - Trang - Luận văn thạc sĩ MỜ ĐẦU Tror.g nhữ ng năm gần đây, phát triển nhanh chóng mạ ng Internet khả niant máy tính, người ngày có điều kiện tiếp xúc với nguồn tri thức p h o n g phú nhiều dạng khác (chữ viết, hình ảnh, âm thanh, ) thể h i ệ n nhiều ngôn ngữ khác Nhu cầu đọc hiểu trao đổi thông tin ngày c n g trở nên cần thiết hết, nhưng, nhu cầu gặp r o cản lớn, khác biệt mặt ngôn ngữ T xa xưa, người ta tìm cách vượt qua rào cản ngơn ng ữ theo nhiều cách khác n h a i , từ việc xây dựng từ điển song ngữ, nghiên cứu dịch thuật c c Igôn ngữ, cách học ngoại ngữ nhanh chóng, hi vọn g tạo m ộ t ngôn ngữ chung cho lồi người (ngơn ngữ Esperanto - quốc tế ngữ) Khi sức mạn.1 máy tính khẳng định, tốn sử dụng máy tính để chuyển đổi tri t h ứ c viết ngôn ngữ sang ngôn ngữ khác đặt Trong gầm 50 năm, có nhiều phươ ng pháp dịch máy giới thiệu triển khai Hi'êr nay, có nhiều hệ dịch tự động thương mại hóa dạng chương trình máy tính dịch vụ web [7] Đ ò i với nhiều nhà nghiên cứu Việt Nam, việc xây dựng hệ dịch máy, đặc biệt 'dịch tự động từ tiếng Anh sang tiếng Việt đặt từ ỉâu [6] K hó khăn lớn nhiất việc xây dựn g chư ơng trình dịch việc xây dựn g sở tri thức ng