Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch trung việt

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THƠNG Ngơ Hữu Huy NGHIÊN CỨU MỘT SỐ CƠNG CỤ PHỤC VỤ CHO VIỆC PHÁT TRIỂN HỆ THỐNG HỖ TRỢ DỊCH TRUNG - VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Ngun - 2012 1Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THƠNG Ngơ Hữu Huy NGHIÊN CỨU MỘT SỐ CƠNG CỤ PHỤC VỤ CHO VIỆC PHÁT TRIỂN HỆ THỐNG HỖ TRỢ DỊCH TRUNG - VIỆT Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS Nguyễn Ái Việt Thái Nguyên - 2012 2Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết tìm hiểu, nghiên cứu tài liệu cách nghiêm túc dười hường dẫn TS Nguyễn Ái Việt Nội dung luận văn phát triển từ ý tưởng, sáng tạo thân kết hoàn toàn trung thực Học viên Ngơ Hữu Huy 3Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH SÁCH CÁC HÌNH v MỞ ĐẦU vi CHƯƠNG TỔNG QUAN VỀ DỊCH MÁY 1.1 Định nghĩa dịch máy 1.2 Vai trò dịch máy 1.3 Lịch sử dịch máy 1.3.1 Giai đoạn 1930 - 1940 1.3.2 Giai đoạn 1940 - 1970 1.3.3 Giai đoạn 1970 – 1990 1.3.4 Giai đoạn 1990 - 1.4 Phân loại dịch máy 1.5 Phạm vi luận văn 1.6 Kết chương CHƯƠNG CÁC PHƯƠNG PHÁP DỊCH MÁY 2.1 Các chiến lược dịch 2.1.1 Dịch trực tiếp (Direct MT) 2.1.2 Dịch chuyển đổi cú pháp (Syntactic-transfer MT) 10 2.1.3 Dịch qua ngôn ngữ trung gian (Interlingual MT) 11 2.1.4 Dịch chuyển đổi cú pháp + phân giải ngữ nghĩa 13 2.2 Các cách tiếp cận dịch máy 14 2.2.1 Dịch máy dựa luật (RBMT: Rule-Based MT) 14 4Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.2.2 Dịch máy dựa thống kê (SMT: Statistics-Based MT) 18 2.2.3 Dịch máy dựa sở tri thức (KBMT: Knowlegde-Based MT) 20 2.2.4 Dịch máy dựa ví dụ (EBMT: Example-Based MT) 21 2.2.5 Dịch máy dựa ngữ liệu (CBMT: Corpus-Based MT) 21 2.2.6 Các cách tiếp cận lai (hybrid MTs) 22 2.3 Nhận xét chiến lược cách tiếp cận 23 2.3.1 Nhận xét chiến lược 23 2.3.2 Nhận xét cách tiếp cận 25 2.4 Kết chương 26 CHƯƠNG CÁC ĐẶC TRƯNG CỦA DỊCH TRUNG (HÁN) – VIỆT 27 3.1 Ngữ nghĩa đất nước học hai ngôn ngữ Hán-Việt 27 3.1.1 Văn hóa dân tộc nội hàm ngữ nghĩa đất nước học 27 3.1.2 Thông tin ngữ nghĩa đất nước học từ vựng 28 3.2 Đặc điểm tương đồng khác biệt ngôn ngữ Trung (Hán)-Việt 31 3.2.1 Đặc điểm tương đồng khác biệt mặt ngữ âm 31 3.2.2 Đặc điểm tương đồng khác biệt mặt văn tự 36 3.2.3 Đặc điểm tương đồng khác biệt mặt từ vựng 36 3.2.4 Đặc điểm tương đồng khác biệt mặt ngữ pháp 37 3.2.5 Đặc điểm tương đồng khác biệt mặt tu từ 38 3.3 Nguyên nhân tương đồng khác biệt ngữ nghĩa đất nước học hai ngôn ngữ Hán Việt 38 3.3.1 Phong tục tập quán dân tộc 39 3.3.2 Bối cảnh văn hoá lịch sử 40 3.3.3 Tín ngưỡng tơn giáo 41 3.3.4 Hoàn cảnh địa lý 42 5Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv 3.4 Kết chương 43 CHƯƠNG XÂY DỰNG KHỐI LIỆU VÀ ĐÁNH GIÁ 45 MỘT SỐ CÔNG CỤ XỬ LÝ TIẾNG TRUNG 45 4.1 Xây dựng kho ngữ liệu Trung-Việt (Corpus Trung-Việt) 45 4.1.1 Khái niệm Corpus 45 4.1.2 Quy trình xây dựng Corpus 46 4.1.3 Xây dựng Corpus Trung Việt 48 4.2 Đánh giá số công cụ xử lý tiếng Trung 50 4.2.1 Cơng cụ phân tích cú pháp (Parser) 50 4.2.2 POS Tagger (Part-Of-Speech Tagger) 53 4.3 Kết chương 54 KẾT LUẬN 55 TÀI LIỆU THAM KHẢO 56 6Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH SÁCH CÁC HÌNH Hình 1.1 Q trình xử lý tài liệu dịch máy Hình 2.1 Mơ hình dịch trực tiếp 10 Hình 2.2 Mơ hình dịch kiểu chuyển đổi cú pháp 10 Hình 2.3 Chuyển đổi cú pháp ngơn ngữ nguồn sang ngơn ngữ đích 11 Hình 2.4 Mơ hình dịch liên ngơn ngữ 12 Hình 2.5 Các chiến lược dịch máy dịch 13 Hình 2.6 Mức độ phân tích, chuyển đổi tổng hợp chiến lược dịch 14 Hình 2.7 Kết phân tích cú pháp câu “I see the man in the car” 17 Hình 2.8 Kết phân tích cú pháp câu “I saw the man in a day” 17 Hình 4.1 Bộ gõ tiếng Trung Sougou pinyin 48 Hình 4.2 Giao diện phần mềm Text & Word joiner 49 Hình 4.3 Giao diện phần mềm Stanford-parser 50 Hình 4.4 Chọn file đầu vào 51 Hình 4.5 Chọn parser 51 Hình 4.6 Kết phân tích cú pháp 52 Hình 4.7 Giao diện phần mềm Stanford postagger 53 Hình 4.8 Nhập liệu đầu vào 54 Hình 4.9 Kết thu gán thẻ 54 7Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi MỞ ĐẦU Chế tạo loại máy có khả dịch tự động để giúp cho người vượt qua rào cản ngơn ngữ mơ ước lồi người có từ kỷ XVII, lâu trước máy tính điện tử đời Khi khoa học công nghệ phát triển mạnh, yêu cầu nắm bắt thông tin kỹ thuật nhanh xác trở nên cần thiết Chẳng sau máy tính điện tử đời, bên cạnh ứng dụng tính tốn lĩnh vực tốn học vật lý, người nghĩ đến việc sử dụng “não máy tính” cho ứng dụng thực tiễn, có vấn đề dịch máy Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn từ ngôn ngữ sang ngôn ngữ khác đề cập đến thảo luận Andrew D Booth Warren Weaver vào năm 1946 Vượt qua nhiều trở ngại lý thuyết công nghệ, Booth cho mắt “hệ dịch dựa từ điển” hội nghị MIT vào năm 1952 [4] [15] [16] Trong phát triển nhanh chóng mạng máy tính cơng nghệ truyền thơng, người ngày có điều kiện tiếp xúc với nguồn tri thức phong phú nhiều dạng khác (chữ viết, hình ảnh, âm thanh, v.v.), thể nhiều ngôn ngữ khác Nhu cầu đọc hiểu trao đổi thông tin trở nên cần thiết bao giờ, nhưng, nhu cầu gặp phải rào cản - khác biệt mặt ngôn ngữ Và, ngơn ngữ, tự hân vốn phức tạp Con người tìm cách vượt qua rào cản ngơn ngữ theo nhiều cách khác nhau, từ việc xây dựng từ điển song ngữ, nghiên cứu dịch thuật liên ngữ, phương pháp học ngoại ngữ nhanh chóng, cảviệc tạo ngơn ngữ chung cho loài người - quốc tế ngữ Esperanto Vào thời điểm sức mạnh máy tính khẳng định, tốn sử dụng máy tính để chuyển đổi tri thức viết ngôn ngữ sang ngôn ngữ khác đặt Trong khoảng 50 năm, có nhiều phương pháp dịch máy giới thiệu triển khai Hiện nay, có nhiều hệ dịch tự động thương mại hóa dạng chương trình máy tính dịch vụ web 8Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vii Sự nhìn nhận vấn đề dịch máy (Machine Translation) nhiều lần thay đổi năm mươi năm qua, từ chỗ hình dung dịch thuật công việc đơn giản, máy dịch loại văn khơng người, máy vạn năng, chỗ khẳng định dịch máy tự động, chất lượng cao hồn tồn khơng khả thi Ngày hôm nay, hầu hết chuyên gia dịch máy có chung quan điểm máy tính biên dịch văn chất lượng chấp nhận lĩnh vực chuyên môn hẹp, hỗ trợ dịch thơ để đọc hiểu Phương pháp dịch máy dựa hoàn toàn vào kho ngữ liệu Dịch máy dựa Thống kê (Statistical Machine Translation) hay Dịch máy dựa mẫu ví dụ (Example-based Machine Translation) xem có ích để dịch với chất lượng tương đối thấp cho loại văn [4] [15] [16] Hiện số người nói tiếng Trung giới nhiều Tiếng Trung Quốc chiếm vị trí quan trọng trường quốc tế, đồng thời có ảnh hưởng lớn đến phát triển văn hóa kinh tế tồn giới Với mong muốn học hỏi, tơi mạnh dạn chọn đề tài “Nghiên cứu số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung-Việt” cho luận văn Luận văn trình bày chương, khái quát sau: Chương 1: Tổng quan Chương 2: Các phương pháp dịch máy Chương 3: Các đặc trưng dịch Trung (Hán)-Việt Chương 4: Xây dựng khối liệu đánh giá số cơng cụ xử lý tiếng Trung 9Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƯƠNG TỔNG QUAN VỀ DỊCH MÁY 1.1 Định nghĩa dịch máy Khái niệm dịch máy nhiều tác giả lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, có vài điểm khác biệt nhưng, hầu hết tương đương với định nghĩa sau: Một hệ dịch máy (Machine Translation System) hệ thống sử dụng máy tính để chuyển đổi văn viết ngôn ngữ tự nhiên thành dịch tương đương ngôn ngữ khác [15] [16] Ngôn ngữ văn cần dịch cịn gọi ngơn ngữ nguồn, ngôn ngữ dịch gọi ngơn ngữ đích Sơ đồ sau thể vị trí hệ dịch máy tiến trình dịch tài liệu Hình 1.1 Quá trình xử lý tài liệu dịch máy Đầu vào hệ dịch máy thường văn viết ngôn ngữ nguồn Quá trinh dịch chia thành hai giai đoạn: Đầu tiên, văn phân 10Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 44 từ điển, nghiên cứu ngơn ngữ - văn hóa giao tiếp Phần cung cấp thêm tài liệu tham khảo cho việc dạy học ngôn ngữ, phiên dịch, nghiên cứu giao tiếp liên văn văn hóa Việt Nam Trung Quốc 53Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 45 CHƯƠNG XÂY DỰNG KHỐI LIỆU VÀ ĐÁNH GIÁ MỘT SỐ CÔNG CỤ XỬ LÝ TIẾNG TRUNG 4.1 Xây dựng kho ngữ liệu Trung-Việt (Corpus Trung-Việt) 4.1.1 Khái niệm Corpus Corpus liệu tập hợp văn bản, ngôn ngữ số hố, cách dịch thơng thường “kho ngữ liệu” Ví dụ corpus “tuyển tập tác phẩm Nam Cao”, hay “tuyển tập ca từ Trịnh Công Sơn”, …[25] Cùng với từ điển, corpus tài nguyên ngôn ngữ vô cần thiết cho NLP Từ điển tập hợp tri thức ngôn ngữ, cách sử dụng ý nghĩa từ, ngược lại, corpus liệu cách sử dụng, cách viết từ thực tế Corpus chia thành loại : corpus hẹp corpus rộng Corpus hẹp corpus xây dựng cách cân nhằm phản ánh trung thực tính đa dạng ngơn ngữ Ngược lại, corpus rộng corpus tập hợp lớn văn điện tử mà không quan tâm tới cân corpus Đối với corpus hẹp, vấn đề lớn “để đảm bảo tính đại diện cân corpus, phải lấy chủng loại ngơn ngữ nào, tỉ lệ bao nhiêu” Khơng có số cụ thể khách quan tỉ lệ Vì khó khăn việc xây dựng corpus hẹp, mà phần lớn corpus corpus rộng Các corpus tài nguyên quan trọng NLP (Natural Language Processing) Từ corpus, ta rút liệu quan trọng sau : - Từ corpus, ta chiết suất cách tự động qui tắc ngữ pháp “văn mạch tự do” - Từ corpus tính tốn xác suất, tần suất xuất từ 54Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 46 Để đảm bảo tính xác cho hai kết luận trên, corpus phải đảm bảo số nguyên tắc định : - Tính đại diện : thành phần corpus phải có tính phổ quát, đa dạng phong phú - Kích thước : kích thước corpus lớn đánh giá cao Dựa vào mục đích, cách xây dựng corpus, người ta chia corpus thành loại sau : - Corpus thô (raw corpus): đơn giản tập hợp liệu mà khơng có xử lý thêm - corpus gắn nhãn (tagged corpus) : liệu corpus xử lý phân tích từ, phân tích cú pháp, gắn nhãn từ loại, … - Parallel Corpus : sử dụng nhiều ứng dụng máy dịch Ngoài cách chia trên, ta chia corpus theo cấu tạo nó: - Corpus biệt lập : liệu lấy vào cách ngẫu nhiên, biệt lập không phân biệt với - Corpus theo danh mục : dựa vào danh mục để chia liệu corpus thành nhóm - Corpus trùng lặp : liệu corpus nhiều nhóm lúc - Corpus theo thời gian : liệu xếp theo thời gian thu thập thời gian xuất 4.1.2 Quy trình xây dựng Corpus Như trình bày trên, có hai hướng thiết kế corpus : quan tâm tính tốn đến cân corpus, tập trung vào số lượng mà không quan tâm đến cân Tuỳ theo hai hướng xây dựng mà corpus có cấu trúc q trình xây dựng khác 55Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 47 Khi xây dựng corpus hẹp, thường trải qua q trình sau : Tính tốn, thiết kế corpus Đây q trình quan trọng định đặc điểm, tính chất corpus Trước đó, ta phải kiểm tra điều sau : (a) mục đích sử dụng corpus, (b) kích thức corpus hay số lượng ngôn ngữ, (c) chủng loại văn chọn, (d) phương pháp phân tầng, phương pháp tính tỉ suất cấu thành, (e) độ dài văn lấy, (f) quyền tác giả, phương pháp công khai, nhiều yếu tố khác Lấy mẫu (sampling) Từ tập hợp mẫu ta chọn thành phần (là văn bản) Quá trình phải tuân theo tỉ suất cấu thành thiết lập từ bước để xác định độ dài văn bản, số lượng văn tầng Sau xác định yếu tố này, người ta thường dùng phương pháp chọn ngẫu nhiên mẫu để xây dựng tầng Xây dựng hình thức (Formalization) Quá trình gắn thêm tag cần thiết cho mẫu Chú thích (annotation) Bổ xung thêm thơng tin hình thái, phân tách từ, cấu trúc câu … Chú thích trình sửa đổi nội dung gốc (tagging ) hay loại bỏ nội dung thêm vào (tag) Vế thứ có nghĩa ta loại bỏ thích, ta thu lại nội dung gốc ban đầu Nói cách khác, q trình thích khơng làm nội dung gốc Có hai dạng thích chính: - Chú thích ghi nội dung - Chú thích tách biệt khỏi nội dung Chúng ta xem xét ví dụ : “hơm trời đẹp.” 56Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 48 Với dạng 1, thích ghi nội dung, ta có : hôm nay trời đẹp Nằm cụm danh từ, tính từ Có thể thấy, ta bỏ thích đi, ta nhận lại câu văn ban đầu Với dạng 2, thích tách biệt khỏi nội dung, ta có : Đối với thích ngữ học, có nhiều thơng tin đưa vào Với dạng corpus (có lẽ) có dạng tag khác nhau, nên đọc kĩ tài liệu liên quan đến corpus để thao tác xác Sửa, bổ xung thêm văn bản, thông tin liên quan Các thông tin liên quan quyền tác giả, giới thiệu, phương pháp, nguồn thông tin, … 4.1.3 Xây dựng Corpus Trung Việt 4.1.3.1 Công cụ hỗ trợ Ø Bộ gõ tiếng Trung Sougou pinyin: Hình 4.1 Bộ gõ tiếng Trung Sougou pinyin 57Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 49 Các nút chức bao gồm: chuyển đổi Trung – Anh; chuyển đổi 1bit – 2bit, dấu câu theo kiểu Trung – Anh, bàn phím mềm menu Ngồi cịn thêm nút chức nút đăng nhập vào dịch vụ trực tuyến Tùy vào giao diện mà có thêm nút chức Ø Text & Word Joiner: Đây phần mềm tự động đóng gói văn (text word) khác lại thành file Hình 4.2 Giao diện phần mềm Text & Word joiner 4.1.3.2 Nguồn liệu Corpus xây dựng lấy liệu tác phẩm văn học Trung Quốc Hiện tại, tổng hợp tác phẩm “Đại Tần bá nghiệp” (tác giả: Ngọc Vãn Lâu, tổng quyển, 209 chương) 58Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 50 4.2 Đánh giá số công cụ xử lý tiếng Trung 4.2.1 Công cụ phân tích cú pháp (Parser) 4.2.1.1 Giới thiệu Cơng cụ phân tích cú pháp ngơn ngữ tự nhiên chương trình mà cấu trúc ngữ pháp câu Phân tích cú pháp xác suất sử dụng kiến thức ngơn ngữ thu từ phân tích cú pháp câu ban đầu để tạo phân tích có khả câu Những phân tích cú pháp thống kê cịn làm cho số sai lầm, thường làm việc tốt Việc phát triển bước đột phá lớn xử lý ngôn ngữ tự nhiên năm 1990 [26] Stanford-parser cơng cụ phân tích cú pháp hỗ trợ phân tích cú pháp tiếng Anh điều chỉnh đề làm việc với ngơn ngữ khác Phân tích cú pháp tiếng Trung dựa Chinesse Treebank, phân tích cú pháp tiếng Đức dựa Negra corpus phân tích cú pháp tiếng Ả Rập dựa Penn Arabic Treebank Còn sử dụng để phân tích cú pháp cho ngơn ngữ khác như: tiếng Ý, Bungary Bồ Đào Nha Hình 4.3 Giao diện phần mềm Stanford-parser 59Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 51 4.2.1.2 Hoạt động phân tích cú pháp - Chọn file đầu vào đánh trực tiếp phần mền: Hình 4.4 Chọn file đầu vào - Chọn parser: Hình 4.5 Chọn parser 60Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 52 Việc chọn parser phụ thuộc câu cần phân tích ngơn ngữ ta chọn parser ngơn ngữ Theo hình 4.5: câu phân tích tiếng Trung nên parser cần chọn “chinese parser” (công cụ phân tích cú pháp tiếng Trung) - Kết phân tích cú pháp: Hình 4.6 Kết phân tích cú pháp Kết thu lưu file (chức Save Output), sau: (ROOT (IP (NP (PN 我)) (VP (VV 学习) (NP (NN 汉语。))))) 4.2.1.3 Đánh giá Cơng cụ phân tích cú pháp Stanford-parser đơn giản hiệu Khi chọn file liệu cần phân tích linh hoạt (cho đánh trực tiếp phần mềm chọn từ file) Kết đầu trực quan cho phép lưu file văn để xử lý Độ 61Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 53 xác việc phân tích cú pháp, với số lượng câu đầu vào hạn chế dạng ngữ pháp nên kết thu so sánh với phân tích theo [27] xác Để đánh giá độ xác việc phân tích cú pháp cần có lượng liệu lớn dạng câu có ngữ pháp phức tạp 4.2.2 POS Tagger (Part-Of-Speech Tagger) 4.2.2.1 Giới thiệu Tagger Part-Of-Speech (POS Tagger) phần phần mềm đọc văn số ngôn ngữ gán cho thành phần câu từ (thẻ), chẳng hạn như: danh từ, tính từ, động từ, … Stanford postagger xử lý với số ngôn ngữ như: Anh, Ả Rập, Trung Quốc, Đức, … Hình 4.7 Giao diện phần mềm Stanford postagger 4.2.2.2 Hoạt động - Nhập liệu đầu vào (Hình 4.8) - Nhấn “Tag sentence” để thực việc gán thẻ, thu kết Hình 4.9 62Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 Hình 4.8 Nhập liệu đầu vào Hình 4.9 Kết thu gán thẻ 4.2.2.3 Đánh giá POS Tagger phần mềm nhỏ gọn, hoạt động nhanh Nhưng việc nhập liệu đầu vào hay xuất kết chưa linh hoạt 4.3 Kết chương Với việc tìm hiều phần mềm quan trọng (Stanford-parser POS Tagger) bước đầu xây dựng corpus Trung-Việt sở tốt giúp cho việc phát triển xây dựng hệ thống dịch Trung-Việt sau 63Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 KẾT LUẬN Ø Đánh giá nội dung luận văn - Luân văn nêu khái quát dịch máy lịch sử phát triển dịch máy - Luận văn tìm hiểu chiến lược cách tiếp cận dịch máy, đồng thời ưu/nhược điểm chiến lược cách tiếp cận - Luận văn nêu số đặc trưng dịch Trung-Việt - Luận văn bước đầu xây dựng corpus Trung-Việt tìm hiểu số cơng cụ quan trọng giúp cho việc phát triển hệ thống dịch Trung-VIệt Ø Những điểm hạn chế luận văn - Việc xậy dựng corpus Trung-Việt cịn nhỏ - Việc tìm hiểu đánh giá cơng cụ q so với cơng cụ cần thiết cho phát triển hệ thống dịch Trung-Việt Ø Kiến nghị hướng phát triển - Tiếp tục bổ sung xậydựng corpus Trung-Viêt - Tìm hiểu, lựa chọn chiện lược dịch máy, cách tiếp cận dịch máy hợp lý công cụ hỗ trợ để xây dựng hệ thống dịch Trung-Việt 64Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đinh Điền (1999), Hệ dịch tự động tài liệu tin học Anh-Việt, Báo cáo đề tài cấo Thành Thành Đoàn chương trình VƯST-KHKT trẻ-TPHCM [2] Đinh Điền, Nguyễn Thống Nhất, Nguyễn Thái Ngọc Duy (2003), “Cách tiếp cận thống kê cho hệ dịch tự động Việt-Anh”, Tạp chí Phát triển Khoa học & Công nghê, ĐHQG TPHCM, số 1&2-2003 [3] Lê Khánh Hùng (1991), Hệ dịch tự động Anh-Việt, Báo cáo đề tài cấp Bộ Viện CNTT, Hà Nội [4] Lê Khánh Hùng (2005), “Một sốgiải pháp nâng cao chất lượng dịch máy”, tài liệu TS Lê Khánh Hùng, Viện Ứng dụng Công nghệ [5] Lê Khánh Hùng (2005), “Mở rộng mơ hình văn phạm”, tài liệu TS Lê Khánh Hùng, Viện Ứng dụng Công nghệ [6] Lê Khánh Hùng (2005), “Giải pháp dịch máy”, tài liệu TS Lê Khánh Hùng, Viện Ứng dụng Công nghệ Tiếng Anh [7] Scott Bass, “Machine vs Human Translation” http://www.advancedlanguagetranslation.com/articles/machine_vs_human_tr anslati on pdf [8] HồTú Bảo, “Current Status of Machine Translation Research in Vietnam” http://www.jaist.ac.jp/~bao/talks/MTinVN.ppt [9] Berwick R.C., Sandiway Fong (1990), Principle-based parsing: natural language processing for the 1990s, Artificial in MIT, MIT-Press [10] Brill E (1993), A Corpus-based approach to Language Learning, PhD_thesis, Pennsylvania Uni., USA 65Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 [11] Brown R.D (1996), “Example-Based MT in the Pangloss system”, Processdings of COLING-96 [12] Chen K.H., Chen H.H.(1996), “Hybrid approach to MT System design”, Computational Linguistics anh Chinese Language Processing.1(1) [13] Hovy E.(1993), “How MT works”, Byte Magazine, Jan 1993 [14] Hutchins J., Somer, H.L (1992) An Introduction to Machine tránlation Academic Press [15] John Hutchins (2005), “Computer based translation in Europe and North America, and its future prospects”; JAPIO 20th anniversary (Tokyo: Japan Patent Information Organization, 2005), pp 156–160 http://ourworld.compuserve.com/homepages/WJHutchins [16] John Hutchins, “An introduction to machine translation” http://ourworld.compuserve.com/homepages/WJHutchins [17] Knight K.(1997), “Automatic knowledge acquisition for MT”, Proceedings of AAAI,ACL [18] Knight K., Hovy E.(1994), “Intergrating knowledge-bases and Statistics in MT”, Proceedings of AMTA-94 [19] Krulee J.K (1991), Computer Processing of Natural Language, Prentice Hall [20] Nirenburg S., Carbonell J.,Tomita M.,Goodman K., Machine Translation: A knowledge-Based Approach, Morgan Kaufmann Publishers, San Mateo, California, USA [21] Su K.Y., Chang J.S.(1992), “Why Corpus-Based Statistics-Oriented Machine Translation”, Proceedings of TMI-92 [22] Tomita M.(1987), “An eficient Augumented-Context Free Pasing Algorithm”, Computational Linguistics,13(1-2) 66Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 [23] Watanabe H., Kurohashi S., Aramaki E.(2000), “Finding Structural Correspondences from Bilingual Parsed Corpus for Corpus-based Translation”, Proceeding of 18th COLING-00 Trang web [24] Viện nghiên cứu Trung Quốc: http://vnics.org.vn/Default.aspx?ctl=Article&aID=208 (15/07/2012) [25] http://viet.jnlp.org/ tai-nguyen-ngon-ngu-tieng-viet/ khai-yeu-ve-corpus (20/07/2012) [26] http://nlp.stanford.edu/software/index.shtml (20/07/2012) [27] http://www.chinesenotes.com/grammar.php (10/08/2012) 67Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... văn ? ?Nghiên cứu số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung- Việt? ?? Đây chủ đề rộng, luận văn tập trung vào số công cụ quan trọng, cụ thể như: - Xây dựng corpus Trung- Việt. .. hưởng lớn đến phát triển văn hóa kinh tế tồn giới Với mong muốn học hỏi, tơi mạnh dạn chọn đề tài ? ?Nghiên cứu số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung- Việt? ?? cho luận văn... CNTT VÀ TRUYỀN THƠNG Ngơ Hữu Huy NGHIÊN CỨU MỘT SỐ CƠNG CỤ PHỤC VỤ CHO VIỆC PHÁT TRIỂN HỆ THỐNG HỖ TRỢ DỊCH TRUNG - VIỆT Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 LUẬN VĂN THẠC SĨ KHOA

Định dạng
Số trang	67
Dung lượng	908,56 KB