ĐỀ CƯƠNG LUẬN VĂN MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC

14 610 0
ĐỀ CƯƠNG LUẬN VĂN MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ : 60.48.01 TÊN ĐỀ TÀI MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƢỜNG HỢP TÁC Tên HV CBHD Lớp Cao học : Nguyễn Thị Hoa : PGS.TS Võ Trung Hùng : Khoá 22 (2010-2012) ĐÀ NẴNG, 03/2012 MỤC LỤC Lý chọn đề tài Mục tiêu nhiệm vụ đề tài 2.1 Mục tiêu 2.2 Nhiệm vụ Đối tƣợng phạm vi nghiên cứu 3.1 Đối tƣợng nghiên cứu 3.2 Phạm vi nghiên cứu Phƣơng pháp nghiên cứu 4.1 Phƣơng pháp nghiên cứu tài liệu 4.2 Phƣơng pháp thực nghiệm Giải pháp đề xuất Mục đích ý nghĩa đề tài 6.1 Mục đích 6.2 Ý nghĩa khoa học thực tiễn đề tài Kết dự kiến 7.1 Lý thuyết 7.2 Thực tiễn Bố cục luận văn Kế hoạch dự kiến triển khai đề tài TÀI LIỆU THAM KHẢO 10 1 Lý chọn đề tài Thế giới bƣớc vào kỷ 21 với phát triển nhanh đạt đƣợc nhiều thành tựu lớn tất lĩnh vực kinh tế, kỹ thuật, văn hoá, xã hội, … Cùng với phát triển này, nhân loại tạo lƣợng thông tin khổng lồ phần lớn thông tin tìm thấy thông qua hệ thống mạng Internet Tuy nhiên, lƣợng thông tin chƣa đƣợc khai thác hết nhiều lý do, lý quan trọng dẫn đến việc hạn chế khai thác thông tin trên, rào cản ngôn ngữ Giải pháp nhằm phá bỏ rào cản ngôn ngữ phát triển hệ thống dịch tự động Những nghiên cứu dịch tự động cho đời nhiều công cụ dịch hiệu sử dụng nhƣ Google, AltaVisa,… Nhiều hệ thống đƣợc đƣa vào thƣơng mại hoá nhƣ Systran, Reverso, Babylon, … Những hệ thống cho phép tạo “bản dịch nghĩa” – dịch chƣa đƣợc hoàn chỉnh nhƣng giúp hiểu đƣợc ý nghĩa văn gốc cần phải chỉnh sửa nhiều để đạt đến văn hoàn chỉnh Các hệ thống dịch tự động cho phép dịch nhanh chi phí thấp nhiều so với dịch ngƣời Tuy nhiên, hệ thống phải đối mặt với nhiều vấn đề nhƣ đa nghĩa từ, nhập nhằng ngữ nghĩa, phụ thuộc ngữ cảnh nhiều khó khăn khác biệt giải thích khái niệm Cùng với nhu cầu hệ thống xử lý ngôn ngữ tự nhiên ngày tăng đƣợc ứng dụng nhiều lĩnh vực Do vấn đề xử lý ngôn ngữ tự nhiên cần tài liệu song ngữ đa ngữ Vì kho ngữ liệu sở để phát triển hệ thống xử lý ngôn ngữ tự nhiên Hiện giới có nhiều kho ngữ liệu song ngữ nhƣ Anh – Pháp, Anh – Hoa,… nhƣng kho ngữ liệu lớn để phục vụ cho hệ thống xử lý ngôn ngữ tự nhiên thiếu Ví dụ nhƣ tiếng Việt, chƣa Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) có nhiều kho ngữ liệu đặc biệt kho ngữ liệu đa ngữ để hỗ trợ phát triển hệ thống xử lý ngôn ngữ tự nhiên Bên cạnh đó, số kho ngữ liệu để phục vụ xử lý tiếng Việt chƣa đƣợc chia rộng rãi Chi phí để phát triển kho ngữ liệu lại tốn Vì định chọn đề tài “Mở rộng kho ngữ liệu đa ngữ dựa vào phần mềm dịch tự động môi trường hợp tác” làm đề tài tốt nghiệp luận văn cao học Trong đề tài này, đề xuất giải pháp kết hợp phần mềm dịch tự động môi trƣờng hợp tác Internet để xây dựng, mở rộng kho ngữ liệu Xây dựng công cụ để sử dụng lại hệ thống dịch tự động sẵn có để dịch tự động số kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo kho ngữ liệu song ngữ đa ngữ có chứa tiếng Việt từ kho ngữ liệu sẵn có Ngoài ra, sau dịch tự động đƣa kết nhận đƣợc cho ngƣời góp ý, hiệu chỉnh nhằm tăng độ tin cậy tính kiểm chứng kết Giải pháp sử dụng lại hệ thống dịch tự động môi trƣờng hợp tác để mở rộng kho ngữ liệu sẵn có sang ngôn ngữ khác giáp pháp khả thi hiệu Mục tiêu nhiệm vụ đề tài 2.1 Mục tiêu Mục tiêu đề tài xây dựng kho ngữ liệu đa ngữ có nội dung tiếng Việt nhằm phục vụ việc xử lý ngôn ngữ tự nhiên liên quan đến tiếng Việt 2.2 Nhiệm vụ Để đạt đƣợc mục tiêu trên, nhiệm vụ nghiên cứu đề xuất giải pháp xây dựng công cụ để sử dụng lại hệ thống dịch tự động sẵn có Google để dịch tự động số kho ngữ liệu sẵn có sang tiếng Việt đƣa vào môi trƣờng hợp tác để hiệu chỉnh nhằm tạo kho ngữ liệu đa ngữ có chứa tiếng Việt từ kho ngữ liệu sẵn có Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)  Về lý thuyết: - Tìm hiểu dịch tự động phƣơng pháp dịch tự động - Nghiên cứu phần mềm dịch tự động miễn phí mạng - Nghiên cứu môi trƣờng hợp tác (collaboration environment) - Nghiên cứu kho ngữ liệu (linguistics corpus) kho ngữ liệu đa ngữ (multilingual linguistics corpus)  Về thực tiễn: Đề tài đề xuất giải pháp xây dựng công cụ để sử dụng lại hệ thống dịch tự động sẵn có để dịch tự động số kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo kho ngữ liệu tiếng Việt từ kho ngữ liệu sẵn có Đối tƣợng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu - Kho ngữ liệu (Linguistics Corpus) - Ngôn ngữ lập trình PERL (Practical Extraction and Report Language) - Các hệ thống dịch Internet nhƣ Systran, Google, Reverso,… - Các công cụ phát triển nhƣ Tradoh, Traweb, Sandoh,… - Các mô hình triển khai hệ thống - Một số báo luận văn tốt nghiệp khóa trƣớc 3.2 Phạm vi nghiên cứu Trong khuôn khổ luận văn thực nghiệm, giới hạn thực nghiệm tạo kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểu 20.000 câu cho ngôn ngữ Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) 4 Phƣơng pháp nghiên cứu Phƣơng pháp nghiên cứu, sử dụng hai phƣơng pháp nghiên cứu lý thuyết nghiên cứu thực nghiệm 4.1 Phương pháp nghiên cứu tài liệu - Các tài liệu sở lý thuyết: dịch tự động, môi trƣờng cộng tác, kho liệu, kho ngữ liệu - Các tài liệu mô tả số công cụ dịch tự động - Các tài liệu liên quan đến số nghiên cứu 4.2 Phương pháp thực nghiệm - Sử dụng hệ thống dịch tự động để dịch kho ngữ liệu sẵn có sang ngôn ngữ khác (Ví dụ: kho ngữ liệu tiếng Anh BTEC sang tiếng Việt) - Thực nghiệm dịch kiểm tra số kho ngữ liệu sẵn có sang tiếng Việt - Xây dựng môi trƣờng hợp tác để kiểm tra tính đắn kho ngữ liệu Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) 5 Giải pháp đề xuất Internet Tập HỆ THỐNG DỊCH Corpus đơn ngữ user CORPUS (Các hệ thống dịch có sẵn Internet (google)) Tập Corpus đa ngữ MÔI TRƢỜNG HỢP TÁC Mục đích ý nghĩa đề tài 6.1 Mục đích Nghiên cứu xây dựng môi trƣờng sử dụng lại hệ thống dịch tự động sẵn có để mở rộng kho ngữ liệu sang ngôn ngữ mới, đặc biệt cho tiếng Việt 6.2 Ý nghĩa khoa học thực tiễn đề tài Về khoa học: Nghiên cứu ứng dụng phần mềm dịch tự động trực tuyến để phục vụ việc phát triển kho ngữ liệu đa ngữ phục vụ xử lý ngôn ngữ tự nhiên Về thực tiễn: Đề tài góp phần xây dựng môi trƣờng dịch đa ngữ hỗ trợ dịch tự động trực tuyến tập trung trƣớc hết vào việc phát triển kho ngữ liệu sẵn có Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) Kết dự kiến 7.1 Lý thuyết - Nắm đƣợc quy trình làm việc hệ thống dịch tự động trực tuyến môi trƣờng cộng tác - Hiểu đƣợc cách xây dựng kho ngữ liệu song ngữ/đa ngữ 7.2 Thực tiễn - Một kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểu 20.000 câu ngôn ngữ - Các công cụ hỗ trợ dịch tự động kho ngữ liệu - Phần mềm hợp tác để hiệu chỉnh kho ngữ liệu Bố cục luận văn Báo cáo luận văn dự kiến tổ chức thành chƣơng nhƣ sau: Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) MỞ ĐẦU CHƢƠNG 1: NGHIÊN CỨU TỔNG QUAN 1.1 DỊCH TỰ ĐỘNG 1.1.1 Khái niệm 1.1.2 Cấu trúc chƣơng trình dịch tự động 1.1.3 Một số hệ thống dịch tự động 1.2 MÔI TRƢỜNG HỢP TÁC 1.2.1 Khái niệm 1.2.2 Các công cụ dùng để giao tiếp hợp tác 1.2.3 Các tính môi trƣờng hợp tác 1.2.4 Các công nghệ hỗ trợ môi trƣờng hợp tác 1.2.5 Một số môi trƣờng hợp tác mạng 1.3 KHO NGỮ LIỆU SONG NGỮ 1.3.1 Một số khái niệm 1.3.2 Ứng dụng kho ngữ liệu song ngữ 1.3.3 Nghiên cứu số kho liệu song ngữ giới 1.4 CÁC ĐỊNH DẠNG LƢU TRỮ KHO NGỮ LIỆU 1.4.1 Tổng quan XML 1.4.2 Thuật ngữ 1.4.3 Cấu trúc tập tin XML 1.4.4 Những thành phần tài liệu XML 1.5 TỔNG KẾT CHƢƠNG CHƢƠNG 2: GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU 2.1 GIỚI THIỆU 2.2 MÔ HÌNH HỆ THỐNG 2.3 XÂY DỰNG KHO NGỮ LIỆU Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) 2.3.1 Các tiêu chí chọn mẫu ngữ liệu 2.3.2 Chọn nguồn ngữ liệu chuẩn hóa 2.3.3 Ứng dụng xử lý ngôn ngữ tự nhiên 2.3.4 Các nguồn liệu thu thập 2.3.5 Các kỹ thuật xử lý ngữ liệu 2.3.6 Tích hợp nguồn ngữ liệu 2.3.7 Đa ngữ hoá kho ngữ liệu 2.4 HIỆU CHỈNH KHO NGỮ LIỆU 2.4.1 Các phƣơng pháp hiệu chỉnh liệu 2.4.2 Hiệu chỉnh môi trƣờng hợp tác 2.5 TỔNG KẾT CHƢƠNG CHƢƠNG 3: PHÁT TRIỂN ỨNG DỤNG 3.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 3.1.1 Ngôn ngữ lập trình 3.1.2 Cơ sở liệu 3.2 XÂY DỰNG KHO NGỮ LIỆU 3.2.1 Thu thập xử lý nguồn liệu 3.2.2 Xử lý trùng lặp câu kho ngữ liệu 3.2.3 Nội dung chƣơng trình hỗ trợ dịch 3.2.4 Giao diện chƣơng trình hỗ trợ dịch 3.2.5 Thử nghiệm đánh giá kết hệ thống dịch 3.3 HIỆU CHỈNH KHO NGỮ LIỆU 3.3.1 Xây dựng hệ thống 3.3.2 Xây dựng giao diện hệ thống 3.3.3 Thử nghiệm đánh giá chƣơng trình KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) 9 Kế hoạch dự kiến triển khai đề tài STT Thời gian Từ 01/2012 đến 03/2012 Từ 03/2012 đến 04/2012 Từ 04/2012 đến 05/2012 Từ 05/2012 đến 07/2012 Từ 07/2012 đến 09/2012 Nội dung thực Chọn đề tài viết đề cƣơng chi tiết Nghiên cứu lý thuyết Viết lý thuyết chƣơng Kết dự kiến Đề cƣơng chi tiết Hoàn thành lý thuyết Hoàn thành phần viết lý thuyết Viết chƣơng 2: Đề xuất Hoàn thành chƣơng giải pháp Viết chƣơng 3: Triển Hoàn thành chƣơng khai Hoàn thành báo cáo Hoàn thành luận Slide báo cáo văn Từ 09/2012 đến 10/2012 Từ 10/2012 đến 11/2012 Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) 10 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đinh Điền (2006), Giáo trình xử lý ngôn ngữ tự nhiên, Nhà xuất Đại học quốc gia TP.HCM [2] Phan Huy Khánh, Võ Trung Hùng (2004), “Nhận biết ngôn ngữ mã hóa sử dụng văn đa ngữ”, Tạp chí Tin học Điều khiển tập, 20(4) [3] Võ Trung Hùng (2007), “Phƣơng pháp công cụ đánh giá tự động hệ thống dịch tự động mạng”, Tạp chí Khoa học Công Nghệ, Đại học Đà Nẵng, 1(18), tr 37-42 [4] Võ Trung Hùng (2008), “TRAWEB-Công cụ để đa ngữ hoá trang Web”, Tạp chí Khoa học Công Nghệ trường đại học kỷ thuật, 63, tr 16-20 Tiếng nƣớc ngoài: [5] Chen J., and Nie J Y (2000), “Automatic construction of parallel English-Chinese corpus for cross-language information retrieval”, 6th Applied Natural Language Processing Conference, pp 21-28 [6] Hung Vo-Trung (2004), “Méthodes et outils pour utilisateurs, développeurs et traducteurs de logiciels en contexte multilingue”, Thèse en informatique, Institut national polytechnique de Grenoble, pp 69-86 [7] Hung Vo-Trung (2004), “SANDOH - un système d'analyse de documents hétérogènes”, Actes de JADT, 2, pp 1177-1184 [8] Hung Vo-Trung (2004), “TRADOH, a meta-system of multilingual machine translation”, 4th International Conference EsTAL, Alicante, Spain, pp 303 – 313 [9] Tomaùs J., Saùnchez-Villamil E., Lloret L., and Casacuberta F (2005), Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) 11 “Webmining: An unsupervised parallel corpora web retrieval system”, In Proceedings from the Corpus Linguistics Conference, 1, pp 1-11 Internet: [10] http://wwwclips.imag.fr/geta/User/achille.falaise/traouiero/tradoh2/form.php [11] http://www-clips.imag.fr/geta/User/hung.votrung/traducteur/web_fr/Index.htm [12] http://www.perl.org/get.html Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) 12 Ý KIẾN CỦA CÁN BỘ HƢỚNG DẪN Đà Nẵng, ngày tháng năm 2012 Cán hƣớng dẫn Ý KIẾN CỦA HỘI ĐỒNG CHẤM ĐỀ CƢƠNG Đà Nẵng, ngày tháng năm 2012 Cán duyệt đề cƣơng Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012) [...]... TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đinh Điền (2006), Giáo trình xử lý ngôn ngữ tự nhiên, Nhà xuất bản Đại học quốc gia TP.HCM [2] Phan Huy Khánh, Võ Trung Hùng (2004), “Nhận biết ngôn ngữ và bộ mã hóa sử dụng trong các văn bản đa ngữ , Tạp chí Tin học và Điều khiển tập, 20(4) [3] Võ Trung Hùng (2007), “Phƣơng pháp và công cụ đánh giá tự động các hệ thống dịch tự động trên mạng”, Tạp chí Khoa học và. .. hoạch dự kiến triển khai đề tài STT 1 2 3 4 5 6 7 Thời gian Từ 01/2012 đến 03/2012 Từ 03/2012 đến 04/2012 Từ 04/2012 đến 05/2012 Từ 05/2012 đến 07/2012 Từ 07/2012 đến 09/2012 Nội dung thực hiện Chọn đề tài và viết đề cƣơng chi tiết Nghiên cứu lý thuyết Viết lý thuyết chƣơng 1 Kết quả dự kiến Đề cƣơng chi tiết Hoàn thành lý thuyết Hoàn thành phần viết lý thuyết Viết chƣơng 2: Đề xuất Hoàn thành chƣơng... công cụ đánh giá tự động các hệ thống dịch tự động trên mạng”, Tạp chí Khoa học và Công Nghệ, Đại học Đà Nẵng, 1(18), tr 37-42 [4] Võ Trung Hùng (2008), “TRAWEB-Công cụ để đa ngữ hoá các trang Web”, Tạp chí Khoa học và Công Nghệ các trường đại học kỷ thuật, 63, tr 16-20 Tiếng nƣớc ngoài: [5] Chen J., and Nie J Y (2000), “Automatic construction of parallel English-Chinese corpus for cross-language information... Đà Nẵng, ngày tháng năm 2012 Cán bộ hƣớng dẫn Ý KIẾN CỦA HỘI ĐỒNG CHẤM ĐỀ CƢƠNG Đà Nẵng, ngày tháng năm 2012 Cán bộ duyệt đề cƣơng Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)

Ngày đăng: 06/10/2016, 10:14

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan