Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 82 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
82
Dung lượng
3,13 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HOÀNG NHƯ QUỲNH NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HOÀNG NHƯ QUỲNH NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng Đà Nẵng - Năm 2011 LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp PGS.TS Võ Trung Hùng Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Tác giả Hoàng Như Quỳnh MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC HÌNH vi MỞ ĐẦU CHƯƠNG 1: 1.1 NGHIÊN CỨU TỔNG QUAN .3 KHO DỮ LIỆU SONG NGỮ 1.1.1 Khái niệm 1.1.2 Ứng dụng kho liệu song ngữ 1.1.2.1 Ứng dụng ngôn ngữ học – thống kê 1.1.2.2 Ứng dụng ngôn ngữ học so sánh .5 1.1.2.3 Ứng dụng giảng dạy ngoại ngữ .5 1.1.2.4 Ứng dụng việc nghiên cứu dịch thuật .6 1.1.3 Nghiên cứu số kho liệu song ngữ giới .6 1.1.3.1 British National Corpus (BNC) 1.1.3.2 Canadian Hansard Corpus (Anh – Pháp) 1.1.3.3 JENAAD Japanese – English Parallel Corpus (Anh – Nhật) 1.1.3.4 PKU 863 (Anh - Trung) Đại học Bắc Kinh 1.2 MỘT SỐ KỸ THUẬT SỬ DỤNG ĐỂ XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 1.2.1 Cơ sở liệu .8 1.2.1.1 Tổng quan XML 1.2.1.2 Thuật ngữ 1.2.1.3 Cấu trúc file XML 1.2.1.4 Tạo lập tài liệu XML .10 1.2.1.5 Những thành phần tài liệu XML .11 1.2.1.6 Kết Luận 12 1.2.2 Thu thập liệu 13 1.2.3 Xử lý ngôn ngữ tự nhiên 15 1.2.3.1 Xử lý đầu vào 15 1.2.3.2 Tách đoạn .15 1.2.3.3 Tách câu 15 1.3 MỘT SỐ GIẢI THUẬT TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN 16 1.3.1 Thuật toán liên kết từ 16 1.3.2 Thuật toán liên kết từ lớp ngữ nghĩa ClassAlign 17 1.3.3 Thuật toán tách câu 19 CHƯƠNG 2: GIẢI PHÁP XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 22 2.1 GIỚI THIỆU 22 2.2 MƠ HÌNH TỔNG THỂ 22 2.3 XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 23 2.3.1 Các tiêu chí chọn mẫu ngữ liệu .23 2.3.2 Chọn nguồn liệu chuẩn hóa 24 2.3.3 Xây dựng cấu trúc kho liệu song ngữ 26 2.3.4 Các nguồn liệu thu thập .29 2.3.4.1 Nguồn Từ điển Lạc Việt 29 2.3.4.2 Nguồn Báo điện tử VOV News 31 2.3.4.3 Nguồn từ kho ngữ liệu xây dựng sẵn 33 CHƯƠNG 3: 3.1 PHÁT TRIỂN ỨNG DỤNG .35 GIẢI PHÁP XỬ LÝ DỮ LIỆU 35 3.1.1 Kỹ thuật liên kết câu trực tuyến YouAlign .35 3.1.2 Công cụ cập nhật tài liệu RTF Microsoft Word 40 3.1.3 Kỹ thuật cập nhật sử dụng macro 41 3.1.4 Kỹ thuật trích lọc liệu file html 44 3.1.5 Một số định dạng xử lý 45 3.2 TRÍCH TỪ TỪ ĐIỂN LẠC VIỆT 45 3.3 TRÍCH TỪ VOV NEWS 53 3.4 TRÍCH TỪ CÁC KHO DỮ LIỆU SONG NGỮ ANH – PHÁP 64 3.5 MỘT SỐ NGUỒN DỮ LIỆU KHÁC .67 3.6 KHAI THÁC KHO DỮ LIỆU SONG NGỮ 67 KẾT LUẬN .72 DANH MỤC TÀI LIỆU THAM KHẢO 73 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao) PHỤ LỤC i DANH MỤC CÁC TỪ VIẾT TẮT TIẾNG VIỆT CSDL Cơ sở liệu NSD Người sử dụng KHKT Khoa học Kỹ thuật TIẾNG ANH EVC English Vietnamese Corpus OCR Optical Character Recognization ii DANH MỤC HÌNH Hình 1.1 Từ điển Lạc Việt chứa ví dụ hướng dẫn mục từ .14 Hình 1.2 Tách câu mạng nơ-ron 20 Hình 2.1 Mơ hình tổng thể hệ thống 23 Hình 2.2 Ví dụ hình thức trình bày nguồn liệu khác 25 Hình 2.3 Các giải pháp tổ chức CSDL 26 Hình 2.4 Ví dụ liệu lưu tập tin 27 Hình 2.5 Ví dụ liệu lưu tập tin 28 Hình 2.6 Giao diện Từ điển Lạc Việt 30 Hình 2.7 Ví dụ trang web ngơn ngữ 32 Hình 2.8 Ví dụ trang web có phiên ngơn ngữ khác 32 Hình 2.9 Sơ đồ dịch câu tiếng Anh sang tiếng Việt .34 Hình 3.1 Đăng nhập YouAlign 36 Hình 3.2 Giao diện gióng câu tài liệu 37 Hình 3.3 Kết canh tài liệu .38 Hình 3.4 Ví dụ kết canh tài liệu dạng tập tin HTML .39 Hình 3.5 Sơ đồ chuyển đổi từ tập tin * Doc sang tập tin * XML .42 Hình 3.6 Mẫu tập tin *.Doc 42 Hình 3.7 Ví dụ mẫu XML liệu chuyển đổi lưu trữ nhiều tập tin 43 Hình 3.8 Ví dụ mẫu XML liệu chuyển đổi lưu trữ tập tin .43 Hình 3.9 Sơ đồ trình trích từ Từ điển Lạc Việt 46 Hình 3.10 Mục từ có câu ví dụ Anh – Việt 47 Hình 3.11 Tập tin tiếng Việt Doc trích từ Từ điển Lạc Việt .48 Hình 3.12 Tập tin tiếng Anh Doc trích từ Từ điển Lạc Việt .48 Hình 3.13 Thủ tục chuyển tập tin *.Doc sang định dạng XML tạo mục 51 Hình 3.14 Kết sau chuyển đổi định dạng tập tin tạo mục .52 Hình 3.15 Hệ thống bóc tách nội dung VietSpider 54 Hình 3.16 Sơ đồ q trình xử lý trích từ trang web sử dụngYouAlign 55 Hình 3.17 Trang web tiếng Việt trước tách lấy nội dung 56 Hình 3.18 Trang web tiếng Anh trước tách lấy nội dung 57 Hình 3.19 Ví dụ tạo luồng trang VOV News tiếng Việt .58 Hình 3.20 Trang web tiếng Việt thực tách lấy nội dung 58 iii Hình 3.21 Trang web tiếng Anh thực tách lấy nội dung 59 Hình 3.22 Dữ liệu sau bóc tách .60 Hình 3.23 Sơ đồ trình xử lý trích từ trang web sử dụng MorphAdorner .61 Hình 3.24 Tách câu trực tuyến MorphAdorner .62 Hình 3.25 Kết tách câu tiếngAnh cơng cụ trực tuyến MorphAdorner 63 Hình 3.26 Kết tách câu tiếngViệt công cụ trực tuyến MorphAdorner 64 Hình 3.27 Sơ đồ trình xử lý nguồn liệu có sẵn 65 Hình 3.28 Giao diện Vdict 66 Hình 3.29 Sơ đồ khai thác kho liệu song ngữ Anh – Việt .68 Hình 3.30 Trò chơi học tiếng Anh qua mẫu câu Anh-Việt 69 Hình 3.31 Chương trình hiển thị mẫu câu tiếng Anh 69 Hình 3.32 NSD nhập câu dịch tiếng Việt .70 Hình 3.33 Kết sau dịch 70 -1- MỞ ĐẦU Lý chọn đề tài Với đời máy tính điện tử mơi trường kết nối Internet tồn cầu tạo lượng thông tin khổng lồ đặc biệt đa phần liệu tiếng Anh Tuy nhiên lượng thông tin to lớn chưa khai thác hết nhiều lý lý quan trọng rào cản ngơn ngữ Vấn đề xử lý ngôn ngữ tự nhiên cần tài liệu song ngữ, nhiên tài liệu thường nằm rải rác nhiều nơi nhiều hình thức khác Do tất tài liệu xử lý ngôn ngữ tự nhiên dựa vào kho liệu song ngữ ví dụ dịch tự động, học tiếng Anh, khai thác thông tin web,…Vì đòi hỏi kho liệu song ngữ lớn Hiện giới có nhiều kho liệu song ngữ Anh – Pháp, Pháp – Anh, Anh – Hoa,… Tuy nhiên, tiếng Việt chưa có kho liệu song ngữ cơng bố thức chia cho người sử dụng Vấn đề đặt làm để xây dựng kho liệu song ngữ Anh – Việt từ nguồn liệu rải rác Để góp phần giải vấn đề trên, đề xuất đề tài: “Nghiên cứu xây dựng kho liệu song ngữ phục vụ xử lý tiếng Việt” Mục tiêu nghiên cứu Mục tiêu mà đề tài hướng đến nghiên cứu xây dựng kho liệu chứa cặp câu Anh – Việt từ nguồn tài liệu khác như: trang web, từ điển, sách, văn bản,… nhiều định dạng khác nhau, như: XML, TXT, DOC, nghiên cứu nguồn tài liệu từ điển Lạc Việt, báo tiếng Anh – tiếng Việt, văn song ngữ Anh – Việt,… Để đáp ứng mục tiêu nêu, đề tài cần giải vấn đề sau: tìm hiểu kho ngữ liệu song song, thu thập nguồn ngữ liệu song ngữ Anh – Việt, nghiên cứu giải pháp xây dựng kho liệu song ngữ Anh – Việt để tạo sở liệu phục vụ cho việc học tiếng Anh, dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên, -23 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu sở liệu kho liệu song ngữ, nguồn tài liệu xây dựng nên kho liệu song ngữ Phương pháp nghiên cứu Đề tài sử dụng kỹ thuật tách câu từ văn bản, báo, Tìm hiểu cách xây dựng kho liệu song ngữ để xây dựng kho liệu song ngữ Anh – Việt Ý nghĩa khoa học thực tiễn đề tài: Kho liệu song ngữ Anh – Việt tài nguyên có giá trị việc tạo sở liệu phục vụ cho việc dạy học tiếng Anh, dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên, Cấu trúc luận văn Báo cáo luận văn tổ chức thành chương Chương Nghiên cứu tổng quan Trình bày khái niệm kho ngữ liệu song ngữ, ứng dụng kho, nghiên cứu số kho ngữ liệu song ngữ có giới; nghiên cứu XML, số thuật tốn xử lý ngơn ngữ tự nhiên,… Chương Giải pháp xây dựng kho liệu song ngữ Chúng tơi trình bày số giải pháp xây dựng kho ngữ liệu song ngữ Chương Phát triển ứng dụng Trình bày kết xây dựng kho liệu từ nhiều nguồn liệu khác - 60 Trong phần xin đưa giải pháp tách câu khác dịch – theo sơ đồ sau: Web_Vn HTML Web_En HTML Trích rút nội dung trang web VietSpider Doc_En Doc_Vn Tách câu trực tuyến MorphAdorner Doc_En Doc_Vn Macro Word XML_Vn XML_En Hình 1.9 Sơ đồ q trình xử lý trích từ trang web sử dụng MorphAdorner Với giải pháp này, sử dụng công cụ tách câu MorphAdorner để tiến hành tách thành câu riêng biệt từ đoạn văn MorphAdorner cung cấp phương pháp để điều chỉnh văn bản, tách câu,… sử dụng - 61 công cụ tách câu MorphAdorner trực tuyến địa chỉ: http://morphadorner.northwestern.edu/morphadorner/sentencesplitter/example/ Hình 1.10 Tách câu trực tuyến MorphAdorner Bằng cách sử dụng công cụ tách câu MorphAdorner, nội dung sau trích lọc từ cơng cụ VietSpider lưu trữ tập tin Doc Được chép đưa vào công cụ tách câu trực tuyến MorphAdorner, sau thực tách câu kết trả sau: - 62 - Hình 1.11 Kết tách câu tiếngAnh công cụ trực tuyến MorphAdorner Tương tự với dịch tiếng Việt, sau tách MorphAdorner cho kết hiển thị sau: - 63 - Hình 1.12 Kết tách câu tiếngViệt cơng cụ trực tuyến MorphAdorner Tách câu MorphAdorner không yêu cầu NSD phải có tài khoản đăng nhập mà cho phép sử dụng trực tiếp Tuy nhiên việc sử dụng cơng cụ có số nhược điểm hạn chế tiếng Việt đòi hỏi NSD phải trực tuyến để sử dụng 3.4 TRÍCH TỪ CÁC KHO DỮ LIỆU SONG NGỮ ANH – PHÁP Được cho phép cung cấp nguồn liệu xây dựng sẵn PGS TS Võ Trung Hùng từ số kho xây dựng cho phép chia sẻ như: kho ngữ liệu Nghị viện Châu Âu với 20 ngôn ngữ khác nhau, kho huấn luyện Hansard,… nguồn ngữ liệu đơn ngữ Một số nguồn liệu xây dựng sẵn câu tiếng Anh tách, câu nằm dòng riêng biệt lưu - 64 trữ định dạng XML Chúng tiến hành xử lý loại bỏ tags XML loại bỏ dòng trống nguồn liệu đơn ngữ xây dựng sẵn Từ nguồn ngữ liệu thông qua máy dịch thuật Google công cụ dịch thuật trực tuyến miễn phí Google cung cấp dịch nhanh văn trang web,… với nhiều ngôn ngữ Hoặc sử dụng website dịch tự động trực tuyến Vdict Vdict website dịch trực tuyến có tích hợp cơng cụ dịch Google, với Vdict ta so sánh hai kết dịch Vdict Google từ lựa chọn dịch có độ xác cao Sơ đồ xử lý nguồn liệu huấn luyện sau: Dữ liệu huấn luyện Xử lý liệu Công cụ dịch Google/ Vdict Macro Word XML_Vn XML_En Hình 1.1 Sơ đồ trình xử lý nguồn liệu có sẵn - 65 - Hình 1.2 Giao diện Vdict Trên giao diện cơng cụ dịch Vdict, cơng cụ dịch tự động qua lại tất ngôn ngữ giới Kết tra từ Vdict trình bày - 66 rõ ràng giúp xố bỏ rào cản ngơn ngữ Vdict tích hợp thêm máy dịch tự động Google cho phép so sánh, lựa chọn dịch xác Với ưu công tác trường Đại học Ngoại ngữ, nhờ giúp đỡ số sinh viên năm thứ tư khoa tiếng Anh trường kiểm tra lại dịch cơng cụ nói trên, từ có dịch xác để cập nhật vào kho liệu song ngữ xây dựng Tất nguồn liệu tiếng Anh dịch tiếng Việt lưu trữ tập tin Doc Tiếp theo sử dụng công cụ giới thiệu phần để tiến hành xây dựng, cập nhật kho liệu song ngữ Anh – Việt 3.5 MỘT SỐ NGUỒN DỮ LIỆU KHÁC Xuất phát từ hạn chế việc tìm kiếm cặp câu song ngữ Anh – Việt từ nguồn nói Và để làm phong phú thêm nội dung kho liệu song ngữ chúng tơi tiến hành tìm kiếm thêm nhiều cặp câu Anh – Việt từ nguồn khác mẫu truyện, văn điện tử lưu định dạng Pdf số website song ngữ khác Các nguồn liệu sử dụng cơng cụ giới thiệu trích lấy cặp câu Anh – Việt, đặc biệt với tập tin định dạng Pdf sử dụng thêm phần mềm chuyển đổi sang định dạng Doc để thuận tiện cho công việc tách liệu 3.6 KHAI THÁC KHO DỮ LIỆU SONG NGỮ Kho ngữ liệu song ngữ chủ yếu dùng để xây dựng hệ thống dịch tự động, nghiên cứu hữu ích giáo dục Kho liệu song ngữ khai thác việc học giảng dạy ngoại ngữ, trò chơi nhằm trau dồi vốn tiếng Anh Ngồi kho liệu song ngữ sử dụng làm nguồn liệu để sử dụng biên soạn phụ đề phim, việc xây dựng từ điển, hỗ trợ cho phiên dịch viên,…Với nhà nghiên cứu, kho liệu song ngữ Anh – Việt sử dụng việc tìm kiếm nghĩa từ dịch câu với nhiều bối cảnh khác Sau sơ đồ mô tả ứng dụng kho liệu song ngữ Anh – Việt: - 67 - Kho liệu song ngữ En_Vn Khai thác Dạy học Dịch tự động Game Hình 1.1 Sơ đồ khai thác kho liệu song ngữ Anh – Việt Để ứng dụng kho liệu song ngữ Anh – Việt vào việc dạy học tiếng Anh, thực chương trình trò chơi “ Học tiếng Anh qua mẫu câu Anh – Việt” để khai thác kho liệu song ngữ Anh – Việt mà chúng tơi xây dựng Chương trình cho phép người chơi rèn luyện khả dịch qua mẫu câu Anh – Việt có sẵn, giao diện trò chơi sau: - 68 Hình 1.2 Trò chơi học tiếng Anh qua mẫu câu Anh-Việt NSD yêu cầu nhập mã số ID bất kỳ, mẫu câu tiếng Anh tương ứng hiển thị mục “Câu tiếng Anh” Hình 1.3 Chương trình hiển thị mẫu câu tiếng Anh Chương trình cho phép NSD thể khả dịch tiếng Anh họ cách nhập câu dịch tiếng Việt người chơi vào mục “Nhập câu tiếng Việt” Hình 1.4 NSD nhập câu dịch tiếng Việt - 69 Khi NSD muốn so sánh kết dịch với dịch chương trình, sau nhấn vào nút “Dịch” chương trình hiển thị câu tiếng Việt tương ứng với câu tiếng Anh mà NSD dịch: Hình 1.5 Kết sau dịch Nếu NSD muốn dịch lại chuyển sang dịch mẫu câu khác, NSD nhấn nút “Nhập lại” chương trình “Học tiếng Anh qua mẫu câu Anh – Việt”, chương trình bắt đầu lại từ đầu Trên demo nhỏ cho việc khai thác kho liệu song ngữ Anh – Việt phục vụ cho nhu cầu học tập tiếng Anh người học - 70 - KẾT LUẬN Trong trình thực luận văn tốt nghiệp thu nhiều kiến thức xử lý ngôn ngữ tự nhiên, kho ngữ liệu song ngữ vấn đề liên quan đến xử lý liệu Luận văn trình bày chi tiết bước để thực chép tập tin ngữ liệu từ tập tin định dạng khác ban đầu Với mục đích khai thác nhiều nguồn liệu khác nhiều công cụ khác Đồng thời đưa giải pháp, kỹ thuật để xử lý liệu cập nhật kho liệu song ngữ Anh – Việt Tuy nhiên luận văn không tránh khỏi hạn chế bao gồm: Nguồn liệu song ngữ Việt Nam có chất lượng dịch không cao, đặc biệt trang web song ngữ thường dịch ý, tóm lược nội dung văn gốc khó khăn cho việc lựa chọn nguồn liệu canh đoạn, tách câu,…Việc cập nhật kho liệu nói chung mang tính bán tự động, nhiều cơng đoạn thủ cơng Chưa tìm hiểu kỹ khả ứng dụng kho ngữ liệu vào việc tự động mà dừng mức độ làm liệu phục vụ học tập Qua q trình thực luận văn, tơi xin đưa số kiến nghị hướng phát triển luận văn sau: Do nhu cầu nghiên cứu học tập tiếng Việt sinh viên nước ngoài, cung nhu cầu học ngoại ngữ sinh viên Việt Nam tiếp tục bổ sung vào nguồn liệu trên, ngôn ngữ Anh – Việt mà thêm nhiều ngơn ngữ khác Pháp, Trung, Nhật, Hàn,… Cũng tìm giải pháp tối ưu để xây dựng kho liệu hoàn thiện - 71 - DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt: [1] TS Đinh Điền (2006), Giáo trình xử lý ngơn ngữ tự nhiên, Nhà xuất Đại học quốc gia TP.HCM [2] Nguyễn Chí Hiếu, Ứng dụng xử lý ngôn ngữ tự nhiên dịch máy, Đại học Cơng nghiệp TP Hồ Chí Minh [3] Hoàng Đức Hải (2006), XML Nền Tảng & Ứng Dụng, Nhà xuất Lao động Xã hội [4] Phan Huy Khánh (2005), “Sử dụng cơng cụ lập trình macro VBA xây dựng tiện ích xử lý văn bản”, Tạp chí Khoa học & Cơng nghệ - ĐHĐN, số 10, tr 47 - 53 [5] Võ Trung Hùng, Phan Huy Khánh (2002), “Xây dựng sở liệu đa ngữ ngữ pháp tiếng Việt”, Tạp chí Khoa học Công nghệ trường Kỹ thuật, số 34 – 35, tr 19 – 23 [6] Detmoungkhou Saly (2005), Xây dựng từ điển tin học Lào – Anh – Việt, Luận văn Thạc sỹ Khoa học ngành CNTT, Đại học Đà Nẵng Tiếng Anh: [7] Chen, S F (1993), "Aligning Sentences in Bilingual Corpora Using Lexical Information," In Proceedings of the 31s tAnnual Meeting of Association for Computational Linguistics [8] Dinh Dien, Hoang Kiem(2004) “Building an Annotated Parallel Corpus of English – Vietnamses”, In the Proc of International Conference on Natural Language Process, ICON’04, India [9] Jisong Chen, Rowena Chau, Chung-Hsing Yeh (2004) “Discovering Parallel Text from the World Wide Web”, ACSW Frontiers 2004,pp 157-161 - 72 [10] Resnik and N A Smith, (2003) “The Web as a Parallel Corpus,” Computational Linguistics, 29(3),pp 349–380 [11] Véronis J (2000), Parallel Text Processing, Klwer Academic [12] William A Gale and Kenneth W Church, (1991), "A Program for Aligning Sentences in Bilingual Corpora", Computational Linguistics Trang web [13] Anthony McEnery, Richard Xiao, Yukio Tono, “Corpora Survey” http://cw.routledge.com/textbooks/0415286239/resources/corpa3.htm, ngày truy cập 16/02/2011 [14] British National Corpus, “What is the BNC?”, http://www.natcorp.ox.ac.uk/, ngày truy cập 15/12/2010 [15] British National Corpus, “About the British National Corpus”, http://www.gloriacappelli.it/wp-content/uploads/2007/05/bnc.pdf, ngày truy cập 15/12/2010 [16] European Parliament Proceedings Parallel Corpus 1996-2009 , http://www.statmt.org/europarl/, ngày truy cập 05/04/2011 [17] Glottopedia, “Parallel corpus”, http://www.glottopedia.de/index.php/- Parallel_corpus, ngày truy cập 20/01/2011 [18] Hồ Quốc Bảo, Đinh Điền, Đặng Bác Văn, Lương Vỹ Minh (2008), Báo cáo kỹ thuật đề tài nhánh SP.74, http://www.jaist.ac.jp/~bao/VLSPtext-/March2008/SP7.4_Baocaokythu at2008thang3.pdf, ngày truy cập 05/02/2011 [19] Hoàng Trọng Phiến , Mai Ngọc Chừ, Vũ Đức Nghiệu (1997), “Khái niệm từ vựng học”,http://ngonngu.net/index.php?p=212, ngày truy cập 11/06/2011 [20] Ippei Ukai (2008), “Error Analysis of the English-Japanese Statistical Machine Translation System”, BSc in Computational Linguistics, - 73 http://homepage.mac.com/ippei_ukai/academic/proj_report.pdf, ngày truy cập 18/02/2011 [21] Mona Diab and Philip Resnik (2002), “An Unsupervised Method for Word Sense Tagging”, http://www.umiacs.umd.edu/~resnik/pubs/acl02mona.pdf, ngày truy cập 15/01/2011 [22] Mitsuo Shimohata (2004), Acquiring Paraphrases from Corpora and Its Application to Machine Translation, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.103.9936&rep=rep1&type=pdf, ngày truy cập 17/03/2011 [23] Nguyễn Văn Vinh (2009), “Khai phá liệu song ngữ từ web”, http://www.scribd.com/doc/16578279/Khai-Pha-Du-Lieu-Song-NguTu-Web, ngày truy cập 10/03/2011 [24] “Parallel text”, wikipedia, http://en.wikipedia.org/wiki/Parallel_text, ngày truy cập 15/01/2011 [25] Stig Johansson, Jarle Ebeling , Signe Oksefjell, “English - Norwegian Parallel Corpus: Manual” , http://www.hf.uio.no/ilos/forskning/for- skningsprosjekter/enpc/ENPCmanual.html, ngày truy cập 15/12/2010 [26] “The PKU 863 Chinese-English Parallel Corpus” , http://www.lancs.ac.uk/fass/projects/corpus/863parallel/, ngày truy cập 27/02/2011 [27] is the http://www.ruscorpora.ru/en/corpora-intro.html, ngày Russian National Corpus, “What Corpus?”, truy cập 12/11/2010 [28] Youalign, Terminotix 05/04/2011 Inc, http://youalign.com/Default.aspx, ngày - 74 - PHỤ LỤC DỮ LIỆU ĐƯỢC SƯU TẬP STT Trích từ nguồn Số lượng câu KB Từ điển Lạc Việt 5789 2056 Báo điện tử VOV News 2778 1363 Kho huấn luyện 4892 2002 Các nguồn khác 5597 2013