Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 111 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
111
Dung lượng
8,36 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN THỊ HOA MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN THỊ HOA MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng Đà Nẵng - Năm 2012 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp PGS.TS Võ Trung Hùng Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Tác giả Nguyễn Thị Hoa ii MỤC LỤC TRANG PHỤ BÌA i LỜI CAM ĐOAN i MỤC LỤC .ii DANH MỤC CÁC TỪ VIẾT TẮT .v DANH MỤC CÁC CÁC BẢNG vii DANH MỤC CÁC HÌNH xi MỞ ĐẦU .1 CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 DỊCH TỰ ĐỘNG .5 1.1.4.1 Babel Fish 13 1.1.4.2 Systran 13 14 1.1.4.3 Reverso .14 14 1.1.4.4 Google Translate .15 15 1.2 MÔI TRƯỜNG HỢP TÁC .15 1.2.4.1 Portlet API (JSR 168) .19 1.2.4.2 Web Services for Remote Portlet (WSRP) 19 1.2.5.1 Văn phòng điện tử (WebOffice) 20 WebOffice hệ thống văn phịng trực tuyến cơng ty Giải pháp tổng thể công nghệ thông tin Việt Nam gọi (VIETTOTAL) phát triển .20 20 1.2.5.2 Hệ thống Wiki 20 21 1.2.5.3 Hệ thống Windows Live Groups .21 iii 22 1.3 KHO NGỮ LIỆU SONG NGỮ 23 1.3.2.1 Ứng dụng ngôn ngữ học – thống kê 24 1.3.2.2 Ứng dụng ngôn ngữ học so sánh .24 1.3.2.3 Ứng dụng giảng dạy ngoại ngữ 25 1.3.2.4 Ứng dụng việc nghiên cứu dịch thuật 25 1.3.3.1 British National Corpus (BNC) 25 1.3.3.2 Canadian Hansard Corpus (Anh – Pháp) 26 1.3.3.3 JENAAD Japanese – English Parallel Corpus (Anh – Nhật) 27 1.3.3.4 PKU 863 (Anh - Trung) Đại học Bắc Kinh 27 1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU 27 1.5 TỔNG KẾT CHƯƠNG 31 CHƯƠNG GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU .31 2.1 GIỚI THIỆU 32 2.2 MƠ HÌNH HỆ THỐNG 32 2.3 XÂY DỰNG KHO NGỮ LIỆU 34 2.3.1.1 Chuẩn ngôn ngữ 34 2.3.1.2 Các kho ngữ liệu tiếng Anh có sẵn 34 2.3.1.3 Yêu cầu kho ngữ liệu 34 2.3.1.4 Ngữ liệu dạng điện tử .35 2.3.2.1 Chọn nguồn ngữ liệu thô 35 2.3.2.2 Chuẩn hoá ngữ liệu 36 2.3.3.1 Xử lý đầu vào 37 2.3.3.2 Tách đoạn 37 2.3.3.3 Tách câu 37 2.3.3.4 Lưu trữ kho ngữ liệu XML .37 2.3.4.1 Nguồn Từ điển 38 2.3.4.2 Nguồn Báo điện tử 40 2.3.4.3 Nguồn từ kho ngữ liệu xây dựng sẵn 42 iv 2.3.5.1 Công cụ cập nhật tài liệu RTF Microsoft Word 44 2.3.5.2 Kỹ thuật cập nhật sử dụng macro .45 2.3.5.3 Kỹ thuật trích lọc liệu file html 47 2.3.7.1 Giới thiệu 48 2.3.7.2 Cấu trúc lưu trữ kho ngữ liệu đa ngữ 49 2.3.7.3 Phương pháp đa ngữ hoá kho ngữ liệu 52 2.4 HIỆU CHỈNH KHO NGỮ LIỆU 53 2.4.1.1 Phương pháp tự động 54 2.4.1.2 Phương pháp chuyên gia 55 2.4.2.1 Giới thiệu 56 2.4.2.2 Phân tích đối tượng người dùng 56 2.4.2.3 Các chức mơi trường hợp tác 57 2.4.2.4 Mơ hình triển khai mơi trường hợp tác .58 2.5 TỔNG KẾT CHƯƠNG 59 CHƯƠNG PHÁT TRIỂN ỨNG DỤNG 60 4.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 60 4.2 XÂY DỰNG KHO NGỮ LIỆU 62 4.2.1.1 Trích từ Từ điển Lạc Việt 62 4.2.1.2 Trích từ báo VOV ONLINE 66 4.2.1.3 Trích từ kho ngữ liệu có sẵn .73 4.2.1.4 Một số nguồn ngữ liệu khác 74 4.3 HIỆU CHỈNH KHO NGỮ LIỆU 78 4.3.1.1 Mơ hình kiến trúc môi trường hợp tác 79 4.3.1.2 Tổ chức lưu trữ liệu .81 4.3.2.1 Trang hệ thống 82 4.3.2.2 Trang dịch câu 83 4.3.2.3 Một số trang ứng dụng kho ngữ liệu 85 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 90 TÀI LIỆU THAM KHẢO 92 v DANH MỤC CÁC TỪ VIẾT TẮT TIẾNG VIỆT CSDL Cơ sở liệu NSD Người sử dụng KHKT Khoa học Kỹ thuật TIẾNG ANH BNC British National Corpus BTEC Basic Travel Expression Corpus DTD Document Type Definition EVC English Vietnamese Corpus HTML HyperText Markup Language HTTP HyperText Transfer Protocol J2EE Java Enterprise Edition JENAAD Japanese - English News Article Alignment Data MSN Microsoft Network MT Machine translation NITF News Industry Text Format OASIS Organization for the Information Standards OCR Optical Character Recognization PDF Portable Document Format RDF Resource Description Format RSS Realy Simple Syndication RTF Rich Text Format SGML Standard Generalized Markup Language SQL Structured Query Language URL Uniform Resource Locator VB Visual Basic VBA Visual Basic for Application Advancement of Structured vi W3C World Wide Web Consortium WSRP Web Services for Remote Portlet XML eXtensible Markup Language vii DANH MỤC CÁC CÁC BẢNG 1.1 DỊCH TỰ ĐỘNG .5 1.1.1 Khái niệm .5 1.1.2 Lịch sử phát triển 1.1.3 Cấu trúc chương trình dịch tự động 1.1.4 Một số hệ thống dịch tự động .13 1.1.4.1 Babel Fish 13 1.1.4.2 Systran 13 14 1.1.4.3 Reverso .14 14 1.1.4.4 Google Translate .15 15 1.2 MÔI TRƯỜNG HỢP TÁC .15 1.2.1 Khái niệm 15 1.2.2 Các công cụ dùng để giao tiếp hợp tác 17 1.2.3 Các tính môi trường hợp tác .17 1.2.4 Các công nghệ hỗ trợ môi trường hợp tác 19 1.2.4.1 Portlet API (JSR 168) .19 1.2.4.2 Web Services for Remote Portlet (WSRP) 19 1.2.5 Một số môi trường hợp tác mạng 20 1.2.5.1 Văn phòng điện tử (WebOffice) 20 WebOffice hệ thống văn phịng trực tuyến cơng ty Giải pháp tổng thể công nghệ thông tin Việt Nam gọi (VIETTOTAL) phát triển .20 20 1.2.5.2 Hệ thống Wiki 20 21 1.2.5.3 Hệ thống Windows Live Groups .21 22 - 81 chung, người dùng chung chọn câu hay dịch ngơn ngữ mà quan tâm sau tiến hành hiệu chỉnh câu dịch yêu cầu hệ thống cập nhật vào kho ngữ Người dùng chung: Là tất người truy cập vào Website để chỉnh sửa nội dung câu dịch mà quan tâm, học ngoại ngữ trực tuyến… 4.3.1.2 Tổ chức lưu trữ liệu Với ưu điểm sở liệu XML hệ sở liệu SQL Server 2008 trình bày việc tổ chức lưu trữ liệu người dùng chung yêu cầu hệ thống ghi lại câu dịch hiệu chỉnh bình chọn dịch hay vấn đề mà luận văn quan tâm Cách lưu trữ liệu dịch mà người dùng chỉnh sửa sau: Môi trường hợp tác cho hiển thị list (danh sách) câu kho ngữ liệu tạm gọi câu gốc Khi tiến hành tìm kiếm dịch tự động kho gốc, tồn câu dịch ngơn ngữ cịn lại tự động lên, khơng có hệ thống hiển thị dịch đề nghị Google Sau người dùng tiến hành chỉnh sửa lưu lại câu chỉnh sửa câu đề nghị hay Chúng tiến hành lưu sửa theo nguyên tắc đánh số mục Cụ thể hệ thống Website sở liệu lưu sau: Hình 2.1 Cấu trúc quy ước lưu liệu Trong đó: - ID dùng để lưu số mục dịch người dùng sửa - IDE dùng để lưu số mục câu dịch lấy từ sở liệu hệ thống - Changer dùng để lưu nội dung câu người dùng chỉnh sửa - 82 - Rate dùng để lưu phần đánh giá câu hay người dùng bình chọn thơng qua đánh điểm - MailChanger dùng để lưu địa mail - NameChanger lưu tên người sửa Ví dụ, Câu gốc kho tiếng Pháp có số mục 18 gồm có câu sửa người dùng sửa để nghị ta tiến hành lưu ID 1, 2, 3, nằm số mục IDE 18 (đó câu sửa đánh mục tử đến Tương tự có câu số mục 19 có câu chỉnh sửa ta tiến hành lưu ID 1, 2, nằm số mục IDE 19 Hình 2.2 Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp 4.3.2 Xây dựng giao diện hệ thống Chương trình phát triển nền.Net, với ngôn ngữ C# ASP.Net Công cụ ta dùng để triển khai cài đặt code cho website Microsoft Visual Studio 2010 4.3.2.1 Trang hệ thống Đây trang chứa menu với chức thực hiển thị liệu từ kho ngữ liệu làm hướng tiếp cận liệu cần hiệu chỉnh Tất trang khác sử dụng trang làm giao diện hiển thị nội dung khác Như phân tích chương 2, trang giao diện gồm có menu trang chủ để giới thiệu môi trường hợp tác, chức dịch câu, Game tiếng Anh vừa học vừa chơi, chức hội thảo nhóm phần đăng ký đăng nhập, trang cá nhân thành viên tham gia vào môi trường - 83 Dưới giao diện hệ thống: Hình 1.1 Giao diện hệ thống 4.3.2.2 Trang dịch câu Hình 2.1 Giao diện tìm kiếm, dịch câu, xem sửa Đối với trang đối tượng người dùng tham gia dịch tự động, xem kho ngữ liệu gốc chọn câu gốc để hiển thị câu dịch phục vụ mục đích học ngoại ngữ, xem câu dịch theo ý thích, … - 84 Trong trang liên kết để chỉnh sửa ngữ liệu dịch theo ý người dùng cho hiển thị chỉnh sửa trước bình chọn câu dịch hay Đối với người dùng muốn chỉnh sửa đề xuất câu dịch tiến hành chọn “Đề xuất” đánh nội dung câu sửa vào phần dành cho câu chỉnh sửa, sau tiến hành lưu lại câu chỉnh sửa Trước lưu chỉnh sửa hệ thống yêu cầu người dùng nhập tên địa E-mail để hệ thống lưu lại thông tin người chỉnh sửa Trang cho phép người dùng xem lại kết câu hiệu chỉnh dịch hiệu chỉnh khác cách hệ thống hiển thị câu dịch ô định sẵn chỉnh sửa ô câu dịch đề xuất Hình 2.2 Giao diện hiệu chỉnh câu dịch Nếu câu đề xuất người dùng bị trùng hệ thống báo câu dịch tồn - 85 - Hình 2.3 Giao diện câu đóng góp bị trùng Khi đăng nhập hệ thống có nhiều mơđun nhỏ dành cho NSD NSD xem dịch chuyên gia, xuất câu dịch chuyên gia, tạo lập nhóm, tạo diễn đàn trao đổi học tập, … môđun dành cho chuyên gia theo phân quyền hệ thống Câu chuyên gia sửa thay đổi kết kho ngữ liệu cuối mà chúng tơi cần hướng tới Hình 2.4 Giao diện thay đổi câu dịch dành cho chuyên gia Sau đó, hệ thống tiến hành thống kê dịch chuyên gia sửa tác động người dùng chuyên gia 4.3.2.3 Một số trang ứng dụng kho ngữ liệu Để ứng dụng kho ngữ liệu đa ngữ Anh – Pháp - Việt vào việc dạy học - 86 tiếng Anh, thực chương trình trị chơi “ Học tiếng Anh qua mẫu câu Anh – Pháp - Việt” để khai thác kho ngữ liệu đa ngữ Anh – Pháp - Việt mà chúng tơi xây dựng Chương trình cho phép người dùng rèn luyện khả dịch qua mẫu câu Anh – Pháp - Việt có sẵn, giao diện trị chơi sau: Hình 3.1 Giao diện Game điền khuyết Hình 3.2 Giao diện Game xếp thứ tự từ - 87 - Hình 3.3 Giao diện Game dịch Anh – Việt Kết thúc trò chơi, hệ thống hiển thị thống kê số điểm mà người chơi đạt đáp án người chơi đáp án hệ thống tiến hành chấm điểm cho đáp án 4.3.3 Thử nghiệm đánh giá chương trình Chúng tơi xây dựng xong Website hiệu chỉnh ngữ liệu với số lượng ngữ liệu đầu vào tương ứng với kho ngữ liệu: kho tiếng Anh với 106.434 câu, kho tiếng Pháp với 106.434 câu kho tiếng Việt với 106.434 câu Xây dựng hệ thống Website hiệu chỉnh kho ngữ liệu tiếng Pháp tiếng Việt dựa kho ngữ liệu gốc Từ làm tăng độ tin cậy tính xác kho ngữ liệu đa ngữ Chúng tiến hành thử nghiệm hệ thống Website hiệu chỉnh kho ngữ liệu Trường CĐSP Quảng Trị, triển khai vào thời điểm khác phòng thực hành tin học dành cho sinh viên lớp CĐSP Tiếng Anh lớp chứng B Tiếng Pháp, lớp CĐSP Tin học, lớp CĐSP Tiểu học, lớp CĐSP Ngữ Văn, lớp CĐSP Toán, CĐ Kế toán, CĐ Việt Nam học sinh viên năm Sau thời gian triển khai cho sinh viên thử nghiệm có nhận xét thơng qua phiếu đánh giá (được tính theo tỉ lệ phần trăm) đạt kết thông qua số lượng câu sửa sau: - 88 Bảng 1.1 Bảng đánh giá kết thực hệ thống hiệu chỉnh Trình bày Hệ thống Số lượng câu Số câu đề Số câu xuất xem 90% 83% 3357 1467 8723 5320 18% 81% 2526 5732 15% 16% 17% 20% 85% 79% 73% 75% 1780 1960 1598 1282 4737 6897 5428 3790 Phù hợp Hạn chế Dễ hiểu Lớp CĐSP Tiếng Anh CCB Tiếng Pháp 91% 86% 9% 14% CĐSP Ngữ văn 82% CĐSP Tin học CĐSP Tiểu học CĐSP Toán CĐ Kế toán 85% 84% 83% 80% CĐ VN học 89% 11% 79% 2856 7383 Dựa vào bảng đánh nhiều đối tượng sinh viên cho thấy hệ thống đáp ứng yêu cầu đặt Qua số lượng câu đề xuất số lượng câu xem mà chúng tơi thống kê nói lên hệ thống đáp ứng phần việc dạy học ngoại ngữ Giao diện trình bày tạo hứng thú cho sinh viên - học sinh truy cập học tập kho ngữ liệu chưa đủ lớn đa dạng hạn chế trình bày phơng chữ em tham gia vào trang web nhiều lý như: Ngoài kiến thức dịch ngơn ngữ, hệ thống cịn có hình thức dịch đề nghị từ Google translate, số trò chơi, tham gia tạo nhóm, diễn đàn để trao đổi kinh nghiệm học tập, … Từ hệ thống tạo cho em hứng thú tham gia vào môi trường hợp tác Qua q trình triển khai mơi trường hợp tác, hệ thống giúp sinh viên – học sinh tiếp thu kiến thức môn học thông qua mơi trường hợp tác, kiến thức ngoại ngữ tin học hoá để giúp cho em học tập cách chủ động Sau triển khai hệ thống trợ giúp trường thành công, hệ thống cố gắng đưa lên mạng Internet để tạo điều kiện cho nhiều đối tượng người dùng - 89 chung tham gia vào hệ thống, đặc biệt người dùng chung sử dụng lúc có nhu cầu Ứng dụng có ảnh hưởng tích cực tới sinh viên - học sinh, giúp em học ngoại ngữ, vừa học vừa chơi tham gia dịch tài liệu có nhu cầu - 90 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong q trình thực nghiên cứu, chúng tơi thu nhiều kiến thức xử lý ngôn ngữ tự nhiên, kho ngữ liệu đa ngữ vấn đề liên quan đến xử lý ngữ liệu Luận văn xây dựng mở rộng kho ngữ liệu đa ngữ cách chi tiết; từ việc chọn nguồn ngữ liệu xử lý nguồn ngữ liệu từ nguồn ngữ liệu lưu trữ khác định dạng lưu trữ chuẩn; việc đa ngữ hóa kho ngữ liệu nhờ vào hệ thống dịch có sẵn Đồng thời luận văn đưa giải pháp xây dựng hồn thành mơi trường hợp tác để hiệu chỉnh kho ngữ liệu sau đa ngữ hóa Kho liệu thử nghiệm hiệu chỉnh sinh viên trường CĐSP Quảng Trị thông qua hệ thống Website nhà Trường Trên sở đó, xây dựng kho ngữ liệu đa ngữ gồm ngôn ngữ Anh – Pháp – Việt với 100.000 câu cho ngơn ngữ Mục đích đạt kết cuối thông qua môi trường hợp tác để chuẩn hoá kho ngữ liệu đảm bảo chất lượng nội dung kho ngữ liệu đa ngữ Bên cạnh việc hiệu chỉnh kho ngữ liệu, môi trường hợp tác cịn có mơ đun ứng dụng game dịch Anh – Việt, điền khuyết, xếp thứ tự số tính khác để phục vụ việc dạy học ngoại ngữ Mặc dù có nhiều cố gắng, thời gian nghiên cứu hạn hẹp, kinh nghiệm nghiên cứu chưa nhiều, luận văn khơng tránh khỏi số hạn chế như: nguồn ngữ liệu cập nhật vào kho ngữ liệu nói chung mang tính bán tự động, kho ngữ liệu áp dụng vào trình dịch tự động số câu tồn kho mà chưa ứng dụng vào việc dịch máy tính thống kê Những hạn chế tiếp tục giải hồn thiện q trình nghiên cứu Qua trình thực nghiên cứu, xin đưa số kiến nghị hướng phát triển sau: Kho ngữ liệu đa ngữ nên phục vụ cho việc dạy học ngoại ngữ nhằm đáp ứng nhu cầu nghiên cứu học tập tiếng Việt sinh viên nước ngoài, nhu cầu học ngoại ngữ sinh viên Việt Nam Tiếp tục cập nhật bổ sung thêm nguồn ngữ liệu đầu vào không dừng lại mức 106.434 câu mở rộng cho nhiều ngôn ngữ khác Nga, Trung, Nhật, Hàn, Đức, - 91 …; đặc biệt tiếng dân tộc Việt Nam tiếng Chăm, tiếng Khmer,… Cũng phát triển hệ thống dịch tự động theo mơ hình dịch thống kê - 92 - TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đinh Điền (2006), Giáo trình xử lý ngơn ngữ tự nhiên, Nhà xuất Đại học quốc gia TP.HCM [2] Võ Trung Hùng (2007), “Phương pháp công cụ đáng giá tự động hệ thống dịch tự động mạng”, Tạp chí Khoa học Cơng nghệ Đại học đà Nẵng, số (18), tr 37-42 [3] Võ Trung Hùng (2008), “TraWeb – Cơng cụ để đa ngữ hóa trang Web”, Tạp chí Khoa học Cơng nghệ trường Đại học Kỹ thuật, số 63, tr 16-21 [4] Võ Trung Hùng, Phan Huy Khánh (2002), “Xây dựng sở liệu đa ngữ ngữ pháp tiếng Việt”, Tạp chí Khoa học Cơng nghệ trường Kỹ thuật, số 34 – 35, tr 19 – 23 [5] Trần Thanh Lam (2009), Đánh giá chất lượng hệ thống dịch tự động mạng, Luận văn Thạc sĩ Kỹ Thuật, Chuyên ngành Khoa học máy tính, Đại học Đà Nẵng [6] Trương Xuân Nam (2001), “Một phương pháp nâng cao hiệu ơtơmát đốn nhận văn phạm phi ngữ cảnh”, Kỹ yếu Hội thảo Quốc gia: Một số vấn đề chọn lọc CNTT, NXB KHKT, Hà Nội [7] Trương Xuân Nam, Hồ Sỹ Đàm (2007), “Một số vấn đề xử lý ngữ nghĩa dịch tự động ngơn ngữ tự nhiên” Tạp chí Cơng Nghệ Thông Tin Truyền Thông Tiếng Anh: [8] BOITET C (2002), “Approaches to enlarge bilingual corpora of example senteces to more languages”, Papillon-03 seminar, Saporo [9] Charles E Byrne, Bernard E Scott, Truong N Binh (1970), Demonstration of LOGOS I System for English-Vietnamese Machine Translation, Defense Technical Information Center, 52 trang - 93 [10] Chen J., and Nie J Y (2000), “Automatic construction of parallel English-Chinese Corpus for cross-language information retrieval”, 6th Applied Natural Language Processing Conference, pp 21-28 [11] Christopher D.Manning, Hinrich Schỹtze (1999), “Foundations of Statistical Natural Language Processing”, The MIT Press [12] Cong Phap Huynh (2011), “New approach for collecting high quality parallel corpora from multilingual websites”, iiWAS '11 Proceedings of the 13th International Conference on Information Integration and Webbased Applications and Services, Pages 341-344, ACM New York, NY, USA [13] Vo Trung Hung (2004), “Reuse of Free Online MT Engines to Develop a Meta-system of Mutilingual Machine Translation”, 4th International Conference EsTAL, Alicante, Spain, pp 303 - 313 [14] Hung Vo-Trung (2004), “SANDOH - un système d'analyse de documents hétérogènes”, Actes de JADT, 2, pp 1177-1184 [15] Hung Vo-Trung (2004), “TRADOH, a meta-system of multilingual machine translation”, 4th International Conference EsTAL, Alicante, Spain, pp 303 – 313 [16] Ippei Ukai (2008), “Error Analysis of the English-Japanese Statistical Machine Translation System”, BSc in Computational Linguistics.… [17] Olsen M.B, Diab M (2000), The Bible a parallel Corpus: annotating the “Book of 2000 Tongues”, Computers and the Humanities, N033, p.p 129 – 153 [18] Philipp Koehn (2005), “EuroParl: A Parallel Corpus for Statistical Machine Translation”, Conference Proceedings: the tenth Machine Translation Summit Phuket, Thailand, pp 79-86 Trang Web [19] Hồ Quốc Bảo, Đinh Điền, Đặng Bác Văn, Lương Vỹ Minh (2008), Báo cáo kỹ thuật đề tài nhánh SP.74, - 94 http://www.jaist.ac.jp/~bao/VLSPtext-/March2008/SP7.4_Baocaokythu at2008thang3.PDF, ngày truy cập 07/03/2012 [20] British National Corpus, “About the British National Corpus”, http://www.gloriacappelli.it/wp-content/uploads/2007/05/bnc.PDF, ngày truy cập 10/12/2011 [21] British National Corpus, “What is http://www.natcorp.ox.ac.uk/Corpus/index.xml the ngày BNC?”, truy cập 10/12/2011 [22] Glottopedia, “Parallel Corpus”, http://www.glottopedia.de/index.php/Parallel_Corpus, ngày truy cập 10/03/2012 [23] Anthony McEnery, Richard Xiao, Yukio Tono, “Corpora Survey” http://cw.routledge.com/textbooks/0415286239/resources/corpa3.htm, ngày truy cập 16/02/2012 [24] Hoàng Trọng Phiến, Mai Ngọc Chừ, Vũ Đức Nghiệu (1997), “Khái niệm từ vựng học”, http://ngonngu.net/index.php?p=212, ngày truy cập 02/6/2012 [25] Russian National Corpus, “What http://www.ruscorpora.ru/en/corpora-intro.html, is the ngày Corpus?”, truy cập 15/12/2011 [26] “The PKU 863 Chinese-English Parallel Corpus” , http://www.lancs.ac.uk/fass/projects/Corpus/863parallel, ngày truy cập 15/03/2012 [27] Nguyễn Văn Vinh (2009), “Khai phá liệu song ngữ từ Web”, http://www.scribd.com/doc/16578279/Khai-Pha-Du-Lieu-Song-NguTu-Web, ngày truy cập 10/03/2012 [28] http://tailieu.vn/xem-tai-lieu/visual-studio-2010-part-1.350237.html ngày truy cập 05/3/2012 [29] http://www.hanoisoftware.com/Desktop.aspx/Tu-van/CongcuGiaiphap/Cac_tieu_chuan_portal/ ngày truy cập 10/3/2012 - 95 [30] http://www.Google.com.vn/intl/vi/help/faq_translation.html, ngày truy cập 20/3/2012 [31] http://www.tranexp.com/win/NeuroGrammar-vie.htm truy cập ngày 03/5/2012 [32] http://xahoithongtin.com.vn/2011062304005140p0c252/cong-cu-huuich-giup-check-loi-chinh-ta-va-ngu-phap-tieng-anh.htm truy cập ngày 03/5/2012 [33] http://mach.vub.ac.be/~bpellens/OwlDotNetApi ngày truy cập 03/5/2012 [34] http://www.tinhoc24h.info/2012/05/libreoffice-353-final-phan-mem-ocfile.html truy cập ngày 03/5/2012 [35] http://www.echip.com.vn/echiproot/Weblh/suutam/2000/pcworld/1099/ xml truy cập ngày 03/5/2012