ỨNG DỤNG XỬ LÝ VĂN BẢN TIẾNG VIỆT XÂY DỰNG HỆ THỐNG KIỂM TRA ĐỀ TÀI TỐT NGHIỆP

101 55 0
ỨNG DỤNG XỬ LÝ VĂN BẢN TIẾNG VIỆT XÂY DỰNG HỆ THỐNG KIỂM TRA ĐỀ TÀI TỐT NGHIỆP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN THỊ DIỆU UYÊN ỨNG DỤNG XỬ LÝ VĂN BẢN TIẾNG VIỆT XÂY DỰNG HỆ THỐNG KIỂM TRA ĐỀ TÀI TỐT NGHIỆP LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN THỊ DIỆU UYÊN ỨNG DỤNG XỬ LÝ VĂN BẢN TIẾNG VIỆT XÂY DỰNG HỆ THỐNG KIỂM TRA ĐỀ TÀI TỐT NGHIỆP Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS Phan Huy Khánh Đà Nẵng - Năm 2011 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp PGS.TS Phan Huy Khánh Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả Trần Thị Diệu Uyên ii MỤC LỤC TRANG PHỤ BÌA i LỜI CAM ĐOAN ii MỤC LỤC iiii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH ix DANH MỤC CÁC BẢNG x MỞ ĐẦU CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN .5 1.1 DỊCH TỰ ĐỘNG .5 1.1.1 Khái niệm 1.1.2 Lịch sử phát triển 1.1.3 Cấu trúc chương trình dịch tự động 1.1.4 Một số hệ thống dịch tự động 13 1.2 MÔI TRƯỜNG HỢP TÁC .15 1.2.1 Khái niệm 15 1.2.2 Các công cụ dùng để giao tiếp hợp tác 17 1.2.3 Các tính mơi trường hợp tác .18 1.2.4 Các công nghệ hỗ trợ môi trường hợp tác 19 1.2.5 Một số môi trường hợp tác mạng 20 1.3 KHO NGỮ LIỆU SONG NGỮ 23 1.3.1 Một số khái niệm 23 1.3.2 Ứng dụng kho ngữ liệu song ngữ 24 1.3.3 Nghiên cứu số kho liệu song ngữ giới 26 1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU 27 1.4.1 Tổng quan XML .28 1.4.2 Thuật ngữ 28 1.4.3 Cấu trúc tập tin XML .29 1.4.4 Những thành phần tài liệu XML 29 1.5 TỔNG KẾT CHƯƠNG 31 CHƯƠNG 2: GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU 32 iii 2.1 GIỚI THIỆU 32 2.2 MƠ HÌNH HỆ THỐNG 33 2.3 XÂY DỰNG KHO NGỮ LIỆU 34 2.3.1 Các tiêu chí chọn mẫu ngữ liệu 34 2.3.2 Chọn nguồn ngữ liệu chuẩn hóa 35 2.3.3 Ứng dụng xử lý ngôn ngữ tự nhiên .37 2.3.4 Các nguồn liệu thu thập 39 2.3.5 Các kỹ thuật xử lý ngữ liệu 44 2.3.6 Tích hợp nguồn ngữ liệu 48 2.3.7 Đa ngữ hoá kho ngữ liệu .49 2.4 HIỆU CHỈNH KHO NGỮ LIỆU 54 2.4.1 Các phương pháp hiệu chỉnh liệu 54 2.4.2 Hiệu chỉnh môi trường hợp tác 56 2.5 TỔNG KẾT CHƯƠNG 59 CHƯƠNG 3: PHÁT TRIỂN ỨNG DỤNG 60 3.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 60 3.1.1 Ngôn ngữ lập trình 60 3.1.2 Cơ sở liệu .61 3.2 XÂY DỰNG KHO NGỮ LIỆU 62 3.2.1 Thu thập xử lý nguồn liệu 62 3.2.2 Xử lý trùng lặp câu kho ngữ liệu 74 3.2.3 Nội dung chương trình hỗ trợ dịch 74 3.2.4 Giao diện chương trình hỗ trợ dịch .75 3.2.5 Thử nghiệm đánh giá kết hệ thống dịch .77 3.3 HIỆU CHỈNH KHO NGỮ LIỆU 78 3.3.1 Xây dựng hệ thống 78 3.3.2 Xây dựng giao diện hệ thống .82 3.3.3 Thử nghiệm đánh giá chương trình 87 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 90 TÀI LIỆU THAM KHẢO 92 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ iv DANH MỤC CÁC TỪ VIẾT TẮT TIẾNG VIỆT CSDL Cơ sở liệu NSD Người sử dụng KHKT Khoa học Kỹ thuật TIẾNG ANH BNC British National Corpus BTEC Basic Travel Expression Corpus DTD Document Type Definition EVC English Vietnamese Corpus HTML HyperText Markup Language HTTP HyperText Transfer Protocol J2EE Java Enterprise Edition JENAAD Japanese - English News Article Alignment Data MSN Microsoft Network MT Machine translation NITF News Industry Text Format OASIS Organization for the Information Standards OCR Optical Character Recognization PDF Portable Document Format RDF Resource Description Format RSS Realy Simple Syndication RTF Rich Text Format SGML Standard Generalized Markup Language SQL Structured Query Language URL Uniform Resource Locator VB Visual Basic VBA Visual Basic for Application W3C World Wide Web Consortium WSRP Web Services for Remote Portlet Advancement of Structured v XML eXtensible Markup Language vi DANH MỤC CÁC CÁC BẢNG Số bảng Tên bảng Trang Bảng 3.1 Thống kê số lượng câu nguồn trích 77 Bảng 3.2 Bảng đánh giá kết thực hệ thống hiệu chỉnh 88 DANH MỤC CÁC HÌNH Số hình Hình 1.1 Tên hình Quá trình xử lý chương trình dịch tự động Trang 10 vii Hình 1.2 Hình 1.3 Hình 1.4 Hình 1.5 Hình 1.6 Hình 1.7 Hình 1.8 Hình 2.1 Hình 2.2 Hình 2.3 Hình 2.4 Hình 2.5 Hình 2.6 Hình 2.7 Giao diện hệ thống dịch Babel Fish Giao diện hệ thống dịch Systran Giao diện hệ thống dịch Reverso Giao diện hình dịch với Google translate Giao diện trang WebOffice Giao diện trang Wikipedia Giao diện trang Windows Live Mơ hình tổng thể hệ thống Giao diện Từ điển Lạc Việt Ví dụ trang Web ngơn ngữ Ví dụ trang Web có phiên ngơn ngữ khác Sơ đồ chuyển đổi từ tập tin * Doc sang tập tin * XML Mẫu tập tin *.Doc Ví dụ mẫu XML liệu chuyển đổi lưu trữ 13 14 14 15 20 21 22 33 40 42 42 46 46 47 Hình 2.8 Hình 2.9 Hình 2.10 Hình 2.11 Hình 2.12 Hình 3.1 Hình 3.2 Hình 3.3 nhiều tập tin Các giải pháp tổ chức CSDL Ví dụ liệu lưu tập tin Ví dụ liệu lưu tập tin Sơ đồ đa ngữ hóa kho ngữ liệu Mơ hình triển khai hệ thống Sơ đồ q trình trích từ Từ điển Lạc Việt Mục từ có câu ví dụ Anh – Việt Tập tin tiếng Anh.Doc trích từ Từ điển Lạc Việt 50 51 52 53 59 63 63 64 viii Hình 3.4 Thủ tục chuyển tập tin *.Doc sang định dạng XML tạo 66 Hình 3.5 Hình 3.6 Hình 3.7 Hình 3.8 Hình 3.9 Hình 3.10 Hình 3.11 Hình 3.12 mục Kết sau chuyển đổi định dạng tập tin tạo mục Hệ thống bóc tách nội dung VietSpider Sơ đồ trình xử lý trích từ trang Web Trang Web tiếng Anh trước tách lấy nội dung Ví dụ tạo luồng trang VOV online Trang Web tiếng Anh thực tách lấy nội dung Dữ liệu sau bóc tách Sơ đồ q trình xử lý trích từ trang Web sử dụng 66 67 68 68 69 69 70 71 Hình 3.13 Hình 3.14 MorphAdorner Tách câu trực tuyến MorphAdorner Kết tách câu tiếng Anh công cụ trực tuyến 72 72 Hình 3.15 Hình 3.16 Hình 3.17 Hình 3.18 Hình 3.19 Hình 3.20 Hình 3.21 Hình 3.22 Hình 3.23 Hình 3.24 Hình 3.25 Hình 3.26 Hình 3.27 Hình 3.28 MorphAdorner Sơ đồ xử lý Corpus có sẵn Giao diện dịch kho ngữ liệu Giao diện dịch thành công Mô hình kiến trúc mơi trường hiệu chỉnh kho ngữ liệu Cấu trúc quy ước lưu liệu Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp Giao diện hệ thống Giao diện tìm kiếm, dịch câu, xem sửa Giao diện hiệu chỉnh câu dịch Giao diện câu đóng góp bị trùng Giao diện thay đổi câu dịch dành cho chuyên gia Giao diện Game điền khuyết Giao diện Game xếp thứ tự từ Giao diện Game dịch Anh – Việt 73 76 76 80 81 82 83 83 84 85 85 86 86 87 - 77 - Hình 1.1 Mơ hình kiến trúc môi trường hiệu chỉnh kho ngữ liệu Giao diện môi trường hợp tác: Là cầu nối thông tin người dùng chung với hệ thống xử lý liệu Là phần giao diện tương tác trực tiếp với người dùng chung, người dùng chung chọn câu hay dịch ngơn ngữ mà quan tâm sau tiến hành hiệu chỉnh câu dịch yêu cầu hệ thống cập nhật vào kho ngữ Người dùng chung: Là tất người truy cập vào Website để chỉnh sửa nội dung câu dịch mà quan tâm, học ngoại ngữ trực tuyến… 4.3.1.2 Tổ chức lưu trữ liệu Với ưu điểm sở liệu XML hệ sở liệu SQL Server 2008 trình bày việc tổ chức lưu trữ liệu người dùng chung yêu cầu hệ thống ghi lại câu dịch hiệu chỉnh bình chọn dịch hay vấn đề mà luận văn quan tâm Cách lưu trữ liệu dịch mà người dùng chỉnh sửa sau: - 78 Môi trường hợp tác cho hiển thị list (danh sách) câu kho ngữ liệu tạm gọi câu gốc Khi tiến hành tìm kiếm dịch tự động kho gốc, tồn câu dịch ngơn ngữ lại tự động lên, khơng có hệ thống hiển thị dịch đề nghị Google Sau người dùng tiến hành chỉnh sửa lưu lại câu chỉnh sửa câu đề nghị hay Chúng tiến hành lưu sửa theo nguyên tắc đánh số mục Cụ thể hệ thống Website sở liệu lưu sau: Hình 2.1 Cấu trúc quy ước lưu liệu Trong đó: - ID dùng để lưu số mục dịch người dùng sửa - IDE dùng để lưu số mục câu dịch lấy từ sở liệu hệ thống - Changer dùng để lưu nội dung câu người dùng chỉnh sửa - Rate dùng để lưu phần đánh giá câu hay người dùng bình chọn thơng qua đánh điểm - MailChanger dùng để lưu địa mail - NameChanger lưu tên người sửa Ví dụ, Câu gốc kho tiếng Pháp có số mục 18 gồm có câu sửa người dùng sửa để nghị ta tiến hành lưu ID 1, 2, 3, nằm số mục IDE 18 (đó câu sửa đánh mục tử đến Tương tự có câu số mục 19 có câu chỉnh sửa ta tiến hành lưu ID 1, 2, nằm số mục IDE 19 - 79 - Hình 2.2 Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp 4.3.2 Xây dựng giao diện hệ thống Chương trình phát triển nền.Net, với ngơn ngữ C# ASP.Net Công cụ ta dùng để triển khai cài đặt code cho website Microsoft Visual Studio 2010 4.3.2.1 Trang hệ thống Đây trang chứa menu với chức thực hiển thị liệu từ kho ngữ liệu làm hướng tiếp cận liệu cần hiệu chỉnh Tất trang khác sử dụng trang làm giao diện hiển thị nội dung khác Như phân tích chương 2, trang giao diện gồm có menu trang chủ để giới thiệu môi trường hợp tác, chức dịch câu, Game tiếng Anh vừa học vừa chơi, chức hội thảo nhóm phần đăng ký đăng nhập, trang cá nhân thành viên tham gia vào môi trường Dưới giao diện hệ thống: - 80 Hình 1.1 Giao diện hệ thống 4.3.2.2 Trang dịch câu Hình 2.1 Giao diện tìm kiếm, dịch câu, xem sửa Đối với trang đối tượng người dùng tham gia dịch tự động, xem kho ngữ liệu gốc chọn câu gốc để hiển thị câu dịch phục vụ mục đích học ngoại ngữ, xem câu dịch theo ý thích, … Trong trang liên kết để chỉnh sửa ngữ liệu dịch theo ý người dùng cho hiển thị chỉnh sửa trước bình chọn câu dịch hay Đối với người dùng muốn chỉnh sửa đề xuất câu dịch tiến hành chọn “Đề xuất” đánh nội dung câu sửa vào phần dành cho câu chỉnh sửa, sau tiến hành lưu lại câu chỉnh sửa Trước lưu chỉnh sửa hệ thống yêu cầu người dùng nhập tên địa E-mail để hệ thống lưu lại thông tin người chỉnh sửa Trang cho phép người dùng xem lại kết câu hiệu chỉnh dịch hiệu chỉnh khác cách hệ thống hiển thị câu dịch ô định sẵn chỉnh sửa ô câu dịch đề xuất - 81 - Hình 2.2 Giao diện hiệu chỉnh câu dịch Nếu câu đề xuất người dùng bị trùng hệ thống báo câu dịch tồn Hình 2.3 Giao diện câu đóng góp bị trùng Khi đăng nhập hệ thống có nhiều mơđun nhỏ dành cho NSD NSD xem dịch chuyên gia, xuất câu dịch chuyên gia, tạo lập nhóm, tạo diễn đàn trao đổi học tập, … môđun dành cho chuyên gia theo phân quyền hệ thống Câu chuyên gia sửa thay đổi kết kho ngữ liệu cuối mà cần hướng tới - 82 - Hình 2.4 Giao diện thay đổi câu dịch dành cho chuyên gia Sau đó, hệ thống tiến hành thống kê dịch chuyên gia sửa tác động người dùng chuyên gia 4.3.2.3 Một số trang ứng dụng kho ngữ liệu Để ứng dụng kho ngữ liệu đa ngữ Anh – Pháp - Việt vào việc dạy học tiếng Anh, chúng tơi thực chương trình trò chơi “ Học tiếng Anh qua mẫu câu Anh – Pháp - Việt” để khai thác kho ngữ liệu đa ngữ Anh – Pháp - Việt mà xây dựng Chương trình cho phép người dùng rèn luyện khả dịch qua mẫu câu Anh – Pháp - Việt có sẵn, giao diện trò chơi sau: Hình 3.1 Giao diện Game điền khuyết - 83 - Hình 3.2 Giao diện Game xếp thứ tự từ Hình 3.3 Giao diện Game dịch Anh – Việt Kết thúc trò chơi, hệ thống hiển thị thống kê số điểm mà người chơi đạt đáp án người chơi đáp án hệ thống tiến hành chấm điểm cho đáp án 4.3.3 Thử nghiệm đánh giá chương trình Chúng tơi xây dựng xong Website hiệu chỉnh ngữ liệu với số lượng ngữ liệu đầu vào tương ứng với kho ngữ liệu: kho tiếng Anh với 106.434 câu, kho tiếng Pháp với 106.434 câu kho tiếng Việt với 106.434 câu Xây dựng hệ thống Website hiệu chỉnh kho ngữ liệu tiếng Pháp tiếng Việt dựa kho - 84 ngữ liệu gốc Từ làm tăng độ tin cậy tính xác kho ngữ liệu đa ngữ Chúng tiến hành thử nghiệm hệ thống Website hiệu chỉnh kho ngữ liệu Trường CĐSP Quảng Trị, triển khai vào thời điểm khác phòng thực hành tin học dành cho sinh viên lớp CĐSP Tiếng Anh lớp chứng B Tiếng Pháp, lớp CĐSP Tin học, lớp CĐSP Tiểu học, lớp CĐSP Ngữ Văn, lớp CĐSP Toán, CĐ Kế toán, CĐ Việt Nam học sinh viên năm Sau thời gian triển khai cho sinh viên thử nghiệm có nhận xét thơng qua phiếu đánh giá (được tính theo tỉ lệ phần trăm) đạt kết thông qua số lượng câu sửa sau: Bảng 1.1 Bảng đánh giá kết thực hệ thống hiệu chỉnh Trình bày Hệ thống Số lượng câu Số câu đề Số câu xuất xem 90% 83% 3357 1467 8723 5320 18% 81% 2526 5732 15% 16% 17% 20% 85% 79% 73% 75% 1780 1960 1598 1282 4737 6897 5428 3790 Phù hợp Hạn chế Dễ hiểu Lớp CĐSP Tiếng Anh CCB Tiếng Pháp 91% 86% 9% 14% CĐSP Ngữ văn 82% CĐSP Tin học CĐSP Tiểu học CĐSP Toán CĐ Kế toán 85% 84% 83% 80% CĐ VN học 89% 11% 79% 2856 7383 Dựa vào bảng đánh nhiều đối tượng sinh viên cho thấy hệ thống đáp ứng yêu cầu đặt Qua số lượng câu đề xuất số lượng câu xem mà chúng tơi thống kê nói lên hệ thống đáp ứng phần việc dạy học ngoại ngữ Giao diện trình bày tạo hứng thú cho sinh viên - học sinh truy cập học tập kho ngữ liệu chưa đủ lớn đa dạng hạn chế trình bày phông chữ em tham gia vào trang web nhiều lý như: Ngồi kiến thức dịch ngơn ngữ, hệ thống có hình thức dịch đề nghị từ Google translate, số trò chơi, tham gia tạo nhóm, diễn đàn để trao đổi kinh nghiệm học tập, … Từ hệ thống tạo cho em hứng thú tham gia vào môi trường hợp tác - 85 Qua q trình triển khai mơi trường hợp tác, hệ thống giúp sinh viên – học sinh tiếp thu kiến thức môn học thông qua môi trường hợp tác, kiến thức ngoại ngữ tin học hố để giúp cho em học tập cách chủ động Sau triển khai hệ thống trợ giúp trường thành công, hệ thống cố gắng đưa lên mạng Internet để tạo điều kiện cho nhiều đối tượng người dùng chung tham gia vào hệ thống, đặc biệt người dùng chung sử dụng lúc có nhu cầu Ứng dụng có ảnh hưởng tích cực tới sinh viên - học sinh, giúp em học ngoại ngữ, vừa học vừa chơi tham gia dịch tài liệu có nhu cầu - 86 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong trình thực nghiên cứu, thu nhiều kiến thức xử lý ngôn ngữ tự nhiên, kho ngữ liệu đa ngữ vấn đề liên quan đến xử lý ngữ liệu Luận văn xây dựng mở rộng kho ngữ liệu đa ngữ cách chi tiết; từ việc chọn nguồn ngữ liệu xử lý nguồn ngữ liệu từ nguồn ngữ liệu lưu trữ khác định dạng lưu trữ chuẩn; việc đa ngữ hóa kho ngữ liệu nhờ vào hệ thống dịch có sẵn Đồng thời luận văn đưa giải pháp xây dựng hồn thành mơi trường hợp tác để hiệu chỉnh kho ngữ liệu sau đa ngữ hóa Kho liệu thử nghiệm hiệu chỉnh sinh viên trường CĐSP Quảng Trị thông qua hệ thống Website nhà Trường Trên sở đó, xây dựng kho ngữ liệu đa ngữ gồm ngôn ngữ Anh – Pháp – Việt với 100.000 câu cho ngơn ngữ Mục đích đạt kết cuối thông qua môi trường hợp tác để chuẩn hoá kho ngữ liệu đảm bảo chất lượng nội dung kho ngữ liệu đa ngữ Bên cạnh việc hiệu chỉnh kho ngữ liệu, mơi trường hợp tác có mô đun ứng dụng game dịch Anh – Việt, điền khuyết, xếp thứ tự số tính khác để phục vụ việc dạy học ngoại ngữ Mặc dù có nhiều cố gắng, thời gian nghiên cứu hạn hẹp, kinh nghiệm nghiên cứu chưa nhiều, luận văn khơng tránh khỏi số hạn chế như: nguồn ngữ liệu cập nhật vào kho ngữ liệu nói chung mang tính bán tự động, kho ngữ liệu áp dụng vào trình dịch tự động số câu tồn kho mà chưa ứng dụng vào việc dịch máy tính thống kê Những hạn chế tiếp tục giải hoàn thiện trình nghiên cứu Qua trình thực nghiên cứu, chúng tơi xin đưa số kiến nghị hướng phát triển sau: Kho ngữ liệu đa ngữ nên phục vụ cho việc dạy học ngoại ngữ nhằm đáp ứng nhu cầu nghiên cứu học tập tiếng Việt sinh viên nước ngoài, nhu cầu học ngoại ngữ sinh viên Việt Nam Tiếp tục cập nhật bổ sung thêm nguồn ngữ liệu đầu vào không dừng lại mức 106.434 câu mở rộng cho nhiều ngôn ngữ khác Nga, Trung, Nhật, Hàn, Đức, …; đặc biệt tiếng dân tộc Việt Nam tiếng Chăm, tiếng Khmer,… Cũng phát triển hệ thống dịch tự động theo mơ hình dịch thống kê - 87 - TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đinh Điền (2006), Giáo trình xử lý ngơn ngữ tự nhiên, Nhà xuất Đại học quốc gia TP.HCM - 88 [2] Võ Trung Hùng (2007), “Phương pháp công cụ đáng giá tự động hệ thống dịch tự động mạng”, Tạp chí Khoa học Công nghệ Đại học đà Nẵng, số (18), tr 37-42 [3] Võ Trung Hùng (2008), “TraWeb – Công cụ để đa ngữ hóa trang Web”, Tạp chí Khoa học Công nghệ trường Đại học Kỹ thuật, số 63, tr 16-21 [4] Võ Trung Hùng, Phan Huy Khánh (2002), “Xây dựng sở liệu đa ngữ ngữ pháp tiếng Việt”, Tạp chí Khoa học Công nghệ trường Kỹ thuật, số 34 – 35, tr 19 – 23 [5] Trần Thanh Lam (2009), Đánh giá chất lượng hệ thống dịch tự động mạng, Luận văn Thạc sĩ Kỹ Thuật, Chuyên ngành Khoa học máy tính, Đại học Đà Nẵng [6] Trương Xuân Nam (2001), “Một phương pháp nâng cao hiệu ơtơmát đốn nhận văn phạm phi ngữ cảnh”, Kỹ yếu Hội thảo Quốc gia: Một số vấn đề chọn lọc CNTT, NXB KHKT, Hà Nội [7] Trương Xuân Nam, Hồ Sỹ Đàm (2007), “Một số vấn đề xử lý ngữ nghĩa dịch tự động ngôn ngữ tự nhiên” Tạp chí Cơng Nghệ Thơng Tin Truyền Thông Tiếng Anh: [8] BOITET C (2002), “Approaches to enlarge bilingual corpora of example senteces to more languages”, Papillon-03 seminar, Saporo [9] Charles E Byrne, Bernard E Scott, Truong N Binh (1970), Demonstration of LOGOS I System for English-Vietnamese Machine Translation, Defense Technical Information Center, 52 trang [10] Chen J., and Nie J Y (2000), “Automatic construction of parallel English-Chinese Corpus for cross-language information retrieval”, 6th Applied Natural Language Processing Conference, pp 21-28 [11] Christopher D.Manning, Hinrich Schỹtze (1999), “Foundations of Statistical Natural Language Processing”, The MIT Press [12] Cong Phap Huynh (2011), “New approach for collecting high quality parallel corpora from multilingual websites”, iiWAS '11 Proceedings of - 89 the 13th International Conference on Information Integration and Webbased Applications and Services, Pages 341-344, ACM New York, NY, USA [13] Vo Trung Hung (2004), “Reuse of Free Online MT Engines to Develop a Meta-system of Mutilingual Machine Translation”, 4th International Conference EsTAL, Alicante, Spain, pp 303 - 313 [14] Hung Vo-Trung (2004), “SANDOH - un système d'analyse de documents hétérogènes”, Actes de JADT, 2, pp 1177-1184 [15] Hung Vo-Trung (2004), “TRADOH, a meta-system of multilingual machine translation”, 4th International Conference EsTAL, Alicante, Spain, pp 303 – 313 [16] Ippei Ukai (2008), “Error Analysis of the English-Japanese Statistical Machine Translation System”, BSc in Computational Linguistics.… [17] Olsen M.B, Diab M (2000), The Bible a parallel Corpus: annotating the “Book of 2000 Tongues”, Computers and the Humanities, N033, p.p 129 – 153 [18] Philipp Koehn (2005), “EuroParl: A Parallel Corpus for Statistical Machine Translation”, Conference Proceedings: the tenth Machine Translation Summit Phuket, Thailand, pp 79-86 Trang Web [19] Hồ Quốc Bảo, Đinh Điền, Đặng Bác Văn, Lương Vỹ Minh (2008), Báo cáo kỹ thuật đề tài nhánh SP.74, http://www.jaist.ac.jp/~bao/VLSPtext-/March2008/SP7.4_Baocaokythu at2008thang3.PDF, ngày truy cập 07/03/2012 [20] British National Corpus, “About the British National Corpus”, http://www.gloriacappelli.it/wp-content/uploads/2007/05/bnc.PDF, ngày truy cập 10/12/2011 [21] British National Corpus, “What http://www.natcorp.ox.ac.uk/Corpus/index.xml 10/12/2011 is the ngày BNC?”, truy cập - 90 [22] Glottopedia, “Parallel Corpus”, http://www.glottopedia.de/index.php/Parallel_Corpus, ngày truy cập 10/03/2012 [23] Anthony McEnery, Richard Xiao, Yukio Tono, “Corpora Survey” http://cw.routledge.com/textbooks/0415286239/resources/corpa3.htm, ngày truy cập 16/02/2012 [24] Hoàng Trọng Phiến, Mai Ngọc Chừ, Vũ Đức Nghiệu (1997), “Khái niệm từ vựng học”, http://ngonngu.net/index.php?p=212, ngày truy cập 02/6/2012 [25] Russian National Corpus, “What http://www.ruscorpora.ru/en/corpora-intro.html, is the ngày Corpus?”, truy cập 15/12/2011 [26] “The PKU 863 Chinese-English Parallel Corpus” , http://www.lancs.ac.uk/fass/projects/Corpus/863parallel, ngày truy cập 15/03/2012 [27] Nguyễn Văn Vinh (2009), “Khai phá liệu song ngữ từ Web”, http://www.scribd.com/doc/16578279/Khai-Pha-Du-Lieu-Song-NguTu-Web, ngày truy cập 10/03/2012 [28] http://tailieu.vn/xem-tai-lieu/visual-studio-2010-part-1.350237.html ngày truy cập 05/3/2012 [29] http://www.hanoisoftware.com/Desktop.aspx/Tu-van/CongcuGiaiphap/Cac_tieu_chuan_portal/ ngày truy cập 10/3/2012 [30] http://www.Google.com.vn/intl/vi/help/faq_translation.html, ngày truy cập 20/3/2012 [31] http://www.tranexp.com/win/NeuroGrammar-vie.htm truy cập ngày 03/5/2012 [32] http://xahoithongtin.com.vn/2011062304005140p0c252/cong-cu-huuich-giup-check-loi-chinh-ta-va-ngu-phap-tieng-anh.htm truy cập ngày 03/5/2012 [33] http://mach.vub.ac.be/~bpellens/OwlDotNetApi 03/5/2012 ngày truy cập - 91 [34] http://www.tinhoc24h.info/2012/05/libreoffice-353-final-phan-mem-ocfile.html truy cập ngày 03/5/2012 [35] http://www.echip.com.vn/echiproot/Weblh/suutam/2000/pcworld/1099/ xml truy cập ngày 03/5/2012

Ngày đăng: 09/04/2019, 14:22

Từ khóa liên quan

Mục lục

  • CHƯƠNG 2 GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU

  • CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan