XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮPHỤC VỤ XỬ LÝ TIẾNG VIỆT

79 20 0
XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮPHỤC VỤ XỬ LÝ TIẾNG VIỆT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT Mã số: Đ2012- - Chủ nhiệm đề tài: PGS.TS VÕ TRUNG HÙNG Đà Nẵng, 11/2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT Mã số: Đ2012- - Xác nhận quan chủ trì đề tài (ký, họ tên, đóng dấu) Chủ nhiệm đề tài PGS.TS Võ Trung Hùng Đà Nẵng, 11/2011 DANH SÁCH THAM GIA Các cá nhân tham gia: - PGS.TS Võ Trung Hùng, Ban Khoa học, Cơng nghệ Mơi trường, ĐHĐN - ThS Hồng Như Quỳnh, Trường Đại học Ngoại ngữ, Đại học Đà Nẵng - Nguyễn Thị Hoa, Trường Cao đẳng Sư phạm tỉnh Quảng Trị Các tổ chức phối hợp: - Trung tâm DATIC, Trường Đại học Bách khoa, Đại học Đà Nẵng - Trung tâm Phát triển phần mềm, Đại học Đà Nẵng - Trung tâm Nghiên cứu xử lý ngôn ngữ tự nhiên GETALP (Cộng hòa Pháp) MỤC LỤC DANH SÁCH THAM GIA MỤC LỤC DANH MỤC HÌNH ẢNH .iii THÔNG TIN KẾT QUẢ NGHIÊN CỨU .v RESEARCH RESULT INFORMATION vi MỞ ĐẦU CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Kho ngữ liệu song ngữ .3 1.1.1 Khái niệm .3 1.1.2 Ứng dụng kho ngữ liệu song ngữ .4 1.1.3 Nghiên cứu số kho ngữ liệu song ngữ giới 1.2 Một số nguồn trích rút ngữ liệu 1.2.1 Nguồn từ điển 1.2.2 Ngữ liệu SUSANNE .8 1.2.3 Nguồn Internet 1.2.4 Nguồn sách .9 1.3 Dịch tự động 1.3.1 Lịch sử phát triển 1.3.2 Khái niệm .10 1.3.3 Cấu trúc chương trình dịch tự động 12 14 1.3.4 Một số hệ thống dịch tự động .16 1.4 Môi trường hợp tác 20 1.4.1 Khái niệm .20 1.4.2 Các công cụ dùng để giao tiếp hợp tác 21 1.4.3 Các tính môi trường hợp tác 22 1.4.4 Các công nghệ hỗ trợ môi trường hợp tác 23 1.4.5 Một số môi trường hợp tác mạng 24 CHƯƠNG GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU 28 1.5 Giới thiệu .28 1.6 Mơ hình tổng thể 28 1.7 Đề xuất giải pháp để xây dựng kho ngữ liệu song ngữ 30 1.7.1 Các tiêu chí chọn mẫu ngữ liệu 30 1.7.2 Chọn nguồn liệu chuẩn hóa 30 1.7.3 Xây dựng cấu trúc kho ngữ liệu song ngữ 32 i 1.8 Giải pháp trích rút ngữ liệu 34 1.8.1 Nguồn Từ điển Lạc Việt .34 1.8.2 Nguồn Báo điện tử VOV News 35 1.8.3 Các kho ngữ liệu xây dựng sẵn 37 CHƯƠNG PHÁT TRIỂN ỨNG DỤNG 38 1.9 Xây dựng kho ngữ liệu 38 1.9.1 Trích từ Từ điển Lạc Việt .38 1.9.2 Trích từ VOV New .44 1.9.3 Trích từ kho ngữ liệu Anh, Pháp 55 1.9.4 Một số nguồn liệu khác 58 1.10 Hiệu chỉnh kho ngữ liệu .58 1.10.1 Xây dựng hệ thống .58 1.10.2 Xây dựng giao diện hệ thống 62 67 1.11 Thử nghiệm đánh giá chương trình 67 KẾT LUẬN .68 TÀI LIỆU THAM KHẢO 69 ii DANH MỤC HÌNH ẢNH Hình Quá trình xử lý chương trình dịch tự động .14 Hình Giao diện hệ thống dịch Babel Fish 17 Hình Giao diện hệ thống dịch Systran 18 Hình Giao diện hệ thống dịch Reverso .19 Hình Giao diện hình dịch với Google translate .20 Hình Giao diện trang WebOffice .24 Hình Giao diện trang Wikipedia 25 Hình Giao diện trang Windows Live 27 Hình Mơ hình tổng qt để xây dựng kho ngữ liệu 29 Hình 10 Ví dụ hình thức trình bày nguồn liệu khác .31 Hình 11 Các giải pháp tổ chức CSDL 32 Hình 12 Giao diện Từ điển Lạc Việt 34 Hình 13 Ví dụ trang web có phiên ngơn ngữ khác 36 Hình 14 Sơ đồ q trình trích từ Từ điển Lạc Việt .39 Hình 15 Mục từ có câu ví dụ Anh – Việt 40 Hình 16 Tập tin tiếng Việt Doc trích từ Từ điển Lạc Việt 41 Hình 17 Tập tin tiếng Anh Doc trích từ Từ điển Lạc Việt 41 Hình 18 Hệ thống bóc tách nội dung VietSpider 45 Hình 19 Trích nội dung từ web .46 Hình 20 Trang web tiếng Việt trước tách lấy nội dung 47 Hình 21 Trang web tiếng Anh trước tách lấy nội dung .48 Hình 22 Ví dụ tạo luồng trang VOV News tiếng Việt 49 Hình 23 Trang web tiếng Việt thực tách lấy nội dung 49 Hình 24 Trang web tiếng Anh thực tách lấy nội dung 50 Hình 25 Dữ liệu sau bóc tách 51 Figure 26 Sơ đồ trình xử lý trích từ trang web sử dụng MorphAdorner 52 Hình 27 Tách câu trực tuyến MorphAdorner 53 Hình 28 Kết tách câu tiếng Anh công cụ trực tuyến MorphAdorner 54 iii Hình 29 Kết tách câu tiếng Việt công cụ trực tuyến MorphAdorner 55 Hình 30 Sơ đồ trình xử lý nguồn liệu có sẵn 56 Hình 31 Giao diện Vdict 57 Hình 32 Mơ hình kiến trúc mơi trường hiệu chỉnh kho ngữ liệu 60 Hình 33 Cấu trúc quy ước lưu liệu 61 Hình 34 Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp .62 Hình 35 Giao diện hệ thống 63 Hình 36 Giao diện tìm kiếm, dịch câu, xem sửa 63 Hình 37 Giao diện hiệu chỉnh câu dịch 64 Hình 38 Giao diện câu đóng góp bị trùng 64 Hình 39 Giao diện thay đổi câu dịch dành cho chuyên gia 65 Hình 40 Giao diện Game điền khuyết 66 Hình 41 Giao diện Game xếp thứ tự từ 66 Hình 42 Giao diện Game dịch Anh – Việt 67 iv THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: Xây dựng kho ngữ liệu đa ngữ phục vụ xử lý tiếng Việt - Mã số: Đ2012- - - Chủ nhiệm: PGS.TS Võ Trung Hùng - Thành viên tham gia: ThS Hoàng Như Quỳnh, Nguyễn Thị Hoa - Cơ quan chủ trì: Đại học Đà Nẵng - Thời gian thực hiện: 2012 Mục tiêu: Xây dựng kho ngữ liệu đa ngữ có chứa tiếng Việt lớn số lượng chất lượng tốt nhằm phục vụ cho nghiên cứu xử lý tiếng Việt Tính sáng tạo: Ứng dụng hệ thống dịch tự động môi trường hợp tác để mở rộng kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên Tóm tắt kết nghiên cứu: - Hướng dẫn học viên bảo vệ thành công luận văn Thạc sĩ - Xây dựng kho ngữ liệu đa ngữ gồm tập câu Anh, Pháp, Việt - Công bố báo Tạp chí Khoa học Cơng nghệ, Đại học Đà Nẵng Tên sản phẩm: UD Corpus Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: sử dụng Trung tâm DATIC (Đại học Đà Nẵng) GETA (Cộng hòa Pháp) Hình ảnh, sơ đồ minh họa v RESEARCH RESULT INFORMATION General information: - Project Title: Building a multilingual corpus for Vietnamese processing - Code number: Đ2012- - - Coordinator: PGS.TS Võ Trung Hùng - Members: ThS Hoàng Như Quỳnh, Nguyễn Thị Hoa - Implementing Institution: The University of Danang - Duration: 01-12/2012 Objectives: Building a multilingual corpus containing the multilingual sentences with huge quantity and hight quality to cater to the research on Vietnamese processing Innovation: Using of automatic translation systems and collaboration environment to develop and extend linguistics corpus on natural language processing Results obtained: - One student successfully defended Master thesis - Developing an multilingual corpus in English, French, and Vietnamese - One article published in the Journal of Science and Technology, University of Danang Product name: UD Corpus Application: using at DATIC (the University of Danang) and GETA (France) Figure and flowchart vi MỞ ĐẦU Hiện nay, người sử dụng 7000 ngôn ngữ nói khác nhau, số có 1500 ngơn ngữ có chữ viết [5] Chính đa dạng ngơn ngữ q trình tồn cầu hóa diễn mạnh mẽ nên vấn đề cấp thiết đặt làm để người nói viết ngơn ngữ khác hiểu dễ dàng Để phục vụ cho mục đích đó, nghiên cứu xử lý ngơn ngữ tự nhiên phủ, trường đại học/viện nghiên cứu, công ty phần mềm, nhà khoa học đầu tư nghiên cứu từ sớm Những vấn đề liên quan đến xử lý ngôn ngữ tự nhiên đa dạng từ lý thuyết ngôn ngữ, phân tích văn bản, nhận dạng, dịch tự động, hỏi đáp tự động [4],… Đa số phương pháp, kỹ thuật sử dụng xử lý ngôn ngữ tự nhiên cần đến liệu song ngữ đa ngữ Hiện nay, ngôn ngữ lớn (ngôn ngữ có nhiều người sử dụng và/hoặc sử dụng quốc gia có tiềm lực mạnh kinh tế, khoa học, kỹ thuật) có nhiều kho ngữ liệu chất lượng xây dựng Chúng ta dễ dàng tìm thấy kho ngữ liệu tiếng Anh, tiếng Pháp, tiếng Hoa, tiếng Nhật… Đặc biệt, có nhiều kho ngữ liệu song ngữ Anh – Pháp, Anh – Hoa, Anh - Nhật,… Ngược lại, ngơn ngữ tiếng Việt nghiên cứu chưa nhiều, rời rạc đặc biệt thiếu vắng kho ngữ liệu lớn khối lượng đảm bảo chất lượng để phục vụ công tác nghiên cứu phát triển ứng dụng Vì vậy, việc nghiên cứu, xây dựng kho ngữ liệu đa ngữ phục vụ cho xử lý tiếng Việt vấn đề cần thiết, cấp bách đặt Trong báo cáo này, chúng tơi trình bày lại kết nghiên cứu thực nghiệm để xây dựng kho ngữ liệu đa ngữ Anh – Pháp – Việt gồm tập hợp câu song song tương ứng ngôn ngữ Phương pháp sử dụng dùng hệ thống dịch tự động sẵn có Systran, Google, Reverso, … để dịch tự động số kho ngữ liệu sẵn có sang ngôn ngữ khác (chủ yếu từ tiếng Anh sang tiếng Pháp sang tiếng Việt) sau sử dụng môi trường hợp tác để người tham gia hiệu chỉnh Chất lượng kho ngữ liệu liên tục cải thiện tham gia đóng góp người sử dụng (trong trường hợp nghiên cứu tham gia giảng viên, sinh viên ngoại ngữ) cuối kiểm tra xác nhận nhà ngôn ngữ Kết đạt

Ngày đăng: 17/04/2020, 12:46

Mục lục

  • 1.1. Kho ngữ liệu song ngữ

    • 1.1.1. Khái niệm

    • 1.1.2. Ứng dụng của kho ngữ liệu song ngữ

    • 1.1.3. Nghiên cứu một số kho ngữ liệu song ngữ trên thế giới

    • 1.2. Một số nguồn có thể trích rút ngữ liệu

      • 1.2.1. Nguồn từ điển

      • 1.2.2. Ngữ liệu SUSANNE

      • 1.2.3. Nguồn Internet

      • 1.2.4. Nguồn sách

      • 1.3. Dịch tự động

        • 1.3.1. Lịch sử phát triển

        • 1.3.2. Khái niệm

        • 1.3.3. Cấu trúc của một chương trình dịch tự động

        • 1.3.4. Một số hệ thống dịch tự động

        • 1.4. Môi trường hợp tác

          • 1.4.1. Khái niệm

          • 1.4.2. Các công cụ dùng để giao tiếp và hợp tác

          • 1.4.3. Các tính năng cơ bản của môi trường hợp tác

          • 1.4.4. Các công nghệ hỗ trợ môi trường hợp tác

          • 1.4.5. Một số môi trường hợp tác trên mạng

          • 1.5. Giới thiệu

          • 1.6. Mô hình tổng thể

          • 1.7. Đề xuất giải pháp để xây dựng kho ngữ liệu song ngữ

            • 1.7.1. Các tiêu chí chọn mẫu ngữ liệu

            • 1.7.2. Chọn nguồn dữ liệu và chuẩn hóa

Tài liệu cùng người dùng

Tài liệu liên quan