1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Luận văn thạc sĩ) khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt luận án TS công nghệ thông tin 62 48 01 01

129 40 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUANG HÙNG KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH – VIỆT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUANG HÙNG KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH – VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Lê Anh Cường PGS.TS Huỳnh Văn Nam Hà Nội – 2016 Lời cam đoan Tôi xin cam đoan luận án kết nghiên cứu tôi, thực hướng dẫn PGS.TS Lê Anh Cường PGS.TS Huỳnh Văn Nam Các nội dung trích dẫn từ nghiên cứu tác giả khác mà tơi trình bày luận án ghi rõ nguồn phần tài liệu tham khảo Lê Quang Hùng i Tóm tắt Nhiệm vụ hệ thống dịch máy tự động dịch văn từ ngôn ngữ (ví dụ, tiếng Anh) sang văn tương đương ngơn ngữ khác (ví dụ, tiếng Việt) Tính hữu ích cơng nghệ dịch máy tăng lên với chất lượng Dịch máy có nhiều ứng dụng như: (i) dịch tài liệu tiếng nước cho mục đích hiểu nội dung, (ii) dịch văn để xuất ngôn ngữ khác (iii) thông tin liên lạc, chẳng hạn dịch email, chat, vv Có số cách tiếp cận cho tốn dịch máy dịch trực tiếp (direct translation), dịch dựa chuyển đổi (transfer - based translation), dịch liên ngữ (interlingua translation), dịch dựa ví dụ (example - based translation) dịch thống kê (statistical translation) Hiện tại, dịch máy dựa cách tiếp cận thống kê hướng phát triển đầy tiềm ưu điểm vượt trội so với cách tiếp cận khác Thay xây dựng từ điển, quy luật chuyển đổi tay, dịch máy thống kê tự động xây dựng từ điển, quy luật dựa kết thống kê có từ ngữ liệu Đối với hệ thống dịch máy thống kê, hiệu (chất lượng dịch) tỷ lệ thuận với số lượng (kích thước) chất lượng ngữ liệu song ngữ sử dụng để xây dựng hệ thống dịch Tuy nhiên, ngữ liệu song ngữ sẵn có cịn hạn chế kích thước lẫn chất lượng, cặp ngơn ngữ Ngồi ra, cặp ngơn ngữ có nhiều khác biệt cấu trúc ngữ pháp (ví dụ, Anh - Việt), vấn đề chất lượng dịch thách thức nhà nghiên cứu dịch máy nhiều năm qua Vì vậy, việc bổ sung thêm ngữ liệu song ngữ phát triển phương pháp hiệu dựa ngữ liệu có giải pháp quan trọng để tăng chất lượng dịch cho dịch máy thống kê Luận án tập trung giải tồn nêu thông qua ba toán: phát triển phương pháp xây dựng ngữ liệu song ngữ, cải tiến phương pháp gióng hàng từ xác định cụm từ song ngữ cho dịch máy thống kê, cụ thể sau: Thứ nhất, toán xây dựng ngữ liệu song ngữ, khai thác từ hai nguồn: Web sách điện tử song ngữ Đối với nguồn từ Web, tập trung vào rút trích văn song ngữ từ web-site song ngữ Chúng đề xuất hai phương pháp thiết kế đặc trưng dựa nội dung: sử dụng từ bất biến hai ngôn ngữ (cognate) sử dụng phân đoạn dịch Ngoài ra, kết hợp đặc trưng dựa nội dung với đặc trưng dựa cấu trúc trang web để rút trích văn song ngữ, cách sử dụng phương pháp học máy Đối với nguồn từ sách điện tử, đề xuất phương pháp dựa nội dung, sử dụng số mẫu liên kết khối văn hai ngơn ngữ để rút trích câu song ngữ Thứ hai, với tốn gióng hàng từ, chúng tơi đề xuất số cải tiến mơ hình IBM theo cách tiếp cận dựa ràng buộc, bao gồm: ràng buộc neo, ràng buộc vị trí từ, ràng buộc từ loại ràng buộc cụm từ Với ràng buộc, đưa phương pháp tổng qt để tích hợp vào thuật tốn cực đại kỳ vọng q trình ước lượng tham số mơ hình Ngồi ra, chúng tơi đưa phương pháp để kết hợp ràng buộc Những cải tiến giúp nâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt Thứ ba, toán xác định cụm từ song ngữ cho dịch máy thống kê, đề xuất phương pháp rút trích cụm từ song ngữ từ ngữ liệu song ngữ, sử dụng mẫu cú pháp kết hợp với gióng hàng cụm từ Các cụm từ song ngữ ứng dụng vào việc nâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt Từ khóa: dịch máy, dịch máy thống kê, tri thức song ngữ, ngữ liệu song ngữ, văn song ngữ, gióng hàng từ iii Lời cảm ơn Trước hết, xin gửi lời cảm ơn sâu sắc đến PGS.TS Lê Anh Cường PGS.TS Huỳnh Văn Nam, hai Thầy trực tiếp hướng dẫn, bảo tận tình, ln hỗ trợ tạo điều kiện tốt cho học tập nghiên cứu Tôi xin gửi lời cảm ơn đến Thầy/Cô giáo Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt PGS.TS Phạm Bảo Sơn Thầy/Cô giáo Bộ mơn Khoa học máy tính, người trực tiếp giảng dạy giúp đỡ tơi q trình học tập nghiên cứu trường Tôi xin gửi lời cảm ơn đến đồng nghiệp Khoa Công nghệ thông tin, Trường Đại học Quy Nhơn, đặc biệt TS Trần Thiên Thành TS Lê Xuân Việt quan tâm, giúp đỡ tạo điều kiện cho thời gian làm nghiên cứu sinh Tôi xin gửi cảm ơn đến PGS.TS Nguyễn Phương Thái, TS Nguyễn Văn Vinh, TS Phan Xuân Hiếu (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội), TS Nguyễn Thị Minh Huyền, TS Lê Hồng Phương (Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội), TS Nguyễn Đức Dũng (Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam), Thầy/Cô có góp ý chỉnh sửa để tơi hồn thiện luận án Tôi xin gửi lời cảm ơn đến tất anh, chị, em bạn đồng học Bộ mơn Khoa học máy tính (Khoa Cơng nghệ thơng tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), đặc biệt chị Nguyễn Thị Xuân Hương (Khoa Công nghệ thông tin, Trường Đại học Dân lập Hải Phịng), nghiên cứu sinh Hồng Thị Điệp (Khoa Cơng nghệ thông tin, Trường Đại học Công nghệ) giúp đỡ thời gian làm nghiên cứu sinh Cuối cùng, xin gửi lời cảm ơn đến tất thành viên gia đình tơi, đặc biệt vợ - người ủng hộ, chia sẽ, động viên gánh vác cơng việc gia đình để yên tâm học tập, nghiên cứu iv Mục lục Lời cam đoan i Tóm tắt ii Lời cảm ơn iv Danh mục chữ viết tắt viii Danh mục hình vẽ ix Danh mục bảng xi Mở đầu 1 Tổng quan 1.1 Khai phá tri thức song ngữ 1.1.1 Xây dựng ngữ liệu song ngữ 1.1.2 Gióng hàng văn 1.1.2.1 Gióng hàng đoạn/câu 1.1.2.2 Gióng hàng từ 1.1.3 Xác định cụm từ song ngữ 1.2 Sơ lược dịch máy 1.3 Dịch máy thống kê 1.3.1 Mơ hình hóa tốn 1.3.2 Mơ hình ngơn ngữ 1.3.3 Mô hình dịch 1.3.3.1 Mơ hình dịch dựa từ 1.3.3.2 Mơ hình dịch dựa cụm từ 1.3.3.3 Mơ hình dịch dựa cú pháp 1.3.4 Giải mã 1.3.5 Đánh giá chất lượng dịch v 5 9 10 13 14 16 17 18 20 21 21 22 25 27 1.4 Thảo luận 29 Xây dựng ngữ liệu song ngữ cho dịch máy thống kê 2.1 Rút trích văn song ngữ từ Web 2.1.1 Thu thập liệu 2.1.2 Thiết kế đặc trưng dựa vào nội dung 2.1.2.1 Sử dụng cognate 2.1.2.2 Sử dụng phân đoạn dịch 2.1.3 Thiết kế đặc trưng dựa vào cấu trúc 2.1.4 Mơ hình hóa tốn phân loại 2.2 Rút trích câu song ngữ từ sách điện tử 2.2.1 Tiền xử lý 2.2.2 Đo độ tương tự 2.2.3 Gióng hàng đoạn 2.2.4 Gióng hàng câu 2.3 Thực nghiệm 2.3.1 Thực nghiệm rút trích văn song ngữ từ Web 2.3.1.1 Cài đặt thực nghiệm 2.3.1.2 Kết thực nghiệm 2.3.2 Thực nghiệm rút trích câu song ngữ từ sách điện tử 2.3.2.1 Cài đặt thực nghiệm 2.3.2.2 Kết thực nghiệm 2.3.3 Thực nghiệm bổ sung ngữ liệu song ngữ cho dịch máy 2.4 Kết luận chương Gióng hàng từ cho dịch máy thống kê 3.1 Cơ sở lý thuyết 3.1.1 Định nghĩa từ 3.1.2 Định nghĩa tốn gióng hàng từ 3.1.3 Các mơ hình IBM 3.1.4 Thuật toán cực đại kỳ vọng cho mơ hình IBM 3.2 Một số cải tiến mơ hình IBM theo cách tiếp cận dựa ràng buộc 3.2.1 Cải tiến mơ hình IBM sử dụng ràng buộc neo 3.2.2 Cải tiến mơ hình IBM sử dụng ràng buộc vị trí từ 3.2.3 Cải tiến mơ hình IBM sử dụng ràng buộc từ loại 3.2.3.1 Quan hệ từ loại 3.2.3.2 Ràng buộc từ loại 3.2.4 Cải tiến mơ hình IBM sử dụng ràng buộc cụm từ 3.2.4.1 Mẫu cú pháp song ngữ 3.2.4.2 Ràng buộc cụm từ 3.2.5 Kết hợp ràng buộc 3.3 Thực nghiệm 3.3.1 Cài đặt thực nghiệm vi 32 32 34 34 35 37 39 40 41 44 46 46 47 49 49 49 51 53 53 55 56 57 59 59 59 60 61 61 65 66 69 71 71 71 74 75 75 78 78 78 3.3.2 3.4 Kết thực nghiệm với ràng buộc neo ràng trí từ 3.3.3 Kết thực nghiệm với ràng buộc từ loại 3.3.4 Kết thực nghiệm với ràng buộc cụm từ 3.3.5 Kết thực nghiệm kết hợp ràng buộc Kết luận chương Xác định cụm từ song ngữ cho dịch máy thống kê 4.1 Bài tốn rút trích cụm từ song ngữ 4.2 Phương pháp rút trích cụm từ song ngữ 4.2.1 Xác định cụm 4.2.2 Tìm cụm từ đích 4.2.3 Rút trích cụm từ 4.3 Tích hợp cụm từ song ngữ vào dịch máy 4.4 Thực nghiệm 4.4.1 Thực nghiệm rút trích cụm từ song ngữ 4.4.1.1 Cài đặt thực nghiệm 4.4.1.2 Kết thực nghiệm 4.4.2 Thực nghiệm tích hợp cụm từ song ngữ vào 4.4.2.1 Cài đặt thực nghiệm 4.4.2.2 Kết thực nghiệm 4.5 Kết luận chương buộc vị dịch máy Kết luận 81 82 82 83 85 87 87 88 88 89 90 91 93 93 93 93 95 95 96 97 98 Danh mục cơng trình khoa học tác giả liên quan đến luận án 101 Tài liệu tham khảo 102 vii Danh mục chữ viết tắt EM Expectation Maximization (Cực đại kỳ vọng) HTML HyperText Markup Language (Ngôn ngữ đánh dấu siêu văn bản) ME Maximum Entropy (Độ hỗn loạn cực đại) MLE Maximum Likelihood Estimation (Ứớc lượng khả cực đại) MT Machine Translation (Dịch máy) NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) POS Part Of Speech (Nhãn từ loại) SMT Statistical Machine Translation (Dịch máy thống kê) SVM Support Vector Machine (Máy véc-tơ hỗ trợ) viii [114] Tay, R and Ibrahim, T (2010) Research on paragraph alignment technology in chinese-uighur bilingual corpus Journal of Xinjiang University (Natural Science Edition), 1:021 [115] Varea, I G., Och, F J., Ney, H., and Casacuberta, F (2002) Improving alignment quality in statistical machine translation using context-dependent maximum entropy models In Proceedings of the 19th international conference on Computational linguistics-Volume 1, pages 1–7 Association for Computational Linguistics [116] Vaswani, A., Huang, L., and Chiang, D (2012) Smaller alignment models for better translations: unsupervised word alignment with the l 0-norm In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1, pages 311–319 Association for Computational Linguistics [117] Vogel, S (2005) Pesa: Phrase pair extraction as sentence splitting In in Proceedings: the tenth Machine Translation [118] Volk, M., Vintar, S., and Buitelaar, P (2003) Ontologies in cross-language information retrieval In Proceedings of WOW2003, pages 43–50 [119] Xu, J and Chen, J (2011) How much can we gain from supervised word alignment? In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume 2, pages 165–169 Association for Computational Linguistics [120] Yamada, K and Knight, K (2001) A syntax-based statistical translation model In Proceedings of the 39th Annual Meeting on Association for Computational Linguistics, pages 523–530 Association for Computational Linguistics [121] Yamada, K and Knight, K (2002) A decoder for syntax-based statistical mt In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pages 303–310 Association for Computational Linguistics [122] Yang, N., Liu, S., Li, M., Zhou, M., and Yu, N (2013) Word alignment modeling with context dependent deep neural network In ACL (1), pages 166– 175 114 [123] Zang, S., Zhao, H., Wu, C., and Wang, R (2015) A novel word reordering method for statistical machine translation In Fuzzy Systems and Knowledge Discovery (FSKD), 2015 12th International Conference on, pages 843–848 IEEE [124] Zeman, D (2010) Using tectomt as a preprocessing tool for phrase-based statistical machine translation In Proceedings of the 13th international conference on Text, speech and dialogue, TSD’10, pages 216–223, Berlin, Heidelberg Springer-Verlag [125] Zens, R., Matusov, E., and Ney, H (2004) Improved word alignment using a symmetric lexicon model In Proceedings of the 20th international conference on Computational Linguistics, page 36 Association for Computational Linguistics [126] Zhang, H and Chiang, D (2014) Kneser-ney smoothing on expected counts In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 765–774, Baltimore, Maryland Association for Computational Linguistics [127] Zhang, W., Yoshida, T., Tang, X., and Ho, T.-B (2009) Improving effectiveness of mutual information for substantival multiword expression extraction Expert Syst Appl., 36(8):10919–10930 [128] Zhang, Y., Wu, K., Gao, J., and Vines, P (2006) Automatic acquisition of chinese–english parallel corpus from the web In Advances in Information Retrieval, pages 420–431 Springer [129] Zollmann, A and Venugopal, A (2006) Syntax augmented machine translation via chart parsing In Proceedings of the Workshop on Statistical Machine Translation, pages 138–141 Association for Computational Linguistics 115 ... TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUANG HÙNG KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH – VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI... cụm từ song ngữ ứng dụng vào việc nâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt Từ khóa: dịch máy, dịch máy thống kê, tri thức song ngữ, ngữ liệu song ngữ, văn song ngữ, gióng... tương ứng văn hai ngôn ngữ khác Tri thức song ngữ gồm nhiều khía cạnh: song ngữ từ, song ngữ cụm từ, song ngữ cấu trúc, vv Việc khai phá tri thức song ngữ trình chuẩn bị khai phá liệu cho số ứng dụng

Ngày đăng: 05/12/2020, 11:18

Xem thêm:

TỪ KHÓA LIÊN QUAN

Mục lục

    Danh mục các chữ viết tắt

    Danh mục các hình vẽ

    Danh mục các bảng

    1.1 Khai phá tri thức song ngữ

    1.1.1 Xây dựng ngữ liệu song ngữ

    1.1.2 Gióng hàng văn bản

    1.1.2.1 Gióng hàng đoạn/câu

    1.1.3 Xác định cụm từ song ngữ

    1.2 Sơ lược về dịch máy

    1.3 Dịch máy thống kê

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w