Nguồn tài nguyên dữ liệu phục vụ xây dựng và phát triển hệ thống dịch tự động đóng vai trò rất quan trọng nhất là đối với các hệ thống dịch theo phương pháp thống kê hoặc sử dụng mạng Nơron Chất lượng và hiệu quả của các hệ thống dịch tự động sử dụng các phương pháp dịch hiện đại không chỉ phụ thuộc vào thuật toán mà còn phụ thuộc rất lớn vào khối lượng và chất lượng các nguồn tài nguyên dữ liệu hay còn gọi là các kho ngữ liệu Luận văn cũng đã đề xuất được giải pháp xây dựng nguồn tài nguyên phục vụ xây dựng hệ thống dịch sử dụng mạng nơron bao gồm tách từ sử dụng mạng nơron xây dựng vector đặc trưng xây dựng các bộ chuyển mã và giải mã luận văn cũng đã trình bày kết quả thực nghiệm của tác giả luận văn và nhóm nghiên cứu về việc cài đặt hệ thống dịch mạng nơ ron trên nguồn tài nguyên dữ liệu thu được
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN ĐỨC LÊ HUY GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - Năm 2018 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN ĐỨC LÊ HUY GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON Chuyên ngành: Khoa Học Máy Tính Mã số : 60.48.01 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: PGS TS Huỳnh Công Pháp Đà Nẵng - Năm 2018 LỜI CAM ĐOAN Tôi xin cam đoan luận văn với tiêu đề “Giải pháp xây dựng nguồn tài nguyên liệu phục vụ hệ thống dịch tự động sử dụng mạng Nơ ron” hoàn toàn kết nghiên cứu thân tơi chưa cơng bố cơng trình nghiên cứu người khác Trong q trình thực luận văn, tơi thực nghiêm túc quy tắc đạo đức nghiên cứu; kết trình bày luận văn sản phẩm nghiên cứu, khảo sát riêng cá nhân tôi; tất tài liệu tham khảo sử dụng luận văn trích dẫn tường minh, theo quy định Tơi xin hồn tồn chịu trách nhiệm tính trung thực số liệu nội dung khác luận văn Đà Nẵng, ngày 01 tháng 06 năm 2018 Tác giả luận văn ký ghi rõ họ tên Nguyễn Đức Lê Huy LỜI CẢM ƠN Tác giả xin chân thành cảm ơn thầy giáo – PGS TS Huỳnh Công Pháp định hướng khoa học, hướng dẫn tận tình, chu đáo suốt trình thực luận văn Xin bày tỏ lịng biết ơn đến: - Lãnh đạo phịng Cơng nghệ thông tin, lãnh đạo Công ty Điện lực Quảng Ngãi bạn bè đồng nghiệp tạo điều kiện thuận lợi cho tác giả theo học chương trình sau đại học thực luận văn - Quý thầy cô giáo, lãnh đạo khoa Công nghệ thông tin – Trường ĐHBK Đà Nẵng, Trường Cao đẵng Công nghệ thông tin Đà Nẵng, tạo điều kiện thuận lợi cho tác giả suốt thời gian học tập thực đề tài trường! TÓM TẮT LUẬN VĂN GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON Học viên: Nguyễn Đức Lê Huy Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Khóa: K33 Trường Đại học Bách khoa – ĐHĐN Tóm tắt - Nguồn tài nguyên liệu phục vụ xây dựng phát triển hệ thống dịch tự động đóng vai trị quan trọng, hệ thống dịch theo phương pháp thống kê sử dụng mạng Nơron Chất lượng hiệu hệ thống dịch tự động sử dụng phương pháp dịch đại khơng phụ thuộc vào thuật tốn mà cịn phụ thuộc lớn vào khối lượng chất lượng nguồn tài nguyên liệu hay gọi kho ngữ liệu Luận văn đề xuất giải pháp xây dựng nguồn tài nguyên phục vụ xây dựng hệ thống dịch sử dụng mạng nơron bao gồm tách từ sử dụng mạng nơron, xây dựng vector đặc trưng, xây dựng chuyển mã giải mã luận văn trình bày kết thực nghiệm tác giả luận văn nhóm nghiên cứu việc cài đặt hệ thống dịch mạng nơ ron nguồn tài nguyên liệu thu Từ khóa: Xử lý ngôn ngữ tự nhiên; Dịch tự động; Nguồn tài nguyên ngữ liệu; Mạng Nơ ron; Trí tuệ nhân tạo SOLUTIONS FOR RESOURCE DEVELOPMENT RESOURCES FOR SERVICE OF AUTOMATIC TRANSMISSION SYSTEMS Abstract - Data sources for the construction and development of automatic translation systems play a very important role, especially for statistical translation systems or using neural networks The quality and effectiveness of automated translation systems using modern translation methods depend not only on algorithms but also on the volume and quality of data resources, Language store The thesis also proposed a solution to build resources for the construction of a translation system using neural networks, including the separation using neural networks, the construction of characteristic vectors, the construction of transcodes and decoders The thesis also presents the experimental results of the thesis and the research team on the installation of the neural network translation system on the collected data Keyword: Natural language processing; Automatic translations; Material resources; Neuron Network; Artificial intelligence MỤC LỤC Trang phụ bìa Lời cam đoan Lời cảm ơn Tóm tắt luận văn Danh mục bảng Danh mục hình MỞ ĐẦU .1 I Lý chọn đề tài II Mục đích nghiên cứu III Đối tượng phạm vi nghiên cứu III.1 Đối tượng nghiên cứu: III.2 Phạm vi nghiên cứu .2 IV Phương pháp nghiên cứu IV.1 Phương pháp lý thuyết IV.2 Phương pháp thực nghiệm V Ý nghĩa đề tài V.1 Ý nghĩa khoa học: V.2 Ý nghĩa thực tiễn: VI Cấu trúc luận văn CHƯƠNG TỔNG QUAN NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ DỊCH TỰ ĐỘNG 1.1 1.2 1.3 1.4 1.5 Mở đầu Xử lý ngôn ngữ tự nhiên dịch tự động .4 Nguồn tài nguyên liệu phục vụ dịch tự động Thực trạng nguồn tài nguyên liệu chất lượng dịch tự động .13 Kết luận chương 1: 16 CHƯƠNG MỘT SỐ GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ DỊCH TỰ ĐỘNG .17 2.1 Mở đầu 17 2.2 2.3 2.4 Các phương pháp phân lớp liệu phục vụ xây dựng nguồn tài nguyên 17 Một số giải pháp xây dựng nguồn tài nguyên liệu lớn 22 Kết luận chương .31 CHƯƠNG GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON .33 3.1 Mở đầu 33 3.2 Mơ hình dịch máy sử dụng mạng Nơ ron [1] .34 3.3 Xây dựng nguồn tài nguyên dựa vào tách từ mạng nơ ron 35 3.4 Thực nghiệm khai thác nguồn tài nguyên liệu xây dựng hệ thống dịch sử dụng mạng nơ ron 38 3.5 Kết luận chương .41 Kết luận 42 tài liệu tham khảo 43 Danh mục bảng Số hiệu bảng Tên bảng 1.1 Danh sách kho ngữ liệu song song phổ biến 1.2 Kích thước chi tiết EuroParl Danh mục đổ, hình vẽ, đồ thị (Nếu có) Số hiệu hình vẽ Tên hình vẽ 2.1 Mơ hình q xây dựng nguồn tài ngun liệu phục vụ xử lý ngôn ngữ tự nhiên 2.2 Mô hình xây dựng nguồn tài nguyên từ internet Trang 10 10 Trang 18 23 2.3 Hiệu chỉnh gióng hàng liệu thu 24 2.4 Xác nhận hiệu chỉnh liên kết cặp trang 25 2.5 Giải pháp chuyển đổi cấu trúc định dạng nguồn tài nguyên 29 2.6 Hợp cấu trúc từ điển 30 3.1 Mơ hình dịch sử dụng mạng Nơ ron 35 3.2 Nội dung tập tin từ điển sử dụng mơ hình dịch thống kê (a) dịch sử dụng mạng nơ ron (b)(c) 36 3.3 Sinh Word2Vec sử dụng mơ hình CBOW Skipgram 37 3.4 Tham số hệ thống 40 3.5 Kết dịch 41 MỞ ĐẦU I Lý chọn đề tài Nguồn tài nguyên liệu phục vụ xây dựng phát triển hệ thống dịch tự động đóng vai trị quan trọng, hệ thống dịch theo phương pháp thống kê sử dụng mạng Nơron Chất lượng hiệu hệ thống dịch tự động sử dụng phương pháp dịch đại không phụ thuộc vào thuật tốn mà cịn phụ thuộc lớn vào khối lượng chất lượng nguồn tài nguyên liệu hay gọi kho ngữ liệu Thật vậy, để phát triển hệ thống dịch thống kê, cần đến kho ngữ liệu với kích thước từ 50 triệu đến tỷ đơn vị liệu liên kết mức từ vựng [9], hệ thống dịch sử dụng mạng nơron, cần đến kho ngữ liệu với kích thước lớn gấn vài lần so với kho ngữ liệu dùng dịch thống kê Tuy nhiên, nguồn tài nguyên liệu phục vụ xử lý ngôn ngữ tự nhiên phổ biến tồn kho ngữ liệu: EuroParl, BTEC, ANC, ICE; từ điển: Deutsches Wörterbuch, Oxford English, Gregg Cox [16] đánh giá có kích thước lớn cịn hạn chế so với nhu cầu sử dụng thực tiễn hệ thống dịch sử dụng mạng Nơron Đặc biệt, ngơn ngữ đầu tư quan tâm phát triển tiếng Việt tiếng dân tộc thiểu số Việt Nam, nguồn tài nguyên liệu hạn chế, tồn vài kho ngữ liệu với khối lượng nhỏ chất lượng khiêm tốn Xuất phát từ thực trạng nguồn tài nguyên liệu phục vụ xử lý ngơn ngữ tự nhiên nói chung, phục vụ xây dựng phát triển hệ thống dịch tự động sử dụng mạng Nơron nói riêng, chọn thực luận văn thạc sỹ với đề tài GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON II Mục đích nghiên cứu Mục đích nghiên cứu nhằm đề xuất giải pháp xây dựng nguồn tài ngun liệu có kích thước lớn có chất lượng đảm bảo để phát triển hệ thống dịch tự động sử dụng mạng Nơron III Đối tượng phạm vi nghiên cứu III.1 Đối tượng nghiên cứu: Nguồn tài nguyên liệu bao gồm nguồn tài nguyên đa ngữ website, văn đa ngữ Hệ thống dịch tự động sử dụng phương pháp mạng Nơron Các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên sử dụng phổ biến III.2 Phạm vi nghiên cứu Phạm vi nghiên cứu tập trung vào giải pháp xây dựng nguồn tài nguyên liệu bao gồm ý tưởng, thuật toán chương trình mơ Nguồn tài ngun liệu dạng văn bản, phục vụ hệ thống dịch tự động sử dụng mạng Nơron IV Phương pháp nghiên cứu IV.1 Phương pháp lý thuyết Nghiên cứu tài liệu sở lý thuyết: dịch tự động, trích rút, phân lớp liệu Nghiên cứu thuật toán, phương pháp trích rút, phân lớp văn Nghiên cứu phương pháp xây dựng nguồn tài nguyên liệu phục vụ xử lý ngôn ngữ tự nhiên IV.2 Phương pháp thực nghiệm Nghiên cứu đề xuất giải pháp Xây dựng thuật tốn, cài đặt chương trình thử nghiệm V Ý nghĩa đề tài V.1 Ý nghĩa khoa học: Kết nghiên cứu có ý nghĩa khoa học, góp phần phát triển cơng trình hệ thống xử lý lĩnh vực xử lý ngôn ngữ tự nhiên nói chung dịch tự động nói riêng V.2 Ý nghĩa thực tiễn: Kết đề tài sử dụng làm tài tham khảo nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên dịch tự động Nguồn liệu xây dựng đóng vai trị quan trọng, góp phần phát triển hệ thống dịch tự động nói chung, hệ thống dịch sử dụng mạng Nơron nói riêng VI Cấu trúc luận văn Nội dung luận văn chia thành phần sau: Để thực đề tài này, luận văn trình bày với cấu trúc gồm 03 chương chính: + Chương 1: Tổng quan nguồn tài nguyên liệu phục vụ dịch tự động bao gồm lý thuyết nghiên cứu tổng quan xử lý ngôn ngữ tự nhiên dịch tự động; Nguồn 42 KẾT LUẬN Nguồn tài nguyên liệu phục vụ xử lý ngơn ngữ tự nhiên nói chung phục vụ dịch tự động nói riêng đóng vai trị quan trọng, định đến chất lượng hiệu suất hoạt động đến hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt hệ thống dịch tự động Riêng với hệ thống dịch tự động sử dụng phương pháp dịch đại thống kê mạng nơ ron, kho ngữ liệu phục vụ chúng không yêu cầu chất lượng tốt, đơn vị liệu mức từ, mà kích thước phải thật lớn Trong đó, kho ngữ liệu tồn chưa thật lớn, chất lượng hạn chế, ngơn ngữ quan tâm đầu tư tiếng Việt tiếng dân tộc thiểu số Với vai trò quan trọng thực trạng kho ngữ liệu phục vụ hệ thống dịch tự động sử dụng mạng nơ ron, luận văn nghiên cứu đề xuất giải pháp xây dựng nguồn tài nguyên phục vụ hệ thống dịch tự động sử dụng phương pháp Để thực mục tiêu đặt ra, luận văn nghiên cứu tổng quan lý thuyết xử lý ngôn ngữ tự nhiên, dịch tự động, giải pháp xây dựng nguồn tài nguyên bao gồm giải pháp thu thập xây dựng tài nguyên xử lý ngôn ngữ tự nhiên từ nguồn tài nguyên đa ngữ từ internet giải pháp hợp nguồn tài nguyên tồn Luận văn đề xuất giải pháp xây dựng nguồn tài nguyên phục vụ xây dựng hệ thống dịch sử dụng mạng nơron bao gồm tách từ sử dụng mạng nơron, xây dựng vector đặc trưng, xây dựng chuyển mã giải mã Luận văn trình bày kết cài đặt thực nghiệm tách từ sử dụng mạng nơron thử nghiệm xây dựng hệ thống dịch tự động theo mơ hình mạng nơ ron sử dụng mã nguồn mở OpenNMT với nguồn tài nguyên liệu xây dựng mà tác giả luận văn nhóm nghiên cứu gồm PGS TS Huỳnh Cơng Pháp, NCS Nguyễn Văn Bình học viên cao học Đặng Xuân Hùng thực thời gian qua Mặc dù vậy, luận văn cịn khơng hạn chế, kết dừng lại mức độ nghiên cứu cài đặt thử nghiệm lĩnh vực tác giả luận văn cộng đồng nghiên cứu xử lý ngơn ngữ tự nhiên Trong thời gian đến, nhóm tác giả tiếp tục cải tiến kho ngữ thu thập được, mở rộng theo hướng gán nhãn ứng dụng thuật tốn trí tuệ nhân tạo để kho ngữ liệu có khả tự phát triển biến đổi theo ngữ cảnh tình huấn sử dụng 43 TÀI LIỆU THAM KHẢO [1] Nguyễn Văn Bình, Huỳnh Cơng Pháp, Cải tiến chất lượng dịch tiếng Việt giải pháp kết hợp phương pháp trí tuệ nhân tao kho ngữ liệu lớn, Kỷ yếu Hội thảo Fair 2017 [2] Nguyễn Văn Bình, Huỳnh Cơng Pháp, Huỳnh Thị Tâm Thương, Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt, Kỷ yếu Hội thảo Quốc gia CITA 2017 [3] Huỳnh Công Pháp, New approach for collecting high quality parallel corpora from multilingual Websites, Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services 2011 [4] Huỳnh Công Pháp, Solutions of Creating Large Data Resources in Natural Language Processing Studies in Computational Intelligence, Volume 642, Springer No: ISSN: 1860-949X, E-ISSN: 1860-9503 Pages: 243-254 [5] Minh Quang Nguyen, Dang Hung Tran and Thi Anh Le Pham, Using example-based Machine Translation for English-Vietnamese Translation, Software Engineering Department, Faculty of Information Technology Hanoi National University of Education [6] Wojciech Zaremba, Ilya Sutskever, Oriol Vinyals, Recurrent Neura Network Regularization ( https://arxiv.org/abs/1409.2329v5) [7] Stanford Neural Machine Translation Systems for Spoken Language Domains, Minh-Thang Luong, Christopher D Manning [8] 2017 Machine Translation Quality Evaluation, John Denero, Bridging Translation Research and Practice, https://labs.lilt.com/2017/01/10/mt-quality-evaluation [9] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, BLEU: a Method for Automatic Evaluation of Machine Translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pp 311-318 44 [10] Boxing Chen and Colin Cherry, A Systematic Comparison of Smoothing Techniques for Sentence-Level, Proceedings of the Ninth Workshop on Statistical Machine Translation, pages 362–367, Baltimore, Maryland USA, June 26–27, 2014 [11] Nguyen Quang Phuoc, Yingxiu Quan, Cheol-Young Ock, Building a Bidirectional English-Vietnamese Statistical Machine Translation System by Using MOSES, International Journal of Computer and Electrical Engineering, Volume 8, Number 2, April 2016 [12] Viet Tran Hong, Huyen Vu Thuong, Trung Le Tien, Luan Nghia Pham, Vinh Nguyen Van, The English-Vietnamese Machine Translation System for IWSLT 2015 [13] 1000 câu đàm thoại tiếng Anh thông dụng nhất, https://www.hellochao.tv/2015/01/1001-cau-dam-thoai-tieng-anh-thong-dung.html [14] Bản dịch song ngữ Hiệp định đối tác thương mại xuyên Thái Bình Dương, https://thuvienphapluat.vn/tintuc/vn/hiep-dinh-TPP [15] Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, Josh Schroeder , (Meta-) Evaluation of Machine Translation [16] Duc Tam HOANG, Ondrej BOJAR, Pivoting Methods and Data for Czech- Vietnamese Translation via English, Charles University in Prague, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics, Baltic J Modern Computing, Vol (2016), No 2, pp 190–202 [17] Och, F J (2000) Statistical machine translation: From single-word models to alignment templates Technical Report [18] Kalchbrenner, N and Blunsom, P (2013) Recurrent continuous translation models In Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1700–1709 Association for Computational Linguistics [19] Boitet C (2007), Corpus pour la TA: types, tailles, et problèmes associés, selon leur usage et le type de système Revue franỗaise de linguistique appliquộe Vol XII 2007, pp 25-38 45 [20] Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, Cải tiến chất lượng dịch tự động phương pháp mở rộng kho ngữ liệu, Kỷ yếu Hội thảo quốc gia FAIR 2015 [21] Pierre Lison and Jörg Tiedemann, 2016, OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016) [22] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio 2014 Neural machine translation by jointly learning to align and translate arXiv preprint arXiv:1409.0473 Conference ICLR 2015 [23] Ilya Sutskever, Oriol Vinyals, and Quoc Le 2014 Sequence to sequence learning with neural networks In Advances in Neural Information Processing Systems (NIPS 2014), December [24] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk, and Yoshua Bengio 2014 Learning phrase representations using RNN encoder-decoder for statistical machine translation In Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), October [25] Machine learning, https://medium.com/machine-learning-101 46 47 ... thác xây dựng nguồn tài nguyên liệu lớn + Chương 3: Giải pháp xây dựng nguồn tài nguyên liệu phục vụ hệ thống dịch tự động sử dụng mạng N? ?ron Chương đề xuất giải pháp xây dựng nguồn tài nguyên liệu. .. dịch tự động; Nguồn tài nguyên liệu phục vụ dịch tự động; thực trạng nguồn tài nguyên liệu chất lượng dịch tự động + Chương 2: Một số giải pháp xây dựng nguồn tài nguyên liệu phục vụ dịch tự động. .. số giải pháp khai thác, xây dựng nguồn tài nguyên liệu phục vụ dịch tự động có sẵn bao gồm phương pháp phân lớp liệu phục vụ xây dựng nguồn tài nguyên; số giải pháp xây dựng nguồn tài nguyên liệu