DSpace at VNU: Nghiên cứu mô hình ngôn ngữ dựa trên mạng nơron tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án,...
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THƢƠNG HUYỀN NGHIÊN CỨU MƠ HÌNH NGƠN NGỮ DỰA TRÊN MẠNG NƠRON LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM Hà Nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THƢƠNG HUYỀN NGHIÊN CỨU MƠ HÌNH NGƠN NGỮ DỰA TRÊN MẠNG NƠRON Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan kết luận văn sản phẩm riêng cá nhân tơi Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan Hà Nội, ngày 20 tháng 10 năm 2015 Ngƣời cam đoan Vũ Thƣơng Huyền LỜI CẢM ƠN Tơi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Nguyễn Văn Vinh – Bộ mơn Khoa học máy tính - Khoa Cơng nghệ thông tin - Đại học Công Nghệ - Đại học Quốc gia Hà Nội hướng dẫn, bảo tận tình hết lòng giúp đỡ tơi suốt thời gian làm luận văn Tôi xin cảm ơn thầy cô giáo Khoa Công nghệ thông tin – Đại học Công Nghệ - Đại học Quốc gia Hà Nội cho tơi nhiều kiến thức bổ ích học tập trường Xin cảm ơn anh nhóm nghiên cứu Dịch máy thống kê thầy giáo TS Nguyễn Văn Vinh hướng dẫn giúp đỡ trình nghiên cứu Xin cảm ơn ban chủ nhiệm đề tài thành viên nhóm cho hội tham gia đề tài “Cải tiến chất lượng dịch máy thống kê dựa vào thông tin cú pháp phụ thuộc”, mã số QC.15.23 Đây hội cho đưa luận văn vào thực tiễn Cuối xin chân thành cảm ơn Ban lãnh đạo đồng nghiệp Khoa Công nghệ thông tin – Đại học Thủy Lợi tạo điều kiện cho trình học Học viên Vũ Thƣơng Huyền MỞ ĐẦU Ngày công nghệ thông tin bùng nổ khắp giới, lượng thông tin trao đổi mạng lớn Dữ liệu văn bản, hình ảnh, âm trở thành liệu khổng lồ phục vụ nhu cầu lưu trữ trao đổi thơng tin người Đã có nhiều ứng dụng đưa thay người kiểm tra tả văn bản, nhận dạng liệu, dịch tài liệu, nhận dạng tiếng nói, phân đoạn từ, dịch thống kê,v.v Để giúp máy tính làm điều người ta đưa mơ hình ngơn ngữ thành phần quan trọng để áp dụng vào lĩnh vực Mơ hình ngơn ngữ phân phối xác suất ngữ liệu đơn ngữ sử dụng nhiều toán khác xử lý ngôn ngữ tự nhiên Thực chất mơ hình ngơn ngữ cho biết xác suất câu cụm từ tùy thuộc vào ngơn ngữ Chính mơ hình ngơn ngữ tốt đánh giá câu ngữ pháp độ trơi chảy tốt câu có thứ tự ngẫu nhiêu Cách thông dụng dùng để mơ hình hóa ngơn ngữ thơng qua N-gram Khi xây dựng mơ hình ngơn ngữ cần phải có lượng nhớ lớn để lưu trữ xác suất tất chuỗi cấu hình máy mạnh để tính tốn, xử lý Có nhiều cách lượng tử để nhằm tối ưu nhớ xử lý Các phương pháp làm mịn, truy hồi, đồng hóa, nén phương pháp trước dùng để tối ưu giá trị xác suất tối ưu bit lưu trữ Một số ứng dụng xây dựng mơ hình ngơn ngữ sử dụng năm gần SRILM toolkit [21], Random Forest Language Model toolkit [22], v.v Mục đích SRILM để hỗ trợ ước lượng đánh giá mơ hình ngơn ngữ Random Forest Language Model Toolkit xây dựng dựa SRILM Toolkit, mô hình ngơn ngữ định cho kết thực tốt Hay số công cụ khác như: Language Model toolkit, Neural Probability LM toolkit, MSRLM, v.v Với công cụ sử dụng kỹ thuật riêng để làm cho mơ hình ngơn ngữ hiệu Gần nhà khoa học xây dựng mơ hình ngơn ngữ dựa mạng nơron nhằm cải thiện việc tính toán hiệu Mạng nơron sử dụng nhiều học máy khai phá liệu Khi đưa mạng nơron vào xây dựng mơ hình ngơn ngữ thu kết tốt độ hỗn tạp tỉ lệ lỗi từ Mạng nơron học từ từ khác để đưa mối liên hệ từ đưa số lượng lớn liệu học từ liệu ban đầu Do đó, luận văn tập trung nghiên cứu việc sử dụng mạng nơ-ron vào việc xây dựng mơ hình ngơn ngữ giúp cải tiến mơ hình cũ Từ nghiên cứu có đánh giá xác ưu điểm sử dụng mạng nơ-ron với mơ hình trước Đồng thời đưa hướng nghiên cứu xây dựng mơ hình ngơn ngữ Nội dung luận văn bao gồm phần sau: Chương 1: Trình bày kiến thức mơ hình ngơn ngữ, mơ hình N-gram, phương pháp làm mịn độ đo dùng để đánh giá mơ hình ngơn ngữ Chương 2: Nghiên cứu sâu mơ hình ngơn ngữ dựa mạng nơron Đặc biệt tập trung vào mơ hình ngôn ngữ dựa mạng nơron hồi quy Chương 3: Thực nghiệm đánh giá mơ hình theo hai phương pháp: trực tiếp gián tiếp Đánh giá trực tiếp chạy liệu với hai ngôn ngữ tiếng Anh tiếng Việt mơ hình so sánh mơ hình khác Đánh giá gián tiếp việc gắn mơ hình vào hệ thống dịch máy thống kê Moses để đánh giá kết dịch Chƣơng 1: MƠ HÌNH NGƠN NGỮ Mơ hình ngơn ngữ nhận nhiều quan tâm nhà khoa học Đã có nhiều mơ hình ngơn ngữ đưa nhằm cải tiến mơ hình ngơn ngữ Mơ hình ngơn ngữ sử dụng vào tốn nhận dạng tiếng nói dịch máy thống kê Trong chương tơi trình bày kiến thức mơ hình ngơn ngữ như: định nghĩa mơ hình ngơn ngữ, mơ hình N-gram, độ đo để đánh giá mơ hình giới thiệu số phương pháp làm mịn Từ kiến thức sở hiểu sâu mơ hình ngơn ngữ sau 1.1 Giới thiệu chung Mơ hình ngơn ngữ phân bố xác suất đoạn văn tập liệu văn lớn Ví dụ, mơ hình ngơn ngữ dựa tập liệu giáo dục xác suất câu “hôm chúng em học” cao câu “hôm chúng học em đi” Thuật ngữ mơ hình ngơn ngữ bắt nguồn từ mơ hình xác suất sinh ngôn ngữ dùng hệ thống nhận dạng tiếng nói, phát triển vào năm 1980 Lịch sử phát triển mơ hình ngơn ngữ từ đầu kỷ 20 Andrey Markov đưa mơ hình Markov sử dụng để lập mơ hình cho chuỗi chữ Sau Claude Shannon đưa mơ hình cho chuỗi chữ từ Những năm 90 mơ hình ngơn ngữ sử dụng rộng rãi ứng dụng xử lý ngôn ngữ tự nhiên phân loại từ vựng, dịch máy nhận dạng chữ viết Mơ hình ngơn ngữ nhà nghiên cứu sử dụng để truy hồi thông tin Mô hình ngơn ngữ định nghĩa sau: V tập tất từ ngơn ngữ Ví dụ ta xây dựng mơ hình ngơn ngữ cho tiếng anh ta có: 𝑉 = {𝑡ℎ𝑒, 𝑑𝑜𝑔, 𝑙𝑎𝑢𝑔ℎ𝑠, 𝑠𝑎𝑤, 𝑏𝑎𝑟𝑘𝑠, 𝑐𝑎𝑡 … } Tập V tập liệu lớn, cỡ hàng nghìn từ tập hữu hạn Một câu ngôn ngữ tập từ đứng gần w1w2…wn (với 𝑛 ≥ 1.), ký hiệu đầu câu cuối câu (hai ký hiệu không thuộc tập V) Ví dụ: the dog barks the cat laughs the cat saw the dog Tập V+ tập câu sinh từ từ tập V Đây tập không hữu hạn Mơ hình ngơn ngữ: Là mơ hình gồm tập hữu hạn V hàm P(w1w2…wn) sau: Với cụm (w1w2…wn) V+, P(w1w2…wn) ≥ 𝑤 𝑤 …𝑤 𝑛 𝑉+ 𝑃(𝑤1 𝑤2 … 𝑤𝑛 ) = Khi đó, P(w1w2…wn) phân bố xác suất câu tập V+ Gọi C(w1w2…wn) số lần xuất câu w1w2…wn tập huấn luyện, N tổng câu Mơ hình ngơn ngữ đơn giản tập liệu huấn luyện định nghĩa sau: 𝑃 𝑤1 𝑤2 … 𝑤𝑛 = 𝐶(𝑤1 𝑤2 … 𝑤𝑛 ) 𝑁 (1.1) Tuy nhiên, mơ hình tốt cho xác suất với câu không xuất tập liệu huấn luyện, khơng thể tổng qt hóa cho trường hợp câu khơng có tập V+ Mặc dù có hạn chế mơ hình ngơn ngữ xem xét để nghiên cứu cải tiến lý sau: Mơ hình ngơn ngữ cần cho số ứng dụng nhận diện giọng nói dịch máy Từ định nghĩa hàm P ức lượng tham số từ tập liệu huấn luyện cho kết với nhiều ngữ cảnh khác nhau: ví dụ mơ hình Markov ẩn trình bày phần 1.2 Mơ hình N-gram Câu hỏi đặt xác suất P(w1w2…wn) bao nhiêu? Phân tách P xác suất dây chuyền (chain rule of probability): 𝑃 𝑋1 … 𝑋𝑛 = 𝑃 𝑋1 𝑃 𝑋2 𝑋1 𝑃 𝑋3 𝑋12 … 𝑃 𝑋𝑛 𝑋1𝑛−1 𝑛 𝑃(𝑋𝑘 |𝑋1𝑘−1 ) = (1.2) 𝑘 =1 Ứng dụng xấp xỉ với từ: 𝑃 𝑤1 … 𝑤𝑛 = 𝑃 𝑤1 𝑃 𝑤2 𝑤1 𝑃 𝑤3 𝑤12 … 𝑃 𝑤𝑛 𝑤1𝑛−1 𝑛 𝑃(𝑤𝑘 |𝑤1𝑘 −1 ) = (1.3) 𝑘 =1 Quy tắc dây chuyền mối liên hệ xác suất cụm từ xác suất từ sau số từ trước Do mơ hình cần lượng nhớ lớn để lưu xác xuất tất cụm từ Rõ ràng quy tắc không hiệu chiều dài cụm từ lớn việc tính 𝑃(𝑤𝑘 |𝑤1𝑘−1 ) khó Giả sử cần tính xác suất từ w sau cụm từ h, hay P(w|h) Ví dụ h cụm từ tiếng anh “its water is so transparent” tính xác suất từ the sau cụm từ là: 𝑃(𝑡ℎ𝑒|𝑖𝑡𝑠 𝑤𝑎𝑠 𝑖𝑠 𝑠𝑜 𝑡𝑟𝑎𝑛𝑠𝑝𝑎𝑟𝑒𝑛𝑡 𝑡ℎ𝑎𝑡) = 𝐶(𝑖𝑡𝑠 𝑤𝑎𝑠 𝑖𝑠 𝑠𝑜 𝑡𝑟𝑎𝑛𝑠𝑝𝑎𝑟𝑒𝑛𝑡 𝑡ℎ𝑎𝑡 𝑡ℎ𝑒) 𝐶(𝑖𝑡𝑠 𝑤𝑎𝑠 𝑖𝑠 𝑠𝑜 𝑡𝑟𝑎𝑛𝑠𝑝𝑎𝑟𝑒𝑛𝑡 𝑡ℎ𝑎𝑡) (1.4) Với tập liệu đủ lớn ta đếm tần suất xuất hai cụm từ 𝑖𝑡𝑠 𝑤𝑎𝑠 𝑖𝑠 𝑠𝑜 𝑡𝑟𝑎𝑛𝑠𝑝𝑎𝑟𝑒𝑛𝑡 𝑡ℎ𝑎𝑡 𝑡ℎ𝑒 𝑖𝑡𝑠 𝑤𝑎𝑠 𝑖𝑠 𝑠𝑜 𝑡𝑟𝑎𝑛𝑠𝑝𝑎𝑟𝑒𝑛𝑡 𝑡ℎ𝑎𝑡 bên Trong trường hợp liệu khơng đủ lớn việc ước lượng xác suất theo cơng thức (1.4) khó thực Hay có liệu đủ lớn việc đếm số lần xuất khó Mơ hình N-gram đời thay xác suất từ phụ thuộc vào tồn từ trước xấp xỉ hữu hạn từ trước Ví dụ với mơ hình 2-gram, xác suất từ phụ thuộc vào từ đứng liền trước nó, thay tồn dãy từ w1w2…wn-1, hay: 𝑃 𝑤𝑛 𝑤1𝑛−1 ≈ 𝑃 𝑤𝑛 𝑤𝑛 −1 Ví dụ ta có: 𝑃(𝑡ℎ𝑒|𝑖𝑡𝑠 𝑤𝑎𝑡𝑒𝑟 𝑖𝑠 𝑠𝑜 𝑡𝑟𝑎𝑛𝑠𝑝𝑎𝑟𝑒𝑛𝑡 𝑡ℎ𝑎𝑡) ≈ 𝑃(𝑡ℎ𝑒|𝑡ℎ𝑎𝑡) (1.5) Giả định xác suất từ phụ thuộc vào hữu hạn từ trước gọi xấp xỉ Markov Xấp xỉ Markov dự đốn xác suất từ biết 1, ,n từ trước (với n đủ nhỏ) Mơ hình Markov gọi mơ hình N-gram Áp dụng xấp xỉ Markov ta có cơng thức (1.5) tương đương sau: 𝑛−1 𝑃 𝑤𝑛 𝑤1𝑛 −1 ≈ 𝑃(𝑤𝑛 |𝑤𝑛−𝑁+1 ) (1.6) Mơ hình 2-gram ví dụ tương đương công thức xác suất: 𝑛 𝑃 𝑤1 … 𝑤𝑛 ≈ 𝑃 𝑤𝑘 𝑤𝑘−1 (1.7) 𝑘 =1 Làm để ước lượng xác suất 2-gram hay N-gram? Cách đơn giản hay sử dụng Ƣớc lƣợng hợp lý cực đại (Maximum Likelihood Estimation - MLE) Ví dụ, với xác suất 2-gram từ y sau từ x số lần xuất từ xy,C(xy) 𝑃 𝑤𝑛 𝑤𝑛 −1 = 𝐶(𝑤𝑛 −1 𝑤𝑛 ) 𝑤 𝐶(𝑤𝑛−1 𝑤) (1.8) Đơn giản công thức (1.8) cách coi số lần xuất 2-gram wn-1 số lần xuất từ wn-1 ta có: 𝑃 𝑤𝑛 𝑤𝑛−1 = 𝐶(𝑤𝑛 −1 𝑤𝑛 ) 𝐶(𝑤𝑛−1 ) (1.9) Xem ví dụ đơn giản với câu sau: I am Sam Sam I am I not like green eggs and ham Xác suất 2-gram tập liệu trên: 𝑃 𝐼 = = 0.67 𝑃 𝑆𝑎𝑚 = 𝑃 𝑆𝑎𝑚 < 𝑠 > = = 0.5 𝑃 𝑆𝑎𝑚 𝑎𝑚 = = 0.33 = 0.5 𝑃 𝑎𝑚 𝐼 = 𝑃 𝑑𝑜 𝐼 = 3 = 0.67 = 0.33 Công thức MLE cho trường hợp tổng quát N-gram: 𝑛 −1 𝑃 𝑤𝑛 𝑤𝑛−𝑁+1 = −1 𝐶(𝑤𝑛𝑛−𝑁+1 𝑤𝑛 ) 𝑛−1 𝐶(𝑤𝑛−𝑁+1 ) 10 (1.10) TÀI LIỆU THAM KHẢO [1] Y Bengio, R Ducharme, P Vincent A neural probabilistic language model Journal of Machine Learning Research, 3:1137-1155 2003 [2] Brown, P.F, Della Pietra, V.J de Souza, P.V., lai, J.C., and Mercerr, R.L Classbased n-gram models of natural language Computational Linguistics, 18(4), 467-479 1992b [3]D Chiang A Hierarchical Phrase-Based Model for Statistical Machine Translation In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) 2005 [4] Chen, S and Goodman, J An empirical study of smoothing techniques for language modeling Computer Speech & Language, 1999, 13: pages 359-393 (35) [5] Gale, W.A and Sampson, G Good-turing frequency estimation without tears Journal of Quantitative Linguistics, 2, 217-237 1995 [6] Good, I.J The population frequencies of species and the estimation of population parameters Biometrika, 40, 16-264 1953 [7] D Jurafsky and J H Martin Speech and Language Processing: An introduction to speech recognition, computational linguistics and natural language processing Chapter 2007 [8] Katz, S.M Estimation of probabilities from sparse data for the language model component of a speech recogniser IEEE Transactions on Acoustics, Speech, and Signal Processing, 35(3), 400-401 1987 [9] Kneser, R and Ney, H Improved clustering techniques for class-based statistical language modelling In EUROSPEECH-93, pp.973-976 1993 [10] Lidstone, G J Note on the general case of the Bayes-Laplace formula for inductive or a posteriori probabilities Transactions of the Faculty of Actuaries, 1920, 8, 182–192 [11] T Mikolov, M Karaat, L Burget, J Cernocky, S Khudanpur Recurrent neuralnetwork based language model In: Proceedings of Interspeech.2010 11 [12] T Mikolov, S Kombrink, L Burget, J _Cernock_y, S Khudanpur Extensions of recurrent neural network language model, In: Proceedings of ICASSP, 2011 [13] T Mikolov: Statistical Language Models based on Neural Networks PhD thesis, Brno University of Technology, 2012 [14] T Mikolov, Wen-tau Yih, and Geoffrey Zweig, Linguistic Regularities in Continuous Space Word Representations, in Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT-2013), Association for Computational Linguistics, 27 May 2013 [15] M Minsky, S Papert Perceptrons: An Introduction to Computational Geometry,MIT Press, 1969 [16] Philipp Koehn, Hieu Hoang, Alexandra Birch, ChrisCallison-Burch, Marcello Federico, Nicola Bertoldi,Brooke Cowan, Wade Shen, Christine Moran, RichardZens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst 2007 Moses: Open source toolkit for statistical machine translation In Proceedings of ACL, Demonstration Session [17] Pipineni K, S.Roukó, T.Ward, and W.J.Zhu Blue a methob or automatic evaluation of machine translation In Proc of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, PA, July, 2002, pages 311-318 [18] D E Rumelhart, G E Hinton, R J Williams Learning internal representations by back-propagating errors Nature, 323:533.536, 1986 [19] H Sak, A Senior, and F Beaufays, “Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition,” arXiv preprint arXiv:1402.1128, 2014 [20] H Schwenk, J Gauvain Training Neural Network Language Models On Very Large Corpora In Proceedings of Joint Conference HLT/EMNLP, 2005 [21] A Stolcke SRILM - An Extensible Language Modeling Toolkit Proc Intl Conf on Spoken Language Processing, vol 2, pp 901-904, 2002 12 [22] Su, Y.:Random Forest Language Model Toolkit, http://www.clsp.jhu.edu/~yisu/rflm.html [23] Thai Phuong Nguyen, Akira Shimazu, Tu Bao Ho, Minh Le Nguyen, and Vinh Van Nguyen 2008 A tree-to-string phrase-based model for statistical machine translation In Proceedings of the Twelfth Conference on Computational Natural Language Learning (CoNLL 2008), pages 143–150, Manchester, England, August Coling 2008 Organizing Committee 13 ... mơ hình ngơn ngữ, mơ hình N-gram, phương pháp làm mịn độ đo dùng để đánh giá mơ hình ngơn ngữ Chương 2: Nghiên cứu sâu mơ hình ngôn ngữ dựa mạng nơron Đặc biệt tập trung vào mơ hình ngơn ngữ dựa. .. hình ngơn ngữ hiệu Gần nhà khoa học xây dựng mơ hình ngơn ngữ dựa mạng nơron nhằm cải thiện việc tính tốn hiệu Mạng nơron sử dụng nhiều học máy khai phá liệu Khi đưa mạng nơron vào xây dựng mô. .. xây dựng mơ hình ngơn ngữ giúp cải tiến mơ hình cũ Từ nghiên cứu có đánh giá xác ưu điểm sử dụng mạng nơ-ron với mơ hình trước Đồng thời đưa hướng nghiên cứu xây dựng mơ hình ngơn ngữ Nội dung