Nhan đề : Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên Tác giả : Võ Thị Quỳnh Trang Người hướng dẫn: Nguyễn Thị Thanh Huyền Từ khoá : Mô hình học sâu; Ngôn ngữ tự nhiên Năm xuất bản : 2020 Nhà xuất bản : Trường đại học Bách Khoa Hà Nội Tóm tắt : Tổng quan về máy học, xử lý ngôn ngữ tự nhiên; bài toán phân tích sắc thái văn bản; bài toán phân loại chủ đề văn bản.
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -- - LUẬN VĂN THẠC SĨ 2019A - TỐN TIN MỘT SỐ MƠ HÌNH HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÕ THỊ QUỲNH TRANG VÕ THỊ QUỲNH TRANG trang.vtqca190267@sis.hust.edu.vn Chuyên ngành Toán Tin CA190267 Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Viện: Toán ứng dụng Tin học HÀ NỘI, 2020 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ MỘT SỐ MƠ HÌNH HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÕ THỊ QUỲNH TRANG trang.vtqca190267@sis.hust.edu.vn Chuyên ngành Toán Tin Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Viện: Toán ứng dụng Tin học Chữ ký GVHD HÀ NỘI, 09/2020 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Võ Thị Quỳnh Trang Đề tài luận văn: Một số mơ hình học sâu xử lý ngơn ngữ tự nhiên Chuyên ngành: Toán Tin Mã số SV: CA190267 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 23/09/2020 với nội dung sau: • Khơng sửa chữa Ngày 24 tháng 09 năm 2020 Giáo viên hướng dẫn Tác giả luận văn TS Nguyễn Thị Thanh Huyền Võ Thị Quỳnh Trang CHỦ TỊCH HỘI ĐỒNG TS Lê Chí Ngọc Lời cảm ơn Để hồn thành luận văn này, xin trân trọng cảm ơn thầy cô hướng dẫn TS Nguyễn Thị Thanh Huyền TS Lê Chí Ngọc tận tình bảo, hướng dẫn tơi suốt q trình hồn thiện luận văn Xin chân thành cảm ơn thầy, cô thuộc viện Toán ứng dụng Tin học trường Đại học Bách khoa Hà Nội nhiệt tình giảng dạy cho thời gian học tập Tôi xin gửi lời cảm ơn tới anh Bùi Trung Ngọc, anh Đào Mạnh Tuấn tập thể phòng Nghiên cứu Phát triển, công ty Cổ phần Truyền thông Công nghệ iCOMM Việt Nam giúp tơi thực hóa nghiên cứu Cuối cùng, kiến thức khả diễn giải thân cịn nhiều thiếu sót hạn chế, mong nhận dẫn đóng góp thầy để luận văn tơi hồn thiện Tơi xin chân thành cảm ơn! Hà Nội, ngày 14 tháng 09 năm 2020 Võ Thị Quỳnh Trang Tóm tắt nội dung Hiện nay, xử lý ngơn ngữ tự nhiên nói chung, tốn phân loại văn nói riêng có ý nghĩa quan trọng kinh tế Việc phân loại văn giúp doanh nghiệp tổ chức khai thác thông tin cách nhanh chóng hiệu quả, từ đưa chiến lược phát triển phù hợp với yêu cầu thị trường Tuy nhiên số lượng liệu lớn, tốc độ lan truyền nhanh nên đòi hỏi hệ thống phân loại tự động thời gian thực Trong luận văn này, giới thiệu hai mơ hình phân loại văn bản: mơ hình phân loại chủ đề văn mơ hình phân loại sắc thái văn Các mơ hình xây dựng dựa thuật toán học sâu nhằm giải vấn đề nhập nhằng ngôn ngữ tự nhiên mà khơng địi hỏi kiến thức chun mơn ngơn ngữ Kết hai mơ hình tương đối tốt, có tính khả thi cao độ xác hiệu để triển khai thực tiễn Mã nguồn mơ hình viết ngơn ngữ lập trình Python, với hỗ trợ giúp đỡ từ nhóm Nghiên cứu Phát triển công ty Công nghệ Truyền thông iCOMM Việt Nam Kết mô hình thể giao diện web cho người dùng dễ theo dõi, nâng cao tính thực tiễn cho kết nghiên cứu Mục lục Mở đầu Cơ sở lý thuyết 1.1 Máy học 1.1.1 Một số khái niệm 1.1.2 Học sâu 11 1.1.3 Đánh giá mơ hình máy học 22 Xử lý ngôn ngữ tự nhiên 25 1.2.1 Giới thiệu chung 25 1.2.2 Bài toán phân loại văn 28 1.2 Bài tốn phân tích sắc thái văn 31 2.1 Phát biểu toán 33 2.2 Mơ hình đề xuất 34 2.2.1 Xác định đối tượng phân tách nội dung 34 2.2.2 Xác định sắc thái 38 Cài đặt thực nghiệm 43 2.3.1 Thu thập tiền xử lý liệu 43 2.3.2 Kết thử nghiệm 45 2.3 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang Bài toán phân loại chủ đề văn 52 3.1 Phát biểu toán 52 3.2 Mơ hình đề xuất 53 3.2.1 Biểu diễn văn 53 3.2.2 Mơ hình phân loại chủ đề văn 56 Cài đặt thực nghiệm 58 3.3.1 Thu thập tiền xử lý liệu 58 3.3.2 Kết thử nghiệm 59 3.3 Kết luận chung 66 Tài liệu tham khảo 69 Danh sách hình vẽ 1.1 Kiến trúc perceptron 14 1.2 Mặt phẳng định tạo perceptron với đầu vào hai chiều 15 1.3 Kiến trúc mạng nơ-ron nhiều lớp 15 1.4 Kiến trúc mạng nơ-ron hồi tiếp [8] 18 1.5 Kiến trúc ô nhớ mạng LSTM [36] 20 1.6 Trường hợp khớp, tối ưu khớp mơ hình 22 1.7 Ma trận confusion cho toán phân lớp nhị phân 24 1.8 Quá trình xử lý ngôn ngữ tự nhiên 26 1.9 Các lớp, liệu huấn luyện liệu kiểm thử phân loại văn 29 1.10 Q trình xây dựng mơ hình phân loại văn 30 2.1 Kiến trúc mạng nhớ dài ngắn-hạn hai chiều (BiLSTM) [5] 39 2.2 Quá trình học chuyển tiếp (transfer learning) [34] 41 2.3 Kiến trúc mạng tự động mã hóa câu 42 2.4 Độ xác mơ hình tập liệu huấn luyện liệu thử 46 2.5 Giá trị mát tập liệu huấn luyện liệu thử 47 2.6 Kết tập liệu kiểm thử hai mơ hình sử dụng khơng sử dụng tham số huấn luyện trước 47 LUẬN VĂN THẠC SỸ 2.7 Võ Thị Quỳnh Trang Kết độ xác hàm mát hai mơ hình huấn luyện tập liệu nhỏ 48 2.8 Kết thử nghiệm mơ hình dự đoán sắc thái câu 48 2.9 Demo tách phân tích sắc thái đối tượng văn 50 2.10 Demo tách phân tích sắc thái đối tượng văn 50 2.11 Kết tổng hợp sắc thái đối tượng viết 51 3.1 Số lần xuất từ vựng văn 54 3.2 Kiến trúc mạng nơ-ron nhiều lớp ẩn cho toán phân loại chủ đề văn 57 3.3 Biểu đồ số lượng liệu chủ đề 58 3.4 Độ xác huấn luyện tập liệu huấn luyện kiểm tra tập liệu thử 60 3.5 Bảng kết độ xác mơ hình 61 3.6 Giá trị mát ba mơ hình một, ba sáu lớp ẩn qua vòng lặp 61 3.7 Bảng giá trị hàm mát qua vòng lặp 62 3.8 Phân bố liệu chủ đề tập liệu kiểm thử 62 3.9 Kết ba mơ hình liệu kiểm thử 63 3.10 Giá trị recall, precision lớp mơ hình lớp ẩn ba lớp ẩn 64 3.11 Kết so sánh thuật toán toán phân loại chủ để văn 65 Danh sách thuật toán Thuật tốn bóc tách đối tượng văn 36 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang Hình 3.9: Kết ba mơ hình liệu kiểm thử Có thể thấy trường hợp mơ hình sáu lớp ẩn bị khớp rõ rệt giá trị hàm mát cao (78883) độ xác thấp (0.4879) Hai mơ hình lớp ẩn ba lớp ẩn cho kết tương đối tốt với độ xác khoảng 0.9 Hình 3.10 cho thấy kết chi tiết cho lớp Dựa vào kết này, thấy: • Bộ phân lớp cho kết tương đối tốt, điểm số F1 lớp chủ yếu nằm khoảng từ 85% − 98% • Các lớp có số lượng liệu so với lớp khác (Khoa học: 397 bài, Đời sống: 417 bài) có kết thấp hẳn so với lớp khác Điều mẫu liệu chưa đủ đa dạng, dẫn đến kết bị ảnh hưởng lớp cịn lại • Mặc dù có giá trị mát lớn so với mơ hình lớp ẩn, mơ hình ba lớp ẩn cho thấy ổn định việc phân loại nhãn số lượng việc sử dụng ba lớp ẩn giúp cho mơ hình tránh bị tác động q nhiều thay đổi nhỏ Thử nghiệm toán với số thuật tốn khác có biểu diễn đầu vào giống với mơ hình học sâu, tơi có kết Hình 3.11 Có thể thấy mơ hình sử dụng mạng nơ-ron nhiều lớp ẩn cho kết vượt trội hẳn so với hai thuật tốn cịn lại trường hợp ba có chung giá trị đầu vào 63 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang Hình 3.10: Giá trị recall, precision lớp mơ hình lớp ẩn ba lớp ẩn Điều mơ hình học sâu cho phép học đặc trưng bậc cao từ liệu thô đầu vào để tiến hành phân loại, thuật toán máy học Naive Bayes kNN sử dụng trực tiếp liệu thô để phân loại Kết cho thấy ứng dụng quan trọng mơ hình học sâu tốn xử lý ngôn ngữ tự nhiên không yêu cầu chuyên gia ngôn ngữ để khai thác đặc trưng liệu mà trình thực tự động lớp mạng nơ-ron Như vậy, chương này, giới thiệu cách sử dụng mơ hình học sâu tốn phân loại chủ đề văn Ưu điểm phương pháp tự động học biểu diễn đặc trưng bậc cao liệu tiến hành phân loại Kết trả từ mơ hình tương đối tốt hiệu đáp ứng nhu cầu thực tế Tuy nhiên, sử dụng mơ hình học sâu nên nhược điểm phương pháp kết trả từ mơ hình khó giải thích Từ đó, hướng nghiên cứu cho tốn ngồi tăng chất lượng mơ hình giải thích kết từ mơ hình học sâu Một hướng nghiên cứu khác việc thêm lớp liệu với lượng liệu gán nhãn Định hướng 64 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang Hình 3.11: Kết so sánh thuật tốn mạng nơ-ron nhiều lớp ẩn, thuật toán Naive Bayes kNN tiền đề cho việc mở rộng mơ hình quy mô lớn 65 Kết luận chung Trong luận văn này, tơi trình bày số mơ hình học sâu sử dụng toán phân loại văn Việc sử dụng mơ hình học sâu cho phép máy tính giải tốn xử lý ngôn ngữ tự nhiên mà không yêu cầu cần sử dụng nhiều kiến thức ngôn ngữ để lập trình Các mơ hình tự học biểu diễn đặc trưng bậc cao văn dựa biểu diễn thơ ban đầu Q trình xây dựng mơ hình bao gồm bước chính: biểu diễn liệu xác định kiến trúc mơ hình học sâu Dựa vào kết thực nghiệm, tơi có số kết luận sau đây: • Việc lựa chọn cách biểu diễn liệu phụ thuộc vào yêu cầu toán Trong toán phân loại chủ đề văn bản, yếu tố cần quan tâm từ vựng bài, tơi lựa chọn biểu diễn văn túi từ kết hợp với điểm TF-IDF Trong toán phân loại sắc thái văn bản, cần quan tâm từ vựng, ngữ nghĩa vị trí từ câu, tơi sử dụng biểu diễn word2vec • Các mơ hình học sâu cho phép học đặc trưng bậc cao liệu, lưu trữ thơng tin để giải tốn Ngồi ra, số mơ mạng nơ-ron hồi tiếp, mạng LSTM, mạng LSTM hai chiều có 66 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang khả học ngữ cảnh câu • Độ phức tạp mơ hình khơng tỉ lệ thuận với chất lượng mơ hình Trong toán phân loại chủ đề văn bản, việc sử dụng mơ hình với kiến trúc q phức tạp dẫn đến việc mơ hình bị q khớp Do đó, q trình xây dựng mơ hình, tùy thuộc vào liệu yêu cầu toán để lựa chọn mơ hình thích hợp • Việc khởi tạo trọng số bên đầu có tác động lớn đến kết mơ hình Trong tốn phân loại sắc thái, sử dụng tham số mô hình seq2seq để làm tham số khởi tạo, kết cho thấy có hiệu rõ rệt tập liệu lớn liệu nhỏ Các mô hình học sâu mà tơi sử dụng tốn có kích thước khơng q lớn, mơ hình áp dụng thực tế (đảm bảo tài nguyên chất lượng) Các mơ hình trả kết thời gian thực, đáp ứng hiệu yêu cầu Tuy nhiên, kết trả từ mơ hình học sâu chưa giải thích được, điều gây khó khăn sử dụng thực tế cho khách hàng Ngồi ra, chi phí để xây dựng mơ hình cho lĩnh vực vấn đề đáng lưu tâm độ xác mơ hình phụ thuộc 67 Các hướng nghiên cứu tiếp Tác giả xin đề xuất số hướng nghiên cứu để phát triển nội dung luận văn sau: • Nghiên cứu cách giải thích kết từ mơ hình học sâu • Giảm thời gian mở rộng mơ hình cho lĩnh vực • Nghiên cứu cách phân tích nội dung từ biểu tượng cảm xúc • Phân tích sắc thái ứng với thuộc tính đối tượng 68 Tài liệu tham khảo [1] Horace B Barlow “Unsupervised learning” In: Neural computation 1.3 (1989), pp 295–311 [2] Yoshua Bengio, Patrice Simard, and Paolo Frasconi “Learning longterm dependencies with gradient descent is difficult” In: IEEE transactions on neural networks 5.2 (1994), pp 157–166 [3] Rich Caruana and Alexandru Niculescu-Mizil “An empirical comparison of supervised learning algorithms” In: Proceedings of the 23rd international conference on Machine learning 2006, pp 161–168 [4] Jan Salomon Cramer Logit models from economics and other fields Cambridge University Press, 2003 [5] Zhiyong Cui et al “Deep bidirectional and unidirectional LSTM recurrent neural network for network-wide traffic speed prediction” In: arXiv preprint arXiv:1801.02143 (2018) [6] Andrew M Dai and Quoc V Le “Semi-supervised sequence learning” In: Advances in neural information processing systems 2015, pp 3079–3087 [7] Pieter-Tjerk De Boer et al “A tutorial on the cross-entropy method” In: Annals of operations research 134.1 (2005), pp 19–67 69 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang [8] Ian Goodfellow, Yoshua Bengio, and Aaron Courville Deep learning MIT press, 2016 [9] Alex Graves “Generating sequences with recurrent neural networks” In: arXiv:1308.0850 (2013) [10] Alex Graves “Supervised sequence labelling” In: Supervised sequence labelling with recurrent neural networks Springer, 2012, pp 513 [11] Alex Graves and Jăurgen Schmidhuber Framewise phoneme classification with bidirectional LSTM and other neural network architectures” In: Neural networks 18.5-6 (2005), pp 602–610 [12] Jun Han and Claudio Moraga “The influence of the sigmoid function parameters on the speed of backpropagation learning” In: International Workshop on Artificial Neural Networks Springer 1995, pp 195–201 [13] Simon Haykin and Neural Network “A comprehensive foundation” In: Neural networks 2.2004 (2004), pp 230–235 [14] Robert Hecht-Nielsen “Theory of the backpropagation neural network” In: Neural networks for perception Elsevier, 1992, pp 65–93 [15] Vu Cong Duy Hoang et al “A comparative study on vietnamese text classification methods” In: 2007 IEEE International Conference on Research, Innovation and Vision for the Future IEEE 2007, pp 267 273 [16] Sepp Hochreiter and Jăurgen Schmidhuber Long short-term memory” In: Neural computation 9.8 (1997), pp 1735–1780 70 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang [17] Nitin Indurkhya and Fred J Damerau Handbook of natural language processing Vol CRC Press, 2010, pp 9–11 [18] Anil K Jain and Stan Z Li Handbook of face recognition Vol Springer, 2011 [19] Thorsten Joachims “Text categorization with support vector machines: Learning with many relevant features” In: European conference on machine learning Springer 1998, pp 137–142 [20] David E Johnson, Frank J Oles, and Tong Zhang Decision-tree-based symbolic rule induction system for text categorization US Patent 6,519,580 2003 [21] Daniel Jurasfky and James H Martin An introduction to natural language processing, computational linguistics, and speech recognition 2000 [22] Barry L Kalman and Stan C Kwasny “Why tanh: choosing a sigmoidal function” In: [Proceedings 1992] IJCNN International Joint Conference on Neural Networks Vol IEEE 1992, pp 578–581 [23] Sang-Bum Kim et al “Effective methods for improving naive bayes text classifiers” In: Pacific rim international conference on artificial intelligence Springer 2002, pp 414–423 [24] Diederik P Kingma and Jimmy Ba “Adam: A method for stochastic optimization” In: arXiv preprint arXiv:1412.6980 (2014) [25] Sotiris B Kotsiantis, I Zaharakis, and P Pintelas “Supervised machine learning: A review of classification techniques” In: Emerging artifi- 71 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang cial intelligence applications in computer engineering 160.1 (2007), pp 3–24 [26] Omer Levy and Yoav Goldberg “Dependency-based word embeddings” In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) 2014, pp 302– 308 [27] Bing Liu “Sentiment analysis and opinion mining” In: Synthesis lectures on human language technologies 5.1 (2012), pp 1–167 [28] Christopher Manning, Prabhakar Raghavan, and Hinrich Schăutze Introduction to information retrieval In: Natural Language Engineering 16.1 (2010) [29] Christopher Manning and Hinrich Schutze Foundations of statistical natural language processing MIT press, 1999 [30] Andrew McCallum " Graphical Models, Lecture2: Bayesian Network Represention 2019 [31] Tomas Mikolov et al “Distributed representations of words and phrases and their compositionality” In: Advances in neural information processing systems 2013, pp 3111–3119 [32] Tom M Mitchell “Machine learning and data mining” In: Communications of the ACM 42.11 (1999) [33] Sankar K Pal and Sushmita Mitra “Multilayer perceptron, fuzzy sets, classifiaction” In: (1992) 72 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang [34] Sinno Jialin Pan and Qiang Yang “A survey on transfer learning” In: IEEE Transactions on knowledge and data engineering 22.10 (2009), pp 1345–1359 [35] Edward W Porter Voice recognition system US Patent 4,829,576 1989 [36] Saurabh Rathor Simple RNN vs GRU vs LSTM :- Difference lies in ˘ More Flexible control https://medium.com/@saurabh.rathor092/simplernn-vs-gru-vs-lstm-difference-lies-in-more-flexible-control-5f33e07b1e57 2018 [37] Frank Rosenblatt “The perceptron: a probabilistic model for information storage and organization in the brain.” In: Psychological review 65.6 (1958), p 386 [38] Sebastian Ruder “An overview of gradient descent optimization algorithms” In: arXiv preprint arXiv:1609.04747 (2016) [39] Mike Schuster and Kuldip K Paliwal “Bidirectional recurrent neural networks” In: IEEE transactions on Signal Processing 45.11 (1997), pp 2673–2681 [40] Ashish Sen and Muni Srivastava Regression analysis: theory, methods, and applications Springer Science & Business Media, 2012 [41] Iulian V Serban et al “A deep reinforcement learning chatbot” In: arXiv preprint arXiv:1709.02349 (2017) [42] James G Shanahan and Norbert Roma “Improving SVM text classification performance through threshold adjustment” In: European Conference on Machine Learning Springer 2003, pp 361–372 73 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang [43] Sagar Sharma “Activation functions in neural networks” In: Towards Data Science (2017) [44] Hiroshi Shimodaira “Text classification using naive bayes” In: Learning and Data Note (2014), pp 1–9 [45] Rudi Studer, V Richard Benjamins, and Dieter Fensel “Knowledge engineering: principles and methods” In: Data & knowledge engineering 25.1-2 (1998), pp 161–197 [46] David Sussillo “RANDOM WALKS: TRAINING VERY DEEP NONLINEAR FEED-FORWARD NETWORKS WITH SMART INI” In: arXiv preprint arXiv 1412 (2014) [47] Ilya Sutskever, Oriol Vinyals, and Quoc V Le “Sequence to sequence learning with neural networks” In: Advances in neural information processing systems 2014, pp 3104–3112 [48] Lyn Thomas, Jonathan Crook, and David Edelman Credit scoring and its applications SIAM, 2017 [49] Laurens Van Der Maaten, Eric Postma, and Jaap Van den Herik “Dimensionality reduction: a comparative” In: J Mach Learn Res 10.6671 (2009), p 13 [50] Paul J Werbos “Backpropagation through time: what it does and how to it” In: Proceedings of the IEEE 78.10 (1990), pp 1550–1560 [51] Chenyang Xu and Jerry L Prince “Snakes, shapes, and gradient vector flow” In: IEEE Transactions on image processing 7.3 (1998), pp 359– 369 74 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang [52] Rui Xu and Don Wunsch Clustering Vol 10 John Wiley & Sons, 2008 [53] Bayya Yegnanarayana Artificial neural networks PHI Learning Pvt Ltd., 2009 [54] Shu Zhang et al “Bidirectional long short-term memory networks for relation classification” In: Proceedings of the 29th Pacific Asia conference on language, information and computation 2015, pp 73–78 [55] Xiang Zhang, Junbo Zhao, and Yann LeCun “Character-level convolutional networks for text classification” In: Advances in neural information processing systems 2015, pp 649–657 75 Chỉ mục Bộ liệu kiểm thử, 22 Perceptron, 12 Phân loại chủ đề văn bản, 52 Cổng quên, 20 Phân loại sắc thái văn bản, 33 Cổng đầu vào, 21 Phân loại văn bản, 28 Dưới khớp, 22 Phân tích cú pháp, 26 Gradient, 13 Phân tích ngữ nghĩa, 27 Precision, 24 Hàm mát, 13 Học chuyển tiếp, 40 Quá khớp, 22 Học có giám sát, Recall, 24 Học không giám sát, seq2seq, 40 Học sâu, 11 Sắc thái, 33 Ma trận confusion, 23 Thuật toán lan truyền ngược, 16 Máy học, Tách từ, 26 Mạng LSTM, 20 Tách tuyến tính, 14 Mạng LSTM hai chiều, 38 Túi từ, 54 Mạng nơ-ron hồi tiếp, 17 Tốc độ học, 13 Mạng nơ-ron nhiều lớp, 14 Mạng nơ-ron nhân tạo, 11 Xử lý ngôn ngữ tự nhiên, 25 76 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang Điểm F1, 25 Định lý xấp xỉ hàm tổng quát, 17 Điểm TF-IDF, 55 Độ xác, 23 77 ... trình xử lý ngôn ngữ tự nhiên bao gồm bước sau: 25 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang Hình 1.8: Q trình xử lý ngơn ngữ tự nhiên Trên thực tế, việc phân tách q trình xử lý ngơn ngữ tự nhiên thành... tích ngữ nghĩa q trình đóng vai trị quan trọng xử lý ngôn ngữ tự nhiên Xử lý ngơn ngữ tự nhiên ngày đóng vai trị quan trọng sống Nó cho phép máy tính giao tiếp với người thơng qua ngơn ngữ tự nhiên. .. ngơn ngữ Ví dụ, xử lý ngơn ngữ tự nhiên giúp máy tính đọc văn bản, nghe âm thanh, diễn giải nội dung, đo đạc cảm xúc trích xuất thơng tin quan trọng Một số ứng dụng bật xử lý ngôn ngữ tự nhiên