Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	81
Dung lượng	805,1 KB

Nội dung

Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -- - LUẬN VĂN THẠC SĨ 2019A - TỐN TIN MỘT SỐ MƠ HÌNH HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÕ THỊ QUỲNH TRANG VÕ THỊ QUỲNH TRANG trang.vtqca190267@sis.hust.edu.vn Chuyên ngành Toán Tin CA190267 Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Viện: Toán ứng dụng Tin học HÀ NỘI, 2020 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ MỘT SỐ MƠ HÌNH HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÕ THỊ QUỲNH TRANG trang.vtqca190267@sis.hust.edu.vn Chuyên ngành Toán Tin Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Viện: Toán ứng dụng Tin học Chữ ký GVHD HÀ NỘI, 09/2020 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Võ Thị Quỳnh Trang Đề tài luận văn: Một số mơ hình học sâu xử lý ngơn ngữ tự nhiên Chuyên ngành: Toán Tin Mã số SV: CA190267 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 23/09/2020 với nội dung sau: • Khơng sửa chữa Ngày 24 tháng 09 năm 2020 Giáo viên hướng dẫn Tác giả luận văn TS Nguyễn Thị Thanh Huyền Võ Thị Quỳnh Trang CHỦ TỊCH HỘI ĐỒNG TS Lê Chí Ngọc Lời cảm ơn Để hồn thành luận văn này, xin trân trọng cảm ơn thầy cô hướng dẫn TS Nguyễn Thị Thanh Huyền TS Lê Chí Ngọc tận tình bảo, hướng dẫn tơi suốt q trình hồn thiện luận văn Xin chân thành cảm ơn thầy, cô thuộc viện Toán ứng dụng Tin học trường Đại học Bách khoa Hà Nội nhiệt tình giảng dạy cho thời gian học tập Tôi xin gửi lời cảm ơn tới anh Bùi Trung Ngọc, anh Đào Mạnh Tuấn tập thể phòng Nghiên cứu Phát triển, công ty Cổ phần Truyền thông Công nghệ iCOMM Việt Nam giúp tơi thực hóa nghiên cứu Cuối cùng, kiến thức khả diễn giải thân cịn nhiều thiếu sót hạn chế, mong nhận dẫn đóng góp thầy để luận văn tơi hồn thiện Tơi xin chân thành cảm ơn! Hà Nội, ngày 14 tháng 09 năm 2020 Võ Thị Quỳnh Trang Tóm tắt nội dung Hiện nay, xử lý ngơn ngữ tự nhiên nói chung, tốn phân loại văn nói riêng có ý nghĩa quan trọng kinh tế Việc phân loại văn giúp doanh nghiệp tổ chức khai thác thông tin cách nhanh chóng hiệu quả, từ đưa chiến lược phát triển phù hợp với yêu cầu thị trường Tuy nhiên số lượng liệu lớn, tốc độ lan truyền nhanh nên đòi hỏi hệ thống phân loại tự động thời gian thực Trong luận văn này, giới thiệu hai mơ hình phân loại văn bản: mơ hình phân loại chủ đề văn mơ hình phân loại sắc thái văn Các mơ hình xây dựng dựa thuật toán học sâu nhằm giải vấn đề nhập nhằng ngôn ngữ tự nhiên mà khơng địi hỏi kiến thức chun mơn ngơn ngữ Kết hai mơ hình tương đối tốt, có tính khả thi cao độ xác hiệu để triển khai thực tiễn Mã nguồn mơ hình viết ngơn ngữ lập trình Python, với hỗ trợ giúp đỡ từ nhóm Nghiên cứu Phát triển công ty Công nghệ Truyền thông iCOMM Việt Nam Kết mô hình thể giao diện web cho người dùng dễ theo dõi, nâng cao tính thực tiễn cho kết nghiên cứu Mục lục Mở đầu Cơ sở lý thuyết 1.1 Máy học 1.1.1 Một số khái niệm 1.1.2 Học sâu 11 1.1.3 Đánh giá mơ hình máy học 22 Xử lý ngôn ngữ tự nhiên 25 1.2.1 Giới thiệu chung 25 1.2.2 Bài toán phân loại văn 28 1.2 Bài tốn phân tích sắc thái văn 31 2.1 Phát biểu toán 33 2.2 Mơ hình đề xuất 34 2.2.1 Xác định đối tượng phân tách nội dung 34 2.2.2 Xác định sắc thái 38 Cài đặt thực nghiệm 43 2.3.1 Thu thập tiền xử lý liệu 43 2.3.2 Kết thử nghiệm 45 2.3 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang Bài toán phân loại chủ đề văn 52 3.1 Phát biểu toán 52 3.2 Mơ hình đề xuất 53 3.2.1 Biểu diễn văn 53 3.2.2 Mơ hình phân loại chủ đề văn 56 Cài đặt thực nghiệm 58 3.3.1 Thu thập tiền xử lý liệu 58 3.3.2 Kết thử nghiệm 59 3.3 Kết luận chung 66 Tài liệu tham khảo 69 Danh sách hình vẽ 1.1 Kiến trúc perceptron 14 1.2 Mặt phẳng định tạo perceptron với đầu vào hai chiều 15 1.3 Kiến trúc mạng nơ-ron nhiều lớp 15 1.4 Kiến trúc mạng nơ-ron hồi tiếp [8] 18 1.5 Kiến trúc ô nhớ mạng LSTM [36] 20 1.6 Trường hợp khớp, tối ưu khớp mơ hình 22 1.7 Ma trận confusion cho toán phân lớp nhị phân 24 1.8 Quá trình xử lý ngôn ngữ tự nhiên 26 1.9 Các lớp, liệu huấn luyện liệu kiểm thử phân loại văn 29 1.10 Q trình xây dựng mơ hình phân loại văn 30 2.1 Kiến trúc mạng nhớ dài ngắn-hạn hai chiều (BiLSTM) [5] 39 2.2 Quá trình học chuyển tiếp (transfer learning) [34] 41 2.3 Kiến trúc mạng tự động mã hóa câu 42 2.4 Độ xác mơ hình tập liệu huấn luyện liệu thử 46 2.5 Giá trị mát tập liệu huấn luyện liệu thử 47 2.6 Kết tập liệu kiểm thử hai mơ hình sử dụng khơng sử dụng tham số huấn luyện trước 47 LUẬN VĂN THẠC SỸ 2.7 Võ Thị Quỳnh Trang Kết độ xác hàm mát hai mơ hình huấn luyện tập liệu nhỏ 48 2.8 Kết thử nghiệm mơ hình dự đoán sắc thái câu 48 2.9 Demo tách phân tích sắc thái đối tượng văn 50 2.10 Demo tách phân tích sắc thái đối tượng văn 50 2.11 Kết tổng hợp sắc thái đối tượng viết 51 3.1 Số lần xuất từ vựng văn 54 3.2 Kiến trúc mạng nơ-ron nhiều lớp ẩn cho toán phân loại chủ đề văn 57 3.3 Biểu đồ số lượng liệu chủ đề 58 3.4 Độ xác huấn luyện tập liệu huấn luyện kiểm tra tập liệu thử 60 3.5 Bảng kết độ xác mơ hình 61 3.6 Giá trị mát ba mơ hình một, ba sáu lớp ẩn qua vòng lặp 61 3.7 Bảng giá trị hàm mát qua vòng lặp 62 3.8 Phân bố liệu chủ đề tập liệu kiểm thử 62 3.9 Kết ba mơ hình liệu kiểm thử 63 3.10 Giá trị recall, precision lớp mơ hình lớp ẩn ba lớp ẩn 64 3.11 Kết so sánh thuật toán toán phân loại chủ để văn 65 Danh sách thuật toán Thuật tốn bóc tách đối tượng văn 36 ...TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ MỘT SỐ MƠ HÌNH HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÕ THỊ QUỲNH TRANG trang.vtqca190267@sis.hust.edu.vn... Võ Thị Quỳnh Trang Đề tài luận văn: Một số mô hình học sâu xử lý ngơn ngữ tự nhiên Chuyên ngành: Toán Tin Mã số SV: CA190267 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận... sở lý thuyết 1.1 Máy học 1.1.1 Một số khái niệm 1.1.2 Học sâu 11 1.1.3 Đánh giá mơ hình máy học 22 Xử lý ngôn ngữ

Ngày đăng: 27/04/2021, 16:35

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[8] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep learning.MIT press, 2016

Sách, tạp chí

Tiêu đề:	Deep learning

[9] Alex Graves. “Generating sequences with recurrent neural networks”.In: arXiv:1308.0850 (2013)

Sách, tạp chí

Tiêu đề:	Generating sequences with recurrent neural networks”.In:"arXiv:1308.0850

[10] Alex Graves. “Supervised sequence labelling”. In: Supervised sequence labelling with recurrent neural networks. Springer, 2012, pp. 5–13

Sách, tạp chí

Tiêu đề:	Supervised sequence labelling”. In:"Supervised sequencelabelling with recurrent neural networks

[11] Alex Graves and J¨urgen Schmidhuber. “Framewise phoneme classification with bidirectional LSTM and other neural network architec- tures”. In: Neural networks 18.5-6 (2005), pp. 602–610

Sách, tạp chí

Tiêu đề:	Framewise phoneme classi-fication with bidirectional LSTM and other neural network architec-tures”. In:"Neural networks
Tác giả:	Alex Graves and J¨urgen Schmidhuber. “Framewise phoneme classi- fication with bidirectional LSTM and other neural network architec- tures”. In: Neural networks 18.5-6
Năm:	2005

[12] Jun Han and Claudio Moraga. “The influence of the sigmoid function parameters on the speed of backpropagation learning”. In: In- ternational Workshop on Artificial Neural Networks. Springer. 1995, pp. 195–201

Sách, tạp chí

Tiêu đề:	The influence of the sigmoid func-tion parameters on the speed of backpropagation learning”. In: "In-ternational Workshop on Artificial Neural Networks

[14] Robert Hecht-Nielsen. “Theory of the backpropagation neural network”.In: Neural networks for perception. Elsevier, 1992, pp. 65–93

Sách, tạp chí

Tiêu đề:	Theory of the backpropagation neural network”.In:"Neural networks for perception

[15] Vu Cong Duy Hoang et al. “A comparative study on vietnamese text classification methods”. In: 2007 IEEE International Conference on Research, Innovation and Vision for the Future. IEEE. 2007, pp. 267–273

Sách, tạp chí

Tiêu đề:	A comparative study on vietnamese textclassification methods”. In: "2007 IEEE International Conference onResearch, Innovation and Vision for the Future

[16] Sepp Hochreiter and J¨urgen Schmidhuber. “Long short-term mem- ory”. In: Neural computation 9.8 (1997), pp. 1735–1780

Sách, tạp chí

Tiêu đề:	Long short-term mem-ory”. In: "Neural computation
Tác giả:	Sepp Hochreiter and J¨urgen Schmidhuber. “Long short-term mem- ory”. In: Neural computation 9.8
Năm:	1997

[17] Nitin Indurkhya and Fred J Damerau. Handbook of natural language processing. Vol. 2. CRC Press, 2010, pp. 9–11

Sách, tạp chí

Tiêu đề:	Handbook of natural languageprocessing

[18] Anil K Jain and Stan Z Li. Handbook of face recognition. Vol. 1.Springer, 2011

Sách, tạp chí

Tiêu đề:	Handbook of face recognition

[19] Thorsten Joachims. “Text categorization with support vector machines:Learning with many relevant features”. In: European conference on machine learning. Springer. 1998, pp. 137–142

Sách, tạp chí

Tiêu đề:	Text categorization with support vector machines:Learning with many relevant features”. In: "European conference onmachine learning

[20] David E Johnson, Frank J Oles, and Tong Zhang. Decision-tree-based symbolic rule induction system for text categorization. US Patent 6,519,580.2003

Sách, tạp chí

Tiêu đề:	Decision-tree-basedsymbolic rule induction system for text categorization

[21] Daniel Jurasfky and James H Martin. An introduction to natural language processing, computational linguistics, and speech recognition.2000

Sách, tạp chí

Tiêu đề:	An introduction to natural lan-guage processing, computational linguistics, and speech recognition

[22] Barry L Kalman and Stan C Kwasny. “Why tanh: choosing a sigmoidal function”. In: [Proceedings 1992] IJCNN International Joint Confer- ence on Neural Networks. Vol. 4. IEEE. 1992, pp. 578–581

Sách, tạp chí

Tiêu đề:	Why tanh: choosing a sigmoidalfunction”. In: "[Proceedings 1992] IJCNN International Joint Confer-ence on Neural Networks

[23] Sang-Bum Kim et al. “Effective methods for improving naive bayes text classifiers”. In: Pacific rim international conference on artificial intelligence. Springer. 2002, pp. 414–423

Sách, tạp chí

Tiêu đề:	Effective methods for improving naive bayestext classifiers”. In: "Pacific rim international conference on artificialintelligence

[24] Diederik P Kingma and Jimmy Ba. “Adam: A method for stochastic optimization”. In: arXiv preprint arXiv:1412.6980 (2014)

Sách, tạp chí

Tiêu đề:	Adam: A method for stochasticoptimization”. In:"arXiv preprint arXiv:1412.6980

[25] Sotiris B Kotsiantis, I Zaharakis, and P Pintelas. “Supervised machine learning: A review of classification techniques”. In: Emerging artifi-

Sách, tạp chí

Tiêu đề:	Supervised machinelearning: A review of classification techniques”. In

[26] Omer Levy and Yoav Goldberg. “Dependency-based word embeddings”.In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2014, pp. 302–308

Sách, tạp chí

Tiêu đề:	Dependency-based word embeddings”.In: "Proceedings of the 52nd Annual Meeting of the Association forComputational Linguistics (Volume 2: Short Papers)

[27] Bing Liu. “Sentiment analysis and opinion mining”. In: Synthesis lec- tures on human language technologies 5.1 (2012), pp. 1–167

Sách, tạp chí

Tiêu đề:	Sentiment analysis and opinion mining”. In:"Synthesis lec-tures on human language technologies
Tác giả:	Bing Liu. “Sentiment analysis and opinion mining”. In: Synthesis lec- tures on human language technologies 5.1
Năm:	2012

[28] Christopher Manning, Prabhakar Raghavan, and Hinrich Sch¨utze. “In- troduction to information retrieval”. In: Natural Language Engineer- ing 16.1 (2010)

Sách, tạp chí

Tiêu đề:	In-troduction to information retrieval”. In: "Natural Language Engineer-ing