Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
6,54 MB
Nội dung
ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN QUỐC BÌNH PHÂN TÍCH Ý KIẾN NGƯỜI DÙNG THEO KHÍA CẠNH BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN QUỐC BÌNH PHÂN TÍCH Ý KIẾN NGƯỜI DÙNG THEO KHÍA CẠNH BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BÙI THANH HÙNG BÌNH DƯƠNG – 2021 ii LỜI CAM ĐOAN Tên là: Nguyễn Quốc Bình Sinh ngày: 26/11/1974 Học viên lớp cao học CH18HT01 – Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài: “Phân tích ý kiến người dùng theo khía cạnh phương pháp học sâu” cơng trình nghiên cứu riêng tơi hướng dẫn Thầy TS Bùi Thanh Hùng Tất tài liệu tham khảo có nguồn gốc, trích dẫn rõ ràng Ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, nội dung trình bày luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai tơi hồn tồn chịu trách nhiệm trước hội đồng khoa học Bình Dương, tháng 12 năm 2021 Tác giả luận văn Nguyễn Quốc Bình i LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy hướng dẫn TS Bùi Thanh Hùng, luận văn Cao học “Phân tích ý kiến người dùng theo khía cạnh phương pháp học sâu” hồn thành Tơi xin bày tỏ lịng biết ơn sâu sắc đến: Thầy hướng dẫn TS.Bùi Thanh Hùng tận tình dẫn, giúp đỡ tơi hồn thành luận văn Đồng thời gửi lời cảm ơn đến thầy, cô giảng dạy truyền đạt kiến thức quý báo cho suốt thời gian học tập nghiên cứu Tôi chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình học tập, thực hoàn thành luận văn ii TÓM TẮT LUẬN VĂN Trong cách mạng 4.0 nay, với bùng nổ mạng xã hội thương mại điện tử, nghiên cứu phân tích ý kiến người dùng theo khía cạnh dần trở thành cơng cụ quan trọng việc phân tích, đánh giá quan điểm người dùng thông qua mạng xã hội, trang mạng bán hàng Qua phân tích ý kiến người dùng theo khía cạnh, nắm bắt quan điểm người dùng khách hàng, xu hướng trị, xã hội xảy tương lai Trước đây, nhiều cơng trình nghiên cứu phân tích ý kiến người dùng theo khía cạnh thực dựa từ vựng, số dựa vào học máy Trong năm gần đây, mơ hình học sâu mạng nơ ron tích chập (CNNs), mạng nơ ron tái phát (RNNs), nhớ ngắn dài (LSTM) áp dụng nhiều toán đạt hiệu cao Trong nghiên cứu này, đề xuất phương pháp học sâu kết hợp MultiCNN-LSTM để giải tốn phát khía cạnh phân tích ý kiến người dùng theo khía cạnh mức tài liệu Mơ hình kết hợp tính bật phương pháp CNN LSTM, CNN hoạt động tốt trích xuất đặc trưng liệu lớn, LSTM hoạt động hiệu việc phân lớp liệu Kết thực nghiệm liệu tiếng Việt VLSP 2018 cho thấy, phương pháp đề xuất tốt phương pháp nghiên cứu trước dựa vào phương pháp đơn lẻ Một phần kết nghiên cứu chúng tôi, tại: Hội nghị khoa học quốc gia nghiên cứu ứng dụng CNTT lần thứ X – Năm 2020, ngày 8-9/10/2020, Đại học Nha Trang, Khánh Hòa, Việt Nam, FAIR 2020 “FUNDAMENTAL AND APPLIED IT RESEARCH” Bai báo cáo chúngg “Phân tích ý kiến người dùng theo khía cạnh phương pháp học sâu kết hợp CNN-LSTM” Hội nghị công bố chấp nhận iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii DANH MỤC HÌNH viii DANH MỤC BẢNG xi CHƯƠNG 12 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 12 1.1 Lý chọn đề tài 12 1.2 Mục tiêu nghiên cứu 13 1.3 Đối tượng, phạm vi nghiên cứu 13 1.3.1 Đối tượng nghiên cứu 13 1.3.2 Phạm vi nghiên cứu 13 1.4 Phương pháp nghiên cứu 14 1.5 Ý nghĩa khoa học thực tiễn 14 1.6 Bố cục luận văn 15 CHƯƠNG 16 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 16 2.1 Xử lý ngôn ngữ tự nhiên 16 2.2 Biểu diễn từ 16 2.2.1 One hot vector 17 2.2.2 Cbow 17 iv 2.2.3 Skip gram 18 2.3 Học Máy (Machine Learning) 19 2.4 Học Sâu (Deep Learning) 21 2.4.1 Mạng notron nhận tạo 22 2.4.2 Mơ hình Long short-term Memory 24 2.4.3 Mạng nơ-ron tích chập 27 2.4.4 Mạng nơ-ron kết hợp CNN-LSTM 30 2.5 Phân tích ý kiến người dùng theo cạnh 33 2.5.1 Tổng quan 33 Phân tích ý kiến người dùng theo khía cạnh 33 2.5.2 Hướng tiếp cận giải toán 34 2.5.3 Hướng đề xuất nghiên cứu 35 CHƯƠNG 36 MƠ HÌNH ĐỀ XUẤT 36 3.1 Tổng quan mơ hình đề xuất 36 3.2 Các đặc trưng mơ hình 37 3.2.1 Word2vec 37 3.2.2 Mô hình CNN 39 3.2.3 Mơ hình LSTM 41 3.2.4 Mơ hình kết hợp CNN-LSTM 42 3.2.5 Mơ hình MultiCNN-LSTM 43 3.2.6 Phân tích ý kiến người dùng theo khía cạnh 44 v 3.3 Phương pháp đánh giá kết 45 CHƯƠNG 46 THỰC NGHIỆM 46 4.1 Dữ liệu 46 4.1.1 Thu thập liệu 46 4.1.2 Xử lý liệu 48 4.2 Kết thực nghiệm 52 4.2.1 Công nghệ sử dụng 52 4.2.2 Trích xuát đặc trưng 52 4.2.3 Xác định khía cạnh 53 4.2.4 Phân tích ý kiến người dùng theo khía cạnh 55 4.3 Xây dựng ứng dụng 58 4.3.1 Thiết kế 58 4.3.2 Ứng dụng Phân tich ý kiến người dùng theo khía cạnh 59 CHƯƠNG 63 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 63 5.1 Kết luận 63 5.2 Hướng phát triển 63 CƠNG TRÌNH CƠNG BỐ 65 TÀI LIỆU THAM KHẢO 66 vi DANH MỤC CHỮ VIẾT TẮT KÝ HIỆU TÊN TIẾNG ANH ANN Artificial Neural Network CNN Convolution Neural Network FC Fully Connected RELU Rectified Linear Unit RGB Red Green Blue LSTM Long short term memory NLP Natural Language Processing vii DANH MỤC HÌNH Hình 1: Xử lý ngôn ngữ tự nhiên (NLP) số tốn Trí tuệ nhân tạo 16 Hình 2: Mơ hình CBOW tổng quát 18 Hình 3: Mơ hình skip-gram tổng quát 19 Hình 4: Lịch sử đời Trí tuệ nhân tạo, học máy học sâu 20 Hình 5: Học sâu (Deep Learning) có tiềm ứng dụng lớn 22 Hình 6: Kiến trúc mạng nơ-ron nhân tạo 23 Hình 7: Cấu trúc nốt mạng nơ-ron nhân tạo 24 Hình 8: Mơ tả đoạn mạng nơ-ron hồi quy 24 Hình 9: Mơ hình mạng hồi quy RNN 25 Hình 10:Cấu trúc tế bào mơ hình LSTM 26 Hình 11: Ví dụ phép tổng hợp lớn (maxcoolinw cho đầu vào 5x5 lộc 3x3 với dạng bước trượt 28 Hình 12: Ví dụ minh họa lớp Pooling 29 Hình 13: Kỹ thuật DropOut để giảm Overfitting 30 Hình 14: Trình bày sơ đồ tổng thể mơ hình đề xuất CNN-LSTM 31 Hình 1: Tổng quan mơ hình đề xuất 37 Hình 2: Phân loại văn mơ hình Word2Vec 38 Hình 3: Mơ hình mạng nơ-ron tích chập CNN 41 Hình 4: Mơ hình ví dụ thuật tốn LSTM để phân tích ý kiến theo khía cạnh 42 Hình 5: Sơ đồ cấu trúc mơ hình CNN-LSTM 43 Hình 6: Cấu trúc mơ hình MultiCNN-LSTM 43 Hình 1: Sơ đồ quy trình xử lý liệu 49 Hình 2: Phân bổ số lượng khía cạnh liệu 51 Hình 3: Phân chia liệu huấn luyện, kiểm tra kiểm thử 52 Hình 4: Minh họa trích xuất từ vựng 53 viii Hình 11: Giao diện trang chủ Hình 12: Giao diện trang phân tích liệu 60 Hình 13: Giao diện trang Phân tích bình luận Hình 14: Giao diện hiển thị kết Phân tích ý kiến người dùng theo khía cạnh 61 Hình 15: Giao diện đánh giá kết nghiên cứu Hình 16: Giao diện đánh giá mơ hình nghiên cứu 62 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Phân tích ý kiến người dùng theo khía cạnh toán quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên, học máy, khai phá tri thức, thu hút nhiều nghiên cứu có nhiều ý nghĩa hệ thống thương mại quản trị sản phẩm, dịch vụ, kiện, danh tiếng Như vậy, đề tài đề xuất mô hình dựa MultiCNN-LSTM để giải tốn phân tích quan điểm theo khía cạnh Mơ hình đề tài thiết kế để phân loại đa nhãn cho hai nhiệm vụ xác định khía cạnh phân tích quan điểm theo khía cạnh Thực nghiệm cho thấy mơ hình đề tài hiệu đạt kết tốt nhiều so với số nghiên cứu trước Đồng thời, thực nghiệm cho thấy mơ hình MultiCNN-LSTM có tích hợp đem lại hiệu tốt Đề tài hy vọng phương pháp đề xuất áp dụng hiệu cho vấn đề khác xử lý ngôn ngữ tự nhiên Mặc dù kết thực nghiệm đề tài cho thấy hiệu việc bổ sung thêm đặc trưng cho mơ hình Tuy nhiên, chưa có thực nghiệm để làm sáng tỏ thêm đặc trưng thêm vào nên có định dạng nào, nên bổ sung lớp nào,… để đạt hiệu cao 5.2 Hướng phát triển Với hạn chế phân tích trên, đề nhận thấy nhiều nội dung thú vị để tiếp tục nghiên cứu để giải toán cách hiệu như: - Khắc phục nhược điểm không xác định từ khơng có tập huấn luyện phương pháp mở rộng word2vec, FastText, đề xuất Facebook năm 2016 - Thực nghiệm việc xây dựng nhãn khía cạnh dựa phân bố xác suất thay cho nhãn one-hot vector; đồng thời, thực tunning để tìm giá trị ngưỡng tốt cho loại khía cạnh 63 - Tiếp tục nghiên cứu số cách biểu diễn vector đặc trưng bổ sung cho mô hình vị trí tích hợp vào mơ hình để đạt hiệu cao 64 CƠNG TRÌNH CƠNG BỐ Bùi Thanh Hùng, Nguyễn Quốc Bình (2020) "Aspect-Based Sentiment Analysis Using Hybrid Deep Learning Approach CNN-LSTM” National Scientific Conference On Basic Research And It Application 10th – 2020 8-9 October 2020, Nha Trang University, Khanh Hoa, Vietnam Fair 2020 Fundamental And Applied It Research 65 TÀI LIỆU THAM KHẢO [1] M Pontiki, D Galanis, H Papageorgiou, I Androutsopoulos, S Manandhar, M AL-Smadi, M Al-Ayyoub, Y Zhao, B Qin, O D Clercq, V Hoste, M Apidianaki, X Tannier, N Loukachevitch, E Kotelnikov, N Bel, S M JiménezZafra, and G Eryigit SemEval-2016 Task 5: Aspect Based - Sentiment Analysis In Proceedings of the 10th International Workshop on Semantic Evaluation, ser SemEval ’16, Association for Computational Linguistics, 2016 [2] H G Qiu, B Liu, J Bu, and C Chen Opinion Word Expansion and Target Extraction through Double Propagation Computational Linguistics, Vol 37, No 1, 9–27, 2011 [3] B Liu Sentiment Analysis and Opinion Mining Synthesis Lectures on Human Languages Technologies, Morgan and Claypool publishers, 2012 [4] D Bespalov, B Bai, Y Qi, and A Shokoufandeh Sentiment Classification Based on Supervised Latent N-gram Analysis In Proceedings of CIKM, pp 375–382, 2011 [5] R Socher, A Perelygin, J.Y Wu, J Chuang, C Manning, A Ng, and Christopher Potts Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank In Proceedings of EMNLP, pp 1631– 1642, 2013 [6] J Rothfels and J Tibshirani Unsupervised Sentiment Classification of English Movie Reviews using Automatic Selection of Positive and Negative Sentiment Items Technical Report, Stanford University, 2010 [7] S Li, Z Wang, G Zhou, and S.Y.M Lee Semi-Supervised Learning for Imbalanced Sentiment Classification In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI), pp 1826–1831, 2011 [8] R Socher, J Pennington, E.H Huang, A Ng, and C Manning SemiSupervised Recursive Autoencoders for Predicting Sentiment Distributions In Proceedings of EMNLP, pp 151–161, 2011 [22] O Tackstrom and R McDonald Semisupervised Latent Variable Models for Sentence-level Sentiment Analysis In Proceedings of ACL, pp 569–574, 2011 66 [9] Kim, Yoon Convolutional neural networks for sentence classification."arXiv preprint arXiv:1408.5882, 2014 [10] Zhang, Ye, and Byron Wallace A Sensitivity Analysis of Convolutional Neural Networks for Sentence Classification arXiv preprint arXiv:1510.03820, 2015 [11] Xin Wang, Yuanchao Liu, Chengjie Sun, Baoxun Wang, Xiaolong Wang Predicting Polarities of Tweets by Composing Word Embeddings with Long Short-Term Memory ACL, 2015 [12] Liu, Pengfei, Shafiq R Joty, and Helen M Meng Fine-grained Opinion Mining with Recurrent Neural Networks and Word Embeddings EMNLP, 2015 [13] Maite Taboada, Julian Brooke, Milan Tofiloski, Kimberly Voll, and Manfred Stede Lexiconbased Methods for Sentiment Analysis, Computational linguistics, 37(2):267–307, 2011 [14] Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin A Neural Probabilistic Language Model Journal of machine learning research, 3(Feb):1137–1155, 2003 [15] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean Efficient Estimation of Word Representations in Vector Space arXiv preprint arXiv:1301.3781, 2013 [16] Quoc V Le and Tomas Mikolov Distributed Representations of Sentences and Documents In ICML, volume 14, pages 1188–1196, 2014 [17] Duyu Tang, Bing Qin, and Ting Liu Document Modeling with Gated Recurrent Neural Network for Sentiment Classification In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1422– 1432, 2015 [18] Donahue J., Hendricks L.A., Rohrbach M., Venugopalan S., Guadarrama S., Saenko K., Darrell T Long-term recurrent convolutional networks for visual recognition and description IEEE Trans Pattern Anal Mach Intell 39, 677– 691, 2017 67 [19] Bui Thanh Hung Vietnamese Keyword Extraction Using Hybrid Deep Learning Methods In proceedings of the 5th NAFOSTED Conference on Information and Computer Science, 2018 [20] Dang Van Thin, Vu Duc Nguyen, Kiet Van Nguyen, Ngan Luu Thuy Nguyen A Transformation Method For Aspect-Basedsentiment Analysis In the Fifth International Workshop on Vietnamese Language and Speech Processing (VLSP 2018), 2018 68 69 70 71 72 73 74 ... 43 3.2.6 Phân tích ý kiến người dùng theo khía cạnh Phân tích ý kiến người dùng theo khía cạnh tốn phân lớp chia thành hai phần Xác định khía cạnh Phân tích ý kiến người dùng theo khía cạnh 3.2.6.1... MultiCNN-LSTM học sâu để phân tích khía cạnh 1.2 Mục tiêu nghiên cứu Với phương pháp tơi phân tích người dùng theo khía cạnh tơi tập trung phân tích tình cảm điển trình phân loại ý kiến thể văn tích cực,... giải pháp với nhìn sâu sắc ứng dụng mơ hình Phân tích ý kiến người dùng theo khía cạnh học phương pháp học tập sâu Nghiên cứu trình bày hình thức tìm kiếm khía cạnh ngầm, khai thác nhiều khía cạnh