(Luận văn thạc sĩ hcmute) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 SKC006698 Tp Hồ Chí Minh, tháng 05/2020 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Tp Hồ Chí Minh, tháng 5/2020 Luan van Luan van Luan van ii BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Hướng dẫn khoa học: TS LÊ VĂN VINH Tp Hồ Chí Minh, tháng 5/2020 Luan van iii LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Tất số liệu kết luận văn trung thực chưa có cơng bố nghiên cứu khác Tp Hồ Chí Minh, ngày 04 tháng 05 năm 2020 Học viên thực Nguyễn Thế Bảo Luan van iv LỜI CẢM ƠN Đề hoàn thành luận văn này, nỗ lực nghiên cứu thân, xin chân thành cảm ơn TS Lê Văn Vinh người hướng dẫn khoa học, định hướng cho đề tài tơi Những chỉ bảo, góp ý, đợng viên thầy nguồn cổ vũ tinh thần để tơi hồn thành đề tài Tơi cũng xin chân thành cảm ơn TS Nguyễn Phương người định hướng hướng dẫn ban đầu cho tôi thực chuyên đề “Tìm hiểu giải thuật deep learning” Mặc dù khơng thể đồng hành cùng Thầy hết khóa luận, chỉ dẫn tận tình Thầy suốt q trình xây dựng đề cương hồn thành chuyên đề nguồn động lực lớn lao để hồn thành đề tài Tơi xin chân thành cảm ơn Thầy/Cô Khoa Công nghệ Thông tin – Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh truyền đạt cho kiến thức quý báu q trình học Cao học cũng q trình hồn thiện luận văn Tôi chân thành cảm ơn bạn bè, anh chị em lớp cao học KHMT2017A giúp đỡ, đóng góp ý kiến chia sẻ kinh nghiệm học tập, nghiên cứu suốt khóa học Mặc dù tơi cố gắng hồn thành luận văn phạm vi khả cho phép chắn khơng tránh khỏi thiếu sót Xin kính mong nhận cảm thơng tận tình chỉ bảo quý Thầy Cơ bạn Tp Hồ Chí Minh, ngày 04 tháng 05 năm 2020 Học viên thực luận văn Nguyễn Thế Bảo Luan van v MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vii DANH SÁCH BẢNG viii DANH MỤC BIỂU ĐỒ .ix DANH SÁCH HÌNH x TÓM TẮT CHƯƠNG 1: GIỚI THIỆU 1.1 Mục tiêu, đối tượng phương pháp nghiên cứu 1.1.1 Mục tiêu 1.1.2 Đối tượng nghiên cứu 1.1.3 Phạm vi nghiên cứu .4 1.2 Nghiên cứu liên quan .5 1.3 Vấn đề tồn 1.4 Kết luận CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan xử lý ngôn ngữ tự nhiên 2.1.1 Đặc trưng ngôn ngữ tiếng Việt 2.1.2 Công cụ tách từ vnTokenizer 2.1.3 Biểu diễn từ thành Vector đặc trưng sử dụng Word2vec 11 2.1.4 Cảm xúc người dùng (Sentiment) 13 2.2 Tởng quan mơ hình mạng neuron .15 2.2.1 Giới thiệu mạng neuron 15 2.2.2 Cấu trúc hoạt động mạng neuron .15 2.3 Các mơ hình học sâu 23 2.3.1 Multi Layer Perceptron (MLP) 24 2.3.2 Convolutional Neuron Networks (CNN) 25 Luan van vi 2.3.3 Recurrent neuron Networks (RNN) 27 2.3.4 Long short-term memory (LSTM) 29 2.4 Kết luận 34 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG PHÂN LOẠI CẢM XÚC TRONG CÂU BÌNH LUẬN TIẾNG VIỆT 35 3.1 Phát biểu toán 35 3.2 Mơ hình ứng dụng xử lý văn tiếng Việt 35 3.3 Các giai đoạn xử lý liệu 38 3.3.1 Thu thập liệu 38 3.3.2 Giai đoạn tách từ sử dụng công cụ word_tokenier 38 3.3.3 Gán nhãn liệu 40 3.3.4 Biểu diễn câu bình luận thành vector đặc trưng 42 3.4 Quá trình huấn luyện sử dụng mơ hình LSTM 43 3.5 Kết luận 45 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 46 4.1 Mơ hình thực nghiệm .46 4.2 Phương pháp đánh giá 47 4.3 Kết thực nghiệm 48 4.4 So sánh với mơ hình huấn luyện khác .50 4.5 Giao diện người dùng 54 4.6 Nhận xét đánh giá 57 4.7 Kết luận 57 KẾT LUẬN .58 Kết đạt 58 1.1 Về mặt lý thuyết 58 1.2 Về mặt thực tiễn 58 Hạn chế 58 Hướng phát triển 59 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 60 Luan van vii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt AI Artificial intelligence Trí tuệ nhân tạo LSTM Long Short - Term Memory Mạng bộ nhớ dài hạn - ngắn hạn W Weight Trọng số NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên CNN Convolutional neural network Mạng nơ-ron kết hợp RNN Recurrent Neural Network Mạng nơ-ron hồi quy MLP Multi Layer Perceptron Mạng nhiều tầng truyền thẳng Luan van 59 Hướng phát triển - Có thể thực xử lý loại văn tiếng Việt, bao gồm văn chưa chuẩn hóa - Thu thập gán nhãn số lượng lớn bình luận làm tăng tỉ lệ xác ứng dụng - Mở rợng vấn đề phân loại bình luận lĩnh vực khác đời sống - Thực phân loại cảm xúc bình luận trực tuyến cho tất viết bao gồm câu bình luận có đợ dài 200 từ - Phân loại bình luận người dùng thành nhiều cảm xúc khác như: vui, buồn, giận Luan van 60 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Lê Hoàng Thái, Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP.Hồ Chí Minh, “Mạng neuron nhân tạo” [2] Lưu Tuấn Anh, Đại học khoa học kĩ thuật Nagaoka, “A Pointwise Approach for Vietnamese Diacritics Restoration”, 2012 [3] Hoàng Phê chủ biên, “Từ điển tiếng việt”, Nxb Đà Nẵng Trung tâm Từ điển học – Đà Nẵng [4] Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương, “Hướng dẫn nhận biết đơn vị từ văn Tiếng Việt”- Báo cáo SP8.2 [5] Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào, “Tóm tắt văn tiếng Việt tự động với mô hình sequence to sequence”, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 20/10/2017 [6] Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Liu, Bing Qin, “Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification”, 2014 [7] Nguyễn Thái Ân,“Ứng dụng Deep Learning cho phân tích cảm xúc (sentiment analysis) với liệu twitter”, 2017 [8] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 27/10/2008 [9] S Hochreiter and J Schmidhuber, 1997 “Long Short-Term Memory” Neural Computation, vol 9, pp 1735–1780 [10] W Gerrod Parrot “Emotions in Social Psychology”, 2001 [11] Phạm Hùng, “Hướng tiếp cận dựa học máy cho tốn trích xuất thơng tin quan điểm”, 2017 [12] Bing Liu, “Sentiment Analysis and Opinion Mining”, 2012 [13] Lê Thị Thu H, “Nghiên Cứu Về Mạng Neural Tích Chập Và Ứng Dụng Cho Bài Toán Nhận Dạng Biển Số Xe”, 2016 Luan van 61 [14] https://colah.github.io/posts/2015-08-Understanding-LSTMs/, truy cập ngày 2/10/2019 [15] Suchita V Wawre, Sachin N Deshmukh - Department of Computer Science & Information Technology, Dr Babasaheb Ambedkar Marathwada University, Aurangabad (MS) India, “Sentiment Classification using Machine Learning Techniques”, 2013 [16] Xuan-Son Vu, “Pre-trained Word2Vec models for Vietnamese” [17] Vũ Anh, Bùi Nhật Anh, Đoàn Việt Dũng, “Xây dựng hệ thống tách từ tiếng Việt”, 2018 [18] http://viet.jnlp.org/tai-nguyen-ngon-ngu-tieng-viet/dhac-trung-cua- tieng-viet/thong-so-tieng-viet, truy cập ngày 21/4/2019 [19] Khang, B.H, “Báo cáo Tổng kết Khoa học Kỹ thuật Đề tài Nghiên cứu Phát triển Công nghệ Nhận dạng, Tổng hợp Xử lý Ngơn ngữ Tự nhiên” Chương trình KC-01, 2004 [20] Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras and Mark Johnson, “VnCoreNLP: A Vietnamese Natural Language Processing Toolkit”, 4/1/2018 [21] Thai Binh Nguyen, Quang Minh Nguyen, Thu Hien Nguyen, Ngoc Phuong Pham, The Loc Nguyen, Quoc Truong Do, “VAIS Hate Speech Detection System: A Deep Learning based Approach for System Combination”, 2/10/2019 [22] Hang Thi-Thuy Do, Huy Duc Huynh, Kiet Van Nguyen, Ngan LuuThuy Nguyen, Anh Gia-Tuan Nguyen, “Hate Speech Detection on Vietnamese Social Media Text using the Bidirectional-LSTM Model”, 9/11/2019 Luan van Luan van Luan van Luan van Luan van Luan van Luan van PHÂN LOẠI CẢM XÚC TRÊN FOODY SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU SENTIMENT CLASSIFICATION ON FOODY USING DEEP LEARNING Nguyễn Thế Bảo1 Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Do xã hội ngày phát triển, yêu cầu khách hàng sản phẩm, dịch vụ ngày cao, khơng chất lượng mà cịn dịch vụ kèm nên việc phân tích phản hồi, đánh giá người tiêu dùng sản phẩm dịch vụ cần thiết giúp cho doanh nghiệp hiểu điểm mạnh, điểm yếu sản phẩm, dịch vụ Phân loại cảm xúc người dùng Foody phân loại cho bình luận theo hướng quan điểm tích cực hay tiêu cực dựa nội dung bình luận Trong nghiên cứu này, mơ hình học sâu áp dụng phân loại cảm xúc người dùng Cụ thể, so sánh mơ hình LSTM với mơ hình MLP, CNN, CNN kết hợp với LSTM Kết cho thấy mơ hình LSTM ln đem lại độ xác vượt trội mơ hình học sâu khác Từ khóa: foody; phân loại cảm xúc, học sâu; LSTM ABSTRACT Due to social development and customers’ high demands towards not only the quality of alimentary products but also services, it is essential for businessmen to analyse consumers’ feedbacks to a certain good or service so as to understand its pros and cons The sentiment classification review on Foody is based on positive and negative aspects of comments In this reseach, the models deep learning has been applied to classify users’ emotion We compare LSTM model with MLP, CNN, CNN model associated with LSTM The result shows that LSTM always obtains higher accuracy than another Keywords: foody, sentiment classification, deep learning, LSTM GIỚI THIỆU Thu thập thông tin phản hồi, đánh giá khách hàng cách tuyệt vời giúp cho doanh nghiệp hiểu điểm mạnh, điểm yếu sản phẩm, dịch vụ mình; đồng thời nhanh chóng nắm bắt tâm lý nhu cầu khách hàng để mang đến cho họ sản phẩm, dịch vụ hoàn hảo Với sự phát triển mạnh mẽ mạng xã hội, diễn đàn, báo chí, doanh nghiệp tiếp cận với phản hồi khách hàng về sản phẩm họ cách nhanh chóng dễ dàng Thơng thường, để đánh giá về sản phẩm đó, nhà nghiên cứu sẽ trích chọn đặc điểm riêng (Features) sản phẩm Sau từ review, comment, Feedback, đánh giá xem tính sản phẩm người tiếp đón (Huifeng Tang et al., 2009) Những năm gần đây, Foody trang thương mại điện tử tin cậy cho người tìm kiếm, đánh giá, bình luận địa điểm ăn uống: nhà hàng, quán ăn, cafe, bar, karaoke, tiệm bánh, khu du lịch Việt Nam Foody tạo cộng đồng nhằm kết nối thực khách đến với địa điểm ăn uống lớn nhỏ nước Đến thời điểm tại, Foody có hàng trăm ngàn địa điểm hàng trăm ngàn bình luận, hình ảnh hầu hết tỉnh thành Việt Nam Foody giúp người dùng tìm kiếm lựa chọn địa điểm tốt cho bạn bè Phân loại ý kiến trang thuơng mại điện tử foody.vn chủ đề nóng nhiều doanh nghiệp quan tâm Tuy nhiên, bình luận foody thường có chiều dài ngắn, có nhiều ký tự cảm xúc viết tắt, viết ngôn ngữ mạng nhiều, việc phân tích ý kiến gặp phải nhiều khó khăn Khoa học kỹ thuật ngày phát triển, khái niệm trí tuệ nhân tạo đã không còn lạ lẫm với người dùng, cơng trình nghiên cứu, sản phẩm cho đời cải tiến liên tục Liên quan đến lĩnh vực phân loại cảm xúc người dùng kể đến cơng trình nghiên Luan van cứu Wawre cộng sự [1] đã nghiên cứu xây dựng mơ hình phân loại cảm xúc bình luận phim Mỗi bình luận sẽ đại diện cho cảm xúc người dùng lúc phân vào hai lớp “Cảm xúc tích cực” hay “Cảm xúc tiêu cực” Nghiên cứu đánh giá, so sánh, tính hiệu hai phân loại SVM Naive Bayes Theo kết Wawre đưa ra, mơ hình SVM có độ chính xác 45.71% mơ hình Naive Bayes có độ chính xác 65.57%; Duyu Tang cộng sự [2] nghiên cứu xây dựng mơ hình phân loại ý kiến cho bình luận Twitter theo hướng quan điểm tích cực hay tiêu cực Luận văn nêu thuật toán Sentiment Specific Word Embedding (SSWE) mang lại độ chính xác tốt 77.3% Một nhóm nghiên cứu khác [3] đã đề xuất mơ hình LSTM tốn trích xuất thơng tin quan điểm đối với tập liệu tiếng Anh tiếng Việt Tập liệu tiếng Anh có độ chính xác 82.76% tập liệu tiếng Việt có độ chính xác 43.7% Xuất phát từ kết nhu cầu thực tiễn trên, xin đề xuất ứng dụng mơ hình học sâu, cụ thể mơ hình LSTM để phân loại ý kiến Foody thành hai nhãn bình luận tích cực tiêu cực Mơ hình huấn luyện bình luận foody mơ tả hình luyện Ngoài ra, nghiên cứu còn sử dụng thêm thư viện 400.000 từ biểu diễn dưới dạng vector tác giả Vũ Xuân Sơn [5] làm sở liệu để thực nghiệm cho nghiên cứu 2.2 Tách từ Giai đoạn tách từ sử dụng công cụ word_tokenier công cụ Vietnamese NLP Toolkit tác giả Vũ Anh cộng sự [4] Trong tiếng Việt, dấu cách không mang ý nghĩa phân tách từ mà mang ý nghĩa phân tách âm tiết với Ví dụ: từ “hồ bình” tạo từ âm tiết “hồ” “bình”, âm tiết đều có nghĩa riêng đứng độc lập, ghép lại sẽ mang nghĩa khác Vì đặc điểm này, tốn tách từ trở thành toán tiền đề cho ứng dụng xử lý ngôn ngữ tự nhiên khác phân loại văn bản, tóm tắt văn bản, máy dịch tự động… Đối với việc xử lý văn bản, bước xử lý ngôn ngữ tự nhiên quan trọng nhất, định độ chính xác thực nghiệm Giai đoạn tách từ thực qua bước sau: - - Tách danh từ riêng, cụm từ có quy tắc thông thường: Trong văn bản, danh từ riêng như: Tên người, địa danh… Các cụm từ có quy tắc thời gian, ngày tháng năm… tách trước So khớp cực đại: Mục đích bước tìm cụm từ dài Đối với câu văn bản, thực so khớp cực đại với từ điển đã tách trước word_tokenier để tìm cụm từ có nghĩa dài Gần 174.437 câu bình luận viết trang thương mại điện tử điện tử foody thu thập, bình luận tách từ thành từ cụm từ có ý nghĩa 2.3 Gán nhãn liệu Hình 1: Mơ hình huấn luyện bình luận foody PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Thu thập liệu Nghiên cứu sử dụng liệu 174.437 câu bình luận để làm liệu cho trình huấn Gần 174.437 câu bình luận viết trang thương mại điện tử điện tử foody.vn thu thập Các câu bình luận gán nhãn thủ cơng với loại nhãn: Tích cực tiêu cực Nếu điểm bình luận lớn 7.0 điểm sẽ gán nhãn tích cực, ngược lại sẽ tiêu cực Trong 174.437 có 129.054 câu bình luận gán nhãn tích cực (74%) 45.383 câu bình luận gán nhãn tiêu cực (26%) Luan van 2.4 Biểu diễn từ thành vector Các câu bình luận biểu diễn thành vector cách sử dụng mơ hình Word Embedding dựa từ điển vector từ từ điển baomoi.model.bin Word embedding kỹ thuật cho việc học mật độ dày đặc thông tin đại diện từ không gian vector với số chiều nhỏ Mỗi từ xem điểm không gian này, đại diện vector có độ dài cố định Word Embedding thực lớp mạng, trước đưa về dạng vector câu cần chuẩn hóa về độ dài Chọn độ dài câu (max_length) 200 từ, tất câu tập huấn luyện đều cắt nối để có độ dài 200 Khi câu đưa vào, sẽ embedding theo số index tương ứng từ từ điển baomoi.model.bin vector biểu diễn từ word2vec hình dưới đây: BIỂU DIỄN CÂU BÌNH LUẬN THÀNH CÁC VECTOR Q trình word embedding câu Hình 3: Mơ hình huấn luyện LSTM Các thơng số mơ hình huấn luyện LSTM: - Word2vec có 439.056 từ, từ vector 400 x 400 chiều - Giới hạn bình luận 200, bình luận dài bị cắt 200, ngắn sẽ thêm tới đủ 200 - Lớp LSTM có 128 nút - Lớp full connected có 512 nút, dùng hàm activation relu - Dropout 0.5 để tránh overfit - Lớp cuối dùng hàm sigmoid để phân lớp 19 Hình 2: Quá trình word embedding câu 2.5 Quá trình huấn luyện sử dụng mơ hình LSTM Các câu bình luận sẽ chia làm phần liệu Thực tuần tự mang phần (75%) liệu gán nhãn thủ công làm liệu huấn luyện phần còn lại (25%) sử dụng liệu kiểm thử Dữ liệu kiểm tra gán dựa vào điểm số đánh giá người dùng Giai đoạn kiểm thử dừng lại phần liệu đầu vào đều kiểm thử lần Tỷ lệ gán nhãn chính xác thuật tốn tính cách lấy trung bình tỷ lệ gán nhãn chính xác lần kiểm thử KẾT QUẢ VÀ ĐÁNH GIÁ 3.1 Phương pháp đánh giá Để đánh giá hiệu phân lớp luận văn sử dụng đại lượng độ chính xác (accuracy) độ đo Precision, Recall, F1-score - Độ chính xác (accuracy) đại lượng thể tỉ lệ số bình luận phân loại tổng số bình luận tập liệu kiểm thử - Precision độ đo thể độ chính xác phân lớp, xác định số bình luận phân lớp tổng số bình luận phân vào lớp - Recall độ đo thể khả khơng phân lớp sai bình luận, xác định số bình luận phân lớp tổng số bình luận thực tế thuộc lớp - F1-score độ xác định thơng qua Precision Recall (giá trị độ đo cao phân lớp có hiệu phân lớp tốt) Luan van 3.3 So sánh với mơ hình huấn luyện khác 3.2 Kết Ngồi phương pháp phân loại cảm xúc người dùng LSTM, thực nghiệm chạy thực nghiệm phân loại cảm xúc với thuật toán khác như: MLP, CNN, CNN kết hợp LSTM Biểu đồ độ chính xác hàm chi phí trình huấn luyện với epochs độ đo thu được biểu diễn biểu đồ bảng Bảng 2: Các độ đô thuật toán MLP, CNN CNN kết hợp LSTM accuracy Các câu bình luận sẽ chia làm phần liệu Thực tuần tự mang phần (75%) liệu gán nhãn thủ công làm liệu huấn luyện phần còn lại (25%) sử dụng liệu kiểm thử Sau huấn luyện mơ hình LSTM theo tỉ lệ chính xác nhận sau thực gán nhãn phương pháp khác dựa tập liệu thu thập 81,8% 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 Sau tiến hành huấn luyện, tỉ lệ chính xác độ đo mơ hình trình bảng bên dưới: 13 17 21 25 29 33 37 41 45 49 epochs accuracy loss Biểu đồ 1: Độ xác hàm chi phí q trình huấn luyện với LSTM Bảng 1: Các độ thuật tốn LSTM Nội dung Accuracy Precision Recall F1 score Kết 0.8183 0.8398 0.7188 0.7332 Ngoài ra, thực nghiệm còn chia liệu theo k-fold = đối với tập liệu huấn luyện Tỉ lệ chính xác trung bình sau thực chia liệu theo k-fold = 82.1% Biểu đồ độ chính xác flod biểu diễn hình fold 82.10% fold 81.90% fold 82.00% fold 81.70% 82.10% fold Hơ hình MLP CNN CNN_LSTM LSTM Accuracy 0.776 0.795 0.796 0.818 Precision 0.816 0.845 0.842 0.840 Recall 0.593 0.619 0.601 0.690 F1-score 0.673 0.719 0.710 0.729 KẾT LUẬN VÀ HUỚNG PHÁT TRIỂN Nghiên cứu đã nêu giải pháp kỹ thuật xây dựng mơ hình xử lý câu bình luận nhằm mục đích phân loại cảm xúc câu bình luận người dùng foody với độ chính xác khoảng 81.8% Tuy nhiên, nghiên cứu mới tập trung phân loại theo 02 nhãn “cảm xúc tích cực” “cảm xúc tiêu cực”, chưa phân loại cảm xúc khác vui, buồn, giận Ngoài ra, độ chính xác việc phân loại câu bình luận còn phụ thuộc vào độ dài câu bình luận Tỷ lệ chính xác chương trình thực nghiệm cao với câu bình luận có độ dài dưới 200 từ Với câu có độ dài 200 từ, vector biểu diễn câu bình luận rơi vào vùng liệu mà LSTM chưa huấn luyện nên làm giảm tỷ lệ chính xác chương trình thực nghiệm Từ kết đạt hạn chế nghiên cứu, sẽ hướng đến xây dựng mơ hìh thực phân loại cảm xúc bình luận cho tất viết bao gồm câu bình luận có độ dài 200 từ loại bình luận người dùng thành nhiều cảm xúc khác ACCURACY Biểu đồ 2: Độ xác fold Luan van LỜI CẢM ƠN Đề hoàn thành nghiên cứu này, nỗ lực nghiên cứu thân, xin chân thành cảm ơn TS Lê Văn Vinh người hướng dẫn khoa học, đã định hướng cho đề tài Những bảo, góp ý, động viên thầy ln nguồn cổ vũ tinh thần để tơi hồn thành đề tài TÀI LIỆU THAM KHẢO [1] Suchita V Wawre, Sachin N Deshmukh - Department of Computer Science & Information Technology, Dr Babasaheb Ambedkar Marathwada University, Aurangabad (MS) India, “Sentiment Classification using Machine Learning Techniques”, 2013 [2] Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Liu, Bing Qin, “Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification”, 2014 [3] Phạm Hùng, “Hướng tiếp cận dựa học máy cho tốn trích xuất thơng tin quan điểm”, 2017 [4] Vũ Anh, Bùi Nhật Anh, Đoàn Việt Dũng, “Xây dựng hệ thống tách từ tiếng Việt”, 2018 [5] Xuan-Son Vu, “Pre-trained Word2Vec models for Vietnamese” Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Thế Bảo Đơn vị: Phòng Đào tạo Điện thoại: 09 3435 7227 Email: thebao@hcmute.edu.vn Tp Hồ Chí Minh, ngày 10 tháng 06 năm 2020 Xác nhận Giảng viên hướng dẫn Học viên thực (Ký & ghi rõ họ tên) (Ký & ghi rõ họ tên) Luan van S K L 0 Luan van ... TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH –... TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH –... cách nhanh chóng, rõ ràng, luận văn thực đề tài ? ?Phân loại cảm xúc văn tiếng Việt sử dụng phương pháp học sâu? ?? Mục tiêu chung luận văn: Đề xuất mơ hình phân loại câu bình luận, nhận xét, phản

Định dạng
Số trang	87
Dung lượng	6,85 MB