1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu

87 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 87
Dung lượng 6,9 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 SKC006698 Tp Hồ Chí Minh, tháng 05/2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Tp Hồ Chí Minh, tháng 5/2020 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Hướng dẫn khoa học: TS LÊ VĂN VINH Tp Hồ Chí Minh, tháng 5/2020 iii LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Tất số liệu kết luận văn trung thực chưa có cơng bố nghiên cứu khác Tp Hồ Chí Minh, ngày 04 tháng 05 năm 2020 Học viên thực Nguyễn Thế Bảo iv LỜI CẢM ƠN Đề hoàn thành luận văn này, ngồi nỗ lực nghiên cứu thân, tơi xin chân thành cảm ơn TS Lê Văn Vinh người hướng dẫn khoa học, định hướng cho đề tài tơi Những chỉ bảo, góp ý, đợng viên thầy nguồn cổ vũ tinh thần để tơi hồn thành đề tài Tơi cũng xin chân thành cảm ơn TS Nguyễn Phương người định hướng hướng dẫn ban đầu cho tôi thực chuyên đề “Tìm hiểu giải thuật deep learning” Mặc dù khơng thể đồng hành cùng Thầy hết khóa luận, chỉ dẫn tận tình Thầy suốt q trình xây dựng đề cương hồn thành chun đề nguồn đợng lực lớn lao để tơi hồn thành đề tài Tôi xin chân thành cảm ơn Thầy/Cô Khoa Công nghệ Thông tin – Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh truyền đạt cho kiến thức quý báu trình học Cao học cũng q trình hồn thiện luận văn Tôi chân thành cảm ơn bạn bè, anh chị em lớp cao học KHMT2017A giúp đỡ, đóng góp ý kiến chia sẻ kinh nghiệm học tập, nghiên cứu suốt khóa học Mặc dù tơi cố gắng hồn thành luận văn phạm vi khả cho phép chắn khơng tránh khỏi thiếu sót Xin kính mong nhận cảm thơng tận tình chỉ bảo quý Thầy Cơ bạn Tp Hồ Chí Minh, ngày 04 tháng 05 năm 2020 Học viên thực luận văn Nguyễn Thế Bảo v MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vii DANH SÁCH BẢNG viii DANH MỤC BIỂU ĐỒ .ix DANH SÁCH HÌNH x TÓM TẮT CHƯƠNG 1: GIỚI THIỆU 1.1 Mục tiêu, đối tượng phương pháp nghiên cứu 1.1.1 Mục tiêu 1.1.2 Đối tượng nghiên cứu 1.1.3 Phạm vi nghiên cứu .4 1.2 Nghiên cứu liên quan .5 1.3 Vấn đề tồn 1.4 Kết luận CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan xử lý ngôn ngữ tự nhiên 2.1.1 Đặc trưng ngôn ngữ tiếng Việt 2.1.2 Công cụ tách từ vnTokenizer 2.1.3 Biểu diễn từ thành Vector đặc trưng sử dụng Word2vec 11 2.1.4 Cảm xúc người dùng (Sentiment) 13 2.2 Tởng quan mơ hình mạng neuron .15 2.2.1 Giới thiệu mạng neuron 15 2.2.2 Cấu trúc hoạt động mạng neuron .15 2.3 Các mơ hình học sâu 23 2.3.1 Multi Layer Perceptron (MLP) 24 2.3.2 Convolutional Neuron Networks (CNN) 25 vi 2.3.3 Recurrent neuron Networks (RNN) 27 2.3.4 Long short-term memory (LSTM) 29 2.4 Kết luận 34 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG PHÂN LOẠI CẢM XÚC TRONG CÂU BÌNH LUẬN TIẾNG VIỆT 35 3.1 Phát biểu toán 35 3.2 Mơ hình ứng dụng xử lý văn tiếng Việt 35 3.3 Các giai đoạn xử lý liệu 38 3.3.1 Thu thập liệu 38 3.3.2 Giai đoạn tách từ sử dụng công cụ word_tokenier 38 3.3.3 Gán nhãn liệu 40 3.3.4 Biểu diễn câu bình luận thành vector đặc trưng 42 3.4 Q trình huấn luyện sử dụng mơ hình LSTM 43 3.5 Kết luận 45 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 46 4.1 Mơ hình thực nghiệm .46 4.2 Phương pháp đánh giá 47 4.3 Kết thực nghiệm 48 4.4 So sánh với mô hình huấn luyện khác .50 4.5 Giao diện người dùng 54 4.6 Nhận xét đánh giá 57 4.7 Kết luận 57 KẾT LUẬN .58 Kết đạt 58 1.1 Về mặt lý thuyết 58 1.2 Về mặt thực tiễn 58 Hạn chế 58 Hướng phát triển 59 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 60 vii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt AI Artificial intelligence Trí tuệ nhân tạo LSTM Long Short - Term Memory Mạng bộ nhớ dài hạn - ngắn hạn W Weight Trọng số NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên CNN Convolutional neural network Mạng nơ-ron kết hợp RNN Recurrent Neural Network Mạng nơ-ron hồi quy MLP Multi Layer Perceptron Mạng nhiều tầng truyền thẳng 59 Hướng phát triển - Có thể thực xử lý loại văn tiếng Việt, bao gồm văn chưa chuẩn hóa - Thu thập gán nhãn số lượng lớn bình luận làm tăng tỉ lệ xác ứng dụng - Mở rợng vấn đề phân loại bình luận lĩnh vực khác đời sống - Thực phân loại cảm xúc bình luận trực tuyến cho tất viết bao gồm câu bình luận có đợ dài 200 từ - Phân loại bình luận người dùng thành nhiều cảm xúc khác như: vui, buồn, giận 60 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Lê Hoàng Thái, Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP.Hồ Chí Minh, “Mạng neuron nhân tạo” [2] Lưu Tuấn Anh, Đại học khoa học kĩ thuật Nagaoka, “A Pointwise Approach for Vietnamese Diacritics Restoration”, 2012 [3] Hoàng Phê chủ biên, “Từ điển tiếng việt”, Nxb Đà Nẵng Trung tâm Từ điển học – Đà Nẵng [4] Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương, “Hướng dẫn nhận biết đơn vị từ văn Tiếng Việt”- Báo cáo SP8.2 [5] Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào, “Tóm tắt văn tiếng Việt tự động với mô hình sequence to sequence”, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 20/10/2017 [6] Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Liu, Bing Qin, “Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification”, 2014 [7] Nguyễn Thái Ân,“Ứng dụng Deep Learning cho phân tích cảm xúc (sentiment analysis) với liệu twitter”, 2017 [8] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 27/10/2008 [9] S Hochreiter and J Schmidhuber, 1997 “Long Short-Term Memory” Neural Computation, vol 9, pp 1735–1780 [10] W Gerrod Parrot “Emotions in Social Psychology”, 2001 [11] Phạm Hùng, “Hướng tiếp cận dựa học máy cho tốn trích xuất thơng tin quan điểm”, 2017 [12] Bing Liu, “Sentiment Analysis and Opinion Mining”, 2012 [13] Lê Thị Thu H, “Nghiên Cứu Về Mạng Neural Tích Chập Và Ứng Dụng Cho Bài Toán Nhận Dạng Biển Số Xe”, 2016 61 [14] https://colah.github.io/posts/2015-08-Understanding-LSTMs/, truy cập ngày 2/10/2019 [15] Suchita V Wawre, Sachin N Deshmukh - Department of Computer Science & Information Technology, Dr Babasaheb Ambedkar Marathwada University, Aurangabad (MS) India, “Sentiment Classification using Machine Learning Techniques”, 2013 [16] Xuan-Son Vu, “Pre-trained Word2Vec models for Vietnamese” [17] Vũ Anh, Bùi Nhật Anh, Đoàn Việt Dũng, “Xây dựng hệ thống tách từ tiếng Việt”, 2018 [18] http://viet.jnlp.org/tai-nguyen-ngon-ngu-tieng-viet/dhac-trung-cua- tieng-viet/thong-so-tieng-viet, truy cập ngày 21/4/2019 [19] Khang, B.H, “Báo cáo Tổng kết Khoa học Kỹ thuật Đề tài Nghiên cứu Phát triển Công nghệ Nhận dạng, Tổng hợp Xử lý Ngơn ngữ Tự nhiên” Chương trình KC-01, 2004 [20] Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras and Mark Johnson, “VnCoreNLP: A Vietnamese Natural Language Processing Toolkit”, 4/1/2018 [21] Thai Binh Nguyen, Quang Minh Nguyen, Thu Hien Nguyen, Ngoc Phuong Pham, The Loc Nguyen, Quoc Truong Do, “VAIS Hate Speech Detection System: A Deep Learning based Approach for System Combination”, 2/10/2019 [22] Hang Thi-Thuy Do, Huy Duc Huynh, Kiet Van Nguyen, Ngan LuuThuy Nguyen, Anh Gia-Tuan Nguyen, “Hate Speech Detection on Vietnamese Social Media Text using the Bidirectional-LSTM Model”, 9/11/2019 PHÂN LOẠI CẢM XÚC TRÊN FOODY SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU SENTIMENT CLASSIFICATION ON FOODY USING DEEP LEARNING Nguyễn Thế Bảo1 Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Do xã hội ngày phát triển, yêu cầu khách hàng sản phẩm, dịch vụ ngày cao, không chất lượng mà dịch vụ kèm nên việc phân tích phản hồi, đánh giá người tiêu dùng sản phẩm dịch vụ cần thiết giúp cho doanh nghiệp hiểu điểm mạnh, điểm yếu sản phẩm, dịch vụ Phân loại cảm xúc người dùng Foody phân loại cho bình luận theo hướng quan điểm tích cực hay tiêu cực dựa nội dung bình luận Trong nghiên cứu này, mơ hình học sâu áp dụng phân loại cảm xúc người dùng Cụ thể, so sánh mơ hình LSTM với mơ hình MLP, CNN, CNN kết hợp với LSTM Kết cho thấy mơ hình LSTM ln đem lại độ xác vượt trội mơ hình học sâu khác Từ khóa: foody; phân loại cảm xúc, học sâu; LSTM ABSTRACT Due to social development and customers’ high demands towards not only the quality of alimentary products but also services, it is essential for businessmen to analyse consumers’ feedbacks to a certain good or service so as to understand its pros and cons The sentiment classification review on Foody is based on positive and negative aspects of comments In this reseach, the models deep learning has been applied to classify users’ emotion We compare LSTM model with MLP, CNN, CNN model associated with LSTM The result shows that LSTM always obtains higher accuracy than another Keywords: foody, sentiment classification, deep learning, LSTM GIỚI THIỆU Thu thập thông tin phản hồi, đánh giá khách hàng cách tuyệt vời giúp cho doanh nghiệp hiểu điểm mạnh, điểm yếu sản phẩm, dịch vụ mình; đồng thời nhanh chóng nắm bắt tâm lý nhu cầu khách hàng để mang đến cho họ sản phẩm, dịch vụ hoàn hảo Với sự phát triển mạnh mẽ mạng xã hội, diễn đàn, báo chí, doanh nghiệp tiếp cận với phản hồi khách hàng về sản phẩm họ cách nhanh chóng dễ dàng Thông thường, để đánh giá về sản phẩm đó, nhà nghiên cứu sẽ trích chọn đặc điểm riêng (Features) sản phẩm Sau từ review, comment, Feedback, đánh giá xem tính sản phẩm người tiếp đón (Huifeng Tang et al., 2009) Những năm gần đây, Foody trang thương mại điện tử tin cậy cho người tìm kiếm, đánh giá, bình luận địa điểm ăn uống: nhà hàng, quán ăn, cafe, bar, karaoke, tiệm bánh, khu du lịch Việt Nam Foody tạo cộng đồng nhằm kết nối thực khách đến với địa điểm ăn uống lớn nhỏ nước Đến thời điểm tại, Foody có hàng trăm ngàn địa điểm hàng trăm ngàn bình luận, hình ảnh hầu hết tỉnh thành Việt Nam Foody giúp người dùng tìm kiếm lựa chọn địa điểm tốt cho bạn bè Phân loại ý kiến trang thuơng mại điện tử foody.vn chủ đề nóng nhiều doanh nghiệp quan tâm Tuy nhiên, bình luận foody thường có chiều dài ngắn, có nhiều ký tự cảm xúc viết tắt, viết ngơn ngữ mạng nhiều, việc phân tích ý kiến gặp phải nhiều khó khăn Khoa học kỹ thuật ngày phát triển, khái niệm trí tuệ nhân tạo đã không còn lạ lẫm với người dùng, cơng trình nghiên cứu, sản phẩm cho đời cải tiến liên tục Liên quan đến lĩnh vực phân loại cảm xúc người dùng kể đến cơng trình nghiên cứu Wawre cộng sự [1] đã nghiên cứu xây dựng mơ hình phân loại cảm xúc bình luận phim Mỗi bình luận sẽ đại diện cho cảm xúc người dùng lúc phân vào hai lớp “Cảm xúc tích cực” hay “Cảm xúc tiêu cực” Nghiên cứu đánh giá, so sánh, tính hiệu hai phân loại SVM Naive Bayes Theo kết Wawre đưa ra, mơ hình SVM có độ chính xác 45.71% mơ hình Naive Bayes có độ chính xác 65.57%; Duyu Tang cộng sự [2] nghiên cứu xây dựng mô hình phân loại ý kiến cho bình luận Twitter theo hướng quan điểm tích cực hay tiêu cực Luận văn nêu thuật toán Sentiment Specific Word Embedding (SSWE) mang lại độ chính xác tốt 77.3% Một nhóm nghiên cứu khác [3] đã đề xuất mơ hình LSTM tốn trích xuất thơng tin quan điểm đối với tập liệu tiếng Anh tiếng Việt Tập liệu tiếng Anh có độ chính xác 82.76% tập liệu tiếng Việt có độ chính xác 43.7% Xuất phát từ kết nhu cầu thực tiễn trên, xin đề xuất ứng dụng mơ hình học sâu, cụ thể mơ hình LSTM để phân loại ý kiến Foody thành hai nhãn bình luận tích cực tiêu cực Mơ hình huấn luyện bình luận foody mơ tả hình luyện Ngồi ra, nghiên cứu còn sử dụng thêm thư viện 400.000 từ biểu diễn dưới dạng vector tác giả Vũ Xuân Sơn [5] làm sở liệu để thực nghiệm cho nghiên cứu 2.2 Tách từ Giai đoạn tách từ sử dụng công cụ word_tokenier công cụ Vietnamese NLP Toolkit tác giả Vũ Anh cộng sự [4] Trong tiếng Việt, dấu cách không mang ý nghĩa phân tách từ mà mang ý nghĩa phân tách âm tiết với Ví dụ: từ “hồ bình” tạo từ âm tiết “hồ” “bình”, âm tiết đều có nghĩa riêng đứng độc lập, ghép lại sẽ mang nghĩa khác Vì đặc điểm này, toán tách từ trở thành toán tiền đề cho ứng dụng xử lý ngôn ngữ tự nhiên khác phân loại văn bản, tóm tắt văn bản, máy dịch tự động… Đối với việc xử lý văn bản, bước xử lý ngôn ngữ tự nhiên quan trọng nhất, định độ chính xác thực nghiệm Giai đoạn tách từ thực qua bước sau: - - Tách danh từ riêng, cụm từ có quy tắc thơng thường: Trong văn bản, danh từ riêng như: Tên người, địa danh… Các cụm từ có quy tắc thời gian, ngày tháng năm… tách trước So khớp cực đại: Mục đích bước tìm cụm từ dài Đối với câu văn bản, thực so khớp cực đại với từ điển đã tách trước word_tokenier để tìm cụm từ có nghĩa dài Gần 174.437 câu bình luận viết trang thương mại điện tử điện tử foody thu thập, bình luận tách từ thành từ cụm từ có ý nghĩa 2.3 Gán nhãn liệu Hình 1: Mơ hình huấn luyện bình luận foody PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Thu thập liệu Nghiên cứu sử dụng liệu 174.437 câu bình luận để làm liệu cho trình huấn Gần 174.437 câu bình luận viết trang thương mại điện tử điện tử foody.vn thu thập Các câu bình luận gán nhãn thủ công với loại nhãn: Tích cực tiêu cực Nếu điểm bình luận lớn 7.0 điểm sẽ gán nhãn tích cực, ngược lại sẽ tiêu cực Trong 174.437 có 129.054 câu bình luận gán nhãn tích cực (74%) 45.383 câu bình luận gán nhãn tiêu cực (26%) 2.4 Biểu diễn từ thành vector Các câu bình luận biểu diễn thành vector cách sử dụng mơ hình Word Embedding dựa từ điển vector từ từ điển baomoi.model.bin Word embedding kỹ thuật cho việc học mật độ dày đặc thông tin đại diện từ không gian vector với số chiều nhỏ Mỗi từ xem điểm không gian này, đại diện vector có độ dài cố định Word Embedding thực lớp mạng, trước đưa về dạng vector câu cần chuẩn hóa về độ dài Chọn độ dài câu (max_length) 200 từ, tất câu tập huấn luyện đều cắt nối để có độ dài 200 Khi câu đưa vào, sẽ embedding theo số index tương ứng từ từ điển baomoi.model.bin vector biểu diễn từ word2vec hình dưới đây: BIỂU DIỄN CÂU BÌNH LUẬN THÀNH CÁC VECTOR Quá trình word embedding câu Hình 3: Mơ hình huấn luyện LSTM Các thơng số mơ hình huấn luyện LSTM: - Word2vec có 439.056 từ, từ vector 400 x 400 chiều - Giới hạn bình luận 200, bình luận dài bị cắt 200, ngắn sẽ thêm tới đủ 200 - Lớp LSTM có 128 nút - Lớp full connected có 512 nút, dùng hàm activation relu - Dropout 0.5 để tránh overfit - Lớp cuối dùng hàm sigmoid để phân lớp 19 Hình 2: Quá trình word embedding câu 2.5 Q trình huấn luyện sử dụng mơ hình LSTM Các câu bình luận sẽ chia làm phần liệu Thực tuần tự mang phần (75%) liệu gán nhãn thủ công làm liệu huấn luyện phần còn lại (25%) sử dụng liệu kiểm thử Dữ liệu kiểm tra gán dựa vào điểm số đánh giá người dùng Giai đoạn kiểm thử dừng lại phần liệu đầu vào đều kiểm thử lần Tỷ lệ gán nhãn chính xác thuật toán tính cách lấy trung bình tỷ lệ gán nhãn chính xác lần kiểm thử KẾT QUẢ VÀ ĐÁNH GIÁ 3.1 Phương pháp đánh giá Để đánh giá hiệu phân lớp luận văn sử dụng đại lượng độ chính xác (accuracy) độ đo Precision, Recall, F1-score - Độ chính xác (accuracy) đại lượng thể tỉ lệ số bình luận phân loại tổng số bình luận tập liệu kiểm thử - Precision độ đo thể độ chính xác phân lớp, xác định số bình luận phân lớp tổng số bình luận phân vào lớp - Recall độ đo thể khả không phân lớp sai bình luận, xác định số bình luận phân lớp tổng số bình luận thực tế thuộc lớp - F1-score độ xác định thông qua Precision Recall (giá trị độ đo cao phân lớp có hiệu phân lớp tốt) 3.3 So sánh với mơ hình huấn luyện khác 3.2 Kết Ngoài phương pháp phân loại cảm xúc người dùng LSTM, thực nghiệm chạy thực nghiệm phân loại cảm xúc với thuật toán khác như: MLP, CNN, CNN kết hợp LSTM Biểu đồ độ chính xác hàm chi phí trình huấn luyện với epochs độ đo thu được biểu diễn biểu đồ bảng Bảng 2: Các độ thuật tốn MLP, CNN CNN kết hợp LSTM accuracy Các câu bình luận sẽ chia làm phần liệu Thực tuần tự mang phần (75%) liệu gán nhãn thủ công làm liệu huấn luyện phần còn lại (25%) sử dụng liệu kiểm thử Sau huấn luyện mơ hình LSTM theo tỉ lệ chính xác nhận sau thực gán nhãn phương pháp khác dựa tập liệu thu thập 81,8% 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 Sau tiến hành huấn luyện, tỉ lệ chính xác độ đo mơ hình trình bảng bên dưới: 13 17 21 25 29 33 37 41 45 49 epochs accuracy loss Biểu đồ 1: Độ xác hàm chi phí trình huấn luyện với LSTM Bảng 1: Các độ thuật toán LSTM Nội dung Accuracy Precision Recall F1 score Kết 0.8183 0.8398 0.7188 0.7332 Ngoài ra, thực nghiệm còn chia liệu theo k-fold = đối với tập liệu huấn luyện Tỉ lệ chính xác trung bình sau thực chia liệu theo k-fold = 82.1% Biểu đồ độ chính xác flod biểu diễn hình fold 82.10% fold 81.90% fold 82.00% fold 81.70% 82.10% fold ACCURACY Biểu đồ 2: Độ xác fold Hơ hình MLP CNN CNN_LSTM LSTM Accuracy 0.776 0.795 0.796 0.818 Precision 0.816 0.845 0.842 0.840 Recall 0.593 0.619 0.601 0.690 F1-score 0.673 0.719 0.710 0.729 KẾT LUẬN VÀ HUỚNG PHÁT TRIỂN Nghiên cứu đã nêu giải pháp kỹ thuật xây dựng mô hình xử lý câu bình luận nhằm mục đích phân loại cảm xúc câu bình luận người dùng foody với độ chính xác khoảng 81.8% Tuy nhiên, nghiên cứu mới tập trung phân loại theo 02 nhãn “cảm xúc tích cực” “cảm xúc tiêu cực”, chưa phân loại cảm xúc khác vui, buồn, giận Ngoài ra, độ chính xác việc phân loại câu bình luận còn phụ thuộc vào độ dài câu bình luận Tỷ lệ chính xác chương trình thực nghiệm cao với câu bình luận có độ dài dưới 200 từ Với câu có độ dài 200 từ, vector biểu diễn câu bình luận rơi vào vùng liệu mà LSTM chưa huấn luyện nên làm giảm tỷ lệ chính xác chương trình thực nghiệm Từ kết đạt hạn chế nghiên cứu, chúng tơi sẽ hướng đến xây dựng mơ hìh thực phân loại cảm xúc bình luận cho tất viết bao gồm câu bình luận có độ dài 200 từ loại bình luận người dùng thành nhiều cảm xúc khác LỜI CẢM ƠN Đề hoàn thành nghiên cứu này, nỗ lực nghiên cứu thân, xin chân thành cảm ơn TS Lê Văn Vinh người hướng dẫn khoa học, đã định hướng cho đề tài tơi Những bảo, góp ý, động viên thầy nguồn cổ vũ tinh thần để hoàn thành đề tài TÀI LIỆU THAM KHẢO [1] Suchita V Wawre, Sachin N Deshmukh - Department of Computer Science & Information Technology, Dr Babasaheb Ambedkar Marathwada University, Aurangabad (MS) India, “Sentiment Classification using Machine Learning Techniques”, 2013 [2] Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Liu, Bing Qin, “Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification”, 2014 [3] Phạm Hùng, “Hướng tiếp cận dựa học máy cho tốn trích xuất thơng tin quan điểm”, 2017 [4] Vũ Anh, Bùi Nhật Anh, Đoàn Việt Dũng, “Xây dựng hệ thống tách từ tiếng Việt”, 2018 [5] Xuan-Son Vu, “Pre-trained Word2Vec models for Vietnamese” Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Thế Bảo Đơn vị: Phòng Đào tạo Điện thoại: 09 3435 7227 Email: thebao@hcmute.edu.vn Tp Hồ Chí Minh, ngày 10 tháng 06 năm 2020 Xác nhận Giảng viên hướng dẫn Học viên thực (Ký & ghi rõ họ tên) (Ký & ghi rõ họ tên) S K L 0 ... TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH –... TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH –... cách nhanh chóng, rõ ràng, luận văn thực đề tài ? ?Phân loại cảm xúc văn tiếng Việt sử dụng phương pháp học sâu? ?? Mục tiêu chung luận văn: Đề xuất mơ hình phân loại câu bình luận, nhận xét, phản

Ngày đăng: 02/12/2021, 09:09

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Lê Hoàng Thái, Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP.Hồ Chí Minh, “Mạng neuron nhân tạo” Sách, tạp chí
Tiêu đề: Mạng neuron nhân tạo
[2]. Lưu Tuấn Anh, Đại học khoa học kĩ thuật Nagaoka, “A Pointwise Approach for Vietnamese Diacritics Restoration”, 2012 Sách, tạp chí
Tiêu đề: A Pointwise Approach for Vietnamese Diacritics Restoration
[3]. Hoàng Phê chủ biên, “Từ điển tiếng việt”, Nxb Đà Nẵng và Trung tâm Từ điển học – Đà Nẵng Sách, tạp chí
Tiêu đề: Từ điển tiếng việt
Nhà XB: Nxb Đà Nẵng và Trung tâm Từ điển học – Đà Nẵng
[4]. Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương, “Hướng dẫn nhận biết đơn vị từ trong văn bản Tiếng Việt”- Báo cáo SP8.2 Sách, tạp chí
Tiêu đề: Hướng dẫn nhận biết đơn vị từ trong văn bản Tiếng Việt
[5]. Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào, “Tóm tắt văn bản tiếng Việt tự động với mô hình sequence to sequence”, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 20/10/2017 Sách, tạp chí
Tiêu đề: “Tóm tắt văn bản tiếng Việt tự động với mô hình sequence to sequence”
[6]. Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Liu, Bing Qin, “Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification”, 2014 Sách, tạp chí
Tiêu đề: “Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification”
[7]. Nguyễn Thái Ân,“Ứng dụng Deep Learning cho phân tích cảm xúc (sentiment analysis) với dữ liệu twitter”, 2017 Sách, tạp chí
Tiêu đề: “Ứng dụng Deep Learning cho phân tích cảm xúc (sentiment analysis) với dữ liệu twitter”
[8]. Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 27/10/2008 Sách, tạp chí
Tiêu đề: “A Hybrid Approach to Word Segmentation of Vietnamese Texts”
[9]. S. Hochreiter and J. Schmidhuber, 1997. “Long Short-Term Memory” Neural Computation, vol. 9, pp. 1735–1780 Sách, tạp chí
Tiêu đề: “Long Short-Term Memory”
[10]. W. Gerrod Parrot. “Emotions in Social Psychology”, 2001 Sách, tạp chí
Tiêu đề: Emotions in Social Psychology
[11]. Phạm Hùng, “Hướng tiếp cận dựa trên học máy cho bài toán trích xuất thông tin quan điểm”, 2017 Sách, tạp chí
Tiêu đề: “Hướng tiếp cận dựa trên học máy cho bài toán trích xuất thông tin quan điểm”
[12]. Bing Liu, “Sentiment Analysis and Opinion Mining”, 2012 Sách, tạp chí
Tiêu đề: “Sentiment Analysis and Opinion Mining”
[13]. Lê Thị Thu H, “Nghiên Cứu Về Mạng Neural Tích Chập Và Ứng Dụng Cho Bài Toán Nhận Dạng Biển Số Xe”, 2016 Sách, tạp chí
Tiêu đề: Nghiên Cứu Về Mạng Neural Tích Chập Và Ứng Dụng Cho Bài Toán Nhận Dạng Biển Số Xe
[15]. Suchita V Wawre, Sachin N Deshmukh - Department of Computer Science & Information Technology, Dr. Babasaheb Ambedkar Marathwada University, Aurangabad (MS) India, “Sentiment Classification using Machine Learning Techniques”, 2013 Sách, tạp chí
Tiêu đề: Sentiment Classification using Machine Learning Techniques”
[16]. Xuan-Son Vu, “Pre-trained Word2Vec models for Vietnamese” Sách, tạp chí
Tiêu đề: “Pre-trained Word2Vec models for Vietnamese
[17]. Vũ Anh, Bùi Nhật Anh, Đoàn Việt Dũng, “Xây dựng hệ thống tách từ tiếng Việt”, 2018 Sách, tạp chí
Tiêu đề: “Xây dựng hệ thống tách từ tiếng Việt
[19]. Khang, B.H, “Báo cáo Tổng kết Khoa học và Kỹ thuật Đề tài Nghiên cứu Phát triển Công nghệ Nhận dạng, Tổng hợp và Xử lý Ngôn ngữ Tự nhiên”.Chương trình KC-01, 2004 Sách, tạp chí
Tiêu đề: “Báo cáo Tổng kết Khoa học và Kỹ thuật Đề tài Nghiên cứu Phát triển Công nghệ Nhận dạng, Tổng hợp và Xử lý Ngôn ngữ Tự nhiên”

HÌNH ẢNH LIÊN QUAN

mỗi khi gặp lại. Chức năng này được hình thành thông qua một chuỗi liên tiếp các quá trình xử lý thông tin của các neuron trong mạng - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
m ỗi khi gặp lại. Chức năng này được hình thành thông qua một chuỗi liên tiếp các quá trình xử lý thông tin của các neuron trong mạng (Trang 31)
Hình 2.6: Cấu trúc chung của mạng neuron - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.6 Cấu trúc chung của mạng neuron (Trang 33)
Hình 2.7: Mạng tự kết hợp - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.7 Mạng tự kết hợp (Trang 34)
Hình 2.9: Mạng truyền thẳng - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.9 Mạng truyền thẳng (Trang 36)
Hình 2.10: Mạng phản hồi - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.10 Mạng phản hồi (Trang 36)
Bảng 2.2: Các hàm truyền cơ bản - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Bảng 2.2 Các hàm truyền cơ bản (Trang 37)
Để dễ hình dung, ta có thể xem tích chập như một cửa sổ trượt (sliding window) (hình 2.13) áp đặt lên một ma trận - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
d ễ hình dung, ta có thể xem tích chập như một cửa sổ trượt (sliding window) (hình 2.13) áp đặt lên một ma trận (Trang 40)
Hình 2.15: Quá trình xử lý thông tin trong mạng RNN [13] - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.15 Quá trình xử lý thông tin trong mạng RNN [13] (Trang 41)
Hình 2.16: Mô đun lặp lại trong một tiêu chuẩn RNN chứa một lớp duy nhất - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.16 Mô đun lặp lại trong một tiêu chuẩn RNN chứa một lớp duy nhất (Trang 44)
Hình 2.17: Mô đun lặp đi lặp lại trong một LSTM chứa bốn lớp tương tác - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.17 Mô đun lặp đi lặp lại trong một LSTM chứa bốn lớp tương tác (Trang 44)
Hình 2.20: LSTM focus f [14] - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.20 LSTM focus f [14] (Trang 46)
Hình 2.22: LSTM focu sc [14] - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.22 LSTM focu sc [14] (Trang 47)
Hình 2.23: LSTM focu so [14] - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 2.23 LSTM focu so [14] (Trang 48)
Hình 3.1: Mô hình huấn luyện bình luận văn bản Tiếng Việt - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 3.1 Mô hình huấn luyện bình luận văn bản Tiếng Việt (Trang 50)
Bảng 3.1: Môi trường thực hiện thực nghiệm và dữ liệu - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Bảng 3.1 Môi trường thực hiện thực nghiệm và dữ liệu (Trang 51)
Hình 3.2: Các thông tin câu bình luận thu thập trên các bài viết của trang - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 3.2 Các thông tin câu bình luận thu thập trên các bài viết của trang (Trang 54)
Hình 3.3: Giao diện đánh giá điểm của trang https://www.foody.vn - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 3.3 Giao diện đánh giá điểm của trang https://www.foody.vn (Trang 55)
Hình 3.4: Quá trình word embedding củ a1 câu - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 3.4 Quá trình word embedding củ a1 câu (Trang 57)
Hình 3.5: Mô hình huấn luyện LSTM - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 3.5 Mô hình huấn luyện LSTM (Trang 58)
Hình 3.6: Quá trình huấn luyện dữ liệu dùng LSTM - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 3.6 Quá trình huấn luyện dữ liệu dùng LSTM (Trang 59)
Hình 4.1 :Quá trình gán nhãn dữ liệu câu bình luận bất kỳ - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 4.1 Quá trình gán nhãn dữ liệu câu bình luận bất kỳ (Trang 60)
Biểu đồ 4.3: Độ chính xác mô hình LSTM với k-fold=5 - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
i ểu đồ 4.3: Độ chính xác mô hình LSTM với k-fold=5 (Trang 63)
Biểu đồ 4.4: Hàm chi phí trong quá trình huấn luyện mô hình LSTM với k-fold = 5  - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
i ểu đồ 4.4: Hàm chi phí trong quá trình huấn luyện mô hình LSTM với k-fold = 5 (Trang 64)
Hình 4.4: Mô hình huấn luyện kết hợp CNN và LSTM - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 4.4 Mô hình huấn luyện kết hợp CNN và LSTM (Trang 66)
Sau khi tiến hành huấn luyện, tỉ lệ chính xác và các độ đo của các mô hình được trình bài ở bảng 4.2 và 4.3 bên dưới:  - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
au khi tiến hành huấn luyện, tỉ lệ chính xác và các độ đo của các mô hình được trình bài ở bảng 4.2 và 4.3 bên dưới: (Trang 66)
Hình 4.5: Câu bình luận được gán nhãn cảm xúc Tích cực - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 4.5 Câu bình luận được gán nhãn cảm xúc Tích cực (Trang 68)
Hình 4.8: Câu bình luận được gán nhãn cảm xúc Tiêu cực - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 4.8 Câu bình luận được gán nhãn cảm xúc Tiêu cực (Trang 69)
Hình 4.11: Chức năng gán nhãn các câu bình luận cho một bài viết - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 4.11 Chức năng gán nhãn các câu bình luận cho một bài viết (Trang 70)
Hình 1: Mô hình huấn luyện bình luận trên - (Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu
Hình 1 Mô hình huấn luyện bình luận trên (Trang 83)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w