1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Luận văn thạc sĩ) phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu

90 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 90
Dung lượng 8,31 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 SKC006698 Tp Hồ Chí Minh, tháng 05/2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Tp Hồ Chí Minh, tháng 5/2020 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Hướng dẫn khoa học: TS LÊ VĂN VINH Tp Hồ Chí Minh, tháng 5/2020 iii LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Tất số liệu kết luận văn trung thực chưa có cơng bố nghiên cứu khác Tp Hồ Chí Minh, ngày 04 tháng 05 năm 2020 Học viên thực Nguyễn Thế Bảo iv LỜI CẢM ƠN Đề hoàn thành luận văn này, ngồi nỗ lực nghiên cứu thân, tơi xin chân thành cảm ơn TS Lê Văn Vinh người hướng dẫn khoa học, định hướng cho đề tài tơi Những chỉ bảo, góp ý, đợng viên thầy nguồn cổ vu tinh thần để tơi hồn thành đề tài Tơi cung xin chân thành cảm ơn TS Nguyễn Phương người định hướng hướng dẫn ban đầu cho tôi thực chuyên đề “Tìm hiểu giải thuật deep learning” Mặc dù khơng thể đồng hành cùng Thầy hết khóa luận, chỉ dẫn tận tình Thầy suốt q trình xây dựng đề cương hồn thành chun đề nguồn đợng lực lớn lao để tơi hồn thành đề tài Tôi xin chân thành cảm ơn Thầy/Cô Khoa Công nghệ Thông tin – Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh truyền đạt cho kiến thức quý báu trình học Cao học cung q trình hồn thiện luận văn Tôi chân thành cảm ơn bạn bè, anh chị em lớp cao học KHMT2017A giúp đỡ, đóng góp ý kiến chia sẻ kinh nghiệm học tập, nghiên cứu suốt khóa học Mặc dù tơi cố gắng hồn thành luận văn phạm vi khả cho phép chắn khơng tránh khỏi thiếu sót Xin kính mong nhận cảm thơng tận tình chỉ bảo quý Thầy Cơ bạn Tp Hồ Chí Minh, ngày 04 tháng 05 năm 2020 Học viên thực luận văn Nguyễn Thế Bảo v MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vii DANH SÁCH BẢNG viii DANH MỤC BIỂU ĐỒ ix DANH SÁCH HÌNH x TÓM TẮT CHƯƠNG 1: GIỚI THIỆU 1.1 Mục tiêu, đối tượng phương pháp nghiên cứu 1.1.1 Mục tiêu 1.1.2 Đối tượng nghiên cứu 1.1.3 Phạm vi nghiên cứu 1.2 Nghiên cứu liên quan 1.3 Vấn đề tồn .6 1.4 Kết luận CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan xử lý ngôn ngữ tự nhiên 2.1.1 Đặc trưng ngôn ngữ tiếng Việt 2.1.2 Công cụ tách từ vnTokenizer .9 2.1.3 Biểu diễn từ thành Vector đặc trưng sử dụng Word2vec 11 2.1.4 Cảm xúc người dùng (Sentiment) 13 2.2 Tổng quan mơ hình mạng neuron 15 2.2.1 Giới thiệu mạng neuron 15 2.2.2 Cấu trúc hoạt động mạng neuron 15 2.3 Các mơ hình học sâu 23 2.3.1 Multi Layer Perceptron (MLP) 24 2.3.2 Convolutional Neuron Networks (CNN) 25 vi 2.3.3 Recurrent neuron Networks (RNN) 27 2.3.4 Long short-term memory (LSTM) 29 2.4 Kết luận 34 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG PHÂN LOẠI CẢM XÚC TRONG CÂU BÌNH LUẬN TIẾNG VIỆT 35 3.1 Phát biểu toán 35 3.2 Mơ hình ứng dụng xử lý văn tiếng Việt 35 3.3 Các giai đoạn xử lý liệu 38 3.3.1 Thu thập liệu 38 3.3.2 Giai đoạn tách từ sử dụng công cụ word_tokenier 38 3.3.3 Gán nhãn liệu 40 3.3.4 Biểu diễn câu bình luận thành vector đặc trưng 42 3.4 Q trình huấn luyện sử dụng mơ hình LSTM 43 3.5 Kết luận 45 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 46 4.1 Mô hình thực nghiệm 46 4.2 Phương pháp đánh giá 47 4.3 Kết thực nghiệm 48 4.4 So sánh với mơ hình huấn luyện khác 50 4.5 Giao diện người dùng 54 4.6 Nhận xét đánh giá 57 4.7 Kết luận 57 KẾT LUẬN 58 Kết đạt 58 1.1 Về mặt lý thuyết 58 1.2 Về mặt thực tiễn 58 Hạn chế 58 Hướng phát triển 59 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 60 vii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt AI LSTM W NLP CNN RNN MLP 60 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Lê Hoàng Thái, Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP.Hồ Chí Minh, “Mạng neuron nhân tạo” [2] Lưu Tuấn Anh, Đại học khoa học kĩ thuật Nagaoka, “A Pointwise Approach for Vietnamese Diacritics Restoration”, 2012 [3] Hoàng Phê chủ biên, “Từ điển tiếng việt”, Nxb Đà Nẵng Trung tâm Từ điển học – Đà Nẵng [4] Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vu Xuân Lương, “Hướng dẫn nhận biết đơn vị từ văn Tiếng Việt”- Báo cáo SP8.2 [5] Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào, “Tóm tắt văn tiếng Việt tự đợng với mơ hình sequence to sequence”, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 20/10/2017 Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Liu, Bing Qin, [6] “Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification”, 2014 [7] Nguyễn Thái Ân,“Ứng dụng Deep Learning cho phân tích cảm xúc (sentiment analysis) với liệu twitter”, 2017 [8] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 27/10/2008 [9] S Hochreiter and J Schmidhuber, 1997 “Long Short-Term Memory” Neural Computation, vol 9, pp 1735–1780 [10] W Gerrod Parrot “Emotions in Social Psychology”, 2001 [11] Phạm Hùng, “Hướng tiếp cận dựa học máy cho tốn trích xuất thơng tin quan điểm”, 2017 [12] Bing Liu, “Sentiment Analysis and Opinion Mining”, 2012 [13] Lê Thị Thu H, “Nghiên Cứu Về Mạng Neural Tích Chập Và Ứng Dụng Cho Bài Toán Nhận Dạng Biển Số Xe”, 2016 61 https://colah.github.io/posts/2015-08-Understanding-LSTMs/, truy cập ngày 2/10/2019 [15] Suchita V Wawre, Sachin N Deshmukh - Department of Computer Science & Information Technology, Dr Babasaheb Ambedkar Marathwada University, Aurangabad (MS) India, “Sentiment Classification using Machine Learning Techniques”, 2013 [16] Xuan-Son Vu, “Pre-trained Word2Vec models for Vietnamese” [17] Vu Anh, Bùi Nhật Anh, Đoàn Việt Dung, “Xây dựng hệ thống tách từ tiếng Việt”, 2018 [14] [18] http://viet.jnlp.org/tai-nguyen-ngon-ngu-tieng-viet/dhac-trung-cua- tieng-viet/thong-so-tieng-viet, truy cập ngày 21/4/2019 [19] Khang, B.H, “Báo cáo Tổng kết Khoa học Kỹ thuật Đề tài Nghiên cứu Phát triển Công nghệ Nhận dạng, Tổng hợp Xử lý Ngôn ngữ Tự nhiên” Chương trình KC-01, 2004 Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras and Mark Johnson, “VnCoreNLP: A Vietnamese Natural Language Processing Toolkit”, 4/1/2018 [20] Thai Binh Nguyen, Quang Minh Nguyen, Thu Hien Nguyen, Ngoc Phuong Pham, The Loc Nguyen, Quoc Truong Do, “VAIS Hate Speech Detection System: A Deep Learning based Approach for System Combination”, 2/10/2019 [22] Hang Thi-Thuy Do, Huy Duc Huynh, Kiet Van Nguyen, Ngan LuuThuy Nguyen, Anh Gia-Tuan Nguyen, “Hate Speech Detection on Vietnamese Social Media Text using the Bidirectional-LSTM Model”, 9/11/2019 [21] PHÂN LOẠI CẢM XÚC TRÊN FOODY SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU SENTIMENT CLASSIFICATION ON FOODY USING DEEP LEARNING Nguyễn Thế Bảo Trường đại học Sư phạm Kỹ thuật TP.HCM TĨM TẮT Do xã hợi ngày phát triển, yêu cầu khách hàng đối với sản phẩm, dịch vụ ngày cao, không chất lượng mà cịn dịch vụ kèm nên việc phân tích phản hồi, đánh giá người tiêu dùng đối với sản phẩm dịch vụ đó cần thiết giúp cho doanh nghiệp hiểu điểm mạnh, điểm yếu sản phẩm, dịch vụ Phân loại cảm xúc người dùng Foody phân loại cho bình luận theo hướng quan điểm tích cực hay tiêu cực dựa nợi dung bình luận Trong nghiên cứu này, mơ hình học sâu áp dụng phân loại cảm xúc người dùng Cụ thể, chúng tơi so sánh mơ hình LSTM với mơ hình MLP, CNN, CNN kết hợp với LSTM Kết cho thấy mơ hình LSTM ln đem lại đợ xác vượt trợi mơ hình học sâu khác Từ khóa: foody; phân loại cảm xúc, học sâu; LSTM ABSTRACT Due to social development and customers’ high demands towards not only the quality of alimentary products but also services, it is essential for businessmen to analyse consumers’ feedbacks to a certain good or service so as to understand its pros and cons The sentiment classification review on Foody is based on positive and negative aspects of comments In this reseach, the models deep learning has been applied to classify users’ emotion We compare LSTM model with MLP, CNN, CNN model associated with LSTM The result shows that LSTM always obtains higher accuracy than another Keywords: foody, sentiment classification, deep learning, LSTM GIỚI THIỆU Thu thập thông tin phản hồi, đánh giá khách hàng một cách tuyệt vời giúp cho doanh nghiệp hiểu điểm mạnh, điểm yếu sản phẩm, dịch vụ mình; đồng thời nhanh chóng nắm bắt tâm lý nhu cầu khách hàng để mang đến cho họ sản phẩm, dịch vụ hoàn hảo Với phát triển mạnh mẽ mạng xã hợi, diễn đàn, báo chí, doanh nghiệp có thể tiếp cận với phản hồi khách hàng sản phẩm họ một cách nhanh chóng dễ dàng Thơng thường, để đánh giá mợt sản phẩm đó, nhà nghiên cứu trích chọn đặc điểm riêng (Features) sản phẩm Sau từ review, comment, Feedback, đánh giá xem tính sản phẩm người tiếp đón (Huifeng Tang et al., 2009) Những năm gần đây, Foody trang thương mại điện tử tin cậy cho người có thể tìm kiếm, đánh giá, bình luận địa điểm ăn uống: nhà hàng, quán ăn, cafe, bar, karaoke, tiệm bánh, khu du lịch Việt Nam Foody tạo một cộng đồng nhằm kết nối thực khách đến với địa điểm ăn uống lớn nhỏ nước Đến thời điểm tại, Foody có hàng trăm ngàn địa điểm hàng trăm ngàn bình luận, hình ảnh hầu hết tỉnh thành Việt Nam Foody giúp người dùng có thể tìm kiếm lựa chọn địa điểm tốt cho bạn bè Phân loại ý kiến trang thuơng mại điện tử foody.vn chủ đề nóng nhiều doanh nghiệp quan tâm Tuy nhiên, bình luận foody thường có chiều dài ngắn, có nhiều ký tự cảm xúc cung viết tắt, viết bằng ngôn ngữ mạng nhiều, việc phân tích ý kiến gặp phải nhiều khó khăn Khoa học kỹ thuật ngày phát triển, khái niệm trí tuệ nhân tạo khơng cịn lạ lẫm với người dùng, cơng trình nghiên cứu, sản phẩm cho đời cải tiến liên tục Liên quan đến lĩnh vực phân loại cảm xúc người dùng có thể kể đến cơng trình nghiên cứu Wawre cợng [1] nghiên cứu xây dựng mợt mơ hình phân loại cảm xúc bình luận phim Mỗi bình luận đại diện cho cảm xúc người dùng lúc phân vào mợt hai lớp “Cảm xúc tích cực” hay “Cảm xúc tiêu cực” Nghiên cứu đánh giá, so sánh, tính hiệu hai bộ phân loại SVM Naive Bayes Theo kết Wawre đưa ra, mơ hình SVM có đợ xác 45.71% mơ hình Naive Bayes có đợ xác 65.57%; Duyu Tang cộng [2] nghiên cứu xây dựng mơ hình phân loại ý kiến cho bình luận Twitter theo hướng quan điểm tích cực hay tiêu cực Luận văn cung nêu rằng thuật toán Sentiment Specific Word Embedding (SSWE) mang lại đợ xác tốt 77.3% Mợt nhóm nghiên cứu khác [3] đề xuất mơ hình LSTM tốn trích xuất thơng tin quan điểm tập liệu tiếng Anh tiếng Việt Tập liệu tiếng Anh có đợ xác 82.76% tập liệu tiếng Việt có đợ xác 43.7% Xuất phát từ kết nhu cầu thực tiễn trên, xin đề xuất ứng dụng mơ hình học sâu, cụ thể mơ hình LSTM để phân loại ý kiến Foody thành hai nhãn bình luận tích cực tiêu cực Mơ hình huấn luyện bình luận foody mơ tả hình luyện Ngồi ra, nghiên cứu cịn sử dụng thêm bộ thư viện 400.000 từ biểu diễn dạng vector tác giả Vu Xuân Sơn [5] làm sở liệu để thực nghiệm cho nghiên cứu 2.2 Tách từ Giai đoạn tách từ sử dụng công cụ word_tokenier bộ công cụ Vietnamese NLP Toolkit tác giả Vu Anh cộng [4] Trong tiếng Việt, dấu cách không mang ý nghĩa phân tách từ mà chỉ mang ý nghĩa phân tách âm tiết với Ví dụ: từ “hồ bình” tạo từ âm tiết “hồ” “bình”, âm tiết có nghĩa riêng đứng độc lập, ghép lại mang một nghĩa khác Vì đặc điểm này, tốn tách từ trở thành toán tiền đề cho ứng dụng xử lý ngôn ngữ tự nhiên khác phân loại văn bản, tóm tắt văn bản, máy dịch tự đợng… Đối với việc xử lý văn bản, bước xử lý ngôn ngữ tự nhiên quan trọng nhất, định đợ xác thực nghiệm Giai đoạn tách từ thực qua bước sau: - - Tách danh từ riêng, cụm từ có quy tắc thông thường: Trong văn bản, danh từ riêng như: Tên người, địa danh… Các cụm từ có quy tắc chỉ thời gian, ngày tháng năm… tách trước So khớp cực đại: Mục đích bước tìm cụm từ dài Đối với câu văn bản, thực so khớp cực đại với bộ từ điển tách trước word_tokenier để tìm cụm từ có nghĩa dài Gần 174.437 câu bình luận viết trang thương mại điện tử điện tử foody thu thập, bình luận tách từ thành từ hoặc cụm từ có ý nghĩa 2.3 Gán nhãn liệu Hình 1: Mơ hình huấn luyện bình luận foody PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Thu thập liệu Nghiên cứu sử dụng bợ liệu 174.437 câu bình luận để làm liệu cho trình huấn Gần 174.437 câu bình luận viết trang thương mại điện tử điện tử foody.vn thu thập Các câu bình luận gán nhãn thủ cơng với loại nhãn: Tích cực tiêu cực Nếu điểm bình luận lớn hoặc bằng 7.0 điểm gán nhãn tích cực, ngược lại tiêu cực Trong 174.437 có 129.054 câu bình luận gán nhãn tích cực (74%) 45.383 câu bình luận gán nhãn tiêu cực (26%) 2.4 Biểu diễn từ thành vector Các câu bình luận biểu diễn thành vector bằng cách sử dụng mơ hình Word Embedding dựa bợ từ điển vector từ bộ từ điển baomoi.model.bin Word embedding một kỹ thuật cho việc học mật độ dày đặc thông tin đại diện từ một không gian vector với số chiều nhỏ Mỗi mợt từ có thể xem một điểm không gian này, đại diện mợt vector có đợ dài cố định Word Embedding thực lớp đầu tiên mạng, trước đưa dạng vector câu cần chuẩn hóa đợ dài Chọn đợ dài câu (max_length) 200 từ, tất câu tập huấn luyện cắt hoặc nối để có đợ dài 200 Khi mợt câu đưa vào, embedding theo số index tương ứng từ từ điển baomoi.model.bin vector biểu diễn từ word2vec hình đây: BIỂU DIỄN CÂU BÌNH LUẬN THÀNH CÁC VECTOR Hình 3: Mơ hình huấn luyện LSTM Các thơng số mơ hình huấn luyện LSTM: - Word2vec có 439.056 từ, từ vector - - Quá trình word embedding câu 400 x 400 chiều Giới hạn bình luận 200, bình luận dài bị cắt 200, ngắn thêm tới đủ 200 Lớp LSTM có 128 nút Lớp full connected có 512 nút, dùng hàm activation relu Dropout bằng 0.5 để tránh overfit Lớp cuối dùng hàm sigmoid để phân lớp 19 Hình 2: Quá trình word embedding câu 2.5 Q trình huấn luyện sử dụng mơ hình LSTM Các câu bình luận chia làm phần liệu Thực tuần tự mang phần (75%) liệu gán nhãn thủ công làm liệu huấn luyện phần lại (25%) sử dụng liệu kiểm thử Dữ liệu kiểm tra gán dựa vào điểm số đánh giá người dùng Giai đoạn kiểm thử dừng lại phần liệu đầu vào kiểm thử một lần Tỷ lệ gán nhãn xác thuật tốn tính bằng cách lấy trung bình tỷ lệ gán nhãn xác lần kiểm thử KẾT QUẢ VÀ ĐÁNH GIÁ 3.1 Phương pháp đánh giá Để đánh giá hiệu phân lớp luận văn sử dụng đại lượng đợ xác (accuracy) đợ đo Precision, Recall, F1-score Đợ xác (accuracy) đại lượng thể tỉ lệ số bình luận phân loại tởng số bình luận tập liệu kiểm thử Precision độ đo thể đợ xác bợ phân lớp, xác định bằng số bình luận phân lớp tởng số bình luận phân vào lớp Recall độ đo thể khả không phân lớp sai bình luận, xác định bằng số bình luận phân lớp tởng số bình luận thực tế tḥc lớp F1-score đợ xác định thông qua Precision Recall (giá trị độ đo cao bợ phân lớp có hiệu phân lớp tốt) 3.3 So sánh với mơ hình huấn luyện khác 3.2 Kết Các câu bình luận chia làm phần liệu Thực tuần tự mang phần (75%) liệu gán nhãn thủ công làm liệu huấn luyện phần lại (25%) sử dụng liệu kiểm thử Sau huấn luyện bằng mô hình LSTM theo tỉ lệ xác nhận sau thực gán nhãn bằng phương pháp khác dựa cùng một tập liệu thu thập 81,8% Ngoài phương pháp phân loại cảm xúc người dùng bằng LSTM, thực nghiệm chạy thực nghiệm phân loại cảm xúc với thuật toán khác như: MLP, CNN, CNN kết hợp LSTM Sau tiến hành huấn luyện, tỉ lệ xác đợ đo mơ hình trình bảng bên dưới: Bảng 2: Các đợ thuật tốn MLP, CNN CNN kết hợp LSTM accuracy Biểu đồ đợ xác cung hàm chi phí q trình huấn luyện với epochs đợ đo thu được biểu diễn biểu đồ bảng 0.5 0.4 0.3 0.2 13172125293337414549 accuracy loss epochs Biểu đồ 1: Đợ xác hàm chi phí q trình huấn luyện với LSTM Bảng 1: Các đợ thuật tốn LSTM Nội dung Kết Ngồi ra, thực nghiệm cịn chia liệu theo k-fold = tập liệu huấn luyện Tỉ lệ xác trung bình sau thực chia liệu theo k-fold = 82.1% Biểu đồ đợ xác flod biểu diễn hình fold fold 10%82 fold ACCURACY fold fold KẾT LUẬN VÀ HUỚNG PHÁT TRIỂN Nghiên cứu nêu giải pháp kỹ thuật xây dựng mơ hình xử lý câu bình luận nhằm mục đích phân loại cảm xúc câu bình luận người dùng foody với đợ xác khoảng 81.8% Tuy nhiên, nghiên cứu chỉ tập trung phân loại theo 02 nhãn “cảm xúc tích cực” “cảm xúc tiêu cực”, chưa phân loại cảm xúc khác vui, buồn, giận Ngồi ra, đợ xác việc phân loại câu bình luận cịn phụ tḥc vào đợ dài câu bình luận Tỷ lệ xác chương trình thực nghiệm cao với câu bình luận có đợ dài 200 từ Với câu có đợ dài 200 từ, vector biểu diễn câu bình luận có thể rơi vào vùng liệu mà LSTM chưa huấn luyện nên có thể làm giảm tỷ lệ xác chương trình thực nghiệm Từ kết đạt cung hạn chế nghiên cứu, hướng đến xây dựng mợt mơ hìh thực phân loại cảm xúc bình luận cho tất viết bao gồm câu bình luận có đợ dài 200 từ loại bình luận người dùng thành nhiều cảm xúc khác Biểu đồ 2: Độ xác fold LỜI CẢM ƠN Đề hồn thành nghiên cứu này, nỗ lực nghiên cứu thân, xin chân thành cảm ơn TS Lê Văn Vinh người hướng dẫn khoa học, định hướng cho đề tài Những chỉ bảo, góp ý, đợng viên thầy ln nguồn cở vu tinh thần để tơi hồn thành đề tài TÀI LIỆU THAM KHẢO [1] Suchita V Wawre, Sachin N Deshmukh - Department of Computer Science & Information Technology, Dr Babasaheb Ambedkar Marathwada University, Aurangabad (MS) India, “Sentiment Classification using Machine Learning Techniques”, 2013 [2] Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Liu, Bing Qin, “Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification”, 2014 [3] Phạm Hùng, “Hướng tiếp cận dựa học máy cho tốn trích xuất thông tin quan điểm”, 2017 [4] Vu Anh, Bùi Nhật Anh, Đoàn Việt Dung, “Xây dựng hệ thống tách từ tiếng Việt”, 2018 [5] Xuan-Son Vu, “Pre-trained Word2Vec models for Vietnamese” Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Thế Bảo Đơn vị: Phòng Đào tạo Điện thoại: 09 3435 7227 Email: thebao@hcmute.edu.vn T p H C hí M in h, n g y t h n g n ă m 2 Xác nhận Giảng viên hướng dẫn Học viên thực (Ký & ghi rõ họ tên) (Ký & ghi rõ họ tên) ... TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH –... TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SỸ NGUYỄN THẾ BẢO PHÂN LOẠI CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH –... cách nhanh chóng, rõ ràng, luận văn thực đề tài ? ?Phân loại cảm xúc văn tiếng Việt sử dụng phương pháp học sâu? ?? Mục tiêu chung luận văn: Đề xuất mô hình phân loại câu bình luận, nhận xét, phản

Ngày đăng: 30/12/2021, 16:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w