LUẠN văn THẠC sỹ kỹ THUẬT PHÂN LOẠI cảm xúc NGƯỜI DÙNG TRONG MẠNG xã hội

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - ĐỖ HOÀNG ĐẠT PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG TRONG MẠNG XÃ HỘI LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI - 2015 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - ĐỖ HOÀNG ĐẠT PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG TRONG MẠNG XÃ HỘI CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH QUẾ HÀ NỘI - 2015 1 LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kì tài liệu nào khác TÁC GIẢ LUẬN VĂN ĐỖ HOÀNG ĐẠT 2 LỜI CẢM ƠN Được sự đồng ý của Khoa Quốc tế và Sau Đại học của Học Viện Công Nghệ Bưu Chính Viễn Thông và giảng viên hướng dẫn khoa học: PGS.TS Trần Đình Quế, tôi đã thực hiện luận văn: “Phân loại cảm xúc người dùng trong mạng xã hội” Để hoàn thành luận văn này, tôi xin chân thành cảm ơn các thầy cô giảng viên trong khoa Quốc Tế và Sau Đại Học của Học Viện Công Nghệ Bưu Chính Viễn Thông đã tận tình giảng dạy, hướng dẫn tôi trong suốt quá trình học tập và nghiên cứu ở Học Viện Xin chân thành cảm ơn thầy giáo Trần Đình Quế, người đã trực tiếp hướng dẫn nghiên cứu khoa học cho tôi Trong quá trình thực hiện luận văn, thầy đã chỉ bảo và truyền đạt những kiến thức khoa học quý báu, đồng thời cũng đưa những góp ý thiết thực giúp tôi hoàn thành luận văn này HỌC VIÊN ĐỖ HOÀNG ĐẠT 3 MỤC LỤC LỜI CAM ĐOAN 1 LỜI CẢM ƠN 2 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT 5 DANH SÁCH BẢNG .6 DANH SÁCH HÌNH VẼ .7 MỞ ĐẦU 7 CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 10 1.1 Bài toán phân loại cảm xúc người dùng trong mạng xã hội .10 1.1.1 Lý do phân loại cảm xúc người dùng 10 1.1.2 Giới thiệu bài toán và một số nghiên cứu liên quan 10 1.1.3 Mô hình xử lý dữ liệu cho bài toán phân loại cảm xúc 12 1.1.4 Những thách thức trong bài toán phân loại cảm xúc 13 1.2 Hướng tiếp cận giải quyết bài toàn phân loại cảm xúc dựa vào các kỹ thuật học máy 14 1.2.1 Phân loại dựa trên Naïve Bayes 15 1.2.2 Phân loại dựa trên máy vec-tơ hỗ trợ (Support Vector Machine) .17 1.3 Kết luận chương .19 CHƯƠNG 2: MÔ HÌNH BÀI TOÁN VÀ CÁC BƯỚC TRONG PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 20 2.1 Mô hình tổng quát bài toán 20 2.2 Pha thu thập dữ liệu 22 2.3 Pha tiền xử lý dữ liệu .24 2.4 Pha trích chọn đặc trưng và vec-tơ hóa văn bản .25 2.4.1 N-grams .25 2.4.2 Mô hình không gian vec-tơ (Vector Space Model) 29 2.5 Phân loại sử dụng SVM & Naïve Bayes với Weka 38 2.5.1 Giới thiệu về file arff 38 2.5.2 Sử dụng Weka để phân loại SVM và Naïve bayes .39 2.6 Kết luận chương .41 4 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 42 3.1 Thông tin dữ liệu và môi trường thực nghiệm 42 3.2 Phát biểu bài toán thực nghiệm 43 3.3 Kết quả thử nghiệm 44 3.3.1 Bài toán 1: So sánh mô hình Unigram và VSM trong bộ phân loại Support Vector Machine 45 3.3.2 Bài toán 2: So sánh mô hình Unigram và VSM trong bộ phân loại Naïve Bayes 46 3.3.3 Bài toán 3: So sánh tính hiệu quả của 2 bộ phân loại SVM và Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram 48 3.3.4 Bài toán 4: So sánh tính hiệu quả của 2 bộ phân loại SVM và Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Vector Space Model 50 3.4 Thảo luận, đánh giá, so sánh 51 3.5 Kết luận chương .52 KẾT LUẬN 53 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 56 PHỤ LỤC .58 5 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt NLP HCI VSM SVM TF TF-IDF Tiếng Anh Natural Language Processing Human Computer Interaction Vector Space Model Tiếng Việt Xử lý ngôn ngữ tự nhiên Tương tác người – máy Mô hình không gian vec-tơ Support Vector Machine Term Frequency Term Frequency–Inverse Document Frequency Máy vec-tơ hỗ trợ Tần suất từ Tần suất từ - tuần suất ngược trong văn bản 6 DANH SÁCH BẢNG Hình 1.1: Mô hình xử lý dữ liệu cho bài toán phân loại cảm xúc 12 Hình 1.2: Mô tả về siêu phẳng trong SVM 17 Hình 1.3: Mô tả về đường biên trong SVM .18 Hình 1.4: Mô tả về đường biên trong SVM .19 Hình 2.1 Mô hình tổng quát của bài toán 20 Hình 2.2: Dữ liệu thô trên trang mp3.zing.vn 23 Hình 2.3: Dữ liệu sau khi crawl về lưu trữ vào cơ sở dữ liệu 23 Hình 2.4 Túi từ vựng được tạo bởi mô hình n-grams .28 Hình 2.5 Nhóm 3 vec-tơ khảo sát với mô hình n-grams 29 Hình 2.6: Minh họa của Christian S Perone 30 Hình 2.7 Kết quả tính toán TF, IDF với mô hình VSM 37 Hình 2.8 Kết quả trích chọn đặc trưng với mô hình VSM 37 Hình 2.9 Nhóm 3 vec-tơ khảo sát với mô hình VSM .38 Hình 2.10: Mẫu file arff chuẩn 39 Hình 2.11: Các bước sử dụng Weka để phân loại dữ liệu 40 Hình 2.12: Kết quả đánh giá mô hình bài toán 41 Hình 3.1: Biểu đồ so sánh mô hình unigram và VSM trong SVM với k-folds=5 .45 Hình 3.2: Biểu đồ so sánh mô hình unigram và VSM trong SVM với k-folds=10 46 Hình 3.4: Biểu đồ so sánh mô hình Unigram và VSM trong Naïve Bayes với k-folds=5 47 Hình 3.5: Biểu đồ so sánh mô hình Unigram và VSM trong Naïve Bayes với k-folds=10 47 Hình 3.6: Kết quả so sánh hai bộ phân lớp SVM và Naïve Bayes với Unigram với kfolds=5 49 Hình 3.7: Kết quả so sánh hai bộ phân lớp SVM và Naïve Bayes với Unigram với kfolds=10 49 Hình 3.8: Kết quả so sánh hai bộ phân lớp SVM và Naïve Bayes với VSM với k-folds=5 & k-folds=10 50 7 DANH SÁCH HÌNH VẼ Hình 1.1: Mô hình xử lý dữ liệu cho bài toán phân loại cảm xúc 12 Hình 1.2: Mô tả về siêu phẳng trong SVM 17 Hình 1.3: Mô tả về đường biên trong SVM .18 Hình 1.4: Mô tả về đường biên trong SVM .19 Hình 2.1 Mô hình tổng quát của bài toán 20 Hình 2.2: Dữ liệu thô trên trang mp3.zing.vn 23 Hình 2.3: Dữ liệu sau khi crawl về lưu trữ vào cơ sở dữ liệu 23 Hình 2.4 Túi từ vựng được tạo bởi mô hình n-grams .28 Hình 2.5 Nhóm 3 vec-tơ khảo sát với mô hình n-grams 29 Hình 2.6: Minh họa của Christian S Perone 30 Hình 2.7 Kết quả tính toán TF, IDF với mô hình VSM 37 Hình 2.8 Kết quả trích chọn đặc trưng với mô hình VSM 37 Hình 2.9 Nhóm 3 vec-tơ khảo sát với mô hình VSM .38 Hình 2.10: Mẫu file arff chuẩn 39 Hình 2.11: Các bước sử dụng Weka để phân loại dữ liệu 40 Hình 2.12: Kết quả đánh giá mô hình bài toán 41 Hình 3.1: Biểu đồ so sánh mô hình unigram và VSM trong SVM với k-folds=5 .45 Hình 3.2: Biểu đồ so sánh mô hình unigram và VSM trong SVM với k-folds=10 46 Hình 3.4: Biểu đồ so sánh mô hình Unigram và VSM trong Naïve Bayes với k-folds=5 47 Hình 3.5: Biểu đồ so sánh mô hình Unigram và VSM trong Naïve Bayes với k-folds=10 47 Hình 3.6: Kết quả so sánh hai bộ phân lớp SVM và Naïve Bayes với Unigram với kfolds=5 49 Hình 3.7: Kết quả so sánh hai bộ phân lớp SVM và Naïve Bayes với Unigram với kfolds=10 49 Hình 3.8: Kết quả so sánh hai bộ phân lớp SVM và Naïve Bayes với VSM với k-folds=5 & k-folds=10 50 45 Hình 3.2: Biểu đồ so sánh mô hình unigram và VSM trong SVM với kfolds=10 Từ hai biểu đồ cho thấy, mô hình trích chọn đặc trưng VSM vượt trội hơn hẳn so với mô hình Unigram khi phân loại với bộ phân loại SVM Giá trị F-Score cao hơn từ 4-7% Ở lần thực nghiệm thứ 1 với k-folds=5, đối với miền dữ liệu các bài hát nhạc trẻ, mô hình vec-tơ không gian có giá trị F-Score cao hơn tới 7%, đạt 95,28% so với 88,28% của mô hình Unigram Ở lần thực nghiệm thứ 2 đối với k-folds=10, đối với miền dữ liệu các bài hát nhạc trẻ, mô hình vec-tơ không gian một lần nữa có giá trị F-Score cao hơn tới 7%, đạt 95,28% so với 88,34% của mô hình Unigram 2.3.2 Bài toán 2: So sánh mô hình Unigram và VSM trong bộ phân loại Naïve Bayes Bảng 3.3: Kết quả so sánh Unigram và VSM với Naïve Bayes Naïve Bayes Unigram k=5 VSM k=5 Unigram k=10 VSM k=10 Nhạc trẻ 86,18% 95,28% 86,44% 95,28% Nhạc cách mạng 85,81% 93,90% 86,06% 93,90% Tất cả 86,19% 91,88% 86,14% 91,88% 46 Hình 3.4: Biểu đồ so sánh mô hình Unigram và VSM trong Naïve Bayes với k-folds=5 Hình 3.5: Biểu đồ so sánh mô hình Unigram và VSM trong Naïve Bayes với k-folds=10 Từ biểu đồ cho thấy, mô hình trích chọn đặc trưng không gian vec-tơ (VSM) có giá trị F-Score cao hơn so với mô hình Unigram khi phân loại với bộ phân loại Naïve Bayes 47 Trong lần thử nghiệm với k-folds=5, giá trị F-Score của mô hình không gian vec-tơ (VSM) cao hơn từ 8-9% Đối với miền dữ liệu các bài hát nhạc trẻ có độ chênh lệch cao nhất, mô hình không gian vec-tơ cao hơn tới 9%, đạt 95,28% so với 86,18% của Unigram Trong lần thử nghiệm với k-folds=10, giá trị F-Score của mô hình trích chọn đặc trưng Unigram giảm nhẹ, vì thế giá trị F-Score của mô hình không gian vec-tơ vẫn cao hơn từ 8-9% Điều đó cho thấy sự vượt trội của mô hình không gian vec-tơ so với mô hình Unigram 2.3.3 Bài toán 3: So sánh tính hiệu quả của 2 bộ phân loại SVM và Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram Bảng 3.4: Kết quả so sánh SVM và Naïve Bayes với Unigram Unigram Naïve Bayes k=5 SVM k=5 Naïve Bayes k=10 SVM k=10 Nhạc trẻ 86,18% 88,28% 86,44% 88,34 % Nhạc cách mạng 85,81% 88,16% 86,06% 87,52 % Tất cả 86,19% 87,72% 86,14% 86,63 % Hình 3.6: Kết quả so sánh hai bộ phân lớp SVM và Naïve Bayes với Unigram với k-folds=5 48 Hình 3.7: Kết quả so sánh hai bộ phân lớp SVM và Naïve Bayes với Unigram với k-folds=10 Từ biểu đồ cho thấy, bộ phân lớp Máy vec-tơ hỗ trợ (SVM) có giá trị F-Score cao hơn so với bộ phân lớp Naïve Bayes khi sử dụng mô hình trích chọn đặc trưng Unigram Giá trị F-Score cao hơn từ 1-3% Kết quả thực nghiệm đối với hai phương pháp kiểm thử k-folds=5 và kfolds=10 đều cho ra kết quả giống nhau, Máy vec-tơ hỗ trợ (SVM) có giá trị FScore cao hơn Naïve Bayes từ 1-3% Đối với miền dữ liệu các bài hát nhạc cách mạng có độ chênh lệch cao nhất, SVM cao hơn tới 3%, giá trị F-Score đạt 88,16% so với 85,81% của Naïve bayes với k-folds=5 2.3.4 Bài toán 4: So sánh tính hiệu quả của 2 bộ phân loại SVM và Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Vector Space Model Bảng 3.5: Kết quả so sánh SVM và Naïve Bayes với VSM VSM Naïve Bayes k=5 SVM k=5 Naïve Bayes k=10 SVM k=10 Nhạc trẻ 95,28% 95,28% 95.28% 95.28% Nhạc cách mạng 93,90% 93,90% 93.90% 93.90% 49 Tất cả 91,88% 91,88% 91.88% 91.88% Hình 3.8: Kết quả so sánh hai bộ phân lớp SVM và Naïve Bayes với VSM với k-folds=5 & k-folds=10 Từ biểu đồ cho thấy, bộ phân lớp SVM ngang bằng với bộ phân lớp Naïve Bayes khi sử dụng mô hình trích chọn đặc trưng VSM Các kết quả với miền nhạc trẻ, nhạc cách mạng, và tất cả đều cho kết quả bằng nhau Điều này hoàn toàn hợp lý, vì mô hình VSM này cho ra kết quả phân loại luôn là cảm xúc tích cực hay cảm xúc tiêu cực Vec-tơ đặc trưng của mô hình này chỉ gồm duy nhất một thuộc tính, do đó, sử dụng bộ phân lớp SVM hay Naïve Bayes đều có một độ chính xác như nhau Thực nghiệm với hai phương pháp kiểm thử k-folds=5 và k-folds=10 đều cho ra kết quả giống nhau 2.4 Thảo luận, đánh giá, so sánh Luận văn đã thực hiện phân loại cảm xúc người dùng dựa trên 04 bài toán thực nghiệm với các phương pháp xây dựng vec-tơ đặc trưng khác nhau là Unigram và VSM, với các bộ phân loại khác nhau như Naïve bayes và SVM và trên 03 miền dữ liệu nhạc trẻ, nhạc cách mạng, tất cả Luận văn đã thực hiện thử nghiệm với 02 phương pháp kiểm thử k-folds=5 và k-folds=10 Tổng cộng tất cả là 4x3x2=24 thử 50 nghiệm các loại Từ các kết quả của các bài toán thực nghiệm, luận văn có thể đưa ra đươc các kết luận như sau:  Bộ phân lớp SVM thì tốt hơn Naïve Bayes Trong việc phân loại dữ liệu văn bản nói chung, và phân loại cảm xúc nói riêng, bộ phân lớp SVM thì tốt hơn Naïve Bayes một chút Tất nhiên, kết quả này còn phụ thuộc vào nhiều yếu tố, cụ thể là tại bước trích chọn đặc trưng ta xây dựng vectơ đặc trưng như thế nào, hoặc các tùy chọn khi thực hiện giải thuật với từng bộ phân loại trong Weka (với k-folds=5, k-folds=10, v.v.) Trong bài toán thực nghiệm “So sánh tính hiệu quả của 2 bộ phân loại SVM và Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram” ở trên đã chỉ ra rằng, bộ phân loại SVM tốt hơn Naïve Bayes từ 1-3%  Phương pháp xây dựng vec-tơ đặc trưng theo mô hình không gian vec-tơ (Vector Space Model) có kết quả tốt hơn hẳn so với Unigram Độ chính xác của phương pháp này có thể lên tới 95% (từ 91% - 95%) khi được áp dụng với hai bộ phân loại là Naïve Bayes và SVM (so với Unigram chỉ đạt được kết quả khoảng 85% - 86%) Kết quả này được thể hiện rõ ở hai bài toán thực nghiệm là “So sánh mô hình Unigram và VSM trong bộ phân loại Naïve Bayes” và “So sánh mô hình Unigram và VSM trong bộ phân loại Support Vector Machine” Phương pháp VSM này đã tận dụng được ưu điểm của mình là tính điểm số (score) dựa vào đặc trưng các từ vựng xuất hiện ở mỗi nhãn cảm xúc, từ đó đánh giá được từ vựng nào thì đặc trưng cho cảm xúc nào và loại bỏ được những từ vựng không mang tính đặc trưng, chất xuất hiện ở tất cả các nhãn cảm xúc  Đề xuất mô hình tối ưu cho phân loại cảm xúc người dùng trong mạng xã hội Từ các kết luận trên, luận văn có thể xây dựng được một mô hình tương đối tốt và tối ưu cho việc phân loại cảm xúc người dùng trong mạng xã hội đó là áp dụng mô hình trích chọn đặc trưng Vector Space Model với bộ phân lớp Support Vector Machine 2.5 Kết luận chương 51 Trong chương này, luận văn đã chi tiết các thông tin thử nghiệm và đánh giá các phương pháp xây dựng vec-tơ đặc trưng, đánh giá các bộ phân lớp dựa trên 04 bài toán thực nghiệm Đầu vào của chương 3 này là kết quả của chương 2 sau khi chạy thử nghiệm với ứng dụng Weka Luận văn cũng đã đưa ra các nhận xét, đánh giá và so sánh các mô hình, các bộ phân lớp, từ đó đưa ra được một mô hình tốt nhất trong việc giải quyết bài toán phân loại cảm xúc người dùng trong mạng xã hội đã nêu 52 KẾT LUẬN Để giải quyết được bài toán phân loại cảm xúc người dùng trong mạng xã hội, luận văn đã thu thập dữ liệu bình luận của người dùng khi đang nghe nhạc và tiến hành khảo sát, áp dụng một số mô hình xây dựng vec-tơ đặc trưng và các bộ phân lớp khác nhau để xây dựng nên một mô hình tốt nhất giải quyết bài toán Cụ thể luận văn đã đạt được một số kết quả sau:  Khảo sát các hướng tiếp cận bài toán phân loại cảm xúc người dùng trong mạng xã hội Đây là một trong những bài toán khá hay trong lĩnh vực khai phá quan điểm người dùng Trong các hướng tiếp cận này, luận văn nhận thấy có nhiều cách để xây dựng vec-tơ đặc trưng, cũng như có nhiều bộ phân lớp tốt được nhiều nghiên cứu trước đó sử dụng Vì thế luận văn đã tập trung tiến hành thử nghiệm các hướng tiếp cận khác nhau để đưa ra mô hình tốt nhất cho việc phân loại cảm xúc người dùng  Xây dựng ứng dụng và áp dụng các mô hình trích chọn đặc trưng và phân loại Luận văn xây dựng ứng dụng thu thập các bình luận của người dùng khi đang nghe nhạc, cụ thể trên trang mp3.zing.vn đã thu thập được 13645 bình luận thuộc các thể loại nhạc trẻ và nhạc cách mạng Tuy nhiên sau pha tiền xử lý dữ liệu, luận văn đã tiến hành loại bỏ và chỉ giữ lại 1034 bình luận và gán nhãn cho mỗi bình luận thuộc cảm xúc tích cực hay cảm xúc tiêu cực Bước này thực hiện thủ công nên chiếm khá nhiều thời gian, đòi hỏi sự kiên trì và tỉ mỉ Sau đó luận văn đã thực hiện code 2 phương pháp xây dựng vec-tơ đặc trưng là unigram và mô hình không gian vec-tơ (Vector Space Model) Kết quả của bước này là file có định dạng arff để áp dụng hai bộ phân loại phổ viến là Naïve Bayes và Support Vector Machine sử dụng Weka  Phân tích, đánh giá, so sánh các kết quả của việc áp dụng các mô hình trích chọn đặc trưng khác nhau và các bộ phân loại khác nhau Luận văn đã tập trung tiến hành thử nghiệm các hướng tiếp cận khác nhau với mục đích tìm ra mô hình tốt nhất cho việc phân loại cảm xúc người dùng Luận văn đã tiến hành phân tích, đánh giá, thử nghiệm nhiều 53 lần để so sánh hai mô hình trích chọn đặc trưng Unigram và VSM, cũng như hai bộ phân loại Naïve Bayes và SVM Đề xuất ra mô hình ưu việt nhất là trích chọn đặc trưng sử dụng Vector Space Model kết hợp với bộ phân lớp Support Vector Machine là một trong những kết quả đạt được của luận văn Tuy nhiên, bên cạnh những vấn đề đã đạt được, luận văn còn một số vấn đề chưa giải quyết được, hoặc chưa tối ưu trong quá trình nghiên cứu Cụ thể như sau:  Tính khách quan trong thực hiện gán nhãn cảm xúc thủ công Công việc gán nhãn cảm xúc tích cực hay tiêu cực cho 1034 bình luận được thực hiện thủ công, do đó bước này có thể dẫn tới tình trạng thiếu tính khách quan do có thể phụ thuộc một phần về cảm xúc của người làm thủ công lúc đó  Chưa áp dụng các giải thuật tách từ trong tiếng Việt Trong bước tiền xử lý, luận văn mới chỉ tập trung tách từ vựng theo từng từ một chứ chưa tách thành từ ghép có ý nghĩa VD: “Bài hát rất cảm động” thì bị tách ra thành 5 từ “bài”, “hát”, “rất”, “cảm”, “động” riêng lẻ thay vì 3 từ “bài hát”, “rất”, “cảm động”  Số lượng nhãn cảm xúc hạn chế Luận văn mới chỉ tập trung phân loại được theo 02 nhãn là “cảm xúc tích cực” và “cảm xúc tiêu cực”, chưa phân loại được 06 nhãn vui, buồn, giận dữ, ngạc nhiên, ghét, sợ hãi hoặc nhiều hơn Luận văn cũng đề xuất các hướng phát triển tiếp theo  Kiểm thử độ chính xác của mô hình Vector Space Model + Support Vector Machine với tập dữ liệu bình luận nhiều hơn và nhiều lĩnh vực hơn (Hiện mới kiểm thử ở 1034 bình luận và trên miền nhạc trẻ và nhạc cách mạng tại website mp3.zing.vn)  Phân loại cảm xúc theo 06 nhãn cơ bản là vui, buồn, giận dữ, ngạc nhiên, ghét, sợ hãi  Phát triển bộ từ điển đặc trưng cho cảm xúc dựa trên mô hình Vector Space Model Mô hình này với việc tính score các từ vựng xuất hiện ở 54 mỗi nhãn cảm xúc, từ đó đánh giá được từ vựng nào thì đặc trưng cho cảm xúc nào và loại bỏ được những từ vựng mang tính chất xuất hiện ở tất cả các nhãn cảm xúc  Phát triển ứng dụng cho phép phát hiện cảm xúc người dùng thông qua mẫu đoạn chat văn bản (chat text) 55 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] [2] W Gerrod Parrot “Emotions In Social Psychology”, 2001 H Yujin, Z Xiaoling, L L Wang, and Xuelin “A bayes text classification method based on vec-tơspace model” Computer and Digital Engineering, 32:28–30, feb 2004 [3] Pham Huyen-Trang, et al (2011) "A solution for grouping Vietnamese synonym feature words in product reviews." Services Computing Conference (APSCC), 2011 IEEE Asia-Pacific IEEE [4] Vu, Tien-Thanh, et al "A feature-based opinion mining model on product reviews in Vietnamese." Semantic Methods for Knowledge Management and Communication Springer Berlin Heidelberg, 2011 23-33 [10] Taner Danisman, Adil Alpkocak “Feeler: Emotion Classification of Text Using Vector Space Model” In AISB 2008 Convention, Communication, Interaction and Social Intelligence, Vol vol 2 (April 2008) [12] Jason D M Rennie “Improving Multi-class Text Classification with Naive Bayes”, Massachusetts Institute of Technology, (2001) [14] Johan Hovold “Naive Bayes Spam Filtering Using Word-Position-Based Attributes”, Proceedings of the Second Conference on Email and Anti-Spam, (2004) [15] Bo Pang, Lillian Lee “A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts”, Proc of 42nd ACL, pp 271-278 (2004) [16] Yustinus Eko Soelistio and Martinus Raditia Sigit Surendra, “Simple text mining for sentiment analysis of political figure using Naïve Bayes classifier”, The Proceedings of The 7th ICTS, Bali, pp 99-104, (2013) [17] CORTES, C and V VAPNIK, 1995 Support-vec-tơ networks Machine Learning [Cited by 2683] (213.94/year) [18] Singh, Pravesh Kumar, and Mohd Shahid Husain "METHODOLOGICAL STUDY OF OPINION MINING AND SENTIMENT ANALYSIS TECHNIQUES."International Journal on Soft Computing 5.1, 2014 WEBSITE [5] http://en.wikipedia.org/wiki/Emotion, Truy cập ngày 20/03/2015 56 [6] [7] http://sentiwordnet.isti.cnr.it/, Truy cập ngày 20/03/2015 http://www.affective-sciences.org/researchmaterial, Truy cập ngày 20/03/2015 [8] http://www.affectivesciences.org/system/files/webpage/CodeAppB_0.pdf, Truy cập ngày 20/03/2015 [9] http://stackoverflow.com/questions/3656762/n-gram-generation-froma-sentence, Truy cập ngày 20/03/2015 [11] http://en.wikipedia.org/wiki/Emotion_classification, Truy cập ngày 20/03/2015 [13] http://www.cs.ucla.edu/~miodrag/cs259security/sahami98bayesian.pdf, Truy cập ngày 20/03/2015 [19] http://m.mp3.zing.vn/top-100/bai-hat-Nhac-Tre/IWZ9Z088.html, Truy cập ngày 20/03/2015 [20] http://m.mp3.zing.vn/top-100/bai-hat-Nhac-CachMang/IWZ9Z08C.html, Truy cập ngày 20/03/2015 [21] https://code.google.com/p/google-gson/, Truy cập ngày 20/03/2015 57 PHỤ LỤC Phụ lục 01: Code project EmotionClassifications Trong đĩa CD gửi kèm luận văn Phụ lục 02: Kết quả dữ liệu chạy chương trình với WEKA Trong đĩa CD gửi kèm luận văn ... Việc phân loại cảm xúc người dùng cho Tiếng việt nhiều hạn chế Mục đích luận văn ? ?Phân loại cảm xúc người dùng mạng xã hội? ?? tìm hiểu tổng quan toán phân loại cảm xúc người dùng, tập trung phân. .. 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 10 1.1 Bài toán phân loại cảm xúc người dùng mạng xã hội .10 1.1.1 Lý phân loại cảm xúc người dùng 10 1.1.2 Giới thiệu... Bài tốn phân loại cảm xúc người dùng mạng xã hội 1.1.1 Lý phân loại cảm xúc người dùng Ngày nay, với phát triển mạnh mẽ internet… người ta ngồi hàng ngày để đọc báo, nghe nhạc chia sẻ cảm xúc, viết

Định dạng
Số trang	62
Dung lượng	2,1 MB