1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại cảm xúc người dùng trong mạng xã hội

59 1,4K 11

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 2,1 MB

Nội dung

Phân loại cảm xúc người dùng trong mạng xã hội

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG TRONG MẠNG XÃ HỘI LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI - 2015 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG TRONG MẠNG XÃ HỘI CHUYÊN NGÀNH : MÃ SỐ: HỆ THỐNG THÔNG TIN 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH QUẾ HÀ NỘI - 2015 LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố tài liệu khác TÁC GIẢ LUẬN VĂN LỜI CẢM ƠN Được đồng ý Khoa Quốc tế Sau Đại học Học Viện Công Nghệ Bưu Chính Viễn Thông giảng viên hướng dẫn khoa học: PGS.TS Trần Đình Quế, thực luận văn: “Phân loại cảm xúc người dùng mạng xã hội” Để hoàn thành luận văn này, xin chân thành cảm ơn thầy cô giảng viên khoa Quốc Tế Sau Đại Học Học Viện Công Nghệ Bưu Chính Viễn Thông tận tình giảng dạy, hướng dẫn suốt trình học tập nghiên cứu Học Viện Xin chân thành cảm ơn thầy giáo Trần Đình Quế, người trực tiếp hướng dẫn nghiên cứu khoa học cho Trong trình thực luận văn, thầy bảo truyền đạt kiến thức khoa học quý báu, đồng thời đưa góp ý thiết thực giúp hoàn thành luận văn HỌC VIÊN MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT DANH SÁCH BẢNG .6 DANH SÁCH HÌNH VẼ .7 MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 10 1.1 Bài toán phân loại cảm xúc người dùng mạng xã hội 10 1.1.1 Lý phân loại cảm xúc người dùng .10 1.1.2 Giới thiệu toán số nghiên cứu liên quan 10 1.1.3 Mô hình xử lý liệu cho toán phân loại cảm xúc 12 1.1.4 Những thách thức toán phân loại cảm xúc 13 1.2 Hướng tiếp cận giải toàn phân loại cảm xúc dựa vào kỹ thuật học máy 14 1.1.5 Phân loại dựa Naïve Bayes .15 1.1.6 Phân loại dựa máy vec-tơ hỗ trợ (Support Vector Machine) 17 1.3 Kết luận chương .19 CHƯƠNG 2: MÔ HÌNH BÀI TOÁN VÀ CÁC BƯỚC TRONG PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 20 2.1 Mô hình tổng quát toán 20 1.4 Pha thu thập liệu 22 1.5 Pha tiền xử lý liệu .23 1.6 Pha trích chọn đặc trưng vec-tơ hóa văn .24 1.1.7 N-grams 25 1.1.8 Mô hình không gian vec-tơ (Vector Space Model) 29 1.7 Phân loại sử dụng SVM & Naïve Bayes với Weka 37 1.1.14 Giới thiệu file arff 37 1.1.15 Sử dụng Weka để phân loại SVM Naïve bayes 37 1.8 Kết luận chương 39 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 41 1.9 Thông tin liệu môi trường thực nghiệm 41 1.10 Phát biểu toán thực nghiệm .42 1.11 Kết thử nghiệm 42 2.1.1 Bài toán 1: So sánh mô hình Unigram VSM phân loại Support Vector Machine 44 2.1.2 Bài toán 2: So sánh mô hình Unigram VSM phân loại Naïve Bayes 45 2.1.3 Bài toán 3: So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram 47 2.1.4 Bài toán 4: So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Vector Space Model 48 1.12 Thảo luận, đánh giá, so sánh 49 1.13 Kết luận chương 50 KẾT LUẬN 52 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 55 PHỤ LỤC .57 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt NLP HCI VSM SVM TF TF-IDF Tiếng Anh Natural Language Processing Human Computer Interaction Vector Space Model Tiếng Việt Xử lý ngôn ngữ tự nhiên Tương tác người – máy Mô hình không gian vec-tơ Support Vector Machine Term Frequency Term Frequency–Inverse Document Frequency Máy vec-tơ hỗ trợ Tần suất từ Tần suất từ - tuần suất ngược văn DANH SÁCH BẢNG Hình 1.1: Mô hình xử lý liệu cho toán phân loại cảm xúc .12 Hình 1.2: Mô tả siêu phẳng SVM 17 Hình 1.3: Mô tả đường biên SVM .18 Hình 1.4: Mô tả đường biên SVM .18 Hình 2.1 Mô hình tổng quát toán 20 Hình 2.2: Dữ liệu thô trang mp3.zing.vn 23 Hình 2.3: Dữ liệu sau crawl lưu trữ vào sở liệu 23 Hình 2.4 Túi từ vựng tạo mô hình n-grams 28 Hình 2.5 Nhóm vec-tơ khảo sát với mô hình n-grams 29 Hình 2.6: Minh họa Christian S Perone .30 Hình 2.7 Kết tính toán TF, IDF với mô hình VSM 35 Hình 2.8 Kết trích chọn đặc trưng với mô hình VSM 36 Hình 2.9 Nhóm vec-tơ khảo sát với mô hình VSM 36 Hình 2.10: Mẫu file arff chuẩn 37 Hình 2.11: Các bước sử dụng Weka để phân loại liệu 39 Hình 2.12: Kết đánh giá mô hình toán 39 Hình 3.1: Biểu đồ so sánh mô hình unigram VSM SVM với k-folds=5 44 Hình 3.2: Biểu đồ so sánh mô hình unigram VSM SVM với k-folds=10 45 Hình 3.4: Biểu đồ so sánh mô hình Unigram VSM Naïve Bayes với kfolds=5 46 Hình 3.5: Biểu đồ so sánh mô hình Unigram VSM Naïve Bayes với kfolds=10 46 Hình 3.6: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với k-folds=5 47 Hình 3.7: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với k-folds=10 .48 Hình 3.8: Kết so sánh hai phân lớp SVM Naïve Bayes với VSM với k-folds=5 & k-folds=10 49 DANH SÁCH HÌNH VẼ Hình 1.1: Mô hình xử lý liệu cho toán phân loại cảm xúc .12 Hình 1.2: Mô tả siêu phẳng SVM 17 Hình 1.3: Mô tả đường biên SVM .18 Hình 1.4: Mô tả đường biên SVM .18 Hình 2.1 Mô hình tổng quát toán 20 Hình 2.2: Dữ liệu thô trang mp3.zing.vn 23 Hình 2.3: Dữ liệu sau crawl lưu trữ vào sở liệu 23 Hình 2.4 Túi từ vựng tạo mô hình n-grams 28 Hình 2.5 Nhóm vec-tơ khảo sát với mô hình n-grams 29 Hình 2.6: Minh họa Christian S Perone .30 Hình 2.7 Kết tính toán TF, IDF với mô hình VSM 35 Hình 2.8 Kết trích chọn đặc trưng với mô hình VSM 36 Hình 2.9 Nhóm vec-tơ khảo sát với mô hình VSM 36 Hình 2.10: Mẫu file arff chuẩn 37 Hình 2.11: Các bước sử dụng Weka để phân loại liệu 39 Hình 2.12: Kết đánh giá mô hình toán 39 Hình 3.1: Biểu đồ so sánh mô hình unigram VSM SVM với k-folds=5 44 Hình 3.2: Biểu đồ so sánh mô hình unigram VSM SVM với k-folds=10 45 Hình 3.4: Biểu đồ so sánh mô hình Unigram VSM Naïve Bayes với kfolds=5 46 Hình 3.5: Biểu đồ so sánh mô hình Unigram VSM Naïve Bayes với kfolds=10 46 Hình 3.6: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với k-folds=5 47 Hình 3.7: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với k-folds=10 .48 Hình 3.8: Kết so sánh hai phân lớp SVM Naïve Bayes với VSM với k-folds=5 & k-folds=10 49 MỞ ĐẦU Ngày nay, với gia tăng số lượng nội dung trang thông tin điện tử mp3.zing.vn, keeng.vn mạng xã hội Facebook, Twitter,… Internet không nơi cung cấp thông tin dạng kiện mà nơi người dùng bày tỏ cảm xúc, trao đổi cảm nhận, kinh nghiệm vấn đề đời sống vấn đề mà người dùng đọc Có nhiều nghiên cứu việc khai phá nội dung văn để tìm điều mẻ phục vụ kinh doanh Chẳng hạn nhu cầu tổng hợp phản hồi hay bình luận người dùng Internet để đưa kết luận sản phẩm có tốt hay không? Phản ứng khách hàng kiện nào?… Đối với lĩnh vực khai phá liệu truyền thống, thay tập trung vào lịch sử người dùng lịch sử mua bán, thời gian truy cập…, lĩnh vực khai phá cảm xúc người dùng lại tập trung vào việc phân tích ý nghĩa bình luận trang thông tin hay mạng xã hội Do đó, hiểu toán phân loại cảm xúc người dùng kết hợp lĩnh vực Khai phá liệu Xử lý ngôn ngữ tự nhiên Tính đến nay, việc xử lý toán phân loại cảm xúc người dùng có nhiều hướng tiếp cận khác nhiều mức xử lý khác nhau, nhiên tài liệu liên quan đến việc xử lý đa phần áp dụng cho tiếng Anh Việc phân loại cảm xúc người dùng cho Tiếng việt nhiều hạn chế Mục đích luận văn “Phân loại cảm xúc người dùng mạng xã hội” tìm hiểu tổng quan toán phân loại cảm xúc người dùng, tập trung phân tích phương pháp tiếp cận, phương thức hoạt động xử lý liệu chung toán Đánh giá thành phần yếu tố quan trọng việc khai phá ngữ nghĩa Tìm hiểu thuật toán học máy, tập trung vào phương thức cách trích chọn đặc trưng Đặc biệt với hai phương pháp phân loại dựa Support Vectors Machine Naive Bayes Đánh giá, so sánh hai phương pháp với phương pháp trích chọn đặc trưng khác Đối tượng nghiên cứu luận văn tập trung khai phá phân loại cảm xúc người dùng nghe nhạc dựa bình luận vào hát mp3.zing.vn Dữ liệu thu thập ba miền nhạc trẻ, nhạc cách mạng tổng hợp 43 tổng số bình luận thực tế thuộc lớp F-score độ xác định thông qua Precision Recall (giá trị độ đo cao phân lớp có hiệu phân lớp tốt) Cụ thể: Trong đó: • TP (True Positive): số bình luận phân lớp y việc phân lớp • FP (False Positive): số bình luận phân lớp y việc phân lớp sai • FN (False Negative): số bình luận thuộc lớp y bị gán nhãn vào lớp khác 44 2.1.1 Bài toán 1: So sánh mô hình Unigram VSM phân loại Support Vector Machine Bảng 3.2: Kết so sánh unigram với SVM Support Vector Machine Unigram k=5 VSM k=5 Unigram k=10 VSM k=10 Nhạc trẻ 88,28 % 95,28 % 88,34 % 95,28 % Nhạc cách mạng 88,15 % 93,90 % 87,52 % 93,90 % Tất 87,72 % 91,87 % 86,63 % 91,88 % Hình 3.1: Biểu đồ so sánh mô hình unigram VSM SVM với kfolds=5 45 Hình 3.2: Biểu đồ so sánh mô hình unigram VSM SVM với kfolds=10 Từ hai biểu đồ cho thấy, mô hình trích chọn đặc trưng VSM vượt trội hẳn so với mô hình Unigram phân loại với phân loại SVM Giá trị F-Score cao từ 4-7% Ở lần thực nghiệm thứ với k-folds=5, miền liệu hát nhạc trẻ, mô hình vec-tơ không gian có giá trị F-Score cao tới 7%, đạt 95,28% so với 88,28% mô hình Unigram Ở lần thực nghiệm thứ k-folds=10, miền liệu hát nhạc trẻ, mô hình vec-tơ không gian lần có giá trị F-Score cao tới 7%, đạt 95,28% so với 88,34% mô hình Unigram 2.1.2 Bài toán 2: So sánh mô hình Unigram VSM phân loại Naïve Bayes Bảng 3.3: Kết so sánh Unigram VSM với Naïve Bayes Naïve Bayes Unigram k=5 VSM k=5 Unigram k=10 VSM k=10 Nhạc trẻ 86,18% 95,28% 86,44% 95,28% Nhạc cách mạng 85,81% 93,90% 86,06% 93,90% Tất 86,19% 91,88% 86,14% 91,88% 46 Hình 3.4: Biểu đồ so sánh mô hình Unigram VSM Naïve Bayes với k-folds=5 Hình 3.5: Biểu đồ so sánh mô hình Unigram VSM Naïve Bayes với k-folds=10 Từ biểu đồ cho thấy, mô hình trích chọn đặc trưng không gian vec-tơ (VSM) có giá trị F-Score cao so với mô hình Unigram phân loại với phân loại Naïve Bayes 47 Trong lần thử nghiệm với k-folds=5, giá trị F-Score mô hình không gian vec-tơ (VSM) cao từ 8-9% Đối với miền liệu hát nhạc trẻ có độ chênh lệch cao nhất, mô hình không gian vec-tơ cao tới 9%, đạt 95,28% so với 86,18% Unigram Trong lần thử nghiệm với k-folds=10, giá trị F-Score mô hình trích chọn đặc trưng Unigram giảm nhẹ, giá trị F-Score mô hình không gian vec-tơ cao từ 8-9% Điều cho thấy vượt trội mô hình không gian vec-tơ so với mô hình Unigram 2.1.3 Bài toán 3: So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram Bảng 3.4: Kết so sánh SVM Naïve Bayes với Unigram Unigram Naïve Bayes k=5 SVM k=5 Naïve Bayes k=10 SVM k=10 Nhạc trẻ 86,18% 88,28% 86,44% 88,34 % Nhạc cách mạng 85,81% 88,16% 86,06% 87,52 % Tất 86,19% 87,72% 86,14% 86,63 % Hình 3.6: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với k-folds=5 48 Hình 3.7: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với k-folds=10 Từ biểu đồ cho thấy, phân lớp Máy vec-tơ hỗ trợ (SVM) có giá trị FScore cao so với phân lớp Naïve Bayes sử dụng mô hình trích chọn đặc trưng Unigram Giá trị F-Score cao từ 1-3% Kết thực nghiệm hai phương pháp kiểm thử k-folds=5 kfolds=10 cho kết giống nhau, Máy vec-tơ hỗ trợ (SVM) có giá trị FScore cao Naïve Bayes từ 1-3% Đối với miền liệu hát nhạc cách mạng có độ chênh lệch cao nhất, SVM cao tới 3%, giá trị F-Score đạt 88,16% so với 85,81% Naïve bayes với k-folds=5 2.1.4 Bài toán 4: So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Vector Space Model Bảng 3.5: Kết so sánh SVM Naïve Bayes với VSM VSM Naïve Bayes k=5 SVM k=5 Naïve Bayes k=10 SVM k=10 Nhạc trẻ 95,28% 95,28% 95.28% 95.28% Nhạc cách mạng 93,90% 93,90% 93.90% 93.90% 49 Tất 91,88% 91,88% 91.88% 91.88% Hình 3.8: Kết so sánh hai phân lớp SVM Naïve Bayes với VSM với k-folds=5 & k-folds=10 Từ biểu đồ cho thấy, phân lớp SVM ngang với phân lớp Naïve Bayes sử dụng mô hình trích chọn đặc trưng VSM Các kết với miền nhạc trẻ, nhạc cách mạng, tất cho kết Điều hoàn toàn hợp lý, mô hình VSM cho kết phân loại cảm xúc tích cực hay cảm xúc tiêu cực Vec-tơ đặc trưng mô hình gồm thuộc tính, đó, sử dụng phân lớp SVM hay Naïve Bayes có độ xác Thực nghiệm với hai phương pháp kiểm thử k-folds=5 k-folds=10 cho kết giống 1.12 Thảo luận, đánh giá, so sánh Luận văn thực phân loại cảm xúc người dùng dựa 04 toán thực nghiệm với phương pháp xây dựng vec-tơ đặc trưng khác Unigram VSM, với phân loại khác Naïve bayes SVM 03 miền liệu nhạc trẻ, nhạc cách mạng, tất Luận văn thực thử nghiệm với 02 phương pháp kiểm thử k-folds=5 k-folds=10 Tổng cộng tất 4x3x2=24 thử 50 nghiệm loại Từ kết toán thực nghiệm, luận văn đưa đươc kết luận sau: • Bộ phân lớp SVM tốt Naïve Bayes Trong việc phân loại liệu văn nói chung, phân loại cảm xúc nói riêng, phân lớp SVM tốt Naïve Bayes chút Tất nhiên, kết phụ thuộc vào nhiều yếu tố, cụ thể bước trích chọn đặc trưng ta xây dựng vectơ đặc trưng nào, tùy chọn thực giải thuật với phân loại Weka (với k-folds=5, k-folds=10, v.v.) Trong toán thực nghiệm “So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram” rằng, phân loại SVM tốt Naïve Bayes từ 1-3% • Phương pháp xây dựng vec-tơ đặc trưng theo mô hình không gian vec-tơ (Vector Space Model) có kết tốt hẳn so với Unigram Độ xác phương pháp lên tới 95% (từ 91% - 95%) áp dụng với hai phân loại Naïve Bayes SVM (so với Unigram đạt kết khoảng 85% - 86%) Kết thể rõ hai toán thực nghiệm “So sánh mô hình Unigram VSM phân loại Naïve Bayes” “So sánh mô hình Unigram VSM phân loại Support Vector Machine” Phương pháp VSM tận dụng ưu điểm tính điểm số (score) dựa vào đặc trưng từ vựng xuất nhãn cảm xúc, từ đánh giá từ vựng đặc trưng cho cảm xúc loại bỏ từ vựng không mang tính đặc trưng, chất xuất tất nhãn cảm xúc • Đề xuất mô hình tối ưu cho phân loại cảm xúc người dùng mạng xã hội Từ kết luận trên, luận văn xây dựng mô hình tương đối tốt tối ưu cho việc phân loại cảm xúc người dùng mạng xã hội áp dụng mô hình trích chọn đặc trưng Vector Space Model với phân lớp Support Vector Machine 1.13 Kết luận chương 51 Trong chương này, luận văn chi tiết thông tin thử nghiệm đánh giá phương pháp xây dựng vec-tơ đặc trưng, đánh giá phân lớp dựa 04 toán thực nghiệm Đầu vào chương kết chương sau chạy thử nghiệm với ứng dụng Weka Luận văn đưa nhận xét, đánh giá so sánh mô hình, phân lớp, từ đưa mô hình tốt việc giải toán phân loại cảm xúc người dùng mạng xã hội nêu 52 KẾT LUẬN Để giải toán phân loại cảm xúc người dùng mạng xã hội, luận văn thu thập liệu bình luận người dùng nghe nhạc tiến hành khảo sát, áp dụng số mô hình xây dựng vec-tơ đặc trưng phân lớp khác để xây dựng nên mô hình tốt giải toán Cụ thể luận văn đạt số kết sau: • Khảo sát hướng tiếp cận toán phân loại cảm xúc người dùng mạng xã hội Đây toán hay lĩnh vực khai phá quan điểm người dùng Trong hướng tiếp cận này, luận văn nhận thấy có nhiều cách để xây dựng vec-tơ đặc trưng, có nhiều phân lớp tốt nhiều nghiên cứu trước sử dụng Vì luận văn tập trung tiến hành thử nghiệm hướng tiếp cận khác để đưa mô hình tốt cho việc phân loại cảm xúc người dùng • Xây dựng ứng dụng áp dụng mô hình trích chọn đặc trưng phân loại Luận văn xây dựng ứng dụng thu thập bình luận người dùng nghe nhạc, cụ thể trang mp3.zing.vn thu thập 13645 bình luận thuộc thể loại nhạc trẻ nhạc cách mạng Tuy nhiên sau pha tiền xử lý liệu, luận văn tiến hành loại bỏ giữ lại 1034 bình luận gán nhãn cho bình luận thuộc cảm xúc tích cực hay cảm xúc tiêu cực Bước thực thủ công nên chiếm nhiều thời gian, đòi hỏi kiên trì tỉ mỉ Sau luận văn thực code phương pháp xây dựng vec-tơ đặc trưng unigram mô hình không gian vec-tơ (Vector Space Model) Kết bước file có định dạng arff để áp dụng hai phân loại phổ viến Naïve Bayes Support Vector Machine sử dụng Weka • Phân tích, đánh giá, so sánh kết việc áp dụng mô hình trích chọn đặc trưng khác phân loại khác Luận văn tập trung tiến hành thử nghiệm hướng tiếp cận khác với mục đích tìm mô hình tốt cho việc phân loại cảm xúc người dùng Luận văn tiến hành phân tích, đánh giá, thử nghiệm nhiều 53 lần để so sánh hai mô hình trích chọn đặc trưng Unigram VSM, hai phân loại Naïve Bayes SVM Đề xuất mô hình ưu việt trích chọn đặc trưng sử dụng Vector Space Model kết hợp với phân lớp Support Vector Machine kết đạt luận văn Tuy nhiên, bên cạnh vấn đề đạt được, luận văn số vấn đề chưa giải được, chưa tối ưu trình nghiên cứu Cụ thể sau: • Tính khách quan thực gán nhãn cảm xúc thủ công Công việc gán nhãn cảm xúc tích cực hay tiêu cực cho 1034 bình luận thực thủ công, bước dẫn tới tình trạng thiếu tính khách quan phụ thuộc phần cảm xúc người làm thủ công lúc • Chưa áp dụng giải thuật tách từ tiếng Việt Trong bước tiền xử lý, luận văn tập trung tách từ vựng theo từ chưa tách thành từ ghép có ý nghĩa VD: “Bài hát cảm động” bị tách thành từ “bài”, “hát”, “rất”, “cảm”, “động” riêng lẻ thay từ “bài hát”, “rất”, “cảm động” • Số lượng nhãn cảm xúc hạn chế Luận văn tập trung phân loại theo 02 nhãn “cảm xúc tích cực” “cảm xúc tiêu cực”, chưa phân loại 06 nhãn vui, buồn, giận dữ, ngạc nhiên, ghét, sợ hãi nhiều Luận văn đề xuất hướng phát triển • Kiểm thử độ xác mô hình Vector Space Model + Support Vector Machine với tập liệu bình luận nhiều nhiều lĩnh vực (Hiện kiểm thử 1034 bình luận miền nhạc trẻ nhạc cách mạng website mp3.zing.vn) • Phân loại cảm xúc theo 06 nhãn vui, buồn, giận dữ, ngạc nhiên, ghét, sợ hãi • Phát triển từ điển đặc trưng cho cảm xúc dựa mô hình Vector Space Model Mô hình với việc tính score từ vựng xuất 54 nhãn cảm xúc, từ đánh giá từ vựng đặc trưng cho cảm xúc loại bỏ từ vựng mang tính chất xuất tất nhãn cảm xúc • Phát triển ứng dụng cho phép phát cảm xúc người dùng thông qua mẫu đoạn chat văn (chat text) 55 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] [2] W Gerrod Parrot “Emotions In Social Psychology”, 2001 H Yujin, Z Xiaoling, L L Wang, and Xuelin “A bayes text classification method based on vec-tơspace model” Computer and Digital Engineering, 32:28–30, feb 2004 [3] Pham Huyen-Trang, et al (2011) "A solution for grouping Vietnamese synonym feature words in product reviews." Services Computing Conference (APSCC), 2011 IEEE Asia-Pacific IEEE [4] Vu, Tien-Thanh, et al "A feature-based opinion mining model on product reviews in Vietnamese." Semantic Methods for Knowledge Management and Communication Springer Berlin Heidelberg, 2011 23-33 [10] Taner Danisman, Adil Alpkocak “Feeler: Emotion Classification of Text Using Vector Space Model” In AISB 2008 Convention, Communication, Interaction and Social Intelligence, Vol vol (April 2008) [12] Jason D M Rennie “Improving Multi-class Text Classification with Naive Bayes”, Massachusetts Institute of Technology, (2001) [14] Johan Hovold “Naive Bayes Spam Filtering Using Word-Position-Based Attributes”, Proceedings of the Second Conference on Email and Anti-Spam, (2004) [15] Bo Pang, Lillian Lee “A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts”, Proc of 42nd ACL, pp 271-278 (2004) [16] Yustinus Eko Soelistio and Martinus Raditia Sigit Surendra, “Simple text mining for sentiment analysis of political figure using Naïve Bayes classifier”, The Proceedings of The 7th ICTS, Bali, pp 99-104, (2013) [17] CORTES, C and V VAPNIK, 1995 Support-vec-tơ networks Machine Learning [Cited by 2683] (213.94/year) [18] Singh, Pravesh Kumar, and Mohd Shahid Husain "METHODOLOGICAL STUDY OF OPINION MINING AND SENTIMENT ANALYSIS TECHNIQUES."International Journal on Soft Computing 5.1, 2014 56 WEBSITE [5] http://en.wikipedia.org/wiki/Emotion, Truy cập ngày 20/03/2015 [6] http://sentiwordnet.isti.cnr.it/, Truy cập ngày 20/03/2015 [7] http://www.affective-sciences.org/researchmaterial, Truy cập ngày 20/03/2015 [8] http://www.affectivesciences.org/system/files/webpage/CodeAppB_0.pdf, Truy cập ngày 20/03/2015 [9] http://stackoverflow.com/questions/3656762/n-gram-generation-froma-sentence, Truy cập ngày 20/03/2015 [11] http://en.wikipedia.org/wiki/Emotion_classification, Truy cập ngày 20/03/2015 [13] http://www.cs.ucla.edu/~miodrag/cs259security/sahami98bayesian.pdf, Truy cập ngày 20/03/2015 [19] http://m.mp3.zing.vn/top-100/bai-hat-Nhac-Tre/IWZ9Z088.html, Truy cập ngày 20/03/2015 [20] http://m.mp3.zing.vn/top-100/bai-hat-Nhac-CachMang/IWZ9Z08C.html, Truy cập ngày 20/03/2015 [21] https://code.google.com/p/google-gson/, Truy cập ngày 20/03/2015 57 PHỤ LỤC Phụ lục 01: Code project EmotionClassifications Trong đĩa CD gửi kèm luận văn Phụ lục 02: Kết liệu chạy chương trình với WEKA Trong đĩa CD gửi kèm luận văn [...]... trong bài toán phân loại cảm xúc người dùng Kết luận Phần này sẽ trình bày những kết quả đạt được của luận văn, đồng thời cũng chỉ ra những hạn chế và hướng phát triển trong tương lai 10 CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 1.1 Bài toán phân loại cảm xúc người dùng trong mạng xã hội 1.1.1 Lý do phân loại cảm xúc người dùng Ngày nay, với sự phát triển mạnh mẽ của internet… người. .. dung người dùng đang đọc, nghe hoặc tâm trạng của họ trước đó Nên việc phân loại cảm xúc người dung trong mạng xã hội là một vấn đề đầy thử thách • Các ký tự cảm xúc (emoticons) trên mạng xã hội khá đa dạng, có nhiều loại ký tự được thay đổi liên tục Nắm bắt được những biểu tượng cảm xúc đó thể hiện cho tâm trạng nào cũng là một thử thách khác biệt • Trong mạng xã hội, do nội dung do người dùng viết... thức trong bài toán phân loại cảm xúc • Có nhiều nghiên cứu tiếng việt về khai phá quan điểm, tuy nhiên những nghiên cứu trong chuyên về phân tích cảm xúc người dùng ở Việt Nam còn ít • Do một số đặc điểm của của ngôn ngữ trên mạng xã hội, ví dụ nội dung bình luận, tán gẫu trên mạng của người dùng có số ký tự khá ngắn, thường chỉ một đến hai câu Cảm xúc của người dùng phụ thuộc nhiều vào nội dung người. .. cứu thuật toán SVM & Naïve Bayes Luận văn sẽ thực hiện phân loại cảm xúc dựa vào tính chất của cảm xúc là: cảm xúc tích cực và cảm xúc tiêu cực Cụ thể những nội dung này sẽ được bố cục theo từng chương như sau: Chương 1 Tổng quan về bài toán phân loại cảm xúc: Nội dung chương này sẽ trình bày về lý do và cơ sở lý thuyết cho việc phân loại cảm xúc Các hướng tiếp cận, các hướng nghiên cứu trước đó của... pha lẫn nhiều cảm xúc khác loại nhưng cùng tồn tại trong một thời điểm Và chính điều này đã tạo ra hàng loạt các cảm xúc khác Trong những năm gần đây, với sự bùng nổ của internet, facebook, twiter… có rất nhiều những nghiên này cứu tập trung vào miền mạng xã hội Do một số đặc điểm của của ngôn ngữ trên mạng xã hội, ví dụ hạn chế về số ký tự hoặc cảm xúc phụ thuộc nhiều vào nội dung người dùng đang đọc,... xúc có thể chia cảm xúc thành 2 loại: cảm xúc tích cực và cảm xúc tiêu cực Căn cứ vào biểu hiện và nội dung, chúng ta có thể chia cảm xúc thành 6 loại cơ bản: vui, buồn, giận dữ, ngạc nhiên, ghét, sợ hãi Theo nghiên cứu của W Gerrod Parrot [1] Từ những cảm xúc cơ bản nhưng dưới sự tác động của các kích 11 thích khác nhau trong những điều kiện, hoàn cảnh khác nhau mà cảm xúc của con người cũng có lúc... trong hai lớp Cảm xúc tích cực” và Cảm xúc tiêu cực” Cảm xúc tích cực là những cảm xúc miêu tả niềm hạnh phúc, vui vẻ, thích thú, yêu thương Cảm xúc tiêu cực là những cảm xúc miêu tả về sự buồn bã, đau đớn, nhớ thương, chán nản v.v.v Việc phân loại cảm xúc này được phân loại như hình 2.2 22 Bảng 2.1: Bảng phân loại cảm xúc tích cực, tiêu cực Cuối cùng ta sẽ tiến hành tổng hợp, đánh giá, so sánh về... hiện một người có tâm trạng mệt mỏi, có thể gợi ý một số đồ uống tăng lực, địa điểm giải trí, hay đơn giản là phát một bản nhạc nhẹ nhàng để phục vụ khách hàng Với những vấn đề đặt ra như thế, luận văn xin chọn đề tài nghiên cứu về Phân loại cảm xúc người dùng trong mạng xã hội 1.1.2 Giới thiệu bài toán và một số nghiên cứu liên quan Phân tích tâm lý và khai phá quan điểm người dùng là một trong những... từ t xuất hiện trong cảm xúc d Nhưng như thế chưa hoàn toàn chính xác Ví dụ nếu từ “nghe” xuất hiện ở cảm xúc 32 tích cực 01 lần, trong khi nó xuất hiện ở cảm xúc tiêu cực 10 lần thì không có nghĩa là từ nghe phù hợp với cảm xúc tiêu cực gấp 10 lần cảm xúc tích cực (tỷ lệ thuận) Do đó ta có phương pháp tính trọng số tần suất logarit (log-frequency) Log-frequency của một từ t trong cảm xúc d được tính... nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên (Liu 2012) [11] Cảm xúc được định nghĩa là phản ứng của con người đối với các sự kiện, hiện tượng (kể cả bên trong hoặc bên ngoài cơ thể) cái mà có một ý nghĩa nào đó đối với con người [5] Cảm xúc, tình cảm là vấn đề được nhiều nhà khoa học quan tâm, nghiên cứu Vì thế có nhiều quan điểm khác nhau về số lượng các loại cảm xúc Căn cứ vào tính chất của cảm xúc ... 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 10 1.1 Bài toán phân loại cảm xúc người dùng mạng xã hội 10 1.1.1 Lý phân loại cảm xúc người dùng .10 1.1.2 Giới... toán phân loại cảm xúc người dùng mạng xã hội 1.1.1 Lý phân loại cảm xúc người dùng Ngày nay, với phát triển mạnh mẽ internet… người ta ngồi hàng ngày để đọc báo, nghe nhạc chia sẻ cảm xúc, viết... miền mạng xã hội Do số đặc điểm của ngôn ngữ mạng xã hội, ví dụ hạn chế số ký tự cảm xúc phụ thuộc nhiều vào nội dung người dùng đọc, nghe nên việc phân loại cảm xúc người dung mạng xã hội vấn

Ngày đăng: 28/11/2015, 18:14

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w