Khai phá quan điểm dữ liệu twitter

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN THỊ HỒNG QUỲNH KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI - 2017 HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN THỊ HỒNG QUỲNH KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGÔ XUÂN BÁCH HÀ NỘI - 2017 i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố cơng trình TÁC GIẢ Nguyễn Thị Hồng Quỳnh ii LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy giáo TS Ngô Xuân Bách – ngƣời hƣớng dẫn khoa học, tận tình hƣớng dẫn, bảo dìu dắt tơi suốt q trình thực đề tài Tôi xin chân thành cảm ơn thầy giáo học viện Cơng nghệ Bƣu Viễn thơng quan tâm, tận tình truyền thụ kiến thức giúp đỡ thời gian học tập Tôi xin chân thành cảm ơn công ty trách nhiệm hữu hạn FPT tạo điều kiện thời gian công việc suốt thời gian học tập thực đề tài Trong trình nghiên cứu thực đề tài mình, đƣợc hƣớng dẫn nhiệt tình, nghiêm túc TS Ngô Xuân Bách với nỗ lực cá nhân nhƣng khơng thể tránh đƣợc thiếu sót, hạn chế Tôi mong nhận đƣợc ý kiến đóng góp, sửa chữa từ q Thầy, Cơ bạn bè đồng nghiệp để đề tài đƣợc hoàn thiện ứng dụng nhiều thực tế Trân trọng cám ơn Tác giả Nguyễn Thị Hồng Quỳnh iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC THUẬT NGỮ .v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC HÌNH VẼ vii LỜI MỞ ĐẦU CHƢƠNG I CƠ SỞ LÝ LUẬN 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.2 Khai phá quan điểm .4 1.2.1 Giới thiệu 1.2.2 Một số toán khai phá quan điểm 1.2.3 Một số khó khăn khai phá quan điểm 1.2.4 Các cấp độ liệu phân tích quan điểm 1.3 Tổng quan toán khai phá quan điểm liệu mạng xã hội Twitter 1.3.1 Giới thiệu mạng xã hội Twitter 1.3.2 Phát biểu toán 1.3.3 Ý nghĩa toán 10 1.3.4 Khó khăn thách thức 10 1.4 Một số kỹ thuật khai phá quan điểm 11 1.4.1 Các phƣơng pháp định 11 1.4.2 Phƣơng pháp K-láng giềng gần (K-Nearest Neighbor) 12 1.4.3 Thuật toán SVM 13 1.4.4 Một số nghiên cứu liên quan 14 1.5 Kết luận chƣơng 17 CHƢƠNG II PHƢƠNG PHÁP PHÂN LOẠI QUAN ĐIỂM TRÊN TWITTER SỬ DỤNG HỌC MÁY .19 2.1 Phƣơng pháp phân loại quan điểm .19 2.1.1 Thu thập liệu 21 2.1.2 Tiền xử lý liệu 22 2.1.3 Trích chọn đặc trƣng vector hóa liệu 25 2.1.4 Sử dụng thuật toán huấn luyện tạo mơ hình phân lớp 27 iv 2.2 Các phƣơng pháp trích chọn đặc trƣng 27 2.2.1 Đặc trƣng N-gram 27 2.2.2 Độ tƣơng đồng dựa tâm (CBS) 29 2.2.3 Đặc trƣng Log-count Ratio 35 2.3 SVM – Support Vevtor Machine 37 2.3.1 Giới thiệu chung 37 2.3.2 Thuật toán SVM 38 2.3.3 Huấn luyện SVM 40 2.3.4 Các ƣu điểm SVM phân lớp 41 2.3.5 Cách áp dụng thuật toán SVM vào toán phân lớp quan điểm 42 2.4 Kết luận chƣơng 42 CHƢƠNG III THỰC NGHIỆM HỆ THỐNG KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER 43 3.1 Dữ liệu thực nghiệm 43 3.2 Thiết lập thực nghiệm 44 3.2.1 Hƣớng tiếp cận thực nghiệm 44 3.2.2 Phƣơng pháp sử dụng đặc trƣng thực nghiệm .45 3.2.3 Phƣơng pháp đánh giá tập liệu 46 3.3 Công cụ thực nghiệm 49 3.3.1 Môi trƣờng thực nghiệm 49 3.3.2 Công cụ phần mềm 49 3.3.3 Giới thiệu LibSVM 50 3.4 Kết thực nghiệm 53 3.4.1 Kết 53 3.4.2 Đánh giá kết 54 3.5 Kết luận chƣơng 56 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 59 v DANH MỤC THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt CBS Center-base similarity Độ tƣơng đồng dựa tâm SVM Support Vector Machines Máy véc tơ hỗ trợ BOW Bag of word Thuật toán túi từ KNN K Nearest neighbors K láng giềng gần K-fold cross validation Đánh giá chéo dựa k phần Natural Language Processing Xử lý ngôn ngữ tự nhiên K-FOLD NLP vi DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Ví dụ biểu tƣợng cảm xúc từ điển .23 Bảng 2.2 Ví dụ từ điển chuẩn hóa .24 Bảng 2.3 Ví dụ từ điển viết tắt .25 Bảng 2.4 Các đặc trƣng sử dụng phân lớp quan điểm 26 Bảng 2.5 Các độ đo tƣơng tự cho đặc trƣng CBS .35 Bảng 3.1 Bảng số liệu liệu sử dụng 44 Bảng 3.2 Bảng đặc trƣng sử dụng .45 Bảng 3.3 Bảng danh sách kết hợp đặc trƣng .46 Bảng 3.4 Bảng ma trận nhầm lẫn 49 Bảng 3.5 Bảng cấu hình phần cứng 49 Bảng 3.6 Bảng công cụ phần mềm 49 Bảng 3.7 Danh sách tham số LibSVM 52 Bảng 3.8 Bảng so sánh số liệu trƣớc sau tiền xử lý .53 Bảng 3.9 Bảng số kết thực nghiệm 53 Bảng 3.10 Thống kê độ xác phân loại theo nhãn 55 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mặt phẳng phân chia liệu thành Mặt phẳng phân chia liệu thành lớp SVM với khoảng cách biên lớn 14 Hình 2.1 Sơ đồ giai đoạn huấn luyện 20 Hình 2.2 Sơ đồ giai đoạn phân lớp 21 Hình 2.3 Mặt phẳng phân chia tập liệu thành hai lớp dƣơng âm 38 Hình 3.2 Minh họa K-fold cross validation .47 Hình 3.3 Hình ảnh giới thiệu LibSVM .50 Hình 3.4 Biểu đồ độ xác theo đặc trƣng 54 Hình 3.5 Biểu đồ chất lƣợng phân loại nhãn 56 LỜI MỞ ĐẦU Sự bùng nổ ngày mạnh mẽ mạng xã hội mở nhiều hội cho tổ chức, cá nhân thu thập, tìm kiếm thơng tin nhƣ xử lý chúng nhiều toán đƣợc đặt để khai thác nguồn thông tin dồi từ mạng xã hội Khai phá quan điểm toán khai thác thông tin nằm ứng dụng xử lý ngôn ngữ tự nhiên, giúp thu thập đƣợc thông tin mong muốn quan điểm liệu Bài toán phân tích đánh giá cho chủ đề định, kiện, sản phẩm để tự động phân loại đánh giá theo hƣớng tích cực, tiêu cực quan điểm Bài tốn cịn bao gồm nội dung tổng hợp quan điểm từ tài liệu quan điểm thu đƣợc Với phát triển nhanh chóng mạnh mẽ, mạng xã hội Twitter trở thành nguồn cung cấp nhiều thông tin quan điểm cho ngƣời nghiên cứu lĩnh vực Đã có nhiều cơng trình nghiên cứu liên quan đến toán khai phá quan điểm theo phƣơng pháp khác từ nhiều nguồn liệu [2], [4], [8], mà Twitter nguồn liệu phổ biến Đánh giá quan điểm viết Twitter vào hai lớp Tích cực Tiêu cực mang lại nhiều ý nghĩa cho nhiều lĩnh vực nhƣ kinh tế, quảng cáo v.v Một cách tiếp cận sử dụng học máy thống kê Trong cách tiếp cận này, biểu diễn đặc trƣng đóng vai trị quan trọng, ảnh hƣởng trực tiếp tới độ xác phân lớp Thơng qua tìm hiểu, phân tích phƣơng pháp khai phá quan điểm tập liệu Twitter, tập trung tới ba phƣơng pháp biểu diễn đặc trƣng: N-gram[7], Độ đặc trƣng dựa tâm (Center-base similarity – CBS) [6] Log-count ratio[9] để thực đề tài luận văn có tên: “Khai phá quan điểm cho liệu Twitter” Nội dung luận văn gồm phần nhƣ sau:  Chương 1: Cơ sở lý luận Nội dung chƣơng trình bày số kiến thức tổng quan lĩnh vực xử lý ngôn ngữ tự nhiên, đồng thời giới thiệu toán khai phá quan điểm 46 Bảng 3.3 Bảng danh sách kết hợp đặc trƣng Đặc trƣng sử dụng Unigram Unigram + Bigram Unigram + Bigram + Trigram Unigram + Log-count ratio Unigram + Bigram + Log-count ratio Unigram + Bigram + Trigram + Log-count ratio Unigram + CBS Unigram + Bigram + CBS Unigram + Bigram + Trigram + CBS Unigram + Bigram + Trigram + CBS + Log-count ratio 3.2.3 Phương pháp đánh giá tập liệu Đánh giá độ xác phân lớp quan trọng, cho phép dự đốn đƣợc độ xác kết phân lớp liệu tƣơng lai Độ xác cịn giúp so sánh mơ hình phân lớp khác Một số phƣơng pháp đánh giá phổ biến nhƣ Holdout, K-fold cross validation Leave-one-out cross validation sử dụng kết hợp độ xác Precision, độ bao phủ Recall độ điều hòa F a) Phƣơng pháp K-fold Cross Validation Do tập liệu sử dụng bao gồm 20.000 câu, sử dụng phƣơng pháp K-fold cross validation cho việc đánh giá tập liệu để tránh việc trùng lặp tập kiểm thử (một số ví dụ xuất tập kiểm thử khác nhau) 47 Hình 3.2 Minh họa K-fold cross validation K-fold cross validation có đặc điểm sau: - Tập tồn ví dụ D đƣợc chia ngẫu nhiên thành k tập không giao (gọi “fold”) có kích thƣớc xấp xỉ - Mỗi lần (trong số k lần) lặp, tập đƣợc sử dụng làm tập kiểm thử, (k-1) tập lại đƣợc dùng làm tập huấn luyện - k giá trị lỗi (mỗi giá trị tƣơng ứng với fold) đƣợc tính trung bình cộng để thu đƣợc giá trị lỗi tổng thể Độ xác dự báo giá trị trung bình k lần dự đốn tƣơng ứng với k lần lặp Các lựa chọn thông thƣờng k: Ở luận văn, thử k với nhiều trƣờng hợp khác cuối sử dụng 5-fold để đánh giá độ xác phân lớp toán Áp dụng luận văn, chia liệu 20.000 câu thành phần không trùng giữ nguyên tỷ lệ số câu tích cực với số câu tiêu cực nhƣ liệu gốc 48 b) Độ xác Precision, độ bao phủ Recall độ điều hòa F Để đánh giá xác chất lƣợng mơ hình ta sử dụng thêm độ đo Precision Recall Precision cho biết phân loại đốn xác phần trăm với nhãn phân loại (ví dụ phân loại kết luận phản hồi tích cực khả phản hồi thật tích cực chiếm phần trăm) Recall ngƣợc lại, cho biết câu phản hồi tích cực, khả phân loại đốn phần trăm Thực tế hai độ đo lúc tăng giảm tƣơng ứng với nhau, có trƣờng hợp Recall cao cịn Precision thấp ngƣợc lại, đánh giá tổng quát ta dùng độ đo F-measure trung bình điều hòa độ đo với hệ số 0.5 (tầm quan trọng hệ số ngang nhau): Precision hay cịn gọi Độ xác lớp Recall hay gọi Độ bao phủ lớp : : Trung bình điều hịa F: Trong đó: : Số lƣợng ví dụ thuộc lớp đƣợc phân loại xác vào lớp : Số lƣợng ví dụ khơng thuộc lớp bị phân loại nhầm xác vào lớp : Số lƣợng ví dụ khơng thuộc lớp đƣợc phân loại xác : Số lƣợng ví dụ thuộc lớp bị phân loại nhầm 49 Bảng 3.4 Bảng ma trận nhầm lẫn Đƣợc phân lớp hệ thống Lớp Phân lớp thực (đúng) Thuộc Không thuộc Thuộc Không thuộc 3.3 Công cụ thực nghiệm 3.3.1 Môi trường thực nghiệm Dƣới thông tin cấu hình phần cứng đƣợc sử dụng trình thực nghiệm luận văn Bảng 3.5 Bảng cấu hình phần cứng Thành phần Chỉ số CPU Intel Core I5 2.6GHz RAM 4GB Bộ nhớ (HDD) SATA 500GB Hệ điều hành (OS) Windows 10 Professional 64bit 3.3.2 Công cụ phần mềm Bảng 3.6 Bảng công cụ phần mềm Tên công cụ Mơ tả Visual Studio Enterprise 2015 IDE lập trình ngôn ngữ C# LibSVM Bộ phần mềm cho học máy phân loại thuật toán SVM Nguồn: http://www.csie.ntu.edu.tw/~cjlin/libsvm LibSVMsharp Thƣ viện hỗ trợ LibSVM Net Nguồn: https://github.com/ccerhan/LibSVMsharp Python Tạo môi trƣờng thực thi cho LibSVM 50 3.3.3 Giới thiệu LibSVM a) Giới thiệu Hình 3.3 Hình ảnh giới thiệu LibSVM LibSVM thƣ viện đơn giản, dễ sử dụng hiệu phân lớp SVM hồi quy Nó giải phân lớp C-SVM, nu-SVM, hồi quy epsilonSVM hồi quy nu-SVM Thƣ viện cung cấp công cụ lựa chọn mơ hình tự động phân lớp C-SVM LibSVM hỗ trợ phân loại đa lớp Phiên tính tính đến thời điểm phiên 3.21 đƣợc phát hành ngày 14/12/2015 b) Tính LibSVM cung cấp giao diện đơn giản cho phép ngƣời dùng dễ dàng sử dụng chƣơng trình họ Các tính bao gồm: - Các dạng SVM khác 51 - Phân lớp đa lớp hiệu (multi-class classification) - Kiểm chứng chéo (cross validation) để lựa chọn mơ hình - Ƣớc lƣợng xác suất - Bao gồm nhiều loại kernel khác - Trọng số SVM cho liệu không cân đối - Bao gồm mã nguồn C++ Java - Giao diện GUI thể phân lớp SVM hồi quy SVM - Có phần mở rộng hỗ trợ nhiều ngơn ngữ lập trình khác nhau: Python, R, MATLAB, Perl, Ruby, Weka, Common LISP, CLISP, Haskell, OCaml, LabVIEW, giao diện PHP, C# NET CUDA - Tự động chọn mô hình đƣợc sinh theo tính xác kiểm chứng chéo Trong luận văn, sử dụng LibSVM cho việc xây dựng mơ hình, đánh giá kiểm chứng chéo (cross validation) Ngồi ra, chúng tơi cịn sử dụng phần mở rộng LibSVM cho ngơn ngữ lập trình C# LibSVM Sharp để phục vụ cho việc phát triển ứng dụng c) Định dạng liệu LibSVM yêu cầu liệu đầu vào phải theo khuôn dạng đƣợc quy định sẵn, bao gồm tập tin liệu huấn luyện tập tin liệu thử nghiệm Khn dạng nhƣ sau: : : Trong đó: : giá trị đích tập huấn luyện Đối với việc phân lớp, số nguyên xác định lớp Đối với hồi quy, số thực : số nguyên 52 : số thực Các nhãn tập tin liệu kiểm thử đƣợc sử dụng để tính tốn độ xác lỗi Với index mà có value = 0, không xuất định dạng vector liệu LibSVM Cách lƣu trữ giúp tiết kiệm nhớ trình xử lý d) Các tham số sử dụng LibSVM Dƣới danh sách tham số lựa chọn sử dụng LibSVM: Bảng 3.7 Danh sách tham số LibSVM Tham số -s -t -d -g -r -c -n -p -m -e -h -b -wi Mô tả Giá trị mặc định svm_type: loại SVM C-SVC nu-SVC one-class SVM epsilon-SVR nu-SVR kernel_type : loại hàm lõi linear: u'*v polynomial: (gamma*u'*v + coef0)^degree radial basis function: exp(-gamma*|u-v|^2) sigmoid: tanh(gamma*u'*v + coef0) degree: bậc hàm lõi gamma: giá trị gamma hàm lõi coef0: giá trị coef0 hàm lõi cost: tham số C C-SVC, epsilon-SVR nuSVR nu: tham số nu nu-SVC, one-class SVM nu-SVR epsilon: giá trị epsilon epsilon-SVR cachesize: kích thƣớc nhớ cache MB epsilon: dung sai shrinking: giá trị shrinking heuristics probability_estimates: ƣớc tính xác suất mơ hình SVC SVR weight: giá trị tham số C lớp i weight * C, C-SVC 1/ số đặc trƣng 0.5 0.1 100 0.01 1 53 3.4 Kết thực nghiệm 3.4.1 Kết Bảng 3.8 Bảng so sánh số liệu trƣớc sau tiền xử lý Mô tả Trƣớc tiền xử lý Sau tiền xử lý Số lƣợng từ 297.935 từ 130.237 từ Số từ trung bình / câu 14,89675 từ 6,51185 từ Có thể nhận thấy, sau q trình tiền xử lý chuẩn hóa liệu thơ, số lƣợng từ nhiễu, khơng quan trọng, sai tả đƣợc loại bỏ nhiều so với số lƣợng gốc ban đầu Bảng 3.9 Bảng số kết thực nghiệm Unigram Bigram Trigram Unigram + Log-count ratio Bigram + Log-count ratio Trigram + Log-count ratio CBS Unigram + CBS Bigram + CBS Trigram + CBS Unigram Accuracy (%) 79.94 79.49 78.44 Negative Precision Recall 70.50 86.93 70.75 85.76 69.75 84.44 Positive F Precision Recall F 77.68 89.40 75.19 81.68 77.54 88.25 75.11 81.15 76.39 87.15 74.23 80.17 80.35 71.25 87.1 78.38 89.45 75.68 81.99 81.05 71.25 88.62 78.99 90.85 75.96 82.74 80.99 70.75 88.99 78.83 91.25 75.73 82.77 60.05 55.95 60.95 58.34 64.14 59.29 61.62 69.15 60.01 73.44 66.04 78.30 66.19 71.74 65.05 60.90 66.41 63.54 69.20 63.90 66.44 64.01 60.00 65.22 62.50 68.00 62.96 65.38 80.22 77.50 81.97 81.97 82.95 78.66 80.75 54 + Log-count ratio + CBS Bigram + Log-count ratio + CBS Trigram + Log-count ratio + CBS 80.98 79.45 81.95 81.95 82.50 80.06 81.26 80.83 80.05 81.31 81.31 81.60 80.35 80.97 3.4.2 Đánh giá kết a) So sánh độ xác phƣơng pháp trích chọn đặc trƣng Độ xác 90 80 70 60 50 40 30 20 10 Độ xác Hình 3.4 Biểu đồ độ xác theo đặc trƣng 55 Từ biểu đồ thấy sử dụng đặc trƣng N-gram, độ xác phân loại đạt khoảng 78%-80% với Unigram, Bigram Trigram Khi kết hợp CBS với Ngram kết lại giảm xuống đáng kể Tuy nhiên, kết hợp Ngram với Log-count ratio loại đặc trƣng kết lại cải thiện so với dùng Ngram b) So sánh độ xác phân loại nhãn Xem xét kết thí nghiệm độ xác phân loại (tính theo độ đo F trên) khác tùy theo tập đặc trƣng chênh lệch nhiều số tập đặc trƣng khác Tuy nhiên độ xác phân loại chênh lệch nhỏ nhãn Nhiều khả số lƣợng nhãn phân loại tập huấn luyện đồng đều, nhãn “POSITIVE” “NEGATIVE” chiếm số lƣợng theo tỷ lệ liệu gốc, điều ảnh hƣởng đến trình xây dựng phân loại có xu hƣớng đồng độ xác cho nhãn “POSITIVE” “NEGATIVE” Trong bảng dƣới thống kê lại chất lƣợng phân loại tốt với nhãn hai phƣơng pháp: Bảng 3.10 Thống kê độ xác phân loại theo nhãn Nhãn Số câu Độ xác phân loại Precision POSITIVE 10.000 91.25 NEGATIVE 10.000 80.05 Recall F 80.3 82.7 88.9 80.8 20.000 Từ bảng ta nhận thấy độ xác phân loại theo nhãn tƣơng đồng, mức chênh lệnh không nhiều 56 Độ đo % 92 90 88 86 84 82 80 78 76 74 Precision Recall POSITIVE F NEGATIVE Hình 3.5 Biểu đồ chất lƣợng phân loại nhãn Đối chiếu với biểu đồ ta thấy độ xác Precision độ bao phủ Recall nhãn có chênh lệch, nhiên khơng q 10% Trong đó, độ xác (tính theo độ đo F-measure) lại xấp xỉ 3.5 Kết luận chƣơng Nội dung chƣơng trình trình thực hệ thống khai phá quan điểm cho liệu Twitter Trên sở kết thực nghiệm chƣơng luận văn đƣa phân tích đánh giá phƣơng pháp thực Các kết cho thấy việc sử dụng đặc trƣng riêng rẽ mang lại hiệu độ xác khơng cao Khi tăng dần việc kết hợp đặc trƣng, độ xác phân lớp đƣợc cải thiện Điều chứng tỏ tầm quan trọng việc trích chọn đặc trƣng sử dụng kết hợp đặc trƣng toán phân lớp 57 KẾT LUẬN Trong thời đại nay, ứng dụng công nghệ thông tin vào sống đƣợc áp dụng rộng rãi Đây thực công cụ hỗ trợ đắc lực giúp cho ngƣời giải đƣợc nhiều vấn đề, nhiều toán cách nhanh chóng, xác hiệu cao Một ứng dụng giúp ngƣời khai phá quan điểm Với nguồn thông tin phong phú, cập nhật thƣờng xuyên, gần nhƣ tức thời quan điểm ngƣời dùng vấn đề xung quanh, mạng xã hội Twitter mở hội to lớn với ngƣời để khai thác đƣợc thông tin quan điểm Xuất phát từ hội đó, kết hợp với q trình nghiên cứu, chúng tơi lựa chọn toán Khai phá quan điểm mạng xã hội Twitter để thực luận văn Nghiên cứu xử lý ngơn ngữ tự nhiên nói chung, tốn khai phá quan điểm nói riêng với chúng tơi cơng nghệ mới, thời gian nghiên cứu cịn ngắn nên nhiều vấn đề chƣa thực nắm bắt tốt Tuy nhiên qua trình nghiên cứu luận văn, thu đƣợc số kết nhƣ nhận thấy số hạn chế nhƣ sau: Kết đạt đƣợc Về mặt lý thuyết: - Tìm hiểu mạng xã hội Twitter, đặc điểm liệu mạng xã hội Twitter - Nghiên cứu toán khai phá quan điểm mạng xã hội Twitter, vai trò, ý nghĩa nhƣ khó khăn thách thức - Trình bày hƣớng tiếp cận, phƣơng pháp giải quyết, kỹ thuật liên quan Đi sâu vào phƣơng pháp học máy SVM, cách biểu diễn đặc trƣng N-gram, Độ tƣơng đồng dựa tâm Log-count ratio Về thực nghiệm: - Đề xuất mơ hình giải tốn khai phá quan điểm mạng xã hội Twitter 58 - Tiến hành cài đặt thực nghiệm - Đƣa phân tích, đánh giá kết thực nghiệm Hạn chế Do hạn chế mặt thời gian kiến thức nên luận văn tồn số điểm hạn chế - Dữ liệu sử dụng chƣa đủ lớn, thực nghiệm thực 20.000 tweet Con số nhỏ so với lƣợng tweet thực tế - Bài toán dừng lại mức tổng quát, đánh giá quan điểm tweet, chƣa áp dụng vào lĩnh vực hay toán cụ thể Hƣớng phát triển Trong thời gian tới, tiếp tục nghiên cứu phƣơng pháp khác để nâng cao chất lƣợng kết phân lớp quan điểm Cùng với đó, xây dựng ứng dụng thực tế với toán lĩnh vực cụ thể Ngoài ra, cần nâng cao tốc độ xử lý, hoàn thiện hệ thống 59 TÀI LIỆU THAM KHẢO [1] Agarwal, Apoorv and Xie, Boyi and Vovsha, Ilia and Rambow, Owen and Passonneau, Rebecca (2011), Sentiment Analysis of Twitter Columbia University New York, NY 10027 USA [2] Bing Liu (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers [3] Barbosa, Luciano and Junlan Feng, Robust, (2010), Sentiment detection on twitter from biased and noisy data, Proceedings of the International Conference on Computational Linguistics (COLING-2010) [4] Davidov, Dmitry and Tsur, Oren and Rappoport, Ari (2010) Enhanced sentiment learning using Twitter hashtags and smileys, in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, 241-249 [5] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching, Pattern Recognition and Image Analysis, 638-646 [6] Geli Fei and Bing Liu, (2008) Social Media Text Classification under Negative Covariate Shift, Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2347–2356 [7] Reinhard Kneser and Hermann Ney (1995) Improved backing-off for ngram language modelling, Proceedings of the IEEE Conference on Acoustics, Speech and Signal Processing, 181-184 [8] Samuel Brody, Nicholas Diakopoulos (2011), Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs, 562-570 [9] Shengli Wu, (2011) Fusing Blog Opinion Retrieval Results for Better Effectiveness, Database and Expert Systems Applications (DEXA), 195-199 [10] Sida Wang and Christopher D Manning, (2012) Baselines and Bigrams: Simple, Good Sentiment and Topic Classification, Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 90-94 [11] T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning 60 (ICML), 1999 [12] T Joachims (2003) Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297 [13] Zhun chen Luo, Miles Osborne, Ting Wang, (2012), Opinion Retrieval in Twitter, Morgan Kaufmann Publishers, United States ... toán khai phá quan điểm phân loại số dạng toán khai phá quan điểm - Giới thiệu mạng xã hội Twitter tổng quan toán khai phá quan điểm cho mạng xã hội - Giới thiệu tổng quan số kỹ thuật khai phá quan. .. toán khai phá quan điểm cho liệu Twitter Chƣơng giới thiệu số kỹ thuật đƣợc sử dụng khai phá quan điểm  Chương 2: Khai phá quan điểm hệ thống học máy Chƣơng trình bày việc áp dụng phƣơng pháp... 1.2 Khai phá quan điểm .4 1.2.1 Giới thiệu 1.2.2 Một số toán khai phá quan điểm 1.2.3 Một số khó khăn khai phá quan điểm 1.2.4 Các cấp độ liệu phân tích quan điểm

Định dạng
Số trang	69
Dung lượng	816,28 KB