Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
1,24 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - lu an n va NGUYỄN THỊ HỒNG QUỲNH ie gh tn to p KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER d oa nl w nf va an lu z at nh oi lm ul LUẬN VĂN THẠC SĨ KỸ THUẬT z m co l gm @ an Lu HÀ NỘI - 2017 n va ac th si HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - lu an n va NGUYỄN THỊ HỒNG QUỲNH gh tn to p ie KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER d oa nl w CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 nf va an lu lm ul LUẬN VĂN THẠC SĨ KỸ THUẬT z at nh oi (Theo định hướng ứng dụng) z @ m co l gm NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGÔ XUÂN BÁCH an Lu HÀ NỘI - 2017 n va ac th si i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố công trình TÁC GIẢ Nguyễn Thị Hồng Quỳnh lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy giáo TS Ngô Xuân Bách – ngƣời hƣớng dẫn khoa học, tận tình hƣớng dẫn, bảo dìu dắt tơi suốt q trình thực đề tài Tơi xin chân thành cảm ơn thầy cô giáo học viện Công nghệ Bƣu Viễn thơng quan tâm, tận tình truyền thụ kiến thức giúp đỡ thời gian học tập Tôi xin chân thành cảm ơn công ty trách nhiệm hữu hạn FPT tạo điều kiện thời gian công việc suốt thời gian học tập thực đề tài lu an Trong trình nghiên cứu thực đề tài mình, đƣợc n va hƣớng dẫn nhiệt tình, nghiêm túc TS Ngơ Xn Bách với nỗ lực tn to cá nhân nhƣng khơng thể tránh đƣợc thiếu sót, hạn chế Tôi gh mong nhận đƣợc ý kiến đóng góp, sửa chữa từ q Thầy, Cơ bạn bè p ie đồng nghiệp để đề tài đƣợc hoàn thiện ứng dụng nhiều thực tế Trân trọng cám ơn oa nl w Tác giả Nguyễn Thị Hồng Quỳnh d nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC THUẬT NGỮ .v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC HÌNH VẼ vii LỜI MỞ ĐẦU CHƢƠNG I CƠ SỞ LÝ LUẬN lu an 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.2 Khai phá quan điểm .4 va 1.2.1 Giới thiệu n 1.2.2 Một số toán khai phá quan điểm to 1.2.4 Các cấp độ liệu phân tích quan điểm ie gh tn 1.2.3 Một số khó khăn khai phá quan điểm p 1.3 Tổng quan toán khai phá quan điểm liệu mạng xã hội Twitter w 1.3.1 Giới thiệu mạng xã hội Twitter nl 1.3.2 Phát biểu toán d oa 1.3.3 Ý nghĩa toán 10 1.4 an lu 1.3.4 Khó khăn thách thức 10 Một số kỹ thuật khai phá quan điểm 11 nf va 1.4.1 Các phƣơng pháp định 11 lm ul 1.4.2 Phƣơng pháp K-láng giềng gần (K-Nearest Neighbor) 12 z at nh oi 1.4.3 Thuật toán SVM 13 1.4.4 Một số nghiên cứu liên quan 14 1.5 Kết luận chƣơng 17 z CHƢƠNG II PHƢƠNG PHÁP PHÂN LOẠI QUAN ĐIỂM TRÊN TWITTER SỬ DỤNG HỌC MÁY .19 gm @ 2.1 Phƣơng pháp phân loại quan điểm .19 l co 2.1.1 Thu thập liệu 21 m 2.1.2 Tiền xử lý liệu 22 an Lu 2.1.3 Trích chọn đặc trƣng vector hóa liệu 25 2.1.4 Sử dụng thuật tốn huấn luyện tạo mơ hình phân lớp 27 n va ac th si iv Các phƣơng pháp trích chọn đặc trƣng 27 2.2 2.2.1 Đặc trƣng N-gram 27 2.2.2 Độ tƣơng đồng dựa tâm (CBS) 29 2.2.3 Đặc trƣng Log-count Ratio 35 SVM – Support Vevtor Machine 37 2.3 2.3.1 Giới thiệu chung 37 2.3.2 Thuật toán SVM 38 2.3.3 Huấn luyện SVM 40 2.3.4 Các ƣu điểm SVM phân lớp 41 2.3.5 Cách áp dụng thuật toán SVM vào toán phân lớp quan điểm 42 Kết luận chƣơng 42 lu 2.4 an n va 3.2 Thiết lập thực nghiệm 44 3.2.1 Hƣớng tiếp cận thực nghiệm 44 p ie gh tn to CHƢƠNG III THỰC NGHIỆM HỆ THỐNG KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER 43 3.1 Dữ liệu thực nghiệm 43 3.2.2 Phƣơng pháp sử dụng đặc trƣng thực nghiệm .45 Công cụ thực nghiệm 49 oa 3.3 nl w 3.2.3 Phƣơng pháp đánh giá tập liệu 46 d 3.3.1 Môi trƣờng thực nghiệm 49 lu nf va an 3.3.2 Công cụ phần mềm 49 3.3.3 Giới thiệu LibSVM 50 Kết thực nghiệm 53 lm ul 3.4 3.4.1 Kết 53 z at nh oi 3.4.2 Đánh giá kết 54 3.5 Kết luận chƣơng 56 z KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 59 m co l gm @ an Lu n va ac th si v DANH MỤC THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt CBS Center-base similarity Độ tƣơng đồng dựa tâm SVM Support Vector Machines Máy véc tơ hỗ trợ BOW Bag of word Thuật toán túi từ KNN K Nearest neighbors K láng giềng gần K-fold cross validation Đánh giá chéo dựa k phần Natural Language Processing Xử lý ngôn ngữ tự nhiên K-FOLD lu an NLP n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si vi DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Ví dụ biểu tƣợng cảm xúc từ điển .23 Bảng 2.2 Ví dụ từ điển chuẩn hóa .24 Bảng 2.3 Ví dụ từ điển viết tắt .25 Bảng 2.4 Các đặc trƣng sử dụng phân lớp quan điểm 26 Bảng 2.5 Các độ đo tƣơng tự cho đặc trƣng CBS .35 Bảng 3.1 Bảng số liệu liệu sử dụng 44 Bảng 3.2 Bảng đặc trƣng sử dụng .45 lu Bảng 3.3 Bảng danh sách kết hợp đặc trƣng .46 an n va Bảng 3.4 Bảng ma trận nhầm lẫn 49 Bảng 3.5 Bảng cấu hình phần cứng 49 gh tn to Bảng 3.6 Bảng công cụ phần mềm 49 ie Bảng 3.7 Danh sách tham số LibSVM 52 p Bảng 3.8 Bảng so sánh số liệu trƣớc sau tiền xử lý .53 nl w Bảng 3.9 Bảng số kết thực nghiệm 53 d oa Bảng 3.10 Thống kê độ xác phân loại theo nhãn 55 nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si vii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mặt phẳng phân chia liệu thành Mặt phẳng phân chia liệu thành lớp SVM với khoảng cách biên lớn 14 Hình 2.1 Sơ đồ giai đoạn huấn luyện 20 Hình 2.2 Sơ đồ giai đoạn phân lớp 21 Hình 2.3 Mặt phẳng phân chia tập liệu thành hai lớp dƣơng âm 38 Hình 3.2 Minh họa K-fold cross validation .47 Hình 3.3 Hình ảnh giới thiệu LibSVM .50 Hình 3.4 Biểu đồ độ xác theo đặc trƣng 54 lu an Hình 3.5 Biểu đồ chất lƣợng phân loại nhãn 56 n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si LỜI MỞ ĐẦU Sự bùng nổ ngày mạnh mẽ mạng xã hội mở nhiều hội cho tổ chức, cá nhân thu thập, tìm kiếm thơng tin nhƣ xử lý chúng nhiều toán đƣợc đặt để khai thác nguồn thông tin dồi từ mạng xã hội Khai phá quan điểm toán khai thác thông tin nằm ứng dụng xử lý ngôn ngữ tự nhiên, giúp thu thập đƣợc thông tin mong muốn quan điểm liệu Bài tốn phân tích đánh giá cho chủ đề định, kiện, sản phẩm để tự động phân loại đánh giá theo hƣớng tích cực, tiêu cực quan điểm Bài tốn cịn bao gồm nội dung tổng hợp quan điểm từ lu an tài liệu quan điểm thu đƣợc n va Với phát triển nhanh chóng mạnh mẽ, mạng xã hội Twitter trở thành tn to nguồn cung cấp nhiều thông tin quan điểm cho ngƣời nghiên cứu lĩnh gh vực Đã có nhiều cơng trình nghiên cứu liên quan đến toán khai phá quan p ie điểm theo phƣơng pháp khác từ nhiều nguồn liệu [2], [4], [8], mà Twitter nguồn liệu phổ biến oa nl w Đánh giá quan điểm viết Twitter vào hai lớp Tích cực Tiêu cực mang lại nhiều ý nghĩa cho nhiều lĩnh vực nhƣ kinh tế, quảng d an lu cáo v.v Một cách tiếp cận sử dụng học máy thống kê Trong cách nf va tiếp cận này, biểu diễn đặc trƣng đóng vai trị quan trọng, ảnh hƣởng trực tiếp tới độ lm ul xác phân lớp Thơng qua tìm hiểu, phân tích phƣơng pháp khai phá quan điểm tập liệu Twitter, tập trung tới ba phƣơng pháp biểu z at nh oi diễn đặc trƣng: N-gram[7], Độ đặc trƣng dựa tâm (Center-base similarity – CBS) [6] Log-count ratio[9] để thực đề tài luận văn có tên: “Khai phá quan z điểm cho liệu Twitter” co l gm Chương 1: Cơ sở lý luận @ Nội dung luận văn gồm phần nhƣ sau: m Nội dung chƣơng trình bày số kiến thức tổng quan lĩnh an Lu vực xử lý ngơn ngữ tự nhiên, đồng thời giới thiệu tốn khai phá quan điểm n va ac th si 46 Bảng 3.3 Bảng danh sách kết hợp đặc trƣng Đặc trƣng sử dụng Unigram Unigram + Bigram Unigram + Bigram + Trigram Unigram + Log-count ratio Unigram + Bigram + Log-count ratio Unigram + Bigram + Trigram + Log-count ratio Unigram + CBS lu an Unigram + Bigram + CBS n va Unigram + Bigram + Trigram + CBS ie gh tn to Unigram + Bigram + Trigram + CBS + Log-count ratio p 3.2.3 Phương pháp đánh giá tập liệu w Đánh giá độ xác phân lớp quan trọng, cho phép dự oa nl đốn đƣợc độ xác kết phân lớp liệu tƣơng lai Độ d xác cịn giúp so sánh mơ hình phân lớp khác Một số phƣơng pháp đánh lu nf va an giá phổ biến nhƣ Holdout, K-fold cross validation Leave-one-out cross validation sử dụng kết hợp độ xác Precision, độ bao phủ Recall độ lm ul điều hòa F z at nh oi a) Phƣơng pháp K-fold Cross Validation Do tập liệu sử dụng bao gồm 20.000 câu, sử dụng phƣơng pháp K-fold cross validation cho việc đánh giá tập liệu để tránh việc trùng lặp z m co l gm @ tập kiểm thử (một số ví dụ xuất tập kiểm thử khác nhau) an Lu n va ac th si 47 lu an n va K-fold cross validation có đặc điểm sau: p ie gh tn to Hình 3.2 Minh họa K-fold cross validation Tập tồn ví dụ D đƣợc chia ngẫu nhiên thành k tập khơng giao (gọi “fold”) có kích thƣớc xấp xỉ nl w - Mỗi lần (trong số k lần) lặp, tập đƣợc sử dụng làm tập kiểm d oa - k giá trị lỗi (mỗi giá trị tƣơng ứng với fold) đƣợc tính trung bình nf va - an lu thử, (k-1) tập lại đƣợc dùng làm tập huấn luyện lm ul cộng để thu đƣợc giá trị lỗi tổng thể z at nh oi Độ xác dự báo giá trị trung bình k lần dự đốn tƣơng ứng với k lần lặp Các lựa chọn thông thƣờng k: Ở luận văn, thử k với nhiều trƣờng hợp khác cuối z sử dụng 5-fold để đánh giá độ xác phân lớp tốn Áp dụng @ gm luận văn, chia liệu 20.000 câu thành phần không trùng m co l giữ nguyên tỷ lệ số câu tích cực với số câu tiêu cực nhƣ liệu gốc an Lu n va ac th si 48 b) Độ xác Precision, độ bao phủ Recall độ điều hịa F Để đánh giá xác chất lƣợng mơ hình ta sử dụng thêm độ đo Precision Recall Precision cho biết phân loại đốn xác phần trăm với nhãn phân loại (ví dụ phân loại kết luận phản hồi tích cực khả phản hồi thật tích cực chiếm phần trăm) Recall ngƣợc lại, cho biết câu phản hồi tích cực, khả phân loại đoán phần trăm Thực tế hai độ đo khơng phải lúc tăng giảm tƣơng ứng với nhau, có trƣờng hợp Recall cao Precision thấp ngƣợc lại, đánh giá lu tổng quát ta dùng độ đo F-measure trung bình điều hịa độ đo với an n va hệ số 0.5 (tầm quan trọng hệ số ngang nhau): : p ie gh tn to Precision hay gọi Độ xác lớp : d oa nl w Recall hay gọi Độ bao phủ lớp nf va an lu Trung bình điều hịa F: z at nh oi lm ul Trong đó: z đƣợc phân loại xác vào lớp gm @ : Số lƣợng ví dụ thuộc lớp bị phân loại nhầm xác vào lớp : Số lƣợng ví dụ khơng thuộc lớp đƣợc phân loại xác m co bị phân loại nhầm an Lu : Số lƣợng ví dụ thuộc lớp l : Số lƣợng ví dụ khơng thuộc lớp n va ac th si 49 Bảng 3.4 Bảng ma trận nhầm lẫn Đƣợc phân lớp hệ thống Lớp Thuộc Phân lớp thực (đúng) Không thuộc Thuộc Không thuộc 3.3 Công cụ thực nghiệm 3.3.1 Môi trường thực nghiệm lu an Dƣới thơng tin cấu hình phần cứng đƣợc sử dụng trình thực va n nghiệm luận văn to gh tn Bảng 3.5 Bảng cấu hình phần cứng Chỉ số p ie Thành phần CPU Intel Core I5 2.6GHz nl w 4GB oa RAM d Bộ nhớ (HDD) Hệ điều hành (OS) an lu SATA 500GB nf va Windows 10 Professional 64bit 3.3.2 Công cụ phần mềm lm ul Bảng 3.6 Bảng công cụ phần mềm z at nh oi Mô tả Visual Studio Enterprise 2015 IDE lập trình ngơn ngữ C# LibSVM Bộ phần mềm cho học máy phân loại thuật toán SVM Nguồn: http://www.csie.ntu.edu.tw/~cjlin/libsvm LibSVMsharp Thƣ viện hỗ trợ LibSVM Net Nguồn: https://github.com/ccerhan/LibSVMsharp Python Tạo môi trƣờng thực thi cho LibSVM z Tên công cụ m co l gm @ an Lu n va ac th si 50 3.3.3 Giới thiệu LibSVM a) Giới thiệu lu an n va p ie gh tn to w oa nl Hình 3.3 Hình ảnh giới thiệu LibSVM d LibSVM thƣ viện đơn giản, dễ sử dụng hiệu phân lớp lu nf va an SVM hồi quy Nó giải phân lớp C-SVM, nu-SVM, hồi quy epsilonSVM hồi quy nu-SVM Thƣ viện cung cấp công cụ lựa chọn mô lm ul hình tự động phân lớp C-SVM LibSVM hỗ trợ phân loại đa lớp phát hành ngày 14/12/2015 z b) Tính z at nh oi Phiên tính tính đến thời điểm phiên 3.21 đƣợc gm @ LibSVM cung cấp giao diện đơn giản cho phép ngƣời dùng dễ dàng sử l dụng chƣơng trình họ Các tính bao gồm: an Lu Các dạng SVM khác m co - n va ac th si 51 lu Phân lớp đa lớp hiệu (multi-class classification) - Kiểm chứng chéo (cross validation) để lựa chọn mơ hình - Ƣớc lƣợng xác suất - Bao gồm nhiều loại kernel khác - Trọng số SVM cho liệu không cân đối - Bao gồm mã nguồn C++ Java - Giao diện GUI thể phân lớp SVM hồi quy SVM - Có phần mở rộng hỗ trợ nhiều ngơn ngữ lập trình khác nhau: Python, R, an - n va to MATLAB, Perl, Ruby, Weka, Common LISP, CLISP, Haskell, OCaml, - p ie gh tn LabVIEW, giao diện PHP, C# NET CUDA Tự động chọn mơ hình đƣợc sinh theo tính xác kiểm chứng chéo nl w d oa Trong luận văn, sử dụng LibSVM cho việc xây dựng mơ hình, an lu đánh giá kiểm chứng chéo (cross validation) Ngồi ra, chúng tơi sử dụng phần nf va mở rộng LibSVM cho ngơn ngữ lập trình C# LibSVM Sharp để phục vụ cho việc phát triển ứng dụng z at nh oi lm ul c) Định dạng liệu LibSVM yêu cầu liệu đầu vào phải theo khuôn dạng đƣợc quy định sẵn, bao gồm tập tin liệu huấn luyện tập tin liệu thử nghiệm z Khuôn dạng nhƣ sau: @ l Trong đó: gm : : m co : giá trị đích tập huấn luyện Đối với việc phân lớp, : số nguyên an Lu số nguyên xác định lớp Đối với hồi quy, số thực n va ac th si 52 : số thực Các nhãn tập tin liệu kiểm thử đƣợc sử dụng để tính tốn độ xác lỗi Với index mà có value = 0, khơng xuất định dạng vector liệu LibSVM Cách lƣu trữ giúp tiết kiệm nhớ trình xử lý d) Các tham số sử dụng LibSVM Dƣới danh sách tham số lựa chọn sử dụng LibSVM: Bảng 3.7 Danh sách tham số LibSVM lu an Tham số -s n va p ie gh tn to Giá trị mặc định svm_type: loại SVM C-SVC nu-SVC one-class SVM epsilon-SVR nu-SVR kernel_type : loại hàm lõi linear: u'*v polynomial: (gamma*u'*v + coef0)^degree radial basis function: exp(-gamma*|u-v|^2) sigmoid: tanh(gamma*u'*v + coef0) degree: bậc hàm lõi gamma: giá trị gamma hàm lõi coef0: giá trị coef0 hàm lõi cost: tham số C C-SVC, epsilon-SVR nuSVR nu: tham số nu nu-SVC, one-class SVM nu-SVR epsilon: giá trị epsilon epsilon-SVR cachesize: kích thƣớc nhớ cache MB epsilon: dung sai shrinking: giá trị shrinking heuristics probability_estimates: ƣớc tính xác suất mơ hình SVC SVR weight: giá trị tham số C lớp i weight * C, C-SVC d oa nl w -t Mô tả z at nh oi z 1/ số đặc trƣng 0.5 0.1 100 0.01 1 m co l gm @ -wi lm ul -p -m -e -h -b nf va -n an lu -d -g -r -c an Lu n va ac th si 53 3.4 Kết thực nghiệm 3.4.1 Kết Bảng 3.8 Bảng so sánh số liệu trƣớc sau tiền xử lý Mô tả Trƣớc tiền xử lý Sau tiền xử lý Số lƣợng từ 297.935 từ 130.237 từ Số từ trung bình / câu 14,89675 từ 6,51185 từ Có thể nhận thấy, sau trình tiền xử lý chuẩn hóa liệu thơ, số lƣợng từ nhiễu, khơng quan trọng, sai tả đƣợc loại bỏ nhiều so với số lƣợng gốc lu an ban đầu va n Bảng 3.9 Bảng số kết thực nghiệm gh tn to p ie Negative Precision Recall 70.50 86.93 70.75 85.76 69.75 84.44 Positive F Precision Recall F 77.68 89.40 75.19 81.68 77.54 88.25 75.11 81.15 76.39 87.15 74.23 80.17 71.25 87.1 78.38 89.45 75.68 81.99 88.62 78.99 90.85 75.96 82.74 88.99 78.83 91.25 75.73 82.77 60.95 58.34 64.14 59.29 61.62 66.04 78.30 66.19 71.74 63.90 66.44 62.96 65.38 nl w oa 80.35 d 81.05 nf va an lu 71.25 lm ul 80.99 70.75 60.05 55.95 69.15 60.01 73.44 65.05 60.90 66.41 63.54 69.20 64.01 60.00 65.22 62.50 68.00 80.22 77.50 81.97 81.97 82.95 z at nh oi z m co l gm @ an Lu Unigram Bigram Trigram Unigram + Log-count ratio Bigram + Log-count ratio Trigram + Log-count ratio CBS Unigram + CBS Bigram + CBS Trigram + CBS Unigram Accuracy (%) 79.94 79.49 78.44 78.66 80.75 n va ac th si 54 + Log-count ratio + CBS Bigram + Log-count ratio + CBS Trigram + Log-count ratio + CBS 80.98 79.45 81.95 81.95 82.50 80.06 81.26 80.83 80.05 81.31 81.31 81.60 80.35 80.97 lu 3.4.2 Đánh giá kết an n va a) So sánh độ xác phƣơng pháp trích chọn đặc trƣng to ie gh tn Độ xác 90 p z at nh oi lm ul nf va 10 an 20 lu 30 d 40 oa 50 nl 60 w 70 80 z m co l gm @ Độ xác an Lu Hình 3.4 Biểu đồ độ xác theo đặc trƣng n va ac th si 55 Từ biểu đồ thấy sử dụng đặc trƣng N-gram, độ xác phân loại đạt khoảng 78%-80% với Unigram, Bigram Trigram Khi kết hợp CBS với Ngram kết lại giảm xuống đáng kể Tuy nhiên, kết hợp Ngram với Log-count ratio loại đặc trƣng kết lại cải thiện so với dùng Ngram b) So sánh độ xác phân loại nhãn Xem xét kết thí nghiệm độ xác phân loại (tính theo độ đo F trên) khác tùy theo tập đặc trƣng chênh lệch nhiều lu số tập đặc trƣng khác Tuy nhiên độ xác phân loại chênh lệch an nhỏ nhãn Nhiều khả số lƣợng nhãn phân loại tập va n huấn luyện đồng đều, nhãn “POSITIVE” “NEGATIVE” chiếm số lƣợng tn to theo tỷ lệ liệu gốc, điều ảnh hƣởng đến q trình xây dựng ie gh phân loại có xu hƣớng đồng độ xác cho nhãn “POSITIVE” p “NEGATIVE” Trong bảng dƣới thống kê lại chất lƣợng phân loại tốt với nl w nhãn hai phƣơng pháp: d oa Bảng 3.10 Thống kê độ xác phân loại theo nhãn Precision 10.000 Recall 91.25 10.000 80.05 z at nh oi lm ul nf va NEGATIVE Độ xác phân loại Số câu an POSITIVE lu Nhãn 80.3 82.7 88.9 80.8 z 20.000 F @ m co l mức chênh lệnh không nhiều gm Từ bảng ta nhận thấy độ xác phân loại theo nhãn tƣơng đồng, an Lu n va ac th si 56 Độ đo % 92 90 88 86 84 82 80 78 76 lu an 74 Precision Recall va n POSITIVE F NEGATIVE tn to Đối chiếu với biểu đồ ta thấy độ xác Precision độ bao phủ p ie gh Hình 3.5 Biểu đồ chất lƣợng phân loại nhãn Recall nhãn có chênh lệch, nhiên không 10% Trong oa nl w đó, độ xác (tính theo độ đo F-measure) lại xấp xỉ d 3.5 Kết luận chƣơng lu an Nội dung chƣơng trình trình thực hệ thống khai phá quan điểm cho nf va liệu Twitter Trên sở kết thực nghiệm chƣơng luận văn đƣa phân lm ul tích đánh giá phƣơng pháp thực Các kết cho thấy việc sử dụng đặc z at nh oi trƣng riêng rẽ mang lại hiệu độ xác khơng cao Khi tăng dần việc kết hợp đặc trƣng, độ xác phân lớp đƣợc cải thiện Điều chứng tỏ tầm quan trọng việc trích chọn đặc trƣng sử dụng kết hợp đặc trƣng z m co l gm @ toán phân lớp an Lu n va ac th si 57 KẾT LUẬN Trong thời đại nay, ứng dụng công nghệ thông tin vào sống đƣợc áp dụng rộng rãi Đây thực công cụ hỗ trợ đắc lực giúp cho ngƣời giải đƣợc nhiều vấn đề, nhiều toán cách nhanh chóng, xác hiệu cao Một ứng dụng giúp ngƣời khai phá quan điểm Với nguồn thông tin phong phú, cập nhật thƣờng xuyên, gần nhƣ tức thời quan điểm ngƣời dùng vấn đề xung quanh, mạng xã hội Twitter mở hội to lớn với ngƣời để khai thác đƣợc thông tin quan điểm lu an Xuất phát từ hội đó, kết hợp với q trình nghiên cứu, chúng tơi lựa chọn n va tốn Khai phá quan điểm mạng xã hội Twitter để thực luận văn to tn Nghiên cứu xử lý ngơn ngữ tự nhiên nói chung, tốn khai phá quan ie gh điểm nói riêng với công nghệ mới, thời gian nghiên cứu ngắn nên p nhiều vấn đề chƣa thực nắm bắt tốt Tuy nhiên qua trình nghiên cứu w luận văn, thu đƣợc số kết nhƣ nhận thấy số hạn d oa nl chế nhƣ sau: an lu Kết đạt đƣợc - nf va Về mặt lý thuyết: Tìm hiểu mạng xã hội Twitter, đặc điểm liệu mạng xã hội Nghiên cứu toán khai phá quan điểm mạng xã hội Twitter, vai z at nh oi - lm ul Twitter trị, ý nghĩa nhƣ khó khăn thách thức Trình bày hƣớng tiếp cận, phƣơng pháp giải quyết, kỹ thuật z - gm @ liên quan Đi sâu vào phƣơng pháp học máy SVM, cách biểu diễn đặc Đề xuất mơ hình giải toán khai phá quan điểm mạng xã hội Twitter an Lu - m Về thực nghiệm: co l trƣng N-gram, Độ tƣơng đồng dựa tâm Log-count ratio n va ac th si 58 - Tiến hành cài đặt thực nghiệm - Đƣa phân tích, đánh giá kết thực nghiệm Hạn chế Do hạn chế mặt thời gian kiến thức nên luận văn tồn số điểm hạn chế - Dữ liệu sử dụng chƣa đủ lớn, thực nghiệm thực 20.000 tweet Con số nhỏ so với lƣợng tweet thực tế - Bài toán dừng lại mức tổng quát, đánh giá quan điểm tweet, chƣa lu áp dụng vào lĩnh vực hay toán cụ thể an Hƣớng phát triển va n Trong thời gian tới, tiếp tục nghiên cứu phƣơng pháp khác gh tn to để nâng cao chất lƣợng kết phân lớp quan điểm Cùng với đó, xây dựng ứng dụng thực tế với tốn lĩnh vực cụ thể Ngồi ra, cần nâng cao ie p tốc độ xử lý, hoàn thiện hệ thống d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si 59 TÀI LIỆU THAM KHẢO Agarwal, Apoorv and Xie, Boyi and Vovsha, Ilia and Rambow, Owen and Passonneau, Rebecca (2011), Sentiment Analysis of Twitter Columbia University New York, NY 10027 USA [2] Bing Liu (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers [3] Barbosa, Luciano and Junlan Feng, Robust, (2010), Sentiment detection on twitter from biased and noisy data, Proceedings of the International Conference on Computational Linguistics (COLING-2010) [4] Davidov, Dmitry and Tsur, Oren and Rappoport, Ari (2010) Enhanced sentiment learning using Twitter hashtags and smileys, in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, 241-249 [5] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching, Pattern Recognition and Image Analysis, 638-646 lu [1] an n va p ie gh tn to Geli Fei and Bing Liu, (2008) Social Media Text Classification under Negative Covariate Shift, Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2347–2356 [7] Reinhard Kneser and Hermann Ney (1995) Improved backing-off for ngram language modelling, Proceedings of the IEEE Conference on Acoustics, Speech and Signal Processing, 181-184 [8] Samuel Brody, Nicholas Diakopoulos (2011), Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs, 562-570 [9] Shengli Wu, (2011) Fusing Blog Opinion Retrieval Results for Better Effectiveness, Database and Expert Systems Applications (DEXA), 195-199 d oa nl w [6] nf va an lu z at nh oi lm ul z @ m co l gm [10] Sida Wang and Christopher D Manning, (2012) Baselines and Bigrams: Simple, Good Sentiment and Topic Classification, Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 90-94 an Lu [11] T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning n va ac th si 60 (ICML), 1999 [12] T Joachims (2003) Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297 [13] Zhun chen Luo, Miles Osborne, Ting Wang, (2012), Opinion Retrieval in Twitter, Morgan Kaufmann Publishers, United States lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si