THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER. Trích chọn thông tin phim ảnh Trích chọn thông tin nhà hàng, quán ăn Crawling dữ liệu diễn đàn Crawling dữ liệu Facebook Phân loại tin tức trực đtuyến Lọc spam email Khai phá luật kết hợp Phát hiện tự động chủ đề nóng trên mạng Chuẩn hoá ngôn ngữ teen trên Web Xây dựng hệ thống gợi ý theo lọc cộng đối tác báo cáo hướng dẫn môn khai phá dữ liệu
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đào Quốc Vương THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Cơng nghệ thơng tin HÀ NỘI - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đào Quốc Vương THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Cơng nghệ thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy Cán đồng hướng dẫn:NCS Vũ Ngọc Trình HÀ NỘI – 2013 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Dao Quoc Vuong OPINION RETRIEVALABOUT ENTITY IN TWITTER Major: Information technology Supervisor: Assoc Prof Ha Quang Thuy Co-Supervisor: Masters Vu Ngoc Trinh HA NOI-2013 THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER Đào Quốc Vương Khóa QH-2009-I/CQ, ngành cơng nghệ thơng tin Tóm tắt khóa luận: Thu hồi quan điểm (opinion retrieval) toán tiến hành thu hồi quan điểm nguồn tài liệu, có mạng xã hội, chẳng hạn Twitter Thu hồi quan điểm có nhiều ứng dụng dựa giải pháp công nghệ tiên tiến thu hút quan tâm đặc biệt nhiều nhóm nghiên cứu giới Nhiều cơng trình nghiên cứu thu hổi quan điểm công bố [1,6,9,12,15,16,22] Trong vài năm gần đây, số nghiên cứu thu hồi quan điểm từ mạng Twitter cơng bố Trên sở tìm hiểu phân tích cơng trình nghiên cứu liên quan, đặc biệt cơng trình [1,2,6,22], khóa luận khảo sát phương pháp thu hồi quan điểm nhiều miền, nhiều lịch vực Trên sở phân tích nói trên, khóa luận đề nghị mơ hình thu hồi quan điểm mạng xã hội Twitter Đồng thời, khóa luận xây dựng hệ thống thử nghiệm thi hành mơ hình nói hành thực nghiệm với liệu (253711 tweet) lấy Twitter Search API Kết thực nghiệm đạt độ xác phân lớp chủ quan khoảng 76.7% phân lớp phân cực khoảng 81%, cho thấy tính hiệu mơ hình đề xuất Từ khóa: Opinion, retrieval, twitter OPINION RETRIEVAL ABOUT ENTITY IN TWITTER Dao Quoc Vuong QH-2009-I/CQ course, information technology faculty Abstract thesis: Opinion retrieval is problem to recover the perspective of a resource, including social networking sites, such as Twitter Opinion retrieval is a problem with many applications, has attracted the special attention of many research group around the world Many research works were recovered announced [1,6,9,12,15,16,22] In particular, there have been some studies on the recovery from Twitter for a few years On the basis of understanding and comparison of research works related above, especially the works [1,2,6,22], thesis explored methods perspective on recovery multiple domains, many tourist areas, through the process of understanding and analysis, the thesis proposed model recovery perspective on social network twitter With the flourish of online social network such as Twitter, Facebook, social data network is becoming a more and more useful and important information and resource for people and organization This flourishing is not only a chance but also a challenge to build an opinion search and retrieval system This thesis study and propose an opinion retrieval on Twitter The experimental results show the effectiveness of the proposed system At the same time, the implementation of the thesis mentioned above with a model experimental system and conducted experimental evaluation of the model on data taken over twitter with Twitter Search API The experimental results achieved subjective classification of about 76.7%, classification accuracy of about 81.% polarization showed the effectiveness of the proposed model Keyword: Opinion, retrieval, twitter Lời cảm ơn Lời đầu tiên, khóa luận xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy, NCS Vũ Ngọc Trình tận tình hướng dẫn bảo khóa luận suốt q trình thực khóa luận tốt nghiệp Khóa luận xin chân thành cảm ơn thầy, cô trường đại học Công Nghệ - đại học Quốc gia Hà Nội tạo điều kiện thuận lợi cho khóa luận học tập nghiên cứu Khóa luận xin gửi lời cảm ơn đến thầy cô, anh chị, bạn phòng thí nghiệm KT-Lab hỗ trợ khóa luận nhiều kiến thức chun mơn q trình thực khóa luận Khóa luận xin cảm ơn bạn lớp K54CLC ủng hộ khuyến khích khóa luận suốt suốt q trình học tập trường Cuối cùng, khóa luận xin gửi cám ơn vơ hạn tới gia đình bạn bè, người ln bên cạnh, giúp động viên khóa luận trình học tập suốt trình thực khóa luận Khóa luận xin chân thành cảm ơn! Hà Nội, ngày 13 tháng 05 năm 2013 Sinh viên Đào Quốc Vương Lời cam đoan Khóa luận xin cam đoan phương pháp thu hồi quan điểm thực thể mạng xã hội twitter thực nghiệm trình bày khóa luận khóa luận thực hướng dẫn PGS.TS Hà Quang Thụy NCS Vũ Ngọc Trình Tất tài liệu tham khảo từ nghiên cứu liên quan có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 13 tháng 05 năm 2015 Sinh viên Đào Quốc Vương Mục lục Lời mở đầu Chương Khái quát toán thu hồi quan điểm thực thể mạng xã hội Twitter 1.1 Mạng xã hội twitter 1.1.1 Mạng xã hội 1.1.2 Giới thiệu mạng xã hội twitter 1.1.3 Dữ liệu twitter 1.2 Phát biểu toán 1.2.1 Bài toán thu hồi quan điểm 1.2.2 Bài toán thu hồi quan điểm thực thể mạng xã hội twitter 1.2.3 Ý nghĩa toán thu hồi quan điểm thực thể mang xã hội 10 1.2.4 Khó khăn thách thức 11 1.3 Tóm tắt chương 11 Chương Cơ sở lý thuyết ngiên cứu liên quan 12 2.1 Hệ thống phân lớp quan điểm 12 2.1.1 Các đặc trưng phân lớp quan điểm 12 2.1.2 Phân lớp quan điểm chủ quan/khách quan 15 2.1.3 Phân lớp quan điểm phân cực 16 2.2 Thuật toán SVM 17 2.2.1 Giới thiệu thuật toán 17 2.2.2 Cách áp dụng thuật toán SVM vào toán phân lớp quan điểm 18 2.3 Độ tương đồng 19 2.3.1 Độ đo Cosine 20 2.3.2 Độtương đồngdựa khoảng cách Lenvenshtein 20 2.4 Áp dụng độ tương đồng cho toán thu hồi quan điểm thực thể mạng xã hội twitter 22 2.5 Twitter Search API 23 2.6 Tóm tắt chương 27 Chương Mơ hình đề xuất 28 3.1 Mơ hình giải tốn 28 3.2 Giải chi tiết pha 30 3.2.1 Crawler liệu tweet liên quan đến thực thể (query), tiền xử lý chuẩn hóa liệu tweet 30 3.2.2 Xây dựng phân lớp chủ quan/khách quan, sử dụng phân lớp chủ quan/khách quan để phân lớp cho liệu tweet chuẩn hóa 33 3.2.3 Xây dựng phân phân cực, sử dụng phân lớp phân cực để phân lớp liệu tweet chủ quan 34 3.2.4 Trực quan hóa kết từ liệu tweet gán nhãn phân cực 35 3.3 Tóm tắt chương 35 Chương Thực nghiệm đánh giá 37 4.1 Hướng tiếp cận thực nghiệm 37 4.2 Môi trường thực nghiệm 38 4.2.1 Cấu hình phần cứng 38 4.2.2 Công cụ phân mềm 38 4.3.Dữ liệu 38 4.4 Thực nghiệm 39 4.4.1.Xây dựng phâp lớp chủ quan/khách quan 39 4.4.2 Sử dụng phân lớp chủ quan/ khách quan với liệu chuẩn hóa 40 4.4.3 Xây dựng phân lớp phân cực 40 4.4.4 Sử dụng phân lớp phân cực 40 4.4.5 Trực quan hóa kết 41 4.5 Đánh giá hệ thống 44 4.5 Tóm tắt chương 45 Kết luận định hướng 46 Tài liệu tham khảo 47 Bảng Các đặc trưng sử dụng phân lớp phân cực Đặc trưng Mô tả Unigram Từ xuất nhiều liệu tweets (số lần xuất lớn 0.5% số tweet) Từ loại (POS) 36 đặc trưng bao gồm: tính từ, danh từ, động từ… Từ quan điểm đặc trưng: từ mang quan điểm tích cực manh, tích cực, tiêu cực mạnh, tiêu cực-sử dụng từ điển quan điểm [11] Đặc trưng tweet đặc trưng: retweet, chứa link, reply, hashtag Biểu tượng cảm xúc đặc trưng: biểu tượng cảm xúc tích cực manh, tích cực, tiêu cực mạnh, tiêu cực, trung lập Từ phủ định Có thấy xuất “no, cannot ”, chứa “n’t”… Cú pháp Số lượng từ viết hoa Số lượng dấu hỏi (?), dấu cảm (!) Từ kéo dài Các từ lập lại coooooooooll … 3.2.4 Trực quan hóa kết từ liệu tweet gán nhãn phân cực Sau có liệu tweet gán nhãn phân cực, khóa luận tiến hành trực quan hóa liệu để dễ dàng đánh giá kết hệ thống Đầu vào: Dữ liệu tweet chủ quan Đầu ra: Đồ thị biểu diễn tweet gán nhãn phân cực Hướng tiếp cận giải quyết: Dùng thống kê, ta biết số lượng, tần số xuất hiện… 3.3 Tóm tắt chương Trong chương khóa luận giới thiệu mơ hình đề xuất để giải toán phương pháp giải pha Khóa luận trình bày cách lấy liệu, tiền xử lý liệu, sử dụng SVM để phân lớp quan điểm chủ quan/khách quan, phân lớp quan điểm phân cực (gồm hai phân lớp phân lớp quan điểm phân cực có chứa biểu tượng cảm xúc, phân lớp phân 35 cực không chứa biểu tượng cảm xúc), trực quan hóa kết liệu tweet mang quan điểm phân cực Khóa luận kết hợp phương pháp đề xuất cải tiến phân lớp quan điểm phân cực để đạt kết cao Để cải tiến dựa mô hình tốt hơn, khóa luận tiến hành làm thực nghiệm để kiểm tra đánh giá bước làm, với đưa phương pháp cải tiến nhằm nâng cao kết Trong chương khóa luận trình bày thực nghiệm mà khóa luận làm đánh giá khóa luận hệ thống 36 Chương Thực nghiệm đánh giá Trong chương khóa luận trình bày thưc nghiệm dựa mơ hình để xuất chương ba Khóa luận tiến hành thực nghiệm 10 từ truy vấn, lấy liệu tiếng Anh Dựa vào kết thực nghiệm, khóa luận tiến hành đánh giá, nhận xét 4.1 Hướng tiếp cận thực nghiệm Sau trình tìm hiểu phương pháp tác gải, khóa luận đưa đề xuất mơ hình Để kiểm tra đánh giá hiệu mô hình đề xuất, khóa luận tiến hành làm thực nghiệm Mục tiêu thực nghiệm kiểm tra tính khả thi mơ hình, mơ hình khóa luận đề xuất dựa tìm hiểu phân tích nghiên cứu liên quan Thực nghiệm tiến hành theo pha mơ hình, dựa vào kết thực nghiệm mà khóa luận rút nhận xét đánh giá bổ xung cho mô hình hồn chỉnh Sau khóa luận cải thiện lại mơ hình mà khóa luận đề xuất kết chưa tốt, với khóa luận nâng cao kết pha Có kết thực nghiệm giúp khóa luận có cải thiện tốt cho hệ thống Hệ thống cần áp dụng vào thực tiễn không dừng lại lý thuyết Phần khóa luận trình bày chi tiết cách làm thực nghiệm khóa luận 37 4.2 Mơi trường thực nghiệm 4.2.1 Cấu hình phần cứng Bảng Cấu hình phần cứng Thành phần CPU RAM Bộ nhớ (HDD) Hệ điều hành (OS) Chỉ số Intel Core Dual (2*2.0GHz) 2GB 320GB Windows Ultimate 32 bits 4.2.2 Công cụ phân mềm Bảng 10 Công cụ phần mềm sử dụng Stt Tên công cụ Eclipse Libsvm java-json Tokenize Model phân tích cú pháp tool hỗ trợ phân tích cú pháp Nguồn http://www.eclipse.org/downloads/ Cơng dụng: Bộ phần mềm cho học máy phân loại thuật toán SVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Cơng dụng: Bộ phân tích JSON http://json.org/java/ Cơng dụng: Bộ phân tích tokenize https://code.google.com/p/ark-tweet-nlp/ http://opennlp.sourceforge.net/models-1.5/ http://opennlp.apache.org/documentation/1.5.2incubating/apidocs/opennlp-tools/ 4.3.Dữ liệu Khóa luận sử dụng 10 từ khóa để lấy liệu Search API: "Acer", "Asus", "Dell", "Galaxy s2","iPad", "iphone 5", "Lenovo", "nokia lumia", "samsung", "Window 8" Khóa luận thu liệu dạng JSON khóa luận lưu chúng thành file, dòng file thơng tin tweet Khóa luận sử dụng tập liệu[1] gán nhãn không mang quan điểm, mang quan điểm tích cực, mang quan điểm tiêu cực Khóa luận chia liệu thành tập liệu: tập liệu chủ quan/ khách quan, tập liệu mang quan điểm phân cực có biểu tượng cảm xúc, tập liệu mang quan điểm phân cực biểu tượng cảm xúc 38 Hình Dữ liệu thực nghiệm 4.4 Thực nghiệm Khóa luận tiến hành crawler liệu dựa vào Twitter Search API, khóa luận thu 253711 tweet liệu 10 từ khóa Sau có liệu khóa luận tiến hành chuẩn hóa liệu loại bỏ tweet bị trùng lặp, tương đồng(tránh tượng spam làm sai đánh giá, nhìn nhận kết quả) Sau loại bỏ tweet bị trùng lặp tương đồng Khóa luận tiến hành gán nhãn phân lớp cho chúng 4.4.1.Xây dựng phâp lớp chủ quan/khách quan Khóa luận sử dụng liệu có 1709 tweet gán nhãn[1] Kết sau sử dụng thuật toán SVM với đặc trưng trình bày chương ba Khóa luận thực đánh giá chéo 10 khoảng (10-folds cross validation) Kết thực nghiệm sau: Kết phân lớp chủ quan/khách quan có độ xác (accuracy) 76.7 % 39 4.4.2 Sử dụng phân lớp chủ quan/ khách quan với liệu chuẩn hóa Khóa luận sử dụng liệu tiền xử lý, sau qua mơ hình phân lớp chủ quan/ khách quan, khóa luận thu kết sau: Bảng 11 Kết sử dụng phân lớp chủ quan/ khách quan Từ khóa tìm kiếm Acer Asus Dell Galaxy s2 iPad iphone Lenovo nokia lumia Samsung Window Số lượng tweet chuẩn hóa 19329 16408 36916 5093 44325 49075 12427 20966 43660 5512 Số lượng tweet chủ quan 6816 4435 11413 1948 12478 17412 3173 4192 13324 1901 4.4.3 Xây dựng phân lớp phân cực Khóa luận sử dụng liệu tweet[1] Với bước xây dựng sử dụng đặc trưng trình bày chương ba, sử dụng học máy LibSVM Khóa luận thực đánh giá chéo 10 khoảng (10-folds cross validation) Kết thực nghiệm sau: Kết phân lớp quan điểm phân cực có độ xác (accuracy) 81% 4.4.4 Sử dụng phân lớp phân cực Khóa luận sử dụng liệu chủ quan, với tweet có mang biểu tưởng cảm xúc, khóa luận dùng mơ hình phân lớp phân cực có chứa biểu tượng cảm xúc Nếu liệu không chứa biểu tượng cảm xúc, khóa luận sử dụng mơ hình không mang biểu tượng cảm xúc Sau qua mô hình phân lớp quan điểm phân cực, khóa luận thu kết sau: 40 Bảng 12 Kết sử dụng phân lớp phân cực Từ khóa tìm kiếm Acer Asus Dell Galaxy s2 iPad iphone Lenovo nokia lumia samsung Window tweet chủ quan 6816 4435 11413 1948 12478 17412 3173 4192 13324 1901 tweet mang quan điểm tích cực 3655 2530 5107 1008 6058 7317 1931 2725 7128 775 tweet mang quan điểm tiêu cực 3161 1905 6306 940 6420 10095 1242 1467 6196 1126 4.4.5 Trực quan hóa kết Với liệu trên, ta có mơ hình (đồ thị) biểu diễn kết sau: Số lượng 20000 18000 16000 14000 12000 10000 Mang quan điểm tiêu cực 8000 Mang quan điểm tích cực 6000 4000 2000 Từ khóa Hình Biểu diễn tổng quan thực thể quan điểm 41 Biểu đồ thể quan điểm thực thể Iphone Quan điểm phân cực Iphone Mang quan điểm tích cực 42% 58% Mang quan điểm tiêu cực Hình Biểu diễn quan điểm Iphone5 theo phần trăm 10095 Mang quan điểm tích cực 7317 2000 4000 Mang quan điểm tiêu cực 6000 8000 10000 12000 Hình 10 Biểu diễn số lượng quan điểm Iphone5 42 Phần trăm 100% 90% 80% 70% 60% 50% Mang quan điểm tiêu cực 40% Mang quan điểm tích cực 30% 20% 10% 0% thời gian Hình 11 Biểu diễn quan điểm Iphone5 theo thời gian biểu đồ cột 43 1400 1200 1000 800 600 Mang quan điểm tích cực Mang quan điểm tiêu cực 400 200 Hình 12 Biểu diễn quan điểm Iphone5 theo thời gian biểu đồ đường 4.5 Đánh giá hệ thống Qua biểu đồ khóa luận thấy người dùng quan tâm nhiều đến Iphone5 (với 17412 tweet chủ quan), Samsung (với 13324 tweet chủ quan), Ipad (với 12478 tweet chủ quan) Với kết liệu trên, khóa luận thấy thực thể Nokia lumia, Lenovo, Asus người dùng có nhiều ý kiến tốt hơn, cụ thể là(Nokia lumia 65%, Lenovo 61%, Asus 57%) Chúng ta thấy dòng sản phẩm chất lượng tốt, giá phù hợp có uy tín lâu nhiều quan điểm tốt chúng Mặt khác với dòng sản phẩm, cơng nghệ chưa nhiều người biết đến, q đắt chất lượng khơng hài lòng người dùng nên có nhiều quan điểm khơng tốt thực thể Theo thống kê ta có Window Iphone thực thể nhiều người dùng có quan điểm khơng tốt chúng, (cụ thể Window có 59 % quan điểm tiêu cực, Iphone có 58 % quan điểm tiêu cực) Qua sử dụng số độ đo kết qua đồ thị biểu diễn, khóa luận thấy mơ hình đề xuất chương ba khả thi Tuy nhiên cần nâng cao độ xác hai phân lớp: phân lớp chủ quan /khách quan phân lớp quan điểm phân cực 44 4.5 Tóm tắt chương Chương khóa luận đề cập định hướng để làm thực nghiệm, tầm quan trọng việc làm thực nghiệm Cương trình bày chi tiết bước cài đặt theo mơ hình cho kết pha Từ kết thực nghiệm, khóa luận thấy điểm mạnh điểm yếu phương pháp làm Khóa luận dựa theo điểm mạnh tiếp tục cải tiến, điểm yếu khóa luận cần chỉnh sửa để thu kết tốt Các cải tiến tốt giúp cho hai phân lớp: phân lớp chủ quan/ khách quan phân lớp quan điểm phân cực có độ xác cao Từ kết thu được, khóa luận đưa nhận xét đánh giá tính khả thi hệ thống Phần khóa luận trình bày kết luận định hướng 45 Kết luận định hướng Thu hồi quan điểm nội dung nghiên cứu thời sự, đặc biệt thu hồi quan điểm từ mạng xã hội Twitter Qua tìm hiểu phương pháp thu hồi quan điểm mạng xã hội trình bày từ cơng trình nghiên cứu liên quan Khóa luận đạt kết sau đây: Trình bày mạng xã hội, mạng xã hội twitter, liệu Twitter Trình bày tốn thu hồi quan điểm thực thể mạng xã hội twitter, nêu vai trò, ý nghĩa khó khăn thách thức Trình bày phân tích hướng tiếp tiếp cận, phương pháp giải cơng trình nghiên cứu liên quan[1,2,6,22] Đề nghị mơ hình tiến hành cài đặt thực nghiệm: Khóa luận thu số kết khả quan sau tiến hành thực nghiệm, kết tốt giúp cho hệ thống thể gần xác quan điểm người dùng thực thể twitter Hai phân lớp quan điểm phần quan trọng hệ thống thu hồi quan điểm Khóa luận cải tiến phân lớp quan điểm phân cực cách chia phân lớp thành hai phân lớp nhỏ Kết phân lớp chủ quan/ khách quan có độ xác khoảng 76.7% Kết phân lớp quan điểm phân cực chung có độ xác khoảng 81% Kết hệ thống bước đầu để làm tiền đề động lực cho phát triển sau khóa luận Tuy nhiên, hạn chế mặt thời gian kiến thức nên khóa luận tồn mặt hạn chế đặc trưng sử dụng cho hai phân lớp SVM chưa phong phú, nhiều phương pháp chưa sử dụng kết hợp tốt Trong thời gian tới, khóa luận tiếp tục tìm hiểu nâng cao chất lượng kết hai phân lớp, với sử dụng kết hơp Twitter Streaming API để thu hồi quan điểm thời gian thực không bị giới hạn số lượng tweet Ngồi giá khóa luận tiến hành cải thiện pha xử lý nhanh hoàn thiện hơn, xây dựng hệ thống web 46 Tài liệu tham khảo [1]Agarwal, Apoorv and Xie, Boyi and Vovsha, Ilia and Rambow, Owen and Passonneau, Rebecca, Sentiment Analysis of Twitter Data, In Proceedings of the Workshop on Language in Social Media (LSM 2011), 2011 [2]Alec Go, Lei Huang, Richa Bhayani, Twitter Sentiment Analysis,CS224N, 2009 [3]Barbosa, Luciano and Junlan Feng, Robust,sentiment detection on twitter from biased and noisy data, Proceedings of the International Conference on Computational Linguistics (COLING-2010), 2010 [4]Bo Han, Paul Cook, Timothy Baldwin, Automatically constructing a normalisation dictionary for microblogs,1 Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2012), Jeju Island, Korea, 2012, pp 421–432 [5]Bo Pang and Lillian Lee, Opinion Mining and Sentiment Analysis, Foundations and Trends in Information Retrieval, 2008, pp 1–135 [6]Bing Liu, Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, May 2012 [7]Davidov, Dmitry and Tsur, Oren and Rappoport, Ari, Enhanced sentiment learning using Twitter hashtags and smileys, in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, 2010, 241-249 [8]Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro, Semantic Similarity Between Sentences Through Approximate Tree Matching, IbPRIA (2), 2005, 638-646 [9]Gerani, S Carman, M J.; and Crestani, F 2009, Investigating Learning Approaches for Blog Post Opinion Retrieval, In ECIR, 2009 [10]T Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features,Proceedings of the European Conference on Machine Learning, Springer, 1998 [11]I Kloumann, C Danforth, K Harris, C Bliss, and P Dodds, Positivity of the English language, PLoS ONE 7(1), 2012, pp 1-7 47 [12]Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey, Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 9498 [13]Pak, A., and Paroubek, P 2010, Twitter as a corpus for sentiment analysis and opinion mining, In Proc of LREC, 2010 [14]Samuel Brody, Nicholas Diakopoulos, Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs, EMNLP 2011: 562-570 [15]P Senellart and V D Blondel,Automatic discovery of similar words Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M.Castellanos, editors),Springer-Verlag, January 2008, pp 25–44 [16]Shengli Wu, Fusing Blog Opinion Retrieval Results for Better Effectiveness, Database and Expert Systems Applications (DEXA), 2011 22nd International Workshop on, 2011, pp 195-199 [17]Turney, Peter D, Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews, Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2002), 2002 [18]Vladimir N Vapnik, The Nature of Statistical Learning Theory, Springer, 1995 [19]Wiebe, Janyce and Ellen Riloff, Creating subjective and objective sentence classifiers from unannotated texts, Computational Linguistics and Intelligent Text Processing, 2005 [20]Yu, Hong and Vasileios Hatzivassiloglou, Towards answering opinion questions, Separating facts from opinions and identifying the polarity of opinion sentences, Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP-2003), 2003 [21]Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett, Sentence Similarity Based on Semantic Nets and Corpus Statistics,IEEE Trans Knowl Data Eng 18(8), 2006, pp 1138-1150 48 [22]Zhunchen Luo, Miles Osborne, Ting Wang, Opinion Retrieval in Twitter, ICWSM, 2012 49