Khai phá quan điểm cho dữ liệu twitter (tt)

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN THỊ HỒNG QUỲNH KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ XUÂN BÁCH HÀ NỘI - 2017 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Ngô Xuân Bách Phản biện 1: ……………………………………………… Phản biện 2: ……………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm … Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Sự bùng nổ ngày mạnh mẽ mạng xã hội mở nhiều hội cho tổ chức, cá nhân thu thập, tìm kiếm thơng tin xử lý chúng nhiều toán đặt để khai thác nguồn thông tin dồi từ mạng xã hội Khai phá quan điểm tốn khai thác thơng tin nằm ứng dụng xử lý ngôn ngữ tự nhiên, giúp thu thập thông tin mong muốn quan điểm liệu Bài tốn phân tích đánh giá cho chủ đề định, kiện, sản phẩm để tự động phân loại đánh giá theo hướng tích cực, tiêu cực quan điểm Bài tốn cịn bao gồm nội dung tổng hợp quan điểm từ tài liệu quan điểm thu Với phát triển nhanh chóng mạnh mẽ, mạng xã hội Twitter trở thành nguồn cung cấp nhiều thông tin quan điểm cho người nghiên cứu lĩnh vực Đã có nhiều cơng trình nghiên cứu liên quan đến toán khai phá quan điểm theo phương pháp khác từ nhiều nguồn liệu [2], [4], [8], mà Twitter nguồn liệu phổ biến Đánh giá quan điểm viết Twitter vào hai lớp Tích cực Tiêu cực mang lại nhiều ý nghĩa cho nhiều lĩnh vực kinh tế, quảng cáo v.v Một cách tiếp cận sử dụng học máy thống kê Trong cách tiếp cận này, biểu diễn đặc trưng đóng vai trị quan trọng, ảnh hưởng trực tiếp tới độ xác phân lớp Thơng qua tìm hiểu, phân tích phương pháp khai phá quan điểm tập liệu Twitter, tập trung tới ba phương pháp biểu diễn đặc trưng: N-gram[7], Độ đặc trưng dựa tâm (Center-base similarity – CBS) [6] Logcount ratio[9] để thực đề tài luận văn có tên: “Khai phá quan điểm cho liệu Twitter” Nội dung luận văn gồm phần sau:  Chương 1: Cơ sở lý luận  Chương 2: Khai phá quan điểm hệ thống học máy  Chương 3: Thực nghiệm đánh giá kết  Phần kết luận CHƢƠNG I CƠ SỞ LÝ LUẬN 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) lĩnh vực nghiên cứu trí tuệ nhân tạo , tập trung vào nghiên cứu phương pháp, kỹ thuật cho phép xử lý ngơn ngữ tự nhiên máy tính, từ xây dựng chương trình, hệ thống máy tính xử lý ngôn ngữ người 1.2 Khai phá quan điểm 1.2.1 Giới thiệu Khai phá quan điểm lĩnh vực khai thác thông tin nằm ứng dụng xử lý ngôn ngữ tự nhiên, giúp thu thập thông tin mong muốn quan điểm liệu 1.2.2 Một số toán khai phá quan điểm a) Bài toán xác định quan điểm b) Bài toán phân loại quan điểm c) Bài tốn khai phá quan điểm theo đặc trưng, khía cạnh d) Bài tốn tóm tắt quan điểm 1.2.3 Một số khó khăn khai phá quan điểm Phong cách viết người khác nhau: Mỗi cá nhân người khác nhau, cách thức diễn đạt sử dụng ngôn ngữ khác Sự phong phú ngơn ngữ dẫn đến đa dạng hóa cách thể quan điểm người Hơn nữa, quan điểm người phụ thuộc vào nhiều yếu tố như: tính cách, trình độ, tuổi tác v.v Sự phụ thuộc vào bối cảnh thời gian: Cùng từ, câu nói tình thể tính chất tích cực, từ đó, câu nói tình khác lại thể tính chất tiêu cực Các lối nói ẩn dụ, hay đặc biệt hoàn cảnh với ngụ ý mỉa mai, châm biếm gây hiểu lầm quan điểm Quan điểm phận vấn đề làm ảnh hưởng đến quan điểm tồn vấn đề nói chung Tồn nhiều quan điểm mâu thuẫn tài liệu: Trong tài liệu, cụ thể viết, bình luận chứa nhiều quan điểm trái ngược nhau, bao gồm tích cực lẫn tiêu cực Đây vấn đề gây khó khăn việc khai phá quan điểm 1.2.4 Các cấp độ liệu phân tích quan điểm 1.3 Tổng quan toán khai phá quan điểm liệu mạng xã hội Twitter 1.3.1 Giới thiệu mạng xã hội Twitter Mạng xã hội twitter đời vào ngày 21/3/2006 Jack Dorsey July, tính đến tháng năm 2016, Twitter có 1.3 tỉ người dùng, có 310 triệu người dùng tích cực tháng trung bình người dùng có 208 người theo dõi Trung bình có 500 triệu tweet tạo ngày Điều có nghĩa có 6000 tweet giây Có 80% người sử dụng truy cập qua điện thoại, có 65.8% cơng ty Mỹ với 100 người làm sử dụng Twitter để tiếp thị, quảng bá Từ số thông tin trên, ta nhận thấy Twitter mà kênh truyền tải thơng tin nhanh chóng, đa dạng, thể quan điểm người dùng nhiều khía cạnh khác sống 1.3.2 Phát biểu toán Bài toán khai phá quan điểm liệu mạng xã hội Twitter toán khai phá quan điểm với miền liệu phạm vi mạng xã hội Twitter Mỗi tweet phân loại vào hai loại tích cực tiêu cực 1.3.3 Ý nghĩa tốn Mạng xã hội Twitter ngày lớn mạnh, với đó, việc thể quan điểm mạng xã hội phổ biến Việc khai phá quan điểm mạng xã hội có nhiều ý nghĩa, giúp ta thấy quan điểm người vấn đề 1.3.4 Khó khăn thách thức Việc phân loại quan điểm với liệu Twitter gặp nhiều khó khăn thách thức Các tweet có đặc điểm riêng khác so với dạng văn truyền thống hay liệu forum, mạng xã hội khác Facebook Số ký tự tối đa nhỏ, từ viết tắt, từ lóng, từ sai tả, nữa, chất lượng độ tin cậy thấp Nhiều đặc điểm liệu Twitter làm giảm hiệu khai phá quan điểm dựa kỹ thuật xử lý ngôn ngữ tự nhiên truyền thống 1.4 Một số kỹ thuật khai phá quan điểm 1.4.1 Các phương pháp định 1.4.2 Phương pháp K-láng giềng gần (K-Nearest Neighbor) 1.4.3 Thuật toán SVM 1.4.4 Một số nghiên cứu liên quan Đã có nhiều cơng trình nghiên cứu tác giả [1, 4, 9, 10, 13] liên quan đến việc khai phá quan điểm từ nhiều nguồn liệu với phương pháp khác Sự phát triển nhanh chóng mạng xã hội Twitter, thu hồi quan điểm Twitter nhiều quan tâm tác giả [1, 3, 13] Bên cạnh luận văn tham khảo phương pháp khai phá quan điểm nhiều tác giả [2, 6, 8, 10] liệu khác để học hỏi nâng cao kết 1.5 Kết luận chƣơng Trong chương luận văn, giới thiệu xử lý ngôn ngữ tự nhiên, lĩnh vực quan trọng xử lý ngôn ngữ tự nhiên toán khai phá quan điểm Chương trình bày tổng quan mạng xã hội Twitter toán khai phá quan điểm mạng xã hội này, tầm quan trọng, ý nghĩa, khó khăn, thách thức tốn Ngồi ra, nội dung chương đề cập đến số kỹ thuật lĩnh vực khai phá liệu phương pháp định, phương pháp K-láng giềng gần nhất, thuật toán SVM đặc trưng liệu sử dụng Qua đó, đánh giá ưu điểm, nhược điểm phương pháp Ví dụ phương pháp K láng giềng gần phương pháp đơn giản lại hạn chế giới hạn phạm vi ứng dụng khơng rút quy luật mà nhìn vào hiểu Phương pháp định có điểm hạn chế sinh định tốn nhiều nhớ Trong trường hợp có hỗ trợ sử dụng nhớ ngồi lại có nhược điểm tốc độ thực thi Thuật toán SVM đánh giá tốt so với phương pháp khác việc phân lớp liệu Việc trích xuất đặc trưng giá trị, việc biểu diễn đặc trưng đóng vai trị quan trọng giải tốn Chính vậy, luận văn sử dụng thuật toán SVM kết hợp với biểu diễn đặc trưng N-gram, Log-count ratio CBS Nội dung chương sau vào tìm hiểu kỹ kỹ thuật lựa chọn 6 CHƢƠNG II PHƢƠNG PHÁP PHÂN LOẠI QUAN ĐIỂM TRÊN TWITTER SỬ DỤNG HỌC MÁY 2.1 Phƣơng pháp phân loại quan điểm Các toán phân lớp quan điểm thực theo hai giai đoạn giai đoạn huấn luyện giai đoạn phân lớp 2.1.1 Thu thập liệu 2.1.2 Tiền xử lý liệu 2.1.3 Trích chọn đặc trưng vector hóa liệu 2.1.4 Sử dụng thuật tốn huấn luyện tạo mơ hình phân lớp 2.2 Các phƣơng pháp trích chọn đặc trƣng 2.2.1 Đặc trưng N-gram Kỹ thuật N-gram chiếm ưu xử lý ngôn ngữ tự nhiên đại ứng dụng xử lý ngôn ngữ tự nhiên N-gram truyền thống chuỗi thành phần xuất văn Những yếu tố từ, ký tự, v.v văn Quy ước ký tự “N” N-gram tương ứng với số phần tử chuỗi Trong phạm vi luận văn này, sử dụng N-gram xét với mức thành phần từ 2.2.2 Đặc trưng CBS a) Ý tưởng Đặt quan tâm người dùng đến chủ đề P (tích cực) thiết lập tất chủ đề không liên quan khác nguồn truyền thông xã hội T (là hình thức liệu tiêu cực): Trong đó, n thường lớn Tuy nhiên, lực gán nhãn thủ cơng có giới hạn, ta gán nhãn số lượng định liệu Từ đó, liệu tiêu cực gán nhãn bao gồm số lượng nhỏ chủ đề không liên quan S T ( ) tiêu cực Hơn nữa, tính chất thay đổi thường xuyên truyền thông xã hội nên việc gán nhãn tất chủ đề tiêu cực Trong thử nghiệm, viết chủ đề tiêu cực khác T-S, phân loại chúng dự đốn trước Ví dụ, ứng dụng, liệu huấn luyện khơng có ví dụ tiêu cực thể thao Tuy nhiên, thử nghiệm, số viết thể thao xuất Các viết phân loại cách tùy tiện, kết độ xác phân loại thấp Phương pháp Độ tƣơng đồng dựa tâm – CBS nhằm mục đích giải vấn đề b) Phương pháp học CBS Bƣớc 1: Tính tốn C cho lớp tích cực Mỗi vector trung tâm biểu diễn tài liệu | | ∑ ‖ ‖ | | ∑ ‖ ‖ Trong đó: tập tài liệu lớp tích cực |.| kích thước hàm tham số Trong luận văn sử dụng Bƣớc 2: Tính tốn vector tương tự cbs-vd cho tài liệu không gian vector tài liệu dựa trung tâm C tương ứng tài liệu tích cực Sim tập độ đo tương tự c) Đặc trưng DS Để tính tốn đặc trưng cbs-feature cho tài liệu, cần phải có đặc trưng ds-feature tài liệu trung tâm lớp tích cực Trong phân loại tài liệu, sử dụng phổ biến đặc trưng ngram với trọng số tf-idf đặc trưng ds-feature cho tài liệu d) Đặc trưng CBS Bảng 2.5 Các độ đo tƣơng tự cho đặc trƣng CBS ∑ √∑ ∑ √∑ || √∑ || √∑ | ∑ | ∑ √∑ √∑ ∑ √∑ √∑ ∑ 2.2.3 Đặc trưng Log-count Ratio a) Ý tưởng Qua trình nghiên cứu, hai tác giả Sida Wang Christopher D Manning [9] rằng: - Sự bao gồm đặc trưng Bigram từ tăng thích hợp phân tích quan điểm - Đối với quan điểm trích đoạn ngắn, NB thực tế tốt SVM - Một cách đơn giản biến thể SVM sử dụng NB Log-count ratio giá trị đặc trưng hoạt động tốt với nhiệm vụ liệu khác Từ kết luận trên, thử nghiệm lựa chọn Log-count ratio đặc trưng sử dụng luận văn b) Phương pháp Theo Sida Wang Christopher D Manning [9], họ xây dựng biến thể mơ hình phân loại tuyến tính, dự đoán trường hợp kiểm thử k: | | Cho vector đếm cho tập huấn luyện i với nhãn tập đặc trưng, biểu diễn số lần xuất đặc trưng V trường hợp huấn luyện i ∑ Định nghĩa vector đếm ∑ với hệ số làm mịn Log-cout ratio là: ( || || ) || || 2.3 SVM – Support Vevtor Machine 2.3.1 Giới thiệu chung SVM sử dụng thuật toán học nhằm xây dựng siêu phẳng làm cực tiểu hoá độ phân lớp sai đối tượng liệu Độ phân lớp sai siêu phẳng đặc trưng khoảng cách bé tới siêu phẳng SVM có khả lớn cho ứng dụng thành cơng tốn phân lớp văn Phân lớp văn cách tiếp cận để tạo tập phân lớp văn từ mẫu cho trước Cách tiếp cận phối hợp với thực thi mức độ cao hiệu suất với am hiểu mặt lý thuyết, tính chất thơ ngày hồn thiện Thơng thường, hiệu mức độ cao khơng có thành phần suy nghiệm Phương pháp SVM có khả tính tốn sẵn sàng phân lớp, trở thành lý thuyết học mà dẫn ứng dụng thực tế toàn cầu Đặc trưng định khả phân lớp khả phân lớp liệu dựa vào tri thức tích luỹ q trình huấn luyện Sau trình huấn luyện hiệu suất tổng quát hố phân lớp cao thuật tốn huấn luyện đánh giá tốt 2.3.2 Thuật toán SVM Xét toán phân loại đơn giản – phân loại hai phân lớp với tập liệu mẫu: | Trong mẫu vector đối tượng phân loại thành mẫu dương mẫu âm: - Các mẫu dương mẫu thuộc lĩnh vực quan tâm gán nhãn 10 - Các mẫu âm mẫu thuộc lĩnh vực quan tâm gán nhãn Thực chất phương pháp toán tối ưu, mục tiêu tìm khơng gian H siêu mặt phẳng định h H cho sai số phân lớp thấp 2.3.3 Huấn luyện SVM Huấn luyện SVM việc giải tốn quy hoạch tồn phương SVM Các phương pháp số giải toán quy hoạch yêu cầu phải lưu trữ ma trận có kích thước bình phương số lượng mẫu huấn luyện 2.3.4 Các ưu điểm SVM phân lớp Phân lớp trình đưa tài liệu chưa biết chủ đề vào lớp chủ đề biết (tương ứng với chủ đề hay lĩnh vực khác nhau) Để thực trình phân lớp, phương pháp huấn luyện sử dụng để xây dựng tập phân lớp từ tài liệu mẫu, sau dùng tập phân lớp để dự đoán lớp tài liệu (chưa biết chủ đề) 2.3.5 Cách áp dụng thuật toán SVM vào toán phân lớp quan điểm Lựa chọn đặc trưng cho học máy SVM, sử dụng đặc trưng từ quan điểm, từ phủ định (no, not, n’t ), đặc trưng tweet (reply, retweets, hashtags, links, biểu tượng cảm xúc, ) đặc trưng lựa chọn khác luận văn Xây dựng phân lớp phân lớp phân cực gồm tích cực tiêu cực từ liệu học với đặc trưng dựa Sau xây dựng phân lớp, đưa liệu vào tiến hành gán nhãn tự động cho liệu 2.4 Kết luận chƣơng Chương giới thiệu hướng tiếp cận, cơng trình nghiên cứu, kỹ thuật liên quan để phục vụ giải toán Chương sâu áp dụng phương pháp học máy SVM phương pháp biểu diễn đặc trưng với N-gram, Log-count ratio 11 Độ tương đồng dựa tâm (CBS) toán khai phá quan điểm miền liệu Twitter Chương trình bày hệ thống khai phá quan điểm liệu mạng xã hội Twitter, mơ hình giải toán, tập liệu sử dụng, cách thức tiến hành thực nghiệm, kết thực nghiệm 12 CHƢƠNG III THỰC NGHIỆM HỆ THỐNG KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER 3.1 Dữ liệu thực nghiệm Luận văn sử dụng tập liệu cung cấp sẵn địa website http://sentiment140.com/for-students Bảng 3.1 Bảng số liệu liệu sử dụng Mô tả Số lượng Tweet Số lượng Tweet tiêu cực Số lượng Tweet tích cực Số lượng từ chưa tiền xử lý Số từ trung bình / câu chưa tiền xử lý Số lƣợng 20.000 câu 10.000 câu 10.000 câu 297.935 từ 14,89675 từ 3.2 Thiết lập thực nghiệm 3.2.1 Hướng tiếp cận thực nghiệm Sau trình nghiên cứu tìm hiểu phương pháp, luận văn đề xuất mơ hình giải tốn trình bày phần trước Để kiểm tra đánh giá hiệu mô hình đề xuất, chúng tơi tiến hành làm thực nghiệm 3.2.2 Phương pháp sử dụng đặc trưng thực nghiệm Luận văn sử dụng nhiều đặc trưng khác trình thực nghiệm Danh sách đặc trưng liệt kê đây: Bảng 3.2 Bảng đặc trƣng sử dụng Đặc trưng Mô tả Unigram Đặc trưng từ riêng lẻ câu Bigram Đặc trưng chuỗi chuỗi từ liên tiếp câu Trigram Đặc trưng chuỗi gồm từ liên tiếp câu Đặc trưng tweet Bao gồm đặc trưng Tag, Hashtag, Link Các đặc trưng biểu tượng cảm xúc: tích cực, tiêu cực, trung lập, tích cực mạnh, tiêu cực mạnh Đặc trưng chứa từ phủ định “no”, “not” Biểu tượng cảm xúc Từ phủ định Độ tương đồng dựa tâm Đặc trưng độ tương đồng dựa tâm (CBS) Đặc trưng Log-count ratio Đặc trưng theo Log-count ratio 13 3.2.3 Phương pháp đánh giá tập liệu a) Phương pháp K-fold Cross Validation Do tập liệu sử dụng bao gồm 20.000 câu, sử dụng phương pháp Kfold cross validation cho việc đánh giá tập liệu để tránh việc trùng lặp tập kiểm thử (một số ví dụ xuất tập kiểm thử khác nhau) K-fold cross validation có đặc điểm sau: - Tập tồn ví dụ D chia ngẫu nhiên thành k tập khơng giao (gọi “fold”) có kích thước xấp xỉ - Mỗi lần (trong số k lần) lặp, tập sử dụng làm tập kiểm thử, (k-1) tập lại dùng làm tập huấn luyện - k giá trị lỗi (mỗi giá trị tương ứng với fold) tính trung bình cộng để thu giá trị lỗi tổng thể b) Độ xác Precision, độ bao phủ Recall độ điều hịa F Để đánh giá xác chất lượng mơ hình ta sử dụng thêm độ đo Precision Recall Precision cho biết phân loại đốn xác phần trăm với nhãn phân loại (ví dụ phân loại kết luận phản hồi tích cực khả phản hồi thật tích cực chiếm phần trăm) Recall ngược lại, cho biết câu phản hồi tích cực, khả phân loại đoán phần trăm Thực tế hai độ đo khơng phải lúc tăng giảm tương ứng với nhau, có trường hợp Recall cao Precision thấp ngược lại, đánh giá tổng quát ta dùng độ đo F-measure trung bình điều hịa độ đo với hệ số 0.5 (tầm quan trọng hệ số ngang nhau): Precision hay cịn gọi Độ xác lớp Recall hay gọi Độ bao phủ lớp : : 14 Trung bình điều hịa F: 3.3 Cơng cụ thực nghiệm 3.3.1 Mơi trường thực nghiệm Bảng 3.5 Bảng cấu hình phần cứng Thành phần Chỉ số CPU Intel Core I5 2.6GHz RAM 4GB Bộ nhớ (HDD) SATA 500GB Hệ điều hành (OS) Windows 10 Professional 64bit 3.3.2 Công cụ phần mềm Tên công cụ Mô tả Visual Studio Enterprise 2015 IDE lập trình ngơn ngữ C# LibSVM Bộ phần mềm cho học máy phân loại thuật toán SVM Nguồn: http://www.csie.ntu.edu.tw/~cjlin/libsvm LibSVMsharp Thư viện hỗ trợ LibSVM Net Nguồn: https://github.com/ccerhan/LibSVMsharp Python Tạo môi trường thực thi cho LibSVM 3.3.3 Giới thiệu LibSVM 3.4 Kết thực nghiệm 3.4.1 Kết 15 Bảng 3.9 Bảng số kết thực nghiệm Acc (%) Negative Positive Pre Rec F Pre Rec F 1-gram 79.94 70.50 86.93 77.68 89.40 75.19 81.68 2-gram 79.49 70.75 85.76 77.54 88.25 75.11 81.15 3-gram 78.44 69.75 84.44 76.39 87.15 74.23 80.17 80.35 71.25 87.1 78.38 89.45 75.68 81.99 81.05 71.25 88.62 78.99 90.85 75.96 82.74 80.99 70.75 88.99 78.83 91.25 75.73 82.77 60.05 55.95 60.95 58.34 64.14 59.29 61.62 69.15 60.01 73.44 66.04 78.30 66.19 71.74 65.05 60.90 66.41 63.54 69.20 63.90 66.44 64.01 60.00 65.22 62.50 68.00 62.96 65.38 80.22 77.50 81.97 81.97 82.95 78.66 80.75 80.98 79.45 81.95 81.95 82.50 80.06 81.26 80.83 80.05 81.31 81.31 81.60 80.35 80.97 1-gram & LCR 2-gram & LCR 3-gram & LCR CBS 1-gram & CBS 2-gram & CBS 3-gram & CBS 1-gram & LCR & CBS 2-gram & LCR & CBS 3-gram & LCR & CBS 16 3.4.2 Đánh giá kết a) So sánh độ xác phương pháp trích chọn đặc trưng b) So sánh độ xác phân loại nhãn 3.5 Kết luận chƣơng Nội dung chương trình trình thực hệ thống khai phá quan điểm cho liệu Twitter Trên sở kết thực nghiệm chương luận văn đưa phân tích đánh giá phương pháp thực Các kết cho thấy việc sử dụng đặc trưng riêng rẽ mang lại hiệu độ xác khơng cao Khi tăng dần việc kết hợp đặc trưng, độ xác phân lớp cải thiện Điều chứng tỏ tầm quan trọng việc trích chọn đặc trưng sử dụng kết hợp đặc trưng toán phân lớp 17 KẾT LUẬN Trong thời đại nay, ứng dụng công nghệ thông tin vào sống áp dụng rộng rãi Đây thực công cụ hỗ trợ đắc lực giúp cho người giải nhiều vấn đề, nhiều toán cách nhanh chóng, xác hiệu cao Một ứng dụng giúp người khai phá quan điểm Với nguồn thông tin phong phú, cập nhật thường xuyên, gần tức thời quan điểm người dùng vấn đề xung quanh, mạng xã hội Twitter mở hội to lớn với người để khai thác thông tin quan điểm Xuất phát từ hội đó, kết hợp với q trình nghiên cứu, chúng tơi lựa chọn toán Khai phá quan điểm mạng xã hội Twitter để thực luận văn Nghiên cứu xử lý ngơn ngữ tự nhiên nói chung, tốn khai phá quan điểm nói riêng với công nghệ mới, thời gian nghiên cứu ngắn nên nhiều vấn đề chưa thực nắm bắt tốt Tuy nhiên qua trình nghiên cứu luận văn, thu số kết nhận thấy số hạn chế sau: Kết đạt đƣợc Về mặt lý thuyết: - Tìm hiểu mạng xã hội Twitter, đặc điểm liệu mạng xã hội Twitter - Nghiên cứu toán khai phá quan điểm mạng xã hội Twitter, vai trò, ý nghĩa khó khăc thách thức - Trình bày hướng tiếp cận, phương pháp giải quyết, kỹ thuật liên quan Đi sâu vào phương pháp học máy SVM, cách biểu diễn đặc trưng Ngram, Độ tương đồng dựa tâm Log-count ratio Về thực nghiệm: - Đề xuất mơ hình giải tốn khai phá quan điểm mạng xã hội Twitter - Tiến hành cài đặt thực nghiệm - Đưa phân tích, đánh giá kết thực nghiệm Hạn chế 18 Do hạn chế mặt thời gian kiến thức nên luận văn tồn số điểm hạn chế - Dữ liệu sử dụng chưa đủ lớn, thực nghiệm thực 20.000 tweet Con số nhỏ so với lượng tweet thực tế - Bài toán dừng lại mức tổng quát, đánh giá quan điểm tweet, chưa áp dụng vào lĩnh vực hay toán cụ thể Hƣớng phát triển Trong thời gian tới, tiếp tục nghiên cứu phương pháp khác để nâng cao chất lượng kết phân lớp quan điểm Cùng với đó, xây dựng ứng dụng thực tế với toán lĩnh vực cụ thể Ngoài ra, cần nâng cao tốc độ xử lý, hoàn thiện hệ thống 19 TÀI LIỆU THAM KHẢO [1] Agarwal, Apoorv and Xie, Boyi and Vovsha, Ilia and Rambow, Owen and Passonneau, Rebecca (2011), Sentiment Analysis of Twitter Columbia University New York, NY 10027 USA [2] Bing Liu (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers [3] Barbosa, Luciano and Junlan Feng, Robust, (2010), Sentiment detection on twitter from biased and noisy data, Proceedings of the International Conference on Computational Linguistics (COLING-2010) [4] Davidov, Dmitry and Tsur, Oren and Rappoport, Ari (2010) Enhanced sentiment learning using Twitter hashtags and smileys, in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, 241-249 [5] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching, Pattern Recognition and Image Analysis, 638-646 [6] Geli Fei and Bing Liu, (2008) Social Media Text Classification under Negative Covariate Shift, Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2347–2356 [7] Reinhard Kneser and Hermann Ney (1995) Improved backing-off for n-gram language modelling, Proceedings of the IEEE Conference on Acoustics, Speech and Signal Processing, 181-184 [8] SamuelBrody,NicholasDiakopoulos(2011),Cooooooooooooooollllllllllllll!!!!!!!!!! !!!! Using Word Lengthening to Detect Sentiment in Microblogs, 562-570 [9] Shengli Wu, (2011) Fusing Blog Opinion Retrieval Results for Better Effectiveness, Database and Expert Systems Applications (DEXA), 195-199 [10 Sida Wang and Christopher D Manning, (2012) Baselines and Bigrams: Simple, ] Good Sentiment and Topic Classification, Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 90-94 [11 T Joachims (1999) Transductive Inference for Text Classification using Support 20 ] Vector Machines International Conference on Machine Learning (ICML), 1999 ... khăn việc khai phá quan điểm 1.2.4 Các cấp độ liệu phân tích quan điểm 1.3 Tổng quan tốn khai phá quan điểm liệu mạng xã hội Twitter 1.3.1 Giới thiệu mạng xã hội Twitter Mạng xã hội twitter đời... Nhiều đặc điểm liệu Twitter làm giảm hiệu khai phá quan điểm dựa kỹ thuật xử lý ngôn ngữ tự nhiên truyền thống 1.4 Một số kỹ thuật khai phá quan điểm 1.4.1 Các phương pháp định 1.4.2 Phương pháp K-láng... hiểu lầm quan điểm Quan điểm phận vấn đề làm ảnh hưởng đến quan điểm toàn vấn đề nói chung Tồn nhiều quan điểm mâu thuẫn tài liệu: Trong tài liệu, cụ thể viết, bình luận chứa nhiều quan điểm trái

Định dạng
Số trang	22
Dung lượng	529,17 KB