Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
6,29 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THANH HẢI RÚT TRÍCH CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI VỀ MỘT SỐ NHÂN VẬT NỔI TIẾNG ĐỂ PHÂN TÍCH, ĐÁNH GIÁ CẢM XÚC CỦA NGƯỜI DÙNG VỀ HỌ Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: TS TRƯƠNG NGỌC CHÂU Đà Nẵng - Năm 2018 LỜI CAM ĐOAN Tôi xin cam đoan: - Những nội dung luận văn thực hướng dẫn Ts Trương Ngọc Châu - Mọi tham khảo dùng luận văn trích dẫn rõ ràng, trung thực tên tác giả, tên công trình, thời gian địa điểm cơng bố - Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Nguyễn Thanh Hải MỤC LỤC TRANG BÌA LỜI CAM ĐOAN MỤC LỤC TRANG TOM TẮT LUẬN VĂN DANH MỤC CAC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Tính cấp thiết đề tài, ý nghĩa thực tiễn: Mục tiêu nghiên cứu: Đối tượng phạm vi nghiên cứu: Phương pháp nghiên cứu đề tài: Ý nghĩa khoa học thực tiễn: Dự kiến kết đạt CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Khái niệm 1.1.2 Các bước trình khai phá liệu 1.1.3 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu 1.1.4 Ứng dụng khai phá liệu 1.2 Khai phá liệu Web 1.2.1 Khai phá liệu web 1.2.2 Lợi ích khai phá liệu web 1.2.3 Khó khăn 10 1.2.4 Thuận lợi 12 1.2.5 Các kiểu liệu web 13 1.3 Các thách thức khai phá liệu 13 1.3.1 Các vấn đề Cơ sở liệu 13 1.3.2 Một số vấn đề khác 15 1.4 Các phương pháp tách từ 16 1.4.1 Phương pháp Maximum Matching 16 1.4.2 Phương pháp giải thuật học cải biến (Transformation-based Learning TBL) 17 1.4.3 Mơ hình tách từ WFST mạng Neural 17 1.4.4 Phương pháp Quy hoạch động : sử dụng tập ngữ liệu thô để lấy thông tin tần số thống kê từ, làm tăng độ tin cậy cho việc tính tốn 18 1.5 Các cơng trình khai phá xử lý liệu phát triển 18 1.6 Kết luận Chương 19 CHƯƠNG 2: PHƯƠNG PHÁP RÚT TRÍCH DỮ LIỆU TỪ MẠNG XÃ HỘI VÀ PHÂN LỚP DỮ LIỆU 20 2.1 Giới thiệu toán 20 2.2 Mạng xã hội 20 2.2.1 Giới thiệu 20 2.2.2 Các mạng xã hội phổ biến 21 2.2.3 Mạng xã hội Twitter 23 2.3 Phương pháp rút trích liệu từ mạng xã hội Twitter 26 2.3.1 Twitter REST API 26 2.3.2 Các phương thức REST API v1.1 26 2.4 Lựa chọn giải pháp phân lớp liệu 31 2.4.1 Support Vector Machine (SVM) 31 2.4.2 Phương pháp K-Neaest Neighbor (KNN) 32 2.4.3 Phân loại Naïve Bayse (NB) 33 2.4.4 Centroid- based vector 35 2.4.5 Linear Least Square Fit (LLSF) 35 2.5 Kết luận Chương 36 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Hướng tiếp cận thực nghiệm 38 3.2 Tiến hành thực nghiệm 39 3.2.1 Môi trường thực nghiệm 39 3.2.2 Bài toán 39 3.2.3 Cài đặt thành phần cần thiết: 40 3.2.4 Tiến hành bước thực nghiệm 40 3.3 Đánh giá kết 51 3.4 Kết luận Chương 51 KẾT LUẬN 52 DANH MỤC TÀI LIỆU THAM KHẢO 53 QU ẾT Đ NH GIAO ĐỀ TÀI LUẬN VĂN THẠC S (BẢN SAO) BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN TRANG TÓM TẮT TIẾNG ANH RÚT TRÍCH CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI VỀ MỘT SỐ NHÂN VẬT NỔI TIẾNG ĐỂ PHÂN TÍCH, ĐÁNH GIÁ CẢM XÚC CỦA NGƯỜI DÙNG VỀ HỌ Học viên: Nguyễn Thanh Hải Chuyên ngành: Khoa học máy tính Mã số: 8480101 Khóa: 34.KMT.QB Trường Đại học Bách khoa - ĐHĐN Tóm tắt Luận văn thu số kết định khái quát kiến thức khai phá liệu, khai phá liệu WEB, đưa nhìn tổng quan mạng xã hội, mạng xã hội phổ biến đặc biệt mạng xã hội Twitter, trình bày phương pháp rút trích liệu từ mạng xã hội Twitter giải pháp phân lớp liệu Viết ứng dụng Demo để lấy 200 tweet từ mạng xã hội Twitter với từ khóa Tổng thống Mỹ Donal Trump để phân tích, đánh giá cảm xúc người đăng tweet người dùng mạng xã hội nhân vật cụ thể Donal Trump Nghiên cứu nâng cao hiệu quả, tính xác q trình rút trích thơng tin, đánh giá kết Lấy thông tin từ đa người dùng mạng xã hội không hạn chế cá nhân cụ thể từ đánh giá quan điểm người dùng mạng xã hội cách xác Từ khóa: Tổng thống Mỹ Donal Trump để phân tích, đánh giá cảm xúc người đăng tweet EXTRACTING COMMENTS ON SOCIAL MEDIA ABOUT A NUMBER OF CELEBRITIES TO ANALYZE AND ASSESS USER FEELINGS ABOUT THEM Abstract - The thesis has obtained some certain results and generalized the basic knowledge of data mining, data mining on the WEB platform, giving an overview of social networks, universal social networks The current variable, especially Twitter, presents data extraction methods from Twitter and data classification solutions Write a Demo application to get 200 tweets from the Twitter social network with the keyword US President Donal Trump to analyze and assess the emotions of tweeters or social network users about a specific character, Donal Trump Research to improve efficiency, accuracy of information extraction process, evaluate results Get information from multi-users of social networks, not restricting a specific individual from which to assess the views of social network users more accurately Key words: President Donal Trump to analyze and assess the emotions of tweeters DANH MỤC CÁC TỪ VIẾT TẮT KDD Knowleadge Discovery in Database CSDL Cơ sở liệu KPDL Khai phá liệu SVM Support Vector Machine NB Naïve Bayse KNN K-nearest neighbors DANH MỤC CÁC HÌNH Hình 1.1: Các bước Datamining KDD Hình 1.2: Các bước khai phá liệu Hình 1.3: Phân loại liệu web 13 Hình 2.1: Siêu mặt phẳng h phân chia liệu huấn huyện thành lớp + – với khoảng cách biên lớn Các điểm gần h vector hỗ trợ, Support Vector (được khoanh tròn) 31 Hình 3.1: Tạo app để truy xuất liệu từ mạng xã hội Twitter 41 Hình 3.2: Twitter App tạo xong 41 Hình 3.3: Các key cần thiết 42 Hình 3.4: Hiển thị chiều dài tweet theo thời gian 47 Hình 3.5: Hiển thị số lượt like số lần retweet theo thời gian 48 Hình 3.6: Hiển thị nguồn gốc thiết bị dùng để đăng tweet 48 MỞ ĐẦU Tính cấp thiết đề tài, ý nghĩa thực tiễn: Sự phát triển khoa học cơng nghệ đem đến cho xã hội lồi người thay đổi vượt bậc Mỗi đột phá lĩnh vực công nghệ lại tạo tiền đề phát triển loại hình truyền thơng Cơng nghệ dẫn đến phong cách kiểu mẫu truyền thông Trong Internet có thời đại phát triển bùng nổ, hình thức truyền thơng ngày thu hút đông đảo người xem Những người dùng Internet - đặc biệt giới trẻ, bắt đầu tìm kiếm nơi thỏa mãn nhu cầu thơng tin, giải trí, kết nối… mạng xã hội đời, đáp ứng cách gần hoàn hảo nhu cầu Hiện giới có hàng trăm mạng xã hội khác Facebook, outube, Twitter, MySpace… Mỗi mạng xã hội có thành công định dựa phù hợp với yếu tố địa lý, văn hóa… Twitter Facebook tiếng thị trường Bắc Mỹ Tây Âu; Orkut Hi5 Nam Mỹ; Friendster Châu Á đảo quốc Thái Bình Dương Trong thời đại gọi “Thế giới phẳng”, khơng phủ nhận lợi ích từ mạng xã hội, đặc biệt giới trẻ Lượng thông tin chia sẻ thông qua mạng xã hội lớn vô phong phú, đa dạng dẫn đến số lượng người sử dụng mạng xã hội ngày đơng đảo Vì mà ảnh hưởng mạng xã hội đến việc truyền tải, tiếp nhận thông tin ngày lớn Việc sở hữu 01 tài khoản mạng xã hội ngày trở thành thứ thiếu với nhiều người Sự bùng nổ, phát triển công nghệ thông tin mạng xã hội đem tới cho người sử dụng lượng liệu khổng lồ thơng tin mà có, cần thật Các cơng cụ kỹ thuật phân tích liệu truyền thống cho việc trích lọc thơng tin hữu ích cho q trình nghiên cứu, khảo sát nắm bắt thơng tin, kinh doanh, … khơng hiệu cho tập liệu lớn đa dạng mặt cấu trúc Khai phá liệu (data mining) lĩnh vực nghiên cứu trình phân tích liệu từ kho liệu Một nội dung khai phá liệu phổ biến khai phá liệu web Kỹ thuật khai phá liệu cho phép trích xuất tri thức từ sở liệu khổng lồ, phương pháp cho phép trích xuất nhiều thơng tin hữu ích đối tượng cụ thể, cá nhân tiếng như: trị gia, ca sỹ,… Việc nắm bắt thông tin hữu ích từ mạng xã hội, có nhận xét tích cực lẫn tiêu cực cá nhân “người tiếng” giúp tổ chức (chính phủ phi phủ), cơng ty quản lý (đối với ca sỹ, )……có thể thăm dị đánh giá, phản ứng dư luận cá nhân chịu quản lý Trên sở đó, tơi chọn đề tài “Rút trích bình luận mạng xã hội số nhân vật tiếng để phân tích, đánh giá cảm xúc người dùng họ” để làm luận văn tốt nghiệp Luận văn minh họa cách làm để khai phá liệu người dùng mạng xã hội, làm để trích xuất giá trị từ mạng xã hội Nghiên cứu giải thích chi tiết kịch bản, cách thức sử dụng API mạng xã hội để phân tích liệu lớn Mục tiêu nghiên cứu: Trên sở lý thuyết xử lý ngôn ngữ tự nhiên, phân tích từ vựng đoạn văn bản, bước đầu xây dựng ứng dụng demo phân tích ý kiến đánh giá từ đoạn văn Dữ liệu đầu vào chương trình khai thác từ trang mạng xã hội Facebook, Twitter Đối tượng phạm vi nghiên cứu: - Đối tượng nghiên cứu: Người dùng có tài khoản tương tác mạng xã hội Twitter - Phạm vi nghiên cứu: Mạng xã hội Twitter, ngôn ngữ sử dụng tiếng Anh Phương pháp nghiên cứu đề tài: - Tìm hiểu phương pháp khai thác liệu từ mạng xã hội - Tìm hiểu phương pháp phân lớp liệu phân loại văn bản: học máy, SVM (support vector machine), KNN (K-Neaset Neighbor), - Tiến hành phân tích xây dựng ứng dựng mô cho lý thuyết nghiên cứu - Phân tích văn khai thác từ mạng xã hội để xem văn mang ý nghĩa tích cực hay tiêu cực 51 - Tính tốn kết quả: đếm số lượng tweet tích cực, tiêu cực, trung lập hiển thị tỉ lệ % Kết quả: - Số Tweet tích cực: 51% - Số Tweet trung lập: 27% - Số Tweet tiêu cực: 22% 3.3 Đánh giá kết Do lượng liệu chương trình nhỏ, tác giả lấy 200 tweet gần với @screen_name = realDonalTrump Để có kết xác cần làm việc với liệu lớn Kết hệ thống suy luận dự đoán tốc độ hiệu suất xử lý hệ thống chưa thể kiểm định hoàn toàn Tuy nhiên, kết chương trình Demo giải yêu cầu tốn đặt lấy liệu tweet từ mạng xã hội Twitter phân tích, đánh giá cảm xúc người đăng tweet người dùng mạng xã hội cá nhân cụ thể 3.4 Kết luận Chương Trên sở tìm hiểu mạng xã hội Twitter, phương pháp rút trích thơng tin từ mạng xã hội giải thuật phân lớp liệu đánh giá liệu thu đề xuất, viết chương trình demo nhằm đánh giá quan điểm mạng xã hội Twitter 52 KẾT LUẬN Kết đạt Luận văn thu số kết định sau: - Khái quát kiến thức khai phá liệu, khai phá liệu WEB - Đưa nhìn tổng quan mạng xã hội, mạng xã hội phổ biến đặc biệt mạng xã hội Twitter - Trình bày phương pháp rút trích liệu từ mạng xã hội Twitter giải pháp phân lớp liệu - Viết ứng dụng Demo để lấy 200 tweet từ mạng xã hội Twitter với từ khóa Tổng thống Mỹ Donal Trump để phân tích, đánh giá cảm xúc người đăng tweet người dùng mạng xã hội nhân vật cụ thể Donal Trump Hướng phát triển đề tài Trên sở kết nghiên cứu trình bày luận văn, tơi thấy cịn số vấn đề cần tiếp tục nghiên cứu để có kết tốt hơn, cụ thể: - Nghiên cứu nâng cao hiệu quả, tính xác q trình rút trích thơng tin, đánh giá kết - Lấy thông tin từ đa người dùng mạng xã hội không hạn chế cá nhân cụ thể từ đánh giá quan điểm người dùng mạng xã hội cách xác 53 DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt [1] Trình Quốc Sơn, “Phân loại văn bản”, khóa luận mơn Datamining [2] Trần Ngọc Phúc (2012), “Phân loại nội dung tài liệu Web”, Luận văn tốt nghiệp đại học, Trường Đại học Lạc Hồng [3] Mai Xuân Thanh (2016), “Nghiên cứu số thuật toán rút trích từ khóa văn Tiếng Việt”, Luận văn Cao học, Trường Đại học Duy Tân [4] Nguyễn Trần Thiên Thanh - Trần Khải Hồng (2005), “Tìm hiểu hướng tiếp cận toán phân loại văn xây dựng phần mềm phân loại tin tức báo điện tử”, Khóa luận Cử nhân tin học, Trường Đại học Khoa học tự nhiên TP.HCM [4] Võ Tuyết Ngân - Đỗ Thanh Nghị (2005), “Phân loại ý kiến Twitter”, Tạp chí Khoa học Trường Đại học Cần Thơ Tài liệu Tiếng Anh [5] Twitter’s API - HowStuffWWorks “HowStuffWorks N.p Web [7] Bing Liu, Web mining, Springer, 2007 [8] Brij M Masand, Myra Spiliopoulou, Jaideep Srivastava, Osmar R Zaiane, Web Mining for Usage Patterns & Profiles, ACM, 2002 [9] Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois at Urbana-Champaign, 1999 [10] Maria Rigou, Spiros Sirmakessis, and Giannis Tzimas, A Method for Personalized Clustering in Data Intensive Web Applications, 2006