Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
309,71 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN QUANG THỊNH PHÂN LOẠI QUAN ĐIỂM CỘNG ĐỒNG ĐƯỢC PHÁT HIỆN TRÊN MẠNG XÃ HỘI SỬ DỤNG THUẬT TOÁN CONGA VÀ SVM LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội – 2015 i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN QUANG THỊNH PHÂN LOẠI QUAN ĐIỂM CỘNG ĐỒNG ĐƯỢC PHÁT HIỆN TRÊN MẠNG XÃ HỘI SỬ DỤNG THUẬT TOÁN CONGA VÀ SVM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.ĐẶNG THANH HẢI Hà Nội – 2015 ii LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc tới thầy Đặng Thanh Hải, ngƣời trực tiếp hƣớng dẫn em hoàn thành tốt luận văn tốt nghiệp Em xin cảm ơn thầy Hà Quang Thụy, ngƣời tạo điều kiện cho em thực tốt luận văn trình bày seminar Phòng Thí nghiệm KTLab, nhƣ tận tình đóng góp ý kiến quý báu suốt trình em làm luận văn Tiếp theo em xin gửi lời cảm ơn đến đến thầy cô giáo trƣờng Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội, tận tâm truyền đạt kiến thức, kinh nghiệm trình em học tập cao học Sau cùng, em xin đƣợc cảm ơn vợ, cha mẹ, bạn bè ngƣời thân, ngƣời bên em, khuyến khích động viên em trình viết hoàn thiện luận văn Học viên Trần Quang Thịnh iii LỜI CAM ĐOAN Tôi xin cam đoan mô hình phát cộng đồng quan điểm cộng đồng mạng xã hội thực nghiệm dựa thuật toán Conga (thuộc họ thuật toán Girvan-Newman), bao gồm thuật toán CONGA, CONGO, Peacock, COPRA, thuật toán học máy SVM đƣợc trình bày luận văn thực dƣới hƣớng dẫn TS Đặng Thanh Hải PGS TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng, tƣờng minh từ danh mục tài liệu tham khảo luận văn Trong luận văn, việc chép tài liệu, công trình nghiên cứu ngƣời khác mà không rõ nguồn tài liệu tham khảo Hà Nội, ngày … tháng … năm 2015 Học viên Trần Quang Thịnh iv DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu, từ viết tắt Diễn giải GN Girvan-Newman CONGA Cluster Overlap Newman-Girvan Algorithm CONGO CONGA Optimized PEACOCK Transformation algorithm COPRA Community Overlap PRopagation Algorithm SVM Support vector machine MXH Mạng xã hội LPA Label Propagation Algorithm FNCA Fast Complex Network Clustering Algorithm Using Local Detection RAK Thuật toán Raghavan cộng (The algorithm is based on the label propagation technique of Raghavan, Albert and Kumara, but is able to detect communities that overlap) v DANH SÁCH BẢNG BIỂU Bảng 2.1 Ví dụ bảng đặc trƣng 56 Bảng 3.1 Ví dụ lựa chọn đặc trƣng 72 Bảng 3.2 Bảng phân tích độ đo 74 Bảng 4.1 Kết tìm kiếm cộng đồng 82 Bảng 4.2 Phân tích kết 82 Bảng 4.3 Kết Copra 83 Bảng 4.4 Kết chung 83 vi DANH SÁCH HÌNH VẼ Hình 1.1 Mạng trao đổi email 436 nhân viên HP Research Lab Hình 1.2 Cộng đồng mạng xã hội đơn giản với cộng đồng 11 Hình 1.3 Phƣơng pháp phân vùng đồ thị 12 Hình 1.4 Ví dụ cho thấy cộng đồng trải phe nhóm liền kề Các đỉnh chồng chéo đƣợc chấm lớn 14 Hình 1.5 mạng lƣới thành viên câu lạc Karate (Zachary, 1977) 15 Hình 1.6: Mô hình mạng lƣới cộng tác nhà khoa học làm việc SFI 15 Hình 1.7: Mạng biểu diễn loài cá heo sống Doubtful Sound, New Zealand 16 Hình 1.8: Lƣợc đồ chung xây dựng phân lớp văn 21 Hình 1.9 Siêu phẳng h phân chia liệu huấn luyện thành lớp 23 Hình 2.1: Ví dụ phép phân chia đỉnh đồ thị 28 Hình 2.2: Tìm phép phân chia tối ƣu 29 Hình 2.3 Mô hình thuật toán Peacock 31 Hình 2.4 Ví dụ phân chia đỉnh 32 Hình 2.5 Ví dụ cập nhật nhãn đỉnh 35 Hình 2.6a Thuật toán COPRA 37 Hình 2.6b Thuật toán COPRA 39 Hình 2.7 Siêu phẳng phân tách hai lớp với lề cực đại số trƣờng hợp khác 45 Hình 2.8: Quy chiếu (mapping) không tuyến tính từ không gian mẫu tới không gian đặc trƣng 47 Hình 2.9 SVM nhị phân mềm 48 Hình 2.10 Phân nhãn đa lớp 50 Hình 2.11 Ví dụ Transductive SVM 55 Hình 2.12: Thuật toán cho đào tạo Transductive Support Vector Machines 57 Hình 3.1 Ví dụ trao đổi thông tin đề tài (topic) diễn đàn 66 Hình 3.2 Các bƣớc xử lý liệu bình luận để đƣa tập kết 67 vii Hình 3.3 Hai ngƣời sử dụng comment vào chủ đề (topic) 69 viii MỞ ĐẦU Error! Bookmark not defined Chƣơng GIỚI THIỆU TỔNG QUAN MẠNG XÃ HỘI, PHÁT HIỆN VÀ ĐÁNH GIÁ QUAN ĐIỂM CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI Error! Bookmark not defined 1.1 Giới thiệu khái quát mạng xã hội Error! Bookmark not defined 1.2 Bài toán phát cộng đồng mạng xã hội Error! Bookmark not defined 1.2.1.Cộng đồng mạng xã hội Error! Bookmark not defined 1.2.2.Phát cộng đồng mạng xã hội Error! Bookmark not defined 1.3 Bài toán khai phá quan điểm ngƣời sử dụng mạng xã hội.Error! Bookmark not defined 1.3.1 Giới thiệu toán Error! Bookmark not defined 1.3.2 Phân loại quan điểm Error! Bookmark not defined CHƢƠNG THUẬT TOÁN TÌM KIẾM CỘNG ĐỒNG VÀ KHAI PHÁ QUAN ĐIỂM CỘNG ĐỒNG Error! Bookmark not defined 2.1 Họ thuật toán Girvan-Newman Error! Bookmark not defined 2.1.1 Thuật toán Girvan-Newman nguyên thủy Error! Bookmark not defined 2.1.2 Họ thuật toán Girvan-Newman Error! Bookmark not defined 2.1.3 Thuật toán CONGA Error! Bookmark not defined 2.1.4 Thuật toán Peacock Error! Bookmark not defined 2.1.5 Thuật toán COPRA Error! Bookmark not defined 2.2 Thuật toán phân lớp SVM Error! Bookmark not defined 2.2.1 Một số thuật toán phân lớp phổ biến Error! Bookmark not defined 2.2.2 Thuật toán học máy phân lớp SVM – Support Vector MachineError! Bookmark not defined SVM tuyến tính (cơ bản) Error! Bookmark not defined Huấn luyện SVM Error! Bookmark not defined 2.2.4 Các ƣu SVM phân lớp văn Error! Bookmark not defined 2.2.5 Một số thuật toán SVM tiên tiến Error! Bookmark not defined CHƢƠNG TRIỂN KHAI MÔ HÌNH ĐÁNH GIÁ QUAN ĐIỂM CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI LAMCHAME Error! Bookmark not defined 3.1 Mô hình đánh giá quan điểm cộng đồng Diễn đàn LamchameError! Bookmark not defined 3.2 Phát hiên cộng đồng mạng xã hội làm cha mẹError! Bookmark not defined ix 3.3 Khai phá quan điểm cộng đồng mạng xã hội làm cha mẹError! Bookmark not defined 3.3.1 Biểu diễn quan điểm Error! Bookmark not defined 3.3.2 Triển khai mạng xã hội làm cha mẹ Error! Bookmark not defined CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ Error! Bookmark not defined 4.1 Mô tả thực nghiệm Error! Bookmark not defined 4.1.1 Mô tả liệu Error! Bookmark not defined 4.1.2 Môi trƣờng thực nghiệm Error! Bookmark not defined 4.1.3 Các công cụ phầm mềm sử dụng Error! Bookmark not defined 4.2 Thực nghiệm đánh giá Error! Bookmark not defined 4.2.1 Thực nghiệm Error! Bookmark not defined 4.2.2 Đánh giá Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined x TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu, NXBGD, 2009 Tài liệu tiếng Anh: [2] M Girvan, M E J Newman (2002) Community structure in social and biological networks, Proc Natl Acad Sci., 99(12), 7821 (2002) [3] Steve Gregory: An Algorithm to Find Overlapping Community Structure in Networks PKDD 2007 [4] Santo Fortunato (2010), Community detection in graphs, Technical Report, Complex Networks and Systems Lagrange Laboratory, ISI Foundation, Torino, ITALY, arXiv:0906.0612v2 (2010) [5] T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 [6] T Joachims (2003) Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297 [7] V Sindhwani, S S Keerthi (2006) Large Scale Semi-supervised Linear SVMs SIGIR 2006 [8] V Sindhwani, S.S Keerthi (2007) Newton Methods for Fast Solution of Semisupervised Linear SVMs Large Scale Kernel Machines, MIT Press, 2005 [9] Hu, M and Liu, B (2006) Opinion extraction and summarization on the Web, Proceedings of the 21th National Conference on Artificial Intelligence (AAAI), 2006 [10] Bermingham, Adam and Smeaton, Alan F (2010) Classifying sentiment in microblogs: is brevity an advantage? International Conference on Information and Knowledge Management (CIKM 2010 - 19th) [11] M.E.J Newman and M Girvan (2003) Finding and evaluating community structure in networks Preprint cond-mat/0308217 [12] Jiyang Chen (2010) Community Mining - Discovering Communities in Social Networks Thesis, University of Alberta [13] David Easley and Jon Kleinberg (2010) Networks, Crowds, and Markets: Reasoning about a Highly Book of Cambridge University Press [14] What Types of Social Networks Exist? (Lovetoknow.com, by Mary Gormandy White, M.A., SPHR - Social Media Trainer & Consultant) 11 [15] Li-ping Jing, Hou-Kuan Huang, Hong-Bo Shi (2002) Improved feature selection approach TFTDF in text mining, Proceedings of the First International Conference on Machine Learning and Cybernetics, Beijing, 4-5 November 2002 [16] J Leskovec, D Huttenlocher, J Kleinberg, “Predicting Positive and Negative Links in Online Social Networks”, In Proceedings of WWW’2010, ACM Press, New York, 2010 [17] Matthew A Russell (2011) Mining the social web [18] Kristin P Bennett, Ayhan Demiriz (1998) Semi-Supervised Support Vector Machines NIPS 1998: 368-374 [19] Xiaojin Zhu (2005) Semi-Supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005 [20] Xiaojin Zhu (2006) Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, 2006 [21] Hu X.H and Cercone N (1995), “Learning in relational databases: a rough set approach”, International Journal of computational intelligence, pp 323-338 [22] Alan E Mislove (2009), Online Social Networks: Measurement, Analysis, and Applications to Distributed Information Systems, Thesis, RICE university [23] Chun Nam Yu (2011), Improved learning of structural support vector machines: training with latent variables and nonlinear kernels, Ph.D., Cornell University [24] Corinna Cortes, Vladimir Vapnik, “Support-Vector Networks, Machine Learning”, AT&T Bell Labs,Holmdel, NJ 07733, USA, 1995 [25] L H Phuong, N T.M Huyen, R Azim, H T Vinh A hybrid approach to word segmentation of Vietnamese texts Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196, Tarragona, Spain, 2008 [26] Steve Gregory: Finding Overlapping Communities Using Disjoint Community Detection Algorithms PKDD 2009 [27] Steve Gregory: A fast algorithm to find overlapping communities in networks PKDD 2008 [28] Pierre Baldi, Paolo Fransconi, Padhraic Smyth Modeling the Internet and the Web, Probabilistic Methods and Algorithms 2003 [29 ] G Fung and O L Mangasarian, Proximal support vector machine classifiers In Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 77–86, 2001 [30] Raghavan U N, Albert R and Kumara S, Near linear time algorithm to detect community structures in large-scale networks, Physical Review E, page 76, 2007 12 [31] Leung I X Y, Hui P, Liò P and Crowcroft J, Towards real-time community detection in large networks, Physical Review E, page 79, 2009 Tham khảo web [32] http://people.cs.uchicago.edu/~vikass/svmlin.html [33] Website: http://vdict.com 13 [...]...TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá dữ liệu, NXBGD, 2009 Tài liệu tiếng Anh: [2] M Girvan, M E J Newman (2002) Community structure