Tính hạng đối tượng trong mạng xã hội Twitter Nguyễn Thị Ngọc Lan Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội Luận văn ThS. Công nghệ thông tin: 60 18 05 Người hướng dẫn : PGS.TS. Hà Quang Thụy Năm bảo vệ: 2013 50 tr . Abstract. Phát biểu và nêu lên ý nghĩa bài toán tính hạng đối tượng trên mạng xã hội Twitter. Phân tích các nghiên cứu liên quan và hướng tiếp cận giải quyết bài toán này. Trình bày hai phương pháp giải quyết bài toán: tính hạng tweet bằng phương pháp xét độ tin cậy và độ liên quan và phương pháp tính hạng tweet dựa trên mạng không đồng nhất. Đề xuất mô hình thực nghiệm xếp hạng các Tweet dựa trên phương pháp sử dụng mạng không đồng nhất. Kết quả cho thấy hệ thống hoạt động và chứng tỏ tính hiệu quả của phương pháp Keywords. Hệ thống thông tin; Mạng xã hội; Khai phá dữ liệu; Tính hạng đối tượng Content. Tính hạng đối tượng là một trong một số các bài toán quan trọng điển hình trong các hệ thống ứng dụng trên Internet, đặc biệt trong các hệ thống tìm kiếm, từ tính hạng trang Web trong tìm kiếm web đến tính hạng thực thể trong tìm kiếm thực thể, tính hạng ảnh trong tìm kiếm ảnh Một số thuật toán xếp hạng trang web đã trở nên rất nổi tiếng như PageRank [23], HITS [17] Tính hạng trang đã và đang là nội dung nghiên cứu và triển khai thời sự. Chẳng hạn, theo Google Scholar, có khoảng 1100 bài báo có chứa cụm "PageRank" ở tiêu đề, trong đó có trên 230 bài báo công bố sau năm năm 2009. Trong một vài năm gần đây, khai phá dữ liệu mạng xã hội trực tuyến đã trở thành một chủ đề khoa học và công nghệ nổi bật [15, 14, 16] bởi mạng xã hội trực tuyến là nguồn tài nguyên dữ liệu do người sử dụng sinh ra (GUC), phản ánh ngày càng phong phú đời sống xã hội và tinh thần trong xã hội loài người. Mạng xã hội trực tuyến Twitter cho thấy khả năng phục vụ điều tra xã hội [4] vì vậy thu hút sự quan tâm đặc biệt của nhiều tổ chức, nhiều nhóm nghiên cứu trên thế giới, chẳng hạn dãy hội nghị hàng năm TREC tại Viện chuẩn và khoa học Mỹ [microblog-track]. Luận văn “Tính hạng đối tượng trên mạng xã hội Twitter” tập trung nghiên cứu đặc trưng của mạng xã hội – tập trung vào mạng Twitter, các thuật toán tính hạng Twitter đã được công bố và đề nghị một mô hình thực nghiệm tính hạng các Tweet sử dụng mạng không đồng nhất. Luận văn gồm 4 chương được mô tả như sau: Chương 1. Giới thiệu chung về mạng xã hội và Twitter: những nội dung liên quan để phân tích mạng xã hội, phát biểu bài toán tính hạng đối tượng trên mạng xã hội Twitter, một số nghiên cứu liên quan và các phương pháp giải quyết bài toán. Chương 2. Phương pháp tính hạng dựa vào độ tin cậy và độ liên quan, đưa ra mô hình ba lớp của hệ thống tính hạng Twitter gồm lớp user, lớp tweet, lớp web và đánh giá ưu, nhược điểm của phương pháp này. Chương 3. Trình bày phương pháp tính hạng dựa vào mạng không đồng nhất. Giới thiệu mô hình Tri – HITS, cách xây dựng mạng không đồng nhất trong hệ thống Twitter và phương pháp lan truyền điểm xếp hạng trong mạng này. Chương 4. Mô hình thực nghiệm tiến hành quyết bài toán tính hạng đối tượng trong mạng xã hội Twitter, thực nghiệm và đánh giá kết quả thu được. TÀI LIỆU THAM KHẢO [1] Agichtein E., Castillo C., Donato D. (2008). Finding High-Quality Content in Social Media. WSDM’08, February 11-12, 2008, Palo Alto, Califor-nia, USA. pp. 183-193. [2] Al-Ani B., Mark G., Chung J., Jones J. (2012), The Egyptian Blogosphere: A Counter-Narrative of the Revolution, Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work. pp. 17-26. [3] Balakrishnan R., Kambhampati S. (2011), "Sourcerank: Relevance and trust assessment for deep web sources based on inter-source agreement."Proceedings of the 20th international conference on World wide web. ACM. [4] Bennet S. (2012), Twitter On Track For 500 Million Total Users By March, 250 Million Active Users By End Of 2012, http://www.mediabistro.com/alltwitter/twitter- active-total-users_b17655. [5] Casilli A. A., Tubaro P. (2012), Social media censorship in times of political unrest: A social simulation experiment on the UK riots, Bulletin of Sociological Methodology, 115. [6] D'Andrea A., Ferri F., Grifoni P., (2009), "An Overview of Methods for Virtual Social Network Analysis". In Abraham, Ajith. Computational Social Network Analysis: Trends, Tools and Research Advances. Springer. pp. 8. [7] Duan Y., Jiang L., Qin T., Zhou M., Shum H-Y., (2010). "An empirical study on learning to rank of tweets."Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics. [8] Deng H., Han J., Zhao B., Yu Y., Lin C. (2011). Probabilistic topic models with biased propagation on heterogeneous information networks. In Proc. ACM SIGKDD2011, pp. 1271–1279. [9] Elizabeth I., (2011), Connecting the National and the Virtual: Can Facebook Activism Remain Relevant After Egypt’s January 25 Uprising?, International Journal of Communication 5, pp.13-15. [10] Gupta A., Kumaraguru P., (2012), "Credibility ranking of tweets during high impact events." Proceedings of the 1st Workshop on Privacy and Security in Online Social Media. ACM. [11] Gupta M., and Han J. (2011), Heterogeneous network-based trust analysis: a survey. ACM SIGKDD Explorations, pp.54. [12] Gruber D., Introduction in Social Network Analysis. Theoretical Approaches and Empirical Analysis with computer-assisted programmes. [13] Homero Gil de Zúnĩga H., Jung N., Valenzuela S. (2012). Social Media Use for News and Individuals’ Social Capital, Civic Engagement and Political Participation, Journal of Computer-Mediated Communication 17. [14] Huang M., Yang Y., Zhu X. (2011), "Quality-biased Ranking of Short Texts in Microblogging Services." IJCNLP. [15] Huang H., Zubiaga A., Ji H., Deng H., Wang D., Le H., Abdelzaher T., Han J., Leung A., Hancock J., Voss C. (2012), "Tweet Ranking Based on Heterogeneous Networks."COLING. [16] Jarvelin K., Kekalainen J. (2000), IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, pp. 41-48. [17] Kleinberg J.M. (1999), "Authoritative sources in a hyperlinked environment." Journal of the ACM . [18] Mendoza M., Poblete B., Castillo C., (2010), Twitter Under Crisis: Can we trust what we RT?. 1st Workshop on Social Media Analytics (SO-MA’10), July 25, 2010, Washington DC, USA. [19] Mihalcea R. (2004), Graph-based ranking algorithms for sentence extraction, applied to text summarization. In Proc. ACL2004. [20] Moreau E., Yvon F., Cappé O., (2008), "Robust similarity measures for named entities matching." Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics. [21] Nigel C., Son Doan (2011). Syndromic Classification of Twitter Messages, eHealth 2011. pp. 186-195. [22] O'Connor B., Balasubramanyan R., Routledge B.R., Smith N.A.,(2010), From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series, ICWSM 2010. pp. 122-129. [23] Page L., Brin S., Motwani R., Winograd T. (1998), The pagerank citation ranking: Bringing order to the web. In Proc. the 7th International World Wide Web Conference. [24] Pinheiro C.A.R. (2011), Social Network Analysis in Telecommunications. John Wiley & Sons. pp. 4. [25] Ravikumar S., Balakrishnan R., Kambhampati S., (2012), "Ranking tweets considering trust and relevance." Proceedings of the Ninth International Workshop on Information Integration on the Web. ACM. [26] Sakaki T., Okazaki M., Matsuo Y., (2010), Earthquake shakes Twitter users: real- time event detection by social sensors, WWW 2010. pp. 851-860. [27] Wilson R.E, Gosling S.D, Graham L.T, (2012), A Review of Facebook Research in the Social Sciences, Perspectives on Psychological Science 7. [28] Trec 2011 microblog track. http://trec.nist.gov/data/tweets/. [29] Wang D., Abdelzaher T., Ahmadi H., Pasternack J., Roth D., Gupta M., Han J., Fatemieh., Le H. (2011), "On bayesian interpretation of fact-finding in information networks." Information Fusion (FUSION), 2011 Proceedings of the 14th International Conference on. IEEE. [30] Wasserman S., Katherine F., (1994), "Social Network Analysis in the Social and Behavioral Sciences". Social Network Analysis: Methods and Applications. Cambridge University Press. pp. 1–27. [31] Zaphiris P., Pfeil U., (2007), “Introduction to Social Network Analysis” Published by the British Computer Society Volume 2 Proceedings of the 21st BCS HCI Group Conference. [32] Zubiaga A., Spina D., Amigó E., Gonzalo J. (2012), Towards real-time summarization of scheduled events from twitter streams. In Proceedings of the 23rd ACM conference on Hypertext and social media, pp. 319–320. . [microblog-track]. Luận văn Tính hạng đối tượng trên mạng xã hội Twitter tập trung nghiên cứu đặc trưng của mạng xã hội – tập trung vào mạng Twitter, các thuật toán tính hạng Twitter đã được công. hoạt động và chứng tỏ tính hiệu quả của phương pháp Keywords. Hệ thống thông tin; Mạng xã hội; Khai phá dữ liệu; Tính hạng đối tượng Content. Tính hạng đối tượng là một trong một số các bài. dựng mạng không đồng nhất trong hệ thống Twitter và phương pháp lan truyền điểm xếp hạng trong mạng này. Chương 4. Mô hình thực nghiệm tiến hành quyết bài toán tính hạng đối tượng trong mạng xã