1. Chương Giới thiệu về mạng xã hội, mạng xã hội Twitter và bài toán khai phá va
4.3. Thực nghiệm
4.3.1 Phân tích đặc trƣng
- Mô hình hóa dữ liệu:
Tương tự như mô hình của Trabado và cộng sự chúng tôi biểu diễn dữ liệu theo dạng đồ thị sử dụng mô hình quan hệ thực thế của mạng xã hội trong đó mỗi người có khả năng công bố và chia sẻ tài liệu với 3 đỉnh và 5 cung (cạnh) như trình bày trong các phần trên.
- Tiềnxử lý dữ liệu
Tập dữ liệu mà nhóm tác giả crawler có trên 40 triệu người, 26 triệu tweet và 1000 triệu mối quan hệ following/follower. Do đó chúng tôi đã thực hiện công tác tiền xử lý chỉ lấy những người tham gia tích cực trong mạng. Và chỉ giữ những người có ít nhất 25 tài liệu được công bố, 20 người theo dõi và theo dõi 20 người. Tổng số người tích cực tham gia trong mạng là 84868 người.
- Trích chọn đặc trƣng:
Trong mô hình của Trabado và cộng sự, nhóm tác giả đã sử dụng cơ sở dữ liệu đồ thị DEX [12] để thực hiện load và phân tích trích chọn đặc trưng dữ liệu. Tuy nhiên trong mô hình đề xuất, chúng tôi tự thực hiện xây dựng cơ sở dữ liệu và các bảng biểu, sau đó thực hiện trích chọn đặc trưng.
- Chuẩn hóa đặc trƣng:
Sau khi trích chọn đặc trưng, chúng tôi thực hiện phương pháp chuẩn hóa Max/min để chuẩn hóa dữ liệu do đó giá trị của các đặc trưng nằm trong khoảng [0,1]. Kết quả phân bố giá trị của một số đặc trưng như sau:
46
Hình 9: Phân bố giá trị độ đo đặc trƣng M1
Hình 10: Phân bố giá trị độ đo đặc trƣng M2
0 1000 2000 3000 4000 5000 6000 0 0.01 0.02 0.03 0.1 0.15 0.2 0.25 0.35 0.6 0.8 1 0 500 1000 1500 2000 2500 3000 3500 4000 0 0.01 0.02 0.03 0.1 0.2 0.25 0.3 0.56 0.8 1
47
Hình 6: Phân bổ giá trị độ đo đặc trƣng M3
0 200 400 600 800 1000 1200 1400 1600 0 0.01 0.02 0.03 0.04 0.0 5 0.06 0.07 0.08 0.09 0.1 0.1 1 0.12 0.13 0.15 0.2 0.35 0.4 0.55 0.66 0.7 0.8 0.9 1
48
Hình 72: Phân bố giá trị độ đo đặc trƣng M8
Hình 8: Phân bổ giá trị đọ đo đặc trƣng M9
0 500 1000 1500 2000 2500 3000 3500 0 0.01 0.02 0.02 0.04 0.1 0.15 0.2 0.25 0.3 0.5 0.8 1 0 500 1000 1500 2000 2500 3000 0 0.01 0.02 0.03 0.04 0.05 0.06 0.1 0.12 0.2 0.25 0.3 0.4 0.5 0.6 0.8
49
Hình 94: Phân bố giá trị độ đo đặc trƣng M10
Hình 10: Phân bố giá trị độ đo đặc trƣng M11
0 1000 2000 3000 4000 5000 6000 0 0.73 0.74 1 0 200 400 600 800 1000 1200 1400 1600 1800 0 0.01 0.02 0.03 0.04 0.05 0.06 0.1 0.12 0.2 0.25 0.3 0.4 0.5 0.8
50
Hình 116: Phân bố giá trị độ đo đặc trƣng M15 Nhận xét:
Nhìn chung các độ đo đều tuân theo một quy luật phân bố.Chúng tôi nhận ra rằng các độ đo trên tập dữ liệu có những đặc tính khác nhau. Có một vài độ đo có nhiều giá trị khác nhau như M3, M9, M15 và một số chỉ có một vài giá trị như M10. Có một số độ đo có giá trị nằm tập trung trong một khoảng như M2,M8, M11.
4.3.2 Pha phân cụm dữ liệu
Sau bước phân tích đặc trưng, chúng tôi thực hiện chuẩn hóa file dữ liệu theo định dạng file .ArFF để làm đầu vào cho công cụ weka. Để so sánh hiệu quả của các thuật toán phân cụm, Chúng tôi tiến hành thực nghiệm với 2 thuật toán là K-mean suy rộng (giải thuật lọc) và K- mean. Trabado và cộng sự [21] đã đưa ra kết quả thử nghiệm tốt nhất với giá trị của K =500. Do đó chúng tôi thực nghiệm với các giá trị của K xung quanh khoảng [400, 600].
4.3.3 Pha gán vai trò
Chúng tôi sử dụng phương pháp độ lệch chuẩn (Sdv) để thực hiện tìm các tập seed tương đồng với các độ đo đặc trưng mà người dùng cần tìm kiếm. Kết quả cấu hình như sau:
Vai trò Độ đo liên quan Số lượng người
Người nổi tiếng M2: [0,∞) 688
0 200 400 600 800 1000 1200 1400 1600 1800 0 0.010.020.030.040.050.06 0.1 0.120.130.14 0.2 0.3 0.5 0.7 0.9 1
51 M8: [0,∞) Người vận động quảng bá M9: [0,∞) M10: [0,∞)
496
Người khởi tạo ý tưởng trong truyền tin
M2:[0,∞) M3:[0, ∞) M11: [0,∞) M15: [0,∞) 388 Bảng 3: Kết quả tìm kiếm
4.4 Kết quả thử nghiệm và phƣơng pháp đánh giá
Để đánh giá kết quả thử nghiệm và hiệu quả của thuật toán trong mô hình này chúng tôi sử dụng độ đo F- measure. Nó là sự kết hợp của của độ đo chính xác và độ đo hồi tưởng. Độ đo chính xác được ký hiệu là π chính là số lượng người thỏa mãn các tiêu chí tìm kiếm vai trò trên tổng số người được gán vai trò đó. Độ đo hồi tưởng được ký hiệu là ρ chính là số người phù hợp với các tiêu chí tìm kiếm vai trò trên tổng số người thực tế phù hợp với tiêu chí tìm kiếm vai trò này. Do đó độ đo F được tính như sau:
F=2𝜋𝜌
𝜋+𝜌
Như đã trình bày ở phần trên, trong pha phân cụm dữ liệu, chúng tôi sử dụng 2 thuật toán phân cụm K-mean suy rộng và K- mean để so sánh sự hiệu quả của 2 thuật toán. Nhìn chung thuật toán K-mean suy rộng cho hiệu quả tốt hơn và thời gian phân cụm nhanh hơn thuật toán K-mean đối với miền dữ liệu này. Kết quả tốt nhất với K =500:
K Độ đo F -measure
K-mean suy rộng K -mean
400 80.4 78.7
450 79.3 80.1
500 81.1 80.2
550 78.7 77.6
600 79.4 78.3
52
Chúng tôi cũng tiến hành đánh giá kết quả thử nghiệm đối với từng vai trò cụ thể. Kết quả như sau:
.
Hình 12: Kết quả đánh giá Nhận xét:
Độ chính xác trung bình trong việc tìm kiếm các vai trò đạt 81.1% trong đó độ đo F-measure đạt kết quả cao nhất với tìm kiếm vai trò người vận động quảng bá (83.3%), thấp nhất với vai trò của người nổi tiếng (78%).
Tóm tắt chƣơng 4
Trong chương này, chúng tôi đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của quá trình thử nghiệm mô hình tìm kiếm vai trò trong mạng xã hội Twitter với việc tìm kiếm 3 vai trò(Người nổi tiếng, người vận động quảng bá và người khởi tạo ý tưởng trong truyền tin). Qua phân tích và đánh giá đã cho thấy tính đúng đắn của phương pháp sử dụng trong luận văn.
0.78 0.833 0.82 0.811 0.75 0.76 0.77 0.78 0.79 0.8 0.81 0.82 0.83 0.84
Người nổi tiếng Người vận động quảng bá
Người khởi tạo ý
tưởng trong
truyền tin
Trung bình
53
Kết luận
Kết quả đạt đƣợc của luận văn:
Luận văn đã tìm hiểu về một số phương pháp khai phá, phát hiện vai trò trong mạng xã hội. từ đó đề xuất một mô hình tìm kiếm vai trò trong mạng xã hội Twitter. Luận văn đã thực nghiệm tìm kiếm 3 vai trò (người nổi tiếng, người vận động quảng bá, người khởi tạo ý tưởng trong truyền tin). Chúng tôi đã cài đặt, thử nghiệm với mô hình đề xuất. Kết quả của việc tìm kiếm vai trò cho kết quả khá tốt (kết quả trung bình là 81.1%), điều này hoàn toàn khả thi cho việc xây dựng một hệ thống tìm kiếm vai trò trong mạng xã hội Twitter.
Định hƣớng tƣơng lai:
Trong mô hình này, chúng tôi mới thực hiện bước gán vai trò với các đặc trưng người dùng đưa vào ở pha ngoại tuyến. Trong thời gian tới, chúng tôi sẽ tiếp tục tiến hành xây dựng thành phần trực tuyến trong mô hình để hoàn thiện hệ thống tìm kiếm vai trò trong mạng xã hội trực tuyến Twitter.
Xem xét đến hướng nghiên cứu bổ sung thêm đặc trưng topic của các Tweet mà người dùng thường hay post vào pha trích trọn chọn đặc trưng để nâng cao hiệu quả tìm kiếm vai trò.
54
Tài liệu tham khảo
[1] B. J. Biddle. Recent developments in role theory.pages 67-92. Annual Review of Sociology, 1986.
[2] L. Backstrom, R. Kumar, C. Marlow, J. Novak, and A. Tomkins. Preferential behavior in online groups. In WSDM, pages 117-128. ACM, 2008
[3] Brendan O'Connor, Ramnath Balasubramanyan, Bryan R. Routledge, Noah A. Smith. From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series, ICWSM page122-129,2010.
[4] M. Cha, H. Haddadi, F. Benevenuto, and P. Gummadi. Measuring user influence in twitter: The million follower fallacy. In ICWSM, 2010
[5] Denjin Zhao, Mary Beth Rosson. How and Why People Twitter: The Role that Microblogging Plays in Informal Communication at Work,2010.
[6] Kate Ehrlich, Inga Carboni. Inside Social Network Analysis,2006.
[7] Amit Goyal, Francesco Bonchi, Laks V. S. Lakshmanan.Learning Influence Probabilities In Social Networks,2010
[8] S. A. Golder and J. Donath. Social roles in electronic communities. In AOIR, 2004.
[9] Jiyang Chen, Community Mining-Discovery Communities in Social Network, Thesis, University of Alberta, 2010.
[10] Tapas Kanungo, David M.Mount, Ruth Silverman, Angela Y.Wu, “An Efficient K- Means Clustering Algorithm: Analysis and implementation”, IEEE transaction on patern analysis and machine intelligence, Vol.24,no.7,july 2002
[11] Jure Leskovec. Dynamics of large networks, PhD Thesis, Carnegie Mellon University (ACM SIGKDD Dissertation Award 2009).
[12] N.Martinez-Bazan, V. Muntes- Mulero, S.Gomez- Villamor, J.Nin, M.Sanchez Martinez and J. Larriba- Pey. Dex: high-performance exploration on large graphs for information retrieval. In CIKM, pages 573-582, 2007
55
[13] D. Laniado, R. Tasso, Y. Volkovich, and A. Kaltenbrunner. When the wikipedians talk:Network and tree structure of wikipedia discussion pages. In ICWSM. The AAAI Press, 2011
[14] M. Maia, J. Almeida, and V. Almeida. Identifying user behavior in online social networks. In Proceedings of the 1st Workshop on Social Network Systems,SocialNets '08, pages 1-6, New York, NY, USA, 2008.ACM
[15] S. Maneewong vatana and D.M. Mount, “Analysis of Approximate Nearest Neighbor Searching with Clustered Point Sets” Proc.Workshop Algorithm Eng. and Experiments (ALENEX '99),Jan. 1999
[16] J.L. Bentley.“Multidimensional Binary Search Trees Used for Associative Searching”Comm. ACM,vol. 18, pp. 509-517, 1975
[17] R. D. Nolker and L. Zhou. Social computing and weighting to identify member roles in online communities. In Web Intelligence, pages 87-93. IEEE Computer Society, 2005.
[18] A. Pal and S. Counts. Identifying topical authorities in microblogs. In WSDM, pages 45-54, 2011.
[19] Rosen-Zvi, M., Griths, T., Smyth, P., & Steyvers. Learning author-topic models from text corpora. Submitted to Journal of Machine Learning Research,2005. [20] Ramine Tinati, Leslie Carr, Wendy Hall, Jonny Bentwood. “Identifying
Communicator Roles in Twitter”, WWW 2012 – MSND'12 Workshop
[21] Vanesa Junquero-Trabado, David Dominguez-Sal (2012). Building a role search engine for social media. WWW (Companion Volume) 2012: 1051-1060. [22] H. T. Welser, D. Cosley, G. Kossinets, A. Lin,F. Dokshin, G. Gay, and M.
Smith. Finding social roles in wikipedia. In Proceedings of the 2011 iConference, iConference '11, pages 122-129, New York, NY, USA, 2011. ACM.
[23] Wasserman.S, & Faust.F. Social Network Analysis: Methods and Applications.Cambridge University Press,1994.
56
[24] H. T. Welser, E. Gleave, D. Fisher, and M. Smith.Visualizing the signatures of social roles in online discussion groups. The Journal of Social Structure, 8(2), 2007.
[25] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu, Jingyi Guo (2010). Mining advisor-advisee relationships from research publication networks, KDD 2010: 203-212.
[26] K. Lee, J. Caverlee, and S. Webb. Uncovering social spammers: social honeypots + machine learning. In SIGIR, pages 435-442. ACM, 2010.
[27] E. Bakshy, B. Karrer, and L. A. Adamic. Social influence and the diffusion of user-created content. InACM Conference on Electronic Commerce, pages 325- 334. ACM, 2009.
[28] J. Bentwood, “Distributed Influence: Quantifying the Impact of Social Media,Edelman, 2008. [Online].
[29] V. Junquero-Trabado, N. Trench-Ribes, M. A.Aguila-Lorente, and D. Dominguez-Sal. Comparison of influence metrics in information diffusion networks. In CASoN, pages 31-36. IEEE, 2011.
[30] H. Kwak, C. Lee, H. Park, and S. Moon. What is twitter, a social network or a news media? In WWW, pages 591-600, 2010