Để đánh giá kết quả thử nghiệm và hiệu quả của thuật toán trong mô hình này chúng tôi sử dụng độ đo F- measure. Nó là sự kết hợp của của độ đo chính xác và độ đo hồi tưởng. Độ đo chính xác được ký hiệu là π chính là số lượng người có vai trò
đúng với cụm vai trò trên tổng số người trong cụm. Độ đo hồi tưởng được ký hiệu là ρ chính là số người phù hợp với vai trò tìm được trên tổng số người thực tế phù hợp với vai trò này. Do đó độ đo F được tính như sau:
F=2 +
Chúng tôi đặt tên cho các nhóm vai trò dựa vào các từ xuất hiện trong vai trò và hiểu biết về các vị trí công việc trong tập dữ liệu. Tốp những người có phân phối vai trò > 0.1 cho mỗi vai trò được lựa chọn để đánh giá độ chính xác. Kết quả như sau:
F-measure 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
Hình 4.3: Độ chính xác F-measure của 12 vai trò
Độ chính xác trung bình trong việc phát hiện các vai trò đạt 61.9%, trong đó Vai trò 8 (Phụ trách các vấn đề về pháp lý) có độ chính xác cao nhất (76.9%), Vai trò 10 (Quản lý) có độ chính xác thấp nhất 54.1%.
Bass (trader)
Forney (manager, real time trading desk) Dean (trader)
Kuykendall (trader)
Stepenovitch (vice president, energy marketting and trading Florida)
Sanders (vice president, wholesale services0.233179
Fossum (vice president) McCarty (employee)
Bảng 3: Hai vai trò nổi bật của dữ liệu Enron
Bảng 3 liệt kê một số người nổi bật của 2 vai trò. Vai trò 1 là nhóm những “nhân viên phụ trách việc mua và bán hàng”. Tốp 6 người có xác suất cao nhất trong nhóm này có vai trò công việc giống nhau và hoàn toàn trùng khớp với vai trò của nhóm. Vai trò 8 là nhóm những người “phụ trách các vấn đề pháp lý”. Phần lớn những người trong nhóm này có công việc liên quan đến chính phủ (government affairs) và pháp lý (regulatory affairs), có thể hai công việc này liên quan đến những vấn đề tương tự nhau.
stepenovitch (Joe Stepenovitch)
Vai trò 1 (nhân viên mua/bán hàng)
Vai trò 9
Vai trò 11 (nhân viên marketing)
Vai trò 10 (người quản lý)
Bảng 4: Một ví dụ về phân phối vai trò
Một ví dụ về phân phối vai trò của 2 người được thể hiện ở Bảng 4. Stepenovitch có vai trò là “nhân viên mua/bán hàng”, bên cạnh đó, người này còn là “người cung cấp dịch vụ về năng lượng” và cũng là “nhân viên marketing”. Ngoài ra, Stepenovitch còn có vai trò là “người quản lý”. Những vai trò này hoàn toàn trùng khớp với công việc thực tế. Một ví dụ khác là Kaminski, người này có phân phối vai trò khá cao ở vai trò “người quản lý rủi ro”, đồng thời ông còn có vai trò “người quản lý”. Tuy nhiên, vai trò “nhân viên hành chính” và “chuyên viên phân tích tiền tệ” thì không liên quan tới công việc của ông. Có lẽ chính vì vậy mà phân phối xác suất cho 2 vai trò này khá thấp.
Kết luận
Với sự phát triển không ngừng của các trang mạng xã hội mang lại nguồn dữ liệu đa dạng và phong phú về người dùng Internet, nhu cầu về hiểu biết vai trò của những người dùng này là rất cần thiết và có thể mang lại nhiều lợi ích trong kinh doanh. Tuy những nghiên cứu về khai phá vai trò trong mạng xã hội đã được quan tâm từ lâu, nhưng lĩnh vực này vẫn còn nhiều thách thức và vấn đề cần phải giải quyết. Nắm bắt được nhu cầu đó, luận văn đã tiến hành nghiên cứu các mô hình phát hiện vai trò và áp dụng thử nghiệm vào mô hình phát hiện vai trò phân cấp dựa vào dữ liệu emails.
Kết quả đạt được của luận văn
Luận văn đã tiến hành khảo sát về khai phá dữ liệu mạng xã hội và bài toán phát hiện vai trò trong mạng xã hội. Luận văn cũng đã tìm hiểu một số công trình nghiên cứu về phát hiện vai trò trong mạng xã hội. Trong đó, luận văn đi sâu vào nghiên cứu mô hình phát hiện vai trò người hướng dẫn – người được hướng dẫn trong mạng thông tin các bài báo khoa học và mô hình RART phát hiện vai trò và chủ đề trong mạng xã hội.
Dựa trên các nghiên cứu đó, luận văn đề xuất một mô hình triển khai nhằm phát hiện vai trò phân cấp của nhân viên từ tập dữ liệu emails. Luận văn cũng tiến hành cài đặt thực nghiệm một pha trong mô hình đề xuất cho tập dữ liệu Enron email. Kết quả thực nghiệm cho thấy mô hình có độ chính xác 61.9% trong việc phát hiện 12 vai trò. Ngoài ra, mô hình còn cho kết quả khá tốt trong việc phát hiện nhiều vai trò của một người.
Định hướng nghiên cứu tiếp theo
Trong khuôn khổ luận văn này, chúng tôi mới chỉ dừng lại ở việc đưa ra mô hình đề xuất và thực nghiệm một pha trong mô hình đó. Trong thời gian tới, chúng tôi sẽ tiếp tục thực nghiệm các phần còn lại trong mô hình, đồng thời xem xét hướng nghiên cứu bổ sung thêm đặc trưng chủ đề trong pha gán vai trò phân cấp để nâng cao độ chính xác và giảm thiểu việc bỏ sót các cặp quan hệ.
Tài liệu tham khảo
Tiếng Việt
[1] Đinh Thị Hương. Một mô hình tìm kiếm vai trò trong mạng xã hội Twitter. Luận văn Thạc sỹ, Trường ĐHCN, ĐHQGHN, 2014.
Tiếng Anh
[2] Nitin Agarwal, Huan Liu, Lei Tang, Philip S. Yu: Modeling blogger influence in a
community. Social Netw. Analys. Mining 2(2): 139-162 (2012)
[3] N. Agarwal and H. Liu. Blogosphere: research issues, tools, and applications.
SIGKDD Exploration, 10(1):18–31, 2008. IEEE Press.
[3] L.A. Adamic, J. Zhang, E. Bakshy, and M.S. Ackerman. Knowledge sharing and
yahoo answers: everyone knows something. In: Proceeding of the International Conference on World Wide Web (WWW’08), pages 665–674, Beijing, China, 2008. ACM Press.
[4] D.M. Blei, A.Y. Ng, and M.I. Jordan. Latent dirichlet allocation. Journal of
Machine Learning Research, 3:993–1022, 2003. JMLR.
[5] Jiyang Chen, Community Mining-Discovery Communities in Social Network,
Thesis, University of Alberta, 2010.
[6] Andrew McCallum, Xuerui Wang, Andrés Corrada-Emmanuel: Topic and Role
Discovery in Social Networks with Experiments on Enron and Academic Email. J.
Artif. Intell. Res. (JAIR) 30: 249-272 (2007).
[7] P. Doreian, V. Batagelj, and A. Ferligoj. Generalized blockmodeling. Cambridge
University Press, 2005.
[8] B. Dom, I. Eiron, A. Cozzi, and Y. Zhang. Graph-based ranking algorithms for e-
mail expertise analysis. In: Proceedings of the SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD’03), pages 42–48, San Diego, California, USA, 2003. ACM Press.
[9] A. Daud, J. Li, L. Zhou, and F. Muhammad. A generalized topic modeling
approach for maven search. In: Proceedings of the Advances in Data and Web Management (APWeb WAIM’09), pages 138–149, Suzhou, China, 2009. Springer.
[10] L. Freeman. Visualizing social networks. Journal of Social Structure, 1(1), 2000.
[11] A. Farahat, N. K. Ahmed, and U. Dholakia, “Does a daily deal promotion signal a
distressed business? an empirical investigation of small business survival,” in Proc. Economics Web Search Social Netw., 2013, pp. 1–8.
[12] Mathilde Forestier, Anna Stavrianou, Julien Velcin, and Djamel A. Zighed. Roles in social networks: methodologies and research issues. Journal Web Intelligence and Agent Systems. Volume 10 Issue 1, 2012.
[13] Robert A. Hanneman, Mark Riddle: Introduction to social network methods.
Published in digital form at http://faculty.ucr.edu/~hanneman/ . 2005.
[14] M.S. Handcock, A.E. Raftery, and J.M. Tantrum. Model-based clustering for
social networks. Journal of the Royal Statistical Society: Series A (Statistics in Society), 170(2):301–354, 2007. Wiley Online Library.
[15] J. Moreno. Who shall survive, New York: Beacon Press 1934.
[16] S. Milgram. The small world problem. Psychology Today, 1(1):60–67, 1967.
[17] R. Merton. Social Theory and Social Structure. New York, NY, USA: Simon &
Schuster, 1968.
[18] M. Maia, J. Almeida, and V. Almeida. Identifying user behavior in online social
networks. In Proceedings of the 1st Workshop on Social Network Systems,SocialNets '08, pages 1-6, New York, NY, USA, 2008.ACM.
[19] P. Mahadevan, D. Krioukov, M. Fomenkov, X. Dimitropoulos, A. Vahdat, et al.,
“The internet as-level topology: Three data sources and one definitive metric,” ACM SIGCOMM Comput. Commun. Rev., vol. 36, no. 1, pp. 17–26, 2006.
[20] K. Lewin. Principles of topological psychology, McGraw-Hill, 1936.
[21] T. Parsons. “Illness and the role of the physician: A sociological perspective,”
Amer. J. Orthopsychiatry., vol. 21, no. 3, pp. 452–460, 1951.
[22] A. Pal and S. Counts. Identifying topical authorities in microblogs. In WSDM,
pages 45-54, 2011.
[23] Ryan A. Rossi and Nesreen K. Ahmed: Role Discovery in Networks. IEEE
TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 27, NO. 4, APRIL 2015.
[24] R. A. Rossi, S. Fahmy, and N. Talukder, “A multi-level approach for evaluating
internet topology generators,” in Proc. IFIP Netw. Conf., 2013, pp. 1–9.
[25] J. Scott. Social network analysis: A handbook, Sage, London 2nd edition(2000).
[26] J. Scripps, P.N. Tan, and A.H. Esfahanian. Node roles and community structure in
networks. In: Proceedings of the Workshop on Web Mining and Social Network Analysis (WebKDD/SNAKDD’07), pages 26–35, San Jose, California, USA, 2007. ACM Press.
[27] M. Steyvers, P. Smyth, M. Rosen-Zvi, and T. Griffiths. Probabilistic author-topic models for information discovery. In: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’04), pages 306– 315, Seattle, WA, USA, 2004. ACM Press.
[28] Ramine Tinati, Leslie Carr, Wendy Hall, Jonny Bentwood. “Identifying
Communicator Roles in Twitter”, WWW 2012 –MSND'12 Workshop.
[29] Vanesa Junquero-Trabado, David Dominguez-Sal (2012). Building a role search
engine for social media. WWW (Companion Volume) 2012: 1051-1060.
[30] H. T. Welser, D. Cosley, G. Kossinets, A. Lin, F. Dokshin, G. Gay, and M. Smith.
Finding social roles in wikipedia. In Proceedings of the 2011 iConference, iConference '11, pages 122-129, New York, NY, USA, 2011. ACM.
[31] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu, Jingyi Guo
(2010). Mining advisor-advisee relationships from research publication networks,
KDD 2010: 203-212.
[32] H.T. Welser, E. Gleave, D. Fisher, and M. Smith. Visualizing the signatures of