Khách hàng có chỉ số khoảng cách trung tâm tốt nhất

Một phần của tài liệu Nghiên cứu bài toán phân tích mạng xã hội (Trang 75 - 86)

STT ID Bậc Bậc vào Bậc ra Vị trí trung tâm Khoảng cách trung tâm 1 4897 1264 1 1263 4.61718E-06 0.003971849 2 8827 158 1 158 1.13692E-06 0.000197269 3 23588 10 1 9 9.96878E-07 0.000185513 4 26510 27 2 25 9.79762E-07 0.000178378 5 31757 57 1 56 9.13373E-07 0.000154594

65 6 9084 73 1 72 6.95533E-07 0.000134196 7 1812 49 4 45 4.68875E-07 0.000157815 8 26195 209 1 208 4.56427E-07 6.44143E-05 9 31628 6 1 5 4.54352E-07 0.00014054 10 19563 26 1 25 3.62548E-07 0.000110425

Ta thấy, nút 4897 có bậc cao nhất, đồng thời cũng là nút có vị trí trung tâm nhất mạng.

Một số nút có chỉ số vị trí trung tâm cao nhưng chỉ số khoảng cách trung tâm thấp. Điều này chứng tỏ những nút này là nút quan trọng, nhưng nó xa trung tâm mạng. Có thể nút này là một nút quan trọng trong một nhóm cộng đồng gắn kết chặt chẽ nào đó.

Để chứng thực điều này, tơi sẽ thực hiện trích xuất những nút quan trọng trong mỗi cộng đồng thu được từ phần trên.

3.5.2. Phát hiện nút quan trọng ứng với từng cộng đồng

Trong phần này, tôi sẽ xác định khách hàng quan trọng trong mỗi cộng

đồng được phát hiện từ mạng GT. Việc xác định những nút quan trọng trong

mạng được thực hiện theo đánh giá các chỉ số về tính trung tâm như mục 5.1. Trích xuất 05 cộng đồng lớn nhất sau khi phân tích, ta có:

Bảng 3.9. Bảng mơ tả 5 cộng đồng lớn nhất được phát hiện và những nút quan trọng trong cộng đồng STT cộng đồng Số nút trong cộng đồng Số cạnh trong cộng đồng ID nút quan trọng nhất Bậc của nút quan trọng nhất Khoảng cách trung tâm của nút quan trọng 1 1265 1264 4897 1264 798216.0 2 994 973 18514 662 395869.5 3 644 705 2940 55 77924.8 4 632 631 25005 631 198765.0 5 554 623 2014 59 112439.1

66 Kết quả thực tế, ta thấy, cộng đồng được phân chia lớn nhất trong nhóm có 1265 nút. Tuy nhiên, cộng đồng này là cộng đồng bao quanh của một nút (nút 4897). Những nút khác hiện tại chưa có mối quan hệ với nhau.

Tương tự, cộng đồng số 4 cũng có đặc điểm như vậy. Đây là những mạng Ego - các nút chỉ liên kết với một nút trung tâm.

Việc gắn cộng đồng cho một nút là vấn đề rất quan trọng. Ngồi ra, ở mỗi cộng đồng ta cịn trích xuất được nút quan trọng nhất trong cộng đồng. Bài tốn này rất có ý nghĩa. Khi ta biết được nút quan trọng, có nghĩa là khách hàng quan trọng thì việc xây dựng chính sách chăm sóc khách hàng đó sẽ có thể giữ chân được lượng khách hàng có mối quan hệ với khách hàng.

Trong phần trên, tơi trích xuất khách hàng quan trọng theo hai hướng. Hướng thứ nhất là khách hàng quan trọng trong tồn bộ mạng tơi phân tích. Hướng thứ hai, tơi trích xuất khách hàng quan trọng nhất trong mỗi cộng đồng tơi tìm được bằng thuật tốn Leiden. Tơi nhận thấy rằng khách hàng được coi là quan trọng trong tồn bộ mạng có một số điểm khác so với những khách hàng quan trọng trong mỗi cộng đồng tôi phát hiện được.

Nguyên do khi tơi xét các chỉ số trung tâm trên tồn bộ mạng, các chỉ số này mang tính tổng qt và được tính tính trên tồn bộ các nút trong mạng. Điều này vơ hình chung có thể làm mất đi những nút quan trọng trong những nhóm nhỏ. Việc phát hiện cộng đồng riêng biệt, sau đó ta mới xác định nút quan trọng có ý nghĩa hơn. Ta có thể xem xét tính quan trọng của nút theo địa phương.

3.6. Kết luận chương

Từ bộ dữ liệu giao dịch của khách hàng tại ngân hàng VietinBank, tôi xây dựng ba mạng để so sánh với nhau. Một là mạng có hướng và khơng có trọng số được ký hiệu là G. Mạng thứ hai là mạng có hướng, trọng số cạnh trong mạng là tổng số tiền giao dịch giữa hai khách hàng và được ký hiệu là

GT. Mạng thứ ba là mạng có hướng, trọng số cạnh trong mạng là tổng số lần giao dịch giữa hai khách hàng và được ký hiệu là GN.

67 Mạng được xây dựng trên bộ dữ liệu này có đặc điểm là mạng lớn và thưa. Tơi phân tích thấy mạng này chứa 8980 thành phần liên thông riêng. Nhưng hầu hết các nút đều tập trung tại một thành phần (trên 50% nút và trên 50% cạnh đầu tập trung tại đây). Thành phần này gọi là thành phần thứ nhất. Do đó, tơi sẽ trích xuất thành phần này làm mạng đầu vào cho bài tốn phân tích tiếp theo.

Phân tích đặc điểm thống kê trong mạng, tôi thấy mạng thưa với chỉ số mật độ cục bộ thấp; khoảng cách trung bình giữa hai nút cao (khoảng 25 bước). Đánh giá phân bố bậc trong mạng, tơi thấy số lượng nút có bậc thấp hơn rất nhiều so với những nút có bậc thấp. Như vậy, một số nút trong mạng sẽ có nhiều liên kết hơn những nút khác. Điều này là đúng vì dữ liệu khách hàng đầu vào thuộc vào rất nhiều ngành công nghiệp khác nhau. Trong mỗi ngành công nghiệp, ta sẽ thường thấy những cơng ty lớn hơn thâu tóm thị trường nhiều. Do vậy, những cơng ty này sẽ có nhiều mối quan hệ hơn những công ty khác.

Tiếp theo tôi đánh giá về bậc vào và ra của toàn bộ mạng trong thời gian phân tích. Tơi thấy khách hàng có xu hướng chuyển ra nhiều hơn chuyển vào. Tôi đánh giá sức mạnh của trọng số tổng số tiền giao dịch, tôi thấy giá trị trung bình sức mạnh vào của nút lại thấp hơn so với trung bình sức mạnh ra. Điều này có thể lý giải rằng, vào thời điểm phân tích là tháng 12 năm 2020, khách hàng có xu hướng chuyển những khoản nhỏ lẻ nhiều hơn. Những khoản này có thể là tiền hỗ trợ tết cho người lao động, còn số tiền thu về là tiền thu hồi nợ cuối năm.

Tôi đánh giá tiếp sức mạnh của trọng số tổng số lần giao dịch, tơi thấy sức mạnh trung bình ra cao hơn sức mạnh trung bình vào. Điều này có nghĩa là trung bình một khách hàng chuyển ra nhiều hơn. Điều này là hợp lý với những kết luận phía trên.

Sau đó, tơi phân tích cộng đồng với ba mạng xây dựng. Tôi thấy mạng

68 với hai mạng G và GN. Điều này chứng tỏ thuộc tính tổng số tiền giao dịch giúp ta phân chia mạng tốt hơn. Thuộc tính tần suất giao dịch ở trong phần này khơng có ý nghĩa bằng tổng số tiền giao dịch. Nguyên do có thể do thời gian lấy dữ liệu q ít và số lượng cạnh có trọng số bằng 1 chiếm phần lớn. Trong thời gian này, các cơng ty có tương tác với nhau ít hơn thời điểm đầu năm. Để khắc phục điều này, ta có thể xem xét trên mạng được xây dựng từ toàn bộ dữ liệu giao dịch giữa các khách hàng.

Cuối cùng, từ cộng đồng thu được, tơi trích xuất ra những khách hàng quan trọng trong mỗi nhóm. So sánh với tập khách hàng quan trọng được trích xuất từ tồn bộ mạng, tơi thấy tập khách hàng trích xuất từ mỗi nhóm sẽ mang tính chính xác hơn và ta tập trung được vào các nhóm ngành nghề khác nhau hơn.

Mỗi nhóm hay cộng đồng này, ta sẽ xem xét được những tính chất riêng của nhóm. Đây được coi là một đặc trưng về mối quan hệ của mỗi khách hàng. Đặc trưng này có thể áp dụng cho những bài tốn phân tích khác.

69

KẾT LUẬN

Đi cùng với sự phát triển của khoa học cơng nghệ, dữ liệu cũng ngày càng có nhiều. Dữ liệu ở rất nhiều định dạng, từ có cấu trúc tới phi cấu trúc. Vấn đề của chúng ta là làm sao trích xuất được kiến thức từ dữ liệu đó.

Phân tích mạng xã hội là một phương pháp giúp ta trích xuất kiến thức. Trong phân tích mạng xã hội, ta có thể xem xét ở khía cạnh các mối quan hệ của một nút với những nút khác.

Trong ngân hàng, việc xem xét mơ hình mạng biểu diễn mối quan hệ của một mạng lưới khách hàng có ý nghĩa vơ cùng lớn. Việc xem xét này giúp ta có cái nhìn tổng quan hơn về hệ thống khách hàng. Từ đó ta có thể xác định khách hàng quan trọng trong hệ thống giúp có những chính sách ưu đãi tốt hơn cho khách hàng.

Trong bài luận văn này, tôi đã xây dựng mạng biểu diễn mối quan hệ khách hàng qua tần số giao dịch và tổng số tiền giao dịch giữa hai khách hàng.

Dữ liệu được lấy vào tháng 12 năm 2020. Tôi nhận thấy với dữ liệu này, thuộc tính tổng số tiền giao dịch giữa hai khách hàng có tính phân loại hơn so với thuộc tính tổng số lần giao dịch giữa hai khách hàng. Nguyên do của vấn đề này có thể là do tính bảo mật trong dữ liệu của ngân hàng, thời gian lấy dữ liệu quá ngắn và ta chưa có cái nhìn tổng quan về mối quan hệ giữa các khách hàng.

Trong tương lai, tơi định hướng sẽ xây dựng mạng trên tồn bộ lịch sử giao dịch của khách hàng để có cái nhìn tổng quan hơn về khách hàng. Đồng thời, tơi cũng sử dụng để trích xuất tập khách hàng quan trọng, hỗ trợ cơng tác chăm sóc khách hàng trong hệ thống.

Về việc phát hiện cộng đồng, ngoài ứng dụng được trình bày trong bài luận là xác định khách hàng quan trọng theo mỗi cộng đồng, tơi cịn sử dụng nó nhưng một thuộc tính mơ tả đặc điểm mối quan hệ giữa các khách hàng cho những bài phân tích tiếp theo trong hệ thống.

70

TÀI LIỆU THAM KHẢO

[1] John Scott (2000). The Development of Social Network Analysis. Social Network Analysis_ A Handbook, second edition, SAGE Publications Ltd, London, 7-33.

[2] John Scott and Peter J. Carrington (2011). Social Network Analysis: An Introduction. The SAGE Handbook of Social Network Analysis, SAGE Publications Ltd, London, 11.

[3] Edward O. Laumann, Peter V. Marsden, and Joseph Galaskiewicz (1977). Community-Elite Influence Structures: Extension of a Network Approach. American Journal of Sociology, Vol 83, Number 3. DOI:10.1086/226596

[4] Stephen P Borgatti, Ajay Mehra, Daniel Brass, Giuseppe Labianca

(2009). Network Analysis in the Social Sciences. DOI:

10.1126/science.1165821. SCIENCE , Vol 323, pp. 892-895.

[5] Tiziana Casciaro,l Kathleen M. Carley, David Krackhardt 1999. Positive Affectivity and Accuracy in Social Network Perception. Motivation and Emotion, Vol . 23, No 4.

[6] Freeman, Linton C (2004). The development of social network analysis: a study in the sociology of science. Empirical Press ; BookSurge. ISBN 978- 1-59457-714-7. OCLC 429594334

[7] Linton Freeman (2004). The Development of Social Network Analysis. Vancouver: Empirical Press. BookSurge, LLC, North Charleston, South Carolina. ISBN 1-59457-714-5

[8] Paradowski, Michał B.; Jarynowski, Andrzej; Jelińska, Magdalena; Czopek, Karolina (January 2021). "Selected poster presentations from the American Association of Applied Linguistics conference, Denver, USA, March 2020: Out-of-class peer interactions matter for second language acquisition during short-term overseas sojourns: The contributions of Social

71

Network Analysis". Language Teaching. 54 (1): 139–143.

doi:10.1017/S0261444820000580. S2CID 228863564

[9] Mark S. Granovetter 1973. The Strength of Weak Ties. American Journal of Sociology. Vol. 78, No. 6 (May, 1973), pp. 1360-1380

[10] Heider, F. (1958). The psychology of interpersonal relations. New York: John Wiley & Sons Inc. DOI: 10.1037/10628-000

[11] Ronald S. Burt (1992). Structural Holes: The Social Structure of Competition. University of Illinois at Urbana-Champaign's Academy for

Entrepreneurial Leadership Historical Research Reference in

Entrepreneurship, Available at SSRN: https://ssrn.com/abstract=1496205 [12] Coleman, James Samuel (1988). Social Capital in the Creation of Human Capital. The American Journal of Sociology 94, S95-S120

[13] Ronald S. Burt (2005). Brokerage & Closure: An Introduction to Social Capital. New York: Oxford University Press, 2005. 279 pp

[14] De Sola Pool/Kochen (1978): Contacts and Influence. Contacts and Influence. Social Networks, pp 5-51. DOI 10.1016/0378-8733(78)90011-4 [15] J. Travers and S. Milgram (1969). An experimental study of the small world problem. American Sociological Association, Vol. 32, No. 4, pp. 425- 443. DOI: 10.2307/2786545

[16] Watts, D. J.; Strogatz, S. H. (1998). "Collective dynamics of 'small- world' networks" (PDF). Nature.393(6684):440–442. Bibcode:1998 Natur.393..440W. Doi:10.1038/30918. PMID 9623998

[17] D. J. Watts (1999). Small worlds: The dynamics of networks between order and randomness. Princeton Studies in Complexity. Princeton University Press, Princeton, NJ. ISBN-13: 978-0691117041

[18] Derek de Solla Price (1965). Networks of Scientific Papers. Science, Vol 149, Issue 3683, pp. 510-515. Science: 149.3683.510

72 [19] Derek de Solla Price (1976). A general theory of bibliometric and other cumulative advantage processes. Journal of the American Society for Information Science. 27 (5): 292–306. CiteSeerX 10.1.1.161.114. DOI:10.1002/asi.4630270505

[20] Reka Albert, Hawoong Jeong, Albert-Laszlo Barabasi (1999). The

diameter of the world wide web. Nature, Vol 401, pp 130-131. DOI: 10.1038/43601

[21] Cohen, Reuven; Erez, Keren; ben-Avraham, Daniel; Havlin, Shlomo (2000). "Resilience of the Internet to Random Breakdowns". Phys. Rev. Lett 85, 4626 (2000). DOI: 10.1103/PhysRevLett.85.4626

[22] Watts, D. J. (1999). Networks, dynamics, and the small-world phenomenon. American Journal of Sociology, Vol. 105, No. 2. DOI: 10.1086/210318

[23] Davis, et al., 1941. Deep South, Chicago: The University of Chicago

Press. Southern Women Data Set. Via UCINET.

http://www.networkdata.ics.uci.edu

[24] Fleischer, Lisa K.; Hendrickson, Bruce; Pınar, Ali (2000), "On Identifying Strongly Connected Components in Parallel" (PDF), Parallel and Distributed Processing, Lecture Notes in Computer Science, 1800, pp. 505– 511, doi:10.1007/3-540-45591-4_68, ISBN 978-3-540-67442-9

[25] Erdős, Paul; Szekeres, George (1935). A combinatorial problem in

geometry. Compositio Mathematica, tome 2, pp 463–470.

http://www.numdam.org/item?id=CM_1935__2__463_0

[26] Luce, R. Duncan; Perry, Albert D. (1949), "A method of matrix analysis of group structure", Psychometrika, 14 (2), pp 95–116. DOI: 10.1007/BF02289146, hdl: 10.1007/BF02289146, PMID 18152948, S2CID 16186758

[27] Bader, Gary D.; Hogue, Christopher W. V. (2003), "An automated method for finding molecular complexes in large protein interaction

73 networks", BMC Bioinformatics, 4 (1): 2. DOI:10.1186/1471-2105-4-2, PMC 149346, PMID 12525261

[28] Bouttier, Jérémie; Di Francesco,P.; Guitter, E. (July 2003). "Geodesic distance in planar graphs". Nuclear Physics B. 663 (3): 535–567. arXiv:cond-mat/0303272. DOI:10.1016/S0550-3213(03)00355-9.

[29] Alex Fornito, Andrew Zalesky and Edward T. Bullmore (2016). Fundamentals of Brain Network Analysis. Chapter 4 - Node Degree and Strength. Academic Press; 1st edition. ISBN-13: 978-0124079083

[30] P. W. Holland & S. Leinhardt (1971). Transitivity in structural models of small groups. Comparative Group Studies, Vol 2, pp 107–124. DOI:10.1177/104649647100200201. S2CID 145544488.

[31] M. Girvan; M. E. J. Newman (2002). Community structure in social and biological networks. Proc. Natl. Acad. Sci. USA. 99 (12): 7821–7826. DOI: 10.1073

[32] M. A. Porter; J.-P. Onnela; P. J. Mucha (2009). Communities in Networks. Notices of the American Mathematical Society, Vol 56: 1082– 1097, 1164–1166. https://arxiv.org/abs/0902.3788v2

[33] Fani, Hossein; Bagheri, Ebrahim (2017). Community detection in social

networks. Encyclopedia with Semantic Computing and Robotic

Intelligence, 1, pp. 1630001. DOI:10.1142/S2425038416300019.

[34] M. E. J. Newman (2004). Detecting community structure in networks. The European Physical Journal B Vol 38, pp 321–330 (2004). DOI:10.1140

[35] Maimon Oded; Rokach Lior (2006). Chapter 15: Clustering methods. The Data Mining and Knowledge Discovery Handbook. Springer, 1st edition. DOI: 10.1007/0-387-25465-X_15

[36] Everitt B (2011). Cluster analysis. 5th edition. Chichester, West Sussex, U.K: Wiley, pp 330. ISBN 9780470749913.

74 [37] Sorensen T (1948). A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons. Biologiske Skrifter. 5: 1–34. ISSN 0366-3612

[38] L Danon and J Duch and A Díaz-Guilera and A Arenas (2005).

Comparing community structure identification. J Stat

Mech P09008. DOI:10.1088/1742-5468/2005/09/P09008/arXiv:cond- mat/0505245

[39] Holland Paul W and Kathryn Blackmond Laskey and Samuel Leinhardt (June 1983). Stochastic blockmodels: First steps. Social Networks, Vol 5, pp 109–137. DOI:10.1016/0378-8733(83)90021-7

[40] Blondel and et al. (9 October 2008). Finding community structure in very large networks. Physical Review E 70(6 Pt 2):066111. DOI: 10.1103/PhysRevE.70.066111

[41] Aaron Clauset, M E J Newman, Cristopher Moore (2004). Finding community structure in very large networks. Phys. Rev. E 70, 066111. https://arxiv.org/abs/cond-mat/0408187

[42] Blondel, Vincent D and Guillaume, Jean-Loup and Lambiotte, Renaud and Lefebvre, Etienne (9 October 2008). Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, Volume 2008. DOI: 10.1088/1742-5468/2008/10/P10008

[43] . Fortunato, S. & Barthélemy, M (2007). Resolution Limit in Community Detection. Proc. Natl. Acad. Sci. USA 104, 36. DOI: 10.1073/pnas.0605965104

[44] V.A.Traag , L.Waltman & N. J. van Eck 2019. From Louvain to Leiden: guaranteeing well-connected communities. Scientific Reports, vol. (9), pp 1– 12. DOI: 10.1038/s41598-019-41695-z

75 [45] Lloyd-Smith, JO; Schreiber, SJ; Kopp, PE; Getz, WM (2005) Superspreading and the effect of individual variation on disease emergence. Nature volume 438, pages355–359. DOI: 10.1038/nature04153 [46] Borgatti, Stephen P. (2005). Centrality and Network Flow. Social Networks Vol 27, pp 55–71. DOI: 10.1016/j.socnet.2004.11.008

[47] Borgatti, Stephen P.; Everett, Martin G. (2006). A Graph-Theoretic Perspective on Centrality. Social Networks Vol 28, pp 466-484. DOI: 10.1016/j.socnet.2005.11.005

[48] Bonacich, Phillip (1987). Power and Centrality: A Family of Measures. American Journal of Sociology, Vol. 92, No. 5, pp. 1170-1182. https://www.jstor.org/stable/2780000

[49] Freeman, Linton C (1979). Centrality in social networks conceptual clarification. Social networks Vol 1, pp 215–239. DOI: 10.1016/0378- 8733(78)90021-7

[50] Alex Bavelas (1950). Communication patterns in task-oriented groups. J. Acoust. Soc. Am, Vol 22, pp 725–730. DOI: 10.1121/1.1906679

[51] Freeman, Linton (1977). A set of measures of centrality based upon betweenness. Sociometry, Vol 40, pp 35–41. DOI:10.2307/3033543.

Một phần của tài liệu Nghiên cứu bài toán phân tích mạng xã hội (Trang 75 - 86)

Tải bản đầy đủ (PDF)

(86 trang)