CƠ SỞ LÝ THUYẾT
Khái niệm về mạng xã hội
Hiện nay, cùng với sự phát triển mạnh mẽ của hệ thống Internet, các công nghệ như thực tế ảo, Internet của vạn vật (Internet of Things - IOT) cũng phát triển theo Điều này dẫn đến có rất nhiều dữ liệu ta có thể có được Việc phân tích dữ liệu trở nên quan trọng và phát triển hơn Có rất nhiều phương pháp có thể giúp ta trích xuất tri thức từ dữ liệu Trong đó, ta có thể kể tới các phương pháp phân tích mạng xã hội.
Mạng xã hội xung quanh chúng ta có rất nhiều, có thể kể đến một số mạng xã hội phổ biến như Facebook, Youtube,… đang kéo theo số người dùng ngày càng lớn Đi cùng đó, các nguồn thông tin từ tương tác xã hội đang đóng một vai trò khá lớn trong việc phát hiện, theo dõi và đánh giá một sự kiện, hiện tượng Nguồn tin đa dạng, tổng hợp với một số lượng lớn, liên tục thay đổi và phát triển theo thời gian đã khiến cho lượng dữ liệu này trở nên đáng tin cậy và mang giá trị sử dụng lớn. Đầu tiên, tôi xin đưa ra khái niệm về mạng xã hội Theo nghị định số72/2013/NĐ-CP ngày 15/7/2013 của Chính phủ về quản lý, cung cấp, sử dụng dịch vụ internet và thông tin trên mạng quy định thì mạng xã hội (social network) là hệ thống thông tin cung cấp cho cộng đồng người sử dụng mạng các dịch vụ lưu trữ, cung cấp, sử dụng, tìm kiếm, chia sẻ và trao đổi thông tin với nhau, bao gồm dịch vụ tạo trang thông tin điện tử cá nhân, diễn đàn (forum), trò chuyện (chat) trực tuyến, chia sẻ âm thanh, hình ảnh và các hình thức dịch vụ tương tự khác.
Theo John Scott và cộng sự [1][2] đã định nghĩa mạng xã hội như sau: Mạng xã hội là tập hợp các nút trong một xã hội và được liên kết bởi một hoặc nhiều mối quan hệ.
Hình 1.1.Ví dụ cơ bản của mô hình mạng
Như vậy, cấu phần cơ bản của một mạng xã hội gồm hai phần là nút và liên kết - hay gọi là cạnh.
Các nút - hay còn gọi là các thành phần của mạng là đơn vị được kết nối bởi các mối quan hệ Về nguyên tắc, bất kì đơn vị nào có thể kết nối được với đơn vị khác đều có thể coi là nút Trong mạng xã hội, các nút thường là con người, công ty, trường học, quốc gia, hay tính cách,… Thông tin các nút thường là những thông tin thu thập trong nghiên cứu khoa học tiêu chuẩn như nhân khẩu học, thái độ, hành vi,… và bao gồm cả thông tin về thời điểm nút hoạt động (có thay đổi theo thời gian).
Thực tế, việc xác định các nút cần thiết cho bài toán phân tích mạng là một thách thức không hề nhỏ Ví dụ ta muốn phân tích nghiên cứu về bệnh tim thông qua mạng xã hội, nhưng bản thân bên trong mỗi đối tượng được nghiên cứu lại có sự phức tạp và khó khăn riêng.
Laumann và cộng sự (1983) [3] đã đề xuất ba cách tiếp cận để giải quyết vấn đề thu thập dữ liệu này.
Cách thứ nhất, cách tiếp cận dựa trên vị trí Ta coi những tác nhân là một thành viên thuộc một tổ chức hoặc giữ một vị trí cụ thể Những thành viên này sẽ được thu thập vào dữ liệu nghiên cứu Với ví dụ trên, ta có thể lấy những thành viên trong mạng là các nhà nghiên cứu hoặc bác sĩ làm việc trong các khoa tim mạch, hoặc các thành viên của một hiệp hội các chuyên gia nghiên cứu về tim mạch.
Cách thứ hai là tiếp cận dựa trên sự kiện nhằm xác định ranh giới của mạng Ở ví dụ trên, ta có thể xác định các nhà nghiên cứu tham gia ít nhất hai sự kiện về tim mạch trong hai năm qua.
Cách thứ ba, ta có thể tiếp cận dựa trên mối quan hệ Ta bắt đầu từ một tập nhỏ dựa trên các nút được coi là phạm vi quan tâm Sau đó, ta mở rộng ra bao gồm những người có mối quan hệ cụ thể với những người thuộc phạm vi trước đó Ở ví dụ trên, ta có thể xác định những nhà khoa học tham gia một hội nghị quan trọng là phạm vi quan tâm Sau đó ta xem xét thêm các mối quan hệ với các nhà nghiên cứu này, có thể là các cộng tác viên của họ, những cộng sự, đồng tác giả,… Cách tiếp cận dựa trên mối quan hệ này phổ biến nhất trong nghiên cứu mạng Ego.
Ba cách tiếp cận trên không loại trừ lẫn nhau và thông thường, các nhà nghiên cứu sẽ sử dụng kết hợp để xác định phạm vi.
Các mối quan hệ trong mạng có thể là mối quan hệ về tình bạn, quan hệ thương mại, liên kết web, trích dẫn, luồng thông tin,…
Theo Borgatti và cộng sự (2009) [4] đã xác định bốn phạm trù quan hệ Đầu tiên là sự tương đồng Sự tương đồng xảy ra khi hai nút liên kết với nhau có các tính chất giống nhau nhất định Ví dụ như đặc điểm nhân khẩu học, hành vi hoặc là thành viên một tổ chức/nhóm nào đó.
Thứ hai là các mối quan hệ xã hội như quan hệ họ hàng, quan hệ bạn bè, quan hệ tình cảm, Đây là một trong những mối quan hệ thường được nghiên cứu nhiều nhất trong mạng xã hội Ví dụ, Casciaro và cộng sự
(1999) [5] đã xây dựng mạng dựa trên quan hệ cảm xúc (thích hay không) của các đối tượng nghiên cứu.
Thứ ba là quan hệ tương tác Điều này đề cập tới quan hệ dựa trên hành vi, chẳng hạn như hai người nói chuyện với nhau, giúp đỡ nhau hoặc có thể người này theo dõi người kia trên mạng xã hội Facebook.
Cuối cùng là luồng Luồng là mối quan hệ dựa trên sự trao đổi hoặc chuyển đổi giữa các nút Giống như tương tác, luồng các mối quan hệ vẫn có thể xảy ra những mối quan hệ xã hội khác và ta thường giả định chúng cùng tồn tại.
Lịch sử mạng xã hội
Phân tích mạng xã hội có nguồn gốc lý thuyết trong công việc của những nhà xã hội học thời kì đầu như Georg Simmel và Émile Durkheim. Đây là hai tác giả đã viết về tầm quan trọng của việc nghiên cứu các mối quan hệ của các cá nhân trong xã hội.
Khái niệm mạng xã hội được sử dụng từ đầu thế kỉ XX nhằm chỉ các mối quan hệ phức tạp giữa các thành viên trong một xã hội hoặc giữa các cá nhân đến toàn cầu.
Năm 1930, Jacob Moreno và Helen Jennings đã đưa ra các phương pháp phân tích cơ bản [6] Năm 1954, John Arundel Barnes bắt đầu sử dụng thuật ngữ này một cách có hệ thống để biểu thị các kiểu ràng buộc, bao gồm các khái niệm được công chúng sử dụng theo truyền thống và các khái niệm được sử dụng bởi các nhà khoa học xã hội như các nhóm bị ràng buộc (ví dụ: bộ lạc, gia đình) và các phạm trù xã hội (ví dụ như giới tính, dân tộc).
Các học giả như Ronald Burt, Kathleen Carley, Mark Granovetter, David Krackhardt, Edward Laumann, Anatol Rapoport, Barry Wellman, Douglas R White và Harrison White đã mở rộng việc sử dụng phân tích mạng xã hội có hệ thống [7]
Phân tích mạng xã hội đã được sử dụng rộng rãi trong nghiên cứu về việc tiếp thu ngôn ngữ thứ hai ở nước ngoài [8] Ngay cả trong nghiên cứu trong văn học, phân tích mạng đã được Anheier, Gerhards và Romo, Wouter
De Nooy và Burgert Senekal áp dụng Thật vậy, phân tích mạng xã hội đã tìm thấy các ứng dụng trong các lĩnh vực học thuật khác nhau, cũng như các ứng dụng thực tế như chống rửa tiền và khủng bố.
Tiếp tới, với sự phát triển của hệ thống internet hiện nay, phân tích mạng xã hội đang đi sâu và phát triển trên các hệ thống mạng xã hội nhưFacebook, Twiter, Youtube,…
Một số lý thuyết đồ thị trong phân tích mạng xã hội
Lý thuyết đồ thị là một lĩnh vực nghiên cứu đã có từ lâu và có nhiều ứng dụng hiện đại Những tư tưởng cơ bản của lý thuyết đồ thị được đề xuất vào những năm đầu của thế kỷ XVIII bởi nhà toán học người Thụy Sỹ
Phân tích mạng xã hội áp dụng rất nhiều lý thuyết đồ thị để phân tích Dưới đây, tôi xin đi qua một số khái niệm cơ bản trong đồ thị Tiếp sau đó là những lý thuyết cơ bản trong mạng xã hội.
1.3.1 Định nghĩa đồ thị Đồ thị là một cấu trúc rời rạc bao gồm các đỉnh và các cạnh nối giữa các đỉnh đó.
Người ta thường ký hiệu đồ thị G = (V, E).
Trong đó, V là tập các đỉnh (Vertex) và E là tập các cạnh (Edge) Có thể coi E là tập các cặp (u, v) với u và v là hai đỉnh của V.
Hình 1.2.Một số hình ảnh về đồ thị Đồ thị xuất hiện trong đời sống rất nhiều, ta có thể kể tới như sơ đồ mạng giao thông biểu diễn các đường giao thông với nhau cũng là một loại đồ thị Hay sơ đồ mạng internet mô tả sự kết nối internet của các máy tính. Ngoài ra, sơ đồ mạng xã hội cũng là một loại đồ thị.
Trong thực tế, có rất nhiều loại đồ thị có thể có Ví dụ như đơn đồ thị, đa đồ thị, đồ thị có hướng, đồ thị không hướng,… Ta có các định nghĩa về các đồ thị như dưới đây. Đồ thị G được gọi là đơn đồ thị vô hướng nếu giữa hai đỉnh u, v V (V khác rỗng) có nhiều nhất là 1 cạnh thuộc E (E khác rỗng) được nối từ đỉnh u tới đỉnh v Như vậy, trong đơn đồ thị vô hướng, các cặp cạnh trong tập E sẽ không tính tới thứ tự các đỉnh. Đồ thị G được gọi là đa đồ thị vô hướng nếu giữa hai đỉnh u và v thuộc
V (V khác rỗng) có thể có nhiều hơn 1 cạnh thuộc E (E khác rỗng) nối từ đỉnh utới đỉnh v.
Như vậy, mỗi đơn đồ thị là đa đồ thị, nhưng không phải đa đồ thị nào cũng là đơn đồ thị vì trong đa đồ thị có thể có hai (hoặc nhiều hơn) cạnh nối giữa một cặp đỉnh nào đó.
Hình 1.3.Sơ đồ mạng máy tính đa kênh thoại Đồ thị G được gọi là đồ thị vô hướng nếu các cạnh thuộc E là không có hướng, tức là cạnh nối hai đỉnh u và v bất kỳ cũng là cạnh nối hai đỉnh v và u Hay nói cách khác, tập E gồm các cặp (u, v) không tính thứ tự của cặp đỉnh (u, v). Đồ thị G được gọi là đồ thị có hướng nếu các cạnh thuộc E là có hướng. Điều này có nghĩa là có thể có cạnh nối từ đỉnh u tới đỉnh v nhưng chưa chắc đã có cạnh nối từ đỉnh v tới đỉnh u Như vậy, tập E gồm các cặp (u, v) có tính thứ tự: (u, v) ≠ (v, u) Trong đồ thị có hướng, các cạnh được gọi là các cung Đồ thị vô hướng cũng có thể coi là đồ thị có hướng nếu như ta coi cạnh nối hai đỉnh u và v bất kỳ tương đương với hai cung (u, v) và (v, u). Đồ thị Đơn đồ thị Đa đồ thị
Hình 1.4.Các loại đồ thị cơ bản
Như vậy, ta có thể có đơn đồ thị vô hướng, đơn đồ thị có hướng, đa đồ thị vô hướng, đa đồ thị có hướng.
Một số dạng đồ thị đơn vô hướng đặc biệt có thể kể tới như đồ thị vòng, đồ thị đầy đủ, đồ thị hai phía, đồ thị bánh xe, Đồ thị vòng C n (cycle graph): Là đơn đồ thị vô hướng G = (V, E) với tập đỉnh V: {1, 2, 3,…, n} và tập cạnh E = {(1, 2); (2, 3); ….; (n – 1, n); (n,
1)}. Đồ thị đầy đủ K n (complete graph): Là đơn đồ thị vô hướng mà giữa hai đỉnh bất kì của nó luôn tồn tại cạnh nối. Đồ thị hai phía K m, n (bipartite graph): đây là đồ thị có tập đỉnh phân hoạch thành hai tập con không giao nhau V=X Y sao cho mọi cạnh nối một đỉnh thuộc X với một đỉnh thuộc Y.
Hình 1.5 Ví dụ về đồ thị vòng, đồ thị đầy đủ, đồ thị hai phía, đồ thị bánh xe Đồ thị bánh xe W n (wheel graph): đây là đơn đồ thị vô hướng thu được từ đồ thị C n-1 bằng cách thêm một đỉnh n nối với n-1 đỉnh của đồ thị C n-1
1.3.3 Cấu phần của đồ thị Đồ thị G = (V, E) với tập đỉnh V = {1, 2, 3, , n} và các tập cạnh
E = {e 1 , e 2 , …, e n }. Đây là một cấu trúc rời rạc, các tập V và E là những tập hữu hạn, có nghĩa là có thể đánh số thứ tự 1, 2, 3 cho các phần tử trong tập V và tập E.
Hình 1.6 Hình ảnh ví dụ về đồ thị
Cấu phần và tham số cơ bản của đồ thị bao gồm:
Nếu tồn tại một cặp (u, v) thuộc E thì ta nói có một cạnh nối giữa u và v Khi đó đỉnh v được gọi là kề của đỉnh u và e = (u, v) gọi là cạnh liên thuộc với các đỉnh u và v Các đỉnh u và v được gọi là điểm đầu mút của e.
Bậc của đỉnh trong đồ thị vô hướng là số cạnh liên thuộc với chính đỉnh đó và thường được kí hiệu là deg(v).
Bậc của một đỉnh trong đồ thị vô hướng được tính theo công thức sau: deg(v) = e(v, u) u
Trong đó, e(v, u) là cạnh giữa hai đỉnh u và v.
Trong đồ thị có hướng, bậc của đỉnh được chia làm bậc vào hoặc bậc ra (in-degree hoặc out-degree) gọi là bán bậc của đỉnh
Bậc vào (ra) của đỉnh trong đồ thị có hướng là số cạnh của đồ thị đi vào (ra) đỉnh đó và kí hiệu là deg + (v) (hoặc deg - (v)).
Công thức tính bậc ra trên đồ thị có hướng như sau: deg(v) out = e(v, u) u
Công thức tính bậc vào trên đồ thị có hướng như sau: deg(v) in = e(u , v) u Đỉnh v được gọi là đỉnh treo nếu deg(v) bằng 1 và gọi là đỉnh cô lập nếu deg(v) bằng 0.
Ngoài ra, ta còn một số khái niệm khác trong đồ thị. Đường đi (path)
Một đường đi từ đỉnh u đến đỉnh v trên đồ thị G là một dãy đỉnh từ u 1 , u 2 ,…, u i Trong đó có các cạnh (u, u 1 ), (u 1 , u 2 ), …, (u i , v) ∈ E và i là số lượng cung trên đường đi được gọi là độ dài của đường đi Đỉnh u được gọi là đỉnh đầu và đỉnh v được gọi là đỉnh cuối của đường đi.
Một đường đi có đỉnh đầu và đỉnh cuối trùng nhau (tức u = v) sẽ được gọi là chu trình. Đường đi hay chu trình được gọi là đường đi đơn nếu trên đường đi đó không có cạnh nào bị lặp lại.
Hai đỉnh liên thông Đỉnh p và q được gọi là liên thông với nhau trên đồ thị G nếu có một đường đi từ p đến q trên đồ thị đó. Đồ thị liên thông (connected graph)
Một đồ thị được gọi là liên thông nếu mọi cặp đỉnh của đồ thị đều liên thông.
Một số lý thuyết về tính chất của mạng xã hội
Cấu trúc cơ bản của mạng xã hội giống như đồ thị Nó bao gồm tập các đỉnh và tập các cạnh Ngoài ra, mạng xã hội còn có một số đặc điểm khác so với đồ thị nói chung Trong phần dưới đây, tôi sẽ giới thiệu một số lý thuyết trong mạng xã hội.
1.4.1 Lý thuyết ràng buộc yếu (strength of weak ties - SWT)
Lý thuyết ràng buộc yếu được đưa ra bởi Granovetter vào năm
1973 [9] Tính chất thứ nhất của SWT đề cập đến tính giống nhau trong mạng xã hội Lý thuyết nói rằng khi mối quan hệ ràng buộc giữa hai người càng chặt chẽ thì khả năng các vùng xã hội lân cận của họ sẽ càng chồng chéo lên nhau Ví dụ nếu A kết hôn với B, B là bạn thân của C thì khả năng
A quen biết C sẽ rất lớn.
Granovetter giải thích rằng những người có tính chất nào đó giống nhau sẽ có xu hướng có mối quan hệ chặt chẽ với những người giống mình. Trường hợp này gọi là homophily – những người có tính chất giống và tương đồng nhau trong mạng Homophily có tính bắc cầu yếu vì khi A gần giống với B, và B gần giống với C, thì A và C cũng có khả năng chia sẻ một số điểm tương đồng nhau.
Hình 1.7 Ví dụ minh họa về tính chồng chéo
Một cách giải thích khác dựa trên sự bất hòa (Heider, 1958) [10] đưa ra rằng nếu A thích B, B thích C thì A cũng muốn như C để tránh bất hòa. Thật vậy, nếu trong một gia đình chung sống với nhau, mọi người sẽ cố gắng hòa hợp nhau nhất có thể.
Tính chất thứ hai SWT đề cập tới tính chất bắc cầu Mối quan hệ bắc cầu sẽ là kết nối giữa một người với những người không có mối quan hệ với người đó.
Hình 1.8 Ví dụ minh họa về tính chất bắc cầu Liên kết giữa A và G được gọi là mối liên kết bắc cầu
Tuy nhiên, theo Granovetter khi đặt hai tính chất lại với nhau, một mối quan hệ chặt chẽ khó có thể là nguồn thông tin mới Nguyên nhân vì mối quan hệ bắc cầu không chắc sẽ bền chặt Theo tính chất 1, nếu A và G có một mối quan hệ mạnh thì G phải có ít nhất một mối quan hệ yếu với các bạn khác của A Nhưng nếu điều này đúng thì liên kết giữa A và G không phải là cầu nối vì khi đó tồn tại nhiều đường đi từ A tới G thông qua người quen chung của họ Vì vậy, những liên kết yếu mới có thể là quan hệ bắc cầu.
Hai tính chất này giải thích tại sao mọi người thường nghe nói về công việc thông qua người quen nhiều hơn là người thân Những tính chất này cũng được áp dụng ở cấp độ nhóm Khi đó, những nhóm có mối quan hệ bền chặt thì sự gắn kết địa phương sẽ mạnh mẽ, nhưng sự gắn kết toàn cầu thì yếu Ngược lại, những nhóm nào có sự gắn kết địa phương yếu thì gắn kết toàn cầu sẽ mạnh mẽ.
1.4.2 Lỗ trống cấu trúc (Structural holes)
Ngoài ra, còn một lý thuyết khác là lý thuyết về lỗ trống cấu trúc
(Structural holes) của Burt’s (1992) [11] về trung tâm xã hội Lý thuyết đề cập đến vấn đề một cá nhân đóng vai trò trung gian giữa hai hoặc nhiều nhóm cộng đồng có mối liên hệ chặt chẽ thì cá nhân này sẽ có những lợi thế nhất định.
Hình 1 9 Hình ảnh minh họa lý thuyết cấu trúc lỗ
Burt cho rằng nếu ta so sánh A và B như hình 9 trên thì hình dạng mạng cá nhân của A sẽ cho A biết nhiều thông tin hơn B Cả hai cùng có số lượng mối quan hệ và giả định chúng có cùng trọng số Khi B nhận được một thông tin từ Y thì X cũng nhận được thông tin tương tự Nhưng với A có ba nhóm liên kết tới, thông tin từ A nhận được sẽ khác nhau hơn Khi đó, A nhận được nhiều thông tin hơn so với B và A được coi là có nhiều lỗ trống cấu trúc hơn B.
1.4.3 Lý thuyết của Coleman về trung tâm xã hội (Coleman social capital- CSC)
Coleman (1988) [12] lập luận rằng sự thay đổi trong mối liên hệ của những hàng xóm liên kết trực tiếp với nút gốc trong mạng cá nhân sẽ giúp ích cho nút gốc, làm tăng vốn xã hội cho nút gốc Ví dụ như một đứa trẻ sẽ được hưởng lợi nếu như cha mẹ, hàng xóm và giáo viên là bạn bè với nhau. Khi đó đứa trẻ đó sẽ được dạy bảo một cách tốt nhất.
Nhưng Burt (2005) [13] chỉ ra mâu thuẫn của quan điểm này Nếu đứa trẻ có những mối quan hệ như thế này, thông tin nó nhận được từ xã hội sẽ ít.
1.4.4 Tính chất thế giới nhỏ (small- world)
Trong những năm 1950, 1960, rất nhiều nhà nghiên cứu đã nghiên cứu giải thích sự trùng hợp giữa các mối quan hệ quen biết lẫn nhau (DeSola Pool và Kochen, 1978) [14] Các nhà nghiên cứu cho rằng xã hội có thể có nhiều mối quan hệ chặt chẽ hơn ta tưởng.
Travers và Milgram (1969) [15] đã thử nghiệm trên cơ sở ủng hộ giải thuyết này Kết quả cho thấy đường đi liên kết giữa hai người ngẫu nhiên tại Mỹ vô cùng ngắn. Đến 1999, Watts và Strogatz [16] làm thử nghiệm lại với câu hỏi tương tự Kết quả cho thấy rằng khi ta thêm một số lượng nhỏ các mối quan hệ ngẫu nhiên trong một cụm mạng thì số lượng khoảng cách giữa các nút được giảm đi triệt để Đây được gọi là tính chất thế giới nhỏ.
Hình 1.10 Hình vẽ biểu diễn khi tạo một kết nối ngẫu nhiên trong mạng được phân cụm
Theo Watts [17] cho biết có bốn điều kiện khiến tính chất thế giới nhỏ có thể xảy ra với một mạng bất kỳ.
Thứ nhất, Watts đề cập đến độ lớn của mạng Khi có một mạng đủ lớn, việc kết nối ngẫu nhiên sẽ cho ta thấy những điểm thú vị Ở ví dụ trên hình 10, ta thấy số lượng nút cũng tương đối Sau đó, ta thêm ngẫu nhiên một số cạnh vào và bằng mắt thường, ta có thể thấy khoảng cách đường đi giữa hai nút ngẫu nhiên bất kì giảm xuống. Điểm thứ hai Watts đề cập là mạng lưới thưa thớt - mọi người được kết nối với một phần nhỏ trong tổng số của mạng lưới Nếu mạng lưới dày đặc, thì khoảng cách giữa hai nút bất kì là nhỏ Điều này khi ta thêm ngẫu nhiên liên kết sẽ không chắc giảm được số đường đi giữa hai nút với nhau.
Thứ ba là sự phân cấp của mạng Khi đó, các nút trong mạng có những nút có nhiều mối liên kết và những nút khác có ít mối liên kết hơn.
Thu thập thông tin mạng xã hội
Trên thực tế, có rất nhiều thông tin về các dữ liệu mạng Để thu thập được dữ liệu thông tin mạng cho bài toán phân tích, đầu tiên, ta cần xác định loại mạng và loại quan hệ nào cần đưa vào phân tích. Đầu tiên ta xét tới loại mạng Mạng có thể chia làm hai loại chính là mạng Ego – mạng cá nhân và mạng Whole – mạng toàn bộ.
Mạng Whole cho ta cái nhìn tổng thể về cấu trúc xã hội Mạng tập trung vào tất cả các nút thay vì tập chỉ vào mạng chỉ xung quanh một nút. Các mạng này bắt đầu từ một danh sách các nút và dữ liệu về mối quan hệ giữa các nút Ví dụ có thể kể tới mạng lưới các diễn viên chính đóng cùng nhau (Watts, 1999) [22]
Loại mạng thứ hai ta xem xét được gọi là mạng Ego Mạng Ego hay mạng cá nhân là mạng bao quanh của một nút Mạng Ego này mô tả các mối quan hệ của một cá nhân Mạng này có thể mở rộng tới bậc thứ hai, tức liên kết của liên kết với nút cá nhân đang được xem xét Dữ liệu mạng Ego có thể được trích xuất từ toàn bộ dữ liệu mạng bằng cách chọn một nút gốc và kiểm tra toàn bộ những nút có liên kết với nút gốc này - hay còn gọi là nút hàng xóm.
Tiếp theo, ta xem xét tới chế độ trong mạng Mạng có thể chia làm mạng một chế độ - one mode và mạng hai chế độ - two mode.
Khi nghiên cứu mạng toàn bộ, ta thường chỉ xem xét tới một loại tính chất của nút và mọi nút có thể được kết nối với các nút khác trong mạng Đây được gọi là mạng một chế độ - mạng chỉ có một loại nút trong mạng Ví dụ như mạng những người là bạn với nhau trong trường Đại học Bách Khoa Hà Nội Tuy vậy, một số trường hợp ta có thể xem xét tới mạng hai chế độ Mạng hai chế độ là mạng khi ta xem xét thêm tính chất của đối tượng được thu thập Ví dụ như tập dữ liệu Davis 'Southern Women (Davis et al., 1941) [23] ghi lại sự tham gia của một nhóm phụ nữ (nút chính) vào một nhóm sự kiện (nút phụ) Một người phụ nữ sẽ được liên kết với một sự kiện nếu như cô ấy tham dự nó.
Thứ ba, ta cần xem xét tới loại quan hệ cần đưa vào phân tích Quan hệ ở đây được đề cập tới là tính chất có hướng hay không có hướng, có trọng số hay không có trọng số Các quan hệ có hướng biểu diễn mối quan hệ một chiều, ví dụ như A thích B Việc thích này đang được mô tả ở một chiều và không có nghĩa B cũng thích lại A Quan hệ vô hướng là khi ta không quan tâm tới chiều của nó Ví dụ như A là bạn của B Mối quan hệ này vô hướng, như vậy ta cũng có thể nói B là bạn của A Quan hệ có trọng số khi ta có thể đo lường sức mạnh của mối quan hệ đó.
Kết luận chương
Mạng xã hội là tập hợp các nút trong một xã hội và được liên kết bởi một hoặc nhiều mối quan hệ Khái niệm mạng xã hội đã ra đời và được ứng dụng bởi những nhà khoa học về xã hội như Georg Simmel và Émile
Durkheim từ đầu thế kỷ XX Dần dần, theo thời gian, hệ thống khái niệm và phân tích mạng xã hội dần được hoàn thiện.
Một mạng xã hội cũng có những cấu phần cơ bản như đồ thị là tập cạnh và tập nút Tuy nhiên, khác với đồ thị, mạng xã hội cũng có những tính chất đặc trưng như lý thuyết ràng buộc yếu được đề xuất bởi Granovetter vào năm 1973 đề cập đến sự chồng chéo hàng xóm của hai nút có liên kết mạnh Lý thuyết về lỗ trống cấu trúc - structural holes mô tả khả năng tiếp nhận thông tin của nút có lỗ trống cấu trúc sẽ nhiều hơn so với nút có liên kết chặt Lý thuyết về tính trung tâm xã hội đề cập đến sự thay đổi của nút gốc nếu những nút hàng xóm quanh nút gốc đó thay đổi Tính chất thế giới nhỏ đề cập tới số bước đi giữa hai nút bất kì trên mạng xã hội lớn là rất nhỏ Cuối cùng, tính chất phân phối lũy thừa của bậc trong mạng không có tỷ lệ - scale-free network Trong mạng này, một số những nút sẽ có nhiều mối quan hệ hơn những nút khác.
Phần tiếp theo tôi đề cập tới là những chú ý khi thu thập dữ liệu xây dựng mạng xã hội Dữ liệu hiện nay có rất nhiều nhưng nếu ta đưa hết dữ liệu vào xây dựng mạng, mạng đó sẽ thừa thông tin và gây tốn kém trong việc chạy mô hình Do vậy, việc lựa chọn đối tượng, thuộc tính đưa vào xây dựng mạng là rất quan trọng và cần đánh giá kỹ lưỡng.
Tùy theo mục tiêu nghiên cứu mà ta sẽ thu thập những dữ liệu khác nhau Ví dụ với bài toán phát hiện cộng đồng, dữ liệu về nút của ta là toàn bộ thành viên trong một nhóm nào đó; dữ liệu về cạnh ta có thể lấy tương tác có hướng hoặc không có hướng giữa hai thành viên đó; trọng số của cạnh ta có thể xem xét tần suất tương tác giữa hai thành viên;…
Nhưng nếu mục tiêu bài toán là phát hiện giao dịch bất thường, ta sẽ cần xây dựng một đa mạng Trong đó, mỗi một cặp nút trong mạng có thể có nhiều mối liên kết với trọng số có thể khác nhau.
BÀI TOÁN PHÂN TÍCH MẠNG XÃ HỘI
Phương pháp trích xuất mạng con
Việc xác định các nhóm con gắn kết trong mạng là một trong những việc đầu tiên ta cần xem xét Nhóm con gắn kết là tập hợp con của các tác nhân mà trong đó có mối quan hệ tương đối mạnh mẽ, trực tiếp, thường xuyên hoặc tích cực Những phương pháp này một phần cố gắng chính thức hóa khái niệm trực quan và lý thuyết về nhóm xã hội sử dụng các thuộc tính của mạng xã hội Tuy nhiên, do khái niệm nhóm xã hội được các nhà khoa học xã hội và hành vi sử dụng khá chung chung và có nhiều thuộc tính cụ thể của mạng xã hội liên quan đến tính gắn kết của các nhóm con nên có nhiều định nghĩa về nhóm con của mạng xã hội có thể xảy ra.
Có bốn đặc điểm chung của nhóm con gắn kết cần xem xét Đầu tiên là mối quan hệ tương đương giữa các nút Thứ hai là mức độ gần gũi hoặc khả năng tiếp cận của các thành viên trong nhóm con Thứ ba, ta đề cập tới tần suất quan hệ giữa các thành viên Và cuối cùng là tần suất tương đối của mối quan hệ giữa các thành viên trong nhóm con so với những người không phải là thành viên.
Mối quan tâm chính trong phân tích mạng xã hội là việc xác định nhóm – cộng đồng trong xã hội quan trọng Đây là một số tập hợp nhỏ hơn các nút trong đồ thị có thể cường độ hoặc tần suất của các mối quan hệ giữa chúng cao hơn so với những nút khác của mạng.
Có nhiều cách để xác định nhóm Hầu hết các phương pháp đều xem xét trên thành phần liên thông nhưng theo các cấp độ khác nhau.
Trong thực tế, mạng xã hội thường chứa nhiều nhóm những người gắn bó với nhau Ta có thể coi chúng là các nhóm con gắn kết Trong mỗi nhóm con, ta thường mong đợi những người thuộc nhóm này sẽ có nhiều quan hệ với nhau và có những tính chất tương đối giống nhau.
Trong bài luận này, tôi sẽ đề cập tới ba nhóm liên thông với ba cấp độ khác nhau: thành phần, k-core và cliques.
Các đỉnh có bậc lớn hơn hoặc bằng một là những đỉnh được kết nối với ít nhất một hàng xóm Vì vậy nút đó không bị cô lập Tuy nhiên, điều này không có nghĩa là nút đó nhất thiết phải kết nối với một đồ thị con nào đó Đôi khi, mạng lưới bị cắt thành nhiều nhóm Một nhóm con gắn kết là nhóm các đỉnh trong một mạng được nối với nhau Mỗi nhóm con này được gọi là một thành phần trong mạng.
Hình 2.1 Ví dụ về thành phần trong mạng
Hình ảnh trên ta thấy một số đỉnh được kết nối với các đỉnh khác trong khi một số đỉnh thì không Ví dụ, đỉnh v 2 không kề với bất kỳ đỉnh nào khác, nhưng bốn đỉnh còn lại có một hoặc hai người hàng xóm Nếu chúng ta coi các cung tròn là đường, chúng ta có thể đi bộ từ đỉnh v 5 đến v 3 và không xét đến hướng của các cung, chúng ta có thể tiến hành từ đỉnh v 3 đến v 1 Chúng ta nói rằng có một đường bán dẫn từ đỉnh v 5 đến đỉnh v 1 Nhưng từ đỉnh v 2 , chúng ta không thể đi đến đâu. Để làm rõ vấn đề này cũng như khái niệm về thành phần, ta sẽ đi tìm hiểu khả năng tiếp cận của một nút tới một nút khác trong mạng.
2.1.1.1 Khả năng tiếp cận Đầu tiên, ta xem xét tới khả năng tiếp cận nhằm xác định một thành phần trong mạng Khả năng tiếp cận được Fleischer và cộng sự vào năm
Các kết nối gián tiếp là thứ tạo nên cấu trúc mạng Một nút có thể tiếp cận nút khác nếu có một liên kết trong biểu đồ kết nối chúng Các liên kết có thể có hướng, dẫn đến sự phân biệt giữa các thành phần "mạnh" và "yếu".
Hình 2.2 Ví dụ khả năng tiếp cận
Trong phần này, tôi sẽ đi sâu vào khái niệm đường đi, bước đi, chu trình được đề cập trong phần lý thuyết đồ thị và thành phần mạnh, thành phần yếu trong đồ thị. Đường đi là một chuỗi các nút và cạnh bắt đầu bằng một nút và kết thúc bằng một nút khác, ta sẽ có mối liên hệ gián tiếp giữa hai nút Trên một đường đi, ta không bao giờ quay lại hoặc truy cập lại cùng một nút hai lần.
Ví dụ: a => b => c => d được gọi là một đường đi.
Một bước đi là bất kỳ chuỗi nút và cạnh nào, và có thể đi ngược lại.
Chu trình là một đường dẫn bắt đầu và kết thúc bằng cùng một nút.
Nếu có một chuỗi các liên kết từ nút này sang nút khác, thì cả hai được gọi là có tính kết nối Nếu có ít nhất một chuỗi liên kết nối mọi cặp nút trong đồ thị thì đồ thị này được liên thông và được gọi là một thành phần (component).
Thuật toán xác định các thành phần trong mạng được gọi là thuật toánSCC Ý tưởng của cách tiếp cận này là chọn một đỉnh xoay ngẫu nhiên và áp dụng các truy vấn có khả năng truy xuất ngược lại và đi tiếp từ đỉnh này Hai truy vấn phân vùng đỉnh đã đặt thành 4 tập con: các đỉnh được tìm thấy bởi hai cách hoặc các đỉnh được tìm thấy bằng mỗi cách trong hai cách trên, hoặc các đỉnh không được tìm thấy bằng hai cách trên Theo Fleischer và cộng sự, một thành phần liên thông mạnh phải được thuộc một trong các tập hợp con Tập hợp con đỉnh mà cả hai lần tìm kiếm đạt được tạo thành một thành phần được kết nối chặt chẽ và sau đó thuật toán sẽ đệ quy trên ba tập hợp con còn lại.
Xét về mặt trực quan, thành phần là tập hợp những người được kết nối với nhau bằng một chuỗi các mối quan hệ Các thành phần có thể có hướng hoặc vô hướng.
Hình 2.3 Hình ảnh ví dụ thành phần mạnh và yếu trong đồ thị Đối với một đồ thị có bất kỳ cạnh có hướng nào, có hai loại thành phần liên thông là thành phần liên thông mạnh và thành phần liên thông yếu [32]
2.1.1.2 Thành phần liên thông mạnh
Trong đồ thị có hướng, một đồ thị con được cho là liên thông mạnh nếu mọi đỉnh đều có khả năng tiếp cận tới mọi đỉnh khác Như vậy, thành phần liên thông mạnh khi có một đường đi theo mỗi hướng giữa các cặp đỉnh trong đồ thị Điều này nghĩa là, một đường đi tồn tại từ đỉnh đầu tiên đến đỉnh thứ hai, và một đường đi khác tồn tại từ đỉnh thứ hai đến đỉnh đầu tiên.
Trong đồ thị có hướng G, một cặp đỉnh u và v được cho là liên kết chặt chẽ với nhau nếu giữa chúng có một đường đi theo mỗi hướng Các mối quan hệ hai chiều này gọi là quan hệ tương đương và đồ thị con chứa nhiều nhất những quan hệ tương đương này sẽ được gọi là thành phần liên thông mạnh.
Hình 2.4 Hình ảnh ví dụ thành phần liên thông mạnh
Như vậy, thành phần liên thông mạnh trong đồ thị có hướng G là đồ thị con liên thông mạnh và lớn nhất.
2.1.1.3 Thành phần liên thông yếu
Một số thước đo thống kê mô tả đặc trưng cho mạng xã hội
Ngoài những thước đo trên đồ thị trên, mạng còn rất nhiều thước đo thống kê đánh giá một mạng như đường kính, sức mạnh (strength) của một nút hay hệ số phân cụm của một nút trong mạng.
Một đường đi trong mạng vô hướng hay gọi là đường đi trong đồ thị vô hướng là một chuỗi các đỉnh P = (v 1 , v 2 , …, v n ) V * V * V *…* V.
Trong đó, v i tiếp giáp v i+1 với 1 i n.
Một đường như vậy sẽ được gọi là một con đường có độ dài n-1 từ v 1 đến v i
Có thể có nhiều con đường giữa hai đỉnh bất kì Trong đó, con đường ngắn nhất giữa hai đỉnh sẽ được gọi là khoảng cách giữa hai đỉnh.
Như vậy, ta có khái niệm khoảng cách giữa hai đỉnh của đồ thị là số cạnh trên đường đi ngắn nhất của đồ thị Đây được gọi là khoảng cách ngắn nhất và được ký hiệu là L [28]
Trường hợp không có đường đi nào nối hai đỉnh, tức là hai đỉnh này thuộc hai thành phần liên thông khác nhau thì khoảng cách giữa hai đỉnh này được coi là vô hạn.
Ta có một số khái niệm liên quan: Đỉnh cô lập v là đỉnh có khoảng cách lớn nhất với tất cả các đỉnh khác trong đồ thị Đây có thể coi là nút xa nhất trong đồ thị. Đường kính của đồ thị khoảng cách lớn nhất giữa các cặp đỉnh trong đồ thị Để tìm được đường kính của đồ thị, ta cần xác định khoảng cách ngắn nhất giữa hai đỉnh bất kì trong đồ thị Khi đó, đường kính sẽ là khoảng cách ngắn nhất có giá trị lớn nhất mà ta tìm thấy.
2.2.2 Sức mạnh của nút trong mạng
Thực tế, trên mạng không chỉ xét tới hướng của cạnh, mà ta còn có thể xét trọng số của cạnh.
Trọng số của cạnh là sức mạnh mối quan hệ giữa hai nút Trọng số của cạnh giữa hai nút i và j thường được kí hiệu là w i,j
Một chỉ số ta có thể đề cập tới là sức mạnh [29] của một nút- hay gọi là độ mạnh của một nút. Độ mạnh của nút trong mạng vô hướng sẽ được tính như sau: s (i ) = ( j , i ) E w ji
Với: s(i) là độ mạnh của đỉnh i w i,j là trọng số giữa hai đỉnh i và j của đồ thị
Với đồ thị có hướng, ta có thể chia làm độ mạnh vào: in-strength s in (i) và độ mạnh ra: out-strength s out (i) của nút i là tổng trọng số của cạnh đi vào và đi ra tương ứng.
Ta tính in-strength của nút i sẽ được tính như sau: s in (i ) = w
( j , i ) E ji với w ji là trọng số của cạnh từ nút j đến nút i.
Ta tính in-strength của nút i sẽ được tính như sau: s out (i ) = w
( i , j ) E ij với w i j là trọng số của cạnh từ nút i đến nút j.
2.2.3 Hệ số phân cụm mạng
Hệ số đo lường phân cụm mạng – C là hệ số được tính theo trung bình mật độ địa phương với C v là mật độ mạng cá nhân tại nút v Khái niệm này được đưa ra lần đầu bởi Holland và Leinhardt vào năm 1971 [30]
Mật độ C được tính theo công thức sau:
Hệ số phân cụm cục bộ C i cho đỉnh v i sẽ được tính như sau trong mạng vô hướng: k i if d i 1
Trong mạng có hướng, mật độ được tính như sau: k if d i 1 i −1)
Trong đó, k i là số đỉnh lân cận của đỉnh i.
Một mạng có đặc trưng thế giới nhỏ là mô hình mạng có L tương đối nhỏ và C tương đối lớn.
Bài toán phát hiện cộng đồng trong mạng xã hội
Mô hình mạng xuất hiện xung quanh ta rất nhiều Những ví dụ ta có thể kể đến như mạng xã hội cộng đồng trên facebook, twitter, hay youtube,
… Xây dựng một mạng xã hội có rất nhiều ứng dụng, chẳng hạn như dự đoán liên kết, phát hiện bất thường,… Trong bài luận này, tôi sẽ đi sâu vào bài toán phát hiện cộng đồng Đây là một bài toán cơ bản trong phân tích mạng, nhưng nó cũng có vai trò rất lớn Việc phát hiện cộng đồng giúp ta tìm ra cách ứng xử riêng với từng nhóm đối tượng mà ta quan tâm.
2.3.1 Giới thiệu bài toán phát hiện cộng đồng
Một mạng được coi là có cấu trúc cộng đồng nếu các nút có thể dễ dàng nhóm lại thành tập hợp các nút sao cho mỗi nhóm nút có mật độ kết nối nội bộ cao Nguyên tắc của việc phát hiện cộng đồng cho rằng hai nút bất kì có khả năng có kết nối chặt chẽ hơn nếu hai nút đó cùng là thành viên trong một cộng đồng và có liên kết ít chặt chẽ hơn nếu hai nút khác cộng đồng.
Trong các mạng được tìm thấy, ví dụ như mạng máy tính, mạng xã hội, mạng sinh học, ta thấy được một số điểm chung trong mạng như tính chất thế giới nhỏ, phân bố bậc theo luật lũy thừa Nhưng điểm khác của các mạng này là cấu trúc cộng đồng [37]
Hình 2.9 Hình ảnh ví dụ phân cộng đồng
Vậy cộng đồng là gì? Cộng đồng là một nhóm người hoạt động chung một mục đích Cộng đồng trên mạng xã hội có thể coi là một nhóm người có cùng sở thích, quan điểm, có chung mục đích về một lĩnh vực nào đó như cộng đồng khoa học, cộng đồng xử lý ngôn ngữ tự nhiên, cộng đồng văn hóa - thể thao Về định nghĩa [31] , cộng đồng là sự phân vùng tập hợp của các đỉnh. Mỗi một nút trong mạng sẽ được đưa vào một cộng đồng Đây là trường hợp đơn giản và hầu hết các phương pháp đều hướng đến việc phát hiện cộng đồng theo kiểu này Tuy nhiên, vẫn có thể xảy ra trường hợp một nút thuộc hai hoặc nhiều cộng đồng Trong phần nghiên cứu dưới đây, tôi đề cập tới việc phát hiện cộng đồng cho mỗi nút là duy nhất.
2.3.1.2 Các phương pháp phát hiện cộng đồng
Các cộng đồng đã được điều tra từ những năm 1920 trong lĩnh vực xã hội học Tuy nhiên, tại thời điểm đó, máy móc chưa hiện đại đã ảnh hưởng lớn tới việc phát triển bài toán này Kể từ năm 2002, Girvan và Newman [31] đã mở ra một hướng đi mới với phân vùng đồ thị Trong hai mươi năm qua, các nhà nghiên cứu từ khoa học máy tính đã nghiên cứu sâu rộng về phát hiện cộng đồng bằng cách sử dụng cấu trúc mạng và thông tin ngữ nghĩa cho cả mạng tĩnh và mạng động, mạng nhỏ và mạng lớn. Để phát hiện được cộng đồng trong một mạng ngẫu nhiên là tương đối khó Số lượng cộng đồng trong mạng thường là không xác định, đồng thời, kích thước và mật độ cũng không đồng đều Hiện nay đã có rất nhiều phương pháp hỗ trợ giúp ta phát hiện cộng đồng mạng với mức độ thành công khác nhau [32] [33]
Phương pháp đầu tiên kể đến là phương pháp cắt tối thiểu Trong phương pháp này, mạng chia làm những phần được xác định trước, thường có cùng kích thước và được chọn sao cho số lượng cạnh giữa các nhóm có ít nhất có thể Ví dụ có thể kể đến là bài toán cân bằng tải cho tính toán song song Tuy nhiên, phương pháp này không được đánh giá tối ưu trong phát hiện cộng đồng [34]
Phương pháp phân cụm phân cấp (Hierarchical Clustering): đây là nhóm phương pháp khai phá cấu trúc cộng đồng phân cấp theo ba phương pháp: phân chia, cộng gộp và phép lai [35] Trong phương pháp này, ta định nghĩa một thước đo tương tự để định lượng dạng tương đồng giữa các cặp nút Các độ đo thường sử dụng là độ đo cosine, chỉ số Jaccard hay khoảng cách Hamming giữa các ma trận kề Sau đó, các nút có độ tương đồng với nhau sẽ được nhóm lại thành một cộng đồng Có hai dạng phân nhóm phổ biến là phân cụm liên kết đơn [36] Phân cụm này sẽ xác định hai nhóm được coi là cộng đồng riêng biệt khi và chỉ khi tất cả các cặp nút trong các nhóm khác nhau có độ tương đồng thấp hơn một ngưỡng nhất định Dạng thứ hai là phân cụm liên kết hoàn chỉnh [37] Trong dạng này, tất cả các nút trong một cộng đồng sẽ phải lớn hơn một ngưỡng nhất định.
Phương pháp thứ ba kể tới là phương pháp tối ưu hóa modularity Đây là một trong những phương pháp được sử dụng rộng rãi trong bài toán phát hiện cộng đồng Tính modularity là một hàm tính toán đo lường chất lượng một bộ phận cụ thể trong mạng thành các cộng đồng Phương pháp tối đa hóa modularity phát hiện các cộng đồng bằng cách tìm kiếm những phần trên mạng có modularity cao Vì tìm kiếm toàn diện trên tất cả thường khó thực hiện Do vậy, các thuật toán thực tế thường dựa trên các phương pháp tối ưu hóa gần đúng như thuật toán tham lam, mô phỏng (simulated annealing) hoặc tối ưu hóa phổ Các cách tiếp cận khác nhau cũng sẽ có tốc độ và độ chính xác khác nhau [38]
Suy luận thống kê -Stochastic Block Model (SBM) là một mô hình tổng hợp được áp dụng rộng rãi bằng cách gán các nút vào các cộng đồng và kiểm soát khả năng xảy ra của chúng Ưu điểm của phương pháp này là tính nguyên tắc của nó và khả năng giải quyết vấn đề trên thống kê cơ bản Hầu hết, các phương pháp tài liệu đều dựa trên mô hình khối ngẫu nhiên [39]
Các phương pháp dựa trên cliques Cliques là những đồ thị con trong đó mọi nút được kết nối với mọi nút khác trong cliques Phương pháp này có thể tạo ra những cộng đồng chồng chéo lên nhau.
2.3.1.3 So sánh phát hiện cộng đồng và phân nhóm
Theo M.Newman [34] , ta có thể lập luận rằng phát hiện cộng đồng tương tự như phân cụm.
Phân cụm là một kỹ thuật học máy trong đó các điểm dữ liệu tương tự được nhóm vào cùng một cụm dựa trên các thuộc tính của chúng Mặc dù phân cụm có thể được áp dụng cho các mạng, nhưng nó là một lĩnh vực rộng hơn trong học máy không giám sát, liên quan đến nhiều loại thuộc tính.
Mặt khác, tính năng phát hiện cộng đồng được điều chỉnh đặc biệt để phân tích mạng phụ thuộc vào một loại thuộc tính duy nhất được gọi là các cạnh Ngoài ra, các thuật toán phân cụm có xu hướng tách các nút ngoại vi đơn lẻ khỏi các cộng đồng mà nó nên thuộc về.
Tuy nhiên, cả kỹ thuật phân cụm và phát hiện cộng đồng đều có thể được áp dụng cho nhiều vấn đề phân tích mạng và có thể nêu ra những ưu và nhược điểm khác nhau tùy thuộc vào phương pháp.
2.3.1.4 Vai trò của bài toán phát hiện cộng đồng
Cấu trúc cộng đồng khá phổ biến trong mạng thực Mạng xã hội bao gồm các nhóm cộng đồng dựa trên vị trí, sở thích, nghề nghiệp, v.v [45] chung.
Việc tìm kiếm một cấu trúc cộng đồng cơ bản trong một mạng có ý nghĩa rất quan trọng Các cộng đồng cho phép ta có cái nhìn toàn diện trong mạng vì những cộng đồng trong mạng sẽ có cách hoạt động khác nhau. Điều này giúp ta phân tích dễ hơn.
Ngoài ra, việc xác định các cấu trúc cộng đồng này trong mạng có thể cung cấp thông tin chi tiết về cách chức năng mạng và cấu trúc liên kết ảnh hưởng lẫn nhau.
Xác định nút quan trọng trong cộng đồng qua tính trung tâm
Trong lý thuyết đồ thị hoặc phân tích mạng, các chỉ số trung tâm thường thể hiện số lượng liên kết của một nút Ứng dụng của tính trung tâm có rất nhiều, ví dụ như người có ảnh hưởng nhất trong mạng xã hội hay tìm kiếm người siêu lây lan trong dịch bệnh [45]
Tính trung tâm là khái niệm xác định vị trí của một nút cư trú trong mạng Độ đo này giúp ta xác định trong các nút, nút nào có vị trí trung tâm của mạng, nút nào nằm bên rìa của mạng Việc xác định này sẽ giúp ta so sánh được hai nhóm này với nhau.
Các chỉ số trung tâm sẽ trả lời cho câu hỏi "Đặc trưng của một đỉnh quan trọng là gì?" Câu trả lời được đưa ra dưới dạng một hàm có giá trị thực trên các đỉnh của đồ thị Trong đó, các chỉ số đó được mong đợi sẽ cung cấp một thứ hạng xác định các nút quan trọng nhất trong mạng
Tính quan trọng có rất nhiều nghĩa dẫn đến nhiều định nghĩa khác nhau về vị trí trung tâm Ta có thể xem xét theo hai hướng sau. Đầu tiên, tính trung tâm có thể được hình thành liên quan đến một loại luồng trên mạng Điều này cho phép các vị trí tập trung được phân loại theo loại luồng mà ta coi là quan trọng [46]
Cách hiểu thứ hai, ta xem xét theo hướng xác định sự tham gia của nút vào tính gắn kết của mạng Điều này cho phép các vị trí được phân loại dựa trên chỉ số đo lường tính gắn kết [47]
Các phép đo trên độ đo tính trung tâm thường đếm số lượng đường đi qua một số đỉnh nhất định Các thước đo bao gồm bậc, khoảng cách trung tâm [48] hoặc thước đo mức độ tập trung khác như vị trí trung tâm.
Trên thực tế, việc xác định chính xác ý nghĩa về ‘trung tâm’ khá phức tạp nhưng về cơ bản, ta thường hiểu những nút có vị trí trung tâm là những nút quan trọng trong mạng.
2.4.1 Mức độ trung tâm theo bậc (Degree centrality)
Khái niệm trực quan nhất về tính trung tâm là mức độ trung tâm theo bậc Chỉ số này thể hiện số lượng mối quan hệ của một nút (số lượng liên kết mà một nút có) Khái niệm này định nghĩa sự tập trung của đồ thị [49] Trong trường hợp mạng có hướng, chỉ số này sẽ được xác định qua hai thước đo riêng biệt là bậc vào và bậc ra.
Hình 2.15 Hình ảnh ví dụ về bậc
Mức độ trung tâm của nút v với đồ thị G (V, E) được tính như sau:
Trong đó, C D là mức độ trung tâm, hay gọi là bậc của nút v. Để tính toán C D (G), ta tính theo các bước sau:
Cho v * là nút có mức độ trung tâm cao nhất trong G.
Việc tính toán chỉ số này cho tất cả các nút trong biểu đồ sẽ mất thời gian O(V 2 ) trên ma trận kề dày đặc.
Tuy nhiên, đây là thước đo mang tính cục bộ nên một số nút có bậc cao chưa chắc là quan trọng nhất trong mạng.
2.4.2 Khoảng cách trung tâm (Closeness centrality)
Trong đồ thị có hướng, khoảng cách trung tâm của một nút là độ dài trung bình của đường đi ngắn nhất giữa nút đó với tất cả các nút trong mạng Khi đó, nút càng gần tâm thì nó sẽ có chiều dài đường đi tới các nút khác trong mạng sẽ càng ngắn.
Chỉ số này được phát hiện bởi Alex Bavelas (1950) và được định nghĩa là tác nhân tương hỗ [50] Chỉ số được tính như sau:
Trong đó, d(x,y) là khoảng cách giữa x và y Tuy nhiên, khi nói về khoảng cách trung tâm, mọi người thường đề cập đến dạng chuẩn hóa của nó là nhân với N với N là số nút trong mạng.
Chỉ số này cho phép ta so sánh giữa các nút trong đồ thị có kích thước khác nhau, đặc biệt trong đồ thị có hướng.
2.4.3 Vị trí trung tâm (Betweenness centrality)
Vị trí trung tâm là thước đo tính trung tâm của một đỉnh Tính trung tâm của một nút sẽ được định lượng là số lần một nút hoạt động với vai trò cầu nối trên đường đi ngắn nhất giữa hai nút khác Linton Freeman ban đầu giới thiệu chỉ số này như một thước đo để định lượng khả năng kiểm soát của một người đối với sự giao tiếp giữa những người khác trong mạng xã hội [51] Theo quan điểm của ông, những nút có xác suất cao xảy ra trên con đường ngắn nhất giữa hai đỉnh được chọn ngẫu nhiên sẽ có chỉ số vị trí trung tâm cao.
Vị trí trung tâm của một đỉnh v trong đồ thị G được tính như sau:
- Trên mỗi cặp đỉnh (s, t), ta tính đường đi ngắn nhất giữa chúng
- Xác định số lượng đường đi ngắn nhất qua đỉnh v
- Tính tổng tỷ lệ trên cặp đỉnh này
Ta có thể tính theo công thức sau:
Trong đó, σ st là tổng số đường đi ngắn nhất từ nút s tới nút t và σ st (v) là tổng số đường đi ngắn nhất giữa s và t qua v.
Hai chỉ số khoảng cách trung tâm và vị trí trung tâm tính yêu cầu tính toán đường đi ngắn nhất giữa tất cả cặp đỉnh trên đồ thị Như vậy, thời gian tính toán sẽ là O(V 3 ).
Kết luận chương
Mạng xã hội được xây dựng từ cơ sở dữ liệu thực tế thường là những mạng thưa và lớn Để áp dụng thuật toán phân tích vào mạng xã hội này, ta cần trích xuất ra một đồ thị con phù hợp Có rất nhiều phương pháp giúp ta trích xuất đồ thị con từ một mạng lớn Chẳng hạn như trích xuất theo thành phần của mạng là đồ thị liên thông mạnh (hoặc yếu) lớn nhất trong mạng.
Một cách khác ta có thể trích xuất theo cliques lớn nhất của mạng. Một cliques là đồ thị con trong đó mỗi nút đề được liên kết với các nút còn lại trong mạng Điều kiện của cliques khá chặt, do đó ta có thể xem xét tới phương pháp k-cores Phương pháp này giúp ta xác định đồ thị con liên thông lớn nhất trong đó mỗi nút phải có bậc thấp nhất bằng k.
Phần tiếp theo tôi đưa ra những chỉ số thống kê mô tả của mạng như khoảng cách, đường kính của mạng hay sức mạnh của nút trong mạng. Những chỉ số thống kê này giúp ta có đánh giá ban đầu về mạng được phân tích.
Phần thứ ba tôi đề cập đến thuật toán Leiden giúp phát hiện cộng đồng trong mạng Đây là thuật toán được cải tiến từ thuật toán Louvain bởi VA.Tragg và cộng sự vào năm 2018 Thuật toán được xây dựng dựa trên việc tối ưu modularity Modularity trong mạng là chỉ số giúp ta đo độ mạnh của việc phân chia mạng thành những cộng đồng khác nhau Đây cũng là một chỉ số đánh giá cho mô hình bài toán này.
Phần thứ tư tôi đề cập đến những chỉ số đánh giá tính trung tâm của một nút Bậc là chỉ số trực quan và quen thuộc nhất khi đánh giá tính trung tâm của một nút Những nút có bậc cao trong mạng là những nút có nhiều liên kết Tuy nhiên, không phải lúc nào những nút có bậc cao cũng là những nút quan trọng trong mạng Do đó, tôi xem xét tới hai chỉ số là khoảng cách trung tâm và vị trí trung tâm Khoảng cách trung tâm đề cập đến khoảng cách của một nút tới trung tâm của mạng Nút có khoảng cách càng gần trung tâm thì nút có khả năng quan trọng hơn Vị trí trung tâm đề cập đến xác suất nút đó nằm trên được đi ngắn nhất giữa hai nút bất kỳ trong mạng Nút nào có chỉ số này càng cao, chứng tỏ nút có vị trí càng trung tâm trong mạng.
MÔ HÌNH THỰC NGHIỆM
Ý nghĩa của bài toán trong ngân hàng
Dữ liệu giao dịch của các doanh nghiệp có thể được sử dụng là thông tin cơ bản để thấy được mối quan hệ giao dịch của doanh nghiệp đó với các doanh nghiệp khác Nhìn chung, hầu hết các ngành đều hình thành một chuỗi cung ứng từ một nhóm các công ty hàng đầu kết nối với những công ty nhỏ hơn Và các kết nối thương mại giữa các quốc gia tạo nên một mạng lưới chuỗi cung ứng khổng lồ thể hiện cấu trúc giao dịch giữa các công ty. Cấu trúc của mối quan hệ giao dịch khác nhau giữa các ngành.
Mạng là một phương pháp hiệu quả để biểu diễn các đối tượng và các mối quan hệ của chúng trong một nhóm Nó cũng cung cấp các giải thích cho các hiện tượng xã hội khác nhau và đã được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau bao gồm khoa học xã hội, chính trị và kinh tế.
Hiện nay, các phân tích mạng lưới tài chính thường tập trung vào mạng lưới thương mại hoặc mạng lưới giao dịch liên ngân hàng Hầu hết các nghiên cứu đều xây dựng dựa trên dữ liệu tổng hợp Một số ví dụ ta có thể kể đến như PaySim [55] xây dựng trên mạng tổng hợp hoặc các nhiệm vụ phát hiện bất thường [56]
Trong ngân hàng, việc phân tích mạng lưới giao dịch thông qua dữ liệu giao dịch giữa các khách hàng doanh nghiệp (KHDN) có thể được sử dụng làm thông tin cơ bản để thấy được dòng tiền ở mức độ vi mô Mạng lưới giao dịch giữa các đơn vị có thể được tạo ra từ dữ liệu giao dịch mua và bán giữa các công ty giúp chúng ta nắm bắt được các đặc điểm cấu trúc của giao dịch trong hoạt động thực tế Ngoài ra, những thông tin về tập thể, nhóm sẽ có thể giúp ta bổ sung thêm những đặc điểm cá nhân của khách hàng.
Phát hiện cộng đồng trong mạng giúp ta xác định được nhóm những khách hàng có liên kết với nhau Ta có thể xem xét dòng tiền chảy trong mỗi nhóm Tác động của dòng tiền tới mỗi nhóm cũng là khác nhau Ngoài ra, việc xác định cộng đồng sẽ gán mỗi nút với mỗi cộng đồng Những nút có quan hệ chặt chẽ và có tính chất tương đồng nhau sẽ được đưa vào thành một nhóm Đây chính là một thuộc tính giúp ta đánh giá một khách hàng trong các bài toán phân tích tiếp theo.
Xác định nút quan trọng trong mạng nhằm đưa ra những khách hàng có vai trò quan trọng trong mạng Những khách hàng này nên được hưởng những chính sách ưu đãi và chăm sóc tốt vì những khách hàng này là cầu nối của dòng tiền trong một cộng đồng nhất định Nếu ta mất khách hàng có vị trí quan trọng này, có thể ta sẽ mất những khách hàng có liên kết với nút đó Do đó, nút quan trọng trong đường nối giao dịch giữa các khách hàng rất quan trọng, ta cần có những chính sách phù hợp với những đối tượng khách hàng này.
Dữ liệu đầu vào bài toán
Bài luận này xây dựng mạng trên cơ sở dữ liệu của ngân hàngThương Mại Cổ Phần Công Thương Việt Nam vào tháng 12 năm 2020.
Tập dữ liệu bao gồm các tài khoản ngân hàng và các giao dịch giữa chúng Đối với bất kì cặp tài khoản nào có thể có một hoặc nhiều giao dịch, tôi thu thập thêm thông tin về số lượng giao dịch và số tiền giao dịch giữa hai tài khoản này.
Tập dữ liệu bao gồm 59.529 công ty tương ứng với nút và 52.792 cạnh tương ứng với 52.792 mối quan hệ trong mạng.
Trong dữ liệu thực tế này, số lượng nút lớn (59.529 nút) trong khi số cạnh nhỏ hơn (52.792 cạnh) Vì dữ liệu giao dịch của khách hàng trong ngân hàng có tính bảo mật cao, nên trong phần thực nghiệm trình bày này, tôi chỉ có thể lấy dữ liệu giao dịch của toàn bộ KHDN trong vòng một tháng Đó là nguyên do mà số nút ta thu thập trong mạng nhiều hơn số cạnh.
Mạng được xây dựng là một mạng rất lớn và thưa với nhiều thành phần liên thông Tôi tính toán được tổng cộng có 8.980 thành phần liên thông trong mạng này.
Ta có bảng mô tả số nút và số cạnh của 05 thành phần lớn nhất:
Bảng 3.1 Bảng mô tả 5 thành phần lớn nhất trong mạng
STT Tên Số nút Số cạnh
Dưới đây là bảng mô tả số lượng thành phần liên thông chứa từ 05 nút trở xuống:
Bảng 3.2 Bảng mô tả số lượng nút của các thành phần nhỏ nhất
STT Số Số thành phần Tỷ lệ theo Tỷ lệ theo Tỷ lệ theo nút thành phần số nút số cạnh
Ta thấy, hầu hết các thành phần đều rất nhỏ Số thành phần có dưới 5 nút chiếm trên 90% Trong khi thành phần lớn nhất có 31.144 nút (chiếm 52.53% số nút của mạng) và 33.313 cạnh (chiếm 63.1% số cạnh của mạng).
Phân tích mạng thành phần 1 (thành phần lớn nhất), ta có bảng mô tả số lượng nút có bậc bằng 1 như sau:
Bảng 3.3 Bảng mô tả số lượng nút có bậc bằng 1 trong thành phần lớn nhất
STT Bậc Số nút Tỷ lệ theo nút Tỷ lệ theo cạnh
Ta thấy, trong thành phần lớn 1, số lượng nút bậc bằng 1 chiếm phần lớn trong mạng (74,5%) Do vậy, dựa theo lý thuyết về trích xuất mạng con, ta có thể lấy mạng con theo phương pháp k-core, với k = 2.
Tuy nhiên, trong bài luận này, để mạng có tình tổng quát nhất, tôi áp dụng thuật toán trên mạng con là thành phần thứ nhất Tôi gọi thành phần này là mạng G (V, E) với V là tập đỉnh trong thành phần này và E là tập cạnh.
Xem xét thông tin thu thập được, ta có hai dạng trọng số cạnh: (i) trọng số là tổng số tiền được chuyển giữa hai tài khoản; (ii) trọng số là tổng số lần giao dịch giữa hai tài khoản Mạng thứ nhất là G T và mạng thứ hai là G N
Newman (2002) đã phân loại các mạng scale-free network trong thế giới thực thành bốn loại chính: (i) Sinh học, (ii) Thông tin, (iii) Công nghệ và
(iv) Xã hội [8] Mạng được xây dựng trên giao dịch ngân hàng thuộc danh mục mạng thông tin Như vậy, mạng này xây dựng là một mạng scale-free.
Các đặc điểm của mạng
Hình dưới là hình vẽ hiển thị đồ thị con của mạng Phương pháp lấy mẫu là snowball sampling [57] Mẫu được trích xuất từ mạng bằng cách chọn ngẫu nhiên một nút nguồn (nút 25) và tất cả các nút có khoảng cách l
Hình 3.1 Hình ảnh một phần về mạng được xây dựng trên bộ dữ liệu đầu vào
Hình mô tả cho thấy mạng bao gồm một số nút trung tâm kết nối tốt với nhau và các cụm nhỏ như một số mạng scale-free khác.
Thống kê tham số đường kính và mật độ trong mạng G, ta có biểu đồ sau:
Bảng 3.4 Bảng tham số đường kính và mật độ của mạng G
Theo như bảng thống kê trên, ta thấy đường kính của đồ thị bằng 38.Tức khoảng cách lớn nhất giữa các cặp đỉnh trong đồ thị là 38 cạnh Trong khi đó, mật độ của đồ thị khá nhỏ. Để hiểu thêm về cấu trúc mạng, tôi xây dựng thêm hình vẽ mô tả khoảng cách trung bình của một nút tới tất cả các nút còn lại trong mạng. Trục hoành là khoảng cách trung bình từ một đỉnh tới các đỉnh còn lại trong mạng Trục tung là số lượng nút có khoảng cách tương ứng.
Hình 3.2 Số lượng nút trung bình ứng với mỗi khoảng cách l
Khoảng cách giữa hai đỉnh trong một đồ thị là số cạnh trên đường đi ngắn nhất Các chỉ số về khoảng cách trung bình kết hợp với chỉ số đường kính phía trên, ta thấy mạng khá thưa Cụ thể khoảng cách bình quân của một nút tới tất cả nút còn lại trong mạng là khoảng 25 Mật độ trong mạng cũng nhỏ.
Tiếp theo, ta tiếp tục xem xét phân bố lũy của bậc trong mạng.
Hình 3.3 Phân bố bậc trong mạng Hình trái là hình vẽ số lượng nút với bậc tương ứng trong mạng G Hình phải là số lượng nút với bậc vào và bậc ra tương ứng trong mạng G Đường màu xanh trong hình bên phải hiển thị in-degree – bậc vào, màu cam là out_degree – bậc ra Ta thấy bậc vào có số lượng ít hơn so với bậc ra.Trong mạng hiện tai, ta chưa tính toán được phân phối lũy thừa chính xác của mạng những ta thấy mạng này có phân phối bậc giảm nhanh chóng.
Như vậy, mạng tập trung vào những trung tâm trong mạng Điều này hợp lý vì khi ta vẽ ví dụ mẫu về mạng phía trên, ta đã thấy được tính chất này. Để hiểu rõ hơn, ta có biểu đồ biểu diễn bậc vào và ra của mạng như sau:
Hình 3.4 Hình vẽ mô tả bậc vào và ra của mạng
Hình vẽ cho thấy không có sự tương quan giữa số bậc vào và ra của một nút Hệ số tương quan Spearman là −0,15 Điều này hợp lý vì hầu hết các tài khoản có nhiều hoạt động chuyển ra hơn chuyển vào.
Với hai mạng có trọng số G T và G N , ta có hình vẽ mô ta phân phối trọng số của cạnh:
Hình 3.5 Hình vẽ mô tả phân phối cạnh của đồ thị G T và G N
Ngoài ra, tôi phân tích tương quan giữa hai trọng số là số tiền và số lần chuyển tiền, hệ số tương quan Spearman của cả hai loại trọng số cạnh là 0,42 Kết quả cho thấy rằng những người dùng có thể có mối tương quan giữa tổng số tiền đã chuyển và số lượng giao dịch theo thời gian Về thực tế, điều này đúng Tổng số tiền sẽ ngày càng nhiều nếu ta chuyển nhiều lần.
Hình 3.6 Hình vẽ mô tả tương quan số lần chuyển tiền và số tiền
Mô hình mạng có trọng số có chứa nhiều thông toán sức mạnh vào: in-strength s in (i) và sức mạnh ra: nút i với tổng trọng số của cạnh đi vào và đi ra tương tin hơn Do đó, tôi tính out-strength s out (i) của ứng.
Hình 3.7 Phân phối của bậc vào và bậc ra
Ta thấy ở mạng G T , sức mạnh ra thấp hơn sức mạnh vào Ta có thể phân tích tại thời điểm tháng 12 này, hầu hết công ty đều đang trong giai đoạn thu hồi các khoản tiền còn tồn trong năm để kết toán năm Do đó, in- strength thấp hơn out-strength.
Còn với mạng G N , sức mạnh vào thấp hơn sức mạnh ra Điều này chứng tỏ công ty chuyển đi với số lượng lớn Điều này có thể giải thích qua việc phát và thưởng lương nhân viên, hoặc những phúc lợi vào tháng này.
Phát hiện cộng đồng trong mô hình mạng
Trong doanh nghiệp, việc phát hiện một những khách hàng cùng nhóm có ý nghĩa rất lớn Ta không chỉ có thể xây dựng những chiến lược kinh doanh phù hợp với nhóm khách hàng, còn đẩy mạnh doanh thu sản phẩm từ khách hàng.
Trong bài luận này, tôi thực hiện phân tích trên mô hình mạng G, G T ,
G N nhằm so sánh ba mạng này. Đầu tiên, ta xem xét thống kê mô tả ba mạng như sau:
Bảng 3.5 Thống kê mô tả các tham số của ba mạng đầu vào
Mạng Chỉ số Min Max Mean
Chỉ số phân cụm theo trọng số 0 0.0027 2.7* 10 −7
Chỉ số phân cụm theo trọng số 0 0.054 1.83*10 −5
Ta thấy, với mạng G thì bậc vào thấp nhất là 0 và cao nhất là 120. Trung bình bậc vào của mạng G là 1.08 Điều này có nghĩa trung bình mỗi nút của mạng G chỉ có xấp xỉ một liên kết vào Mặt khác, bậc ra của mạng
Gcó giá trị thấp nhất là 0 vào cao nhất là 1264 Giá trị trung bình bậc là 2.01. Điều này có nghĩa là trung bình mỗi một nút sẽ có chứa xấp xỉ hai liên kết đi ra Như vậy, trong tháng 12 này, các doanh nghiệp có xu hướng chuyển đi nhiều hơn chuyển về.
Trên mạng G T , ta thấy sức mạnh vào của một nút trong mạng dao động trong khoảng từ 0 VNĐ tới 192.080.400.060 VNĐ; giá trị sức mạnh trung bình của một nút là khoảng 411.350.200 Sức mạnh ra trung bình của một nút trong mạng dao động khoảng từ 0 VNĐ tới 494.651.970.000 VNĐ; giá trị trung bình là 400.350.200 VNĐ Kết hợp với mạng G, ta thấy mặc dù số lượng liên kết vào với một nút thấp, nhưng số tiền chuyển vào là tương đối lớn Ta có thể thấy giá trị trung bình sức mạnh vào lớn hơn trung bình sức mạnh ra của mạng G T Như vậy, ta có thể kết luận rằng khách hàng trong tháng 12 này có chi rất nhiều các việc với số lượng tiền ít Đó có thể là chi hỗ trợ tết, thưởng tế cho người lao động,… Còn những giá trị vào có thể là thu hồi nợ cuối năm.
Trên mạng G N , ta thấy sức mạnh ra trung bình của nút dao động khoảng từ 0 đến 2253; giá trị trung bình là 2,22 Sức mạnh vào trung bình dao động từ 0 đến 3205; giá trị trung bình là 2,13 Như vậy, ta thấy số lần giao dịch đi của một nút nhiều hơn số lần giao dịch vào Điều này hợp lý với những phân tích phía trên.
Tiếp tới, ta so sánh chỉ số phân cụm trung bình của ba mạng đã dựng.
Ta thấy, chỉ số phân cụm của mạng G có giá trị cao nhất so với mạng G N và
G T Điều này có nghĩa là trong mạng không có trọng số, nút sẽ có xu hướng tập hợp với nhau nhiều hơn so với mạng G N và G T Như vậy, có khả năng số cộng đồng phát hiện được bởi mạng G sẽ ít nhất so với mạng G T và G N Để chứng thực điều trên, tôi thực hiện phát hiện cộng đồng với thuật toán Leiden với bộ dữ liệu G, G T , G N Tôi thực hiện tối ưu hóa modularity và chạy lại với khoảng 10 lần chạy.
Kết quả tôi thu được như sau:
Bảng 3.6 Bảng so sánh các chỉ số phân cụm của ba mạng đầu vào
Trong phần này, tôi sử dụng năm chỉ số chính để so sánh phân vùng của ba mạng đầu vào Thứ nhất là số cụm đầu ra của mỗi mạng G, G T , G N
Ta thấy, mạng G T là mạng đưa ra số cụm đầu ra lớn nhất; mạng G N là mạng đưa ra chỉ số cụm lớn thứ hai và gần xấp xỉ số cụm mạng G đưa ra. Điều này đúng như phần trên ta đã phân tích.
Thứ hai là kích thước của cộng đồng lớn nhất được phát hiện Cả ba mạng đều đưa ra cộng đồng có kích thước là 1265 là cộng đồng lớn nhất. Thực tế, so sánh trực tiếp trên kết quả đầu ra, tôi nhận thấy cộng đồng đưa ra bởi ba mạng này là giống nhau.
Thứ ba kích thước của cộng đồng bé nhất được phát hiện Mạng G T có xu hướng chia nhỏ cộng đồng hơn là hai mạng kia Qua ba chỉ số đầu tiên, ta thấy mạng G và G N kết quả đưa ra gần giống nhau hơn mạng G T Điều này có thể giải thích nguyên do dữ liệu đầu vào có số lượng lớn các nút đều có trọng số về tần suất là 1.
Thứ tư là số lượng nút trung bình của mỗi cụm Mạng G có giá trị trung bình lớn nhất, sau đó tới mạng G N và cuối cùng là mạng G T
Thứ năm tôi so sánh đến chỉ số modularity được tối ưu với từng mạng Những chỉ số này đều được chạy lại 10 lần và tối ưu trên mô hình. Modularity có giá trị trong khoảng [-1;1] Giá trị càng gần -1 tức điểm phân chia không thuộc về vùng dự kiến phân chia Còn điểm modularity có giá trị tiến tới 1 nghĩa là điểm phân chia khả năng cao thuộc về vùng phân chia Giá trị modularity bằng 0 có nghĩa là điểm phân chia không khác gì khi ta phân cụm ngẫu nhiên Ta thấy nhìn ba mô hình mạng đều có giá trị modularity gần như nhau.
Qua bảng so sánh các chỉ số sau phân cụm của cả ba mô hình mạng, ta thấy mạng G T là mạng có chỉ số modularity tốt và các chỉ số khác cũng tốt hơn Mạng G và G N có các chỉ số gần tương tự nhau Điều này giải thích rằng,trọng số tần suất trọng mạng này có thể chưa có nhiều ý nghĩa trong việc phát hiện cộng đồng mới Trọng số về tổng số tiền giao dịch có vẻ có ý nghĩa để phát hiện cộng đồng hơn Thật vậy, trên hình mô tả 30 (trái), ta thấy giá trị trọng số tần suất của đồ thị bằng 01 chiếm phần lớn Do đó, đây có thể là nhiễu trong việc phát hiện cộng đồng với mạng G T Để tránh điều này, trong tương lai, tôi định hướng xây dựng đồ thị trên toàn bộ dữ liệu lịch sử giao dịch của khách hàng Khi đó, ta sẽ có cái nhìn tổng quát hơn về mối quan hệ giữa các khách hàng.
Phát hiện nút quan trọng
3.5.1 Phát hiện nút quan trọng trên toàn bộ mạng
Trong ngân hàng cũng như doanh nghiệp, việc phát hiện vai trò quan trọng của một nút có ý nghĩa rất lớn Việc phát hiện này giúp doanh nghiệp có thể xác định khách hàng quan trọng trong mạng lưới Từ đó ta có những chính sách ưu đãi hoặc chiến lược phù hợp.
Trong mô hình mạng này, tôi xác định danh sách khách hàng quan trọng từ mạng qua những chỉ số thống kê cơ bản của mạng là bậc của nút. Chỉ số bậc sẽ cho thấy số lượng liên kết tới một nút Hay nói cách khác là có bao nhiêu quan hệ với một khách hàng nhất định.
Bảng dưới đây thể hiện top những khách hàng có vai trò quan trọng trong mạng qua chỉ số bậc và bậc vào, bậc ra của mạng:
Bảng 3.7 Công ty có số lượng quan hệ cao nhất
STT ID Bậc Bậc vào Bậc ra
Ta thấy, khách hàng có bậc bằng 1264 là khách hàng có số bậc cao nhất trong hệ thống Tuy nhiên, theo lý thuyết, nút có bậc cao nhất chưa chắc đã là nút quan trọng nhất trong mạng Do đó, ta xét thêm hai chỉ số là khoảng cách trung tâm và vị trí trung tâm.
Chỉ số khoảng cách trung tâm mô tả khoảng cách giữa một nút với các nút khác trong mạng lưới Nút có vai trò trung tâm cao có tầm quan trọng về phạm vi và mức đô ̣ảnh hưởng trong việc khuếch tán thông tin trong mạng lưới Nếu một nút có khoảng cách trung tâm thấp thì để giao tiếp với các nút khác, nút sẽ phải đi qua rất nhiều nút khác trong mạng.
Vi tṛí trung tâm xác định tầm quan trọng tương đối của một nút bằng cách đo lưu lượng các liên kết chảy qua nút đó đến các nút khác trong mạng Vị trí trung tâm của một nút là cao khi có một xác suất lớn sẽ đi qua nút đó khi lựa chọn ngẫu nhiên con đường ngắn nhất giữa hai đỉnh bất kỳ.
Do đó, nút đó tạo ra sự kiểm soát nguồn thông tin liên lạc giữa các nút khác trong mạng lưới.
Trong thực tế, các tác nhân bên ngoài mạng lưới có thể giao tiếp hoặc trao đổi thông tin với các nút khác trong mạng chỉ bằng cách đi qua các đỉnh trung tâm.
Bảng dưới đây mô tả top những công ty có chỉ số độ đo vị trí trung tâm và khoảng cách trung tâm tốt nhất Trong mạng, những công ty này được ghi nhận là những nút quan trọng nhất.
Bảng 3 8 Khách hàng có chỉ số khoảng cách trung tâm tốt nhất
STT ID Bậc Bậc vào Bậc ra Vị trí trung tâm Khoảng cách trung tâm
Ta thấy, nút 4897 có bậc cao nhất, đồng thời cũng là nút có vị trí trung tâm nhất mạng.
Một số nút có chỉ số vị trí trung tâm cao nhưng chỉ số khoảng cách trung tâm thấp Điều này chứng tỏ những nút này là nút quan trọng, nhưng nó xa trung tâm mạng Có thể nút này là một nút quan trọng trong một nhóm cộng đồng gắn kết chặt chẽ nào đó. Để chứng thực điều này, tôi sẽ thực hiện trích xuất những nút quan trọng trong mỗi cộng đồng thu được từ phần trên.
3.5.2 Phát hiện nút quan trọng ứng với từng cộng đồng
Trong phần này, tôi sẽ xác định khách hàng quan trọng trong mỗi cộng đồng được phát hiện từ mạng G T Việc xác định những nút quan trọng trong mạng được thực hiện theo đánh giá các chỉ số về tính trung tâm như mục 5.1.
Trích xuất 05 cộng đồng lớn nhất sau khi phân tích, ta có:
Bảng 3.9 Bảng mô tả 5 cộng đồng lớn nhất được phát hiện và những nút quan trọng trong cộng đồ ng
STT Số nút Số cạnh ID nút Bậc của Khoảng cách cộng trong trong cộng quan nút quan trung tâm của đồng cộng đồng đồng trọng nhất trọng nhất nút quan trọng
Kết quả thực tế, ta thấy, cộng đồng được phân chia lớn nhất trong nhóm có 1265 nút Tuy nhiên, cộng đồng này là cộng đồng bao quanh của một nút (nút 4897) Những nút khác hiện tại chưa có mối quan hệ với nhau.
Tương tự, cộng đồng số 4 cũng có đặc điểm như vậy Đây là những mạng Ego - các nút chỉ liên kết với một nút trung tâm.
Việc gắn cộng đồng cho một nút là vấn đề rất quan trọng Ngoài ra, ở mỗi cộng đồng ta còn trích xuất được nút quan trọng nhất trong cộng đồng. Bài toán này rất có ý nghĩa Khi ta biết được nút quan trọng, có nghĩa là khách hàng quan trọng thì việc xây dựng chính sách chăm sóc khách hàng đó sẽ có thể giữ chân được lượng khách hàng có mối quan hệ với khách hàng.
Trong phần trên, tôi trích xuất khách hàng quan trọng theo hai hướng. Hướng thứ nhất là khách hàng quan trọng trong toàn bộ mạng tôi phân tích. Hướng thứ hai, tôi trích xuất khách hàng quan trọng nhất trong mỗi cộng đồng tôi tìm được bằng thuật toán Leiden Tôi nhận thấy rằng khách hàng được coi là quan trọng trong toàn bộ mạng có một số điểm khác so với những khách hàng quan trọng trong mỗi cộng đồng tôi phát hiện được.
Nguyên do khi tôi xét các chỉ số trung tâm trên toàn bộ mạng, các chỉ số này mang tính tổng quát và được tính tính trên toàn bộ các nút trong mạng Điều này vô hình chung có thể làm mất đi những nút quan trọng trong những nhóm nhỏ Việc phát hiện cộng đồng riêng biệt, sau đó ta mới xác định nút quan trọng có ý nghĩa hơn Ta có thể xem xét tính quan trọng của nút theo địa phương.
Kết luận chương
Từ bộ dữ liệu giao dịch của khách hàng tại ngân hàng VietinBank,tôi xây dựng ba mạng để so sánh với nhau Một là mạng có hướng và không có trọng số được ký hiệu là G Mạng thứ hai là mạng có hướng,trọng số cạnh trong mạng là tổng số tiền giao dịch giữa hai khách hàng và được ký hiệu là G T Mạng thứ ba là mạng có hướng, trọng số cạnh trong mạng là tổng số lần giao dịch giữa hai khách hàng và được ký hiệu là G N
Mạng được xây dựng trên bộ dữ liệu này có đặc điểm là mạng lớn và thưa Tôi phân tích thấy mạng này chứa 8980 thành phần liên thông riêng. Nhưng hầu hết các nút đều tập trung tại một thành phần (trên 50% nút và trên 50% cạnh đầu tập trung tại đây) Thành phần này gọi là thành phần thứ nhất Do đó, tôi sẽ trích xuất thành phần này làm mạng đầu vào cho bài toán phân tích tiếp theo.
Phân tích đặc điểm thống kê trong mạng, tôi thấy mạng thưa với chỉ số mật độ cục bộ thấp; khoảng cách trung bình giữa hai nút cao (khoảng 25 bước) Đánh giá phân bố bậc trong mạng, tôi thấy số lượng nút có bậc thấp hơn rất nhiều so với những nút có bậc thấp Như vậy, một số nút trong mạng sẽ có nhiều liên kết hơn những nút khác Điều này là đúng vì dữ liệu khách hàng đầu vào thuộc vào rất nhiều ngành công nghiệp khác nhau. Trong mỗi ngành công nghiệp, ta sẽ thường thấy những công ty lớn hơn thâu tóm thị trường nhiều Do vậy, những công ty này sẽ có nhiều mối quan hệ hơn những công ty khác.
Tiếp theo tôi đánh giá về bậc vào và ra của toàn bộ mạng trong thời gian phân tích Tôi thấy khách hàng có xu hướng chuyển ra nhiều hơn chuyển vào Tôi đánh giá sức mạnh của trọng số tổng số tiền giao dịch, tôi thấy giá trị trung bình sức mạnh vào của nút lại thấp hơn so với trung bình sức mạnh ra Điều này có thể lý giải rằng, vào thời điểm phân tích là tháng
12 năm 2020, khách hàng có xu hướng chuyển những khoản nhỏ lẻ nhiều hơn Những khoản này có thể là tiền hỗ trợ tết cho người lao động, còn số tiền thu về là tiền thu hồi nợ cuối năm.
Tôi đánh giá tiếp sức mạnh của trọng số tổng số lần giao dịch, tôi thấy sức mạnh trung bình ra cao hơn sức mạnh trung bình vào Điều này có nghĩa là trung bình một khách hàng chuyển ra nhiều hơn Điều này là hợp lý với những kết luận phía trên.
Sau đó, tôi phân tích cộng đồng với ba mạng xây dựng Tôi thấy mạng
G T có chỉ số modularity tốt nhất, số lượng cụm phân ra cũng nhiều hơn so với hai mạng G và G N Điều này chứng tỏ thuộc tính tổng số tiền giao dịch giúp ta phân chia mạng tốt hơn Thuộc tính tần suất giao dịch ở trong phần này không có ý nghĩa bằng tổng số tiền giao dịch Nguyên do có thể do thời gian lấy dữ liệu quá ít và số lượng cạnh có trọng số bằng 1 chiếm phần lớn. Trong thời gian này, các công ty có tương tác với nhau ít hơn thời điểm đầu năm Để khắc phục điều này, ta có thể xem xét trên mạng được xây dựng từ toàn bộ dữ liệu giao dịch giữa các khách hàng.
Cuối cùng, từ cộng đồng thu được, tôi trích xuất ra những khách hàng quan trọng trong mỗi nhóm So sánh với tập khách hàng quan trọng được trích xuất từ toàn bộ mạng, tôi thấy tập khách hàng trích xuất từ mỗi nhóm sẽ mang tính chính xác hơn và ta tập trung được vào các nhóm ngành nghề khác nhau hơn.
Mỗi nhóm hay cộng đồng này, ta sẽ xem xét được những tính chất riêng của nhóm Đây được coi là một đặc trưng về mối quan hệ của mỗi khách hàng Đặc trưng này có thể áp dụng cho những bài toán phân tích khác.