Số lượng nút trung bình ứng với mỗi khoảng các hl

Một phần của tài liệu Nghiên cứu bài toán phân tích mạng xã hội (Trang 68)

Khoảng cách giữa hai đỉnh trong một đồ thị là số cạnh trên đường đi ngắn nhất. Các chỉ số về khoảng cách trung bình kết hợp với chỉ số đường kính phía trên, ta thấy mạng khá thưa. Cụ thể khoảng cách bình quân của một nút tới tất cả nút còn lại trong mạng là khoảng 25. Mật độ trong mạng cũng nhỏ.

Tiếp theo, ta tiếp tục xem xét phân bố lũy của bậc trong mạng.

Hình 3.3. Phân bố bậc trong mạng. Hình trái là hình vẽ số lượng nút với bậc tương ứng trong mạng G. Hình phải là số lượng nút với bậc vào và bậc ra tương ứng trong mạng G

Đường màu xanh trong hình bên phải hiển thị in-degree – bậc vào, màu cam là out_degree – bậc ra. Ta thấy bậc vào có số lượng ít hơn so với bậc ra. Trong mạng hiện tai, ta chưa tính tốn được phân phối lũy thừa chính xác của mạng những ta thấy mạng này có phân phối bậc giảm nhanh chóng.

58 Như vậy, mạng tập trung vào những trung tâm trong mạng. Điều này hợp lý vì khi ta vẽ ví dụ mẫu về mạng phía trên, ta đã thấy được tính chất này.

Để hiểu rõ hơn, ta có biểu đồ biểu diễn bậc vào và ra của mạng như sau:

Hình 3.4. Hình vẽ mơ tả bậc vào và ra của mạng

Hình vẽ cho thấy khơng có sự tương quan giữa số bậc vào và ra của một nút. Hệ số tương quan Spearman là −0,15. Điều này hợp lý vì hầu hết các tài khoản có nhiều hoạt động chuyển ra hơn chuyển vào.

Với hai mạng có trọng số GTGN, ta có hình vẽ mơ ta phân phối trọng số của cạnh:

Hình 3.5. Hình vẽ mơ tả phân phối cạnh của đồ thị GT và GN

Ngồi ra, tơi phân tích tương quan giữa hai trọng số là số tiền và số lần chuyển tiền, hệ số tương quan Spearman của cả hai loại trọng số cạnh là 0,42. Kết quả cho thấy rằng những người dùng có thể có mối tương quan giữa tổng số tiền đã chuyển và số lượng giao dịch theo thời gian. Về thực tế, điều này đúng. Tổng số tiền sẽ ngày càng nhiều nếu ta chuyển nhiều lần.

59

Hình 3.6. Hình vẽ mơ tả tương quan số lần chuyển tiền và số tiền

Mơ hình mạng có trọng số có chứa nhiều thơng tin hơn. Do đó, tơi tính tốn sức mạnh vào: in-strength sin(i) và sức mạnh ra: out-strength sout(i) của

nút i với tổng trọng số của cạnh đi vào và đi ra tương ứng.

Hình 3.7. Phân phối của bậc vào và bậc ra

Ta thấy ở mạng GT, sức mạnh ra thấp hơn sức mạnh vào. Ta có thể

phân tích tại thời điểm tháng 12 này, hầu hết công ty đều đang trong giai đoạn thu hồi các khoản tiền còn tồn trong năm để kết tốn năm. Do đó, in- strength thấp hơn out-strength.

Cịn với mạng GN, sức mạnh vào thấp hơn sức mạnh ra. Điều này chứng tỏ công ty chuyển đi với số lượng lớn. Điều này có thể giải thích qua việc phát và thưởng lương nhân viên, hoặc những phúc lợi vào tháng này.

3.4. Phát hiện cộng đồng trong mơ hình mạng

Trong doanh nghiệp, việc phát hiện một những khách hàng cùng nhóm có ý nghĩa rất lớn. Ta khơng chỉ có thể xây dựng những chiến lược kinh

60 doanh phù hợp với nhóm khách hàng, cịn đẩy mạnh doanh thu sản phẩm từ khách hàng.

Trong bài luận này, tơi thực hiện phân tích trên mơ hình mạng G, GT,

GN nhằm so sánh ba mạng này.

Đầu tiên, ta xem xét thống kê mô tả ba mạng như sau:

Bảng 3.5. Thống kê mô tả các tham số của ba mạng đầu vào

Mạng Chỉ số Min Max Mean

G Bậc vào 0 120 1.08 Bậc ra 0 1274 2.01 Chỉ số phân cụm 0 1 0.02 GT Sức mạnh vào 0 192.080.400.060 411.350.200 Sức mạnh ra 0 494.651.970.000 400.350.200 Trọng số của cạnh 6 263.848.700.000 442.162.900 Chỉ số phân cụm theo trọng số 0 0.0027 2.7* 7 10− GN Sức mạnh ra 0 2253 2.22167 Sức mạnh vào 0 3205 2.132174 Trọng số của cạnh 1 934 1.906043 Chỉ số phân cụm theo trọng số 0 0.054 5 1.83*10−

Ta thấy, với mạng G thì bậc vào thấp nhất là 0 và cao nhất là 120.

Trung bình bậc vào của mạng G là 1.08. Điều này có nghĩa trung bình mỗi nút của mạng G chỉ có xấp xỉ một liên kết vào. Mặt khác, bậc ra của mạng

G có giá trị thấp nhất là 0 vào cao nhất là 1264. Giá trị trung bình bậc là 2.01.

Điều này có nghĩa là trung bình mỗi một nút sẽ có chứa xấp xỉ hai liên kết đi ra. Như vậy, trong tháng 12 này, các doanh nghiệp có xu hướng chuyển đi nhiều hơn chuyển về.

Trên mạng GT, ta thấy sức mạnh vào của một nút trong mạng dao động

trong khoảng từ 0 VNĐ tới 192.080.400.060 VNĐ; giá trị sức mạnh trung bình của một nút là khoảng 411.350.200. Sức mạnh ra trung bình của một

61 nút trong mạng dao động khoảng từ 0 VNĐ tới 494.651.970.000 VNĐ; giá trị trung bình là 400.350.200 VNĐ. Kết hợp với mạng G, ta thấy mặc dù số lượng liên kết vào với một nút thấp, nhưng số tiền chuyển vào là tương đối lớn. Ta có thể thấy giá trị trung bình sức mạnh vào lớn hơn trung bình sức

mạnh ra của mạng GT. Như vậy, ta có thể kết luận rằng khách hàng trong

tháng 12 này có chi rất nhiều các việc với số lượng tiền ít. Đó có thể là chi hỗ trợ tết, thưởng tế cho người lao động,…. Cịn những giá trị vào có thể là thu hồi nợ cuối năm.

Trên mạng GN, ta thấy sức mạnh ra trung bình của nút dao động khoảng từ 0 đến 2253; giá trị trung bình là 2,22. Sức mạnh vào trung bình dao động từ 0 đến 3205; giá trị trung bình là 2,13. Như vậy, ta thấy số lần giao dịch đi của một nút nhiều hơn số lần giao dịch vào. Điều này hợp lý với những phân tích phía trên.

Tiếp tới, ta so sánh chỉ số phân cụm trung bình của ba mạng đã dựng. Ta thấy, chỉ số phân cụm của mạng G có giá trị cao nhất so với mạng GN

GT. Điều này có nghĩa là trong mạng khơng có trọng số, nút sẽ có xu hướng tập hợp với nhau nhiều hơn so với mạng GN và GT. Như vậy, có khả năng số cộng đồng phát hiện được bởi mạng G sẽ ít nhất so với mạng GT và GN.

Để chứng thực điều trên, tôi thực hiện phát hiện cộng đồng với thuật toán Leiden với bộ dữ liệu G, GT, GN. Tơi thực hiện tối ưu hóa modularity và chạy lại với khoảng 10 lần chạy.

Kết quả tôi thu được như sau:

Bảng 3.6. Bảng so sánh các chỉ số phân cụm của ba mạng đầu vào

STT Chỉ số G GT GN 1 Số cụm 130 136 131 2 Kích thước lớn nhất 1265 1265 1265 3 Kích thước nhỏ nhất 49 28 30 4 Kích thước trung bình 237.022901 229 235.022901 5 Chỉ số mô đun 0.9517116 0.95175572 0.9514205

62 Trong phần này, tơi sử dụng năm chỉ số chính để so sánh phân vùng

của ba mạng đầu vào. Thứ nhất là số cụm đầu ra của mỗi mạng G, GT, GN.

Ta thấy, mạng GT là mạng đưa ra số cụm đầu ra lớn nhất; mạng GN là mạng

đưa ra chỉ số cụm lớn thứ hai và gần xấp xỉ số cụm mạng G đưa ra. Điều này đúng như phần trên ta đã phân tích.

Thứ hai là kích thước của cộng đồng lớn nhất được phát hiện. Cả ba mạng đều đưa ra cộng đồng có kích thước là 1265 là cộng đồng lớn nhất. Thực tế, so sánh trực tiếp trên kết quả đầu ra, tôi nhận thấy cộng đồng đưa ra bởi ba mạng này là giống nhau.

Thứ ba kích thước của cộng đồng bé nhất được phát hiện. Mạng GT

xu hướng chia nhỏ cộng đồng hơn là hai mạng kia. Qua ba chỉ số đầu tiên, ta thấy mạng G và GN kết quả đưa ra gần giống nhau hơn mạng GT. Điều này

có thể giải thích ngun do dữ liệu đầu vào có số lượng lớn các nút đều có trọng số về tần suất là 1.

Thứ tư là số lượng nút trung bình của mỗi cụm. Mạng G có giá trị

trung bình lớn nhất, sau đó tới mạng GN và cuối cùng là mạng GT.

Thứ năm tôi so sánh đến chỉ số modularity được tối ưu với từng mạng. Những chỉ số này đều được chạy lại 10 lần và tối ưu trên mơ hình. Modularity có giá trị trong khoảng [-1;1]. Giá trị càng gần -1 tức điểm phân chia không thuộc về vùng dự kiến phân chia. Cịn điểm modularity có giá trị tiến tới 1 nghĩa là điểm phân chia khả năng cao thuộc về vùng phân chia. Giá trị modularity bằng 0 có nghĩa là điểm phân chia khơng khác gì khi ta phân cụm ngẫu nhiên. Ta thấy nhìn ba mơ hình mạng đều có giá trị modularity gần như nhau.

Qua bảng so sánh các chỉ số sau phân cụm của cả ba mơ hình mạng, ta thấy mạng GT là mạng có chỉ số modularity tốt và các chỉ số khác cũng tốt

hơn. Mạng G và GN có các chỉ số gần tương tự nhau. Điều này giải thích

rằng, trọng số tần suất trọng mạng này có thể chưa có nhiều ý nghĩa trong việc phát hiện cộng đồng mới. Trọng số về tổng số tiền giao dịch có vẻ có ý

63 nghĩa để phát hiện cộng đồng hơn. Thật vậy, trên hình mơ tả 30 (trái), ta thấy giá trị trọng số tần suất của đồ thị bằng 01 chiếm phần lớn. Do đó, đây có thể

là nhiễu trong việc phát hiện cộng đồng với mạng GT. Để tránh điều này,

trong tương lai, tôi định hướng xây dựng đồ thị trên toàn bộ dữ liệu lịch sử giao dịch của khách hàng. Khi đó, ta sẽ có cái nhìn tổng quát hơn về mối quan hệ giữa các khách hàng.

3.5. Phát hiện nút quan trọng

3.5.1. Phát hiện nút quan trọng trên toàn bộ mạng

Trong ngân hàng cũng như doanh nghiệp, việc phát hiện vai trị quan trọng của một nút có ý nghĩa rất lớn. Việc phát hiện này giúp doanh nghiệp có thể xác định khách hàng quan trọng trong mạng lưới. Từ đó ta có những chính sách ưu đãi hoặc chiến lược phù hợp.

Trong mơ hình mạng này, tôi xác định danh sách khách hàng quan trọng từ mạng qua những chỉ số thống kê cơ bản của mạng là bậc của nút. Chỉ số bậc sẽ cho thấy số lượng liên kết tới một nút. Hay nói cách khác là có bao nhiêu quan hệ với một khách hàng nhất định.

Bảng dưới đây thể hiện top những khách hàng có vai trị quan trọng trong mạng qua chỉ số bậc và bậc vào, bậc ra của mạng:

Bảng 3.7. Cơng ty có số lượng quan hệ cao nhất

STT ID Bậc Bậc vào Bậc ra 1 4897 1264 1 1263 2 23608 666 1 665 3 28226 641 1 640 4 31183 314 2 312 5 32797 284 1 283 6 26755 277 1 276 7 26195 209 1 208 8 18757 185 1 184 9 6666 181 0 181 10 13503 177 1 176

64 Ta thấy, khách hàng có bậc bằng 1264 là khách hàng có số bậc cao nhất trong hệ thống. Tuy nhiên, theo lý thuyết, nút có bậc cao nhất chưa chắc đã là nút quan trọng nhất trong mạng. Do đó, ta xét thêm hai chỉ số là khoảng cách trung tâm và vị trí trung tâm.

Chỉ số khoảng cách trung tâm mô tả khoảng cách giữa một nút với các nút khác trong mạng lưới. Nút có vai trị trung tâm cao có tầm quan trọng về phạm vi và mức đô ̣ảnh hưởng trong việc khuếch tán thông tin trong mạng lưới. Nếu một nút có khoảng cách trung tâm thấp thì để giao tiếp với các nút khác, nút sẽ phải đi qua rất nhiều nút khác trong mạng.

Vi ̣trí trung tâm xác định tầm quan trọng tương đối của một nút bằng cách đo lưu lượng các liên kết chảy qua nút đó đến các nút khác trong mạng. Vị trí trung tâm của một nút là cao khi có một xác suất lớn sẽ đi qua nút đó khi lựa chọn ngẫu nhiên con đường ngắn nhất giữa hai đỉnh bất kỳ. Do đó, nút đó tạo ra sự kiểm sốt nguồn thông tin liên lạc giữa các nút khác trong mạng lưới.

Trong thực tế, các tác nhân bên ngồi mạng lưới có thể giao tiếp hoặc trao đổi thông tin với các nút khác trong mạng chỉ bằng cách đi qua các đỉnh trung tâm.

Bảng dưới đây mô tả top những công ty có chỉ số độ đo vị trí trung tâm và khoảng cách trung tâm tốt nhất. Trong mạng, những công ty này được ghi nhận là những nút quan trọng nhất.

Bảng 3. 8. Khách hàng có chỉ số khoảng cách trung tâm tốt nhất

STT ID Bậc Bậc vào Bậc ra Vị trí trung tâm Khoảng cách trung tâm 1 4897 1264 1 1263 4.61718E-06 0.003971849 2 8827 158 1 158 1.13692E-06 0.000197269 3 23588 10 1 9 9.96878E-07 0.000185513 4 26510 27 2 25 9.79762E-07 0.000178378 5 31757 57 1 56 9.13373E-07 0.000154594

65 6 9084 73 1 72 6.95533E-07 0.000134196 7 1812 49 4 45 4.68875E-07 0.000157815 8 26195 209 1 208 4.56427E-07 6.44143E-05 9 31628 6 1 5 4.54352E-07 0.00014054 10 19563 26 1 25 3.62548E-07 0.000110425

Ta thấy, nút 4897 có bậc cao nhất, đồng thời cũng là nút có vị trí trung tâm nhất mạng.

Một số nút có chỉ số vị trí trung tâm cao nhưng chỉ số khoảng cách trung tâm thấp. Điều này chứng tỏ những nút này là nút quan trọng, nhưng nó xa trung tâm mạng. Có thể nút này là một nút quan trọng trong một nhóm cộng đồng gắn kết chặt chẽ nào đó.

Để chứng thực điều này, tơi sẽ thực hiện trích xuất những nút quan trọng trong mỗi cộng đồng thu được từ phần trên.

3.5.2. Phát hiện nút quan trọng ứng với từng cộng đồng

Trong phần này, tôi sẽ xác định khách hàng quan trọng trong mỗi cộng

đồng được phát hiện từ mạng GT. Việc xác định những nút quan trọng trong

mạng được thực hiện theo đánh giá các chỉ số về tính trung tâm như mục 5.1. Trích xuất 05 cộng đồng lớn nhất sau khi phân tích, ta có:

Bảng 3.9. Bảng mô tả 5 cộng đồng lớn nhất được phát hiện và những nút quan trọng trong cộng đồng STT cộng đồng Số nút trong cộng đồng Số cạnh trong cộng đồng ID nút quan trọng nhất Bậc của nút quan trọng nhất Khoảng cách trung tâm của nút quan trọng 1 1265 1264 4897 1264 798216.0 2 994 973 18514 662 395869.5 3 644 705 2940 55 77924.8 4 632 631 25005 631 198765.0 5 554 623 2014 59 112439.1

66 Kết quả thực tế, ta thấy, cộng đồng được phân chia lớn nhất trong nhóm có 1265 nút. Tuy nhiên, cộng đồng này là cộng đồng bao quanh của một nút (nút 4897). Những nút khác hiện tại chưa có mối quan hệ với nhau.

Tương tự, cộng đồng số 4 cũng có đặc điểm như vậy. Đây là những mạng Ego - các nút chỉ liên kết với một nút trung tâm.

Việc gắn cộng đồng cho một nút là vấn đề rất quan trọng. Ngoài ra, ở mỗi cộng đồng ta cịn trích xuất được nút quan trọng nhất trong cộng đồng. Bài toán này rất có ý nghĩa. Khi ta biết được nút quan trọng, có nghĩa là khách hàng quan trọng thì việc xây dựng chính sách chăm sóc khách hàng đó sẽ có thể giữ chân được lượng khách hàng có mối quan hệ với khách hàng.

Trong phần trên, tơi trích xuất khách hàng quan trọng theo hai hướng. Hướng thứ nhất là khách hàng quan trọng trong tồn bộ mạng tơi phân tích. Hướng thứ hai, tơi trích xuất khách hàng quan trọng nhất trong mỗi cộng đồng tơi tìm được bằng thuật tốn Leiden. Tơi nhận thấy rằng khách hàng được coi là quan trọng trong tồn bộ mạng có một số điểm khác so với những khách hàng quan trọng trong mỗi cộng đồng tôi phát hiện được.

Nguyên do khi tơi xét các chỉ số trung tâm trên tồn bộ mạng, các chỉ số này mang tính tổng quát và được tính tính trên toàn bộ các nút trong mạng. Điều này vơ hình chung có thể làm mất đi những nút quan trọng trong những nhóm nhỏ. Việc phát hiện cộng đồng riêng biệt, sau đó ta mới xác định nút quan trọng có ý nghĩa hơn. Ta có thể xem xét tính quan trọng của nút theo

Một phần của tài liệu Nghiên cứu bài toán phân tích mạng xã hội (Trang 68)

Tải bản đầy đủ (PDF)

(86 trang)