Ta thấy ở mạng GT, sức mạnh ra thấp hơn sức mạnh vào. Ta có thể
phân tích tại thời điểm tháng 12 này, hầu hết công ty đều đang trong giai đoạn thu hồi các khoản tiền còn tồn trong năm để kết tốn năm. Do đó, in- strength thấp hơn out-strength.
Còn với mạng GN, sức mạnh vào thấp hơn sức mạnh ra. Điều này chứng tỏ công ty chuyển đi với số lượng lớn. Điều này có thể giải thích qua việc phát và thưởng lương nhân viên, hoặc những phúc lợi vào tháng này.
3.4. Phát hiện cộng đồng trong mơ hình mạng
Trong doanh nghiệp, việc phát hiện một những khách hàng cùng nhóm có ý nghĩa rất lớn. Ta khơng chỉ có thể xây dựng những chiến lược kinh
60 doanh phù hợp với nhóm khách hàng, cịn đẩy mạnh doanh thu sản phẩm từ khách hàng.
Trong bài luận này, tơi thực hiện phân tích trên mơ hình mạng G, GT,
GN nhằm so sánh ba mạng này.
Đầu tiên, ta xem xét thống kê mô tả ba mạng như sau:
Bảng 3.5. Thống kê mô tả các tham số của ba mạng đầu vào
Mạng Chỉ số Min Max Mean
G Bậc vào 0 120 1.08 Bậc ra 0 1274 2.01 Chỉ số phân cụm 0 1 0.02 GT Sức mạnh vào 0 192.080.400.060 411.350.200 Sức mạnh ra 0 494.651.970.000 400.350.200 Trọng số của cạnh 6 263.848.700.000 442.162.900 Chỉ số phân cụm theo trọng số 0 0.0027 2.7* 7 10− GN Sức mạnh ra 0 2253 2.22167 Sức mạnh vào 0 3205 2.132174 Trọng số của cạnh 1 934 1.906043 Chỉ số phân cụm theo trọng số 0 0.054 5 1.83*10−
Ta thấy, với mạng G thì bậc vào thấp nhất là 0 và cao nhất là 120.
Trung bình bậc vào của mạng G là 1.08. Điều này có nghĩa trung bình mỗi nút của mạng G chỉ có xấp xỉ một liên kết vào. Mặt khác, bậc ra của mạng
G có giá trị thấp nhất là 0 vào cao nhất là 1264. Giá trị trung bình bậc là 2.01.
Điều này có nghĩa là trung bình mỗi một nút sẽ có chứa xấp xỉ hai liên kết đi ra. Như vậy, trong tháng 12 này, các doanh nghiệp có xu hướng chuyển đi nhiều hơn chuyển về.
Trên mạng GT, ta thấy sức mạnh vào của một nút trong mạng dao động
trong khoảng từ 0 VNĐ tới 192.080.400.060 VNĐ; giá trị sức mạnh trung bình của một nút là khoảng 411.350.200. Sức mạnh ra trung bình của một
61 nút trong mạng dao động khoảng từ 0 VNĐ tới 494.651.970.000 VNĐ; giá trị trung bình là 400.350.200 VNĐ. Kết hợp với mạng G, ta thấy mặc dù số lượng liên kết vào với một nút thấp, nhưng số tiền chuyển vào là tương đối lớn. Ta có thể thấy giá trị trung bình sức mạnh vào lớn hơn trung bình sức
mạnh ra của mạng GT. Như vậy, ta có thể kết luận rằng khách hàng trong
tháng 12 này có chi rất nhiều các việc với số lượng tiền ít. Đó có thể là chi hỗ trợ tết, thưởng tế cho người lao động,…. Cịn những giá trị vào có thể là thu hồi nợ cuối năm.
Trên mạng GN, ta thấy sức mạnh ra trung bình của nút dao động khoảng từ 0 đến 2253; giá trị trung bình là 2,22. Sức mạnh vào trung bình dao động từ 0 đến 3205; giá trị trung bình là 2,13. Như vậy, ta thấy số lần giao dịch đi của một nút nhiều hơn số lần giao dịch vào. Điều này hợp lý với những phân tích phía trên.
Tiếp tới, ta so sánh chỉ số phân cụm trung bình của ba mạng đã dựng. Ta thấy, chỉ số phân cụm của mạng G có giá trị cao nhất so với mạng GN và
GT. Điều này có nghĩa là trong mạng khơng có trọng số, nút sẽ có xu hướng tập hợp với nhau nhiều hơn so với mạng GN và GT. Như vậy, có khả năng số cộng đồng phát hiện được bởi mạng G sẽ ít nhất so với mạng GT và GN.
Để chứng thực điều trên, tôi thực hiện phát hiện cộng đồng với thuật toán Leiden với bộ dữ liệu G, GT, GN. Tơi thực hiện tối ưu hóa modularity và chạy lại với khoảng 10 lần chạy.
Kết quả tôi thu được như sau:
Bảng 3.6. Bảng so sánh các chỉ số phân cụm của ba mạng đầu vào
STT Chỉ số G GT GN 1 Số cụm 130 136 131 2 Kích thước lớn nhất 1265 1265 1265 3 Kích thước nhỏ nhất 49 28 30 4 Kích thước trung bình 237.022901 229 235.022901 5 Chỉ số mô đun 0.9517116 0.95175572 0.9514205
62 Trong phần này, tơi sử dụng năm chỉ số chính để so sánh phân vùng
của ba mạng đầu vào. Thứ nhất là số cụm đầu ra của mỗi mạng G, GT, GN.
Ta thấy, mạng GT là mạng đưa ra số cụm đầu ra lớn nhất; mạng GN là mạng
đưa ra chỉ số cụm lớn thứ hai và gần xấp xỉ số cụm mạng G đưa ra. Điều này đúng như phần trên ta đã phân tích.
Thứ hai là kích thước của cộng đồng lớn nhất được phát hiện. Cả ba mạng đều đưa ra cộng đồng có kích thước là 1265 là cộng đồng lớn nhất. Thực tế, so sánh trực tiếp trên kết quả đầu ra, tôi nhận thấy cộng đồng đưa ra bởi ba mạng này là giống nhau.
Thứ ba kích thước của cộng đồng bé nhất được phát hiện. Mạng GT có
xu hướng chia nhỏ cộng đồng hơn là hai mạng kia. Qua ba chỉ số đầu tiên, ta thấy mạng G và GN kết quả đưa ra gần giống nhau hơn mạng GT. Điều này
có thể giải thích ngun do dữ liệu đầu vào có số lượng lớn các nút đều có trọng số về tần suất là 1.
Thứ tư là số lượng nút trung bình của mỗi cụm. Mạng G có giá trị
trung bình lớn nhất, sau đó tới mạng GN và cuối cùng là mạng GT.
Thứ năm tôi so sánh đến chỉ số modularity được tối ưu với từng mạng. Những chỉ số này đều được chạy lại 10 lần và tối ưu trên mơ hình. Modularity có giá trị trong khoảng [-1;1]. Giá trị càng gần -1 tức điểm phân chia không thuộc về vùng dự kiến phân chia. Cịn điểm modularity có giá trị tiến tới 1 nghĩa là điểm phân chia khả năng cao thuộc về vùng phân chia. Giá trị modularity bằng 0 có nghĩa là điểm phân chia khơng khác gì khi ta phân cụm ngẫu nhiên. Ta thấy nhìn ba mơ hình mạng đều có giá trị modularity gần như nhau.
Qua bảng so sánh các chỉ số sau phân cụm của cả ba mơ hình mạng, ta thấy mạng GT là mạng có chỉ số modularity tốt và các chỉ số khác cũng tốt
hơn. Mạng G và GN có các chỉ số gần tương tự nhau. Điều này giải thích
rằng, trọng số tần suất trọng mạng này có thể chưa có nhiều ý nghĩa trong việc phát hiện cộng đồng mới. Trọng số về tổng số tiền giao dịch có vẻ có ý
63 nghĩa để phát hiện cộng đồng hơn. Thật vậy, trên hình mơ tả 30 (trái), ta thấy giá trị trọng số tần suất của đồ thị bằng 01 chiếm phần lớn. Do đó, đây có thể
là nhiễu trong việc phát hiện cộng đồng với mạng GT. Để tránh điều này,
trong tương lai, tôi định hướng xây dựng đồ thị trên toàn bộ dữ liệu lịch sử giao dịch của khách hàng. Khi đó, ta sẽ có cái nhìn tổng qt hơn về mối quan hệ giữa các khách hàng.
3.5. Phát hiện nút quan trọng
3.5.1. Phát hiện nút quan trọng trên toàn bộ mạng
Trong ngân hàng cũng như doanh nghiệp, việc phát hiện vai trò quan trọng của một nút có ý nghĩa rất lớn. Việc phát hiện này giúp doanh nghiệp có thể xác định khách hàng quan trọng trong mạng lưới. Từ đó ta có những chính sách ưu đãi hoặc chiến lược phù hợp.
Trong mơ hình mạng này, tơi xác định danh sách khách hàng quan trọng từ mạng qua những chỉ số thống kê cơ bản của mạng là bậc của nút. Chỉ số bậc sẽ cho thấy số lượng liên kết tới một nút. Hay nói cách khác là có bao nhiêu quan hệ với một khách hàng nhất định.
Bảng dưới đây thể hiện top những khách hàng có vai trị quan trọng trong mạng qua chỉ số bậc và bậc vào, bậc ra của mạng:
Bảng 3.7. Cơng ty có số lượng quan hệ cao nhất
STT ID Bậc Bậc vào Bậc ra 1 4897 1264 1 1263 2 23608 666 1 665 3 28226 641 1 640 4 31183 314 2 312 5 32797 284 1 283 6 26755 277 1 276 7 26195 209 1 208 8 18757 185 1 184 9 6666 181 0 181 10 13503 177 1 176
64 Ta thấy, khách hàng có bậc bằng 1264 là khách hàng có số bậc cao nhất trong hệ thống. Tuy nhiên, theo lý thuyết, nút có bậc cao nhất chưa chắc đã là nút quan trọng nhất trong mạng. Do đó, ta xét thêm hai chỉ số là khoảng cách trung tâm và vị trí trung tâm.
Chỉ số khoảng cách trung tâm mô tả khoảng cách giữa một nút với các nút khác trong mạng lưới. Nút có vai trị trung tâm cao có tầm quan trọng về phạm vi và mức đô ̣ảnh hưởng trong việc khuếch tán thông tin trong mạng lưới. Nếu một nút có khoảng cách trung tâm thấp thì để giao tiếp với các nút khác, nút sẽ phải đi qua rất nhiều nút khác trong mạng.
Vi ̣trí trung tâm xác định tầm quan trọng tương đối của một nút bằng cách đo lưu lượng các liên kết chảy qua nút đó đến các nút khác trong mạng. Vị trí trung tâm của một nút là cao khi có một xác suất lớn sẽ đi qua nút đó khi lựa chọn ngẫu nhiên con đường ngắn nhất giữa hai đỉnh bất kỳ. Do đó, nút đó tạo ra sự kiểm sốt nguồn thơng tin liên lạc giữa các nút khác trong mạng lưới.
Trong thực tế, các tác nhân bên ngồi mạng lưới có thể giao tiếp hoặc trao đổi thơng tin với các nút khác trong mạng chỉ bằng cách đi qua các đỉnh trung tâm.
Bảng dưới đây mô tả top những cơng ty có chỉ số độ đo vị trí trung tâm và khoảng cách trung tâm tốt nhất. Trong mạng, những công ty này được ghi nhận là những nút quan trọng nhất.
Bảng 3. 8. Khách hàng có chỉ số khoảng cách trung tâm tốt nhất
STT ID Bậc Bậc vào Bậc ra Vị trí trung tâm Khoảng cách trung tâm 1 4897 1264 1 1263 4.61718E-06 0.003971849 2 8827 158 1 158 1.13692E-06 0.000197269 3 23588 10 1 9 9.96878E-07 0.000185513 4 26510 27 2 25 9.79762E-07 0.000178378 5 31757 57 1 56 9.13373E-07 0.000154594
65 6 9084 73 1 72 6.95533E-07 0.000134196 7 1812 49 4 45 4.68875E-07 0.000157815 8 26195 209 1 208 4.56427E-07 6.44143E-05 9 31628 6 1 5 4.54352E-07 0.00014054 10 19563 26 1 25 3.62548E-07 0.000110425
Ta thấy, nút 4897 có bậc cao nhất, đồng thời cũng là nút có vị trí trung tâm nhất mạng.
Một số nút có chỉ số vị trí trung tâm cao nhưng chỉ số khoảng cách trung tâm thấp. Điều này chứng tỏ những nút này là nút quan trọng, nhưng nó xa trung tâm mạng. Có thể nút này là một nút quan trọng trong một nhóm cộng đồng gắn kết chặt chẽ nào đó.
Để chứng thực điều này, tơi sẽ thực hiện trích xuất những nút quan trọng trong mỗi cộng đồng thu được từ phần trên.
3.5.2. Phát hiện nút quan trọng ứng với từng cộng đồng
Trong phần này, tôi sẽ xác định khách hàng quan trọng trong mỗi cộng
đồng được phát hiện từ mạng GT. Việc xác định những nút quan trọng trong
mạng được thực hiện theo đánh giá các chỉ số về tính trung tâm như mục 5.1. Trích xuất 05 cộng đồng lớn nhất sau khi phân tích, ta có:
Bảng 3.9. Bảng mơ tả 5 cộng đồng lớn nhất được phát hiện và những nút quan trọng trong cộng đồng STT cộng đồng Số nút trong cộng đồng Số cạnh trong cộng đồng ID nút quan trọng nhất Bậc của nút quan trọng nhất Khoảng cách trung tâm của nút quan trọng 1 1265 1264 4897 1264 798216.0 2 994 973 18514 662 395869.5 3 644 705 2940 55 77924.8 4 632 631 25005 631 198765.0 5 554 623 2014 59 112439.1
66 Kết quả thực tế, ta thấy, cộng đồng được phân chia lớn nhất trong nhóm có 1265 nút. Tuy nhiên, cộng đồng này là cộng đồng bao quanh của một nút (nút 4897). Những nút khác hiện tại chưa có mối quan hệ với nhau.
Tương tự, cộng đồng số 4 cũng có đặc điểm như vậy. Đây là những mạng Ego - các nút chỉ liên kết với một nút trung tâm.
Việc gắn cộng đồng cho một nút là vấn đề rất quan trọng. Ngồi ra, ở mỗi cộng đồng ta cịn trích xuất được nút quan trọng nhất trong cộng đồng. Bài tốn này rất có ý nghĩa. Khi ta biết được nút quan trọng, có nghĩa là khách hàng quan trọng thì việc xây dựng chính sách chăm sóc khách hàng đó sẽ có thể giữ chân được lượng khách hàng có mối quan hệ với khách hàng.
Trong phần trên, tơi trích xuất khách hàng quan trọng theo hai hướng. Hướng thứ nhất là khách hàng quan trọng trong tồn bộ mạng tơi phân tích. Hướng thứ hai, tơi trích xuất khách hàng quan trọng nhất trong mỗi cộng đồng tơi tìm được bằng thuật tốn Leiden. Tơi nhận thấy rằng khách hàng được coi là quan trọng trong tồn bộ mạng có một số điểm khác so với những khách hàng quan trọng trong mỗi cộng đồng tôi phát hiện được.
Nguyên do khi tơi xét các chỉ số trung tâm trên tồn bộ mạng, các chỉ số này mang tính tổng quát và được tính tính trên tồn bộ các nút trong mạng. Điều này vơ hình chung có thể làm mất đi những nút quan trọng trong những nhóm nhỏ. Việc phát hiện cộng đồng riêng biệt, sau đó ta mới xác định nút quan trọng có ý nghĩa hơn. Ta có thể xem xét tính quan trọng của nút theo địa phương.
3.6. Kết luận chương
Từ bộ dữ liệu giao dịch của khách hàng tại ngân hàng VietinBank, tôi xây dựng ba mạng để so sánh với nhau. Một là mạng có hướng và khơng có trọng số được ký hiệu là G. Mạng thứ hai là mạng có hướng, trọng số cạnh trong mạng là tổng số tiền giao dịch giữa hai khách hàng và được ký hiệu là
GT. Mạng thứ ba là mạng có hướng, trọng số cạnh trong mạng là tổng số lần giao dịch giữa hai khách hàng và được ký hiệu là GN.
67 Mạng được xây dựng trên bộ dữ liệu này có đặc điểm là mạng lớn và thưa. Tơi phân tích thấy mạng này chứa 8980 thành phần liên thông riêng. Nhưng hầu hết các nút đều tập trung tại một thành phần (trên 50% nút và trên 50% cạnh đầu tập trung tại đây). Thành phần này gọi là thành phần thứ nhất. Do đó, tơi sẽ trích xuất thành phần này làm mạng đầu vào cho bài tốn phân tích tiếp theo.
Phân tích đặc điểm thống kê trong mạng, tôi thấy mạng thưa với chỉ số mật độ cục bộ thấp; khoảng cách trung bình giữa hai nút cao (khoảng 25 bước). Đánh giá phân bố bậc trong mạng, tơi thấy số lượng nút có bậc thấp hơn rất nhiều so với những nút có bậc thấp. Như vậy, một số nút trong mạng sẽ có nhiều liên kết hơn những nút khác. Điều này là đúng vì dữ liệu khách hàng đầu vào thuộc vào rất nhiều ngành công nghiệp khác nhau. Trong mỗi ngành công nghiệp, ta sẽ thường thấy những cơng ty lớn hơn thâu tóm thị trường nhiều. Do vậy, những cơng ty này sẽ có nhiều mối quan hệ hơn những công ty khác.
Tiếp theo tôi đánh giá về bậc vào và ra của toàn bộ mạng trong thời gian phân tích. Tơi thấy khách hàng có xu hướng chuyển ra nhiều hơn chuyển vào. Tôi đánh giá sức mạnh của trọng số tổng số tiền giao dịch, tôi thấy giá trị trung bình sức mạnh vào của nút lại thấp hơn so với trung bình sức mạnh ra. Điều này có thể lý giải rằng, vào thời điểm phân tích là tháng 12 năm 2020, khách hàng có xu hướng chuyển những khoản nhỏ lẻ nhiều hơn. Những khoản này có thể là tiền hỗ trợ tết cho người lao động, còn số tiền thu về là tiền thu hồi nợ cuối năm.
Tôi đánh giá tiếp sức mạnh của trọng số tổng số lần giao dịch, tơi thấy sức mạnh trung bình ra cao hơn sức mạnh trung bình vào. Điều này có nghĩa