Vị trí trung tâm là thước đo tính trung tâm của một đỉnh. Tính trung tâm của một nút sẽ được định lượng là số lần một nút hoạt động với vai trò cầu nối trên đường đi ngắn nhất giữa hai nút khác. Linton Freeman ban đầu giới thiệu chỉ số này như một thước đo để định lượng khả năng kiểm soát của một người đối với sự giao tiếp giữa những người khác trong mạng xã hội[51]. Theo quan điểm của ông, những nút có xác suất cao xảy ra trên con đường ngắn nhất giữa hai đỉnh được chọn ngẫu nhiên sẽ có chỉ số vị trí trung tâm cao.
Vị trí trung tâm của một đỉnh v trong đồ thị G được tính như sau: - Trên mỗi cặp đỉnh (s, t), ta tính đường đi ngắn nhất giữa chúng
- Xác định số lượng đường đi ngắn nhất qua đỉnh v
- Tính tổng tỷ lệ trên cặp đỉnh này Ta có thể tính theo công thức sau:
( ) st B s v t V st v C =
Trong đó, σst là tổng số đường đi ngắn nhất từ nút s tới nút t và σst(v)
là tổng số đường đi ngắn nhất giữa s và t qua v.
Hai chỉ số khoảng cách trung tâm và vị trí trung tâm tính yêu cầu tính toán đường đi ngắn nhất giữa tất cả cặp đỉnh trên đồ thị. Như vậy, thời gian tính toán sẽ là O(V3).
2.5. Kết luận chương
Mạng xã hội được xây dựng từ cơ sở dữ liệu thực tế thường là những mạng thưa và lớn. Để áp dụng thuật toán phân tích vào mạng xã hội này, ta cần trích xuất ra một đồ thị con phù hợp. Có rất nhiều phương pháp giúp ta trích xuất đồ thị con từ một mạng lớn. Chẳng hạn như trích xuất theo thành phần của mạng là đồ thị liên thông mạnh (hoặc yếu) lớn nhất trong mạng.
51 Một cách khác ta có thể trích xuất theo cliques lớn nhất của mạng. Một cliques là đồ thị con trong đó mỗi nút đề được liên kết với các nút còn lại trong mạng. Điều kiện của cliques khá chặt, do đó ta có thể xem xét tới phương pháp k-cores. Phương pháp này giúp ta xác định đồ thị con liên thông lớn nhất trong đó mỗi nút phải có bậc thấp nhất bằng k.
Phần tiếp theo tôi đưa ra những chỉ số thống kê mô tả của mạng như khoảng cách, đường kính của mạng hay sức mạnh của nút trong mạng. Những chỉ số thống kê này giúp ta có đánh giá ban đầu về mạng được phân tích.
Phần thứ ba tôi đề cập đến thuật toán Leiden giúp phát hiện cộng đồng trong mạng. Đây là thuật toán được cải tiến từ thuật toán Louvain bởi VA.Tragg và cộng sự vào năm 2018. Thuật toán được xây dựng dựa trên việc tối ưu modularity. Modularity trong mạng là chỉ số giúp ta đo độ mạnh của việc phân chia mạng thành những cộng đồng khác nhau. Đây cũng là một chỉ số đánh giá cho mô hình bài toán này.
Phần thứ tư tôi đề cập đến những chỉ số đánh giá tính trung tâm của một nút. Bậc là chỉ số trực quan và quen thuộc nhất khi đánh giá tính trung tâm của một nút. Những nút có bậc cao trong mạng là những nút có nhiều liên kết. Tuy nhiên, không phải lúc nào những nút có bậc cao cũng là những nút quan trọng trong mạng. Do đó, tôi xem xét tới hai chỉ số là khoảng cách trung tâm và vị trí trung tâm. Khoảng cách trung tâm đề cập đến khoảng cách của một nút tới trung tâm của mạng. Nút có khoảng cách càng gần trung tâm thì nút có khả năng quan trọng hơn. Vị trí trung tâm đề cập đến xác suất nút đó nằm trên được đi ngắn nhất giữa hai nút bất kỳ trong mạng. Nút nào có chỉ số này càng cao, chứng tỏ nút có vị trí càng trung tâm trong mạng.
52
CHƯƠNG 3: MÔ HÌNH THỰC NGHIỆM
Trong bài nghiên cứu này, tôi tập trung vào xây dựng mạng với mối quan hệ trong mạng là giao dịch giữa các công ty từ dữ liệu giao dịch giữa các KHDN. Mạng tôi xây dựng là có hướng. Tôi đánh giá ba mạng là mạng không có trọng số, mạng với trọng số là tần suất giao dịch giữa hai khách hàng và mạng với trọng số là tổng số tiền giao dịch giữa hai khách hàng.
Tôi xem xét những thống kê của ba mạng và có những đánh giá tổng qua về mạng này.
Tiếp theo, tôi thực hiện thuật toán Leiden giúp phát hiện cộng đồng trong mạng. Tôi đánh giá ba mạng này và xem xét yếu tố trọng số nào giúp ta phân chia mạng được tốt hơn.
Cuối cùng tôi xác định khách hàng quan trọng trong cộng đồng tôi tìm được. Đồng thời tôi so sánh nhóm khách hàng quan trọng này với tập khách hàng quan trọng được trích xuất từ toàn bộ mạng đầu vào.