Xác định nút quan trọng trong cộng đồng qua tính trung tâm

Một phần của tài liệu Nghiên cứu bài toán phân tích mạng xã hội (Trang 58 - 63)

CHƯƠNG 2 : BÀI TỐN PHÂN TÍCH MẠNG XÃ HỘI

2.4. Xác định nút quan trọng trong cộng đồng qua tính trung tâm

Trong lý thuyết đồ thị hoặc phân tích mạng, các chỉ số trung tâm thường thể hiện số lượng liên kết của một nút. Ứng dụng của tính trung tâm có rất nhiều, ví dụ như người có ảnh hưởng nhất trong mạng xã hội hay tìm kiếm người siêu lây lan trong dịch bệnh [45].

Tính trung tâm là khái niệm xác định vị trí của một nút cư trú trong mạng. Độ đo này giúp ta xác định trong các nút, nút nào có vị trí trung tâm của mạng, nút nào nằm bên rìa của mạng. Việc xác định này sẽ giúp ta so sánh được hai nhóm này với nhau.

Các chỉ số trung tâm sẽ trả lời cho câu hỏi "Đặc trưng của một đỉnh quan trọng là gì?". Câu trả lời được đưa ra dưới dạng một hàm có giá trị thực trên các đỉnh của đồ thị. Trong đó, các chỉ số đó được mong đợi sẽ cung cấp một thứ hạng xác định các nút quan trọng nhất trong mạng [46] [47] [48].

48 Tính quan trọng có rất nhiều nghĩa dẫn đến nhiều định nghĩa khác nhau về vị trí trung tâm. Ta có thể xem xét theo hai hướng sau.

Đầu tiên, tính trung tâm có thể được hình thành liên quan đến một loại luồng trên mạng. Điều này cho phép các vị trí tập trung được phân loại theo loại luồng mà ta coi là quan trọng [46].

Cách hiểu thứ hai, ta xem xét theo hướng xác định sự tham gia của nút vào tính gắn kết của mạng. Điều này cho phép các vị trí được phân loại dựa trên chỉ số đo lường tính gắn kết[47].

Các phép đo trên độ đo tính trung tâm thường đếm số lượng đường đi qua một số đỉnh nhất định. Các thước đo bao gồm bậc, khoảng cách trung tâm [48] hoặc thước đo mức độ tập trung khác như vị trí trung tâm.

Trên thực tế, việc xác định chính xác ý nghĩa về ‘trung tâm’ khá phức tạp nhưng về cơ bản, ta thường hiểu những nút có vị trí trung tâm là những nút quan trọng trong mạng.

2.4.1. Mức độ trung tâm theo bậc (Degree centrality)

Khái niệm trực quan nhất về tính trung tâm là mức độ trung tâm theo bậc. Chỉ số này thể hiện số lượng mối quan hệ của một nút (số lượng liên kết mà một nút có). Khái niệm này định nghĩa sự tập trung của đồ thị[49]. Trong trường hợp mạng có hướng, chỉ số này sẽ được xác định qua hai thước đo riêng biệt là bậc vào và bậc ra.

Hình 2.15. Hình ảnh ví dụ về bậc

49

( ) deg( )

D

C v = v

Trong đó, CD là mức độ trung tâm, hay gọi là bậc của nút v. Để tính tốn CD(G), ta tính theo các bước sau:

Cho v* là nút có mức độ trung tâm cao nhất trong G.

| | * 1 2 ( ) ( ) ( ) | | 3 | | 2 V D D i i D C v C v C G V V =  −  = − + 

Việc tính tốn chỉ số này cho tất cả các nút trong biểu đồ sẽ mất thời gian O(V2) trên ma trận kề dày đặc.

Tuy nhiên, đây là thước đo mang tính cục bộ nên một số nút có bậc cao chưa chắc là quan trọng nhất trong mạng.

2.4.2. Khoảng cách trung tâm (Closeness centrality)

Trong đồ thị có hướng, khoảng cách trung tâm của một nút là độ dài trung bình của đường đi ngắn nhất giữa nút đó với tất cả các nút trong mạng. Khi đó, nút càng gần tâm thì nó sẽ có chiều dài đường đi tới các nút khác trong mạng sẽ càng ngắn.

Chỉ số này được phát hiện bởi Alex Bavelas (1950) và được định nghĩa là tác nhân tương hỗ [50]. Chỉ số được tính như sau:

1 ( ) ( , ) y C x d x y = 

Trong đó, d(x,y) là khoảng cách giữa x và y. Tuy nhiên, khi nói về

khoảng cách trung tâm, mọi người thường đề cập đến dạng chuẩn hóa của nó là nhân với N với N là số nút trong mạng.

( ) ( , ) y N C x d x y = 

Chỉ số này cho phép ta so sánh giữa các nút trong đồ thị có kích thước khác nhau, đặc biệt trong đồ thị có hướng.

50

2.4.3. Vị trí trung tâm (Betweenness centrality)

Vị trí trung tâm là thước đo tính trung tâm của một đỉnh. Tính trung tâm của một nút sẽ được định lượng là số lần một nút hoạt động với vai trò cầu nối trên đường đi ngắn nhất giữa hai nút khác. Linton Freeman ban đầu giới thiệu chỉ số này như một thước đo để định lượng khả năng kiểm soát của một người đối với sự giao tiếp giữa những người khác trong mạng xã hội[51]. Theo quan điểm của ơng, những nút có xác suất cao xảy ra trên con đường ngắn nhất giữa hai đỉnh được chọn ngẫu nhiên sẽ có chỉ số vị trí trung tâm cao.

Vị trí trung tâm của một đỉnh v trong đồ thị G được tính như sau: - Trên mỗi cặp đỉnh (s, t), ta tính đường đi ngắn nhất giữa chúng

- Xác định số lượng đường đi ngắn nhất qua đỉnh v

- Tính tổng tỷ lệ trên cặp đỉnh này Ta có thể tính theo cơng thức sau:

( ) st B s v t V st v C      = 

Trong đó, σst là tổng số đường đi ngắn nhất từ nút s tới nút t và σst(v) là tổng số đường đi ngắn nhất giữa s và t qua v.

Hai chỉ số khoảng cách trung tâm và vị trí trung tâm tính u cầu tính tốn đường đi ngắn nhất giữa tất cả cặp đỉnh trên đồ thị. Như vậy, thời gian tính tốn sẽ là O(V3).

2.5. Kết luận chương

Mạng xã hội được xây dựng từ cơ sở dữ liệu thực tế thường là những mạng thưa và lớn. Để áp dụng thuật tốn phân tích vào mạng xã hội này, ta cần trích xuất ra một đồ thị con phù hợp. Có rất nhiều phương pháp giúp ta trích xuất đồ thị con từ một mạng lớn. Chẳng hạn như trích xuất theo thành phần của mạng là đồ thị liên thông mạnh (hoặc yếu) lớn nhất trong mạng.

51 Một cách khác ta có thể trích xuất theo cliques lớn nhất của mạng. Một cliques là đồ thị con trong đó mỗi nút đề được liên kết với các nút còn lại trong mạng. Điều kiện của cliques khá chặt, do đó ta có thể xem xét tới phương pháp k-cores. Phương pháp này giúp ta xác định đồ thị con liên thơng lớn nhất trong đó mỗi nút phải có bậc thấp nhất bằng k.

Phần tiếp theo tôi đưa ra những chỉ số thống kê mô tả của mạng như khoảng cách, đường kính của mạng hay sức mạnh của nút trong mạng. Những chỉ số thống kê này giúp ta có đánh giá ban đầu về mạng được phân tích.

Phần thứ ba tơi đề cập đến thuật toán Leiden giúp phát hiện cộng đồng trong mạng. Đây là thuật toán được cải tiến từ thuật toán Louvain bởi VA.Tragg và cộng sự vào năm 2018. Thuật toán được xây dựng dựa trên việc tối ưu modularity. Modularity trong mạng là chỉ số giúp ta đo độ mạnh của việc phân chia mạng thành những cộng đồng khác nhau. Đây cũng là một chỉ số đánh giá cho mơ hình bài tốn này.

Phần thứ tư tôi đề cập đến những chỉ số đánh giá tính trung tâm của một nút. Bậc là chỉ số trực quan và quen thuộc nhất khi đánh giá tính trung tâm của một nút. Những nút có bậc cao trong mạng là những nút có nhiều liên kết. Tuy nhiên, khơng phải lúc nào những nút có bậc cao cũng là những nút quan trọng trong mạng. Do đó, tơi xem xét tới hai chỉ số là khoảng cách trung tâm và vị trí trung tâm. Khoảng cách trung tâm đề cập đến khoảng cách của một nút tới trung tâm của mạng. Nút có khoảng cách càng gần trung tâm thì nút có khả năng quan trọng hơn. Vị trí trung tâm đề cập đến xác suất nút đó nằm trên được đi ngắn nhất giữa hai nút bất kỳ trong mạng. Nút nào có chỉ số này càng cao, chứng tỏ nút có vị trí càng trung tâm trong mạng.

52

Một phần của tài liệu Nghiên cứu bài toán phân tích mạng xã hội (Trang 58 - 63)

Tải bản đầy đủ (PDF)

(86 trang)