Như ví dụ trên, 0-core được thể hiện bằng màu xanh lam, 1-core là màu vàng, 2-cores là màu xanh lá cây và 3-cores là màu đỏ.
Trên thực tế, có thể có nhiều nhóm 3-cores. Và các nhóm này được lồng vào nhau: một đỉnh trong 3-cores cũng là một thành phần trong 2-cores nhưng ngược lại thì khơng chắc.
Để tìm các nhóm con gắn kết bằng k-cores, ta sẽ loại bỏ k -cores thấp nhất khỏi mạng cho đến khi mạng chia thành các thành phần tương đối đậm đặc. Sau đó, mỗi thành phần được coi là nhóm con gắn kết vì chúng có ít nhất k lân cận trong thành phần. Lưu ý rằng các đỉnh đã bị loại bỏ trong quá trình này khơng phải là một phần của nhóm con gắn kết.
Như vậy, sự gắn kết thường được thể hiện qua mật độ và sự kết nối. Mật độ xác định số lượng liên kết tới đỉnh. Một mạng lưới được kết nối mạnh mẽ nếu nó chứa các đường dẫn giữa tất cả các đỉnh của nó và được kết nối khi tất cả các đỉnh của nó được nối với nhau bằng các đường bán dẫn. Điều này cũng áp dụng cho các phần của mạng (mạng con). Có một số kỹ thuật để phát hiện các nhóm con gắn kết dựa trên mật độ và tính kết nối, ba trong số đó được trình bày trong phần này là: thành phần, k –cores, và cliques. Cả ba kỹ thuật đều giả định các mẫu kết nối tương đối dày đặc trong các nhóm
29 con, nhưng chúng khác nhau về mật độ tối thiểu yêu cầu, thay đổi từ ít nhất một kết nối với tất cả các kết nối có thể có (cliques).
2.2. Một số thước đo thống kê mô tả đặc trưng cho mạng xã hội
Ngoài những thước đo trên đồ thị trên, mạng còn rất nhiều thước đo thống kê đánh giá một mạng như đường kính, sức mạnh (strength) của một nút hay hệ số phân cụm của một nút trong mạng.
2.2.1. Khoảng cách trong mạng
Một đường đi trong mạng vô hướng hay gọi là đường đi trong đồ thị vô hướng là một chuỗi các đỉnh P = (v1, v2, …, vn) V * V * V *…* V.
Trong đó, vi tiếp giáp vi+1 với 1 i n.
Một đường như vậy sẽ được gọi là một con đường có độ dài n-1 từ v1 đến vi.
Có thể có nhiều con đường giữa hai đỉnh bất kì. Trong đó, con đường ngắn nhất giữa hai đỉnh sẽ được gọi là khoảng cách giữa hai đỉnh.
Như vậy, ta có khái niệm khoảng cách giữa hai đỉnh của đồ thị là số cạnh trên đường đi ngắn nhất của đồ thị. Đây được gọi là khoảng cách ngắn nhất và được ký hiệu là L[28] .
Trường hợp khơng có đường đi nào nối hai đỉnh, tức là hai đỉnh này thuộc hai thành phần liên thơng khác nhau thì khoảng cách giữa hai đỉnh này được coi là vơ hạn.
Ta có một số khái niệm liên quan:
Đỉnh cô lập v là đỉnh có khoảng cách lớn nhất với tất cả các đỉnh khác trong đồ thị. Đây có thể coi là nút xa nhất trong đồ thị.
Đường kính của đồ thị khoảng cách lớn nhất giữa các cặp đỉnh trong đồ thị. Để tìm được đường kính của đồ thị, ta cần xác định khoảng cách ngắn nhất giữa hai đỉnh bất kì trong đồ thị. Khi đó, đường kính sẽ là khoảng cách ngắn nhất có giá trị lớn nhất mà ta tìm thấy.
30
2.2.2. Sức mạnh của nút trong mạng
Thực tế, trên mạng không chỉ xét tới hướng của cạnh, mà ta cịn có thể xét trọng số của cạnh.
Trọng số của cạnh là sức mạnh mối quan hệ giữa hai nút. Trọng số của cạnh giữa hai nút i và j thường được kí hiệu là wi,j.
Một chỉ số ta có thể đề cập tới là sức mạnh[29] của một nút- hay gọi là độ mạnh của một nút.
Độ mạnh của nút trong mạng vơ hướng sẽ được tính như sau:
( , )
( ) j i E wji
s i =
Với: s(i) là độ mạnh của đỉnh i
wi,j là trọng số giữa hai đỉnh i và j của đồ thị
Với đồ thị có hướng, ta có thể chia làm độ mạnh vào: in-strength sin(i)
và độ mạnh ra: out-strength sout(i) của nút i là tổng trọng số của cạnh đi vào
và đi ra tương ứng.
Ta tính in-strength của nút i sẽ được tính như sau:
( , ) ( ) w in ji j i E s i =
với wji là trọng số của cạnh từ nút j đến nút i. Ta tính in-strength của nút i sẽ được tính như sau:
( , ) ( ) w out ij i j E s i = với wi j là trọng số của cạnh từ nút i đến nút j. 2.2.3. Hệ số phân cụm mạng
Hệ số đo lường phân cụm mạng – C là hệ số được tính theo trung bình mật độ địa phương với Cv là mật độ mạng cá nhân tại nút v. Khái niệm này được đưa ra lần đầu bởi Holland và Leinhardt vào năm 1971[30].
31 v v C C n =
Hệ số phân cụm cục bộ Ci cho đỉnh vi sẽ được tính như sau trong mạng vơ hướng: 1 *( 1) / 2 0 0 1 i i i i i i i k if d d d C if d or d − = =
Trong mạng có hướng, mật độ được tính như sau:
1 *( 1) 0 0 1 i i i i i i i k if d d d C if d or d − = =
Trong đó, ki là số đỉnh lân cận của đỉnh i.
Một mạng có đặc trưng thế giới nhỏ là mơ hình mạng có L tương đối nhỏ và C tương đối lớn.
2.3. Bài toán phát hiện cộng đồng trong mạng xã hội
Mơ hình mạng xuất hiện xung quanh ta rất nhiều. Những ví dụ ta có thể kể đến như mạng xã hội cộng đồng trên facebook, twitter, hay youtube,…. Xây dựng một mạng xã hội có rất nhiều ứng dụng, chẳng hạn như dự đoán liên kết, phát hiện bất thường,… Trong bài luận này, tơi sẽ đi sâu vào bài tốn phát hiện cộng đồng. Đây là một bài toán cơ bản trong phân tích mạng, nhưng nó cũng có vai trị rất lớn. Việc phát hiện cộng đồng giúp ta tìm ra cách ứng xử riêng với từng nhóm đối tượng mà ta quan tâm.
2.3.1. Giới thiệu bài toán phát hiện cộng đồng
Một mạng được coi là có cấu trúc cộng đồng nếu các nút có thể dễ dàng nhóm lại thành tập hợp các nút sao cho mỗi nhóm nút có mật độ kết nối nội bộ cao. Nguyên tắc của việc phát hiện cộng đồng cho rằng hai nút bất kì có khả năng có kết nối chặt chẽ hơn nếu hai nút đó cùng là thành viên trong một cộng đồng và có liên kết ít chặt chẽ hơn nếu hai nút khác cộng đồng.
32
2.3.1.1. Khái niệm
Trong các mạng được tìm thấy, ví dụ như mạng máy tính, mạng xã hội, mạng sinh học, ta thấy được một số điểm chung trong mạng như tính chất thế giới nhỏ, phân bố bậc theo luật lũy thừa. Nhưng điểm khác của các mạng này là cấu trúc cộng đồng [37].