Phát hiện các k-cliques trong mạng xã hội

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu độ đo trung gian và thuật toán phát hiện cộng đồng trên mạng xã hội (Trang 41 - 43)

Trong mạng xã hội, có những nhóm con cố kết (cohesive subgroups) với nhau như các nhóm công tác, các đội thể thao, đảng phái chính trị, các giáo phái, hay những tổ chức bí mật như các các nhóm mafia, hay nhóm khủng bố, … Những nhóm cố kết như vậy được thể hiện trong lý thuyết đồ thị bằng các cliques hay k-clique (phường hội), k-club (câu lạc bộ) và k-clan (phe phái), ...

Định nghĩa 2.1. Trong đồ thị G = (V, E), với v, w  V, đường trắc địa

(geodesics) là đường đi ngắn nhất nối hai đỉnh và khoảng cách giữa hai đỉnh, ký hiệu là g(v, w) là độ dài của đường trắc địa.

Định nghĩa 2.2. Tập con cực đại các đỉnh C  V được gọi là k-clique, nếu với mọi cặp đỉnh v, w (v  w) thuộc C thì 1 ≤ g(v, w) ≤ k.

Nói cách khác, k-cliques là tập các đỉnh của đồ thị con của một đồ thị mà giữa hai đỉnh bất kỳ đều có đường đi đến được nhau với độ dài nhỏ hơn hoặc bằng k. Tập cực đại theo nghĩa không còn đỉnh nào khác trong đồ thị có khoảng cách nhỏ hơn hoặc bằng k tới các đỉnh của đồ thị con đó.

Hiển nhiên, 1-clique là đồng nhất với clique, bởi khoảng cách giữa hai đỉnh bằng 1, nghĩa là có cạnh nối chúng với nhau. 2-clique tạo thành đồ thị con đầy đủ với độ dài các đường đi là 1 hoặc 2. Khoảng cách đường đi bằng 2 trong mạng xã hội có thể được xem như quan hệ “Bạn của bạn” (friend of a friend) hay các websites giống như LinkedIn, mỗi thành viên có thể liên kết qua 2 hay 3 cấp.

Ví dụ 2.3. Hình 2.2. minh họa về 1-clique, 2-clique và 3-clique.

Hình 2.2. Ví dụ 1-clique, 2-clique và 3-clique

Mô hình k-clique cũng có một số hạn chế như một số đỉnh có thể cách xa nhóm, nghĩa là khoảng cách giữa hai đỉnh có thể tương ứng với đường đi bao gồm những đỉnh không nằm trong k-clique. Ví dụ, đồ thị trên Hình 2.3, có 2-cliques là C = {v1,v2, v3, v4, v5}, trong đó có hai đỉnh 4, 5 có khoảng cách là v2 (đi qua đỉnh v6), nhưng đỉnh v6 lại không nằm trong C. Để khắc phục những hạn chế đó, người ta sử dụng khái niệm đường kính (diameter) dựa trên mô hình k-clan và k-club. Đường kính của đồ thị G = (V, E) được xác định bởi

diam(G) = max g(u, v) với mọi u, v ∈ V.

Định nghĩa 2.3. Một k-club là tập con S các đỉnh của đồ thị G sao cho đồ thị

con được cảm sinh bởi S có đường kính nhỏ hơn hoặc bằng k. Hay nói cách khác, k-Club tương tự như k-clique nhưng định nghĩa chặt hơn. Các đỉnh trên đường dẫn ngắn nhất phải thuộc về đồ thị con đó

Định nghĩa 2.4. k-Clan là một k-clique, mà đối với tất cả các đường dẫn ngắn

nhất trong đồ thị con , khoảng cách nhỏ hơn hoặc bằng k.

Hệ quả: mọi k-clan là k-club và k-clique. 𝑘 − 𝐶𝑙𝑎𝑛 = 𝑘 −𝐶𝑙𝑖𝑞𝑢𝑒 ⋂ 𝑘 − 𝐶𝑙𝑢𝑏 Lưu ý, để tìm tất cả các k-clan, trước tiên hãy tìm tất cả k-clique S, sau đó loại

bỏ những k-clique có khoảng cách lớn hơn k trong đồ thị con cảm sinh.

Hình 2.3. 2-cliques, 2-clan và 2-club

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu độ đo trung gian và thuật toán phát hiện cộng đồng trên mạng xã hội (Trang 41 - 43)