Định nghĩa về cụm cộng đồng (community)

Một phần của tài liệu Tiểu luận môn Thuật Toán và Phương Pháp Giải Quyết Vấn Đề GIẢI THUẬT DI TRUYỀN VÀ ỨNG DỤNG (Trang 31)

Vấn đề đầu tiên trong bài toán phân cụm cộng đồng đó là cần tìm một định nghĩa định lượng về cụm cộng đồng. Thật ra không có một định nghĩa chung nào về nó được tất cả chấp nhận, định nghĩa cụm cộng đồng thường tùy thuộc vào kiểu hệ thống mạng hoặc theo một nhu cầu người sở hữu hệ thống mạng đó. Chúng ta quan niệm cảm quan rằng một cụm cộng đồng cần có nhiều cạnh bên trong nó hơn là những cạnh kết nối với phần còn lại của đồ thị (biểu diễn hệ thống mạng). Đó là một quan niệm căn bản nhất cho tất cả các định nghĩa khác về cộng đồng, và có nhiều công thức định nghĩa khác có thể phù hợp với quan niệm căn bản trên. Bài toán chưa quan tâm đến các hệ thống phức tạp.

Một đặc tính quan trọng khác cần có của mỗi cụm cộng đồng đó là tính liên thông (connectness), tức là giữa hai đỉnh sẽ có ít nhất một đường đi kết nối giữa hai đỉnh đó.

Tất cả các định nghĩa về cụm cộng đồng đều yêu cầu các cụm cộng đồng cần có những yêu cầu như trên. Có ba lớp định nghĩa về cụm cộng đồng đó là cục bộ

(local),tổng thể (global) và dựa trên tương tự đỉnh (based on vertex similarity). Lớp định nghĩa về cục bộ coi các cụm cộng đồng như là một đối tượng có tính tự trị (autonomy) ,vì vậy nó có thể được ước lượng nó một cách độc lập với đồ thị. Lớp định nghĩa tổng thể coi như các cụm cộng đồng là một phần của toàn bộ cộng đồng,và không thể bỏ qua ảnh hưởng của nó đến cộng đồng,vì vậy định nghĩa cộng đồng cũng có nghĩa là xem xét cả tổng thể là một đồ thị. Lớp định nghĩa dựa trên sự tương tự đỉnh coi cộng đồng là một tập hợp các đỉnh có chung tính chất. Ta chỉ xem xét lớp định nghĩa tổng thể ,vì nó có liên quan tới việc xây dựng hàm fitness mà ta sẽ sử dụng.

Như đã bàn ở trên, trong việc định nghĩa một cụm cộng đồng theo lớp tổng thể, người ta coi các cụm cộng đồng là một phần của toàn bộ đồ thị, không thể coi nó riêng biệt mà không xét đến ảnh huỏng của nó đến chức năng của cả hệ thống. Giới học thuật đưa ra rất nhiều tiêu chuẩn để đánh giá nhận dạng các cụm cộng đồng. Tuy nhiên trong hầu hết, các trường hợp đó những định nghĩa gián tiếp (indirect). Mặc dù vậy vẫn có một lớp các định nghĩa trực tiếp, chính xác, dựa trên một ý tưởng đó là: một đồ thị có cấu trúc cộng đồng khi nó khác với một đồ thị ngẫu nhiên. Một đồ thị ngẫu nhiên tiêu biểu và đơn giản nhất là một đồ thị không được mong đợi là có một cấu trúc cộng đồng.

Trong đó, vì mọi cặp đỉnh đều có một xác suất kết nối giống nhau,tức là ở nó không hề có một sự ưu tiên dành kết nối nào để tạo dựng các cụm cộng đồng. Từ đó ta có thể định nghĩa một kiểu 0 (null model) – tức 1 đồ thị dùng để lấy làm ngưỡng 0 của tính chất .

Cấu trúc cộng đồng – tương tự như định nghĩa số 0, lấy làm đánh giá cho độ lớn của số nguyên dương - nó một đồ thị có một vài đặc trưng về cấu trúc giống như đồ thị đang xét (original) nhưng khác ở chỗ nó là một đồ thị ngẫu nhiên. Một đồ thị kiểu 0 thông dụng nhất được đề xuất bởi Newman và Girvan, nó là một kiểu ngẫu nhiên (randomized version) của đồ thị đang xét, ở đó các cạnh được nối một cách ngẫu nhiên,nhưng bậc kỳ vọng (expected degree) ở mọi đỉnh giống như bậc của đỉnh đó ở trong đồ thị đang xét.

Kiểu 0 là một khái niệm đứng sau định nghĩa về hàm mô-đun (modularity), là một hàm để ước lượng độ tốt của một cách phân cụm cho đồ thị, hàm mô-đun là một rất phù hợp để định nghĩa một cách tổng thể về cụm cộng đồng.

Một phần của tài liệu Tiểu luận môn Thuật Toán và Phương Pháp Giải Quyết Vấn Đề GIẢI THUẬT DI TRUYỀN VÀ ỨNG DỤNG (Trang 31)