Thuật toán CLIQUE đƣợc minh họa trong hình 1.9. Thông thƣờng, kết quả vùng tìm kiếm là nhỏ hơn so với vùng ban đầu. Các khối dày đặc đại diện để xác định các cụm.
Điều kiện tìm ra các cụm, thuật toán CLIQUE mô tả thông tin tối thiểu về các cụm nhƣ sau:
Với mỗi cụm, nó xác định vùng lớn nhất phủ các khối liên kết dày đặc. Sau đó nó xác định một phủ tối thiểu cho mỗi cụm.
CLIQUE tự động tìm các không gian con của không gian có số chiều cao nhất thỏa mãn các cụm mật độ cao tồn tại trong các không gian con. Nó sẽ không nhạy cảm với thứ tự của các điểm dữ liệu và phân bố dữ liệu. Thuật toán phân chia tuyến tính với cỡ của dữ liệu vào và có thang chia tốt theo số chiều khi số lƣợng dữ liệu tăng. Tuy nhiên, tính chính xác của các cụm kết quả có thể giảm tại tính đơn giản hóa của phƣơng pháp.
CHƢƠNG 2: LÝ THUYẾT TẬP THÔ
Tập thô đƣợc Zdzislaw Pawlak (một nhà toán học và khoa học máy tính ngƣời Ba Lan) đề xuất năm 1982, với ý tƣởng coi nó là công cụ toán học để đối phó với các khái niệm mơ hồ, nó đƣợc phát triển từ giả định là để định nghĩa một tập hợp ta cần phải biết một số thông tin (hay tri thức) về các phần tử của tập, không giống nhƣ định nghĩa tập hợp trƣớc đây (Georg Cantor, ngƣời đƣợc coi là ông tổ của lý thuyết tập hợp đã đƣa ra là để định nghĩa tập hợp, cách duy nhất là dựa trên các phần tử của tập đó và không cần thông tin về các phần tử của tập hợp). Đối với một số phần tử, thông tin của chúng có thể tƣơng tự nhau, do đó các phần tử này không thể phân biệt đƣợc một cách rõ ràng. Quan hệ không phân biệt đƣợc là điểm khởi đầu của lý thuyết tập thô. Quan hệ này chỉ ra sự mập mờ và không chắc chắn, có quan hệ chặt chẽ với tính không phân biệt đƣợc.