Thuật toán DIANA

DIANA thực hiện đối lập với AGNES. DIANA bắt đầu với tất cả các đối tượng dữ liệu được chứa trong một cụm lớn và chia tách lặp lại, theo phân loại giống nhau dựa trên luật, cho đến khi mỗi đối tượng dữ liệu của cụm lớn được chia tách hết. Hình dạng của cụm phân cấp cùng liên quan đế tiếp cận top-down bắt đầu tại mức đỉnh nút gốc, với tất cả các đối tượng dữ liệu, trong một cụm, và duyệt xuống các nút lá dưới cùng nơi tất cả các đối tượng dữ liệu từng cái được chứa trong cụm của chính mình. Trong mỗi phương pháp của hai phương pháp, có thể số các cụm dẫn tới các mức khác nhau trong phân cấp bằng cách duyệt lên hoặc xuống cây. Mỗi mức có thể khác nhau

số các cụm và tất nhiên kết quả cũng khác nhau. Một hạn chế lớn của cách tiếp cận này là các cụm được hòa nhập hoặc phân chia một lần, không thể quay lại quyết định đó, cho dù hòa nhập hoặc phân chia không phải là thích hợp ở mức đó.

Nó khắc phục được nhược điểm các phương pháp CURE và ROCK. Lý do là CURE và lược đồ liên quan lờ đi thông tin về liên kết của các đối tượng trong hai cụm khác nhau, trong khi ROCK lược đồ liên quan lờ đi thông tin về gần nhau của hai cụm mà lại chú trọng quá về liên kết. CURE sử dụng thuật toán phân hoạch đồ thị để phân cụm các đối tượng dữ liệu vào trong một số lớn một cách tương đối nhỏ của các cụm con.

Chameleon sử dụng thuật toán phân cụm phân cấp để tìm các cụm xác thực bằng cách lặp nhiều lần kết hợp hoặc hòa nhập các cụm con. Để xác định các cặp của nhiều cụm con tương tự, phải tính toán cả hai liên kết và gần nhau của các cụm, đặc biệt các đặc trưng bên trong của các cụm đang được hòa nhập. Như vậy, nó không phụ thuộc vào mô hình tĩnh và có thể từ động thích nghi với đặc trưng bên trong của các cụm đang được hòa nhập. Nó có khả năng hơn để khám phá các cụm có hình thù bất kỳ có chất lượng cao hơn CURE và DBSCAN nhưng chi phí xử lý dữ liệu đa chiều phụ thuộc vào O(N2) thời gian cho n các đối tượng trong trường hợp xấu nhất.

Các định nghĩa cơ bản