CHƢƠNG 1 : TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
2.2. Phƣơng pháp phân cụm phân cấp
2.2.3. Thuật toán AGNES và DIANA
Thuật toán AGNES là kỹ thuật kiểu tích tụ. AGNES bắt đầu ở ngoài với mỗi đối tƣợng dữ liệu trong các cụm riêng lẻ. Các cụm đƣợc hòa nhập theo một số loại của cơ sở luật, cho đến khi chỉ có một cụm ở đỉnh của phân cấp, hoặc gặp điều kiện dừng. Hình dạng này của phân cụm phân cấp cũng liên quan đến tiếp cận bottom-up bắt đầu ở dƣới với các nút lá trong mỗi cụm riêng lẻ và duyệt lên trên phân cấp tới nút gốc nơi tìm thấy cụm đơn cuối cùng với tất cả các đối tƣợng dữ liệu đƣợc chứa trong cụm đó.
DIANA thực hiện đối lập với AGNES. DIANA bắt đầu với tất cả các đối tƣợng dữ liệu đƣợc chứa trong một cụm lớn và chia tách lặp lại, theo phân loại giống nhau dựa trên luật, cho đến khi mỗi đối tƣợng dữ liệu của cụm lớn đƣợc chia tách hết. Hình dạng của cụm phân cấp cũng liên quan đến tiếp cận top-down bắt đầu tại mức đỉnh nút gốc, với tất cả các đối tƣợng dữ liệu, trong một cụm, và duyệt xuống các nút là dƣới cùng nơi tất cả các đối tƣợng dữ liệu từng cái đƣợc chứa trong cụm của chính mình.
Trong mỗi phƣơng pháp của hai phƣơng pháp, có thể số các cụm dẫn tới các mức khác nhau trong phân cấp bằng cách duyệt lên hoặc xuống cây. Mỗi mức có thể khác nhau số các cụm và tất nhiên kết quả cũng khác nhau. Một hạn chế lớn của cách tiếp cận này là các cụm đƣợc hòa nhập hoặc phân chia một lần, không thể quay lại quyết định đó, cho dù hòa nhập hoặc phân chia không phải là thích hợp ở mức đó.