CHƢƠNG 1 : TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
2.2. Phƣơng pháp phân cụm phân cấp
2.2.4. Thuật toán CHAMELEON
Phƣơng pháp Chameleon một cách tiếp cận khác trong việc sử dụng mô hình động để xác định các cụm nào đƣợc hình thành. Bƣớc đầu tiên của Chameleon là xây dƣ̣ng mô ̣t đồ thi ̣ mâ ̣t đô ̣ thƣa và sau đó ƣ́ng dụng một thuật toán phân hoạch đồ thị để phân cụm dữ liệu với số lớn của các cụm con . Tiếp theo Chameleon thƣ̣c hiê ̣n tích tụ phân cụm phân cấp , nhƣ AGNES, bằng hòa nhập các cụm con nhỏ theo hai phép đo , mối quan hê ̣ liên thông và mối quan hê ̣ gần nhau của các nhóm con . Do đó, thuâ ̣t toán không phụ thuộc vào ngƣời sử dụng xác định các tham số nhƣ k-means và có thể thích nghi .
Hình 2.11: Khái quát thuật toán CHAMELEON
Thuâ ̣t toán này khảo sát mô hình động trong phân cụm phân cấp . Trong đó, hai cụm đƣợc hòa nhập nếu giữa hai cụm có liên quan mật thiết tới quan hệ liên kết và gần nhau của các đối tƣợng trong các cụm. Quá trình hòa nhập dễ dàng khám phá các cụm tự nhiên và đồng nhất, ứng dụng cho tất cả các kiểu của dƣ̃ liê ̣u miễn là hàm tƣ ơng tự đƣợc xác định.
CURE sƣ̉ dụng thuật toán phân hoạch đồ thị để phân cụm các đối tƣợng dữ liệu vào trong một số lớn một cách tƣơng đối nhỏ của các cụm con. Chameleon sƣ̉ dụng thuật toán phân cụm phân cấp để tìm các cụm xác thực
bằng cách lặp nhiều lần kết hợp hoặc hòa nhập các cụm con . Để xác đi ̣nh các că ̣p của nhiều cụm con tƣơng tự , nó phải tính toán cả hai liên kết và gần nhau của các cụm, đặc biệt các đặc trƣng bên trong của các cụm đang đƣợc hòa nhập.
Nhƣ vâ ̣y, nó không phụ thuộc vào mô hình tĩnh và có thể tự động thích nghi với các đặc trƣng bên trong của các cụm đang đƣợc hòa nhập . Nó có khả năng hơn để khám phá các cụm cụm có hình thù bất kỳ có chất lƣợng cao với chi phí xử lý dữ liệu đa chiều phụ thuộc vào O (n2) thờ i gian cho n các đối tƣơ ̣ng trong trƣờng hợp xấu nhất .