CHƯƠNG 3 CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU
3.3. CÁC THUẬT TOÁN PHÂN CỤM PHÂN CẤP
3.3.4. Thuật toỏn CHAMELEON
Phương phỏp Chameleon được đề xuất bởi (G. Karypis, E.H. Han, and V. Kumar, 1999) là một cỏch tiếp cận khỏc trong việc sử dụng mụ hỡnh động để xỏc định cỏc cụm nào được hỡnh thành. Thuật toỏn Chameleon chia thành hai bước, cụ thể như sau:
1. Bước đầu tiờn, Chameleon xõy dựng một đồ thị mật độ thưa và sau đú ứng dụng một thuật toỏn phõn hoạch đồ thị để PCDL với số lớn cỏc cụm con.
2. Bước tiếp theo Chamelon sử dụng thuật toỏn phõn cụm phõn cấp để hũa nhập cỏc cụm con.
Thuật toỏn này khảo sỏt mụ hỡnh động trong phõn cụm phõn cấp. Trong đú, hai cụm được hũa nhập nếu giữa hai cụm cú liờn quan mật thiết tới quan hệ liờn kết và gần nhau của cỏc đối tượng trong cụm. Quỏ trỡnh hũa nhập dễ dàng được khỏm phỏ cỏc cụm tự nhiờn và đồng nhất, ứng dụng cho tất cả cỏc kiểu dữ liệu miễn là hàm tương tự được xỏc định [13].
Thuật toỏn này khắc phục được nhược điểm của cỏc thuật toỏn như Cure,… và lược đồ liờn quan lờ đi cỏc thụng tin về liờn kết của cỏc đối tượng trong hai cụm khỏc nhau.
Cure sử dụng thuật toỏn phõn hoạch đồ thị để phõn cụm cỏc đối tượng dữ liệu vào một số lớn của cụm con nhỏ cú liờn quan. Chameleon sử dụng thuật toỏn phõn cụm phõn cấp để tỡm cỏc cụm xỏc thực bằng cỏch lặp nhiều lần kết hợp hũa nhập cỏc cụm con. Để xỏc định cỏc cặp của nhiều cụm con tương tự, nú phải tớnh toỏn cả hai liờn kết và gần nhau của cỏc cụm, đặc biệt cỏc đặc trưng bờn trong của cỏc cụm đang được hũa nhập.
Như vậy, nú khụng phụ thuộc vào mụ hỡnh tĩnh và cú thể tự động thớch nghi với cỏc đặc trưng bờn trong của cỏc cụm đang được hũa nhập. Nú cú khả năng hơn để khỏm phỏ cỏc cụm cú hỡnh thự bất kỳ, cú chất lượng cao hơn Cure và cú độ phức tạp cỡ O(n2
).