For i:=1 ton do{ 4 N:= nbrlist[i]

Một phần của tài liệu Tiểu luận môn khai phá thông tin MỘT SỐ THUẬT TOÁN VỀ GOM CỤM (Trang 25)

4. N:= nbrlist[i] 5. for j:=1 to [N]-1 do 6. for 1:= j+1 to [N]-1 do 7. link[N[j], N[l]:=link[N[j], N[l]+1 8. } End

6. Thuật toán Chameleon

Phương pháp Chameleon một cách tiếp cận khác trong việc sử dụng mô hình động để xác định các cụm nào được hình thành. Bước đầu tiên của Chameleon là xây dựng một đồ thị mật độ thưa và sau đó ứng dụng một thuật toán phân hoạch đồ thị để PCDL với số lớn của các cụm con. Tiếp theo, Chameleon thực hiện tích tụ phân cụm phân cấp, như AGNES, bằng hòa nhập các cụm con nhỏ theo hai phép đo, mối quan hệ liên thông và mối quan hệ gần nhau của các nhóm con. Do đó, thuật toán không phụ thuộc vào người sử dụng các tham số như K-means và có thể thích nghi.

Thuật toán này khảo sát mô hình động trong phân cụm phân cấp. Trong đó, hai cụm được hòa nhập nêu giữa hai cụm có liên quan mật thiết tới quan hệ kết và gần nhau của các đối tượng trong các cụm. Quá trình hòa nhập dễ dàng khám phá các cụm tự nhiên và đồng nhất, ứng dụng cho tất cả các kiểu dữ liệu miễn là hàm tương tự được xác định.

Nó khắc phục được nhược điểm các phương pháp CURE và ROCK. Lý do là CURE và lược đồ liên quan lờ đi thông tin về liên kết của các đối tượng trong hai cụm khác nhau, trong khi ROCK lược đồ liên quan lờ đi thông tin về gần nhau của hai cụm mà lại chú trọng quá về liên kết.

CURE sử dụng thuật toán phân hoạch đồ thị để phân cụm các đối tượng dữ liệu vào trong một số lớn một cách tương đối nhỏ của các cụm con.

Chameleon sử dụng thuật toán phân cụm phân cấp để tìm các cụm xác thực

bằng cách lặp nhiều lần kết hợp hoặc hòa nhập các cụm con. Để xác định các cặp của nhiều cụm con tương tự, phải tính toán cả hai liên kết và gần nhau của các cụm, đặc biệt các đặc trưng bên trong của các cụm đang được hòa nhập.

Như vậy, nó không phụ thuộc vào mô hình tĩnh và có thể từ động thích nghi với đặc trưng bên trong của các cụm đang được hòa nhập. Nó có khả năng hơn để khám phá các cụm có hình thù bất kỳ có chất lượng cao hơn CURE và DBSCAN nhưng chi phí xử lý dữ liệu đa chiều phụ thuộc vào O(n2)

thời gian cho n các đối tượng trong trường hợp xấu nhất. III. Gom cụm dựa trên mật độ

Một phần của tài liệu Tiểu luận môn khai phá thông tin MỘT SỐ THUẬT TOÁN VỀ GOM CỤM (Trang 25)

w