Phân cụm phân cấp

Phương pháp phân cấp tạo ra một phân rã của tập đối tượng dữ liệu dưới dạng cây (dendrogram, theo Hy Lạp thì dendron là “cây”, gramma là “vẽ”), trong đó chia đệ quy cơ sở dữ liệu thành các tập con nhỏ hơn, để minh họa trật tự các cụm được sinh ra. Cây có thể biểu diễn dưới 2 dạng là bottom-up và top-down.

Tiếp cận bottom-up hay còn gọi là tiếp cận hội tụ (agglomerative), bắt đầu với mỗi đối tượng thành lập một cụm riêng biệt. Sau đó tiến hành hợp hoặc nhóm các đối tượng theo một vài tiêu chí đo như khoảng cách giữa trung tâm của 2 nhóm.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Thuật toán kết thúc khi tất cả các nhóm được hợp thành một nhóm (nút gốc của cây) hoặc thỏa mãn điều kiện dừng.

Còn tiếp cận top-down được gọi là tiếp cận phân chia (divisive), bắt đầu coi tất cả các đối tượng trong một cụm. Tại mỗi bước lặp thì cụm được phân chia thành cụm nhỏ hơn theo tiêu chí nào đó. Việc phân chia dừng khi mỗi đối tượng là một cụm hoặc thỏa mãn điều kiện dừng.

Hình 2.4: Phân cụm phân cấp

Ưu điểm của phương pháp này là kết hợp linh hoạt vào mức độ chi tiết, dễ dàng xử lý với bất kỳ kiểu đo độ tương tự/khoảng cách nào, thích hợp với mọi kiểu dữ liệu thuộc tính. Tuy nhiên, phương pháp tồn tại nhược điểm là điều kiện để dừng vòng lặp rất mơ hồ, không cụ thể. Mặt khác, phương pháp không duyệt lại các mức trước khi xây dựng để cải tiến chất lượng các cụm.

Thuật toán xuất hiện sớm nhất của phương pháp phân cấp là thuật toán AGNES (Agglomerative NEsting) và DIANA (DIvisia ANAlysic) được Kaufman L. và Rousseeuw P. J giới thiệu vào năm 1990. Hai thuật toán này sử dụng độ đo đơn giản trong quá trình hợp/phân chia cụm, do vậy kết quả đưa ra đôi khi không chính xác [11]. Ngoài ra, phương pháp phân cấp thực hiện trên cơ sở dữ liệu không gian còn có các thuật toán CURE (Clustering Using Representatives), BIRCH (Balance Iterative Reducing and Clustering using Hierarchies), CHAMELEON.

CHƢƠNG 2: PHÂN CỤM DỮ LIỆU KHÔNG GIAN 2.1 Khái quát về khai phá dữ liệu:

Tiến trình khai phá dữ liệu