Thuật toán phân cụm phân cấp gồm có 2 loại: Thuật toán phân cụm theo thứ bậc trên xuống (Agglomerative Hierarchical). Thuật toán phân cụm theo thứ bậc từ dưới lên (Divisive Hierarchical). Hai thuật toán này trình tự làm việc ngược nhau. Thuật toán phân cụm phân cấp. Thuật toán này hoạt động bằng cách nhóm dữ liệu từng cặp một trên cơ sở các biện pháp khoảng cách gần nhất của khoảng cách giữa các điểm dữ liệu tất cả các cặp. Một lần nữa khoảng cách giữa các điểm dữ liệu được tính toán lại. Khi các nhóm đã được hình thành cần xem xét lại khoảng cách giữa các điểm dữ liệu. Một số phương pháp xem xét khoảng cách giữa các điểm dữ liệu:
- Khoảng cách gần nhất hoặc liên kết đơn nhất. - Khoảng cách xa nhất hoặc liên kết đầy đủ.
- Khoảng cách trung bình hoặc liên kết trung bình. - Tổng bình phương Euclide là nhỏ nhất
Thuật toán phân cụm phân cấp:
Cho X={x1,x2…xn} là tập hợp các điểm dữ liệu.
Bước 1: Bắt đầu với phân chia các nhóm có mức L(0) = 0 và dãy số m = 0.
Bước 2: Tìm khoảng cách tối thiểu của cụm trong cụm hiện tại biểu diễn bằng cặp (r), (s) theo công thức d[(r),(s)]=min d[i,j] là nhỏ nhất so với các cụm hiện tại.
Bước 3: Tăng số thứ tự m=m+1. Hợp nhất các cụm (r) và (s) vào một cụm duy nhất hình thành m cụm tiếp theo. Thiết lập mức của nhóm này là L (m)=d[(r),(s)]
Bước 4: Cập nhật ma trận khoảng cách D bằng cách xóa các hàng và cột tương ứng với cụm (r) và (s) và thêm một hàng và cột tương ứng với cụm mới được thành lập. Khoảng cách giữa cụm mới ký hiệu là (r,s) và cụm cũ (k) được định nghĩa d[(k),(r,s)] = min(d[(k),(r)],d[(k),(s)])
Bước 5: Nếu tất cả các điểm dữ liệu trong một cụm thì dừng lại nếu không lặp lại từ bước 2
Ưu điểm của thuật toán phân cụm phân cấp
- Không có thông tin về các cụm được yêu cầu.
- Dễ dàng thực hiện và cho kết quả tốt nhất trong một số trường hợp
Nhược điểm của thuật toán phân cụm phân cấp
Thuật toán không thể quay lại những gì đã thực hiện trước đó. Độ phức tạp của thuật toán O(n2log n) với n là số điểm dữ liệu. Không có hàm mục tiêu được giảm thiểu ngay lập tức. Khó xác định số lượng các cụm chính xác bởi sơ đồ nhánh.
Phân cụm phân cấp bao gồm một số thuật toán như: Thuật toán CURE; Thuật toán BIRCH; Thuật toán AGNES; Thuật toán DIANA; Thuật toán ROCK; Thuật toán CHANMELEON.