Thuật toán phân cụm phân cấp gồm có 2 loại: Thuật toán phân cụm theo thứ bậc trên xuống (Agglomerative Hierarchical). Thuật toán phân cụm theo thứ bậc từ dƣới lên (Divisive Hierarchical). Hai thuật toán này trình tự làm việc ngƣợc nhau. Thuật toán phân cụm phân cấp, thuật toán này hoạt động bằng cách nhóm dữ liệu từng cặp một trên cơ sở các biện pháp khoảng cách gần nhất của khoảng cách giữa các điểm dữ liệu tất cả các cặp. Một lần nữa khoảng cách giữa các điểm dữ liệu đƣợc tính toán lại. Khi các nhóm đã đƣợc hình thành cần xem xét lại khoảng cách giữa các điểm dữ liệu. Một số phƣơng pháp xem xét khoảng cách giữa các điểm dữ liệu:
- Khoảng cách gần nhất hoặc liên kết đơn nhất. - Khoảng cách xa nhất hoặc liên kết đầy đủ.
- Khoảng cách trung bình hoặc liên kết trung bình. - Tổng bình phƣơng Euclide là nhỏ nhất
Thuật toán phân cụm phân cấp:
Cho X={x1,x2…xn} là tập hợp các điểm dữ liệu.
Bước 1: Bắt đầu với phân chia các nhóm có mức L(0) = 0 và dãy số m = 0.
Bước 2: Tìm khoảng cách tối thiểu của cụm trong cụm hiện tại biểu diễn bằng cặp (r), (s) theo công thức d[(r),(s)]=min d[i,j] là nhỏ nhất so với các cụm hiện tại.
Bước 3: Tăng số thứ tự m=m+1. Hợp nhất các cụm (r) và (s) vào một cụm duy nhất hình thành m cụm tiếp theo. Thiết lập mức của nhóm này là L (m)=d[(r),(s)]
Bước 4: Cập nhật ma trận khoảng cách D bằng cách xóa các hàng và cột tƣơng ứng với cụm (r) và (s) và thêm một hàng và cột tƣơng ứng với cụm mới đƣợc thành lập. Khoảng cách giữa cụm mới ký hiệu là (r,s) và cụm cũ (k) đƣợc định nghĩa d[(k),(r,s)] = min(d[(k),(r)],d[(k),(s)]).
Bước 5: Nếu tất cả các điểm dữ liệu trong một cụm thì dừng lại nếu không lặp lại từ bƣớc 2.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn Ưu điểm của thuật toán phân cụm phân cấp
- Không có thông tin về các cụm đƣợc yêu cầu.
- Dễ dàng thực hiện và cho kết quả tốt nhất trong một số trƣờng hợp.
Nhược điểm của thuật toán phân cụm phân cấp
Thuật toán không thể quay lại những gì đã thực hiện trƣớc đó. Độ phức tạp của thuật toán O(n2log n) với n là số điểm dữ liệu. Không có hàm mục tiêu đƣợc giảm thiểu ngay lập tức. Khó xác định số lƣợng các cụm chính xác bởi sơ đồ nhánh.
Phân cụm phân cấp bao gồm một số thuật toán nhƣ: Thuật toán CURE; Thuật toán BIRCH; Thuật toán AGNES; Thuật toán DIANA; Thuật toán ROCK; Thuật toán CHANMELEON.