Bước 1: Phân hoạch tập dữ liệu thành các hình hộp chữ nhật và tìm các hình hộp chữ nhật đặc (nghĩa là các hình hộp này chứa một số các đối tượng dữ liệu trong số các đối tượng láng giềng cho trước).
Bước 2: Xác định không gian con chứa các cụm được sử dụng nguyên lý Apriori.
Bước 3: Hợp các hình hộp này tạo thành các cụm dữ liệu.
Bước 4: Xác định các cụm: Trước hết nó tìm các cell đặc đơn chiều, tiếp đến chúng tìm các hình chữ nhật 2 chiều, rồi 3 chiều,…, cho đến khi hình hộp chữ nhật đặc
2.5 Phân cụm dựa trên mô hình
Phương pháp phân cụm dữ liệu dựa trên mô hình cố gắng khớp giữa dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất cơ bản.
Các thuật toán phân cụm dựa trên mô hình có hai tiếp cận chính: Mô hình thống kê và Mạng Nơron. Một số thuật toán điển hình như EM, COBWEB,...
2.5.1. Thuật toán EM
Thuật toán EM (Expectation - Maximization) được nghiên cứu từ 1958 bởi Hartley và được nghiên cứu đầy đủ bởi Dempster, Laird và Rubin công bố năm 1977.
Thuật toán này nhằm tìm ra sự ước lượng về khả năng lớn nhất của các tham số trong mô hình xác suất, nó được xem như là thuật toán dựa trên mô hình hoặc là mở rộng của thuật toán k-means
Thuật toán gồm 2 bước xử lý: Đánh giá dữ liệu chưa được gán nhãn (bước E) và đánh giá các tham số của mô hình, khả năng lớn nhất có thể xảy ra (bước M).
Cụ thể thuật toán EM ở bước lặp thứ t thực hiện các công việc sau:
Bước E: Tính toán để xác định giá trị của các biến chỉ thị dựa trên mô hình hiện tại và dữ liệu:
Bước M: Đánh giá xác suất π
372.5.1. Thuật toán EM 2.5.1. Thuật toán EM
2.5.2. Thuật toán COBWEB
COBWEB được đề xuất bởi Fisher năm 1987. Thuật toán này sử dụng công cụ đánh giá heuristic được gọi là công cụ phân loại CU (Category Untility) để quản lý cấu trúc cây.
Cấu trúc cây có thể hợp nhất hoặc phân tách khi chèn một nút mới vào cây.