2. CÁC KHÁI NIỆM, LÝ THUYẾT CƠ SỞ LIÊN QUAN, PHƯƠNG PHÁP
2.1.2.3 Thuật toán ISODATA
• Thuật toán này được xây dựng dựa trên cơ sở của thuật toán K-means, nhưng có bổ sung thêm 3 quá trình :
- Khử bỏ cụm. - Tách cụm. - Gom cụm.
• Thuật toán ISODATA gồm các bước sau:
Bước 1: Khởi tạo Kinit cụm, và chọn Kinit mẫu trong tập mẫu làm trung tâm cho các cụm.
Bước 2: Phân chia các mẫu vào trong các cụm theo nguyên lý khoảng cách ngắn nhất.
Bước 3: Khử bỏ các cụm có số lượng mẫu nhỏ hơn ngưỡng nmin cho trước, sau đó thực hiện phân chia các mẫu này vào trong các cụm khác để được K cụm.
Bước 4: Tính toán lại trung tâm của cụm bằng trung bình của tất cả các mẫu trong mỗi cụm.
Bước 5: Với mỗi cụm k, tính σn2(k) của mỗi thành phần n
của xn trong cụm này và tìm max (σn*2(k)) của thành
phần trong cụm k với n=1, 2,..N.
Bước 6: Nếu không đủ cụm (Kinit < K/2) và đây không phải là bước lặp cuối cùng thì thực hiện kiểm tra:
1. Nếu σmax(k) > σsplit của cụm k nào đó thì tách cụm này thành 2 cụm mới.
Bước 7: Nếu đây là bước lặp chẵn và Kinit > 2K thì thực hiện tính tất cả các khoảng cách giữa những trọng tâm của cụm, thực hiện kết hợp những cụm có giá trị gần với giá trị tính được.
• Ưu, nhược điểm của thuật toán ISODATA:
Ưu điểm: Đây là một phương pháp: - Có khả năng tự tổ chức.
- Mềm dẻo trong xử lý khử bỏ những cụm có kích thước quá nhỏ.
- Có khả năng tách biệt được các cụm có tính chất hoàn toàn khác nhau.
- Có khả năng kết hợp những cụm gần giống nhau thành 1 một cụm.
Nhược điểm:
- Quá nhiều tham số cần phải cung cấp bởi người dùng, mặc dù chúng không phải là đại lượng cần phải biết.
- Các cụm được là hình cầu được xác định bởi hàm khoảng cách.
- Giá trị K phụ thuộc vào những tham số do người sử dụng qui định và nó cũng không phải là những giá trị tốt nhất.
- Cụm trung bình thường không phải là mẫu tốt nhất cho một cụm.