Thuật toán ISODATA

2. CÁC KHÁI NIỆM, LÝ THUYẾT CƠ SỞ LIÊN QUAN, PHƯƠNG PHÁP

2.1.2.3 Thuật toán ISODATA

• Thuật toán này được xây dựng dựa trên cơ sở của thuật toán K-means, nhưng có bổ sung thêm 3 quá trình :

- Khử bỏ cụm. - Tách cụm. - Gom cụm.

• Thuật toán ISODATA gồm các bước sau:

Bước 1: Khởi tạo Kinit cụm, và chọn Kinit mẫu trong tập mẫu làm trung tâm cho các cụm.

Bước 2: Phân chia các mẫu vào trong các cụm theo nguyên lý khoảng cách ngắn nhất.

Bước 3: Khử bỏ các cụm có số lượng mẫu nhỏ hơn ngưỡng nmin cho trước, sau đó thực hiện phân chia các mẫu này vào trong các cụm khác để được K cụm.

Bước 4: Tính toán lại trung tâm của cụm bằng trung bình của tất cả các mẫu trong mỗi cụm.

Bước 5: Với mỗi cụm k, tính σn2(k) của mỗi thành phần n

của xn trong cụm này và tìm max (σn*2(k)) của thành

phần trong cụm k với n=1, 2,..N.

Bước 6: Nếu không đủ cụm (Kinit < K/2) và đây không phải là bước lặp cuối cùng thì thực hiện kiểm tra:

1. Nếu σmax(k) > σsplit của cụm k nào đó thì tách cụm này thành 2 cụm mới.

Bước 7: Nếu đây là bước lặp chẵn và Kinit > 2K thì thực hiện tính tất cả các khoảng cách giữa những trọng tâm của cụm, thực hiện kết hợp những cụm có giá trị gần với giá trị tính được.

• Ưu, nhược điểm của thuật toán ISODATA:

Ưu điểm: Đây là một phương pháp: - Có khả năng tự tổ chức.

- Mềm dẻo trong xử lý khử bỏ những cụm có kích thước quá nhỏ.

- Có khả năng tách biệt được các cụm có tính chất hoàn toàn khác nhau.

- Có khả năng kết hợp những cụm gần giống nhau thành 1 một cụm.

Nhược điểm:

- Quá nhiều tham số cần phải cung cấp bởi người dùng, mặc dù chúng không phải là đại lượng cần phải biết.

- Các cụm được là hình cầu được xác định bởi hàm khoảng cách.

- Giá trị K phụ thuộc vào những tham số do người sử dụng qui định và nó cũng không phải là những giá trị tốt nhất.

- Cụm trung bình thường không phải là mẫu tốt nhất cho một cụm.

Các hệ thống mờ (Fuzzy system)

Cơ sở lý thuyết của Xích Markov