Thuật toán K-Means

Thuật toán phân cụm K-Means ra đời cách đây hơn 40 năm (MacQueen,1967), nhưng vẫn còn là một trong các thuật toán phân cụm quan trọng nhất, được sử dụng rộng rãi trong nhiều lĩnh vực. Ý tưởng của K-Means là tìm phân hoạch cho cực tiểu hàm tiêu chuẩn (1.27) bằng kỹ thuật lặp như sau: xuất phát từ các tâm μk(k=1,…, K) được khởi tạo ban đầu, ta thực hiện phép lặp: gán mỗi dữ liệu Xn (n=1,…,N) vào cụm Ck mà Xn gần tâm μk nhất, sau đó tính lại tâm của các cụm Ck theo công thức (1.26).

Thuật toán K-Means

 Khởi tạo các tâm cụm μk(k=1,…K);

 Lặp lại các bước sau cho tới khi các tâm cụm không thay đổi

1. Gán mỗi dữ liệu Xn (n=1,…, N) vào cụm Ck mà Xn gần tâm μk

nhất;

2. Tính lại tâm μk (k=1,…, K) của các cụm Ck thu được từ bước 1; Thuật toán lặp trên cho ra phân hoạch C là cực tiểu địa phương của hàm tiêu chuẩn (1.27). Chứng minh điều đó bằng cách chỉ ra rằng, cả hai bước lặp đều làm giảm giá trị hàm tiêu chuẩn. Đối với bước 1, hàm mục tiêu (1.27) giảm là hiển nhiên. Tâm μk của cụm Ck được tính theo công thức (1.26) trong bước 2 chính là giá trị mà tại đó k 2 i k i C X - μ 

 nhỏ nhất, và vì vậy bước 2 cũng làm giảm giá trị hàm tiêu chuẩn. Độ phức tạp tính toán của thuật toán này là O(TKN), trong đó N là số dữ liệu, K là số cụm, T là số lần lặp. Trong thực tế, số lần lặp T nói chung nhỏ hơn số dữ liệu N.

Kết quả chạy K-Means phụ thuộc vào các tâm μk được khởi tạo ban đầu. Đơn giản nhất, ta chọn μk(k=1,…, K) là K điểm khác nhau được lấy ngẫu nhiên trong tập dữ liệu D.

Thuật toán K-Means thích hợp với các tập dữ liệu có các cụm dạng “hình cầu” và tách biệt tốt, chẳng hạn tập dữ liệu trong hình 1.5a. Khi mà các cụm có dạng “không hình cầu”, chẳng hạn 2 cụm trong hình 1.6a, hình 1.6b, hoặc mật độ

trong các cụm rất khác nhau hoặc số dữ liệu trong các cụm rất khác nhau, trong các hoàn cảnh đó, K-Means có thể cho ra phân cụm không sát thực tế. Thuật toán K-Means cũng nhạy cảm với dữ liệu ngoại lai.

Nhược điểm chính của K-Means và của các thuật toán phân cụm tối ưu khác là cần phải biết trước số cụm K. Thuật toán K-Means cũng rất nhạy cảm với các tâm cụm khởi tạo. Mặc dù có các hạn chế đó, nhưng K-Means là thuật toán rất đơn giản, rất hiệu quả trong thực tế, và vì vậy K-Means vẫn là một trong các thuật toán phân cụm quan trọng nhất.

(a) (b)

Hình 1.6. Các tập dữ liệu không thích hợp với K-Means.

Phân cụm dựa vào mô hình

Tính toán phương sai between-class (