Giải thuật K-Means

Một thuật toán thƣờng đƣợc dùng để thực hiện gom cụm dữ liệu chuỗi thời gian là thuật toán k-Means [80]. Ý tƣởng chính của thuật toán này là liên tục gán lại các đối tƣợng dữ liệu vào các cụm khác nhau sao cho tổng bình phƣơng khoảng cách giữa mỗi đối tƣợng (x) với trung tâm cụm gần nhất với nó c là nhỏ nhất. Nhƣ vậy, thuật toán k- Means cố gắng tối thiểu hóa hàm mục tiêu sau:

    k i N j i j c x d F 1 1 ) , (

Trong đó, k là số cụm, N số đối tƣợng dữ liệu. Độ phức tạp của thuật toán k-

Means là O(kNrD) [81], với r là số lần lặp cho tới khi hội tụ và D là số chiều của đối

tƣợng. Nhƣợc điểm của thuật toán này là nó thích hợp cho các cụm dạng hình cầu và yêu cầu phải biết trƣớc số cụm. Nhƣợc điểm thứ hai này có thể đƣợc khắc phục bằng cách thử nghiệm thống kê tất cả các giá trị k trong một phạm vi lớn rồi chọn một giá trị

k phù hợp nhất. Tuy nhiên, cách thử nghiệm này chỉ làm cho độ phức tạp của thuật

toán tăng lên.

Vì k-Means là một thuật toán leo đồi, nó chỉ hội tụ cục bộ chứ không đạt tối ƣu toàn cục. Nói cách khác, sự lựa chọn các trung tâm cụm lúc khởi động thuật toán ảnh hƣởng rất lớn đến kết quả gom cụm. Tuy nhiên, dù nó có những điểm yếu này, k-

Means vẫn thƣờng đƣợc chọn để gom cụm các tập dữ liệu lớn do thời gian chạy nhanh của nó [82]. Các bƣớc chính của thuật toán k-Means đƣợc trình bày trong Hình 2.23. 1. Nhập giá trị k.

2. Khởi động k trung tâm cụm (ngẫu nhiên, nếu cần)

3. Gán mỗi đối tƣợng vào cụm có trung tâm cụm gần nhất với nó

4. Tính lại trung tâm của mỗi cụm bằng trung bình cộng của tất cả các đối tƣợng đã đƣợc gán vào cụm.

5. Nếu tất cả các đối tƣợng không thay đổi cụm ở lần lặp cuối thì ngƣng thuật toán. Ngƣợc lại, quay lại bƣớc 3.

Hình 2.23 Các bước chính của thuật toán k-Means.

Thời gian qua đã có những nghiên cứu về kỹ thuật chọn các trung tâm cụm khởi động thuật toán k-Means. Chúng tôi sẽ cung cấp ý tƣởng tổng quát về các kỹ thuật này trong mục 2.8.4.

Tóm tắt kết quả đạt đƣợc

Cấu trúc của luận án