Gom cụm bằng thuật toán I-k-Means

Thuật toán I-k-Means (Iterative k-Means) đƣợc Lin và các cộng sự đề xuất năm 2004 [79]. Nhƣ đã đề cập ở trên, độ phức tạp của thuật toán k-Means là O(kNrD) với

N là số đối tƣợng dữ liệu, k là số cụm, r là số lần lặp và D là số chiều của đối tƣợng

(hay chiều dài của chuỗi thời gian). Khi gom cụm cơ sở dữ liệu chuỗi thời gian có số chiều lớn bằng thuật toán k-Means, hệ số D sẽ làm tổng phí gom cụm của thuật toán tăng lên. Điểm yếu này có thể đƣợc khắc phục bằng cách thu giảm số chiều dữ liệu. Điểm yếu khác của thuật toán k-Means là chất lƣợng của gom cụm phụ thuộc vào sự lựa chọn các trung tâm cụm ban đầu. Vì vậy, nếu kết quả lựa chọn các trung tâm cụm để khởi động thuật toán không tốt thì chất lƣợng của kết quả gom cụm sẽ bị giảm và thời gian thực thi thuật toán sẽ kéo dài hơn [83]. Thuật toán I-k-Means khắc phục đƣợc những điểm yếu này của thuật toán k-Means. Ngoài ra nó còn cho phép ngƣời dùng tạm dừng hoặc kết thúc thuật toán tại bất kỳ thời điểm nào và chất lƣợng lời giải tùy thuộc vào thời gian dành cho giải thuật. Nhƣ vậy I-k-Means có tính cách của một giải

thuật có thời gian thực thi tùy chọn (anytime algorithm). Để có thể áp dụng thuật toán

I-k-Means, kỹ thuật thu giảm số chiều sử dụng phải có tính chất đa mức phân giải. Sau khi các chuỗi thời gian đƣợc thu giảm số chiều ở nhiều mức phân giải, thuật toán I-k-Means đƣợc thực hiện bằng cách chạy thuật toán k-Means bắt đầu từ mức phân giải thứ hai (tại mức phân giải thứ i, đối tƣợng có 2(i-1) chiều) và tiến trình tăng

dần tới các mức phân giải tốt hơn. Hình 2.24 minh họa cho ý tƣởng này và các bƣớc chính của thuật toán I-k-Means đƣợc trình bày trong Hình 2.25.

Hình 2.24 Minh họa sự thực thi của thuật toán I-k-Means ( [79]).

Khi thực hiện thuật toán I-k-Means, tại mức khởi đầu (mức phân giải thứ hai) các trung tâm cụm khởi động đƣợc chọn ngẫu nhiên. Còn tất cả các mức khác, các trung tâm cụm khởi động đƣợc chọn dựa vào kết quả của việc thực hiện k-Means ở mức phân giải trƣớc. Nghĩa là, các cụm kết quả của việc thực hiện k-Means ở mức phân giải i (i ≥ 2) đƣợc dùng để tính các trung tâm cụm khởi động cho lần chạy ở mức phân giải i+1.

Qua thực nghiệm thuật toán I-k-Means để gom cụm các chuỗi dữ liệu thời gian đƣợc thu giảm bằng phƣơng pháp Haar Wavelet, các tác giả đã cho thấy rằng ngay cả khi chƣơng trình chạy từ mức phân giải thứ hai tới mức dữ liệu gốc thì tổng thời gian chạy nói chung vẫn thấp hơn so với chạy thuật toán k-Means trên dữ liệu gốc và nó thƣờng cho ra kết quả gom cụm tốt hơn so với kết quả của thuật toán k-Means.

1. Nhập giá trị k

2. Khởi động k trung tâm cụm (một cách ngẫu nhiên, nếu cần)

3. Gọi thuật toán k-Means thực hiện gom cụm dữ liệu tại mức biểu diễn xấp xỉ i (leveli). 4. Dùng kết quả trả về từ mức leveli làm trung tâm cụm khởi động cho mức leveli+1.

5. Nếu tất cả đối tƣợng không thay đổi cụm trong lần lặp cuối thì ngƣng thuật toán. Ngƣợc lại, quay lại bƣớc 3

Hình 2.25 Các bước chính của thuật toán I-k-Means.

Lƣu ý trong giải thuật I-k-Means nêu trên, ta có thể thay phƣơng pháp thu giảm số chiều Haar Wavelet bằng bất cứ phƣơng pháp thu giảm số chiều đa mức phân giải

Mức 1 Mức 2

Mức 3

Mức n

Chuỗi thời gian 1 Chuỗi thời gian 2 Chuỗi thời gian k

Dữ liệu cho kMeans tại mức 2

Dữ liệu cho kMeans tại mức 3

nào khác. Nhƣ vậy I-k-Means là một giải thuật gom cụm chuỗi thời gian khá tổng quát.

Tuy nhiên, trong thuật toán I-k-Means, các trung tâm cụm khởi động cho thuật toán vẫn còn đƣợc chọn ngẫu nhiên. Điều này có thể đƣợc cải tiến bằng cách sử dụng một phƣơng pháp nào đó cung cấp các trung tâm cụm tốt hơn tại mức này.

Tóm lại, khi điểm qua các công trình liên quan, ta có thể nhận ra tầm quan trọng của phƣơng pháp thu giảm số chiều trong các công tác khai phá dữ liệu chuỗi thời gian. Tuy nhiên phƣơng pháp thu giảm số chiều cần thiết phải đƣợc chứng minh đã thỏa điều kiện chặn dƣới và đƣợc dùng kết hợp với một cấu trúc chỉ mục đa chiều hiệu quả. Ngoài ra, các phƣơng pháp phát hiện motif trên dữ liệu chuỗi thời gian đã có thƣờng không vận dụng sự hỗ trợ của một cấu trúc chỉ mục đa chiều hữu hiệu.

CHƢƠNG 3. THU GIẢM SỐ CHIỀU CHUỖI THỜI GIAN BẰNG

PHƢƠNG PHÁP MP_C

Trong chƣơng này, đầu tiên chúng tôi sẽ trình bày phƣơng pháp thu giảm số chiều MP_C đƣợc đề xuất trong luận án, chứng minh phƣơng pháp MP_C thỏa điều kiện chặn dƣới và trình bày cách dùng cấu trúc chỉ mục đƣờng chân trời với các chuỗi MP_C. Tiếp theo là phần tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian dạng luồng dựa vào phƣơng pháp MP_C. Trong mục này, luận án sẽ cho thấy việc tìm kiếm tƣơng tự trên chuỗi thời gian dạng luồng cũng có đƣợc thể thực hiện dễ dàng theo cách tính gia tăng (incremental calculation) của phƣơng pháp MP_C. Cuối cùng là các kết quả thực nghiệm về phƣơng pháp thu giảm số chiều MP_C dùng trong bài toán tìm kiếm tƣơng tự, so sánh với các phƣơng pháp tiêu biểu đi trƣớc.

Tóm tắt kết quả đạt đƣợc

Cấu trúc của luận án