Trong phần này chúng ta tổng hợp phương pháp luận trước trong ngữ cảnh của phân cụm k-means. Kết quả thuật toán phân cụm được tổng kết trong bảng 2, và từ đây trở đi sẽ được gọi là voting-k-means. Nó đưa ra tổ hợp các vùng phân cụm bằng cách khởi tạo ngẫu nhiên các trung tâm cụm và biểu diễn mẫu ngẫu nhiên [4].
Bảng 1.2. Tính số lượng các cụm và cấu trúc dựa trên voting k-means
Thuật toán Voting-K-Means
Đầu vào: N mẫu;
K_max: Số lượng khởi tạo phân cụm lớn nhất K_min: Số lượng khởi tạo phân cụm nhỏ nhất R: Số lần lặp.
t : giá trị ngưỡng
Đầu ra: Các cụm dữ liệu
Khởi tạo: Thiết lập ma trận kết hợp co_assoc với phần tử có giá trị rỗng kích thước NxN.
Các bước:
1. Thực hiện R lần:
1.1 Lựa chọn k là giá trị ngẫu nhiên trong khoảng [k_min, k_max]. 1.2 Lựa chọn ngẫu nhiên k trung tâm cụm từ N mẫu dữ liệu.
1.3 Chạy thuật toán k-means với dữ liệu khởi tạo ở trên nhận được một sự phân vùng P (Một cách phân cụm).
1.4 Cập nhật lại ma trận kết hợp co_assoc: đối với mỗi một cặp mẫu (i,j) thuộc cùng một cụm, cập nhật co_assoc(i,j) = co_assoc(i,j) +1/R.
2. Tìm ra các cụm trong ma trận kết hợp co-association sử dụng phương pháp SL (Single Link)
2.1 Tìm các cụm: Đối với mỗi cặp mẫu (i,j) mà co_assoc(i,j)>t, kết hợp các mẫu vào trong cùng một cụm; nếu i, j thuộc 2 cụm phân biệt trước đó thì hòa nhập 2 cụm đó thành một.
tượng riêng.
Biết trước số lượng của các cụm
Một trong những khó khăn với thuật toán k-means là sự phụ thuộc của các vùng tạo ra dựa trên sự khởi tạo. Điều đó được chỉ ra trong hình 1 biểu diễn hai vùng tạo ra bởi thuật toán k-means (tương ứng với những sự khởi tạo cụm khác nhau) trên một tập dữ liệu của 1000 mẫu đưa ra từ sự trộn lẫn của hai sự phân phối Gaussian với hiệp phương sai đơn vị và khoảng cách Mahalanobis giữa các phương thức là bằng 7. Các cụm dữ liệu không đầy đủ, như là chỉ ra trên hình 1(a), có thể có được khi số lượng đúng của các cụm được biết trước.
Hình 2.1: Bổ xung sự phụ thuộc của thuật toán k-means trên sự khởi tạo trung tâm cụm, k=2. (a)- vùng dữ liệu có được với việc chạy thuật toán k -means đơn. (b)- kết quả có được khi sử
dụng phương thức đề xuất với số lần lặp là 10.
Số lượng cụm không biết trước
Số lượng đúng của cụm thường không biết trước và phải xác định thông qua tập dữ liệu huấn luyện. Dựa trên thuật toán k-means, một số kĩ thuật thông minh và tối ưu đã được đề xuất để chọn số lượng các lớp. Hơn nữa, dễ thấy rằng thuật toán k-means, dựa trên một tiêu chí sai số bình phương tối thiểu (minimum square error), xác định các cụm hình siêu cầu, trải ra xung quanh các vector nguyên mẫu biểu diễn các trung tâm cụm. Các kĩ thuật cho lựa chọn số lượng cụm tùy theo tiêu chí tối ưu xác định một số tối ưu các cụm trung tâm dựa trên dữ liệu. Khi dữ liệu biểu diễn các cụm với các hình dạng
khác nhau, kiểu phân tích này không được thỏa mãn. Trong phần này chúng ta đề xuất sử dụng một lược đồ bầu cử kết hợp với thuật toán k-means để xác định cả hai vấn đề: lựa chọn số lượng các cụm; phát hiện các cụm hình dạng ngẫu nhiên.
Ý tưởng cơ bản bao gồm hai phần: nếu một số lớn k, của các cụm được lựa chọn, bằng cách lựa chọn ngẫu nhiên các trung tâm cụm khởi tạo và trình tự của sự biểu diễn mẫu, thuật toán k-means sẽ phân chia dữ liệu huấn luyện thành k tập con nhỏ phản ánh các vùng mật độ cao; nếu k lớn so với số lượng cụm thực tế, mỗi cụm thực tế được phân chia thành những cụm nhỏ hơn, các mẫu quan hệ gần gũi có khả năng cao được phân chia trong cùng cụm; Bằng cách đánh giá trung bình toàn bộ sự kết hợp của các cặp mẫu tạo ra qua việc chạy thuật toán k-means R lần, nó được kì vọng có được khả năng cao của những sự bầu cử trên các cặp mẫu, cấu trúc các cụm đúng đắn được khôi phục bằng cách xác định ngưỡng ma trận kết hợp, như đề xuất trước đó. Phương thức được đề xuất để áp dụng thuật toán mô tả trong bảng 2 bằng cách thiết lập k là giá trị lớn bằng N , N là số lượng mẫu trong tập huấn luyên.
(a) K-means – lặp 1 (b) Voting-K-means-lặp 4 (c) Voting-K-means lặp 10
Hình 2.2: Các cụm tạo ra bởi k-means (k=14) và các thuật toán voting-k-means.
Phương thức được chỉ ra trên hình 2 dựa trên 200 mẫu dữ liệu 2 chiều, tạo ngẫu nhiên từ sự trộn lẫn của hai sự phân phối Gaussian: hiệp phương sai đơn vị, khoảng cách Mahalanobis giữa các phương thức bằng 10. Hình 1.10(a) chỉ ra một cụm dữ liệu tạo ra bởi thuật toán k-means (k=14); những sự khởi tạo phân biệt tạo ra tạo ra các cụm dữ liệu
khác nhau. Tính đến những sự kết hợp mẫu lâu dài cùng với những sự chạy riêng rẽ của thuật toán k-means, thuật toán voting-k-means cải tiến đối với một vùng bền vững của dữ liệu với hai cụm (xem hình 2(b) và 2(c).
Cải tiến thuật toán voting k-means
Một yếu điểm của thuật toán voting k-means vẫn mắc phải là việc cố định giá trị k xác định số lượng các cụm trong thuật toán. Việc cố định k sẽ làm ảnh hưởng tới kết quả của thuật toán, làm cho thuật toán không còn chính xác, vì không phải luôn luôn lựa chọn được chính xác số lượng cụm của tập dữ liệu. Để khác phục nhược điểm này, một giải pháp được đề xuất là lựa chọn một khoảng các giá trị cụm có thể có của tập dữ liệu, sau đó bằng cách lặp lại và sử dụng phương pháp bầu cử sẽ tìm ra chính xác số lượng cụm của tập dữ liệu. Bằng cách như vậy sẽ đảm bảo tốt hơn khi xác định duy nhất giá trị k của tập dữ liệu, đảm bảo rằng khả năng phân cụm chính xác sẽ cao hơn rất nhiều.