Kernel K-mean là sự suy rộng của thuật toán K-mean chuẩn, điểm dữ liệu đƣợc ánh xạ từ không gian đầu vào tới không gian đầu vào đặc trƣng có số chiều lớn hơn thông qua một chuyển đổi phi tuyến tính và khi đó K-mean đƣợc áp dụng trong không gian đặc trƣng. Không gian đặc trƣng phân cách tuyến tính kết quả tƣơng ứng với phân cách phi tuyến tính trong không gian đầu vào. Kernel K-mean tránh đƣợc hạn chế của các cụm tuyến tính tách rời trong không gian đầu vào mà thuật toán K-mean gặp phải. Thuật toán này đƣợc áp dụng phƣơng pháp tƣơng tự nhƣ K-mean nhƣng sự khác biệt ở đây là trong việc tính toán khoảng cách, phƣơng pháp hạt nhân đƣợc sử dụng thay khoảng cách Euclide.
Thuật toán Kernel K-mean
Cho tập hợp các điểm dữ liệu X={a1,a2…an}, c là số cụm dữ liệu. Bƣớc 1: Khởi tạo ngẫu nhiên c trung tâm cụm.
Bƣớc 2: Tính khoảng cách của mỗi điểm dữ liệu và trung tâm cụm trong không gian biến đổi bằng cách sử dụng công thức:
i c 2 k k c c 1 i c c 1 a r D( r ) (a m ) (2.11)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trong đó:
Trong đó: Cụm thứ c đƣợc biểu diễn bởi rc mc là giá trị trung bình của cụm rc
i
(a )
: biểu diễn điểm dữ liệu ai trong không gian chuyển đổi.
i i (a ). (a ) : * i j a a q exp
trong nhân gauss. Bƣớc 3: Gán điểm dữ liệu đến trung tâm cụm là nhỏ nhất.
Bƣớc 4: Lặp cho đến khi các điểm dữ liệu đƣợc gán lặp lại bƣớc 2.
Ưu điểm của thuật toán: Thuật toán có thể xác định các cấu trúc phi
tuyến tính. Thuật toán thích hợp với những bộ dữ liệu thực.
Nhược điểm của thuật toán: Số lƣợng trung tâm cụm phải đƣợc xác định
sẵn. Thuật toán có độ phức tạp lớn về thời gian và bản chất.