Thuật toán phân cụm dữ liệu Kernel K-mean- 123docz.net

Kernel K-mean là sự suy rộng của thuật toán K-mean chuẩn, điểm dữ liệu được ánh xạ từ không gian đầu vào tới không gian đầu vào đặc trưng có số chiều lớn hơn thông qua một chuyển đổi phi tuyến tính và khi đó K-mean được áp dụng trong không gian đặc trưng. Không gian đặc trưng phân cách tuyến tính kết quả tương ứng với phân cách phi tuyến tính trong không gian đầu vào. Kernel K-mean tránh được hạn chế của các cụm tuyến tính tách rời trong không gian đầu vào mà thuật toán K-mean gặp phải. Thuật toán này được áp dụng phương pháp tương tự như K-mean nhưng sự khác biệt ở đây là trong việc tính toán khoảng cách, phương pháp hạt nhân được sử dụng thay khoảng cách Euclide.

Thuật toán Kernel K-mean

Cho tập hợp các điểm dữ liệu X={a1,a2…an}, c là số cụm dữ liệu. Bước 1: Khởi tạo ngẫu nhiên c trung tâm cụm.

Bước 2: Tính khoảng cách của mỗi điểm dữ liệu và trung tâm cụm trong không gian biến đổi bằng cách sử dụng công thức:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

Trong đó: Cụm thứ c được biểu diễn bởi rc

mc là giá trị trung bình của cụm rc

Ø(ai ) : biểu diễn điểm dữ liệu a i trong không gian chuyển đổi.

Ø(ai ). Ø(ai ): exp-ai -a jq

trong nhân gauss. Bước 3: Gán điểm dữ liệu đến trung tâm cụm là nhỏ nhất.

Bước 4: Lặp cho đến khi các điểm dữ liệu được gán lặp lại bước 2.

Ưu điểm của thuật toán: Thuật toán có thể xác định các cấu trúc phi

tuyến tính. Thuật toán thích hợp với những bộ dữ liệu thực.

Nhược điểm của thuật toán: Số lượng trung tâm cụm phải được xác

định sẵn. Thuật toán có độ phức tạp lớn về thời gian và bản chất.

Thuật toán phân cụm dữ liệu Kernel K-mean

Thuật toán phân cụm dữ liệu

Thuật toán phân cụm K-mean