Khái quát giải thuật
K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm. Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ.
Khoảng cách Euclidean
Hàm đo độ tương tự sử dụng khoảng cách Euclidean:
với i=1,2,…n là đối tượng thứ i cần phân loại.
51 với j=1,2,…k là điển trung tâm nhóm j.
Khoảng cách Euclidean được tính từ đến được tính theo công thức:
√∑ [4.2]
: là Euclidean được tính từ đến .
: thuộc tính thứ s của đối tượng .
: thuộc tính thứ s của điểm trung tâm .
Phần tử trung tâm
K phần thử trung tâm (k cụm) ban đầu được chọn ngẫu nhiên, sau mỗi lần nhóm đối tượng vào các nhóm, phần tử trung tâm được tính toán lại.
Clusteri = { – Nhóm thứ i. i = 1,2,….k. với k là số cluster.
j = 1,2,….m. với m là thuộc tính.
t là số phần tử hiện có của của nhóm thứ i.
: thuộc tính thứ j của phần tử s.
: tọa độ thử j của phần tử trung tâm nhóm i.
∑
[4.3]
52
Hình 4.10 Các bước của thuật toán K - means
Thuật toán K-Means thực hiện qua các bước chính sau:
Đầu vào: Dữ liệu X và số lượng cluster cần tìm K
Đâu ra: Các center .
- Bước 1: Chon K điểm bất kì làm các center ban đầu.
- Bước 2: Tính khoảng cách giữa các đối tượng (objects) đến tâm (thường dùng khoảng cách Euclidean).
- Bước 3: Nhóm các đối tượng vào nhóm gần nhất. - Bước 4: Xác định lại tâm mới cho các nhóm.
- Bước 5: Thực hiện lại bước 2 cho đến khi không có sự thay đổi của việc gán dữ liệu vào từng cluster.