Thuật toán phân cụm K-mean

K-mean là một trong các thuật toán học không giám sát để thực hiện phân cụm dữ liệu. Thủ tục đơn giản và dễ dàng để phân loại dữ liệu đƣợc thiết lập thông qua số lƣợng nhất định các cụm (giả sử k cụm). Xác định trung tâm của mỗi cụm. Trung tâm của mỗi cụm phải đƣợc đặt ở những vị trí chính xác vì đặt ở những vị trí khác nhau sẽ đƣa ra kết quả khác nhau. Vị trí đặt các trung tâm ở những vị trí càng xa nhau càng tốt. Bƣớc tiếp theo là lấy mỗi điểm thuộc một tập hợp dữ liệu đƣa ra và liên kết đến trung tâm gần nhất. Khi không có điểm chờ xử lý bƣớc đầu tiên đƣợc hoàn thành và một nhóm đầu tiên đƣợc thực hiện. Tại thời điểm này chúng ta cần phải tính toán lại trọng tâm k mới nhƣ là trọng tâm của các cụm kết quả từ bƣớc trƣớc. Sau khi có những trọng tâm k một ràng buộc mới có thể đƣợc thực hiện giữa tập hợp điểm dữ liệu và trung tâm mới gần nhất. Tạo ra một vòng lặp kết quả của vòng lặp này có thể nhận thấy rằng các trung tâm k thay đổi vị trí của chúng cho đến khi các trung tâm không có bất kì di chuyển nào. Thuật toán này nhằm mục đích giảm thiểu hàm mục tiêu nhƣ là hàm bình phƣơng sai số:

i 2 C C i j i 1 j 1 f (v) ( x v )     (2.1) Trong đó: i j x v : là khoảng cách Euclide Ci: Số điểm dữ liệu trong cụm thứ i C: Số lƣợng các trung tâm cụm

Các bước thực hiện thuật toán K-mean

Cho X={x1,x2…xn} là tập hợp các điểm dữ liệu, V={v1,v2,v3…vn} là tập các trung tâm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Bƣớc 2: Tính khoảng cách giữa các điểm với trung tâm cụm.

Bƣớc 3: Gán các điểm dữ liệu đến trung tâm cụm có khoảng cách tối thiểu của tất cả các trung tâm cụm.

Bƣớc 4: Tính toán lại các trung tâm cụm mới bằng công thức:

i C i i j 1 i 1 v x c    (2.2)

Trong đó: ci đại diện cho số lƣợng các điểm dữ liệu trong cụm thứ i.

Bƣớc 5: Tính toán lại khoảng cách giữa mỗi điểm dữ liệu và các trung tâm cụm mới thu đƣợc.

Bƣớc 6: Nếu không có điểm dữ liệu đƣợc gán lại khi dừng thì lặp lại bƣớc 3

Ưu điểm của thuật toán K-mean:

- Thuật toán thực hiện cho ra kết quả nhanh chóng, mạnh mẽ và dễ hiểu - Độ phức tạp của thuật toán O(tknd) trong đó n là các đối tƣợng, k là các cụm, d kích thƣớc của từng đối tƣợng t là số lần lặp thông thƣờng k,d,t<<n.

- Cho kết quả tốt nhất với tập dữ liệu riêng biệt hoặc tách rời nhau.

Nhược điểm của thuật toán K-mean:

- Thuật toán yêu cầu biết trƣớc số lƣợng trung tâm cụm.

- Nếu có nhiều hơn 2 bộ dữ liệu chồng chéo nhau thì thuật toán khó phân cụm.

- Dữ liệu đại diện cho mẫu của tọa độ đề các và tọa độ cực sẽ cho kết quả khác nhau.

- Lựa chọn ngẫu nhiên trung tâm các cụm có thể dẫn tới kết quả không tối ƣu.

- Không thể xử lý nhiễu và dữ liệu ngoại lai.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Thuật toán phân cụm dữ liệu

Thuật toán phân cụm EM (Expectation Maximization)