Thuật toán k-means không chính xác trong trường hợp dữ liệu dữ liệu bị nhiễu bởi vì một đối tượng với giá trị rất lớn có thể ảnh hưởng rất nhiều trong việc phân bố dữ liệu vào các cụm. Để khắc phục lỗi trên, thay vì dùng giá trị trung bình của các đối tượng trong một cluster làm điểm đại diện cho cluster, chúng ta có thể dùng một đối tượng thực sự để đại diện cho cluster đó. Mỗi đối tượng còn lại được phân vào cụm mà đối tượng đại diện tương tự với nó nhất. Phương pháp phân hoạch dựa trên nguyên lý cực tiểu các sự khác nhau giữa mỗi đối tượng và đối tượng đại diện tương ứng. Do đó hàm mục tiêu absolute-error
được sử dụng: ∑ ∑ = ∉ − = k j p C j j o p E 1
Trong đó p là điểm trong không gian biểu diễn một đối tượng trong cluster Cj ; và oj là đối tượng đại diện của của Cj. Trong trường hợp tổng quát,
thuật toán lặp cho đến khi mỗi đối tượng đại diện là một medoid thực sự, có nghĩa là nó nằm ở trung tâm của cluster tương ứng. Đây chính là ý tưởng cơ bản của phương pháp k-medois.
Thuật toán k-medoids
Input: Tập dữ liệu D; số cluster k. Output: k cluster.
(1) Chọn ngẫu nhiên k đối tượng Oi (i=1..k) làm trung tâm (medoids) ban đầu của cụm.
(2) Repeat
(3) Gán (hoặc gán lại) từng đối tượng còn lại vào cụm có trung tâm gần điểm đang xét nhất.
(4) Với mỗi đối tượng trung tâm
- Lần lượt xét các đối tượng không là trung tâm (non-medoids) x. - Tính độ lợi S khi hoán đổi Oi bởi x
S được xác định như sau: S = Ex – EOi
- Nếu S<0 thì thay thế Oi bởi x.
(5) Until không có sự thay đổi trong các cluster.
Ưu điểm: K-medoids làm việc được với nhiễu và biệt lệ.
Khuyết điểm: K-medoid chỉ hiệu quả khi tập dữ liệu không quá lớn vì có độ
phức tạp là O(k(n-k)2t). Trong đó:
n: Số điểm trong không gian dữ liệu. k: Số cụm cần phân hoạch.
t: Số lần lặp, t khá nhỏ so với n.