Trong khi hầu hết cỏc thuật toỏn thực hiện phõn cụm với cỏc cụm hỡnh cầu và kớch thước tương tự, như vậy là khụng hiệu qủa với khi xuất hiện cỏc phần tử ngoại lai. Thuật toỏn CURE (Clustering Using REpresentatives) được đề xuất bởi (Guha, Rastogi & Shim, 1998) đó khắc phục được vấn đề này. Thuật toỏn này định nghĩa một số cố định cỏc điểm đại diện nằm rải rỏc trong toàn bộ khụng gian dữ liệu và được chọn để mụ tả cỏc cụm hỡnh thành. Cỏc điểm này được tạo ra bởi trước hết lựa chọn cỏc đối tượng nằm rải rỏc cho cỏc cụm và sau đú “co lại” hoặc di chuyển chỳng về trung tõm cụm bằng cỏch co cụm. Quỏ trỡnh này được lặp lại. Trong quỏ trỡnh này cú thể đo tỷ lệ gia tăng
của cụm. Tại mỗi bước của thuật toỏn, hai cụm cú cỏc cặp điểm đại diện gần nhau (mỗi điểm trong cặp thuộc về mỗi cụm khỏc nhau) sẽ được hũa nhập.
Hỡnh 3.17. Cỏc điểm dữ liệu của một cụm trong CURE
Như vậy, cú nhiều hơn một điểm đại diện mỗi cụm cho phộp Cure khỏm phỏm được cỏc cụm cú hỡnh dạng khụng phải là hỡnh cầu. Việc co lại cỏc cụm cú tỏc dụng làm giảm tỏc động của phần tử ngoại lai. Như vậy, thuật toỏn này cú khả năng xử lý tốt trong trường hợp cú cỏc phần tử ngoại lai và làm cho nú hiệu quả với những hỡnh dạng khụng phải hỡnh cầu và kớch thước biến đổi. Hơn nữa, nú tỷ lệ tốt với CSDL lớn mà khụng giảm chất lượng phõn cụm.
Tổng quan về thuật toỏn phõn cụm được biểu diễn qua sơđồ như hỡnh
Hỡnh 3.18. Tổng quan về thuật toỏn CURE
Để xử lý được cỏc CSDL lớn, Cure sử dụng mẫu ngẫu nhiờn và phõn hoạch. Mẫu được xỏc định ngẫu nhiờn trước khi phõn hoạch và sau đú tiến hành phõn cụm cho mỗi phõn hoạch. Như vậy, mỗi phõn hoạch là từng phần đó được phõn cụm, cỏc cụm thu được lại được phõn cụm lần thứ hai để thu
được cỏc cụm con mong muốn, nhưng mẫu ngẫu nhiờn khụng nhất thiết đưa ra một mụ tả tốt cho toàn bộ tập dữ liệu.
ỉ Thuật toỏn Cure được thực hiện qua cỏc bước như sau:
1. Chọn một mẫu ngẫu nhiờn cú kớch cỡ s từ tập ban đầu
2. Phõn hoạch mẫu này thành p nhúm dữ liệu cú kớch thước bằng nhau là s/p.
3. Phõn cụm cỏc điểm cho mỗi nhúm, thực hiện PCDL cho cỏc nhúm cho đến khi mỗi nhúm được phõn thành s/pq cụm.
4. Loại bỏ cỏc phần tử ngoại lai - Bởi cỏc mẫu ngẫu nhiờn - Hoặc là cỏc cụm quỏ nhỏ
5. Phõn cụm cỏc cụm khụng gian: Cỏc đối tượng đại diện cho mỗi cụm di chuyển về hướng trung tõm cụm, nghĩa là chỳng được thay thế bởi cỏc đối tượng gần trung tõm hơn.
6. Đỏnh dấu dữ liệu với cỏc nhón tương ứng.
Độ phức tạp tớnh toỏn của thuật toỏn Cure là O(n2log(n)). Cure là thuật toỏn tin cậy trong việc khỏm phỏ ra cỏc cụm với hỡnh thự bất kỳ và cú thể ỏp dụng tốt đối với dữ liệu cú phần tử ngoại lai và trờn cỏc tập dữ liệu hai chiều. Tuy nhiờn nú lại rất nhạy cảm với cỏc tham số như số cỏc đối tượng đại diện, tỷ lệ co của cỏc phần tử đại diện [13].
ỉ Một vớ dụ minh họa cỏc bước thực hiện của thuật toỏn Cure như sau:
S=50; p=2 s/p=25; s/pq=5
Quỏ trỡnh phõn hoạch dữ liệu và phõn cụm được thể hiện như hỡnh 3.19.
Hỡnh 3.19. Phõn hoạch và phõn cụm dữ liệu
Co cụm cỏc điểm biểu diễn thu được sau phõn hoạch như hỡnh 3.20.
Hỡnh 3.20. Co cụm cỏc điểm biểu diễn
Hiện nay, cú rất nhiều thử nghiệm thuật toỏn Cure được cài đặt. Cụ thể cú thể thực nghiệm thuật toỏn này tại địa chỉ
Hỡnh 3.21. Chương trỡnh thực nghiệm thuật toỏn CURE
Kết quả thực nghiệm của Cure với cỏc tham số như hỡnh 3.22.