CHƢƠNG 3 MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU
3.2 CÁC THUẬT TOÁN PHÂN CỤM PHÂN CẤP
3.2.3 THUẬT TOÁN CURE
Trong khi hầu hết cỏc thuật toỏn thực hiện phõn cụm với cỏc cụm hỡnh cầu và kớch thƣớc tƣơng tự, nhƣ vậy là khụng hiệu qủa với khi xuất hiện cỏc phần tử ngoại lai. Thuật toỏn CURE (Clustering Using REpresentatives) đƣợc đề xuất bởi Guha, Rastogi & Shim [1998] đó khắc phục đƣợc vấn đề này. Thuật toỏn này định nghĩa một số cố định cỏc điểm đại diện nằm rải rỏc trong toàn bộ khụng gian dữ liệu và đƣợc chọn để mụ tả cỏc cụm hỡnh thành. Cỏc điểm này đƣợc tạo ra bởi trƣớc hết lựa chọn cỏc đối tƣợng nằm rải rỏc cho cỏc cụm và sau đú “co lại” hoặc di chuyển chỳng về trung tõm cụm bằng cỏch co cụm. Quỏ trỡnh này đƣợc lặp lại. Trong quỏ trỡnh này cú thể đo tỷ lệ gia tăng của cụm. Tại mỗi bƣớc của thuật toỏn, hai cụm cú cỏc cặp điểm đại diện gần nhau (mỗi điểm trong cặp thuộc về mỗi cụm khỏc nhau) sẽ đƣợc hũa nhập.
Hỡnh 3.13. Cỏc điểm dữ liệu của một cụm trong CURE
Nhƣ vậy, cú nhiều hơn một điểm đại diện mỗi cụm cho phộp CURE khỏm phỏm đƣợc cỏc cụm cú hỡnh dạng khụng phải là hỡnh cầu. Việc co lại cỏc cụm cú tỏc dụng làm giảm tỏc động của phần tử ngoại lai. Nhƣ vậy, thuật toỏn này cú khả năng xử lý tốt trong trƣờng hợp cú cỏc phần tử ngoại lai và làm cho nú hiệu quả với những hỡnh dạng khụng phải hỡnh cầu và kớch thƣớc biến đổi. Hơn nữa, nú tỷ lệ tốt với cơ sở dữ liệu lớn mà khụng giảm chất lƣợng phõn cụm.
Để xử lý đƣợc cỏc cơ sở dữ liệu lớn, CURE sử dụng mẫu ngẫu nhiờn và phõn hoạch. Mẫu đƣợc xỏc định ngẫu nhiờn trƣớc khi phõn hoạch và sau đú tiến hành phõn cụm cho mỗi phõn hoạch. Nhƣ vậy, mỗi phõn hoạch là từng phần đó đƣợc phõn cụm, cỏc cụm thu đƣợc lại đƣợc phõn cụm lần thứ hai để thu đƣợc cỏc cụm con mong muốn, nhƣng mẫu ngẫu nhiờn khụng nhất thiết đƣa ra một mụ tả tốt cho toàn bộ tập dữ liệu.
Thuật toỏn CURE được thực hiện qua cỏc bước như sau:
1. Chọn một mẫu ngẫu nhiờn cú kớch cỡ s từ tập ban đầu
2. Phõn hoạch mẫu này thành p nhúm dữ liệu cú kớch thước bằng nhau là s/p.
3. Phõn cụm cỏc điểm cho mỗi nhúm, thực hiện phõn cụm dữ liệu cho cỏc nhúm cho đến khi mỗi nhúm được phõn thành s/pq cụm.
4. Loại bỏ cỏc phần tử ngoại lai
Bởi cỏc mẫu ngẫu nhiờn
Hoặc là cỏc cụm quỏ nhỏ
5. Phõn cụm cỏc cụm khụng gian: Cỏc đối tượng đại diện cho mỗi cụm di chuyển về hướng trung tõm cụm, nghĩa là chỳng được thay thế bởi cỏc đối tượng gần trung tõm hơn.
6. Đỏnh dấu dữ liệu với cỏc nhón tương ứng.
Độ phức tạp tớnh toỏn của thuật toỏn CURE là O(n2
log(n)). CURE là thuật toỏn tin cậy trong việc khỏm phỏ ra cỏc cụm với hỡnh thự bất kỳ và cú thể ỏp dụng tốt đối với dữ liệu cú phần tử ngoại lai và trờn cỏc tập dữ liệu hai chiều. Tuy nhiờn nú lại rất nhạy cảm với cỏc tham số nhƣ số cỏc đối tƣợng đại diện, tỷ lệ co của cỏc phần tử đại diện [10].
Một vớ dụ minh họa cỏc bƣớc thực hiện của thuật toỏn CURE nhƣ sau:
S=50; p=2 s/p=25; s/pq=5
Quỏ trỡnh phõn hoạch dữ liệu và phõn cụm đƣợc thể hiện nhƣ hỡnh 3.14
Hỡnh 3.14. Phõn hoạch và phõn cụm dữ liệu
Hỡnh 3.15. Co cụm cỏc điểm biểu diễn
Hiện nay, cú rất nhiều thử nghiệm thuật toỏn CURE đƣợc cài đặt. Cụ thể cú thể thực nghiệm thuật toỏn này tại địa chỉ
http://www.cs.ualberta.ca/~yaling/Cluster/Project/Src/ask_param.php