7 ij ijijZx Rank
1.2 Thuật toỏn CURE
Trong khi hầu hết cỏc thuật toỏn thực hiện phõn cụm với cỏc cụm hỡnh cầu và kớch thước tương tự, như vậy là khụng hiệu quả khi xuất hiện cỏc phần tử ngoại lai. Thuật toỏn này định nghĩa một số cố định cỏc điểm đại diễn nằm rải rỏc trong toàn bộ khụng gian dữ liệu và được chọn để mụ tả cỏc cụm được hỡnh thành. Cỏc điểm này được tạo ra bởi trước hết lựa chọn cỏc đối tượng
nằm rải rỏc trong cụm và sau đú “ co lại” hoặc di chuyển chỳng về trung tõm cụm bằng nhõn tố co cụm. Quỏ trỡnh này được lặp lại và như vậy trong quỏ trỡnh này, cú thể đo tỷ lệ gia tăng của cụm. Tại mỗi bước của thuật toỏn, hai cụm cú cặp cỏc điểm đại diện gần nhau(mỗi điểm trong cặp thuộc về mỗi cụm khỏc nhau) được hũa nhập
Như vậy, cú nhiều hơn một điểm đại diện mỗi cụm cho phộp CURE khỏm phỏ được cỏc cụm cú hỡnh dạng khụng phải là hỡnh cầu. Việc co lại cỏc cụm cú tỏc dụng làm giảm tỏc động của cỏc phần tử ngoại lai. Như vậy, thuật toỏn này cú khả năng xử lý tốt trong trường hợp cú cỏc phần tử ngoại lại và làm cho hiệu quả với những hỡnh dạng khụng phải là hỡnh cầu và kớch thước độ rộng biến đổi. Hơn nữa, nú tỷ lệ tốt với CSDL lớn mà khụng làm giảm chất lượng phõn cụm. Hỡnh 3.14 dưới đõy là vớ dụ về quỏ trỡnh xử lý của CURE
Hỡnh 3.14 : Cụm dữ liệu khai phỏ bởi thuật toỏn CURE
Để xử lý được cỏc CSDL lớn, CURE sử dụng ngẫu nhiờn và phõn hoạch, một mẫu là được xỏc định ngẫu nhiờn trước khi được phõn hoạch, và sau đú được tiến hành phõn cụm trờn mỗi phõn hoạch, như vậy mỗi phõn hoạch là từng phần đó được phõn cụm, cỏc cụm thu hoạch, như vậy mỗi phõn hoach là từng phần đó được phõn cụm, cỏc cụm thu được lại được phõn cụm lần thứ hai để thu được cỏc cụm con mong muốn, nhưng mẫu ngẫu nhiờn khụng nhất thiết đưa ra một mụ tả tốt cho toàn bộ tập dữ liệu.
Thuật toỏn CURE đƣợc thực hiện qua cỏc bƣớc cơ bản sau :
1. Chọn một mẫu ngẫu nhiờn từ tập dữ liệu ban đầu.
2. Phõn hoạch mẫu này thành nhiều nhúm dữ liệu cú kớch thước bằng nhau : ý tưởng ở đõy là phõn hoạch mẫu thành p nhúm dữ liệu bằng nhau, kớch thước của mỗi phõn hoạch là n’/p(n’ là kớch thước mẫu).
3. Phõn cụm cỏc điểm của mỗi nhúm : Thực hiện PCDL cho cỏc nhúm cho đến khi mỗi nhúm được phõn thành n’/pq(với q>1). 4. Loại bỏ cỏc phần tử ngoại lai : Trước hết, khi cỏc cụm được hỡnh
thành cho đến khi số cỏc cụm giảm xuống một phần so với số cỏc cụm ban đầu. Sau đú, trong trường hợp cỏc phần tử ngoại lai được lấy mẫu cựng với quỏ trỡnh pha khởi tạo mẫu dữ liệu, thuật toỏn sẽ tự động loại bỏ cỏc nhúm nhỏ
5. Phõn cụm cỏc cụm khụng gian : cỏc đối tượng đại diện cho cỏc cụm di chuyển về hướng trung tõm cụm, nghĩa là chỳng được thay thế bởi cỏc đối tượng gần trung tõm hơn.
6. Đỏnh dấu dữ liệu với cỏc nhón tương ứng.
Độ phức tạp tớnh toỏn của thuật toỏn CURE là O(n2
log(n)). CURE là thuật toỏn tin cậy trong việc khỏm phỏ ra cỏc cụm với hỡnh thự bất kỳ và cú thể ỏp dụng tốt đối với dữ liệu cú phần tử ngoại lai và trờn cỏc tập dữ liệu hai chiều. Tuy nhiờn, nú lại rất nhạy cảm với cỏc tham số như số cỏc đối tượng đại diện, tỉ lệ co của cỏc phần tử đại diện.