6 3 Phương pháp CURE

Hầu hết các giải thuật phân cụm hoặc là có ưu đãi các cụm có dạng hình cầu và kích thước giống nhau, hoặc là rất mong manh với sự hiện diện của các nhiễu. Một phương pháp phân cụm gọi là CURE do Guha, Rastogi và Shim đề xuất năm 1998 là phương pháp tích hợp các giải thuật phân chia và phân cấp, khắc phục vấn đề ưu đãi các cụm có dạng hình cầu và kích thước giống nhau. CURE cung cấp một giải thuật phân cụm phân cấp mới lạ theo vị trí giữa việc dựa trên trọng tâm và tất cả các cực điểm. Thay vì sử dụng một trọng tâm đơn đại diện một cụm, CURE ấn định một số lượng các điểm đại diện được lựa chọn để miêu tả một cụm. Các điểm đại diện này được sinh ra bằng cách trước tiên lựa chọn các điểm rải rác đều trong cụm, sau đó co chúng lại về phía tâm cụm bởi một phân số (hệ số co). Các cụm với cặp các điểm đại diện gần nhất sẽ được hoà nhập tại mỗi bước của giải thuật.

Mỗi cụm có hơn một điểm đại diện cho phép CURE điểu chỉnh tốt hình học của các hình không phải hình cầu. Việc co lại giúp làm giảm đi hiệu quả của các nhiễu. Bởi vậy, CURE thực sự mạnh hơn đối với các nhiễu và nhận biết các cụm không có dạng hình cầu với kích thước khác nhau nhiều. Để vận dụng các cơ sở dữ liệu lớn, CURE dùng kết hợp lấy mẫu và phân chia ngẫu nhiên: Một mẫu ngẫu nhiên trước tiên được phân chia và mỗi phân chia được phân cụm cục bộ. Các cụm cục bộ sau đó được phân cụm lần thứ hai để có được các cụm mong muốn.

Các bước chính của giải thuật CURE được phác họa vắn tắt như sau: (1) Lấy một mẫu ngẫu nhiên s; (2) Phân chia mẫu s thành p phần, mỗi phần có kích thước s/p; (3) Cụm cục bộ phân chia thành s/pq cụm q>1; (4) Khử các nhiễu bằng cách lấy mẫu ngẫu nhiên: Nếu một cụm tăng trưởng quá chậm, loại bỏ nó; (5) Phân cụm các cụm cục bộ, một xử lý co nhiều điểm đại diện về phía trọng tâm bằng một phân số α được chỉ định bởi người dùng, tại đó các đại diện có

được hình dạng của cụm; (6) Đánh dấu dữ liệu với nhãn cụm tương ứng. Sau đây ta biểu diễn một ví dụ để thấy cách làm việc của CURE.

Ví dụ : Giả sử có một tập các đối tượng được định vị trong một hình chữ nhật. Cho p = 2, người dùng cần phân cụm các đối tượng vào trong hai cụm.

Hình 2. 7. Phân cụm một tập các điểm bằng CURE

Trước tiên, 50 đối tượng được lấy mẫu như (hình 2. 7 a). Sau đó, các đối tượng này được phân chia ban đầu vào trong hai cụm, mỗi cụm chứa 50 điểm. Ta phân cụm cục bộ các phần chia này thành nhiều cụm con dựa trên khoảng cách trung bình tối thiểu. Mỗi đại diện cụm được đánh dấu bởi một chữ thập nhỏ, như (hình 2. 7 b). Các đại diện này được di chuyển về phía trọng tâm bởi một phân số α, như (hình 2. 7 c). Ta có được hình dạng của cụm và thiết lập thành 2 cụm. Do vậy, các đối tượng được phân chia vào trong hai cụm với các điểm nhiễu được gỡ bỏ như biểu diễn ở (hình 2. 7 d). CURE đưa ra các cụm chất lượng cao với sự hiện hữu của các nhiễu, các hình dạng phức tạp của các cụm với các kích thước khác nhau. Nó có khả năng mở rộng tốt cho các cơ sở dữ liệu lớn mà không cần hy sinh chất lượng phân cụm. CURE cần một ít các tham số được chỉ định bởi người dùng, như kích thước của mẫu ngẫu nhiên, số lượng các cụm mong muốn và hệ số co α. Độ nhạy một phép phân cụm được cung cấp dựa trên kết quả của việc thay đổi các tham số. Mặc dầu nhiều tham số bị thay đổi mà không ảnh hưởng tới chất lượng phân cụm nhưng tham số thiết lập nhìn chung có ảnh hưởng đáng kể.

Một giải thuật phân cụm khác gọi là Chameleon, nó khảo sát mô hình hoá động trong phân cụm phân cấp, được phát triển bởi Karypis, Han và Kumar [5].

Khi xử lý phân cụm, 2 cụm được hoà nhập nếu liên kết nối và độ chặt (độ gần) giữa hai cụm được liên kết cao với liên kết nối và độ chặt nội tại của các đối tượng nằm trong phạm vi các cụm. Xử lý hoà nhập dựa trên mô hình động tạo điều kiện thuận lợi cho sự khám phá ra các cụm tự nhiên và đồng nhất, nó áp dụng cho tất cả các kiểu dữ liệu miễn là hàm tương đồng được chỉ định.

Chameleon trước tiên sử dụng một giải thuật phân chia đồ thị để phân cụm các mục dữ liệu vào trong một số lượng lớn các cụm con tương đối nhỏ. Sau đó dùng giải thuật phân cụm phân cấp tập hợp để tìm ra các cụm xác thực bằng cách lặp lại việc kết hợp các cụm này với nhau. Để xác định các cặp cụm con giống nhau nhất, cần đánh giá cả liên kết nối cũng như độ chặt của các cụm, đặc biệt là các đặc tính nội tại của bản thân các cụm. Do vậy nó không tuỳ thuộc vào một mô hình tĩnh được cung cấp bởi người dùng và có thể tự động thích ứng với các đặc tính nội tại của các cụm đang được hoà nhập.

Hình 2. 8. Phân cụm phân cấp dựa trên k-láng giềng gần và mô hình hoá động

Như hình 2. 8, Chameleon miêu tả các đối tượng dựa trên tiếp cận đồ thị được dùng phổ biến: k-láng giềng gần nhất. Mỗi đỉnh của đồ thị k-láng giềng gần nhất đại diện cho một đối tượng dữ liệu, tại đó tồn tại một cạnh giữa hai đỉnh (đối tượng), nếu một đối tượng là giữa k đối tượng giống nhau so với các đối tượng khác. Đồ thị k-láng giềng gần nhất Gkcó được khái niệm láng giềng động: Bán kính láng giềng của một điểm dữ liệu được xác định bởi mật độ của miền mà trong đó các đối tượng đang cư trú. Trong một miền dày đặc, láng giềng được định nghĩa hẹp và trong một miền thưa thớt, láng giềng được định rộng hơn. So sánh với mô hình định nghĩa bởi phương pháp dựa trên mật độ như DBSCAN (giới thiệu ở mục sau), DBSCAN dùng mật độ láng giềng toàn cục, Gk có được láng giềng tự nhiên hơn. Hơn nữa, mật độ miền được ghi như trọng số của các cạnh. Cạnh của một miền dày đặc theo trọng số lớn hơn so với của một miền thưa thớt.

Chameleon chỉ rõ sự tương đồng giữa mỗi cặp các cụm Civà Cj theo liên kết nối tương đối RI(Ci, Cj) và độ chặt tương đối RC(Ci, Cj) của chúng. Liên kết nối tương đối RI(Ci, Cj) giữa hai cụm Ci và Cj được định nghĩa như liên kết nối tuyệt đối giữa Ci và Cj đã tiêu chuẩn hoá đối với liên kết nối nội tại của hai cụm

Ci và Cj. Đó là:      i ji j  C C C C j i EC EC EC C C RI   2 1 , , (2. 24)

với ECC,Cji là cạnh cắt của cụm chứa cả Ci và Cj để cụm này được rơi vào trong Ci và Cj, và tương tự như vậy ECCi (hay

j C

EC ) là kích thước của tổng

trọng số của các cạnh mà chia đồ thị thành hai phần thô bằng nhau.

Độ chặt tương đối giữa một cặp các cụm Ci và Cj là RC(Ci, Cj) được định nghĩa như là độ chặt tuyệt đối giữa Ci và Cj được tiêu chuẩn hoá đối với liên kết nối nội tại của hai cụm Ci và Cj. Đó là:

    j C i C j i EC j i j EC j i i C C EC j i S C C C S C C C S C C RC     , , (2. 25)

Với SECCi,Cjlà trọng số trung bình của các cạnh kết nối các đỉnh trong Ci

tới các đỉnh Cjvà SECCi (hay (SECCj ) là trọng số trung bình của các cạnh thuộc về

min-cut bisecter của cụm Ci (hay Cj ).

Như vậy, CHAMELEON có nhiều khả năng khám phá ra các cụm có hình dạng tuỳ ý với chất lượng cao hơn so với DBSCAN và CURE. Tuy vậy, thời gian chi phí xử lý cho dữ liệu có chiều cao có thể là O(n2) cho n đối tượng trong tình huống xấu nhất.

4 1 Các phương pháp phân chia

5 1 Phương pháp phân chia K-means và k-medoids