CHƢƠNG 1 : TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
2.1. Phƣơng pháp phân cụm phân hoạch
2.1.3. Thuật toán CLARA
Thuật toán CLARA (Clustering LARge Application) đƣợc đƣa ra nhằm khắc phục nhƣợc điểm của thuật toán PAM trong trƣờng hợp giá trị k và n là lớn. CLARA tiến hành trích mẫu cho tập dữ liệu có n phần tử, nó áp dụng
thuật toán PAM cho mẫu này và tìm ra các đối tƣợng trung tâm medoid cho mẫu đƣợc trích ra từ dữ liệu này. Nếu mẫu dữ liệu đƣợc trích theo một cách ngẫu nhiên, thì các medoid của nó xấp xỉ với các medoid của toàn bộ tập dữ liệu ban đầu. Để tiến tới một xấp xỉ tốt hơn, CLARA đƣa ra nhiều cách lấy mẫu và thực hiện phân cụm cho mỗi trƣờng hợp, sau đó tiến hành chọn kết quả phân cụm tốt nhất khi thực hiện phân cụm trên mẫu này. Để cho chính xác, chất lƣợng của các cụm đƣợc đánh giá thông qua độ phi tƣơng tự trung bình của toàn bộ các đối tƣợng dữ liệu trong tập đối tƣợng dữ liệu ban đầu. Kết quả thực nghiệm chỉ ra rằng, 5 mẫu dữ liệu có kích thƣớc 40+2k cho các kết quả tốt. Các bƣớc thực hiện của thuật toán CLARA nhƣ sau:
BEGIN
1. For i = 1 to 5 do
2. Lấy một mẫu có 40 + 2k đối tƣợng dữ liệu ngẫu nhiên từ tập dữ liệu và áp dụng thuật toán PAM cho mẫu dữ liệu này nhằm để tìm các đối tƣợng medoid đại diện cho các cụm.
3. Đối với mỗi đối tƣợng Oj trong tập dữ liệu ban đầu, xác định đối tƣợng medoid tƣơng tự nhất trong số k đối tƣợng medoid.
4. Tính độ phi tƣơng tự trung bình cho phân hoạch các đối tƣợng thu đƣợc ở bƣớc trƣớc, nếu giá trị này bé hơn giá trị tối thiểu hiện thời thì sử dụng giá trị này thay cho giá trị tối thiểu ở trạng thái trƣớc, nhƣ vậy, tập k đối tƣợng medoid xác định ở bƣớc này là tốt nhất cho đến thời điểm này.
5. Quay về bƣớc 1.
END.
Độ phức tạp tính toán của nó là O(k(40+k)2
+ k(n-k)), và CLARA có thể thực hiện đối với tập dữ liệu lớn. Cần chú ý đối với kỹ thuật tạo mẫu trong phân cụm dữ liệu: kết quả phân cụm có thể không phụ thuộc vào tập dữ liệu khởi tạo nhƣng nó chỉ đạt tối ƣu cục bộ. Ví dụ: nếu các đối tƣợng medoid của dữ liệu khởi tạo không nằm trong mẫu, khi đó kết quả thu đƣợc không đƣợc đảm bảo là tốt nhất.
Phƣơng pháp medoid không hiệu quả với trƣờng hợp tập dữ liệu lớn, nhƣ vậy, phƣơng pháp dựa trên mẫu đƣợc gọi là CLARA. Ở đây, một phần nhỏ dữ liệu hiện thời đƣợc chọn nhƣ một đại diện của dữ liệu thay vì sử dụng toàn bộ dữ liệu và sau đó medoids đƣợc chọn từ mẫu sử dụng PAM. Nếu mẫu đƣợc chọn theo cách ngẫu nhiên thì nó có thể cần phải đại diện tập dữ liệu gốc. Các đối tƣợng đại diện (medoids) đƣợc chọn là tƣơng tự mà đã đƣợc chọn từ tập dữ liệu. Nó đƣa ra nhiều mẫu của tập dữ liệu, áp dụng PAM trên mỗi mẫu, và trả lại cụm tốt nhất ở đầu ra, nhƣ vậy, CLARA có thể xử lý với tập dữ liệu lớn hơn PAM.