3.2.3. Thuật toỏn CLARA
Thuật toỏn Clara (Clustering LARge Applications) được đưa ra bởi (Kaufmann and Rousseeuw, 1990) nhằm khắc phục những nhược điểm thuật toỏn Pam trong những trường hợp tập dữ liệu lớn. Clara tiến hành trớch mẫu cho tập dữ liệu cú n phần tử, nú ỏp dụng thuật toỏn Pam cho mẫu này và tỡm ra đối tượng trung tõm medoid cho mẫu được trớch ra từ dữ liệu này. Nếu mẫu dữ liệu được trớch theo một cỏch ngẫu nhiờn, thỡ medoid của nú xấp xỉ với cỏc medoid của toàn bộ tập dữ liệu ban đầu. Để tiến tới một xấp xỉ tốt hơn, Clara
đưa ra nhiều cỏch lấy mẫu và thức hiện phõn cụm cho mỗi trường hợp, sau đú tiến hành chọn kết quả phõn cụm tốt nhất khi thực hiện phõn cụm trờn mẫu này. Để cho chớnh xỏc, chất lượng của cụm được đỏnh giỏ thụng qua độ phi tương tự trung bỡnh của toàn bộ cỏc đối tượng dữ liệu trong tập đối tượng dữ liệu ban đầu.
Vớ dụ thực nghiệm với năm mẫu dữ liệu cú kớch thước là 40+2k cho kết quả tốt. Cỏc bước thực hiện của thuật toỏn Clara với 5 mẫu dữ liệu được mụ tả như sau:
Clara(5) Begin
1. For i=1 to 5 do
2. Lấy một mẫu cú 40+2k đối tượng dữ liệu ngẫu nhiờn từ tõp dữ liệu và ỏp dụng thuật toỏn Pam cho mẫu dữ liệu này nhằm để tỡm cỏc đối tượng medoid đại diện cho cỏc cụm.
3. Đối với mỗi đối tượng Oj trong tập dữ liệu ban đầu, xỏc định đối tượng medoid tương tự nhất trong số k đối tượng medoid.
4. Tớnh độ phi tương tự trung bỡnh cho phõn hoạch cỏc đối tượng thu được ở bước trước, nếu giỏ trị này bộ hơn giỏ trị tối thiểu hiện thời thỡ sử dụng giỏ trị này thay cho giỏ trị tối thiểu ở trạng thỏi trước, như vậy tập k đối tượng medoid xỏc định ở bước này là tốt nhất cho đến thời điểm này.
5. Quay về bước 1
End.
Độ phức tạp của thuật toỏn Clara trong trường hợp này là O(k(40+k)2+k(n-k)), Clara cú thể ỏp dụng cho tập dữ liệu lớn. Cần chỳ ý đối với kỹ thuật tạo mẫu trong PCDL, kết quả phõn cụm cú thể khụng phụ thuộc vào tập dữ liệu khởi tạo nhưng kết quả này chỉ là tối ưu cục bộ. Chẳng hạn
như nếu cỏc đối tượng medoid của dữ liệu khởi tạo khụng nằm trong mẫu thỡ kết qủa thu được khụng được đảm bảo là tốt nhất.
Phương phỏp medoid khụng hiệu quả với tập dữ liệu lớn, trong trường hợp đú Clara phỏt huy tỏc dụng. Trong phương phỏp Clara, một phần nhỏ dữ liệu hiện thời được chọn như là một đại diện của dữ liệu thay vỡ sử dụng toàn bộ dữ liệu và sau đú medoid được chọn từ mẫu sử dụng Pam. Nếu mẫu được chọn theo cỏch ngẫu nhiờn thỡ nú phải cú đại diện từ tập dữ liệu gốc. Cỏc đối tượng đại diện medoid được chọn là tương tự mà đó được chọn từ tập dữ liệu. Nú đưa ra nhiều mẫu của tập dữ liệu, ỏp dụng Pam trờn mỗi mẫu và trả lại cụm tốt nhất ở đầu ra. Như vậy, Clara cú thể xử lý được tập dữ liệu lớn hơn Pam [13].
3.2.4. Thuật toỏn CLARANS
Thuật toỏn CLARANS (A Clustering Algorithm Based On Randomized Search, Ng and Han’94) cũng sử dụng kiểu k-medoids, nú kết hợp thuật toỏn
Pam với chiến lược tỡm kiếm kinh nghiệm mới. í tưởng cơ bản của Clarans
là khụng xem xột tất cả cỏc khả năng cú thể thay thế cỏc đối tượng tõm medoids bởi một đối tượng khỏc, nú thay thế cỏc đối tượng tõm này ngay lập tức nếu việc thay thế này cú tỏc động tốt tới chất lượng phõn cụm chứ khụng cần cỏch xỏc định tối ưu nhất.
Clarans lấy ngẫu nhiờn một đối tượng của k đối tượng medoid trung tõm của cụm và cố gắng thay thế nú với một đối tượng được chọn ngẫu nhiờn trong (n-k) đối tượng cũn lại. Cụm thu được sau khi thay thế đối tượng trung tõm được gọi là một lỏng giềng của phõn hoạch cụm trước đú. Số cỏc lỏng giềng được hạn chế bởi tham số do người dựng đưa vào là Maxneighbor, quỏ trỡnh lựa chọn cỏc lỏng giềng này là hoàn toàn ngẫu nhiờn. Tham số
Numlocal cho phộp người dựng xỏc định số vũng lặp tối ưu cục bộ được tỡm kiếm. Khụng phải tất cả cỏc lỏng giềng được duyệt mà chỉ cú Maxneighbor
được duyệt. Nếu một lỏng giềng tốt hơn được tỡm thấy, thỡ Clarans di chuyển lỏng giềng đú tới nỳt và quỏ trỡnh bắt đầu lặp lại. Nếu khụng thỡ kết quả cụm hiện thời là tối ưu cục bộ, nếu tối ưu cục bộ được tỡm thấy, Clarans bắt đầu với lựa chọn nỳt ngẫu nhiờn mới trong tỡm kiếm tối ưu cục bộ mới.
Clarans khụng thớch hợp với tập dữ liệu lớn bởi vỡ nú lấy phần nhỏ của toàn bộ tập dữ liệu và phần này được chọn để đại diện toàn bộ tập dữ liệu và thực hiện sau đú. Clarans khụng bị giới hạn khụng gian tỡm kiếm như đối tượng Clara. Và trong cựng một lượng thời gian thỡ chất lượng của phõn cụm là lớn hơn Clara.
Như vậy, quỏ trỡnh hoạt động của Clarans tương tự với quỏ trỡnh hoạt động của Clara nhưng ở giai đoạn lựa chọn cỏc trung tõm medoid của dữ liệu, Clarans cú một giải phỏp lựa chọn tốt hơn. Tuy nhiờn, độ phức tạp tớnh toỏn của Clarans vẫn cao. Nú đũi hỏi Clarans tuyến tớnh với tỷ lệ số cỏc điểm. Lý do là Clarans ứng dụng phương phỏp dựa trờn tỡm kiếm ngẫu nhiờn để tỡm cụm “tối ưu”. Chất lượng của kết quả khụng được đảm bảo khi n lớn, vỡ tỡm kiếm ngẫu nhiờn được sử dụng trong thuật toỏn. Ngoài ra, Clarans cho thấy tất cả cỏc đối tượng được lưu trữ trong bộ nhớ chớnh. Rừ ràng nú giới hạn kớch thước của CSDL mà Clarans cú thể ỏp dụng [12][18].
3.3. CÁC THUẬT TOÁN PHÂN CỤM PHÂN CẤP
Cấu trỳc của cõy phõn cụm được tạo bởi sự phõn chia đệ quy hoặc sự kết hợp bởi cỏc thuật toỏn đó biết. Cú hai hướng tiếp cận chớnh là hũa nhập nhúm và phõn chia nhúm.
3.3.1. Thuật toỏn BIRCH
Birch (Balanced Iterative Reducing and Clustering using Hierarchies) là thuật toỏn phõn cụm phự hợp cho tập dữ liệu lớn. í tưởng của thuật toỏn là khụng cần lưu toàn bộ cỏc đối tượng dữ liệu của cỏc cụm trong bộ nhớ mà chỉ
lưu cỏc đại lượng thống kờ. Thuật toỏn đưa ra hai khỏi niệm mới để theo dừi cỏc cụm hỡnh thành và phõn cụm đặc trưng là túm tắt thụng tin về một cụm và cõy phõn cụm đặc trưng (CF Tree). Cõy phõn cụm đặc trưng là cõy cõn bằng được sử dụng để lưu trữ cụm đặc trưng. Cụm đặc trưng là một bộ ba (n, LS, SS), trong đú n là số cỏc điểm trong phõn hoạch cụm con, LS là tổng số cỏc giỏ trị thuộc tớnh và SS là tổng bỡnh phương cỏc điểm đú. Cõy CF là cõy cõn bằng lưu trữ bộ ba này. Vớ dụ về cõy CF như hỡnh 3.14.