Các bước thuật toán CHAMELEON

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng (Trang 51 - 52)

Thuật toán thao tác trên đồ thị rời rạc (sparse graph) trong đó mỗi một nút là một đối tượng trong tập dữ liệu, cạnh biểu diễn độ tương tự nhau giữa các đối tượng. Để tìm các cụm của tập dữ liệu, thuật toán gồm 2 giai đoạn:

- Giai đoạn 1 thực hiện phân chia đồ thị rời rạc thành các cụm con tương đối. - Giai đoạn 2 tìm các cụm thật sự bằng cách lặp lại thao tác kết hợp các cụm con.

Thuật toán sử dụng mô hình động để xác định độ tương tự bằng cách kiểm tra chỉ số RI (tính liên thuộc - relative interconnectivity) và RC (tính gần nhau -

relative closeness). Với cặp cụm đang xét nếu cả hai chỉ số trên cao thì hai cụm được hòa nhập thành một cụm mới [14]. Nhờ vậy, thuật toán không phụ thuộc vào mô hình tĩnh do người dùng cung cấp mà nó tự thích nghi với các đặc tính bên trong của các cụm đang hòa nhập lại [14].

Độ phức tạp tính toán của thuật toán này là O(n2), thuật toán có thể tìm ra các cụm có hình dáng phức tạp hoặc khác nhau, mật độ cũng như kích thước mỗi cụm khác nhau.

2.6.3. Phƣơng pháp dựa trên mật độ (Density-Based Methods)

Phương pháp dựa trên mật độ phân cụm các đối tượng dữ liệu dựa trên mối quan hệ của các đối tượng dữ liệu với các điểm lân cận của các điểm dữ liệu đó. Phân cụm dựa trên mật độ (có điều kiện cụm cục bộ) giống như các điểm có khả năng liên kết theo mật độ (density-connected). Một cụm được mở rộng theo hướng bất kỳ mà mật độ dẫn theo, do đó phương pháp này có khả năng tìm ra các cụm có hình dạng phức tạp. Mặc dù chỉ duyệt tập dữ liệu một lần nhưng phương pháp này có khả năng loại bỏ phần tử nhiễu và phần tử ngoại lai. Phương pháp này phù hợp

với các đối tượng có trường dữ liệu kiểu số, dữ liệu thuộc tính chỉ là thuộc tính mô tả thêm cho các đối tượng không gian.

Phương pháp này có thể tiếp cận theo 2 hướng chính: liên kết dựa trên mật độ và hàm mật độ.

Các thuật toán thuộc phương pháp này bao gồm DBSCAN (Density Based Spatial Clustering of Application with Noise), OPTICS (Ordering Points to Identify

the Clustering Structure), DENCLUE (Density-based CLUstEring), DBCLASD

(Distribution Based Clustering of Large Spatial Databased). Dưới đây mô tả hai trong số các thuật toán trên.

2.6.3.1. Thuật toán DBSCAN

DBSCAN (Density based Spatial Clutering of Application with Noise) [11][14] được đề xuất năm 1996 bởi Ester, P.Kriegel và J.Sande, khi nghiên cứu các thuật toán phân cụm dữ liệu không gian dựa trên định nghĩa cụm là tập tối đa các điểm liên thông về mật độ. Thuật toán thực hiện tốt trên không gian 2 chiều, 3 chiều hay một số không gian nhiều chiều khác; thích hợp với cơ sở dữ liệu có mật độ phân bố dày đặc kể cả có phần tử nhiễu.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng (Trang 51 - 52)

Tải bản đầy đủ (PDF)

(102 trang)