Thuật toán DENCLUDE

Một phần của tài liệu Tiểu luận môn khai phá thông tin MỘT SỐ THUẬT TOÁN VỀ GOM CỤM (Trang 30)

DENCLUDE đưa ra cách tiếp cận khác với các thuật toán phân cụm dựa trên mật độ trước đó, cách tiếp cận này xem xét mô hình được sử dụng một công thức toán để mô tả mỗi điểm dữ liệu sẽ ảnh hưởng trong mô hình như thế nào được gọi là hàm ảnh hưởng có thể xem như một hàm mà mô tả ảnh hưởng của điểm dữ liệu với các đối tượng làng giếng của nó.

Ví dụ về hàm ảnh hưởng là các hàm parabolic, hàm sóng ngang, hoặc hàm Gaussian. Như vậy , DENCLUDE là phương pháp dựa trên một tập các hàm phân phố mật độ và được xây dựng ý tưởng chính như sau :

- Ảnh hưởng của mỗi điểm dữ liệu có thể là hình thức được mô hình sử dụng một hàm tính toán, được gọi là hàm ảnh hưởng, mô tả tác động của điểm dữ liệu với các đối tượng láng giềng của nó;

- Mật độ toàn cục của không gian dữ liệu được mô hình phân tích nhưlà tổng các hàm ảnh hưởng của tất cả các điểm dữ liệu;

- Các cụm có thể xác định chính xác bởi việc xác định mật độ cao (density attractors), trong đó mật độ cao là các điểm cực đại hàm mật độ toàn cục. Sử dụng các

cells lưới không chỉ giữ thông tin về các cells lưới mà thực tế nó còn chứa đựng cả các điểm dữ liệu.

Nó quản lý các cells trong một cấu trúc truy cập dựa trên cây, và như vậy nó nhanh hơn so với một số các thuật toán có ảnh hưởng, như DBSCAN. Tuy nhiên, phương pháp này đòi hỏi chọn lựa kỹ lưỡng tham biến mật độ và ngưỡng nhiễu, việc chọn lựa tham số là quan trọng ảnh hưởng tới chất lượng của các kết quả phân cụm.

IV. Gom cụm dữ liệu dựa trên mô hình

Một phần của tài liệu Tiểu luận môn khai phá thông tin MỘT SỐ THUẬT TOÁN VỀ GOM CỤM (Trang 30)

w