Thuật toỏn DENCLUDE

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 59 - 61)

6. Thuật toỏn phõn cụm dữ liệu dựa vào mật độ 1 Thuật toỏn DBSCAN

6.3.Thuật toỏn DENCLUDE

DENCLUDE đưa ra cỏch tiếp cận khỏc với cỏc thuật toỏn phõn cụm dựa trờn mật độ trước đú, cỏch tiếp cận này xem xột mụ hỡnh được sử dụng một cụng thức toỏn để mụ tả mỗi điểm dữ liệu sẽ ảnh hưởng trong mụ hỡnh như thế nào được gọi là hàm ảnh hưởng cú thể xem như một hàm mà mụ tả ảnh hưởng của điểm dữ liệu với cỏc đối tượng làng giếng của nú. Vớ dụ về hàm ảnh hưởng là cỏc hàm parabolic, hàm súng ngang, hoặc hàm Gaussian.

Như vậy , DENCLUDE là phương phỏp dựa trờn một tập cỏc hàm phõn phố mật độ và được xõy dựng ý tưởng chớnh như sau :

- Ảnh hưởng của mỗi điểm dữ liệu cú thể là hỡnh thức được mụ hỡnh sử dụng một hàm tớnh toỏn, được gọi là hàm ảnh hưởng, mụ tả tỏc động của điểm dữ liệu với cỏc đối tượng lỏng giềng của nú;

- Mật độ toàn cục của khụng gian dữ liệu được mụ hỡnh phõn tớch như là tổng cỏc hàm ảnh hưởng của tất cả cỏc điểm dữ liệu;

- Cỏc cụm cú thể xỏc định chớnh xỏc bởi việc xỏc định mật độ cao (density attractors), trong đú mật độ cao là cỏc điểm cực đại hàm mật độ toàn cục.

Sử dụng cỏc cells lưới khụng chỉ giữ thụng tin về cỏc cells lưới mà thực tế nú cũn chứa đựng cả cỏc điểm dữ liệu. Nú quản lý cỏc cells trong một cấu trỳc truy cập dựa trờn cõy, và như vậy nú nhanh hơn so với một số cỏc thuật toỏn cú ảnh hưởng, như DBSCAN. Tuy nhiờn, phương phỏp này đũi hỏi chọn lựa kỹ lưỡng tham biến mật độ và ngưỡng nhiễu, việc chọn lựa tham số là quan trọng ảnh hưởng tới chất lượng của cỏc kết quả phõn cụm.

Định nghĩa : Cho x, y là hai đối tượng trong khụng gian d chiều ký hiệu là Fd. Hàm ảnh hưởng của đối tượng d

yF lờn đối tượng x là một hàm

0

:

y d B

f FR mà được định nghĩa dưới dạng một hàm ảnh hưởng cwo bản ( ) ( , )

y

B b

f Xf x y . Hàm ảnh hưởng cú thể là một hàm bất kỳ; cơ bản là xỏc định

khoảng cỏch của hai vecto d(x, y) trong khụng gian d chiều, vớ dụ như khoảng cỏch Euclide. Hàm khoảng cỏch cú tớnh chất phản xạ và đối xứng. Vớ dụ về hàm ảnh hưởng như sau :

- Hàm ảnh hưởng súng ngang : ( , ) 0 if ( , ) 1 if ( , ) square d x y f x y d x y         Trong đú  là một ngưỡng. - Hàm ảnh hưởng Gaussian: 2 2 ( , ) 2 ( , ) d x y square f x ye  Mặt khỏc, hàm mật độ tại điểm d

xF được đinh nghĩa là tổng cỏc hàm ảnh hưởng của tất ả cỏc điểm dữ liệu. Cho n là cỏc đối tượng dữ liệu được mụ tả bởi một tập vecto Dx1,...,xnFd hàm mật độ được định nghĩa như sau :

( )1 1 ( ) ( ) n D x i B B i F x F x  

Hàm mật độ được thành lập dựa trờn ảnh hưởng Gauss được xỏc định như sau : 2 2 ( , ) 2 1 ( ) i d x x n D Gauss i F d e   

DENCLUE phụ thuộc nhiều vào ngưỡng nhiễu và tham số mật độ, nhưng DENCLUE cú cỏc lợi thế chớnh được so sỏnh với cỏc thuật toỏn phõn cụm khỏc sau đõy :

- Cú cơ sở toỏn học vững chắc và tổng quỏt húa cỏc phương phỏp phõn cụm khỏc, bao gồm cỏc phương phỏp phõn cấp, dựa trờn phõn hoạch

- Cú cỏc đặc tớnh phõn cụm tốt cho cỏc tập dữ liệu với số lượng lớn và nhiễu

- Cho phộp cỏc cụm cú hỡnh dạng bất kỳ trong tập dữ liệu đa chiều được mụ tả trong cụng thức toỏn.

Độ phức tạp tớnh toỏn của DENCLUDE là O(nlogn). Cỏc thuật toỏn dựa trờn mật độ khụng thực hiện kỹ thuật phõn mẫu trờn tập dữ liệu như trong cỏc thuật toỏn phõn cụm phõn hoạch, vỡ điều này cú thể làm tăng thờm độ phức tạp đó cú sự khỏc nhau giữa mật độ của cỏc đối tượng trong mẫu với mật độ của toàn bộ dữ liệu.

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 59 - 61)