THUẬT TOÁN DBSCAN

Một phần của tài liệu Một số thuật toán phân cụm dữ liệu (Trang 71)

Một số kiến thức liờn quan:

Định nghĩa 1: Lõn cận với ngƣỡng Eps của một điểm p ký hiệu NEps(p) đƣợc xỏc định nhƣ sau: NEps(p)={qD | khoảng cỏch dist(p,q)  Eps}, D là tập dữ liệu cho trƣớc.

Một điểm p muốn nằm trong cụm C nào đú thỡ NEps(p) phải cú tối thiểu MinPts điểm. Số điểm tối thiểu đƣợc chọn là bao nhiờu cũng là bài toỏn khú, vỡ nếu số điểm tối thiểu lớn thỡ chỉ những điểm nằm thực sự trong cụm C mới đạt đủ tiờu chuẩn, trong khi đú những điểm nằm ngoài biờn của cụm khụng thể đạt đƣợc điều đú. Ngƣợc lại, nếu số điểm tối thiểu là nhỏ thỡ mọi điểm sẽ rơi vào một cụm.

Hỡnh 3.16. Lõn cận với ngƣỡng  của điểm P

Theo định nghĩa trờn, chỉ những điểm thực sự nằm trong cụm mới thỏa món điều kiện là điểm thuộc vào cụm. Những điểm nằm ở biờn của cụm thỡ khụng thỏa món điều kiện đú, bởi vỡ thụng thƣờng thỡ lõn cận với ngƣỡng Eps của điểm biờn thỡ bộ hơn lõn cận với ngƣỡng cũng là Eps của điểm nhõn.

Để trỏnh đƣợc điều này, cú thể đƣa ra một tiờu chuẩn khỏc để định nghĩa một điểm thuộc vào một cụm là nếu một điểm p muốn thuộc vào một cụm C phải tồn tại một điểm q mà p  NEps(q) phải lớn hơn số điểm tối thiểu. Điều này dẫn đến ba phộp đo đƣợc sử dụng để mụ tả thuộc tớnh của cỏc điểm

dữ liệu là: Mật độ liờn lạc trực tiếp, mật độ liờn lạc và mật độ liờn thụng

đƣợc định nghĩa nhƣ sau:

Định nghĩa 2: Mật độ liờn lạc trực tiếp

Một điểm p đƣợc gọi là liờn lạc trực tiếp từ điểm q với ngƣỡng Eps nếu:

1. pNEps(q)

2. ||NEps(q)||  MinPts (điều kiện nhõn), điểm q gọi là điểm nhõn

Cú thể thấy liờn lạc trực tiếp là một hàm phản xạ và đối xứng với hai điểm nhõn và bất đối xứng nếu một trong hai điểm đú khụng phải là điểm nhõn.

Định nghĩa 3: Mật độ liờn lạc

Một điểm p đƣợc gọi là mật độ liờn lạc từ một điểm q theo tham số Eps và MinPts nếu tồn tại một dóy p=p1, p2, …,pn=q thỏa món pi+1 là cú thể liờn lạc trực tiếp từ pi với i=1n-1.

Hai điểm biờn của một cụm C cú thể khụng liờn lạc đƣợc với nhau bởi vỡ cả hai đều khụng thỏa món điều kiện nhõn.

Hỡnh 3.17. Mật độ liờn lạc

Một điểm p đƣợc gọi là liờn thụng với điểm q theo tham số Eps và MinPts nếu tồn tại một điểm O mà cả hai bờn điểm p, q đều cú thể liờn lạc đƣợc tham số Eps và MinPts. Mật độ liờn thụng cú tớnh chất đối xứng và phản xạ.

Hỡnh 3.18. Mật độ liờn thụng

Định nghĩa 5: Cụm

Giả sử D là một tập hợp cỏc điểm dữ liệu. Một tập con C khỏc rỗng của D đƣợc gọi là một cụm theo Eps và MinPts nếu thỏa món hai điều kiện:

1. Với mọi p, q  D, nếu p  C và q cú thể liờn lạc đƣợc từ p theo Eps và MinPts thỡ q  C.

2. Với mọi p,q  C, p liờn thụng với q theo Eps và MinPts.

Định nghĩa 6: Nhiễu

Giả sử C1, C2, …, Ck là cỏc cụm trong tập dữ liệu D theo tham số Eps và MinPts, điểm dữ liệu nhiễu là điểm dữ liệu khụng phụ thuộc vào cụm nào trong cỏc cụm C1, C2, …,Ck, tức là N = {p| với mọi i=1ữk Ci}.

Với hai tham số Eps và MinPts cho trƣớc, cú thể khỏm phỏ cỏc cụm theo hai bƣớc:

o Bƣớc 1: Chọn một điểm bất kỳ từ tập dữ liệu ban đầu thỏa món điều kiện nhõn.

o Bƣớc 2: Lấy tất cả cỏc điểm liờn lạc với điểm nhõn đó chọn để tạo thành cụm.

Bổ đề 1: Giả sử p là một điểm trong D, ||NEps(p)  MinPts, tập O={o | o

 D và o cú thể liờn lạc từ p theo Eps và MinPts}|| là một cụm theo Eps và MinPts.

Nhƣ vậy, cụm C khụng hoàn toàn là duy nhất. Mỗi điểm trong C liờn lạc từ bất kỳ điểm nhõn nào của C, vỡ vậy C chứa đỳng một số điểm liờn thụng với điểm nhõn tựy ý.

Bổ đề 2: Giả sử C là một cụm theo Eps và MinPts, p là một điểm bất kỳ trong C với ||NEps(p)||  MinPts. Khi đú C trựng với tập O={o | o  D và o cú thể liờn lạc từ p theo Eps và MinPts}.

Hỡnh 3.19. Cụm và nhiễu

Thuật toỏn DCSCAN được phỏt biểu như sau:

1. DBSCAN khởi tạo p điểm tựy ý

3. Nếu p là điểm nhõn thỡ tạo ra một cụm theo Eps và MinPts

4. Nếu p là điểm biờn, khụng cú điểm nào là liờn lạc mật độ từ p và DBSCAN sẽ thăm cỏc điểm tiếp theo của cơ sở dữ liệu

5. Tiếp tục quỏ trỡnh trờn cho đến khi tất cả cỏc điểm đều được xử lý.

Thuật toỏn DBSCAN thớch nghi với tập dữ liệu cú mật độ dày và khỏm phỏ cỏc cụm cú hỡnh dạng bất kỳ trong khụng gian cơ sở dữ liệu cú nhiễu. Nú định nghĩa cụm là tập tối đa cỏc điểm liờn thụng mật độ.

Phõn cụm dựa trờn mật độ là tập cỏc đối tƣợng liờn thụng mật độ mà tối đa về liờn lạc mật độ, cỏc đối tƣợng khụng đƣợc chứa trong cỏc cụm thỡ gọi là nhiễu. Trờn thực tế, DBSCAN tỡm kiếm cho cỏc cụm bằng cỏch kiểm tra cỏc đối tƣợng lỏng giềng nhỏ hơn một ngƣỡng tối thiểu, tức là cú tối thiểu MinPts đối tƣợng và mỗi đối tƣợng trong cụm tồn tại một đối tƣợng khỏc trong cụm giống nhau với khoảng cỏch nhỏ hơn một ngƣỡng Eps. Tỡm tất cả cỏc đối tƣợng mà cỏc lỏng giềng của nú thuộc về lớp cỏc đối tƣợng đó đƣợc xỏc định ở trờn, một cụm đƣợc xỏc định bằng một tập tất cả cỏc đối tƣợng liờn thụng mật độ với cỏc lỏng giềng của nú. DBSCAN lặp lại tỡm kiếm ngay khi cỏc đối tƣợng liờn lạc mật độ từ cỏc đối tƣợng trung tõm, nú cú thể bao gồm việc kết hợp một số cỏc cụm cú mật độ liờn lạc. Quỏ trỡnh kết thỳc khi khụng tỡm đƣợc điểm mới nào cú thể thờm vào bất cứ cụm nào.

DBSCAN cú thể tỡm ra cỏc cụm với hỡnh thự bất kỳ, trong khi đú tại cựng một thời điểm ớt bị ảnh hƣởng bởi thứ tự của cỏc đối tƣợng dữ liệu nhập vào. Khi đú một đối tƣợng chốn vào chỉ tỏc động đến một lỏng giềng nhất định. Mặt khỏc, DBSCAN bắt đầu với một điểm tựy ý và xõy dựng mật độ lỏng giềng cú thể đƣợc đối với Eps và MinPts. Vỡ vậy, DBSCAN yờu cầu ngƣời dựng xỏc định bỏn kớnh Eps của cỏc lỏng giềng và số cỏc lỏng giềng tối thiểu MinPts, cỏc tham số này khú mà xỏc định đƣợc tối ƣu, thụng thƣờng nú

đƣợc xỏc định bằng phộp chọn ngẫu nhiờn theo kinh nghiệm. Độ phức tạp của DBSCAN là O(n2), nhƣng nếu ỏp dụng chỉ số khụng gian để giỳp xỏc định cỏc lỏng giềng của một đối tƣợng dữ liệu thỡ độ phức tạp của DBSCAN đó đƣợc cải tiến là O(nlogn). Thuật toỏn DBSCAN cú thể ỏp dụng cho cỏc tập dữ liệu khụng gian lớn đa chiều, khoảng cỏch Euclid đƣợc sử dụng để đo sự tƣơng tự giữa cỏc đối tƣợng nhƣng khụng hiệu quả đối với dữ liệu đa chiều.

Trừ một số trƣờng hợp ngoại lệ, kết quả của DBSCAN là độc lập với đối tƣợng duyệt cỏc đối tƣợng dữ liệu. Eps và MinPts là hai tham số toàn cục đƣợc xỏc định bằng thủ cụng hoặc theo kinh nghiệm [13][15].

Một số đặc điểm của thuật toỏn DBSCAN:

Cỏc cụm khỏc nhau cú thể cú mật độ khỏc nhau

Cỏc cụm cú thể tuõn theo một thứ tự

Hỡnh dƣới minh họa cỏc cụm cú thể khỏm phỏ bởi DBSCAN

Hỡnh 3.20. Một cụm đƣợc khỏm phỏ bởi DBSCAN Thực nghiệm thuật toỏn DBSCAN tại địa chỉ

Một phần của tài liệu Một số thuật toán phân cụm dữ liệu (Trang 71)

Tải bản đầy đủ (PDF)

(103 trang)