Thuật toán DBSCAN

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Trình bày tổng quan về phân cụm dữ liệu (Trang 39 - 44)

CHƢƠNG 1 : TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

2.3. Phƣơng pháp phân cụm dựa trên mật độ

2.3.1. Thuật toán DBSCAN

Thuật toán DBSCAN thích nghi với mật độ dầy để phân cụm và khám phá ra các cụm có hình dạng bất kỳ trong không gian Cơ sở dữ liệu có nhiễu. Nó định nghĩa cụm là tập tối đa các điểm liên thông mật độ.

Phân cụm dựa trên mật độ là tập các đối tƣợng liên thông mật độ mà tối đa về liên lạc mật độ; mỗi đối tƣơ ̣ng không đƣợc chƣ́a trong cụm là đƣợc xem xét nhiễu. Trên thực tế DBSCAN tìm kiếm cho các cụm bằng cách kiểm tra các đối tƣợng mà có số đối tƣợng láng giềng nhỏ hơn một ngƣỡng tối thiểu, tức là có tối thiểu MinPts đối tƣợng và mỗi đối tƣợng trong cụm tồn tại một

đối tƣợng khác trong cụm giống nhau với khoảng cách nhỏ một ngƣỡng Eps.

đã xác định ở trên, một cụm đƣợc xác định bằng một tập tất cả các đối tƣợng liên thông mật độ với các láng giềng của nó . DBSCAN lă ̣p la ̣i tìm kiếm ngay khi các đối tƣợng liên lạc mật độ từ các đối tƣơ ̣ng trung tâm , nó có t hể bao gồm viê ̣c kết hơ ̣p mô ̣t số các cụm có mật độ liên lạc . Quá trình kết thúc khi không tìm đƣợc điểm mới nào có thể thêm vào bất cứ cụm nào.

DBSCAN có thể tìm ra các cụm với hình thù bất kỳ, trong khi đó tại cùng một thời điểm ít bị ảnh hƣởng bởi thứ tự của các đối tƣợng dữ liệu nhập vào. Khi có một đối tƣợng đƣợc chèn vào chỉ tác động đến một láng giềng xác định. Mặt khác, DBSCAN sử dụng tham số Eps và MinPts trong thuật toán để kiểm soát mật độ của các cụm. DBSCAN bắt đầu với một điểm tùy ý và xây dựng mật độ láng giềng có thể đƣợc đối với Eps và MinPts. Vì vậy, DBSCAN yêu cầu ngƣời dùng xác định bán kính Eps của các láng giềng và số các láng

giềng tối thiểu MinPts, các tham số này khó mà xác định đƣợc tối ƣu, thông

thƣờng nó đƣợc xác định bằng phép chọn ngẫu nhiên hoặc theo kinh nghiệm. Độ phức tạp của DBSCAN là O(n2), nhƣng nếu áp dụng chỉ số không gian để

giúp xác định các láng giềng của một đối tƣợng dữ liệu thì độ phức của DBSCAN đã đƣợc cải tiến là O(nlogn). Thuật toán DBSCAN có thể áp dụng cho các tập dữ liệu không gian lớn đa chiều, khoảng cách Euclide đƣợc sử dụng để đo sự tƣơng tự giữa các đối tƣợng nhƣng không hiệu quả đối với dữ liệu đa chiều.

Ta tìm hiểu một số kiến thức liên quan sau:

Định nghĩa 1: Lân cận với ngƣỡng Eps của một điểm p ký hiệu NEps(p) đƣợc xác định nhƣ sau: NEsp(p) = {q  D | khoảng cách dist(p, q) ≤ Eps}, D là tập dữ liệu cho trƣớc.

Một điểm p muốn nằm trong một cụm C nào đó thì NEps(p) thì phải có tối thiểu MinPts điểm. Số điểm tối thiểu đƣợc chọn là bao nhiêu cũng là bài toán khó, vì nếu số điểm tối thiểu lớn thì chỉ những điểm nằm thực sự trong cụm C mới đạt đủ tiêu chuẩn, trong khi đó những điểm nằm ngoài biên của cụm không thể đạt đƣợc điều đó. Ngƣợc lại, nếu số điểm tối thiểu là nhỏ thì mọi điểm sẽ rơi vào một cụm.

Theo định nghĩa trên, chỉ những điểm thực sự nằm trong cụm mới thỏa mãn điều kiện là điểm thuộc vào cụm. Những điểm nằm ở biên của cụm thì không thỏa mãn điều kiện đó, bởi vì thông thƣờng thì lân cận với ngƣỡng Eps của điểm biên thì bé hơn lân cận với ngƣỡng cũng Eps của điểm nhân.

Để tránh đƣợc điều này, có thể đƣa ra một tiêu chuẩn khác để định nghĩa một điểm thuộc vào một cụm nhƣ sau: nếu một điểm p muốn thuộc một cụm C phải tồn tại một điểm q mà p  NEps(q) và số điểm trong NEps(q) phải lớn hơn số điểm tối thiểu. Điều này dẫn đến ba phép đo đƣợc sử dụng để mô tả thuộc tính của các điểm dữ liệu, là mật độ liên lạc trực tiếp, mật độ liên lạc, và mật độ liên thông đƣợc định nghĩa nhƣ sau:

Định nghĩa 2: Mật độ liên lạc trực tiếp

Một điểm p đƣợc gọi là liên lạc trực tiếp từ điểm q với ngƣỡng Eps nếu:

1. p  NEsp(q).

2. ||NEsp(q)|| ≥ MinPts (điều kiện nhân), điểm q gọi là điểm nhân.

Có thể thấy liên lạc trực tiếp là một hàm phản xạ và đối xứng với hai điểm nhân và bất đối xứng nếu một trong hai điểm đó không phải là điểm nhân.

Định nghĩa 3: Mật độ liên lạc

Một điểm p đƣợc gọi là liên lạc từ một điểm q theo tham số Eps và MinPts nếu tồn tại một dãy p = p1, p2,..., pn = q thỏa mãn pi+1 là có thể liên lạc trực tiếp từ pi với i = 1 ÷ n-1.

Hai điểm biên của một cụm C có thể không liên lạc đƣợc với nhau bởi vì cả hai đều không thỏa mãn điều kiện nhân.

Định nghĩa 4: Mật độ liên thông

Một điểm p đƣợc gọi là liên thông với điểm q theo tham số Eps và MinPts nếu tồn tại một điểm O mà cả hai điểm p, q đều có thể liên lạc đƣợc theo tham số Eps và MinPts. Mật độ liên thông có tính chất đối xứng và phản xạ.

H

ình 2.13: Mật độ liên lạc và mật độ liên thông

Định nghĩa 5: Cụm

Giả sử D là một tập các điểm dữ liệu. Một tập con C khác rỗng của D đƣợc gọi là một cụm theo Eps và MinPts nếu thỏa mãn hai điều kiện:

1. Với mọi p, q  D, nếu p  C và q có thể liên lạc đƣợc từ p theo Eps và MinPts thì q  C.

Định nghĩa 6: Nhiễu

Giả sử C1, C2,..., Ck là các cụm trong tập dữ liệu D theo tham số Eps và MinPts, điểm dữ liệu nhiễu là điểm dữ liệu không thuộc vào cụm nào trong các cụm C1, C2,..., Ck, tức là N = {p | với mọi i = 1,...,k  Ci}.

Với hai tham số Eps và MinPts cho trƣớc, có thể khám phá các cụm theo hai bƣớc:

- Bƣớc 1: Chọn một điểm bất kỳ từ tập dữ liệu ban đầu thỏa mãn điều kiện nhân.

- Bƣớc 2: Lấy tất cả các điểm liên lạc với điểm nhân đã chọn để tạo thành cụm.

Bổ đề 1: Giả sử p là một điểm trong D, ||NEps(p)|| ≥ MinPts, tập O =

{o | o  D và o có thể liên lạc từ p theo Eps và MinPts} là một cụm theo Eps và MinPts.

Nhƣ vậy, cụm C không hoàn toàn là duy nhất, tuy nhiên, mỗi điểm trong C liên lạc từ bất cứ một điểm nhân nào của C, vì vậy C chứa đúng một số điểm liên thông với điểm nhân tùy ý.

Bổ đề 2: Giả sử C là một cụm theo Eps và MinPts, p là một điểm bất

kỳ trong C với ||NEps(p)|| ≥ MinPts. Khi đó C trùng với tập O = {o | o  D và o có thể liên lạc từ p theo Eps và MinPts}.

Thuật toán: DBSCAN khởi tạo điểm p tùy ý và lấy tất cả các điểm liên lạc mật độ từ p tới Eps và MinPts. Nếu p là điểm nhân thì thủ tục trên tạo ra một cụm theo Eps và MinPts (bổ đề 2), nếu p là một điểm biên, không có điểm nào liên lạc mật độ từ p và DBSCAN sẽ đi thăm điểm tiếp theo của tập dữ liệu.

Nếu sử dụng giá trị toàn cục Eps và MinPts, DBSCAN có thể hoà nhập hai cụm (định nghĩa 5) thành một cụm nếu mật độ của hai cụm gần bằng nhau. Giả sử khoảng cách giữa hai tập dữ liệu S1 và S2 đƣợc định nghĩa là dist(S1, S2) = min{dist(p, q) | p  S1 và q  S2}.

Thuật toán DBSCAN được mô tả chi tiết như sau:

1. Bƣớc đầu tiên: thuật toán khởi tạo điểm p tuỳ ý.

2. Lấy tất cả các điểm liên lạc mật độ tử p tới Eps và Minpts. 3. Nếu p là điểm nhân thì tạo ra một cụm theo Eps và Minpts.

4. Nếu p là điểm biên, không có điểm liên lạc mật độ nào từ p tới Eps và Minpts, thuật toán sẽ xét các điểm tiếp theo.

5. Tiếp tục thực hiện các bƣớc nhƣ trên đối với tất cả các điểm.

Một số chú ý khi áp dụng thuật toán DBSCAN:

+ Các cụm khác nhau có thể có các mật độ khác nhau. + Các cụm có thể tuân theo một thứ tự nhất định.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Trình bày tổng quan về phân cụm dữ liệu (Trang 39 - 44)

Tải bản đầy đủ (PDF)

(73 trang)