ỉ Một số kiến thức liờn quan:
Định nghĩa 1: Lõn cận với ngưỡng Eps của một điểm p ký hiệu NEps(p) được xỏc định như sau: NEps(p)={q∈D | khoảng cỏch dist(p,q) ≤ Eps}, D là tập dữ liệu cho trước.
Một điểm p muốn nằm trong cụm C nào đú thỡ NEps(p) phải cú tối thiểu MinPts điểm. Số điểm tối thiểu được chọn là bao nhiờu cũng là bài toỏn khú, vỡ nếu số điểm tối thiểu lớn thỡ chỉ những điểm nằm thực sự trong cụm C mới đạt đủ tiờu chuẩn, trong khi đú những điểm nằm ngoài biờn của cụm khụng thể đạt được điều đú. Ngược lại, nếu số điểm tối thiểu là nhỏ thỡ mọi điểm sẽ rơi vào một cụm.
Hỡnh 3.25. Lõn cận với ngưỡng ε của điểm P
Theo định nghĩa trờn, chỉ những điểm thực sự nằm trong cụm mới thỏa món điều kiện là điểm thuộc vào cụm. Những điểm nằm ở biờn của cụm thỡ khụng thỏa món điều kiện đú, bởi vỡ thụng thường thỡ lõn cận với ngưỡng Eps của điểm biờn thỡ bộ hơn lõn cận với ngưỡng cũng là Eps của điểm nhõn.
Để trỏnh được điều này, cú thể đưa ra một tiờu chuẩn khỏc để định nghĩa một điểm thuộc vào một cụm là nếu một điểm p muốn thuộc vào một cụm C phải tồn tại một điểm q mà p ∈ NEps(q) phải lớn hơn số điểm tối thiểu. Điều này dẫn đến ba phộp đo được sử dụng để mụ tả thuộc tớnh của cỏc điểm
dữ liệu là: Mật độ liờn lạc trực tiếp, mật độ liờn lạc và mật độ liờn thụng
được định nghĩa như sau:
Định nghĩa 2: Mật độ liờn lạc trực tiếp
Một điểm p được gọi là liờn lạc trực tiếp từ điểm q với ngưỡng Eps nếu: 1. p∈NEps(q) 2. ||NEps(q)|| ≥ MinPts (điều kiện nhõn), điểm q gọi là điểm nhõn Cú thể thấy liờn lạc trực tiếp là một hàm phản xạ và đối xứng với hai điểm nhõn và bất đối xứng nếu một trong hai điểm đú khụng phải là điểm nhõn. Định nghĩa 3: Mật độ liờn lạc
Một điểm p được gọi là mật độ liờn lạc từ một điểm q theo tham số Eps và MinPts nếu tồn tại một dóy p=p1, p2, …,pn=q thỏa món pi+1 là cú thể liờn lạc trực tiếp từ pi với i=1ữn-1.
Hai điểm biờn của một cụm C cú thể khụng liờn lạc được với nhau bởi vỡ cả hai đều khụng thỏa món điều kiện nhõn.
Hỡnh 3.26. Mật độ liờn lạc
Định nghĩa 4: Mật độ liờn thụng
Một điểm p được gọi là liờn thụng với điểm q theo tham số Eps và MinPts nếu tồn tại một điểm O mà cả hai bờn điểm p, q đều cú thể liờn lạc
được tham số Eps và MinPts. Mật độ liờn thụng cú tớnh chất đối xứng và phản xạ.
Hỡnh 3.27. Mật độ liờn thụng
Định nghĩa 5: Cụm
Giả sử D là một tập hợp cỏc điểm dữ liệu. Một tập con C khỏc rỗng của D được gọi là một cụm theo Eps và MinPts nếu thỏa món hai điều kiện:
1. Với mọi p, q ∈ D, nếu p ∈ C và q cú thể liờn lạc được từ p theo Eps và MinPts thỡ q ∈ C.
2. Với mọi p,q ∈ C, p liờn thụng với q theo Eps và MinPts
Định nghĩa 6: Nhiễu
Giả sử C1, C2, …, Ck là cỏc cụm trong tập dữ liệu D theo tham số Eps và MinPts, điểm dữ liệu nhiễu là điểm dữ liệu khụng phụ thuộc vào cụm nào trong cỏc cụm C1, C2, …,Ck, tức là N = {p| với mọi i=1ữk ∉Ci}
Với hai tham số Eps và MinPts cho trước, cú thể khỏm phỏ cỏc cụm theo hai bước:
o Bước 1: Chọn một điểm bất kỳ từ tập dữ liệu ban đầu thỏa món điều kiện nhõn.
o Bước 2: Lấy tất cả cỏc điểm liờn lạc với điểm nhõn đó chọn để tạo thành cụm.
Bổ đề 1: Giả sử p là một điểm trong D, ||NEps(p) ≥ MinPts, tập O={o | o
∈ D và o cú thể liờn lạc từ p theo Eps và MinPts}|| là một cụm theo Eps và MinPts.
Như vậy, cụm C khụng hoàn toàn là duy nhất. Mỗi điểm trong C liờn lạc từ bất kỳ điểm nhõn nào của C, vỡ vậy C chứa đỳng một số điểm liờn thụng với điểm nhõn tựy ý.
Bổ đề 2: Giả sử C là một cụm theo Eps và MinPts, p là một điểm bất kỳ trong C với ||NEps(p)|| ≥ MinPts. Khi đú C trựng với tập O={o | o ∈ D và o cú thể liờn lạc từ p theo Eps và MinPts}
Hỡnh 3.28. Cụm và nhiễu
ỉ Thuật toỏn DCSCAN được phỏt biểu như sau:
1. DBSCAN khởi tạo p điểm tựy ý
2. Lấy tất cả cỏc điểm liờn lạc mật độ từ p tới Eps và MinPts 3. Nếu p là điểm nhõn thỡ tạo ra một cụm theo Eps và MinPts
4. Nếu p là điểm biờn, khụng cú điểm nào là liờn lạc mật độ từ p và DBSCAN sẽ thăm cỏc điểm tiếp theo của cơ sở dữ liệu
Thuật toỏn DBSCAN thớch nghi với tập dữ liệu cú mật độ dày và khỏm phỏ cỏc cụm cú hỡnh dạng bất kỳ trong khụng gian CSDL cú nhiễu. Nú định nghĩa cụm là tập tối đa cỏc điểm liờn thụng mật độ.
Phõn cụm dựa trờn mật độ là tập cỏc đối tượng liờn thụng mật độ mà tối đa về liờn lạc mật độ, cỏc đối tượng khụng được chứa trong cỏc cụm thỡ gọi là nhiễu. Trờn thực tế, DBSCAN tỡm kiếm cho cỏc cụm bằng cỏch kiểm tra cỏc đối tượng lỏng giềng nhỏ hơn một ngưỡng tối thiểu, tức là cú tối thiểu MinPts đối tượng và mỗi đối tượng trong cụm tồn tại một đối tượng khỏc trong cụm giống nhau với khoảng cỏch nhỏ hơn một ngưỡng Eps. Tỡm tất cả cỏc đối tượng mà cỏc lỏng giềng của nú thuộc về lớp cỏc đối tượng đó được xỏc định ở trờn, một cụm được xỏc định bằng một tập tất cả cỏc đối tượng liờn thụng mật độ với cỏc lỏng giềng của nú. DBSCAN lặp lại tỡm kiếm ngay khi cỏc đối tượng liờn lạc mật độ từ cỏc đối tượng trung tõm, nú cú thể bao gồm việc kết hợp một số cỏc cụm cú mật độ liờn lạc. Quỏ trỡnh kết thỳc khi khụng tỡm được điểm mới nào cú thể thờm vào bất cứ cụm nào.
DBSCAN cú thể tỡm ra cỏc cụm với hỡnh thự bất kỳ, trong khi đú tại cựng một thời điểm ớt bịảnh hưởng bởi thứ tự của cỏc đối tượng dữ liệu nhập vào. Khi đú một đối tượng chốn vào chỉ tỏc động đến một lỏng giềng nhất định. Mặt khỏc, DBSCAN bắt đầu với một điểm tựy ý và xõy dựng mật độ lỏng giềng cú thể được đối với Eps và MinPts. Vỡ vậy, DBSCAN yờu cầu người dựng xỏc định bỏn kớnh Eps của cỏc lỏng giềng và số cỏc lỏng giềng tối thiểu MinPts, cỏc tham số này khú mà xỏc định được tối ưu, thụng thường nú được xỏc định bằng phộp chọn ngẫu nhiờn theo kinh nghiệm. Độ phức tạp của DBSCAN là O(n2), nhưng nếu ỏp dụng chỉ số khụng gian để giỳp xỏc định cỏc lỏng giềng của một đối tượng dữ liệu thỡ độ phức tạp của DBSCAN đó được cải tiến là O(nlogn). Thuật toỏn DBSCAN cú thể ỏp dụng cho cỏc tập dữ
liệu khụng gian lớn đa chiều, khoảng cỏch Euclidean được sử dụng để đo sự tương tự giữa cỏc đối tượng nhưng khụng hiệu quảđối với dữ liệu đa chiều.
Trừ một số trường hợp ngoại lệ, kết quả của DBSCAN là độc lập với đối tượng duyệt cỏc đối tượng dữ liệu. Eps và MinPts là hai tham số toàn cục được xỏc định bằng thủ cụng hoặc theo kinh nghiệm [13][15].
ỉ Một số đặc điểm của thuật toỏn DBSCAN:
- Cỏc cụm khỏc nhau cú thể cú mật độ khỏc nhau - Cỏc cụm cú thể tuõn theo một thứ tự
Hỡnh dưới minh họa cỏc cụm cú thể khỏm phỏ bởi DBSCAN
Hỡnh 3.29. Một cụm được khỏm phỏ bởi DBSCAN
Thực nghiệm thuật toỏn DBSCAN tại địa chỉ
Hỡnh 3.30. Chương trỡnh thực nghiệm thuật toỏn DBSCAN
Kết quả phõn cụm của thực nghiệm của DBSCAN như hỡnh 3.31.