Phƣơng pháp phân cụm dựa trên mật độ

Một phần của tài liệu Phân cụm dữ liệu định danh với số chiều cao (Trang 31)

Để phát hiện ra các cụm với hình dạng tùy ý, phƣơng pháp phân cụm dựa trên mật độ [8] đã đƣợc phát triển. Thông thƣờng coi cụm nhƣ các khu vực dày đặc của các đối tƣợng trong không gian dữ liệu đƣợc phân cách bởi các khu vực mật độ thƣa (đại diện cho nhiễu). DBSCAN phát triển các cụm theo một phân tích kết nối dựa trên mật độ. OPTICS mở rộng DBSCAN để tạo ra một cụm đƣợc thiết lập trƣớc thu đƣợc từ một loạt các thiết lập tham số. DENCLUE đối tƣợng cụm dựa trên một tập hợp các chức năng phân bố mật độ.

Thuật toán DBSCAN

DBSCAN là một phƣơng pháp phân cụm dựa trên mật độ kết nối các khu vực với mật độ đủ cao. Thuật toán phát triển các khu vực có mật độ đủ cao thành các cụm và phát hiện ra các cụm hình dạng tùy ý trong cơ sở dữ liệu không gian với nhiễu. Nó định nghĩa một cụm nhƣ là một tập tối đa của mật độ kết nối các điểm.

Ý tƣởng của thuật toán: Thuật toán yêu cầu hai tham số đầu vào là ε và MinPts.

 Các khu vực lân cận trong vòng một bán kính ε của một đối tƣợng nhất định đƣợc gọi là ε - láng giềng của đối tƣợng.

 Nếu vùng lân cận ε của một đối tƣợng có chứa ít nhất một số lƣợng tối thiểu các đối tƣợng MinPts thì đối tƣợng đƣợc gọi là một đối tƣợng cốt lõi.

 Cho một tập các đối tƣợng D, chúng ta nói rằng một đối tƣợng p thuộc trong phạm vi mật độ trực tiếp của đối tƣợng q nếu p nằm trong ε - láng giềng của đối tƣợng q và q là một đối tƣợng cốt lõi.

 Một đối tƣợng p nằm trong phạm vi mật độ của đối tƣợng q đối với ε và MinPts trong một tập các đối tƣợng D, nếu có một chuỗi các đối tƣợng p1, …, pn, ở đây p1=q và pn=p và pi+1 nằm trong phạm vi mật độ trực tiếp của pi đối với ε và MinPts, với 1 i n , pi D.

 Một đối tƣợng p nằm trong phạm vi mật độ liên kết của đối tƣợng q đối với ε và MinPts trong một tập các đối tƣợng D, nếu có một đối tƣợng o D, trong đó cả p và q đều nằm trong phạm vi mật độ của o với ε và MinPts.

Ví dụ hình 2.4 cho một ε nhất định đại diện bán kính của vòng tròn và xét MinPts = 3. Dựa trên định nghĩa:

Trong những điểm dán nhãn m, p, o và r là các đối tƣợng cốt lõi bởi vì mỗi một ε - láng giềng đều có chứa ít nhất ba điểm.

 q nằm trong phạm vi trực tiếp của m, m nằm trong phạm vi trực tiếp của p và ngƣợc lại.

 q nằm trong phạm vi gián tiếp của p, tuy nhiên p không nằm trong phạm vi của q và q không phải là đối tƣợng cốt lõi.

 o, r và s đều có liên kết mật độ.

Một cụm dựa trên mật độ là một tập hợp các đối tƣợng có liên kết mật độ kết nối tối đa với phạm vi liên kết mật độ. Mỗi đối tƣợng không có trong bất kỳ cụm nào đƣợc gọi là nhiễu.

"Làm thế nào để DBSCAN tìm ra cụm?" DBSCAN tìm kiếm cho các cụm bằng cách kiểm tra ε - láng giềng của mỗi điểm trong cơ sở dữ liệu. Nếu ε - láng giềng của một điểm p chứa hơn MinPts, một cụm mới với p là một đối tƣợng cốt lõi đƣợc tạo ra. DBSCAN sau đó lặp đi lặp lại thu thập các đối tƣợng mật độ có thể truy cập trực tiếp từ các đối tƣợng cốt lõi, có thể liên quan đến việc hợp nhất của một vài thể truy cập các cụm mật độ. Quá trình này kết thúc khi không có điểm mới có thể đƣợc thêm vào bất kỳ cụm nào.

Nếu một chỉ số không gian đƣợc sử dụng, sự phức tạp tính toán của DBSCAN là O (nlogn), trong đó n là số lƣợng các đối tƣợng của cơ sở dữ liệu. Nếu không, nó là O(n2

). Thuật toán có hiệu quả trong việc tìm kiếm cụm hình tùy ý nếu ngƣời dùng định nghĩa cài đặt thích hợp của các thông số ε và MinPts. Thuật toán này có thể áp dụng cho dữ liệu lớn, đa chiều.

Hình 2.4 Phạm vi và sự liên kết mật độ trong phân cụm dựa trên mật độ

Một phần của tài liệu Phân cụm dữ liệu định danh với số chiều cao (Trang 31)

Tải bản đầy đủ (PDF)

(91 trang)