.5 Trộ n2 cụm theo thuật toán CURE

Một phần của tài liệu (LUẬN văn THẠC sĩ) tập thô và bài toán phân cụm (Trang 25 - 27)

1.2.3. Các phương pháp dựa vào mật độ

Hầu hết các phƣơng pháp phân cụm dựa trên hàm mục tiêu truyền thống phân cụm đều dựa trên khoảng cách giữa các đối tƣợng. Các phƣơng pháp này chủ yếu tìm ra các cụm có dạng hình cầu và rất khó để tìm ra các cụm có hình dạng ngẫu nhiên. Phƣơng pháp phân cụm dựa vào mật độ xem các cụm nhƣ là các vùng có mật độ các đổi tƣợng lớn trong không gian dữ liệu. Các phƣơng pháp dựa vào mật độ có thể sử dụng để loại bỏ nhiễu, và phát hiện ra các cụm có hình dạng ngẫu nhiên.

Thuật toán dựa vào mật độ đầu tiên là thuật toán DBSCAN (Ester và cộng sự, 1996), thuật toán này xem xét mật độ theo lân cận của mỗi đối tƣợng, nếu số lƣợng các đối tƣợng trong khoảng cách  của một đối tƣợng lớn hơn MinPts thì đối tƣợng đó đƣợc xem là nằm trong một cụm. Bởi vì các cụm tìm đƣợc phụ

Các điểm đại diện gần nhau nhất

thuộc vào tham số  và MinPts, nên thuật toán DBSCAN dựa trên khả năng của ngƣời sử dụng để lựa chọn tập tham số tốt.

Để tránh đƣợc vấn đề này, năm 1999 Ankerst đề xuất phƣơng pháp sắp xếp các cụm đƣợc gọi là OPTICS. OPTICS tính toán việc sắp xếp các cụm có tham số để phân cụm tự động.

DBSCAN: phương pháp phân cụm dựa trên mật độ của các vùng được liên kết với mật độ đủ lớn

DBSCAN là một thuật toán phân cụm dựa vào mật độ. Thuật toán nhóm các vùng có mật độ đủ cao vào trong các cụm, và tìm kiếm các cụm với hình dạng tự nhiên trong các tập dữ liệu không gian. Thuật toán yêu cầu 2 tham số đầu vào là  và Minpts. Các đối tƣợng nằm trong hình cầu bán kính  của một đối tƣợng đƣợc gọi là  -lận cận của đối tƣợng đó và và đối tƣợng có ít nhất là Minpts đối tƣợng khác là  -lân cận thì đƣợc gọi là đối tƣợng lõi (Core Object). Phân cụm dữ liệu theo thuật toán DBSCAN áp dụng các luật sau đây:

- Một đối tƣợng có thể nằm trong một cụm nếu và chỉ nếu nó nằm trong

 -lân cận của một đối tƣợng lõi thuộc cụm đó.

- Một đối tƣợng lõi o nằm thuộc  -lân cận của một đối tƣợng lõi p khác thì o bắt buộc phải nằm cùng một cụm với p.

- Một đối tƣợng không lõi q nằm trong  -lân cận của các đối tƣợng p1,…, pi, i>0, thì q phải nằm cùng một cụm chứa ít nhất một đói tƣợng lõi thuộc p1,…, pi.

- Một đối tƣợng không lõi r không nằm thuộc  -lân cận của một đối tƣợng lõi bất kỳ thì đƣợc xem là nhiễu.

Ví dụ: Xem xét hình 1.6 dƣới đây với  là bán kính của hình tròn và Minpts =3. Chúng ta biểu diễn các đối tƣợng lõi là các điểm hình tròn, còn các đối tƣợng không lõi là các điểm có dạng hình tròn. Trong hình 1.6 biểu diễn hai cụm, C1 và C2 đƣợc tìm kiếm bởi thuật toán DBSCAN. Các đối tƣợng dữ liệu nằm trong C1 hoặc C2 đều thuộc  - lân cận của ít nhất một đối tƣợng lõi nằm trong C1 hoặc C2 và không có hai đối tƣợng lõi nào thỏa mãn thuộc -lân cận của nhau và do đó chúng có thể năm ở các cụm khác nhau. Đối tƣợng không lõi

M nằm trong -lân cận của T và R, với T là đối tƣợng lõi thuộc C1 và R là đối tƣợng lõi thuộc C2. Điều này dẫn tới có thể phân M vào C1 hoặc C2 khi nó là biên của hai cụm. Cuối cùng, đối tƣợng S có thể đƣợc xem là nhiễu bởi vì nó là một đối tƣợng không lõi và không thuộc -lân cận của các đối tƣợng lõi.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tập thô và bài toán phân cụm (Trang 25 - 27)

Tải bản đầy đủ (PDF)

(70 trang)