5. Một số phƣơng pháp phân lớp
5.3. Phƣơng pháp dựa vào mật độ
Hầu hết các phƣơng pháp phân lớp, phân hoạch chủ yếu dựa vào khoảng cách các đối tƣợng. Do vậy các phƣơng pháp này chỉ tìm đƣợc các lớp có
cancerous healthy #nuclei=1
Color = light Color = dark
#nuclei=2 #nuclei=1 #nuclei=2
cancerous #tails=2 healthy cancerous #tails=1 #tails=2 healthy
hình dạng đơn giản và sẽ gặp khó khăn khi cần tìm các lớp với hình dạng bất kỳ. Phƣơng pháp phân lớp dựa vào mật độ có khả năng phát hiện các lớp dƣới hình dạng bất kỳ. Ý tƣởng của phƣơng pháp chính là xây dựng một lớp mật độ của các điểm trong một lớp lớn hơn một ngƣỡng nào đó, nếu một điểm có mật độ nhỏ hơn ngƣỡng các điểm đó sẽ đƣợc coi là nhiễu. Phƣơng pháp này đƣợc ứng dụng trong lĩnh vực khám phá tri thức trong CSDL không gian. Một số thuật toán tiêu biểu của phƣơng pháp này là thuật toán DBSCAN, DENCLUE, ....
Thuật toán DBSCAN (Density based Spatial Clustering of Application with Noise) là thuật toán chia lớp dựa vào vị trí địa phƣơng (locality-based). DBSCAN chia lớp dựa trên quan sát thực tế thấy rằng, mật độ của những điểm trong cùng một lớp thì lớn hơn rất nhiều so với mật độ của những điểm không thuộc lớp đó. Từ quan sát đó, DBSCAN thực hiện việc chia các lớp sao cho mật độ của các đối tƣợng dữ liệu trong từng lớp lớn hơn một ngƣỡng đặt ra. Thuật toán có khả năng phát hiện các lớp với hình dạng bất kỳ, xác định lớp với mật độ đủ lớn, có khả năng làm việc trên CSDL không gian có nhiễu. Mỗi lớp đƣợc xem nhƣ một tập cực đại các điểm liên thông mật độ.
Thuật toán DENCLUE (Density Based Clustering) là thuật toán chia lớp tổng quát. Với các tham số thích hợp, DENCLUE tƣơng ứng với thuật toán chia lớp phân hoạch, thuật toán chia lớp dựa vào vị trí địa phƣơng, phƣơng pháp chia lớp có cấu trúc hoặc phƣơng pháp chia lƣới. Thuật toán này phân lớp dựa vào hàm phân bố mật độ. Ảnh hƣởng của mỗi điểm có thể đƣợc tổng quát hóa bằng một hàm toán học gọi là hàm ảnh hƣởng. Mật độ tổng thể trên không gian dữ liệu có thể đƣợc xem nhƣ là tổng các hàm ảnh hƣởng của tất cả các điểm dữ liệu. Các lớp đƣợc xác định bằng cách nhận các điểm hút mật độ là các điểm cực đại cục bộ của hàm mật độ tổng thể.