Thuật toán phân cụm dựa trên mật độ đóng vai trò quan trọng trong tìm kiếm cấu trúc phi tuyến tính dựa trên mật độ. Thuật toán phân cụm dựa trên không gian mật độ DBSCAN đƣợc sử dụng rộng rãi dựa trên mật độ. Nó dựa trên hai khái niệm khả năng tiếp cận mật độ và khả năng kết nối mật độ.
Khả năng tiếp cận mật độ: Một điểm p đƣợc gọi là mật độ truy cập từ một điểm q nếu p nằm trong khoảng cách ε từ điểm q và q có đủ số điểm lân cận với khoảng cách trong phạm vi ε.
Khả năng kết nối mật độ: Một điểm p và q đƣợc cho là kết nối mật độ nếu có tồn tại một điểm r trong đó có đủ số điểm trong lân cận và cả hai điểm p và q nằm trong khoảng cách ε. Nếu q là lân cận của r, r là lân cận của s, s là lân cận của t, t là lân cận của p có nghĩa là q là lân cận của p.
i i j i j j c j i c i c 2 c i i c c c (a ) 2 (a ). (a ) (a ). (a ) a r a ,a r a r m . (a ). (a ) r r r
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Các bƣớc của thuật toán phân cụm dựa trên mật độ DBSCAN:
Cho tập hợp các điểm dữ liệu X={x1,x2,x3…xn}. DBSCAN yêu cầu hai tham số: ε và số lƣợng tối thiểu các điểm cần thiết để tạo thành một cụm
Bƣớc 1: Bắt đầu với một điểm tùy ý không đƣợc kiểm tra.
Bƣớc 2: Rút ra các lân cận của điểm này bằng cách sử dụng khoảng cách ε.
Bƣớc 3: Nếu có đầy đủ các điểm lân cận xung quanh điểm này thì bắt đầu quá trình phân cụm và điểm đƣợc đánh dấu truy cập khác thời điểm này đƣợc dán nhãn nhƣ là nhiễu.
Bƣớc 4: Nếu một điểm đƣợc tìm thấy là một phần của cụm thì lân cận ε của nó cũng là một phần của cụm và thủ tục trên từ bƣớc 2 đƣợc lặp đi lặp lại cho tất cả các điểm lân cận ε. Điều này đƣợc lặp đi lặp lại cho đến khi tất cả các điểm trong cụm đƣợc xác định
Bƣớc 5: Một điểm mới ghé thăm thƣờng xuyên đƣợc lấy ra và xử lý, dẫn đến việc phát hiện ra một cụm hoặc nhiễu.
Bƣớc 6: Quá trình này đƣợc thực hiện cho tới khi các điểm viếng thăm đƣợc đánh dấu.