Thuật toán phân cụm dựa trên mật độ (Thuật toán DBSCAN)

Một phần của tài liệu Ứng dụng mạng Kohonen cho khảo sát, đánh giá, thống kê tình hình của Trường Cao đẳng nghề (Trang 36 - 38)

Thuật toán phân cụm dựa trên mật độ đóng vai trò quan trọng trong tìm kiếm cấu trúc phi tuyến tính dựa trên mật độ. Thuật toán phân cụm dựa trên không gian mật độ DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một giải thuật phân cụm dựa trên mật độ, được phát triển bởi Ester, Kriegel, Sander và Xu (1996) được sử dụng rộng rãi dựa trên mật độ. Nó dựa trên hai khái niệm khả năng tiếp cận mật độ và khả năng kết nối mật độ.

Khả năng tiếp cận mật độ: Một điểm p được gọi là mật độ truy cập từ một điểm q nếu p nằm trong khoảng cách ε từ điểm q và q có đủ số điểm lân cận với khoảng cách trong phạm vi ε.

Khả năng kết nối mật độ: Một điểm p và q được cho là kết nối mật độ nếu có tồn tại một điểm r trong đó có đủ số điểm trong lân cận và cả hai điểm p và q nằm trong khoảng cách ε. Nếu q là lân cận của r, r là lân cận của s, s là lân cận của t, t là lân cận của p có nghĩa là q là lân cận của p.

Hình 2.3. Hình dạng các cụm đƣợc khám phá bởi thuật toán DBSCAN

Các bước của thuật toán phân cụm dựa trên mật độ DBSCAN:

Cho tập hợp các điểm dữ liệu X={x1,x2,x3…xn}. DBSCAN yêu cầu hai tham số: ε và số lượng tối thiểu các điểm cần thiết để tạo thành một cụm

Bước 1: Bắt đầu với một điểm tùy ý không được kiểm tra.

Bước 2: Rút ra các lân cận của điểm này bằng cách sử dụng khoảng cách ε.

Bước 3: Nếu có đầy đủ các điểm lân cận xung quanh điểm này thì bắt đầu quá trình phân cụm và điểm được đánh dấu truy cập khác thời điểm này được dán nhãn như là nhiễu.

Bước 4: Nếu một điểm được tìm thấy là một phần của cụm thì lân cận ε của nó cũng là một phần của cụm và thủ tục trên từ bước 2 được lặp đi lặp lại cho tất cả các điểm lân cận ε. Điều này được lặp đi lặp lại cho đến khi tất cả các điểm trong cụm được xác định

Bước 5: Một điểm mới ghé thăm thường xuyên được lấy ra và xử lý, dẫn đến việc phát hiện ra một cụm hoặc nhiễu.

Bước 6: Quá trình này được thực hiện cho tới khi các điểm viếng thăm được đánh dấu.

Ngoài thuật toán DBSCAN ra, phân cụm dựa trên mật độ còn bao gồm 2 thuật toán khác như: Thuật toán OPTICS; Thuật toán DENCLUE.

Một phần của tài liệu Ứng dụng mạng Kohonen cho khảo sát, đánh giá, thống kê tình hình của Trường Cao đẳng nghề (Trang 36 - 38)