Thuật toán phân cụm dựa trên mật độ DBSCAN

Một phần của tài liệu (LUẬN văn THẠC sĩ) mạng nơ ron kohonen và ứng dụng phân loại sản phẩm (Trang 39 - 40)

Thuật toán phân cụm dựa trên mật độ đóng vai trò quan trọng trong tìm kiếm cấu trúc phi tuyến tính dựa trên mật độ. Thuật toán phân cụm dựa trên không gian mật độ DBSCAN được sử dụng rộng rãi dựa trên mật độ. Nó dựa trên hai khái niệm khả năng tiếp cận mật độ và khả năng kết nối mật độ.

Khả năng tiếp cận mật độ: Một điểm p được gọi là mật độ truy cập từ một điểm q nếu p nằm trong khoảng cách ε từ điểm q và q có đủ số điểm lân cận với khoảng cách trong phạm vi ε.

Khả năng kết nối mật độ: Một điểm p và q được cho là kết nối mật độ nếu có tồn tại một điểm r trong đó có đủ số điểm trong lân cận và cả

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

hai điểm p và q nằm trong khoảng cách ε. Nếu q là lân cận của r, r là lân cận của s, s là lân cận của t, t là lân cận của p có nghĩa là q là lân cận của p.

Các bước của thuật toán phân cụm dựa trên mật độ DBSCAN: Cho tập hợp các điểm dữ liệu X={x1,x2,x3…xn}. DBSCAN yêu cầu hai tham số: ε và số lượng tối thiểu các điểm cần thiết để tạo thành một cụm Bước 1: Bắt đầu với một điểm tùy ý không được kiểm tra.

Bước 2: Rút ra các lân cận của điểm này bằng cách sử dụng khoảng cách ε.

Bước 3: Nếu có đầy đủ các điểm lân cận xung quanh điểm này thì bắt đầu quá trình phân cụm và điểm được đánh dấu truy cập khác thời điểm này được dán nhãn như là nhiễu.

Bước 4: Nếu một điểm được tìm thấy là một phần của cụm thì lân cận ε của nó cũng là một phần của cụm và thủ tục trên từ bước 2 được lặp đi lặp lại cho tất cả các điểm lân cận ε. Điều này được lặp đi lặp lại cho đến khi tất cả các điểm trong cụm được xác định

Bước 5: Một điểm mới ghé thăm thường xuyên được lấy ra và xử lý, dẫn đến việc phát hiện ra một cụm hoặc nhiễu.

Bước 6: Quá trình này được thực hiện cho tới khi các điểm viếng thăm được đánh dấu.

Một phần của tài liệu (LUẬN văn THẠC sĩ) mạng nơ ron kohonen và ứng dụng phân loại sản phẩm (Trang 39 - 40)

Tải bản đầy đủ (PDF)

(74 trang)