Thuật toán DBSCAN

Một phần của tài liệu GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH TRẠNG KẸT XE (Trang 33)

2. CÁC KHÁI NIỆM, LÝ THUYẾT CƠ SỞ LIÊN QUAN, PHƯƠNG PHÁP

2.1.2.7Thuật toán DBSCAN

• Thuật toán DBSCAN gồm các bước sau:

Bước 1: Chọn một điểm p bất kỳ thuộc không gian dữ liệu D.

Bước 2: Tìm tập P gồm tất cả các điểm liên thông mật độ từ p với ngưỡng bán kính Eps và ngưỡng mật độ min Pts. Bước 3: Nếu p là một điểm hạt nhân thì :

a. P chính là một cụm cần tìm. b. D = D \ P (loại P ra khỏi D).

Bước 4: Quay lại bước 1 cho đến khi tất cả các điểm trong D đều đã được xét.

Bước 5: Các điểm đã xét nhưng không thuộc cụm nào thì chính là các mẫu cá biệt.

• Ưu, nhược điểm của thuật toán DBSCAN:

Ưu điểm: Tìm được các cụm có hình dạng bất kỳ do nhiễu hoặc mẫu cá biệt gay ra.

Nhược điểm:

- Khó chọn được các ngưỡng Eps và min Pts tốt. Do đó kết quả gom cụm không tốt khi mật độ trong các cụm tự nhiên là chênh lệch rất nhiều.

- Một điểm yếu nữa là không phù hợp cho yêu cầu phân cấp cụm mà chỉ đáp ứng nhu cầu phân hoạch.

Bán kính lân cận và ngưỡng trù mật là các tham số quyết định đến kết qủa gom cụm. Để có kết quả gom cụm tốt : Có thể thử với một số bộ tham số và chọn ra kết quả tối ưu. Để tạo cây phân cấp cụm thì có thể áp dụng chiến lược phân giải tăng dần như sau :

1. Đầu tiên chọn bán kính lân cận và ngưỡng trù mật thô (Eps lớn và min Pts nhỏ).

2. Chọn cụm có độ phân biệt lớn nhất (thông qua ma trận phân biệt của cụm hoặc một tiêu chí đánh giá tuỳ thuộc vào nhu cầu ứng dụng). Cụm được chọn ở bước này sẽ tạo thành một nút của cây phân cấp.

3. Phân hoạch cụm được chọn bằng thuật toán DBSCAN.

4. Nếu tất cả các cụm tạo được đều có độ phân biệt nội tại đủ thấp hoặc đã đạt được số cụm cần thiết thì dừng. Các cụm còn lại tại thời điểm kết thúc thuật toán tạo thành các nút lá của cây phân cấp.

5. Giảm bán kính lân cận và tăng ngưỡng trù mật. Mức độ điều chỉnh tuỳ thuộc bản chất dữ liệu và nhu cầu gom cụm.

6. Quay lại bước 2.

Đặc điểm của phương pháp tạo cây phân cấp cụm dựa trên thuật toán DBSCAN có thể tạo cây đa phân.

Các thuật toán khác theo hướng tiếp cận dựa trên mật độ như OPTICS, DENCLUE.

(a) Basic configuration (b) k-means

(c) Bottom-up and DBScan (d) Dendrogram

Hình 13 Thể hiện sự gom cụm bằng K-Means , DBScan.

Một phần của tài liệu GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH TRẠNG KẸT XE (Trang 33)