Minh họa thuật toán k-means

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM (Trang 42 - 43)

Dễ thấy độ phức tạp cuả thuật toán này là O(tKn). Trong đó n là số điểm hay mẫu dữ liệu trong CSDL, K là số lượng cụm cần phân hoạch, t là số lần lặp. Thông thường t, K << n nên thuật toán này có hiệu quả tương đối với các CSDL lớn. Thuật toán này có ưu điểm là rõ ràng, dễ cài đặt. Nhưng nhược điểm của thuật toán này là phải chỉ ra số lượng cụm và yêu cầu CSDL cần phân nhóm phải xác định được tâm.

Thuật toán này cũng không phù hợp với việc khai phá các dữ liệu gồm các cụm có hình dạng không lồi (non-convex). Có thể đưa thêm nhiều cải tiến vào k-mean để được thuật toán hiệu quả hơn, như thay đổi cách chọn các mẫu khởi đầu, cách tính tiêu chuẩn,...

Các thuật toán được phát triển sau này như k-medoids, CLARANS,..đều là sự cải tiến của thuật toán k-means.

3.1.2. Phân cụm phân cấp

Phương pháp phân cấp tạo ra một phân rã của tập đối tượng dữ liệu dưới dạng cây (dendrogram, theo Hy Lạp thì dendron là “cây”, gramma là “vẽ”), trong đó chia đệ quy cơ sở dữ liệu thành các tập con nhỏ hơn, để minh họa trật tự các cụm được sinh ra. Cây có thể biểu diễn dưới 2 dạng là bottom-uptop-down.

Tiếp cận bottom-up hay còn gọi là tiếp cận hội tụ (agglomerative), bắt đầu với mỗi đối tượng thành lập một cụm riêng biệt. Sau đó tiến hành hợp hoặc nhóm các đối tượng theo một vài tiêu chí đo như khoảng cách giữa trung tâm của 2 nhóm. Thuật toán kết thúc khi tất cả các nhóm được hợp thành một nhóm (nút gốc của cây) hoặc thỏa mãn điều kiện dừng.

Còn tiếp cận top-down được gọi là tiếp cận phân chia (divisive), bắt đầu coi tất cả các đối tượng trong một cụm. Tại mỗi bước lặp thì cụm được phân chia thành cụm nhỏ hơn theo tiêu chí nào đó. Việc phân chia dừng khi mỗi đối tượng là một cụm hoặc thỏa mãn điều kiện dừng.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM (Trang 42 - 43)

Tải bản đầy đủ (PDF)

(86 trang)