Giới thiệu thuật toán CLARANS

Một phần của tài liệu Khai phá dữ liệu với hệ thông tin địa lý và ứng dụng (Trang 25 - 26)

- Kết hợp cả bốn trường hợp trên, tổng giá trị hoán chuyển O m bằng

2.3.1. Giới thiệu thuật toán CLARANS

Thuật toán k-means và k-medoids thường thực hiện với CSDL vừa và nhỏ, chỉ khoảng vài trăm đến vài nghìn đối tượng. Do yêu cầu của việc phân

cụm dữ liệu không gian ngày càng lớn, năm 1994 Raymond T.Ng và Jiawei Han đã đưa ra một thuật toán phân cụm theo kiểu k-medoids nhằm để cải tiến chất lượng cũng như mở rộng áp dụng cho tập dữ liệu lớn hiệu quả hơn các thuật toán trước đó. Thuật toán này có tên là CLARANS (Clustering Large Applications based on RANdomized Search) [1], [8], [10], [11].

CLARANS phân cụm dựa trên việc tìm kiếm ngẫu nhiên các tập gồm k đối tượng để làm tâm của k cụm. Tại mỗi bước tìm kiếm sẽ xác định được độ tốt của nó và giữ lại kết quả tìm kiếm tốt nhất.

CLARANS được coi là thuật toán có thể khắc phục được các nhược điểm của phương pháp CLARA. Không giống với CLARA, CLARANS không bó buộc một tập mẫu cố định mà nó lấy ngẫu nhiên trong quá trình thực hiện. Ta có thể coi quá trình phân cụm trong CLARANS giống như việc tìm kiếm trong đồ thị với mỗi đỉnh được coi là một tập kết quả tiềm năng.

Ý tưởng cơ bản của CLARANS là không xem xét tất cả các khả năng có thể thay thế các đối tượng tâm medoids bởi một đối tượng khác, nó ngay lập tức thay thế các đối tượng medoid này nếu việc thay thế có tác động tốt đến chất lượng phân cụm chứ không cần xác định cách thay thế tối ưu nhất. Một phân hoạch cụm phát hiện được sau khi thay thế đối tượng trung tâm được gọi là một láng giềng của phân hoạch cụm trước đó. Số các láng giềng được hạn chế bởi tham số do người dùng đưa vào là Maxneighbor, quá trình lựa chọn các láng giềng này là hoàn toàn ngẫu nhiên. Tham số Numlocal

cho phép người dùng xác định số vòng lặp tối ưu cục bộ được tìm kiếm. Không phải tất các láng giềng được duyệt mà chỉ có Maxneighbor số láng giềng được duyệt.

Một phần của tài liệu Khai phá dữ liệu với hệ thông tin địa lý và ứng dụng (Trang 25 - 26)

Tải bản đầy đủ (PDF)

(85 trang)