Phân cụm(Clustering) là nhiệm vụ nhóm những đối tƣợng của một CSDL thành những lớp con có ý nghĩa hoặc nhƣ một chuẩn riêng hoặc trong sự kết hợp với một vài thuật toán khai phá dữ liệu khác mà chúng hoạt động trên những cụm tìm ra.
Ứng dụng của phân cụm trong CSDL không gian là: ví dụ phát hiện dƣ chấn bởi nhóm những mục vào (entry) của một danh mục địa chấn, tiêu chuẩn của những bản đồ chuyên đề trong hệ thống thông tin địa lý bằng những cụm không gian đặc trƣng và phát hiện những cụm của những đối tƣợng trong hệ thống thông tin địa lý và giải nghĩa chúng bởi những đối tƣợng khác trong vùng lân cận. Một ứng dụng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
trừu tƣợng hơn CSDL không gian là cụm của một CSDL WWW-log để tìm ra những nhóm tƣơng tự với những mẫu truy cập cho một máy chủ Web mà nó có thể tƣơng ứng với những hiện trạng sử dụng khác nhau.
Ngoài ra, khai phá dữ liệu trong CSDL thế giới thực tạo ra một thách thức lớn cho vấn đề phân cụm. Những loại này của CSDL có thể mang tính động cao và hoặc những đối tƣợng có thể đƣợc định nghĩa bởi những kiểu dữ liệu khác thuộc tính số mà nó thƣờng không hiệu quả đối với những hƣớng giải quyết truyền thống.
Luận điểm này đóng góp vào lĩnh vực khai phá dữ liệu không gian, đặc biệt để thao tác phân cụm,
Ví dụ: Tự động nhóm những đối tƣợng của CSDL không gian thành những lớp con đầy ý nghĩa.
Bắt đầu từ phƣơng pháp phân cụm dựa vào mật độ của những đối tƣợng điểm, chúng ta phát triển một phƣơng pháp chung để phân tích một CSDL thành một tập những cụm thành phần giống nhau. Phƣơng pháp này có thể áp dụng những kiểu dữ liệu tùy ý một xác nhận nhị phân (vùng lân cận) xác nhận những đối tƣợng có tính đối xứng và một xác nhận cho phép ngƣời sử dụng xác định có hay không một tập đối tƣợng ó trọng số nhỏ nhất “minimum weight”.
Một hệ thống CSDL không gian là một hệ thống CSDL đƣa ra những kiểu dữ liệu không gian trong mô hình dữ liệu và ngôn ngữ truy vấn trong nó và đề nghị một thực thi hiệu quả của những kiểu dữ liệu với những phép toán và truy vấn trên chúng. Những phép toán điển hình trên những kiểu dữ liệu này đƣợc tính toán của khoảng cách hoặc giao nhau. Những loại truy vấn quan trọng nhƣ truy vấn vùng (region queries), chứa tất cả những đối tƣợng trong khoảng một vùng truy vấn định rõ, truy vấn k gần nhất(k-nearest neighbor(kNN)) chứa k đối tƣợng đóng đến những đối tƣợng truy vấn định rõ.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn