Phõn cụm (clustering) là nhiệm vụ nhúm những đối tượng của một CSDL thành những lớp con cú ý nghĩa hoặc như một chuẩn riờng hoặc trong sự kết hợp với một vài thuật toỏn khai phỏ dữ liệu khỏc mà chỳng hoạt động trờn những cụm tỡm ra.
Ứng dụng của phõn cụm trong CSDL khụng gian là: vớ dụ phỏt hiện dư chấn bởi nhúm những mục vào (entry) của một danh mục địa chấn [4], tiờu chuẩn của những bản đồ chuyờn đề trong hệ thống thụng tin địa lý bằng những cụm khụng gian đặc trưng và phỏt hiện những cụm của những đối tượng trong hệ thống thụng tin địa lý và giải nghĩa chỳng bởi những đối tượng khỏc trong vựng lõn cận. Một ứng dụng trừu tượng hơn CSDL khụng gian là cụm của một CSDL WWW-log để tỡm ra những nhúm tương tự với những mẫu truy cập cho một mỏy chủ Web mà nú cú thể tương ứng với những hiện trạng sử dụng khỏc nhau.
Ngoài ra, khai phỏ dữ iệu trong CSDL thế giới thực tạo ra một thỏch thức lớn cho vấn đề phõn cụm. Những loại này của CSDL cú thể mang tớnh động cao 9
và/hoặc những đối tượng cú thể được định nghĩa bởi những kiểu dữ liệu khỏc thuộc tớnh số mà nú thường khụng hiệu quả đối với những hướng giải quyết truyền thống.
Luận điểm này đúng gúp vào lĩnh vực khai phỏ dữ liệu khụng gian, đặc biệt để thao tỏc phõn cụm, vớ dụ: tự động nhúm những đối tượng của CSDL khụng gian thành những lớp con đầy ý nghĩa. Bắt đầu từ phương phỏp phõn cụm dựa vào mật độ của những đối tượng điểm [10], chỳng ta phỏt triển một phương phỏp chung để phõn tớch một CSDL thành một tập những cụm thành phần giống nhau. Phương phỏp này cú thể ỏp dụng những kiểu dữ liệu tựy ý một xỏc nhận nhị phõn (vựng lõn cận) xỏc nhận những đối tượng cú tớnh đối xứng và một xỏc nhận cho phộp người sử dụng xỏc định cú hay khụng một tập đối tượng ú trọng số nhỏ nhất “minimum weight”.
Một hệ thống CSDL khụng gian là một hệ thống CSDL đưa ra những kiểu dữ liệu khụng gian trong mụ hỡnh dữ liệu và ngụn ngữ truy vấn trong nú và đề nghị một thực thi hiệu quả của những kiểu dữ liệu với những phộp toỏn và truy vấn trờn chỳng [12]. Những phộp toỏn điển hỡnh trờn những kiểu dữ liệu này được tớnh toỏn của khoảng cỏch hoặc giao nhau. Những loại truy vấn quan trọng như truy vấn vựng (region queries), chứa tất cả những đối tượng trong khoảng một vựng truy vấn định rừ, truy vấn k lỏng giềng gần nhất( k-nearest neighbor
Teslic a) Teslic R1 R2 b) Chương 2. MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TèM KIẾM TRONG CƠ SỞ DỮ LIỆU KHễNG GIAN
Phần lớn dữ liệu địa lý liờn quan đến khụng gian và thời gian. Dữ liệu loại này cũn được gọi là dữ liệu n chiều, xuất phỏt từ thực tế là dữ liệu cú cỏc thuộc tớnh trong khụng gian n chiều. Thớ dụ, khụng gian cú hai hay ba chiều, khụng gian-thời gian cú 4 chiều (cỏc trục x, y, z, t). Ta sẽ nghiờn cứu kỹ thuật biểu diễn thụng tin n chiều.
Phần lớn cỏc kỹ thuật lưu trữ dữ liệu n-chiều đều sử dụng việc tỏch “phõn cấp” khụng gian và được biểu diễn bởi cỏc cõy. Gốc cõy biểu diễn toàn bộ vựng. Nỳt biểu diễn vựng, cành biểu diễn việc phõn hoạch vựng ra tiểu vựng.
Cú nhiều cấu trỳc dữ liệu khỏc nhau được sử dụng để biểu diễn việc tỏch phõn cấp vựng. Ta sẽ nghiờn cứu cõy k-d, cõy tứ phõn điểm, cõy tứ phõn MX và cõy R. Mỗi chỳng thực hiện tỏch khụng gian theo cỏch khỏc nhau và cú ưu điểm và nhược điểm riờng.