CHƢƠNG 1 MỞ ĐẦU
2.3. Khai phá dữ liệu không gian
2.3.2. Kho dữ liệu không gian vàcác chiều dữ liệu
Cũng như dữ liệu quan hệ, chúng ta có thể tích hợp dữ liệu không gian để xây dựng một kho dữ liệu tạo điều kiện khai thác dữ liệu không gian. Kho dữ liệu không gian là một tuyển tập có định hướng chủ đề, được tích hợp, kèm theo và bền vững với thời gian của cả hai loại dữ liệu không gian và phi không gian hỗ trợ khai phá dữ liệu không gian và ra quyết định trong các bài toán liên quan tới dữ liệu không gian. Sau đây là một số ví dụ.
Ví dụ: Có khoảng 3.000 trạm quan trắc thời tiết phân bố tại British Columbia (BC),
Canada, mỗi trạm ghi nhiệt độ hàng ngày và lượng mưa cho một khu vực nhỏ và truyền dữ liệu đến một trạm thời tiết của tỉnh. Với một kho dữ liệu không gian (spatial data warehouse- SDW) hỗ trợ xử lý phân tích trực tuyến không gian (spatial OLAP), người dùng có thể xem được các thông tin về thời tiết trên bản đồ theo tháng, theo từng khu vực, cùng với sự kết hợp khác nhau của nhiệt độ và lượng mưa, và có thể thực hiện các thao tác của OLAP như tự động “khoan xuống” (drill down) hoặc “cuộn lên” (roll up) theo bất kỳ chiều nào để khám phá các mô hình mong muốn,chẳng hạn như: "khu vực ẩm ướt và nóng ở thung lũng Fraser trong mùa hè năm 1999."
Có nhiều vấn đề thách thức liên quan đến việc xây dựng và sử dụng kho dữ liệu không gian.
Thách thức đầu tiên là sự tích hợp dữ liệu không gian từ các nguồn và các hệ thống không đồng nhất. Dữ liệu không gian thường được lưu trữ trong các công ty thuộc các ngành công nghiệp khác nhau và các cơ quan chính phủ sử dụng các định dạng dữ liệu khác nhau. Định dạng dữ liệu không chỉ chuyên biệt về cấu trúc (ví dụ, dữ liệu không gian dựa trên véc tơ hay raster, mô hình hướng đối tượng so với mô hình quan hệ, sự khác nhau về cách thức lưu trữ và lập chỉ mục), mà còn chuyên biệt về nhà cung cấp (ví dụ, ESRI, MapInfo, Intergraph) . Hiện đã có rất nhiều công việc về kết hợp và trao đổi dữ liệu không gian không đồng nhất, đã mở đường cho tích hợp dữ liệu không gian và xây dựng kho dữ liệu không gian.
Thách thức thứ hai là việc thực hiện các xử lý phân tích trực tuyến nhanh và linh hoạt trong các kho dữ liệu không gian. Mô hình giản đồ sao [HK06] là một lựa chọn tốt cho việc mô hình hóa các kho dữ liệu không gian bởi vì nó cung cấp một cấu trúc kho súc tích và có tổ chức và tạo điều kiện hoạt động OLAP. Tuy nhiên, trong một kho dữ liệu không gian, cả các chiều và các độ đo đều có thể chứa các thành phần không gian.
Có 3 kiểu chiều dữ liệu trong một khối dữ liệu không gian [HK06]:
Chiều phi không gian chỉ chứa dữ liệu phi không gian. Các chiều phi không gian như “Nhiệt độ” và “Lượng mưa” có thể được xây dựng cho kho dữ liệu không gian ở ví dụ trên vì mỗi chiều đều chứa dữ liệu phi không gian mà các khái quát hóa của chúng là phi không gian (ví dụ như “nóng” đối với “nhiệt độ” và “ẩm” cho “lượng mưa”).
Chiều không gian- phi không gian (spatial-to-nonspatial dimension): là chiều mà dữ liệu mức nguyên thủy là dữ liệu không gian, nhưng mức khái quát ở một cấp độ nào đó lại trở thành phi không gian. Ví dụ: chiều “city” biểu thị dữ liệu
địa lý trên bản đồ của nước Mỹ, và giả sử rằng biểu diễn không gian của chiều này, chẳng hạn “Seattle” được khái quát hóa thành chuỗi “Tây Bắc Thái Bình Dương”. Mặc dù Tây Bắc Thái Bình Dương là một khái niệm không gian, nhưng biểu diễn của nó ở dạng chuỗi ký tự lại là phi không gian. Nó đóng vai trò của một chiều phi không gian.
Chiều không gian- không gian (spatial-to-spatial dimension): là chiều mà dữ liệu mức nguyên thủy và toàn bộ các khái quát hóa ở mức cao hơn đều là không gian. Ví dụ, chiều “vùng nhiệt độ cân bằng” chứa dữ liệu không gian, và mức khái quát hóa của nó như các vùng bao phủ “0-5 độ C”, “5-10 độ C”…
Chúng ta phân biệt 2 loại độ đo sử dụng trong khối dữ liệu không gian:
Độ đo dạng số: chỉ chứa dữ liệu số. Ví dụ, một độ đo trong một kho dữ liệu không gian có thể là “doanh thu hàng tháng” của một khu vực, khi đó, thao tác “cuộn lên” có thể tính toán tổng doanh thu theo năm, của quận…
Độ đo không gian: chứa các tập con trỏ tham chiếu tới các đối tượng không gian. Ví dụ, trong một thao tác “cuộn lên” trong khối dữ liệu không gian ở ví dụ trên, các vùng với cùng dải nhiệt độ và lượng mưa sẽ được nhóm vào cùng một cell trong khối, và độ đo này chứa một tập các con trỏ tham chiếu đến những vùng trên.