Chương 1: TỔNG QUAN VỀ TƯ LIỆU VIỄN THÁM VÀ GIS
1.2. Khái quát về GIS
1.2.3. Cấu trúc dữ liệu trong GIS
Cấu trúc dữ liệu đề cập đến cách thức tổ chức dữ liệu thành các file dữ liệu:
là cơ sở dữ liệu không gian và cơ sở dữ liệu thuộc tính. Mỗi loại có những đặc điểm riêng và chúng khác nhau về yêu cầu lưu giữ số liệu, hiệu quả, xử lý và hiển thị.
1.2.3.1 Cơ sở dữ liệu không gian
Cơ sở dữ liệu không gian chứa đựng các thông tin định vị của các đối tượng.
Chúng ta biết được vị trí, kích thước, hình dạng, sự phân bố …của các đối tượng.
Tất cả các đối tượng không gian đều có thể quy về 3 loại đối tượng sau đây: Đối tượng dạng điểm, đối tượng dạng đường và đối tượng dạng vùng. Trong cơ sở dữ liệu không gian người ta sử dụng hai dạng cấu trúc dữ liệu là: Cấu trúc dữ liệu Raster và cấu trúc dữ liệu vector.
1. Cấu trúc dữ liệu dạng Raster: Trong cấu trúc dữ liệu raster thực thể không gian được biểu diễn thông qua các ô (Cell) hay ô ảnh (pixel) của một lưới các ô. Có nhiều dạng ô lưới có thể được sử dụng như: lưới lục giác, lưới tam giác, nhưng lưới ô vuông là thông dụng nhất. Trong máy tính các ô này được lưu trữ dưới dạng ma trận trong đó mỗi ô là giao điểm của một hàng và một cột trong ma trận.
Trong cấu trúc này điểm được xác định bởi một pixel, đường được xác định bởi một chuỗi các ô có cùng thuộc tính kề nhau có hướng nào đó. Còn vùng được xác định bởi một số các pixel có cùng thuộc tính phủ trên một diện tích nào đó.
Biểu diễn Raster được xây dựng trên cơ sở hình học phẳng Ơclit mỗi pixel tương ứng một diện tích ô vuông nào đó trên thực tế. Độ lớn của cạnh ô vuông này còn gọi là độ phân giải của dữ liệu. Ô lưới này càng nhỏ thì độ phân giải càng cao và các đối tượng này càng được được biểu diễn chính xác. Dữ liệu Raster có dung lượng rất lớn nếu không có cách lưu trữ thích hợp. Người ta sử dụng nhiều phương pháp nén khác để làm cho các tệp dữ liệu ảnh trở nên nhỏ hơn, thông thường người ta sử các phương pháp như TIFF, RLE, JPEG,…
46
Hình 1.23 Hình học và topology của các đối tượng điểm, đường trong dữ liệu Raster
1. Cấu trúc dữ liệu dạng vector: trong cấu trúc dữ liệu dạng vector, thực thể không gian được biểu diễn sử dụng các đối tượng riêng biệt, có dạng điểm đường hay các vùng. Các đối tượng này được định nghĩa riêng trong các ứng dụng để quản lý và mã hoá đối tượng. Mỗi đối tượng có mã định danh riêng (bằng tên hay mã số).
Vị trí không gian của đối tượng được xác định bởi toạ độ (x,y) trong không gian 2D hoặc (x,y,z) trong không gian 3D trong một số hệ toạ độ thống nhất. Các dữ liệu thuộc tính của đối tượng được liên kết với các dữ liệu không gian thông qua một trường khoá.
Cột thứ I
Dòng Thứ j
Biểu diễn Topology
(i,j) = (6,1); (3,2); (5,5) Biểu diễn hình học
Cột thứ i
Dòng thứ j
(i,j) = ( 1,3);(2,2); (3,2);(4,3);(5,4); (6,5);(7,5);(8,4) Biểu diễn hình học
Biểu diễn ToPology
47
2. Các quan hệ không gian của dữ liệu địa lý : Các kiểu dữ liệu địa lý có hai kiểu quan hệ không gian phổ biến như sau:
+ Quan hệ Spaghetti (với dữ liệu vector): khi mỗi đối tượng địa lý được thể hiện bởi các hình học độc lâp, được biểu diễn bằng toạ độ hoặc bằng các phương trình tham số (đường thẳng, đường tròn, đường cong,...), ta nói các đối tượng đồ hoạ có quan hệ Spaghetti. Xảy ra điều này khi các đối tượng được tạo ra bằng cách số hoá thủ công các bản đồ trong đó các đường ranh giới chung của đa giác liền kề bị lại ít nhất hai lần và có thể lặp lại không chính xác. Điều đó dẫn đến dư thừa dữ liệu tốn bộ nhớ và các và các đường Polyline có thể vắt qua mà không cắt nhau thực sự.
Dữ liệu không gian trong quan hệ Spaghetti là một tập hợp các điểm và đường không có kết nối. Mỗi đối tượng độc lập với đối tượng liền kề nó. Các đối tượng chỉ có quan hệ hình học đơn thuần với vị trí, hình dạng và kích thước. Việc lưu trữ tìm kiếm trong dữ liệu này là tuần tự và rất mất thời gian. Quan hệ Spaghetti chỉ tồn tại ở những dữ liệu không gian làm sai quy cách.
+ Quan hệ Topology (với cả dữ liệu Raster và dữ liệu vector): Chúng ta đã biết các đối tượng không gian đều có thể được biểu diễn hình học quy về 3 dạng cơ bản có dạng điểm, dạng đường, hay dạng vùng. Để phân tích không gian trong GIS sẽ là không đầy đủ khi các đối tượng chỉ quan hệ hình học đơn thuần (Quan hệ Spaghetti) trong một hệ toạ độ nào đó cần phải có thêm một quan hệ khác và đó là quan hệ Topology. Topology là một ngành toán học nghiên cứu các tính chất hình học không đổi trong các biến đổi nhất định như giãn, uốn,…Topology đề cập tới các mối quan hệ chứa đựng (in), nằm trên (on), gần nhất (nearest),…hoặc tính tiếp nối, tính liên tục giữa các đối tượng không gian. Topology xác định các cấu trúc bổ sung, các nút (note), chuỗi (chain) và các đối tượng vùng (pologon).
Trong hình học chúng ta không xa lạ gì với khái niệm điểm (Point), đường (line, polyline), vùng (region, area). Tương ứng với các đối tượng điểm đường và vùng, trong hình học có các nút, chuỗi và vùng trong hình học topo.
48
1.2.3.2 Cơ sở dữ liệu thuộc tính
Cơ sở dữ liệu thuộc tính lưu chữ các số liệu mô tả các đặc trưng, tính chất,…của đối tượng nghiên cứu. Các thông tin này có thể là định tính hay định lượng. Chúng được lưu trữ trong máy tính như tập hợp các con số hay kí tự ở dạng văn bản hay bảng biểu. Thông thường dữ liệu thuộc tính là các thông tin chi tiết cho đối tượng hoặc số liệu thống kê cho các đối tượng. Dữ liệu thuộc tính chủ yếu được tổ chức thành dạng bảng dữ liệu, gồm có các cột dữ (trường dữ liệu): mỗi cột dữ liệu diễn đạt một trong nhiều thuộc tính của đối tượng và các hàng tương ứng với một bản ghi gồm toàn bộ nội dung thuộc tính của một đối tượng quản lý.
Trong các phần mềm máy tính việc mã hoá các dữ liệu thuộc tính được giải quyết dễ ràng. Hiện nay, các phần mềm GIS chủ yếu vẫn sử dụng mô hình dữ liệu quan hệ để quản lý thuộc tính ví dụ MapInfo, ArcInfo, ArcVeiw,…Các phần mềm GIS tuỳ thuộc vào loại dữ liệu mà chúng quản lý, thường cho phép các chức năng cho phép cập nhật, tổ chức dữ liệu. Với dữ liệu thuộc tính chúng ta có thể nhập trực tiếp từ các phần mềm GIS hoặc nhập từ các tệp dữ liệu của các phần mềm quản trị cơ sở dữ liệu khác. Với những cơ sở dữ liệu GIS vừa và lớn các dữ liệu thuộc tính được thu nhập và quản lý trong các hệ quản trị cơ sở dữ liệu như Foxpro, Microsoft Access, SQL Server,….hoặc trong bảng tính Excel. Trong những trường hợp này việc thiết cơ sở dữ liệu thuộc tính cần phải được tổ chức rất khoa học. Tuỳ thuộc vào mục tiêu và yêu cầu xây dựng hệ GIS để phục vụ cho những đối tượng khai thác nào, tuỳ thuộc vào khả năng kinh tế trước mắt và lâu dài cho dự án tuỳ thuộc vào các tiêu chuẩn quy định của các cơ quan, ban, ngành và các điều kiện dàng buộc khác, việc thiết kế bộ khung sườn cho cơ sở dữ liệu (các cơ sở dữ liệu con, các bảng dữ liệu cho từng dữ liệu con, các trường dữ liệu cho từng bảng, các loại dữ liệu, độ dài cho từng trường dữ liệu,…) cần phải được tiến hành khoa học và cẩn trọng tỷ mỷ. Các bảng biểu đó cần tiếp tục được chuẩn hoá, xác định các trường khoá liên kết dữ liệu hợp lý, để tạo quan hệ giữa các bảng biểu sao cho mạch lạc, ngắn gọn và đầy đủ thông tin, tránh lặp lại và dư thừa dữ liệu không cần thiết . Các bảng biểu được chuẩn hoá tốt sẽ giúp cho việc khai thác dữ liệu cho nhiều người sử dụng, khai thác dữ liệu cho nhiều lĩnh vực khác nhau.
49
Cũng cần thiết phải có kế hoạch sao lưu các cơ sở dữ liệu cả không gian và thuộc tính) theo các giai đoạn. Khi đó chúng ta vừa đảm bảo tránh mất dữ liệu do sự cố, lại vừa có cơ sở dữ liệu đa thời gian. Nghiên cứu, so sánh dữ liệu đa thời gian sẽ giúp chúng ta tìm ra biến động, xu hướng biến đổi của các đối tượng nghiên cứu Đây là một lợi thế rất lớn của cơ sở GIS mà các hệ cơ sở dữ liệu khác không có được. Trong GIS, dữ liệu thuộc tính được liên kết một – một với dữ liệu không gian, các dữ liệu không gian lại được tổ chức và quản lý trong một hệ thống lưới chiếu thống nhất, được tổ chức theo các lớp thông tin, được hiển thị đồng thời trên các thiết bị (như:màn hình máy tính,..) tuy theo nhu cầu của người sử dụng …Tất cả các điều đó sẽ đưa lại cho các nhà khai thác GIS một tầm nhìn tổng quan về đối tượng nghiên cứu không bị hạn chế về không gian (phạm vi có thể tới toàn cầu hoặc xa hơn), công cụ dễ sử dụng (bằng các phần mềm GIS chuyên dụng), lại hỗ trợ chồng xếp đa thời gian để so sánh trực quan ngay trên màn hình hoặc sử dụng các công cụ thống kê của phần mềm.