- Phân loại có kiểm định:
b. Mô hình dữ liệu Raster
So với mô hình dữ liệu Vector, mô hình Raster có một số ưu điểm. Một trong những ưu điểm nổi trội là cấu trúc dữ liệu phù hợp cho thực hiện các phép tính đại số bản đồ và nhiều thuật toán phức tạp khác. Một số ưu điểm chính của dữ liệu Raster đã được khái quát hóa bao gồm:
- Cấu trúc dữ liệu đơn giản, thành phần cơ bản của bản đồ chỉ gồm Pixel.
- Vị trí của mỗi điểm được lưu đơn giản bằng tọa độ hàng và cột của ma trận số. - Phân tích không gian được thực hiện dễ dàng và thuận tiện.
- Dữ liệu Raster thích hợp cho mô hình hóa và tính toán định lượng.
- Các dữ liệu rời rạc (discrete data) và dữ liệu liên tục như độ cao có thể kết hợp dễ dàng.
- Dữ liệu Raster thích hợp với các thiết bị đầu ra như máy in (electrostatic plotters) và hiển thị dữ liệu đồ họa (graphic terminals).
- Nhiều dữ liệu số như ảnh vệ tinh, ảnh máy bay sẵn có và đa dạng, có khả năng cập nhật nhanh dữ liệu số này.
Cũng giống như dữ liệu Vector, dữ liệu Raster cũng tồn tại những mặt hạn chế. Một số mặt hạn chế đã được ghi nhận bao gồm:
- Độ phân giải của Pixel hạn chế khả năng mô tả chi tiết đối tượng.
- Rất khó hiển thị các đối tượng hình tuyến chính xác như đường giao thông, thủy văn.
- Xử lý dữ liệu thuộc tính là khó khăn trong trường hợp cơ sở dữ liệu lớn. Mỗi bản đồ Raster chỉ tương ứng với một thuộc tính nhất định.
- Hầu hết các dữ liệu đều tồn tại ở dạng Vector, để sử dụng dữ liệu Raster, ta cần thực hiện chuyển đổi dữ liệu sang dạng Raster.
- Các bản đồ Raster thường có màu sắc kém hấp dẫn và đẹp hơn dữ liệu Vector. - Chuyển đổi hệ tọa độ thực hiện khó khăn hơn dữ liệu Vector.
3.3.3. Mô hình cấu trúc cơ sở dữ liệu thuộc tính
Những nguyên lý của mô hình dữ liệu quan hệ (relational data model) do E F. Codd đề xuất từ thập kỷ 70 của thế kỷ 20 được áp dụng vào bảng dữ liệu thuộc tính trong GIS. Nền tảng lý thuyết của mô hình dữ liệu quan hệ là khái niệm lý thuyết tập hợp trên các quan hệ, tập của các bộ giá trị. Hiện nay, mô hình dữ liệu quan hệ được nghiên cứu nhiều nhất và thực tiễn đã chứng tỏ mô hình này có cơ sở lý thuyết vững chắc nhất. Mô hình dữ liệu quan hệ có nhiều ưu điểm như các dữ liệu được biểu diễn dưới một dạng duy nhất. Các quan hệ hay bảng giá trị khá tự nhiên và dễ hiểu với người sử dụng. Hơn nữa, các khái niệm được hình thức hóa cao, cho phép áp dụng công cụ toán học và các thuật toán. Mô hình dừng ở mức quan niệm, độc lập với mức vật lý với sự cài đặt, với các thiết bị.
Dữ liệu thuộc tính là các thông tin đi kèm với các dữ liệu không gian để mô tả về các đối tượng điểm, đường và vùng. Trong các hệ thống GIS, phần lớn các tệp tin dữ liệu thuộc tính được lưu thành các tệp tin riêng biệt với tệp tin dữ liệu không gian. Các tệp dữ liệu thuộc tính có thể được tạo ra trong các hệ quản trị cơ sở dữ liệu như Microsoft Access, ORACLE, Microsoft SQL Server. Nhiều phần mềm cơ sở dữ liệu này đều được xây dựng dựa trên nguyên lý của mô hình cơ sở dữ liệu quan hệ. Mô hình cơ sở dữ liệu quan hệ có thể coi như là mô hình chuẩn đầu tiên về cơ sở dữ liệu nói chung cũng như cơ sở dữ liệu địa lý nói riêng. Hiện nay, mô hình dữ liệu quan hệ được sử dụng rộng rãi nhất trên thế giới cho thiết kế các cơ sở dữ liệu trong máy tính nói chung và cơ sở dữ liệu địa lý nói riêng. Theo mô hình quan hệ, dữ liệu được tổ chức thành các bảng dữ liệu gồm hàng (bản ghi) và cột (trường). Hàng ghi tập thực thể dữ liệu và cột ghi lại các thuộc tính hay tính chất của thực thể dữ liệu. Các bảng dữ liệu có thể liên kết với nhau thành một cơ sở dữ liệu thống nhất. Như vậy, mô hình quan hệ rất linh hoạt và có thể đáp ứng cho lưu, truy vấn và phân tích dữ liệu.
Để hiểu về mô hình dữ liệu quan hệ, ta cần làm rõ các khái niệm cơ bản sau:
Quan hệ (thực thể dữ liệu): Một quan hệ là một thực thể dữ liệu xác định. Việc xác
định các thực thể dữ liệu là tùy thuộc vào từng lĩnh vực cụ thể. Ví dụ, thửa đất, chủ sử dụng và đăng ký là các thực thể dữ liệu trong xây dựng cơ sở dữ liệu địa chính phục vụ quản lý nhà nước về đất đai. Các thực thể dữ liệu có thể là trực quan và đo lường được như thửa đất và chủ sử dụng. Tuy nhiên, nhiều thực thể dữ liệu là những khái niệm trừu tượng như độ phì nhiêu của đất.
Các thuộc tính của quan hệ: Mỗi thực thể dữ liệu được mô tả bởi tập các thuộc tính.
Số các thuộc tính của thực thể dữ liệu cho từng ứng dụng có sự khác nhau. Thuộc tính là các đặc điểm riêng của một đối tượng, mỗi thuộc tính có một tên gọi và phải thuộc về một kiểu dữ liệu nhất định. Các thuộc tính được phân biệt qua tên gọi và phải thuộc một kiểu dữ liệu nhất định. Các kiểu dữ liệu bao gồm số, chuỗi, ngày tháng, logic, hình ảnh,…. Kiểu dữ liệu ở đây có thể là kiểu vô hướng hoặc là kiểu có cấu trúc. Nếu thuộc tính có kiểu dữ liệu là vô hướng thì nó được gọi là thuộc tính đơn hay thuộc tính nguyên tố, nếu thuộc tính có kiểu dữ liệu có cấu trúc thì ta nói rằng nó không phải là thuộc tính nguyên tố. Ví dụ, chủ sử dụng đất thì các thuộc tính họ và tên thuộc kiểu chuỗi, thuộc tính ngày
sinh thuộc kiểu ngày tháng, hộ khẩu thường trú kiểu chuỗi, thuộc tính hình ảnh kiểu hình ảnh,… Mỗi thuộc tính có miền giá trị (Domain of values) nhất định. Mỗi thuộc tính chọn giá trị trong một tập con của kiểu dữ liệu và tập hợp con đó gọi là miền giá trị của thuộc tính đó. Ví dụ, thuộc tính giới miền giá trị là nam và nữ; thuộc tính điểm thi là các số thuộc tập là 0, 1, 2,…,10. Tên thuộc tính nên đặt một cách gợi nhớ, không nên đặt tên thuộc tính quá dài. Trong nhiều hệ quản trị cơ sở dữ liệu, người ta thường đưa thêm vào miền giá trị của các thuộc tính một giá trị đặc biệt gọi là giá trị rỗng (Null). Tuỳ theo ngữ cảnh mà giá trị này có thể đặc trưng cho một giá trị không thể xác định được hoặc một giá trị chưa được xác định ở vào thời điểm nhập tin nhưng có thể được xác định vào một thời điểm khác.
Lược đồ quan hệ: Tập tất cả các thuộc tính cần quản lý của một đối tượng cùng với
các mối liên hệ giữa chúng được gọi là lược đồ quan hệ. Giả sử gọi Q là quan hệ, Ai là các thuộc tính, ta có thể biểu diễn lược đồ quan hệ Q. Lược đồ quan hệ Q với tập thuộc tính {A1, A2,...,An} được viết là Q (A1,A2,...,An).
Quan hệ/bảng: Quan hệ là sự mô tả thực thể dữ liệu và các thuộc tính của chúng
dưới dạng cấu trúc bảng gồm hàng và cột (thông thường ta gọi là bản ghi và trường). Mỗi thực thể dữ liệu tạo thành một bảng duy nhất. Tên thực thể là tên bảng, các thuộc tính thực thể tương ứng với tên các trường của bảng. Mỗi bảng có trường khóa chính (Primary key), khóa ngoại (Foreign key) và trường thuộc tính. Mỗi thực thể có duy nhất một trường khóa chính và một hay một số trường khóa ngoại. Trường khóa chính nhằm định danh các phần tử của tập thực thể. Các phần tử chính là các bản ghi trong bảng dữ liệu và có số định danh duy nhất. Trường khóa ngoại nhằm liên kết hai thực thể dữ liệu với nhau. Trường khóa ngoại của một bảng là trường khóa chính của bảng có quan hệ với nó.
Quá trình phân tích và xây dựng dữ liệu thuộc tính trong GIS có thể thực hiện các nội dung cơ bản sau: Điều tra, thu thập dữ liệu; định nghĩa thực thể dữ liệu và thuộc tính; xác định quan hệ giữa các thực thể dữ liệu; lập lược đồ thực thể dữ liệu và chuyển lược đồ thực thể dữ liệu thành bảng dữ liệu thuộc tính.
Điều tra, quan sát, thu thập dữ liệu của tổ chức: Tiến hành liệt kê các hồ sơ, sổ sách,
tệp dữ liệu của tổ chức: Bước này là cơ sở để định hình các thực thể dữ liệu dự định xây dựng các tệp tin dữ liệu dạng bảng. Các tệp tin dữ liệu liên kết với nhau theo cấu trúc sẽ hình thành cơ sở dữ liệu. Ví dụ, để xây dựng cơ sở dữ liệu địa chính, ta cần thu thập bản đồ địa chính, các bản đồ có liên quan, hồ sơ địa chính gồm sổ địa chính, sổ mục kê, sổ cấp giấy chứng nhận quyền sử dụng đất, sổ theo dõi biến động đất đai. Các loại bản đồ và hồ sơ này sẽ là cơ sở để xác định các thực thể dữ liệu cho mô hình dữ liệu quan hệ phục vụ quản lý đất đai.
Xác định thực thể dữ liệu và thuộc tính thực thể dữ liệu: Một thực thể là một lớp đối tượng cụ thể hoặc trừu tượng của thế giới thực. Mỗi thực thể gồm nhiều phần tử giống như tập hợp. Các phần tử trong một thực thể tồn tại khách quan và độc lập tương đối lẫn nhau. Một thực thể được nhận diện bằng một số các đặc trưng của nó gọi là thuộc tính. Như vậy thuộc tính (Attribute) là các yếu tố thông tin cụ thể để nhận biết một thực thể. Mỗi tập thực thể được đặc trưng bởi một tên và danh sách các thuộc tính của nó. Người ta dùng một trong các ký hiệu sau để mô tả một tập thực thể.
Xác định mối quan hệ giữa các thực thể dữ liệu: Mối quan hệ là sự mô tả sự liên hệ
nhau. Mối quan hệ giữa các tập thực thể có thể là một mối quan hệ sở hữu hoặc phụ thuộc hoặc mô tả sự tương tác giữa chúng. Quan hệ giữa hai thực thể dữ liệu có thể là đơn-đơn (1-1), đơn-đa (1-n), đa-đa (n-n). Quan hệ 1-1 là quan hệ một phần tử của tâp thực thể A tương ứng với một phần tử của thực thể dữ liệu B và ngược lại. Quan hệ 1-n là quan hệ một phần tử thực thể dữ liệu A tương ứng với nhiều phần tử của thực thể dữ liệu B và một phần tử của thực thể dữ liệu B tương tứng với một phần tử thực thể dữ liệu A. Quan hệ n- n là quan hệ một phần tử của thực thể dữ liệu A tương ứng với nhiều phần tử của thực thể dữ liệu B và ngược lại.
Lập lược đồ thực thể dữ liệu: Biểu đồ thực thể quan hệ mô tả các thực thể dữ liệu,
thuộc tính và các quan hệ giữa các thực thể dữ liệu. Mỗi biểu đồ thực thể dữ liệu thường được lập cho một cơ sở dữ liệu nhất định.
Chuyển biểu đồ thực thể dữ liệu sang mô hình dữ liệu quan hệ: Trên cơ sở lược đồ
thực thể dữ liệu được thiết lập ở bước trên, ta sẽ chuyển đổi lược đồ thực thể dữ liệu thành bảng dữ liệu quan hệ. Mỗi thực thể dữ liệu sẽ tương ứng với một bảng dữ liệu. Ví dụ, thực thể dữ liệu thửa đất sẽ lập bảng dữ liệu quan hệ có tên là bảng dữ liệu thửa đất. Mỗi thuộc tính của một thực thể dữ liệu sẽ chuyển thành cột tương ứng của bảng dữ liệu. Trong số các thuộc tính của thực thể, chọn một thuộc tính làm tên định danh (ID) gọi là khóa chính (Key primary). Mối quan hệ giữa hai thực thể dữ liệu làm cơ sở để thiết lập trường khóa ngoại của bằng thuộc tính (Foreign key).
Chương 4. NHẬP VÀ PHÂN TÍCH DỮ LIỆU TRONG GIS 4.1. Nhập dữ liệu và biên tập dữ liệu
4.1.1. Nhập dữ liệu