7. Bố cục của luận văn
1.2.2 Cơ sở dữ liệu không gian
Cơ sở dữ liệu không gian là cơ sở dữ liệu có chứa trong nó những thông tin về định vị của đối tƣợng. Nó là những dữ liệu phản ánh, thể hiện những đối tƣợng có kích thƣớc vật lý nhất định. Nếu là những cơ sở dữ liệu không gian địa lý thì đó là những dữ liệu phản ánh những đối tƣợng có trên bề mặt hoặc ở trong vỏ quả đất.
Từ góc độ công nghệ thông tin địa lí, đó là những yếu tố không gian địa lí đƣợc phản ánh trên bản đồ bằng những kiểu cấu trúc dữ liệu nhất định. Tuy nhiên cơ sở dữ liệu không gian không đơn thuần là sự mô tả địa chỉ của một khu dân cƣ mà chúng ta nên hiểu rằng khu dân cƣ đó chính là một cơ sở dữ liệu không gian. Dữ liệu không gian có ba dạng cơ bản là điểm, đƣờng và vùng.
Vị trí đối tƣợng: Trong khi tạo dựng dữ liệu chúng ta luôn phải trả lời câu hỏi
cái này ở đâu? Vị trí của nó ở chỗ nào trong hệ quy chiếu đã chọn, … vì vậy việc xác định vị trí các đối tƣợng là hết sức cần thiết.
Đặc trƣng của đối tƣợng: Đây chính là mô tả thuộc tính của đối tƣợng và máy
tính có thể hiểu đƣợc nhờ mã hóa chúng theo các mức dữ liệu và các giá trị số khác nhau.
Mối quan hệ của các đối tƣợng: Các đối tƣợng nghiên cứu chuyên ngành luôn
26
chúng. Đây là một yếu tố rất quan trọng và có thể là yếu tố then chốt trong công nghệ thông tin địa lý và cũng là sự khác nhau cơ bản giữa hệ thông tin địa lý hiện đại và các hệ xử lý đồ thị khác.
Tất cả các yếu tố đối tƣợng trong hệ thông tin địa lý đều có thể đƣợc mô tả theo hai kiểu cấu trúc dữ liệu Raster hoặc Vector.
1.2.2.1 Cấu trúc dữ liệu Raster
Đây là cấu trúc dữ liệu mà trong đó dữ liệu đƣợc thể hiện thành một mảng gồm các pixel và mỗi pixel đều mang giá trị của thông số đặc trƣng cho đối tƣợng. Một khu vực trên bản đồ đƣợc biểu thị ở dạng số bằng cách lƣu giữ vị trí (tọa độ tâm điểm của chúng), kích thƣớc và đặc tính tƣơng ứng của đối tƣợng thuộc pixel đó. Mỗi pixel sẽ tƣơng ứng với một diện tích vuông trên thực tế. Giá trị độ lớn của pixel còn đƣợc gọi là độ phân giải của dữ liệu. Hình vuông là dạng pixel phổ biến nhất, sau đó là hình chữ nhật.
Hình 1.6 Minh họa thông tin Raster
Đối với một file dữ liệu dạng Raster, cần có một file chứa các thông tin về cấu trúc của dữ liệu, gọi là Header file. Thông thƣờng khi lƣu trữ cũng nhƣ biểu diễn thông tin theo dạng cấu trúc Raster thì ngƣời ta hay sử dụng thuật toán mã hóa nhị phân, tức là những thông tin biểu diễn đều đƣợc gán mã là 1, còn phần trống sẽ đƣợc gán mã là 0 hoặc ngƣợc lại. Trong cấu trúc dữ liệu Raster các đối tƣợng cơ bản đƣợc biểu diễn là:
Đối tượng điểm: Điểm đƣợc xác định tƣơng ứng với một pixel độc lập, trong
27
Hình 1.7 Yếu tố hình học và topology của đối tƣợng điểm
Đối tượng đường: Đƣợc coi là tập hợp các pixel liên tiếp nhau có cùng giá trị.
Hình 1.8 Yếu tố hình học và topology của đối tƣợng đƣờng
Đối tượng vùng: Vùng đƣợc xác định bởi một tập hợp các pixel có cùng giá trị
liên tục nhau theo các hƣớng.
Hình 1.9 Yếu tố hình học và topology của đối tƣợng vùng
1.2.2.2 Cấu trúc dữ liệu Vector
Cấu trúc dữ liệu Viector là cấu trúc dữ liệu dựa trên tọa độ các điểm để biểu diễn các đối tƣợng qua ba yếu tố cơ bản là điểm, đƣờng, vùng. Cấu trúc dữ liệu Vector mô tả chính xác vị trí và mối quan hệ không gian của các đối tƣợng và hiện tƣợng. Xét về mặt toán học, Vector là cách biểu diễn một đoạn thẳng có hƣớng và có độ dài nhất định.
Đối tượng điểm (Point): điểm trong cấu trúc dữ liệu Vector đƣợc mô tả bởi cặp
tọa độ (X,Y) trong một hệ thống tọa độ nhất định. Đi theo giá trị tọa độ X, Y của điểm còn có chỉ số cụ thể để mô tả đặc tính của điểm. Đối tƣợng điểm có đặc trƣng: là tọa độ đơn (X,Y), không thể hiện chiều dài và diện tích.
28
Hình 1.10 Dữ liệu vector đƣợc biểu thị dƣới dạng điểm
Đối tượng đường (Line): về mặt lý thuyết đƣờng là tập hợp vô số các điểm liên
tiếp mô tả các đối tƣợng địa lí dạng tuyến. Trong cấu trúc dữ liệu Vector thƣờng mô tả đƣờng là tập hợp các cung, mỗi cung là tập hợp của các đoạn thẳng nhỏ nối giữa các điểm kề nhau đã đƣợc chọn. Số liệu định vị của các yếu tố đƣờng đƣợc lƣu trong máy tính dƣới dạng tập hợp các cặp tọa độ, trong đó các cặp tọa độ đặc trƣng cho điểm thuộc đƣờng đó. Với một đƣờng thẳng ta có thể lƣu giữ tọa độ của hai điểm đầu và cuối, nhƣng với một đƣờng cong số lƣợng điểm lƣu trữ rất lớn. Muốn giảm bớt số lƣợng ô nhớ khi lƣu trữ đƣờng cong thì đoạn thẳng giữa các điểm lƣu trữ có thể sắp đặt lại theo các dạng của cung cong. Khi đó phải chỉ ra cách tạo dựng đƣờng cùng các đặc điểm đƣợc lƣu trữ, phải chỉ rõ các kiểu đƣờng. Đối với từng kiểu đƣờng có nhiều nét chung nhau cần đặt ra những quy tắc lƣu trữ hợp lí. Đối tƣợng đƣờng có các đặc điểm
- Là một dãy các cặp tọa độ
- Một đƣờng thẳng bắt đầu và kết thúc bởi nút
- Các đƣờng thẳng nối với nhau và cắt nhau tại một nút
- Hình dạng của đƣờng thẳng đƣợc định nghĩa bởi các đỉnh (vertices) - Độ dài chính xác bằng các cặp tọa độ
29
Đối tượng vùng (Polygon): vùng hay còn gọi là miền có thể coi là tập hợp vô
số điểm đƣợc giới hạn bởi một đƣờng khép kín. Các đối tƣợng địa lí có diện tích và đóng kín bởi đối tƣợng đƣờng đƣợc gọi là đối tƣợng vùng (polygon). Số liệu định vị của yếu tố vùng đƣợc xác định bởi đƣờng bao của vùng.
Hình 1.12 Dữ liệu vector đƣợc biểu thị dƣới dạng vùng
Nói chung không có sự khác biệt giữa việc lƣu trữ số liệu định vị của yếu tố đƣờng và yếu tố vùng, cả hai đều lƣu trữ dƣới dạng tập hợp các điểm của một đƣờng. Nhƣng có thể nhận biết rõ ràng nếu chỉ ra số liệu định vị kèm theo kiểu yếu tố đƣợc hiển thị (điểm, đƣờng, vùng). Đƣờng bao của một vùng là khép kín (tức là điểm đầu và điểm cuối trùng nhau). Ngƣợc lại một đƣờng khép kín không phải trong trƣờng hợp nào cũng phản ánh một vùng (ví dụ, đƣờng bình độ không là yếu tố vùng). Trong thực tế các yếu tố vùng nằm kề nhau (có bờ ngăn chung), để giảm việc lãng phí bộ nhớ do lƣu trữ các cạnh chung hai lần, ngƣời ta chỉ tiến hành lƣu trữ mỗi cạnh một lần, đồng thời cung cấp cho từng vùng những thông tin về cạnh thuộc nó. Đối tƣợng vùng có đặc điểm sau :
- Vùng đƣợc mô tả bằng tập các đƣờng và điểm nhãn (Label) - Một hoặc nhiều đƣờng định nghĩa đƣờng bao của vùng
- Một điểm nhãn nằm trong vùng để mô tả, xác định cho mỗi một vùng Khi nghiên cứu dữ liệu Vector ta cần quan tâm đến khái niệm Topology.
Topology là khái niệm dùng để xác định các quan hệ không gian giữa các đối
tƣợng địa lí. Topology xác định nhiều mối quan hệ nhƣ kế cận hay trùng khớp của các đối tƣợng địa lí.
30
Hình 1.13 Quan hệ topology
Các mối quan hệ topology đƣợc xây dựng từ những thành phần đơn giản nhƣ: điểm, đƣờng (tập hợn các điểm đƣợc liên kết lại), vùng (tập hợp các đƣờng đƣơc liên kết). Dữ liệu tọa độ đƣợc loại bỏ, bởi lẽ một đƣờng có thể biểu diễn một đối tƣợng dạng đƣờng, hoặc một phần đƣờng biên của một đối tƣợng vùng, hoặc cả hai. Quan hệ topology có hai mô hình dữ liệu là dữ liệu Vector Topology và dữ liệu Vector Spaghetti.
Cấu trúc dữ liệu kiểu Vector Topology
Hình 1.14 Yếu tố hình học và topology của dữ liệu vector
Điểm (Point Feature): đƣợc thể hiện nhƣ một Vector có độ dài bằng không
và vị trí đƣợc xác định bằng cặp tọa độ (X,Y).
Đƣờng (Line Feature): đơn giản nhất là đƣờng nối giữa hai điểm bất kỳ có
tọa độ (XiYi) và (XjYj). Điểm xuất phát và kết thúc của đƣờng đƣợc gọi là nút. Đƣờng phức tạp hơn là đƣờng cong hoặc đƣờng gấp khúc. Các đƣờng này đƣợc tạo nên bằng các đoạn thẳng nhỏ, các đoạn thẳng nhỏ này đƣợc nối với nhau tại các đỉnh.
31
Vùng (Polygon Feature): đƣợc thể hiện là một đa giác khép kín bởi các
đƣờng. Vùng là tổ hợp của đƣờng khép kín tạo nên tọa độ của vùng tại ranh giới vùng, chính tọa độ của các điểm nằm trên các đƣờng hình thành nên vùng.
Hình 1.16 Cấu trúc dữ liệu topology (dạng vùng)
Hình 1.17 Cấu trúc dữ liệu topology (nút, đƣờng, vùng)
Cấu trúc dữ liệu Vector Spaghetti
Đơn vị cơ sở là các cặp tọa độ trên một không gian địa lí xác định. Do đó mỗi đối tƣợng điểm đƣợc xác định bằng một cặp tọa độ (x,y); mỗi đối tƣợng đƣờng đƣợc biểu diễn bằng một chuỗi những cặp tọa độ (xiyi); mỗi đối tƣợng vùng đƣợc biểu diễn bằng một chuỗi những cặp tọa độ (xiyi) với điểm đầu và cuối trùng nhau.
Hình 1.18 Minh họa dữ liệu Vector Spaghetti
Đặc điểm: Cấu trúc Spaghetti không ghi nhận đặc trƣng kề nhau của hai vùng
kề nhau, nghĩa là tại hai vùng kề nhau sẽ có cạnh chung, cạnh chung của hai vùng kề nhau là hai cạnh độc lập.
1.2.3 Cơ sở dữ liệu thuộc tính
Cơ sở dữ liệu thuộc tính hay còn gọi là cơ sở dữ liệu phi không gian là cơ sở dữ liệu phản ánh tính chất của các đối tƣợng khác nhau. Ví dụ, các thông tin về chủ
32
đất, chất lƣợng đất, thể loại đất … là những dữ liệu thuộc tính. Dữ liệu thuộc tính đƣợc sắp xếp theo hàng và cột, mỗi hàng bao gồm nhiều loại thông tin về một đối tƣợng nào đó nhƣ tên, diện tích …. Mỗi loại thông tin khác nhau này gọi là một trƣờng, mỗi trƣờng đƣợc sắp xếp tƣơng ứng với một cột. Việc sắp xếp dữ liệu thuộc tính thành bảng gồm các hàng với các cột nhƣ trên rất thuận lợi cho quá trình tìm kiếm, cập nhật, sắp xếp dữ liệu thuộc tính.
Hình 1.19 Cơ sở dữ liệu thuộc tính
Ngoài những đặc điểm nhƣ trên, dữ liệu thuộc tính có thể bao gồm các hình thức trình bày chuẩn của mỗi yếu tố (màu sắc, lực nét, kiểu đƣờng …) nhằm giúp cho quá trình sử dụng các kí hiệu và dụng cụ vẽ đƣợc thuận tiện. Điều này đặc biệt có lợi để hiển thị dữ liệu đồ họa có hiệu quả và nhanh chóng. Dữ liệu thuộc tính có thể đƣợc đƣa vào trực tiếp từ các bảng dữ liệu, các tệp văn bản hoặc thu nhận từ các phần mềm khác nhau.
Có 4 loại dữ liệu thuộc tính:
- Đặc tính của đối tƣợng: liên kết chặt chẽ với các thông tin đồ thị, các dữ liệu này đƣợc xử lý theo ngôn ngữ hỏi đáp cấu trúc (SQL – Structured Query Language) và phân tích. Chúng đƣợc liên kết với các hình ảnh đồ thị thông qua các chỉ số xác định chung, thông thƣờng gọi là mã địa lí và đƣợc lƣu trữ trong cả hai mảng đồ thị và phi đồ thị. GIS còn có thể xử lý các thông tin thuộc tính riêng rẽ và tạo ra các bản đồ chuyên đề trên cơ sở các giá trị thuộc tính.
33
- Dữ liệu tham khảo địa lí: Mô tả các sự kiện hoặc các hiện tƣợng xảy ra tại một vị trí nhất định. Không giống các thông tin đặc tính, chúng không mô tả về bản thân các hình ảnh trên bản đồ, thay vào đó chúng mô tả các danh mục hoặc các hoạt động nhƣ cho phép xây dựng các khu công nghiệp mới, nghiên cứu y tế, báo cáo hiểm họa môi trƣờng, … liên quan đến các vị trí địa lí xác định.
- Chỉ số địa lí: là các chỉ số về tên, địa chỉ, khối, phƣơng hƣớng định vị … liên quan đến các đối tƣợng địa lí, đƣợc lƣu trữ trong hệ thông tin địa lí để chọn, liên kết và tra cứu dữ liệu trên cơ sở vị trí địa lí mà chúng đã đƣợc mô tả bằng các chỉ số địa lí xác định. Một chỉ số địa lí có thể bao gồm nhiều bộ xác định cho các thực thể sử dụng từ các cơ quan khác nhau.
- Quan hệ không gian giữa các đối tƣợng: rất quan trọng cho các chức năng xử lý của hệ thông tin địa lý. Các mối quan hệ này có thể đơn giản hay phức tạp nhƣ sự liên kết, khoảng cách tƣơng thích, mối quan hệ topology giữa các đối tƣợng.