Dựa trên việc xây dựng các mô hình cơ sở dữ liệu hướng đối tượng, người sử dụng có thể biết được mối tương quan giữa các đối tượng trong hệ thống quản lý rừng, đáp ứng được các yêu cầu c
Trang 1Nguyễn Thị Hữu Phương
XÂY DỰNG CƠ SỞ DỮ LIỆU GIS PHỤC VỤ CÔNG TÁC QUẢN LÝ
LỚP PHỦ RỪNG TỈNH QUẢNG NINH
LUẬN VĂN THẠC SỸ KHOA HỌC
Hà Nội - 2011
Trang 2Nguyễn Thị Hữu Phương
XÂY DỰNG CƠ SỞ DỮ LIỆU GIS PHỤC VỤ CÔNG TÁC QUẢN LÝ
LỚP PHỦ RỪNG TỈNH QUẢNG NINH
Chuyên ngành: Bản đồ, viễn thám và Hệ thông tin địa lý
Mã số: 60.44.76
LUẬN VĂN THẠC SỸ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS Nguyễn Trường Xuân
Hà Nội - 2011
Trang 33
MỤC LỤC
LỜI CAM ĐOAN 1
MỤC LỤC 3
DANH MỤC CÁC BẢNG BIỂU 6
DANH MỤC CÁC HÌNH VẼ 7
LỜI MỞ ĐẦU 10
1 Tính cấp thiết của đề tài 10
2 Mục tiêu của đề tài 11
3 Đối tượng và phạm vi nghiên cứu 11
4 Nội dung nghiên cứu 11
5 Phương pháp nghiên cứu 12
6 Ý nghĩa khoa học và thực tiễn của đề tài 12
7 Bố cục của luận văn 12
CHƯƠNG 1 13
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU 13
1.1 Khái niệm chung về cơ sở dữ liệu 13
1.1.1 Cơ sở dữ liệu và hệ cơ sở dữ liệu 13
1.1.2 Kiến trúc một hệ cơ sở dữ liệu và tính độc lập của dữ liệu 14
1.1.3 Thể hiện và lược đồ của cơ sở dữ liệu 16
1.1.4 Các mô hình của cơ sở dữ liệu 17
1.1.5 Chuẩn cơ sở dữ liệu 21
1.2 Cấu trúc cơ sở dữ liệu trong hệ thống 24
1.2.1 Cấu trúc dữ liệu 24
1.2.2 Cơ sở dữ liệu không gian 25
1.3 Tổng quan về cấu trúc cơ sở dữ liệu nền địa lý 33
CHƯƠNG 2 37
THIẾT KẾ CƠ SỞ DỮ LIỆU THÔNG TIN ĐỊA LÝ 37
Trang 44
2.1 Tổ chức cơ sở dữ liệu trong ArcGis 37
2.1.1 Geodatabase – Cơ sở dữ liệu địa lý 37
2.1.2 Phân loại Geodatabase 40
2.2 Các bước thiết kế cơ sở dữ liệu địa lý 41
2.2.1 Thiết kế khái niệm 41
2.2.2 Thiết kế logic 42
2.2.3 Thiết kế vật lý 42
2.3 Mô hình hóa dữ liệu 42
2.3.1 Mô hình hóa khái niệm 42
2.3.2 Mô hình hóa logic 43
2.3.3 Mô hình hóa vật lý 43
2.4 Mô hình hóa Geodatabase với UML 44
2.4.1 Ngôn ngữ mô hình hóa thống nhất – UML (Unified Modeling Language) 44
2.4.2 Các thành phần của UML 46
2.4.3 Các quy tắc của UML 49
2.4.4 Mô hình hóa Geodatabase với UML 50
2.5 Quy định về ngôn ngữ biểu diễn mô hình cấu trúc dữ liệu GIS 52
2.5.1 Quy định áp dụng ngôn ngữ biểu diễn mô hình cấu trúc dữ liệu địa lý 52
2.5.2 Giới hạn áp dụng UML 52
2.6 Lựa chọn công nghệ 54
2.7 Lựa chọn công cụ để thiết kế cơ sở dữ liệu 55
2.8 Quy trình công nghệ 57
CHƯƠNG 3 60
CÁC ĐẶC TRƯNG CỦA RỪNG VÀ 60
CÔNG TÁC QUẢN LÝ LỚP PHỦ RỪNG 60
3.1 Đặc trưng lớp phủ rừng ở Việt Nam 60
3.2 Phân loại rừng theo chức năng 65
Trang 55
3.3 Công tác tổ chức quản lý lớp phủ rừng 65
3.3.1 Nguyên tắc tổ chức quản lý rừng 68
3.3.2 Tổ chức quản lý rừng 69
CHƯƠNG 4 73
XÂY DỰNG CƠ SỞ DỮ LIỆU PHỤC VỤ CÔNG TÁC QUẢN LÝ LỚP PHỦ RỪNG TỈNH QUẢNG NINH 73
4.1 Đặc điểm chung tỉnh Quảng Ninh 73
4.1.1 Vị trí địa lý 73
4.1.2 Địa hình 73
4.1.3 Khí hậu 74
4.1.4 Tài nguyên thiên nhiên 74
4.2 Xây dựng cơ sở dữ liệu GIS phục vụ công tác quản lý lớp phủ rừng tỉnh Quảng Ninh 74
4.2.1 Đặc điểm rừng tỉnh Quảng Ninh 74
4.2.2 Xây dựng cơ sở dữ liệu nền địa lý 75
4.2.3 Xây dựng cơ sở dữ liệu lớp phủ rừng 83
4.2.4 Xây dựng siêu dữ liệu Metadata 87
KẾT LUẬN VÀ KIẾN NGHỊ 88
TÀI LIỆU THAM KHẢO 90
Trang 66
Bảng 1.1 Thông tin về các loại cáp lắp đặt trên tuyến cáp 19
Bảng 1.2 Danh mục các loại cáp 19
Bảng 1.3 Thông tin về các tuyến cáp 19
Bảng 2.1 Cấu trúc Geodatabase 39
Bảng 2.2 So sánh hai kiểu Geodatabase 41
Bảng 2.3 Bảng tổng hợp các thành phần của cấu trúc Geodatabase 50
Bảng 4.1 Các trường và miền giá trị của chúng 85
Trang 77
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Kiến trúc hệ cơ sở dữ liệu 14
Hình 1.2 Dữ liệu biểu diễn dưới dạng phân cấp 17
Hình 1.3 Mô hình mạng 18
Hình 1.4 Mô hình hóa thực thể theo điểm quản lý 20
Hình 1.5 Mô hình thực thể quan hệ theo quan điểm nghề nghiệp công việc 20
Hình 1.6 Minh họa thông tin Raster 26
Hình 1.7 Yếu tố hình học và topology của đối tượng điểm 27
Hình 1.8 Yếu tố hình học và topology của đối tượng đường 27
Hình 1.9 Yếu tố hình học và topology của đối tượng vùng 27
Hình 1.10 Dữ liệu vector được biểu thị dưới dạng điểm 28
Hình 1.11 Dữ liệu vector được biểu thị dưới dạng đường 28
Hình 1.12 Dữ liệu vector được biểu thị dưới dạng vùng 29
Hình 1.13 Quan hệ topology 30
Hình 1.14 Yếu tố hình học và topology của dữ liệu vector 30
Hình 1.15 Cấu trúc dữ liệu topology (dạng đường) 30
Hình 1.16 Cấu trúc dữ liệu topology (dạng vùng) 31
Hình 1.17 Cấu trúc dữ liệu topology (nút, đường, vùng) 31
Hình 1.18 Minh họa dữ liệu Vector Spaghetti 31
Hình 1.19 Cơ sở dữ liệu thuộc tính 32
Hình 1.20 Cơ sở dữ liệu nền trong mối quan hệ với dữ liệu bản đồ chuyên đề 34
Hình 2.1 Geodatabase trong ArcGIS 38
Hình 2.2 Mô hình cơ sở dữ liệu không gian của ESRI 38
Trang 88
Hình 2.3 Các bước phát triển của cơ sở dữ liêu GIS 41
Hình 2.4 Mô hình cơ sở dữ liệu khái niệm không gian đơn giản 43
Hình 2.5 Chuyển đổi từ mô hình E-R thành thiết kế logic cơ sở dữ liệu 43
Hình 2.6 Ví dụ lược đồ vật lý 44
Hình 2.7 Những mức độ rút gọn trong tổ chức thông tin 44
Hình 2.8 Biểu đồ UseCase mức chi tiết 45
Hình 2.9 Ví dụ một lớp trong UML 46
Hình 2.10 Usecase trong UML 46
Hình 2.11 Tương tác trong UML 47
Hình 2.12 Ký hiệu Quan hệ phụ thuộc 47
Hình 2.13 Quan hệ kết hợp trong UML 47
Hình 2.14 Quan hệ tập hợp 47
Hình 2.15 Quan hệ kế thừa 48
Hình 2.16 Sử dụng ESRI CASE Tools để mô hình hóa Geodatabase 51
Hình 2.17 Mô hình hóa khái niệm 52
Hình 2.18 Màn hình khởi động của MS.Visio 56
Hình 2.19 Quy trình công nghệ thiết kế cơ sở dữ liệu hệ thông tin địa lý 57
Hình 3.1 Rừng bạch đàn (thuần loài) 61
Hình 3.4 Diện tích rừng, theo phân loại rừng năm 2005 66
Hình 3.5 Độ che phủ rừng ở Việt Nam năm 1983 và năm 2004 67
Hình 4.1 Bản đồ hành chính tỉnh Quảng Ninh 73
Hình 4.3 Các lớp dữ liệu nền địa lý 75
Hình 4.4 Xây dựng cơ sở dữ liệu lớp Cơ sở đo đạc 76
Trang 99
Hình 4.5 Xây dựng cơ sở dữ liệu lớp Biên giới địa giới 77
Hình 4.6 Xây dựng cơ sở dữ liệu lớp Phủ bề mặt 78
Hình 4.7 Xây dựng cơ sở dữ liệu lớp Dân cư cơ sở hạ tầng 79
Hình 4.8 Xây dựng cơ sở dữ liệu lớp Giao thông 80
Hình 4.9 Xây dựng cơ sở dữ liệu lớp Thủy hệ 81
Hình 4.10 Lớp Địa hình 82
Hình 4.11 Các gói dữ liệu trong Geodatabase 83
Hình 4.12 Bản đồ lớp phủ rừng tỉnh Quảng Ninh Error! Bookmark not defined. Hình 4.13 Cơ sở dữ liệu lớp phủ rừng được xây dựng với Visio 84
Hình 4.14 Domain TruLuongRung 85
Hình 4.15 Domain TacDongCuaConNguoi 85
Hình 4.16 Domain NguonGocSinhTruong 85
Hình 4.17 Domain TuoiRung 86
Hình 4.18 Domain ChucNangSuDungRung 86
Hình 4.19 Domain loaiRanhGioiRung 86
Hình 4.20 Bảng các trường thuộc tính của lớp phủ rừng 86
Hình 4.17 Thông tin Metadata 87
Trang 1010
LỜI MỞ ĐẦU
1 Tính cấp thiết của đề tài
Giá trị nhiều mặt của rừng đã được đề cập một cách rõ ràng trong một vài thập niên gần đây, rừng không đơn thuần cung cấp gỗ và lâm sản, mà còn là môi trường bảo vệ đầu nguồn, bảo vệ nguồn nước, bảo vệ khí hậu thông qua hấp thụ CO2, là môi trường sinh sống của nhiều loài động vật quý hiếm …
Lớp thực vật che phủ trên bề mặt một vùng phản ánh hiện trạng về tài nguyên thực vật và các nguồn tài nguyên sinh vật khác cùng tồn tại Đặc điểm tự nhiên của một vùng có thể được thể hiện qua chính lớp thảm thực vật và chính lớp thảm thực vật phản ánh trở lại một phần nào đó tính chất đặc điểm tự nhiên của vùng đó.Thảm thực vật rừng là một trong những nền tảng của môi trường và tài nguyên rừng Thảm thực vật rừng còn được coi là lớp thông tin phản ánh tính đa dạng sinh học cho một vùng, một địa phương
Một trong những dịch vụ quan trọng của rừng là bảo vệ đầu nguồn, bảo vệ nguồn nước Hiện nay, do nạn chặt phá và khai thác rừng một cách bừa bãi, diện tích rừng đã giảm một cách nghiêm trọng Kéo theo đó là lũ lụt, hạn hán các hiện tượng thời tiết cực đoan Trong giai đoạn hiện nay, việc phát triển bền vững phải gắn liền với quản lý, khai thác, và bảo vệ rừng một cách hợp lý Vì vậy việc quản lý lớp phủ rừng là một yêu cầu cấp thiết và quan trọng Yêu cầu phải có biện pháp và chính sách quản lý, sử dụng một cách hợp lý
Hiện nay, với sự phát triển của công nghệ thông tin và hệ thông tin địa lý, đã
mở ra một hướng nghiên cứu và tiếp cận mới cho việc quản lý tài nguyên rừng nói chung và lớp phủ rừng nói riêng Việc lập được cơ sở dữ liệu lớp phủ rừng thống nhất và hoàn chỉnh là điều cần thiết để quản lý rừng được chính xác và cập nhật nhanh chóng Vấn đề đặt ra là xây dựng cơ sở dữ liệu hợp chuẩn, dễ cập nhật, dễ sửa đổi và thao tác một cách dễ dàng Việc sử dụng UML trong thiết kế cơ sở dữ liệu phục vụ cho công tác quản lý lớp phủ rừng đã giảm bớt được nhiều thời gian trong việc thống kê, báo cáo về rừng hàng năm Việc thiết kế cơ sở dữ liệu bằng
Trang 1111
UML giúp cho quá trình cập nhật, tìm kiếm, sửa, xóa trở nên đơn giản hơn, giảm bớt công sức của con người, đưa ra được kết quả chính xác và hiệu quả cao Đồng thời việc sử dụng phương pháp thiết kế này giúp người dùng hiểu rõ được công việc mình làm, những yêu cầu thực tế về số liệu cần đáp ứng Dựa trên việc xây dựng các mô hình cơ sở dữ liệu hướng đối tượng, người sử dụng có thể biết được mối tương quan giữa các đối tượng trong hệ thống quản lý rừng, đáp ứng được các yêu cầu cụ thể trong công tác quản lý biến động đối với từng loại rừng Tỉnh Quảng Ninh nằm vùng Đông Bắc nước ta, với ¾ diện tích tự nhiên là rừng và rừng ngập mặn, nếu được quản lý và khai thác sử dụng hợp lý sẽ phát huy thế mạnh của tỉnh trong phát tiển kinh tế xã hội và bảo vệ môi trường Vì vậy, luận văn thạc sỹ với đề
tài “Xây dựng cơ sở dữ liệu GIS phục vụ công tác quản lý lớp phủ rừng tỉnh Quảng Ninh” là cần thiết
2 Mục tiêu của đề tài
Xây dựng cơ sở dữ liệu lớp phủ rừng phục vụ công tác quản lý rừng tỉnh Quảng Ninh
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu là lớp phủ rừng tỉnh Quảng Ninh và các vấn đề có liên quan
Phạm vị nghiên cứu: chỉ nghiên cứu hiện trạng lớp phủ rừng Luận văn nghiên cứu úng dụng UML để thiết kế cơ sở dữ liệu phục vụ cho công tác quản lý lớp phủ,
mà không đi sâu vào thiết kế những lớp mô tả đặc điểm đặc trưng của rừng
4 Nội dung nghiên cứu
- Nghiên cứu tổng quan về rừng: các đặc trưng của rừng
- Nghiên cứu tổng quan về cơ sở dữ liệu và cấu trúc cơ sở dữ liệu
- Nghiên cứu tổng quan về UML trong thiết kế cơ sở dữ liệu
- Ứng dụng UML trong thiết kế cơ sở dữ liệu lớp phủ rừng phục vụ cho công tác quản lý lớp phủ rừng nói chung, lớp phủ rừng tỉnh Quảng Ninh nói riêng
Trang 1212
5 Phương pháp nghiên cứu
- Tổng hợp, thu thập và xử lý thông tin, tài liệu
- Phương pháp bản đồ: phương pháp bản đồ được sử dụng trên cơ sở kỹ thuật GIS nhằm phân tích, xử lý các dữ liệu để đưa ra các thông tin về hiện tượng và đối tượng quan sát hay phân tích được trong từng đơn vị lãnh thổ trên bản đồ
- Phương pháp chuyên gia: học hỏi các chuyên gia trong ngành về việc xây dựng cơ sở dữ liệu lớp phủ rừng
6 Ý nghĩa khoa học và thực tiễn của đề tài
7 Bố cục của luận văn
Luận văn được trình bày với 90 trang, ngoài phần mở đầu và kết luận, được cấu trúc thành 4 chương
Chương I: Tổng quan về cơ sở dữ liệu
Chương II: Các đặc trưng của rừng và công tác quản lý lớp phủ rừng
Chương III: Thiết kế cơ sở dữ liệu thông tin địa lý
Chương IV: Xây dựng cơ sở dữ liệu phục vụ công tác quản lý lớp phủ rừng tỉnh Quảng Ninh
Trang 1313
CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU 1.1 Khái niệm chung về cơ sở dữ liệu
1.1.1 Cơ sở dữ liệu và hệ cơ sở dữ liệu
Các tập dữ liệu chứa các thông tin có liên quan đến một cơ quan, một tổ chức, một chuyên ngành khoa học tự nhiên hoặc xã hội được lưu trữ trong máy tính theo một quy định nào đó cho mục đích sử dụng, được gọi là cơ sở dữ liệu
Cơ sở dữ liệu là một bộ sưu tập rất lớn về các loại dữ liệu tác nghiệp, bao gồm các bộ dữ liệu âm thanh, tiếng nói, chữ viết, văn bản, đồ họa, hình ảnh tĩnh hay động, … Cấu trúc lưu trữ dữ liệu tuân theo các quy tắc dựa trên lý thuyết toán học
Cơ sở dữ liệu phản ánh trung thực thế giới dữ liệu hiện thực khách quan
Cơ sở dữ liệu đã có ảnh hưởng rất lớn đến việc sử dụng máy tính Có thể nói rằng cơ sở dữ liệu đóng vai trò quan trọng trong mọi lĩnh vực có sử dụng máy tính như giáo dục, thương mại, kỹ nghệ, khoa học, thư viện, … Thuật ngữ cơ sở dữ liệu trở thành một thuật ngữ phổ dụng Cơ sở dữ liệu là tài nguyên thông tin dùng chung cho nhiều người cùng sử dụng Bất kỳ người sử dụng nào trên mạng máy tính, tại các thiết bị đầu cuối, về nguyên tắc có quyền truy cập khai thác toàn bộ hay một phần dữ liệu theo chế độ trực tuyến hay tương tác mà không phụ thuộc vào vị trí địa
lý của người sử dụng với các tài nguyên đó
Cơ sở dữ liệu được các hệ ứng dụng khai thác bằng ngôn ngữ con dữ liệu hoặc bằng các chương trình ứng dụng để xử lý, tìm kiếm, tra cứu, sửa đổi, bổ sung hay loại bỏ dữ liệu Tìm kiếm và tra cứu thông tin là một trong những chức năng quan trọng và phổ biến nhất của dịch vụ cơ sở dữ liệu Hệ quản trị cơ sở dữ liệu (Database Management System - DBMS) là phần mềm điều khiển các chiến lược truy cập cơ sở dữ liệu, là phần chương trình để có thể xử lý, thay đổi dữ liệu Hệ
quản trị cơ sở dữ liệu có nhiệm vụ rất quan trọng như một bộ diễn dịch với ngôn
ngữ bậc cao nhằm giúp người sử dụng có thể dùng được hệ thống mà ít nhiều không cần quan tâm đến thuật toán chi tiết hoặc biểu diễn dữ liệu trong máy Mục đích
Trang 1414
chính của một hệ quản trị cơ sở dữ liệu là cung cấp một cách lưu trữ và truy lục
thông tin trong cơ sở dữ liệu sao cho vừa thuận tiện vừa hiệu quả Các hệ quản trị
cơ sở dữ liệu được thiết kế để quản lý một lượng lớn thông tin Việc quản lý dữ liệu bao gồm cả việc định nghĩa các cấu trúc để lưu giữ thông tin lẫn việc cung cấp các
cơ chế để thao tác thông tin Ngoài ra, các hệ cơ sở dữ liệu phải đảm bảo được sự an toàn cho thông tin được lưu trữ dù có trục trặc hệ thống hay có những truy xuất trái phép Nếu dữ liệu phải chia sẻ cho nhiều người dùng chung thì phải tránh được các kết quả sai có thể xảy ra
Đối tượng nghiên cứu của cơ sở dữ liệu là các thực thể và mối quan hệ giữa các thực thể Thực thể và mối quan hệ giữa các thực thể là hai đối tượng khác nhau
về căn bản Mối quan hệ giữa các thực thể cũng là một loại thực thể đặc biệt Dựa trên cơ sở lý thuyết đại số quan hệ để xây dựng các quan hệ chuẩn, khi kết nối không mất mát thông tin và khi biểu diễn dữ liệu là duy nhất Dữ liệu được lưu trữ trong bộ nhớ của máy tính không những phải tính đến yếu tố tối ưu không gian lưu trữ mà phải đảm bảo tính khách quan, trung thực của dữ liệu hiện thực
1.1.2 Kiến trúc một hệ cơ sở dữ liệu và tính độc lập của dữ liệu
Một cơ sở dữ liệu có thể phân thành các mức khác nhau Mô hình kiến trúc 3
lớp của cơ sở dữ liệu được phân thành: mức trong, mức mô hình dữ liệu (mức quan niệm) và mức ngoài Giữa các mức tồn tại các ánh xạ quan niệm trong và ánh xạ
quan niệm ngoài Trung tâm của hệ thống là mức quan niệm, tức là mức mô hình dữ liệu
Hình 1.1 Kiến trúc hệ cơ sở dữ liệu
Trang 1515
Mô hình ngoài (mức khung nhìn) là nội dung thông tin của cơ sở dữ liệu dưới
cách nhìn của người sử dụng Là nội dung thông tin của một phần dữ liệu tác nghiệp được một người hoặc một nhóm người sử dụng quan tâm Mô hình ngoài mô tả cách nhìn dữ liệu của người sử dụng và mỗi người sử dụng có cách nhìn dữ liệu khác nhau Nhiều mô hình ngoài khác nhau có thể cùng tồn tại trong một hệ cơ sở
dữ liệu, nghĩa là có nhiều người sử dụng chia sẻ chung một cơ sở dữ liệu
Mô hình dữ liệu (mô hình quan niệm): là cách nhìn dữ liệu một cách tổng quát
của người sử dụng Có rất nhiều cách nhìn dữ liệu ở mô hình ngoài, nhưng chỉ có duy nhất một cách nhìn dữ liệu ở mức quan niệm Biểu diễn toàn bộ thông tin trong
cơ sở dữ liệu là duy nhất Mô hình dữ liệu là cách nhìn toàn bộ nội dung thông tin của cơ sở dữ liệu, sơ đồ quan niệm là định nghĩa của cách nhìn ấy, là bước đi đầu tiên, quan trọng trong việc thiết kế và cài đặt các hệ cơ sở dữ liệu Mô tả việc những
dữ liệu nào được lưu trong cơ sở dữ liệu và mối quan hệ tồn tại giữa các dữ liệu này Mức quan niệm vì thế mô tả toàn bộ cơ sở dữ liệu theo một số ít cấu trúc tương đối đơn giản, mặc dù bản cài đặt các cấu trúc đơn giản ở mức logic có thể chứa đựng các cấu trúc phức tạp ở mức vật lý
Mô hình trong là mô hình lưu trữ vật lý dữ liệu Chỉ có một cách duy nhất và
một cách biểu diễn cơ sở dữ liệu dưới dạng lưu trữ vật lý Mô hình trong là cách biểu diễn cơ sở dữ liệu trừu tượng ở mức thấp nhất Mức này mô tả việc dữ liệu thật
sự được lưu trữ như thế nào Ở mức vật lý, một mẫu tin có thể được mô tả như một khối các vị trí lưu trữ nằm kế cận nhau Trình biên dịch của ngôn ngữ che khuất không cho chúng ta thấy mức chi tiết này Tương tự, hệ thống cơ sở dữ liệu che khuất nhiều chi tiết lưu trữ ở mức thấp nhất Tuy nhiên, người quản trị cơ sở dữ liệu
có thể biết được một số chi tiết tổ chức vật lý của dữ liệu
Về tính độc lập của dữ liệu, chúng ta hãy xem hình 1.1, từ khung nhìn, tới cơ
sở dữ liệu, khái niệm và cơ sở dữ liệu vật lý cho thấy có hai mức “độc lập dữ liệu”
Thứ nhất, lược đồ vật lý có thể thay đổi do người quản trị cơ sở dữ liệu mà không cần thay đổi lược đồ con Việc tổ chức lại cơ sở dữ liệu vật lý (thay đổi các tổ chức,
Trang 1616
cấu trúc dữ liệu trên các thiết bị nhớ thứ cấp) có thể làm thay đổi hiệu quả tính toán của các chương trình ứng dụng nhưng không đòi hỏi phải viết lại các chương trình
đó Tính độc lập này gọi là độc lập dữ liệu mức vật lý
Mối quan hệ giữa các khung nhìn và lược đồ khái niệm cho thêm một loại độc
lập nữa, gọi là độc lập dữ liệu mức quan niệm Khi sử dụng một cơ sở dữ liệu, có
thể cần thiết phải thay đổi lược đồ khái niệm như thêm thông tin về các loại khác nhau của các thực thể hoặc bớt, xóa các thông tin về các thực thể đang tồn tại trong
cơ sở dữ liệu Việc thay đổi lược đồ khái niệm không làm ảnh hưởng tới các lược
đồ con đang tồn tại, do đó không cần thiết phải thay đổi các chương trình ứng dụng
Vì thế, tính độc lập dữ liệu là mục tiêu chủ yếu của các hệ cơ sở dữ liệu Có
thể định nghĩa tính độc lập dữ liệu là “tính bất biến của các hệ ứng dụng đối với các thay đổi trong cấu trúc lưu trữ và chiến lược truy nhập”
1.1.3 Thể hiện và lược đồ của cơ sở dữ liệu
Cơ sở dữ liệu thay đổi theo thời gian khi các thông tin được chèn thêm và được xóa bớt đi Tập hợp các thông tin được lưu trữ trong cơ sở dữ liệu tại một thời
điểm cụ thể được gọi là một thể hiện của cơ sở dữ liệu Bản thiết kế tổng thể của cơ
sở dữ liệu được gọi lược đồ cơ sở dữ liệu Các lược đồ ít khi thay đổi nếu không nói
là không thay đổi Các hệ cơ sở dữ liệu có nhiều lược đồ, được phân chia dựa theo các mức trừu tượng hóa Lược đồ vật lý mô tả thiết kế cơ sở dữ liệu ở mức vật lý, lược đồ khái niệm mô tả bản thiết kế cơ sở dữ liệu ở mức khái niệm Một cơ sở dữ liệu cũng có thể có nhiều lược đồ ở mức khung nhìn hay còn gọi là lược đồ con, chúng mô tả những khung nhìn khác nhau của cơ sở dữ liệu
Cho đến nay, lược đồ khái niệm được coi là lược đồ quan trọng nhất nếu nói theo tác dụng của nó đối với các chương trình ứng dụng Lược đồ vật lý được che khuất bên dưới lược đồ khái niệm và thường có thể thay đổi dễ dàng mà không làm ảnh hưởng đến các chương trình ứng dụng
Trang 1717
1.1.4 Các mô hình của cơ sở dữ liệu
Mô hình cơ sở dữ liệu sẽ làm nền tảng cho cấu trúc của một cơ sở dữ liệu, nghĩa là liên quan đến phương pháp tổ chức dữ liệu trong một cơ sở dữ liệu khái niệm hoặc liên quan đến cấu trúc logic của dữ liệu trong một cơ sở dữ liệu Trong
đó, những mô hình cơ sở dữ liệu này thường thông qua mô hình dữ liệu phân cấp,
mô hình mạng, và cơ sở dữ liệu quan hệ
1.1.4.1 Mô hình phân cấp (Hierarchical Models)
Mô hình phân cấp là sự kết hợp của nhiều cấp độ cơ bản có liên quan Trong thực tế, nó là một cây theo thứ tự Mô hình phân cấp lưu trữ dữ liệu bằng các cấp độ giống như mỗi bộ phận phù hợp với cấu trúc của một cây như rễ, cành và lá
Hình 1.2 Dữ liệu biểu diễn dưới dạng phân cấp Một cơ sở dữ liệu phân cấp là một tập các cây Trong mỗi cây chỉ chứa một và chỉ môt xuất hiện của bản ghi gốc, gọi là bản ghi đỉnh, và dưới nó là tập các xuất hiện của các bản ghi phụ thuộc
1.1.4.2 Mô hình mạng (Network Model)
Mô hình mạng là sự tập hợp các cấp độ cơ bản đã được kết nối, là mô hình thực thể quan hệ, trong đó các mối liên kết bị hạn chế trong kiểu một – một và nhiều – một Trong mô hình mạng, dữ liệu được biểu diễn trong các bản ghi liên kết với nhau bằng các mối nối liên kết tạo thành một đồ thị có hướng Cơ sở dữ liệu mạng có cấu trúc tổng quát hơn so với cấu trúc phân cấp Mỗi một xuất hiện của bản ghi có thể có rất nhiều xuất hiện kiểu bản ghi trên nó và các xuất hiện bản ghi
Trang 1818
dưới nó Ngoài các kiểu bản ghi biểu diễn dữ liệu còn có kiểu bản ghi các phần tử kết nối, biểu diễn sự kết hợp giữa các biểu diễn cơ sở dữ liệu Cho phép mô hình hóa tương ứng nhiều – nhiều
Hình 1.3 Mô hình mạng Loại cấu trúc này có thể được xem như là loại cấu trúc phân cấp có nhiều mạng kết nối Mô hình giúp tiết kiệm được thời gian tìm kiếm, nhưng mối quan hệ giữa các dữ liệu lại phức tạp, còn cấu trúc thì không thể nhìn thấy một cách rõ ràng Trong mô hình mạng và mô hình phân cấp, việc truy cập tuyến dữ liệu một cách cẩn thận là rất cần thiết Một khi nó đã được xác định thì tuyến dữ liệu không thể thay đổi được Kết quả hiện hữu của các mối quan hệ phức hợp trong thực tế giữa các dữ liệu thường là không thể mô tả chúng bằng một mô hình mạng hay một
mô hình phân cấp cố định Vì vậy, khái niệm của một mô hình quan hệ đã được hình thành
1.1.4.3 Mô hình quan hệ (Ralationship Model)
Mô hình quan hệ liên quan đến sự tập hợp nhiều mối quan hệ hiện hữu giữa các dữ liệu Mô hình quan hệ sử dụng một tập hợp các bảng để biểu diễn cả dữ liệu lẫn mối liên hệ giữa những dữ liệu này Mỗi bảng có nhiều cột và mỗi cột có một tên duy nhất Mỗi bảng đều chứa các mẫu tin cùng kiểu Mỗi mẩu tin định nghĩa một số trường hay thuộc tính nhất định, các cột của bảng tương ứng với các thuộc tính của kiểu mẫu tin
Trang 1919
Bảng 1.1 Thông tin về các loại cáp lắp đặt trên tuyến cáp
Bảng 1.2 Danh mục các loại cáp
Bảng 1.3 Thông tin về các tuyến cáp Mỗi một mối quan hệ tương đương với một “bảng hai chiều” Vậy tính đơn giản trong cấu trúc là một đặc điểm chính của mô hình quan hệ, nó có thể mô tả cấu trúc dữ liệu của mô hình mạng hay một số mô hình phân cấp bằng một loạt các mối quan hệ có cấu trúc đơn giản
Thuận lợi của mô hình quan hệ là được hình thức hóa toán học chặt chẽ, do đó các xử lý, thao tác với dữ liệu dễ dàng, có tính độc lập dữ liệu cao Cấu trúc dữ liệu đơn giản mềm dẻo trong xử lý và dễ dàng cho người sử dụng Đặc biệt các phép tính cập nhật dữ liệu cho mô hình quan hệ nói chung là ít phức tạp hơn nhiều so với các mô hình khác
1.1.4.4 Mô hình quan hệ thực thể (ERM – Entity Relationship Model)
Mô hình quan hệ thực thể dựa trên quan niệm về thế giới thực bao gồm các đối
tượng được gọi là các thực thể (entity) và mối quan hệ giữa chúng “Thực thể” là
một vật hoặc một đối tượn trong thế giới thực mà ta có thể phân biệt được chúng
Trang 20có thể được kết hợp thông qua một tập các mối quan hệ
Hình 1.4 Mô hình hóa thực thể theo điểm quản lý
Hình 1.5 Mô hình thực thể quan hệ theo quan điểm nghề nghiệp công việc
1.1.4.5 Mô hình hướng đối tượng (OOM – Object Oriented Model)
Mô hình hướng đối tượng dựa trên cơ sở các gói dữ liệu và mã liên quan tới đối tượng Mọi sự tương tác của người sử dụng với các đối tượng được quản lý này đều thông qua các thông điệp, hoặc sự tương tác giữa đối tượng này với đối tượng khác đều phải thông qua thông điệp Đối tượng bao giờ cũng có mã thao tác, những
Trang 211.1.5 Chuẩn cơ sở dữ liệu
Hệ thông tin địa lý càng phát huy tác dụng rộng rãi nếu dữ liệu trong hệ thống được định chuẩn Điều kiện này giúp cho thông tin được trao đổi rộng rãi hơn, người sử dụng thông tin nhiều hơn, hệ thống cập nhật thông tin đa dạng hơn, hiệu quả tránh được lãng phí trong quá trình phát triển
Chuẩn thông tin địa lý là hệ thống các tiêu chuẩn về cách thức, qui định cách
mô tả, biểu thị, cách xây dựng cơ sở dữ liệu từ nhận thức thế giới thực đến cơ sở dữ liệu địa lý được lưu trữ theo cấu trúc, khuôn dạng nào đó Các thành phần trong cơ
sở dữ liệu và các phần tử trong mô hình, tất cả các yếu tố này đều được qui định theo các chuẩn thống nhất Tuy nhiên, tùy mức phân tích sâu của mô hình mà số lượng chuẩn được sử dụng
Chuẩn dữ liệu có thể do các tổ chức quốc tế hoặc quốc gia xây dựng và ban hành áp dụng thống nhất Nhiều quốc gia trên thế giới như Hoa Kỳ, Nhật Bản, Nga, Trung Quốc đã xây dựng hệ thống chuẩn quốc gia về cơ sở dữ liệu của GIS Việt Nam mới ban hành chuẩn Quốc gia về cơ sở dữ liệu địa lý Trước đây, do nhu cầu
sử dụng, một số dự án xây dựng hệ thông tin địa lý của các bộ, ngành, địa phương
tự xây dựng một số quy định tạm thời về chuẩn dữ liệu để sử dụng Công việc xây dựng chuẩn thông tin địa lý rất quan trọng Các chuẩn này phục vụ cho việc quản trị các yếu tố không gian và còn là cơ sở phân tích các tác nghiệp chuyên môn các phân hệ ngành trong tỉnh, thành lập các hệ trợ giúp quyết định
Trang 2222
Chuẩn thông tin địa lý được thiết kế nhằm chuẩn hóa các hoạt động sau:
- Xây dựng dữ liệu địa lý theo các nội dung đã phân tích
- Trao đổi và chia sẻ dữ liệu địa lý
- Cập nhật dữ liệu địa lý
- Các dịch vụ về dữ liệu địa lý
Chuẩn thông tin địa lý GIS được chia ra làm 2 loại:
- Chuẩn thông tin địa lý cơ sở
- Chuẩn thông tin địa lý ứng dụng
Chuẩn thông tin địa lý cơ sở bao gồm chuẩn các định nghĩa nhằm định nghĩa các mô hình khái niệm, các qui tắc, các phương pháp để định nghĩa, mô tả và quản
lý thông tin
Chuẩn thông tin địa lý ứng dụng bao gồm các chuẩn thông tin cho từng loại ứng dụng cụ thể, tùy theo mục đích sử dụng của từng loại CSDL riêng biệt Chuẩn thông tin địa lý ứng dụng phải xây dựng trên cơ sở tuân thủ nghiêm ngặt các chuẩn thông tin địa lý cơ sở
Các chuẩn sau sẽ thực hiện trong cơ sở dữ liệu (về cơ bản tuân theo chuẩn kỹ thuật quốc gia về thông tin địa lý do Bộ Tài nguyên và Môi trường ban hành):
Chuẩn thuật ngữ (Terminology Standard): Có mục đích chuẩn hóa về các khái
niệm, cụm từ sử dụng trong bộ tài liệu chuẩn hoá Những thuật ngữ này được sử dụng như là những khái niệm cơ bản cho phép liên kết các nội dung chuẩn hóa với nhau Chuẩn hóa thuật ngữ giúp cho các bên tham gia trong xây dựng và sử dụng
thông tin địa lý có cùng chung một ngôn ngữ
Chuẩn về tham chiếu không gian: Trong lĩnh vực hệ thông tin địa lý, ở Việt
Nam hiện nay chuẩn về hệ qui chiếu và toạ độ quốc gia là chuẩn đã được hoàn thiện một cách đầy đủ, chuẩn Hệ qui chiếu và hệ toạ độ quốc gia VN-2000 đã được ban
Trang 23- Các tham số của hệ qui chiếu: Ellipsoid WGS-84 toàn cầu, các kích thước, tốc độ góc quay, hằng số trọng trường, định vị và điểm gốc toạ độ quốc gia
- Hệ thống toạ độ phẳng, lưới chiếu bản đồ qui định cho các tỷ lệ
Chuẩn về mô hình cấu trúc dữ liệu: Quy định cấu trúc của dữ liệu thông tin
địa lý sẽ được tổ chức và được xây dựng như thế nào Đối với các thông tin địa lý nền được áp dụng theo chuẩn mô hình cấu trúc dữ liệu địa lý quốc gia và các văn bản kỹ thuật và các quy phạm thành lập bản đồ địa hình các tỉ lệ Bao gồm các quy định về biểu diễn mô hình cấu trúc, các kiểu dữ liệu nguyên thuỷ, các cấu trúc dữ
liệu cơ bản, mô hình đối tượng địa lý tổng quát
Chuẩn về phân loại đối tượng: Bao gồm các quy định về thông tin trong danh
mục đối tượng địa lý, danh mục các đối tượng địa lý, kiểu đối tượng, quan hệ liên kết Cơ sở xây dựng dựa theo quy phạm, quy định kỹ thuật về thành lập bản đồ, hiện đang được áp dụng trong ngành, các đối tượng chuyên ngành đang tác nghiệp tại tỉnh
Chuẩn về thể hiện trình bày: Chuẩn xác định một cơ chế cho phép trình bày
bộ dữ liệu theo những cách khác nhau mà không làm thay đổi nội dung dữ liệu
Cách thức xây dựng dựa trên các chuẩn qui định về trình bày bản đồ số đã công bố
và thiết kế, biên tập bộ ký hiệu chuẩn cho bộ cơ sở dữ liệu
Chuẩn Metadata: Metadata là một loại dữ liệu mô tả các thông tin liên quan
đến tình trạng dữ liệu trong cơ sở dữ liệu Các thông tin này cho biết về khuôn dạng (format), dữ liệu nào đang được lưu trữ trong cơ sở dữ liệu, các mốc thời gian xây
Trang 2424
dựng, cập nhật dữ liệu, chất lượng dữ liệu, tính pháp lý của dữ liệu, phương thức
lưu trữ dữ liệu, các thủ tục truy cập và phân phối dữ liệu, v.v
Chuẩn mã hóa và trao đổi dữ liệu: Dữ liệu không gian cần được mã hóa dựa
trên một quy tắc nhất định trong khuôn dạng máy tính có thể hiểu được Mã hoá dữ liệu được xem xét ở hai khía cạnh: để lưu giữ và để trao đổi Các chuẩn về mô hình nội dung và cấu trúc dữ liệu như mô tả ở trên tạo ra cơ sở xây dựng một bộ dữ liệu chuẩn
Chuẩn dữ liệu địa lý có nhiều mức khác nhau như:
Chuẩn toàn cầu – Global Spatial Data Infrastructure Standards (GSDIS)
Chuẩn khu vực – Regional Spatial Data Infrastructure Standards (RSDIS)
Chuẩn Quốc gia – National Spatial Data Infrastructure Standards (NSDIS)
Chuẩn cấp tỉnh – Provincial Spatial Data Infrastructure Standards (PSDIS)
Chuẩn cấp thành phố - Urban Spatial Data Infrastructure Standards (USDIS)
1.2 Cấu trúc cơ sở dữ liệu trong hệ thống
1.2.1 Cấu trúc dữ liệu
Cấu trúc dữ liệu: tập hợp các biến có thể thuộc một hoặc vài kiểu dữ liệu khác
nhau được nối kết với nhau tạo thành những phần tử Các phần tử này chính là thành phần cơ bản xây dựng nên cấu trúc dữ liệu Cấu trúc dữ liệu là nguyên tắc kết nối các phần tử này với nhau trong bộ nhớ khi được biểu diễn bằng một ngôn ngữ lập trình cụ thể Các dữ liệu thành phần có thể là dữ liệu đơn, hoặc cũng có thể là một cấu trúc đã được xây dựng
Kiểu dữ liệu (data type): kiểu dữ liệu của một biến là tập hợp các giá trị mà
biến đó có thể nhận Ví dụ một biến kiểu Boolean chỉ có thể nhận TRUE hoặc FALSE mà không nhận giá trị nào khác Các kiểu dữ liệu cơ bản (như Integer, Char, Real, Boolean) được cung cấp khác nhau trong các ngôn ngữ lập trình khác nhau
Trang 25cơ sở dữ liệu thuộc tính Mỗi loại có những đặc điểm riêng và chúng khác nhau về yêu cầu lưu trữ số liệu, hiệu quả, xử lý và hiển thị
1.2.2 Cơ sở dữ liệu không gian
Cơ sở dữ liệu không gian là cơ sở dữ liệu có chứa trong nó những thông tin về định vị của đối tượng Nó là những dữ liệu phản ánh, thể hiện những đối tượng có kích thước vật lý nhất định Nếu là những cơ sở dữ liệu không gian địa lý thì đó là những dữ liệu phản ánh những đối tượng có trên bề mặt hoặc ở trong vỏ quả đất
Từ góc độ công nghệ thông tin địa lí, đó là những yếu tố không gian địa lí được phản ánh trên bản đồ bằng những kiểu cấu trúc dữ liệu nhất định Tuy nhiên
cơ sở dữ liệu không gian không đơn thuần là sự mô tả địa chỉ của một khu dân cư
mà chúng ta nên hiểu rằng khu dân cư đó chính là một cơ sở dữ liệu không gian Dữ liệu không gian có ba dạng cơ bản là điểm, đường và vùng
cái này ở đâu? Vị trí của nó ở chỗ nào trong hệ quy chiếu đã chọn, … vì vậy
việc xác định vị trí các đối tượng là hết sức cần thiết
tính có thể hiểu được nhờ mã hóa chúng theo các mức dữ liệu và các giá trị số
khác nhau
được so sánh với nhau để tìm ra mối liên quan hình học và ảnh hưởng giữa
Trang 261.2.2.1 Cấu trúc dữ liệu Raster
Đây là cấu trúc dữ liệu mà trong đó dữ liệu được thể hiện thành một mảng gồm các pixel và mỗi pixel đều mang giá trị của thông số đặc trưng cho đối tượng Một khu vực trên bản đồ được biểu thị ở dạng số bằng cách lưu giữ vị trí (tọa độ tâm điểm của chúng), kích thước và đặc tính tương ứng của đối tượng thuộc pixel
đó Mỗi pixel sẽ tương ứng với một diện tích vuông trên thực tế Giá trị độ lớn của pixel còn được gọi là độ phân giải của dữ liệu Hình vuông là dạng pixel phổ biến nhất, sau đó là hình chữ nhật
Hình 1.6 Minh họa thông tin Raster Đối với một file dữ liệu dạng Raster, cần có một file chứa các thông tin về cấu trúc của dữ liệu, gọi là Header file Thông thường khi lưu trữ cũng như biểu diễn thông tin theo dạng cấu trúc Raster thì người ta hay sử dụng thuật toán mã hóa nhị phân, tức là những thông tin biểu diễn đều được gán mã là 1, còn phần trống sẽ được gán mã là 0 hoặc ngược lại Trong cấu trúc dữ liệu Raster các đối tượng cơ bản được biểu diễn là:
Đối tượng điểm: Điểm được xác định tương ứng với một pixel độc lập, trong thế giới thực, điểm có thể là một ngôi nhà nằm trên vài pixel có cùng giá trị
Trang 2727
Hình 1.7 Yếu tố hình học và topology của đối tượng điểm
Đối tượng đường: Được coi là tập hợp các pixel liên tiếp nhau có cùng giá trị
Hình 1.8 Yếu tố hình học và topology của đối tượng đường
Đối tượng vùng: Vùng được xác định bởi một tập hợp các pixel có cùng giá trị liên tục nhau theo các hướng
Hình 1.9 Yếu tố hình học và topology của đối tượng vùng
1.2.2.2 Cấu trúc dữ liệu Vector
Cấu trúc dữ liệu Viector là cấu trúc dữ liệu dựa trên tọa độ các điểm để biểu diễn các đối tượng qua ba yếu tố cơ bản là điểm, đường, vùng Cấu trúc dữ liệu Vector mô tả chính xác vị trí và mối quan hệ không gian của các đối tượng và hiện tượng Xét về mặt toán học, Vector là cách biểu diễn một đoạn thẳng có hướng và
có độ dài nhất định
Đối tượng điểm (Point): điểm trong cấu trúc dữ liệu Vector được mô tả bởi cặp
tọa độ (X,Y) trong một hệ thống tọa độ nhất định Đi theo giá trị tọa độ X, Y của điểm còn có chỉ số cụ thể để mô tả đặc tính của điểm Đối tượng điểm có
đặc trưng: là tọa độ đơn (X,Y), không thể hiện chiều dài và diện tích
Trang 2828
Hình 1.10 Dữ liệu vector được biểu thị dưới dạng điểm
Đối tượng đường (Line): về mặt lý thuyết đường là tập hợp vô số các điểm liên
tiếp mô tả các đối tượng địa lí dạng tuyến Trong cấu trúc dữ liệu Vector thường
mô tả đường là tập hợp các cung, mỗi cung là tập hợp của các đoạn thẳng nhỏ nối giữa các điểm kề nhau đã được chọn Số liệu định vị của các yếu tố đường được lưu trong máy tính dưới dạng tập hợp các cặp tọa độ, trong đó các cặp tọa
độ đặc trưng cho điểm thuộc đường đó Với một đường thẳng ta có thể lưu giữ tọa độ của hai điểm đầu và cuối, nhưng với một đường cong số lượng điểm lưu trữ rất lớn Muốn giảm bớt số lượng ô nhớ khi lưu trữ đường cong thì đoạn thẳng giữa các điểm lưu trữ có thể sắp đặt lại theo các dạng của cung cong Khi
đó phải chỉ ra cách tạo dựng đường cùng các đặc điểm được lưu trữ, phải chỉ rõ các kiểu đường Đối với từng kiểu đường có nhiều nét chung nhau cần đặt ra
những quy tắc lưu trữ hợp lí Đối tượng đường có các đặc điểm
- Là một dãy các cặp tọa độ
- Một đường thẳng bắt đầu và kết thúc bởi nút
- Các đường thẳng nối với nhau và cắt nhau tại một nút
- Hình dạng của đường thẳng được định nghĩa bởi các đỉnh (vertices)
- Độ dài chính xác bằng các cặp tọa độ
Hình 1.11 Dữ liệu vector được biểu thị dưới dạng đường
Trang 2929
Đối tượng vùng (Polygon): vùng hay còn gọi là miền có thể coi là tập hợp vô
số điểm được giới hạn bởi một đường khép kín Các đối tượng địa lí có diện tích và đóng kín bởi đối tượng đường được gọi là đối tượng vùng (polygon) Số
liệu định vị của yếu tố vùng được xác định bởi đường bao của vùng
Hình 1.12 Dữ liệu vector được biểu thị dưới dạng vùng Nói chung không có sự khác biệt giữa việc lưu trữ số liệu định vị của yếu tố đường và yếu tố vùng, cả hai đều lưu trữ dưới dạng tập hợp các điểm của một đường Nhưng có thể nhận biết rõ ràng nếu chỉ ra số liệu định vị kèm theo kiểu yếu
tố được hiển thị (điểm, đường, vùng) Đường bao của một vùng là khép kín (tức là điểm đầu và điểm cuối trùng nhau) Ngược lại một đường khép kín không phải trong trường hợp nào cũng phản ánh một vùng (ví dụ, đường bình độ không là yếu
tố vùng) Trong thực tế các yếu tố vùng nằm kề nhau (có bờ ngăn chung), để giảm việc lãng phí bộ nhớ do lưu trữ các cạnh chung hai lần, người ta chỉ tiến hành lưu trữ mỗi cạnh một lần, đồng thời cung cấp cho từng vùng những thông tin về cạnh thuộc nó Đối tượng vùng có đặc điểm sau :
- Vùng được mô tả bằng tập các đường và điểm nhãn (Label)
- Một hoặc nhiều đường định nghĩa đường bao của vùng
- Một điểm nhãn nằm trong vùng để mô tả, xác định cho mỗi một vùng Khi nghiên cứu dữ liệu Vector ta cần quan tâm đến khái niệm Topology
Topology là khái niệm dùng để xác định các quan hệ không gian giữa các đối
tượng địa lí Topology xác định nhiều mối quan hệ như kế cận hay trùng khớp của các đối tượng địa lí
Trang 3030
Hình 1.13 Quan hệ topology Các mối quan hệ topology được xây dựng từ những thành phần đơn giản như: điểm, đường (tập hợn các điểm được liên kết lại), vùng (tập hợp các đường đươc liên kết) Dữ liệu tọa độ được loại bỏ, bởi lẽ một đường có thể biểu diễn một đối tượng dạng đường, hoặc một phần đường biên của một đối tượng vùng, hoặc cả hai Quan hệ topology có hai mô hình dữ liệu là dữ liệu Vector Topology và dữ liệu Vector Spaghetti
Cấu trúc dữ liệu kiểu Vector Topology
Hình 1.14 Yếu tố hình học và topology của dữ liệu vector
Điểm (Point Feature): được thể hiện như một Vector có độ dài bằng không
và vị trí được xác định bằng cặp tọa độ (X,Y)
Đường (Line Feature): đơn giản nhất là đường nối giữa hai điểm bất kỳ có
tọa độ (XiYi) và (XjYj) Điểm xuất phát và kết thúc của đường được gọi là nút Đường phức tạp hơn là đường cong hoặc đường gấp khúc Các đường này được tạo nên bằng các đoạn thẳng nhỏ, các đoạn thẳng nhỏ này được nối với nhau tại các đỉnh
Hình 1.15 Cấu trúc dữ liệu topology (dạng đường)
Trang 3131
Vùng (Polygon Feature): được thể hiện là một đa giác khép kín bởi các
đường Vùng là tổ hợp của đường khép kín tạo nên tọa độ của vùng tại ranh giới vùng, chính tọa độ của các điểm nằm trên các đường hình thành nên vùng
Hình 1.16 Cấu trúc dữ liệu topology (dạng vùng)
Hình 1.17 Cấu trúc dữ liệu topology (nút, đường, vùng)
Cấu trúc dữ liệu Vector Spaghetti
Đơn vị cơ sở là các cặp tọa độ trên một không gian địa lí xác định Do đó mỗi đối tượng điểm được xác định bằng một cặp tọa độ (x,y); mỗi đối tượng đường được biểu diễn bằng một chuỗi những cặp tọa độ (xiyi); mỗi đối tượng vùng được biểu diễn bằng một chuỗi những cặp tọa độ (xiyi) với điểm đầu và cuối trùng nhau
Hình 1.18 Minh họa dữ liệu Vector Spaghetti
Đặc điểm: Cấu trúc Spaghetti không ghi nhận đặc trưng kề nhau của hai vùng
kề nhau, nghĩa là tại hai vùng kề nhau sẽ có cạnh chung, cạnh chung của hai vùng
kề nhau là hai cạnh độc lập
1.2.3 Cơ sở dữ liệu thuộc tính
Cơ sở dữ liệu thuộc tính hay còn gọi là cơ sở dữ liệu phi không gian là cơ sở
dữ liệu phản ánh tính chất của các đối tượng khác nhau Ví dụ, các thông tin về chủ
Trang 3232
đất, chất lượng đất, thể loại đất … là những dữ liệu thuộc tính Dữ liệu thuộc tính được sắp xếp theo hàng và cột, mỗi hàng bao gồm nhiều loại thông tin về một đối tượng nào đó như tên, diện tích … Mỗi loại thông tin khác nhau này gọi là một trường, mỗi trường được sắp xếp tương ứng với một cột Việc sắp xếp dữ liệu thuộc tính thành bảng gồm các hàng với các cột như trên rất thuận lợi cho quá trình tìm kiếm, cập nhật, sắp xếp dữ liệu thuộc tính
Hình 1.19 Cơ sở dữ liệu thuộc tính Ngoài những đặc điểm như trên, dữ liệu thuộc tính có thể bao gồm các hình thức trình bày chuẩn của mỗi yếu tố (màu sắc, lực nét, kiểu đường …) nhằm giúp cho quá trình sử dụng các kí hiệu và dụng cụ vẽ được thuận tiện Điều này đặc biệt
có lợi để hiển thị dữ liệu đồ họa có hiệu quả và nhanh chóng Dữ liệu thuộc tính có thể được đưa vào trực tiếp từ các bảng dữ liệu, các tệp văn bản hoặc thu nhận từ các phần mềm khác nhau
Có 4 loại dữ liệu thuộc tính:
- Đặc tính của đối tượng: liên kết chặt chẽ với các thông tin đồ thị, các dữ liệu này được xử lý theo ngôn ngữ hỏi đáp cấu trúc (SQL – Structured Query Language) và phân tích Chúng được liên kết với các hình ảnh đồ thị thông qua các chỉ số xác định chung, thông thường gọi là mã địa lí và được lưu trữ trong cả hai mảng đồ thị và phi đồ thị GIS còn có thể xử lý các thông tin thuộc tính riêng rẽ và tạo ra các bản đồ chuyên đề trên cơ sở các giá trị thuộc tính
Trang 33- Chỉ số địa lí: là các chỉ số về tên, địa chỉ, khối, phương hướng định vị … liên quan đến các đối tượng địa lí, được lưu trữ trong hệ thông tin địa lí
để chọn, liên kết và tra cứu dữ liệu trên cơ sở vị trí địa lí mà chúng đã được mô tả bằng các chỉ số địa lí xác định Một chỉ số địa lí có thể bao gồm nhiều bộ xác định cho các thực thể sử dụng từ các cơ quan khác nhau
- Quan hệ không gian giữa các đối tượng: rất quan trọng cho các chức năng
xử lý của hệ thông tin địa lý Các mối quan hệ này có thể đơn giản hay phức tạp như sự liên kết, khoảng cách tương thích, mối quan hệ topology giữa các đối tượng
1.3 Tổng quan về cấu trúc cơ sở dữ liệu nền địa lý
Cơ sở dữ liệu nền địa lý là một hệ thống những dữ liệu mà các hệ thông tin địa
lý trong cùng một địa bàn (vùng quản lý) đều cần đến và có thể sử dụng chung
Cơ sở dữ liệu nền = ∩ Cơ sở dữ liệu chuyên ngành Sau khi cơ sở dữ liệu nền địa lý được xây dựng một cách chuẩn mực, các hệ thống cơ sở dữ liệu không gian chuyên ngành có thể phát triển độc lập mà không cần theo trình tự các nhóm chuyên ngành tài nguyên thiên nhiên, môi trường, hạ tầng kỹ thuật, địa chính, kinh tế - xã hội
Trang 34 Địa giới hành chính và ranh giới
Thông tin đất đai và thông tin địa chính
Cơ sở hạ tầng giao thông
Thủy hệ và các đối tượng có liên quan
Thực vật
Mạng trắc địa
Hiện nay, đối tượng nền địa lý rất được quan tâm, chúng có thể ảnh hưởng nhất định đến chất lượng cơ sở dữ liệu địa hình, địa chính hoặc một cơ sở dữ liệu đặc trưng chuyên ngành nào đó Cơ sở dữ liệu nền địa lý tạo điều kiện để cơ sở dữ liệu không gian của các chuyên ngành có thể được xây dựng đồng thời Cơ sở dữ liệu nền địa lý còn là môi trường để liên thông, tích hợp dữ liệu của các chuyên ngành khác nhau
Trang 3535
Cơ sở toán học: Cơ sở toán học của bản đồ bao gồm: phép chiếu, bố cục, tỷ lệ
và cơ sở trắc địa Đối với bản đồ nhiều mảnh thì còn bao gồm cả sự phân mảnh và đánh số các mảnh
Thủy hệ và các đối tượng có liên quan:
- Hệ thống sông ngòi, kênh mương
- Đối tượng liên quan: bãi bùn, cát, bãi san hô, bãi đá, dòng chảy, trạm
thủy văn, đập giữ nước, bờ dốc tự nhiên, kè đá, đê …
- Đường đẳng sâu, đường độ sâu
- Ghi chú các đối tượng thủy hệ
Dân cư
- Khu phố, nhà độc lập
- Đường dây điện, tường vây
- Các đối tượng kinh tế - văn hóa – xã hội (nhà máy, bệnh viên, trường học, đài tưởng niệm …)
- Ranh giới khu dân cư
- Ghi chú các điểm dân cư, tên thuyết minh …
Đường giao thông và các đối tượng có liên quan
- Hệ thống đường giao thông các cấp, đường sắt
- Các đối tượng liên quan: cầu, cống, phà, đò, sân bay, nhà ga,
- Các loại ghi chú: tên đường, tính chất cầu …
Dáng đất và chất đất
- Đường bình độ (đường bình độ cái, cơ bản, nửa khoảng, phụ, vẽ nháp)
- Điểm độ cao (độ cao khống chế, độ cao thường, )
Trang 3636
- Các loại khe rãnh, sườn dốc, vách đá sụt lở, bãi đá, đá độc lập, bãi cát khô, hang động, gò, hố, địa hình bậc thang …
- Các loại ghi chú: ghi chú điểm độ cao, ghi chú đường bình độ …
Địa giới hành chính và ranh giới: Địa giới hành chính các cấp (xác định,
không xác định); mốc và số hiệu mốc biên giới; ranh giới khu cấm; ghi chú tên hành chính ranh giới …
Thực vật
- Các loại thực vật: Rừng tự nhiên, rừng trồng, cây công nghiệp, cây ăn quả, cây bụi, cỏ, cói, lau, sậy, hoa màu …
- Ranh giới thực vật: Ghi chú tính chất cây …
Trên dữ liệu bản đồ số, các nội dung được chia thành 7 nhóm lớp: Cơ sở toán học, Thủy hệ, Dân cư, Giao thông, Địa hình, Ranh giới, Thực vật Các yếu tố thuộc một nhóm lớp được thể hiện trong một tệp tin riêng Trong mỗi tệp tin, yếu tố nội dung được chia thành các lớp theo quy định
Trang 3737
CHƯƠNG 2 THIẾT KẾ CƠ SỞ DỮ LIỆU THÔNG TIN ĐỊA LÝ 2.1 Tổ chức cơ sở dữ liệu trong ArcGis
2.1.1 Geodatabase – Cơ sở dữ liệu địa lý
Trong những năm gần đây, hai xu hướng nổi bật đã tác động sâu sắc và làm thay đổi việc lưu trữ và quản lý dữ liệu GIS Đó là dung lượng lưu trữ dữ liệu mở rộng nhanh chóng và đang tiếp tục tăng lên một cách đáng kể Thứ hai là việc ứng dụng các cơ sở dữ liệu GIS phân tán ngày một tăng Cơ sở dữ liệu phân tán là nguồn dữ liệu cho những người sử dụng có thể truy cập tới các vị trí lưu trữ thông qua mạng Nguyên nhân chính cho việc nghiên cứu, ra đời cách lưu trữ và quản lý
dữ liệu mới là nhằm đem lại cho người sử dụng một hệ thống quản lý dữ liệu hiệu quả nhất Chính vì vậy, phần mềm ArcGIS đã thiết kế mô hình cơ sở dữ liệu GIS Geodatabase nhằm cung cấp các công cụ dùng để triển khai xây dựng và quản lý một hệ thông tin địa lý thông minh
2.1.1.1 Khái niệm Geodatabase
ESRI sử dụng khái niệm Geodatabase – cơ sở dữ liệu địa lý – là nhân của mô hình thông tin địa lý và sử dụng để tổ chức dữ liệu GIS trong các lớp chuyên đề và biểu diễn không gian
Geodatabase là một cơ sở dữ liệu chứa dữ liệu thuộc tính, dữ liệu không gian
và quan hệ tồn tại giữa chúng Có thể nói Geodatabase còn là một cơ sở dữ liệu địa
lý hướng đối tượng và được quản lý thông qua một chuẩn Hệ quản trị cơ sở dữ liệu
Vì vây, các thực thi trên đối tượng trong Geodatabase chính là các luật chuẩn hóa, liên kết và quan hệ topology
Về mặt chức năng, Geodatabase là một mô hình dữ liệu biểu diễn thông tin địa
lý sử dụng công nghệ cơ sở dữ liệu quan hệ chuẩn Geodatabase hỗ trợ việc lưu trữ
và quản lý thông tin địa lý trong các bảng hệ thống cơ sở dữ liệu quan hệ nhờ kết nối ArcSDE
Trang 3838
Hình 2.1 Geodatabase trong ArcGIS
Có hai mô hình Geodatabase: Mô hình Geodatabase một người dùng (Personal Geodatabase) và mô hình Geodatabase nhiều người dùng (Enterprise Geodatabase)
- Personal Geodatabase: Mô hình sử dụng hệ quản trị cơ sở dữ liệu Access để
lưu trữ dữ liệu không gian và thuộc tính
- Enterprise Geodatabase: Mô hình sử dụng hệ quản trị cơ sở dữ liệu nhiều
người dùng như Oracle, SQL Server, DB2, Postgres để lưu trữ dữ liệu
Hình 2.2 Mô hình cơ sở dữ liệu không gian của ESRI
2.1.1.2 Cấu trúc Geodatabase
Một Geodatabase là một tập lưu trữ dữ liệu địa lý Tất cả các thành phần trong Geodatabase được quản lý trong các bảng DBMS chuẩn và sử dụng kiểu dữ liệu SQL chuẩn Dưới đây là một số thành phần có cấu trúc trong một Geodatabase sử dụng để phát triển mô hình dữ liệu địa lý:
Trang 39Là một tập chứa các feature class, các topology
và các đối tượng mạng liên kết có cùng tham chiếu không gian
Lớp đối tượng
(Feature Class)
Là một bảng chứa một trường “shape” xác định dạng hình học điểm, đường, vùng cho các đối tượng địa lý Mỗi hàng là một đối tượng địa lý
Các lớp đối tượng địa lý là các bảng được xác định với trường “shape”
các đối tượng địa lý Mạng hình học
Công cụ xử lý thông tin
Trang 4040
các đối tượng không gian của bản đồ và tương đương với một lớp (Layer) trong ArcMap Mỗi Feature class chỉ chứa một dạng đối tượng (điểm, đường, vùng) Một Feature class sẽ được gắn với một bảng thuộc tính (Attribute Table)
2.1.2 Phân loại Geodatabase
Geodatabase có thể là những cơ sở dữ liệu nhỏ, đơn giản cho tới những cơ sở
dữ liệu rất lớn theo mục đích và nhu cầu sử dụng của chúng ta Cơ sở dữ liệu nhỏ là Geodatabase trên một máy tính Trong khi đó, cơ sở dữ liệu được coi là lớn với số lượng truy cập khổng lồ của số người dùng trong các nhóm làm việc, văn phòng và công ty lớn Hai kiểu Geodatabase ứng với nó là Personal Geodatabase và Enterprise Geodatabase
- Personal Geodatabase có định dạng file mdb (định dạng Microsoft
Access) và chỉ có thể sửa chữa được với một người dùng duy nhất tại một thời điểm Một Personal Geodatabase có dung lượng tối đa là 2GB và chỉ chứa dữ liệu Vector
- Enterprise Geodatabase còn được gọi là ArcSDE hoặc Multiuser Geodatabase Enterprise Geodatabase cho phép nhiều người dùng có thể cùng sử dụng (đọc hay sửa chữa) dữ liệu Vector và Raster trên Geodatabase đó Do vậy, Enterprise Geodatabase chủ yếu được sử dụng trong các nhóm làm việc và các doanh nghiệp lớn Multiuser Geodatabase
là sự kết hợp của ArcSDE và một hệ quản trị cơ sở dữ liệu như IBM, DB2, Informix, Oracle hoặc SQL Server
Dữ liệu không gian được lưu trữ trong hệ quản trị cơ sở dữ liệu và ArcSDE cho phé xem và làm việc với dữ liệu từ các phần mềm ứng dụng GIS Chẳng hạn như khi làm việc với SQL Server, chúng ta có thể truy cập trực tiếp tới dữ liệu là các lớp đối tượng địa lý hay topology từ ArcCatalog hoặc ArcMap