- Phân loại có kiểm định:
c. Nhập dữ liệu thuộc tính
Dữ liệu thuộc tính được lưu dưới dạng các bảng. Bảng dữ liệu mô tả các đặc điểm địa lý, sau đó các phép truy vấn và phân tích dữ liệu được thực hiện trên cơ sở dữ liệu. Dữ liệu thuộc tính có thể xây dựng trực tiếp trong các hệ thống GIS như ArcGIS, IDRISI, Mapinfo. Các phần mềm này cho phép tích hợp dữ liệu không gian (bản đồ) và dữ liệu thuộc tính trong cùng một môi trường.
Tuy nhiên, ta có thể sử dụng các phần mềm quản trị dữ liệu khác để nhập dữ liệu thuộc tính, sau đó dữ liệu thuộc tính được nhập vào hệ GIS. Các hệ quản trị cơ sở dữ liệu như Microsoft Access, Microsoft SQL Server, Oracle cho phép ta có thể tiến hành nhập dữ liệu thuộc tính rất tiện ích, đặc biệt là Microsoft Access. Dữ liệu thuộc tính trong các hệ thống GIS được tổ chức theo cấu trúc dữ liệu theo mô hình dữ liệu quan hệ. Theo mô hình dữ liệu quan hệ, ta xác định cấu trúc bảng thuộc tính và mối quan hệ giữa các bảng trong cơ sở dữ liệu nhất định. Xây dựng cơ sở dữ liệu bảng thuộc tính có thể thực hiện các nội dung cơ bản sau:
Xác định mục đích và nhiệm vụ của cơ sở dữ liệu: Đây là bước quan trọng vì nó
định hình cấu trúc cơ sở dữ liệu. Mục đích của cơ sở dữ liệu quy định nội dung thông tin của cơ sở dữ liệu. Ví dụ, nhiệm vụ của cơ sở dữ liệu địa chính là hỗ trợ những nội dung quản lý Nhà nước về đất đai; cung cấp dịch vụ thông tin cho các ngành khác như nông nghiệp, xây dựng, giao thông, qui hoạch đô thị và các lĩnh vực có liên quan; hỗ trợ cho hình thành và phát triển của thị trường bất động sản và cung cấp thông tin cho người dân. Từ nhiệm vụ này, nội dung dữ liệu thuộc tính địa chính bao gồm các thông tin:
- Thửa đất gồm mã thửa, diện tích, tình trạng đo đạc lập bản đồ địa chính;
- Các đối tượng có chiếm đất nhưng không tạo thành thửa đất (không có ranh giới khép kín trên bản đồ) gồm tên gọi, mã của đối tượng, diện tích của hệ thống thủy văn, hệ thống thủy lợi, hệ thống đường giao thông và các khu vực đất chưa sử dụng không có ranh giới thửa khép kín;
- Người sử dụng đất hoặc người quản lý đất gồm tên, địa chỉ, thông tin về chứng minh nhân dân hoặc hộ chiếu, văn bản về việc thành lập tổ chức;
- Tình trạng sử dụng của thửa đất gồm hình thức sử dụng, thời hạn sử dụng, nguồn gốc sử dụng, những hạn chế về quyền sử dụng đất, số hiệu Giấy chứng nhận quyền sử
dụng đất đã cấp, mục đích sử dụng, giá đất, tài sản gắn liền với đất, nghĩa vụ tài chính về đất đai;
- Những biến động về sử dụng đất trong quá trình sử dụng gồm những thay đổi về thửa đất, về người sử dụng đất, về tình trạng sử dụng đất.
Xác định các đối tượng địa lý được mô tả trong bảng dữ liệu thuộc tính: Các đối
tượng của bảng dữ liệu thuộc tính phụ thuộc vào các đối tượng xuất hiện trong bản đồ như bảng dữ liệu thửa đất và các thông tin mô tả thửa đất. Số lượng các đối tượng phụ thuộc vào mục đích của từng cơ sở dữ liệu. Ví dụ, cơ sở dữ liệu địa chính, cơ sở dữ liệu sử dụng đất, cơ sở dữ liệu đa dạng sinh học, cơ sở dữ liệu thổ nhưỡng, cơ sở dữ liệu cây trồng, cơ sở dữ liệu xói mòn đất bao gồm các đối tượng khác nhau.
Xác định tập hợp thuộc tính muốn ghi lại về các đối tượng này: Ta tiếp tục ví dụ về
thửa đất ở ví dụ bước trên. Giai đoạn này là xác định thuộc tính của thửa đất. Ví dụ, thuộc tính thửa đất có thể bao gồm các thông tin về đặc điểm tự nhiên, kinh tế và xã hội thửa đất. Các thông tin mô tả đặc điểm tự nhiên như số hiệu thửa, vị trí thửa, diện tích, loại sử dụng đất. Các thông tin kinh tế có thể gồm hạng đất và mức thuế của thửa đất mà chủ sử dụng phải nộp. Các thông tin về xã hội có thể gồm thông tin về chủ sử dụng như tên chủ sử dụng, địa chỉ, số chứng minh thư nhân dân, tình trạng pháp lý của thửa đất, các ràng buộc về quyền sử dụng.
Đặt tên trường và xác định kiểu dữ liệu cho mỗi trường của bảng thuộc tính: Tiếp
nối ví dụ được nêu ở các bước trên. Bước này sẽ xác định tên ngắn ngọn về các trường thuộc tính của thửa đất và kiểu dữ liệu cho từng thuộc tính. Ví dụ, tạo bảng dữ liệu thuộc tính địa chính trong Microsoft Access và sau đó bảng dữ liệu này được nhập vào ArcGIS để tích hợp với bản đồ địa chính. Trong môi trường Microsoft Access, bảng thuộc tính được tạo ra đơn giản bằng cách đặt tên cho các trường và các kiểu dữ liệu cho mỗi trường. Rất nhiều kiểu dữ liệu hỗ trợ trong Microsoft Access như Number (số nguyên), Text (văn bản), Memo (bản ghi nhớ), Date/Time (dữ liệu ngày tháng), Currency (dữ liệu về các loại tiền), AutoNumber (dữ liệu cho trường khóa chính), Yes/No (dữ liệu logic).
Xác định số bảng thuộc tính trong của cơ sở dữ liệu: Dữ liệu thuộc tính về một đối
tượng có thể gồm nhiều thuộc tính, vì vậy một bảng dữ liệu sẽ chứa nhiều trường. Để tiện ích cho quá trình nhập dữ liệu, biên tập, truy vấn, cập nhật hay phân tích dữ liệu thuộc tính, Tập các thuộc tính có thể chia ra thành nhiều bảng dữ liệu thuộc tính riêng biệt. Như đề cập bên trên, tập dữ liệu thuộc tính thửa đất có thể tổ chức thành nhiều bảng dữ liệu thuộc tính khác nhau. Ví dụ, ta chia tập thuộc tính thửa đất thành bảng dữ liệu điều kiện tự nhiên của thửa đất, bảng dữ liệu về chủ sử dụng và bảng dữ liệu về các thông tin liên quan đến đăng ký đất đai.
Xác định mối quan hệ giữa các bảng dữ liệu thuộc tính: Các bảng dữ liệu thuộc tính
cần liên kết với nhau theo cấu trúc mô hình dữ liệu quan hệ. Sự quan hệ này hỗ trợ cho hoạt động truy vấn và phân tích dữ liệu ở bước sau được thuận lợi hơn.
4.1.2. Kết nối dữ liệu không gian và thuộc tính
Hầu hết các thiết kế cơ sở dữ liệu tổ chức cơ sở dữ liệu thành nhiều bảng, mỗi bảng mô tả một số thuộc tính về một thực thể dữ liệu thay cho lập một bảng lớn có chứa tất cả thông tin về thực thể dữ liệu. Khi cần thông tin từ hai bảng, ta có thể liên kết hai bảng với nhau. Kết nối dữ liệu không gian và thuộc tính có thể vận dụng nguyên lý này. Thực chất của dữ liệu không gian và thuộc tính được lưu trong máy tình là hai bảng dữ liệu riêng
biệt. Như vậy, ta có thể kết nối bảng dữ liệu không gian và bảng dữ liệu thuộc tính thành một bảng lớn hơn. Để kết nối hai loại bảng dữ liệu này, trong quá trình xây dựng cơ sở dữ liệu cần phải thiết kế dữ liệu theo mô hình dữ liệu quan hệ. Nghĩa là bảng dữ liệu không gian cần chứa trường khóa ngoài (Foreign key) mà trường này là trường khóa chính trong bảng dữ liệu thuộc tính. Việc kết nối giữa bảng đối tượng bản đồ và bảng dữ liệu thuộc tính được thực hiện trên cơ sở mối quan hệ 1-1(đơn -đơn).
4.1.3. Hiển thị và xuất dữ liệu
Hiển thị dữ liệu không gian trong GIS là một ưu điểm chính phân biệt hệ thống thông tin địa lý với các hệ thống thông tin khác. Hệ GIS cho phép hiển thị dữ liệu không gian dưới nhiều hình thức khác nhau như bản đồ, bảng thống kê, đồ thị, biểu đồ.
Thành phần cơ bản của bản đồ số dạng Vector bao gồm đối tượng điểm, đường và vùng. Như vậy, tập các ký hiệu điểm, ký hiệu đường và ký hiệu vùng là đối tượng chính để hiển thị bản đồ dữ liệu dạng Vector. Đối tượng điểm được xác định bằng tọa độ x,y. Nếu ta không sử dụng ký hiệu điểm để hiển thị bản đồ, ta khó có thể phân biệt được các đối tượng khác nhau. Ví dụ, các đối tượng điểm của bản đồ địa chính gồm nhiều đối tượng điểm khác nhau như điểm thiên văn, điểm tọa độ nhà nước, điểm địa chính, điểm độ cao nhà nước, điểm khống chế đo vẽ, điểm giao lưới tọa độ. Mỗi đối tượng dạng điểm này được hiển thị bằng một ký hiệu cụ thể. Với đối tượng dạng đường cũng rất đa dạng như đường sắt, đường ô tô, đường đất, đường mòn, ngõ phố, đường nội đồng. Các loại đường khác nhau này sẽ dễ dàng nhận ra nếu ta hiển thị chúng bởi các ký hiệu đường khác nhau. Các đối tượng dạng vùng rất phong phú như kiểu sử dụng đất, các đơn vị phân loại đất, các đơn vị hành chính các cấp. Các loại sử dụng đất cần được hiển thị bởi các kiểu ký hiệu khác nhau để dễ cho phân biệt các kiểu sử dụng đất.
Các phần mềm GIS thường thiết kế sẵn hệ thống ký hiệu điểm, đường và vùng rất phong phú để hỗ trợ người dùng hiển thị thông tin hiệu quả. Hệ thống ký hiệu có thể tổ chức thành các thư viện ký hiệu khác nhau. Ví dụ, phần mềm MicroStation, hệ thống các ký hiệu điểm và pattern được thiết kế và lưu sẵn trong thư viện ký hiệu điểm (Cell Library), thư viện ký hiệu đường (Line Style Library). Tuy nhiên, ta có thể thiết kế thêm các ký hiệu điểm, đường và pattern cho phù hợp với mục đích của người dùng trong MicroStation.
Phần mềm ArcGIS, hệ thống ký hiệu điểm, đường và pattern cũng rất phong phú để hỗ trợ người dùng hiển thị dữ liệu rất hiệu quả. Ta có thể sử dụng các ký hiệu sẵn có trong thư viện để hiển thị bản đồ hay biên tập lại đối tượng cho phù hợp với mục đích của người dùng thông qua chức năng biên tập ký hiệu (Edit Symbol) của ArcGIS.
Với bản đồ số cấu trúc dạng Raster, đơn vị cơ sở là pixel. Mỗi bản đồ coi như một ma trận số hay như bề mặt thống kê. Phương tiện để hiển thị sự khác nhau về giá trị giữa các pixel thông thường là màu (color). Mỗi màu đặc trưng cho một giá trị pixel hay nhóm pixel có cùng giá trị. Trong các phần mềm GIS, thư viện các dải màu đã được thiết kế sẵn để hỗ trợ hiển thị dữ liệu dạng Raster, người dùng có thể lựa chọn các dải màu cho phù hợp với lớp đối tượng cần hiển thị. Tuy nhiên, ta có thể thiết kế thêm dải màu phù hợp với mục đích của người dùng.
Với các đối tượng là chữ viết xuất hiện ở cả bản đồ số dạng Vector và Raster, hiển thị nhóm đối tượng này đơn giản hơn đối tượng điểm, đường, vùng và pixel. Các đặc điểm chính gồm phông chữ, kích thước chữ, kiểu chữ.
4.2. Phân tích dữ liệu trong GIS
4.2.1. Tổng quan về phân tích dữ liệu trong GIS
Phân tích dữ liệu GIS là chức năng cơ bản nhất của các hệ thống thông tin địa lý. Phân tích dữ liệu trong GIS nhằm tạo ra thông tin hữu ích đáp ứng nhu cầu thông tin của người sử dụng. Hiện nay, có nhiều quan điểm khác nhau về phân tích dữ liệu trong hệ thống thông tin địa lý. Theo nghĩa hẹp, phân tích dữ liệu địa lý là việc sử dụng các phương pháp để phân tích dữ liệu địa lý. Theo nghĩa rộng, phân tích dữ liệu địa lý là quá trình nghiên cứu và tìm ra quy luật phân bố theo không gian của hiện tượng và quá trình diễn ra trên bề mặt Trái đất (Murayama, 2011). Mục tiêu cuối cùng của phân tích dữ liệu là cung cấp thông tin hữu ích cho người sử dụng thông tin địa lý như các cơ quan quản lý, người dân và doanh nghiệp. Khái niệm phân tích dữ liệu trong GIS có sự khác nhau trong từng lĩnh vực ứng dụng cụ thể. Ví dụ, trong lĩnh vực quản lý đất đai, phân tích dữ liệu địa lý thường thực hiện các phép truy vấn dữ liệu từ cơ sở dữ liệu, tính diện tích thửa đất, đo chiều dài, các phép tính chồng xếp bản đồ để xây dựng các bản đồ đánh giá đất và bản đồ quy hoạch sử dụng đất. Trong lĩnh vực khoa học môi trường, phân tích dữ liệu là quá trình tính toán hay mô hình hóa dự báo về diễn biến của các hiện tượng môi trường như dự báo xói mòn đất, tính toán phân bố ô nhiễm nước, mô hình hóa chuyển đổi sử dụng đất, các mô hình dự báo biến đổi khí hậu và xu hướng khí hậu cực đoan, dự báo mực nước biển dâng, dự báo lũ lụt.
Theo Bonham-Carter (1996), các phương pháp phân tích dữ liệu địa lý có thể được nhóm thành ba nhóm phương pháp theo số lớp dữ liệu sử dụng trong phân tích: Nhóm phương pháp phân tích dữ liệu trên một lớp dữ liệu, hai lớp dữ liệu, nhiều lớp dữ liệu và phương pháp xử lý dữ liệu chung.
Phân tích không gian dựa trên một lớp dữ liệu nhằm phân tích mối liên quan giữa các đối tượng trong một bản đồ. Các dạng phân tích với một lớp dữ liệu bao gồm đo lường (measurements), phân loại (classification), truy vấn (database queries); phân tích lân cận; phân tích mạng. Nhóm phương pháp phân tích đo lường, phân lớp và truy vấn có đặc điểm chung là không làm thay đổi cơ bản dữ liệu gốc để tạo dữ liệu mới. Đo lường là các phép tính khoảng cách giữa các đối tượng, tính chu vi đối tượng vùng, tính diện tích và thể tích. Truy vấn là các phép tính tìm kiếm thông tin từ cơ sở dữ liệu dựa trên các điều kiện nhất định. Phân lớp là sự ấn định lại giá trị cho các đối tượng của lớp dữ liệu. Tất cả các chức năng phân tích của nhóm này đều thực hiện dựa trên một lớp dữ liệu Vector hay Raster. Nhóm chức năng phân tích lân cận bao gồm phân tích vùng đệm (buffer analysis) và chức năng phân tích phân bố (scattering). Phân tích tính mạng (network analysis) cho phép tìm hiểu các đối tượng liên kết với nhau theo mạng lưới. Những ứng dụng trong thực tiễn là rất đa dạng như phân tích lưu lượng vận chuyển hàng hóa dịch vụ của mạng lưới giao thông hay tính toán lưu lượng dòng chảy của mạng lưới sông ngòi.
Phân tích dữ liệu dựa trên hai lớp dữ liệu được thực hiện thông qua chồng xếp (map overlay) hai lớp bản đồ. Hai lớp dữ liệu được chồng xếp trên cơ sở các phép tính số học và đại số để tạo ra lớp dữ liệu mới. Phân tích chồng xếp được thực hiện phổ biến với dữ liệu Raster. Tuy nhiên, dữ liệu Vector cũng có thể thực hiện chức năng chồng ghép. Nguyên lý chung của chồng ghép là kết hợp các đối tượng ở cùng một vị trí. Các phép toán đại số bản đồ (map algabra), công thức tính toán (spatial models), phép tính logic và
các loại thuật toán khác có thể sử dụng để thực hiện sự kết hợp.Ví dụ, ta chồng xếp hai bản đồ năng suất cây trồng của hai vụ, ta sẽ tính được tổng năng suất bình quân năm trên đơn vị diện tích. Các lớp dữ liệu được kết hợp để tạo ra lớp thông tin kết quả mới.
Phân tích dữ liệu không gian dựa trên nhiều lớp dữ liệu là dạng phân tích nâng cao và phức tạp nhất. Các phân tích nâng cao này thường dựa trên các mô hình tính toán phức tạp như mô hình artificial neural netwworks, mô hình cellular automata, mô hình Markov chain, mô hình fuzzy logic; các công thức tính toán khác nhau để kết hợp dữ liệu đầu vào và tạo ra lớp thông tin mới. Các phép toán đại số bản đồ (map algabra), công thức tính toán (spatial models), phép tính logic và các loại thuật toán khác có thể sử dụng để thực hiện sự kết hợp. Ví dụ, để tính lượng xói mòn đất, ta có thể sử dụng phương trình tính toán lượng đất mất tại mỗi vị trí theo phương trình USLE. Phương trình này được mô tả như sau: A=RKLSCP. Trong đó, A là lượng đất xói mòn hành năm (tấn ha-1), R là chỉ số xói mòn do mưa, K là chỉ số xói mòn do tính chất đất, L là chiều dài sườn dốc, S là độ dốc (%), C là chỉ số canh tác, và P là chỉ số bảo vệ đất. Mỗi chỉ số của USLE cần được