Một số phương pháp phân tích dữ liệu GIS

Chương 3: CÁC CHỨC NĂNG CỦA GIS

3.3.3. Một số phương pháp phân tích dữ liệu GIS

a) Phương pháp chồng xếp bản đồ

Chồng xếp bản đồ là phương pháp đặc trưng và rất phổ biến trong chức năng phân tích khơng gian GIS. Chồng xếp bản đồ chính là sự gộp chung dữ liệu khơng gian và thuộc tính của hai hay nhiều lớp dữ liệu để tạo ra một lớp dữ liệu mới. Lớp dữ liệu mới có thể mang đặc điểm của các lớp chồng xếp thành phần hoặc mang đặc tính hồn tồn mới. Chồng xếp bản đồ thực chất là phương pháp ghép lớp theo chiều thẳng đứng. Các đối Hình 3.11: Phương pháp chồng xếp bản đồ

tượng trong mỗi lớp dữ liệu được bốtrí và hợp nhất tạo thành một lớp dữ liệu duy nhất. Khi chồng xếp dữ liệu không gian, các lớp dữ liệu thuộc tính cũng được chồng ghép với nhau tạo lớp dữ liệu mới chứa đựng các thông tin gắn với lớp dữ liệu đầu vào. Phương pháp chồng xếp bản đồ thường ứng dụng thuật toán đại số bản đồ và hàm toán tử logic để sắp xếp lựa chọn các đối tượng chồng xếp.

Trên thực tế, có rất nhiều bài toán ứng dụng GIS sử dụng phương pháp chồng xếp bản đồ. Ví dụ: Muốn nghiên cứu sự biến động tình hình sử dụng đất hoặc diện tích rừng qua hai thời điểm khác nhau, chúng ta phải chồng xếp bản đồ hiện trạng của 2 thời điểm đó để tạo ra lớp bản đồ mới có ranh giới phần biến động về diện tích; Muốn xác định vị trí khu đất mở trường học với điều kiện các khu dân cư không quá 2 km, nằm trên đất nông nghiệp, cạnh đường quốc lộ ta phải chồng xếp 3 lớp bản đồ: phân bốdân cư, hiện trạng sử dụng đất, giao thông. Hoặc khi thành lập các bản đồ cảnh quan, bản đồ đơn vị đất, bản đồsinh khí hậu, bản đồ đánh giá thích nghi sinh thái cây trồng,... đều phải sử dụng phương pháp chồng xếp dữ liệu bản đồ.

Phương pháp chồng xếp bản đồ có sự khác nhau giữa chồng xếp dữ liệu vector và chồng xếp dữ liệu raster. Dữ liệu vector các đối tượng địa lý được xác định bởi các cặp tọa độ x, y đi kèm với bảng thuộc tính. Chồng xếp dữ liệu vector có 3 loại: chồng xếp điểm trên đa giác, chồng xếp đường trên đa giác và chồng xếp đa giác với đa giác.

- Chồng xếp điểm trên đa giác: Các điểm được gán các thuộc tính của đa giác mà trên đó chúng được chồng xếp lên nhau. Dữ liệu thuộc tính sẽđược cập nhật sau khi tất cảcác điểm được kết hợp với đa giác.

- Chồng xếp đường lên đa giác: Đường được chồng lên đa giác để tạo ra tập hợp các đường mới chứa đựng các thuộc tính của các đường ban đầu và của đa giác. Trong quá trình chồng xếp, đối tượng đường và đa giác được cắt thành các điểm và cung nút, chúng hình thành các topo liên kết mới và thành lập các bảng thuộc tính cập nhật.

- Chồng xếp đa giác lên đa giác:Các lớp dữ liệu chuyên đề chứa các đa giác được chồng xếp lên một lớp khác đểhình thành một lớp mới với các đa giác mới. Mỗi đa giác mới là một đối tượng mới được biểu diễn bằng một dòng trong bảng thuộc tính. Mỗi đối tượng có một thuộc tính mới được biểu diễn bằng một cột trong bảng thuộc tính.

Chồng xếp dữ liệu raster sẽđơn giản và hiệu quả hơn chồng xếp vector. Khi chồng xếp dữ liệu raster, chỉ cần kiểm tra xem chúng có chứa các giá trịô lưới hay không, tiến hành so sánh ô với ô, các ô trong mỗi lớp chuyên đề sẽ được chồng xếp lên nhau. Sau khi chồng xếp, các ô tổ hợp mới được hình thành từcác ơ ban đầu và tạo ra lớp chuyên đề mới. Dữ liệu raster tồn tại dưới dạng các ô lưới nên trong quá trình chồng xếp khơng cần phân biệt đối tượng điểm, đường, hay vùng. Các ô lưới trong dữ liệu raster đều có kích thước bằng nhau nên việc chồng xếp diễn ra thuận lợi, có độchính xác cao, khơng tạo ra các đa giác nhỏkhông mong muốn.

b) Phương pháp nội suy khơng gian

Nội suy khơng gian là q trình dựbáo các giá trị chưa biết từcác giá trị đã biết ở các điểm lân cận, phương pháp này dựa trên cơ sở thuật toán nội suy không gian. Phương pháp nội suy được chia thành 3 nhóm chính, nội suy cục bộ, nội suy tồn cục và Kriging.

Nhóm nội suy cục bộ bao gồm các phương pháp nội suy theo điểm gần nhất, nội suy tuyến tínhvàphương pháp tính trung bình trọng số.

- Phương pháp nội suy theo điểm gần nhất: Phương pháp này dựa trên cơ sở xác định vùng ảnh hưởng (vùng Thiessen) từ điểm gần nhất, các điểm bên trong vùng ảnh hưởng có cùng giá trị với nhau. Giá trị tại các điểm không được quan sát sẽ được ước tính bằng cách sử dụng các giá trị đã biết ở những vị trí lân cận bằng hàm toán học. Phương pháp nội suy theo điểm gần nhất coi những điểm gần nhau tương tự những điểm ởxa, nên mức độ sai số lớn, đặc biệt những vùng có mật độđiểm quan sát thưa.

Hình 3.12: Phương pháp nội suy theo điểm gần nhất

Phương pháp này thường được sử dụng rộng rãi trong phân tích khí hậu (nội suy lượng mưa, nội suy nhiệt độ, khí áp), nội suy vùng ơ nhiễm từcác điểm quan trắc,... Ví dụ: Khi xây dựng bản đồ lượng mưa cho một khu vực mà dữ liệu quan trắc điểm hạn chế, dữ liệu từ trạm khí tượng gần nhất được sử dụng. Vùng ảnh hưởng được nội suy xung quanh mỗi trạm khí tượng. Khi đó, vịtrí các trạm đo mưa được thể hiện bằng các điểm, vùng ảnh hưởng được tạo xung quanh mỗi điểm và giá trịmưa được chỉđịnh cho mỗi vùng. Lượng mưa trong vùng xung quanh trạm khí tượng đã biết sẽ bằng chính lượng mưa đo được trên trạm khí tượng. Tổng lượng mưa trên những vùng có thểđược tính tốn như tổng lượng mưa đo được tại trạm đo nhân với diện tích của vùng.

- Phương pháp nội suy tuyến tính: Phương pháp này thành lập trên cơ sở giả thiết là có mối quan hệ tuyến tính giữa sự chênh lệch giá trị của 2 điểm và khoảng cách giữa chúng. Ví dụ: Nội suy địa hình khi biết sựthay đổi tuyến tính vềđộ cao giữa 2 điểm ở độcao ghi được là 50 m và 100 m. Khoảng cách giữa hai điểm được biểu diễn trên bản đồlà 10cm. Điều này có nghĩa là mỗi cm tương ứng với sựtăng giảm độcao là 5 m.

Trên thực tế, rất hiếm gặp bề mặt không gian thay đổi một cách tuần tự tuyến tính. Vì vậy, phương pháp nội suy tuyến tình thường sử dụng hàm Spline để mô tả bề mặt.

Spline là phương trình tốn học miêu tả bề mặt gần với bề mặt thực tế nhất thông qua tập hợp các điểm quan sát xung quanh điểm chưa biết. Khi bề mặt được mô tả thơng qua phương trình tuyến tính, nó ứng với nội suy tuyến tính. Cuối cùng, kết quảcho hàm toán học dùng để dựđoán các điểm chưa biết (Hình 3.13).

Hình 3.13: Nội suy tuyến tính và nội suy theo hàm Spline

- Phương pháp tính trọng số trung bình: Đây là phương pháp nhằm dự đoán một giá trịchưa biết, dựa vào trọng sốtrung bình của các giá trịđểtính tốn. Giá trị dựđoán được rút ra từ tập hợp các điểm quan sát nằm trong một khoảng bán kính cho trước kể từ một điểm chưa biết. Các trọng số được gắn cho từng điểm dựa theo mức độ ảnh hưởng được thừa nhận có ở mỗi điểm trong tính tốn điểm chưa biết. Giá trị được tính theo biểu thức sau:        i i i ixZ X h x Z 1 . .

Trong đó: Z(x) là giá trị dựđốn tại điểm x; Z(Xi) là giá trị quan sát tại điểm Xi; hi là trọng số cho Xi.

Khi khoảng cách được dùng để xác định trọng số, phương pháp này gọi là phương pháp “trọng số trung bình”. Tùy thuộc vào khoảng cách, một giá trị có sự ảnh hưởng ít nhiều đến việc dự đoán điểm chưa biết. Trọng số tỷ lệ nghịch với khoảng cách, nên điểm quan sát gần với điểm chưa biết sẽ có nhiều khả năng nhận được giá trịtương tự hơn so với một điểm quan sát khác ởxa điểm chưa biết (Hình 3.14).

Khác với nhóm phương pháp nội suy cục bộ, phương pháp nội suy toàn cục thường nghiên cứu xu hướng tổng quát của bề mặt (trend). Hướng tiếp cận chung nhất được dùng để phân tích bề mặt. Một tập hợp điểm được dùng để tìm ra biểu thức toán học diễn tả một bề mặt hồn chỉnh có khả năng thực hiện tốt. Phương pháp tồn cục thỏa mãn một bề mặt đa thức thông qua các dữ liệu điểm đã biết khi sử dụng hàm đa thức bậc cao (Hình 3.15). Kết quả cho ra một phương trình tốn học có thểdùng để dựđốn các giá trị chưa biết. Sựphân tích dùng cho việc tìm ra phương trình trên gọi là phân tích hồi quy. Đây cũng là phương pháp phổ biến để nội suy, dự báo không gian phát triển của các hiện tượng địa lý.

Hình 3.15: Phương pháp nội suy tồn cục

Có nhiều phương pháp khác nhau để nội suy bề mặt: phương pháp tạo hướng, phương pháp tạo khoảng cách, phương pháp tạo đường tròn đồng tâm. Về cơ bản các phương pháp đều phải đo khoảng cách giữa các điểm đối với dữ liệu vector và đo khoảng cách giữa các ô đối với dữ liệu raster. Vì vậy, khoảng cách giữa các điểm (hoặc các ơ) gần nhau thì mức độchính xác sẽcao hơn. Trên thực tế, để giảm độ phức tạp có thể giảm bớt sốlượng các điểm đo bằng phương pháp tạo trọng số, tạo gờ. Đặc biệt, áp dụng nội suy trong các trường hợp bề mặt phức tạp như địa hình bờ biển, vách núi, địa hình hàm ếch.

Phương pháp nội suy Kriging là phương pháp tối ưu để nội suy khơng gian dựa vào cách tính tốn thống kê bề mặt. Kriging sử dụng khái niệm về sự khác biệt có tính chất vùng giữa các khu vực khác nhau nhưng đảm bảo tính liên tục. Về bản chất, Kriging nội suy không gian dựa trên phương pháp phân tích bề mặt và tính trọng số trung bình. Phân tích bề mặt được vận dụng để tìm ra một phương trình tốn học diễn tả xu hướng tổng quát của bề mặt nhưng khơng tính đến các quy luật cục bộ. Nội suy cục bộ dùng để tính độ lệch từ xu hướng toàn cục do đối tượng khơng tn theo quy luật chung. Phương pháp tính trọng số trung bình dùng để tính sự biến thiên này. Trọng số được xác định bởi xu hướng của những độ lệch giữa đường cong bề mặt toàn cầu và các điểm quan sát.

Trong Kriging, một giá trị chưa biết Z(x) có thể được biểu diễn như tổng của hai hợp phần là xu hướng toàn cục m(x) của dữ liệu và sự biến thiên cục bộ e’(x). Biến thiên cục bộnày phụ thuộc vào các giá trị dữ liệu xung quanh. Còn một sai số

phi không gian phụ thuộc nữa cần được xem xét gọi là e” và được biểu diễn bởi phương trình:

 x m   x e' x e''

Z   

Hình 3.16: Phương pháp nội suy Kriging

Kriging tạo lập lên bề mặt phức tạp với 3 giá trịriêng biệt. Giá trị thứ nhất được gọi là độ lệch, phản ánh cấu trúc bề mặt, tạo bề mặt cơ sởnhư một trường trong một hướng bất kỳ. Giá trị thứhai được đưa ra nhằm tổng hợp sựkhác biệt của bề mặt; ví dụ: sựnhô lên hoặc lõm xuống của bề mặt, chúng xuất hiện ngẫu nhiên nhưng có mối quan hệ với khoảng khơng gian nào đó. Giá trị thứba là giá trị để chỉnh lý nhiễu có liên quan đến hướng chung của bề mặt. Ví dụ: Ta phân tích bề mặt địa hình khi leo từchân lên đỉnh núi: sựthay đổi địa hình từchân lên đỉnh núi được gọi là cấu trúc bề mặt (độ lệch); Dọc đường leo núi ta gặp nhiều chỗ lồi lõm cục bộ xuất hiện ngẫu nhiên song chúng đều có mối liên hệ với độ cao địa hình, đây chính là sự khác biệt của bề mặt; Đôi chỗ ta thấy xuất hiện tảng đá dốc đứng, hiện tượng này được gọi là nhiễu vềđộ cao, chúng khơng có mối quan hệ trực tiếp với bề mặt.

Kriging là một trong những phương pháp nội suy cho kết quả tốt nhất, đảm bảo độ chính xác và tốc độ tính tốn, đặc biệt trong nội suy các giá trị độ cao bị mất. Chất lượng của phép nội suy Kriging phụ thuộc vào số lượng và sựphân bố của các điểm đã biết vào độ chính xác của các giá trị của dữ liệu ghi nhận và hàm toán học được chọn. Kết quả tốt nhất thu được khi hàm toán chạy theo một phương thức giống như hiện tượng. Tùy thuộc vào mục đích, độ gồ ghề của bề mặt, sốlượng và sựphân bố của các điểm đã biết, kỹ nghệ nội suy tương thích cần thiết được lựa chọn.

Điểm quan trắc

Xu hướng toàn cục m(x) Sự biến thiên cục bộ e’(x) Sai số phi không gian e’’

c) Phương pháp truy vấn thông tin

Truy vấn thông tin là hệ thống các phương pháp phân tích dữ liệu đồng thời là một chức năng phân tích khơng gian cơ bản của GIS. Truy vấn thơng tin là q trình xửlý tìm kiếm thơng tin dựa trên các điều kiện đặt ra của người sử dụng dựa trên cơ sở dữ liệu có sẵn. Ví dụ: Tìm khoảng cách gần nhất giữa hai điểm; xác định khu đất cần thiết để xây dựng dự án; Tính diện tích các khoanh vi cảnh quan,... Truy vấn thông tin bao gồm: truy vấn thông tin khơng gian, truy vấn thơng tin thuộc tính hoặc truy vấn đồng thời thông tin khơng gian và thuộc tính.

Có nhiều phương pháp truy vấn thơng tin khác nhau, mỗi một phương pháp thường tạo ra các ứng dụng GIS trong các bài toán khác nhau. Sau đây là một sốphương pháp truy vấn thông tin được dùng phổ biến nhất:

- Trích lọc dữ liệu: Trích lọc dữ liệu là phương pháp đơn giản và phổ biến nhất trong truy vấn thông tin, bao gồm việc tìm kiếm, chọn lọc sắp xếp và hiển thị dữ liệu được chọn. Q trình trích lọc dữ liệu khơng cần thiết phải điều chỉnh vị trí của đối tượng hoặc tạo ra một đối tượng mới. Trong GIS, dữ liệu cịn có thể truy cập theo tiêu chuẩn vịtrí của chúng và theo các quan hệkhơng gian với các vật thểđịa lý khác. Trích lọc dữ liệu thường được sử dụng trong các bài toán hỏi đáp và hiển thị các dữ liệu đơn giản, sẵn có trong kho dữ liệu. Ví dụ: Lựa chọn 5 đơn vị đất đai có diện tích lớn nhất trong bản đồđơn vịđất đai; Tìm kiếm các tỉnh có mật độdân số lớn hơn 1.000 người/km2 trên bản đồ mật độdân số Việt Nam.

- Tìm kiếm khơng gian vùng đệm (Buffer): Phương pháp này được sử dụng trong việc xác định các đối tượng xung quanh một hay nhiều các điểm mốc. Quá trình thực hiện bao gồm việc tạo ra một vùng đệm quanh các điểm mốc đó và sau đó xác định các đối tượng căn cứvào vị trí của chúng so với vùng đệm này. Một bài tốn rất điển hình cho phương pháp Buffer này là bài toán về xác định phạm vi ô nhiễm môi trường. Giả sử, tồn tại một nhà máy hóa chất gần khu dân cư. Mục đích của bài tốn là xác định các vịtrí thuận tiện nhất trên bản đồ cho việc di dời khu dân cư trong trường hợp nhà máy hoá chất gặp sự cố. Các nhà máy hoá chất và khu dân cư được biểu diễn trên bản đồ bằng các đối tượng điểm. Mỗi nhà máy bao gồm các thơng tin chi tiết về loại hố chất sản xuất và mức độphát tán chất độc ra môi trường trong các điều kiện thời tiết khác nhau. Khi có sự cố, vùng nguy hiểm cần di dời sẽđược thể hiện trên bản

Một số phương pháp phân tích dữ liệu GIS

Cơ sở dữ liệu không gian

Cơ sở dữ liệu thuộc tính