Chương 3: CÁC CHỨC NĂNG CỦA GIS
3.3.2. Một số thuật tốn trong phân tích dữ liệu GIS
Nguyên tắc trong thực hiện chức năng phân tích dữ liệu GIS là ứng dụng các thuật tốn phân tích khơng gian. Một số thuật tốn trong phân tích dữ liệu GIS bao gồm: thuật toán sắp xếp lựa chọn, thuật tốn phân loại, nội suy khơng gian, đại số bản đồ,...
a) Thuật toán sắp xếp lựa chọn
Sắp xếp lựa chọn là một thuật toán đơn giản, dựa trên việc so sánh tại chỗ. Chọn phần tử nhỏ nhất trong n phần tửban đầu, đưa phần tửnày về vịtrí đúng là đầu tiên của dãy hiện hành. Sau đó chỉxét dãy hiện hành với n-1 phần tử của dãy ban đầu, bắt đầu từ vịtrí thứ 2. Lặp lại q trình trên cho dãy hiện hành đến khi dãy hiện hành chỉcòn một phần tử. Dãy ban đầu có n phần tử, vậy tóm tắt ý tưởng thuật tốn là thực hiện n-1 lượt việc đưa phần tử nhỏ nhất trong dãy hiện hành về vịtrí đúng ởđầu dãy.
3 5 7 2 4 6 9 8 7 6 Bước 1 2 5 7 3 4 6 9 8 7 6 Bước 1 2 5 7 3 4 6 9 8 7 6 Bước 2 3 7 5 4 6 9 8 7 6 Bước 3 4 5 7 6 9 8 7 6 Bước 4 5 7 6 9 8 7 6 Bước 5 6 7 9 8 7 6 Bước 6 6 9 8 7 7 Bước 7 7 8 9 7 Bước 8 7 9 8 Bước 9 8 9 Kết quả 2 3 4 5 6 6 7 7 8 9
Hình 3.6: Mơ phỏng thuật tốn sắp xếp lựa chọn
Vận dụng thuật toán sắp xếp lựa chọn trong GIS bao gồm việc nhận biết các đối tượng thỏa mãn một hay nhiều điều kiện nào đó. Các đặc điểm khơng gian hay thuộc tính của đối tượng được kiểm tra dựa vào các tiêu chí và các điều kiện thỏa mãn sự lựa chọn. Các đối tượng được lựa chọn được ghi lại trên một lớp dữ liệu mới hoặc trong lớp dữ liệu khơng gian hay thuộc tính của chúng bằng các cách khác nhau. Một ví dụ đơn giản về việc ứng dụng thuật toán sắp xếp lựa chọn là tìm kiếm các tỉnh, thành phố của Việt Nam có diện tích trên 5.000 km2, dân số trên 1 triệu người. Trong kho dữ liệu về hành chính Việt Nam, GIS sẽ tiến hành phân tích sắp xếp lựa chọn và đưa ra danh sách các tỉnh, thành phố của Việt Nam thỏa mãn điều kiện của đầu bài.
Hình thức đơn giản nhất của việc ứng dụng thuật toán sắp xếp lựa chọn là phép truy vấn trực quan trên màn hình. Một lớp dữ liệu sẽ được hiển thị và các thuộc tính được lựa chọn thơng qua một tốn tửdo người sử dụng quy định. Tốn tửđó sử dụng thiết bị đểđịnh vị vịtrí con trỏ chuột thơng qua một đặc tính nào đó có liên quan và gửi đi một câu lệnh để tiến hành thao tác lựa chọn. Phép truy vấn trực quan trên màn hình thường dùng để thu thập các thông tin vềcác đối tượng cụ thểcũng như tương tác, cập nhật cho các dữ liệu thuộc tính hay khơng gian. Ví dụ: Để cập nhật số liệu dân số cho tỉnh Thái Nguyên, chúng ta có thể để trỏ chuột vào trường “Tên tỉnh” đánh câu lệnh “ = Thái Nguyên” lập tức bảng thuộc tính sẽ di chuyển đến dịng có dữ liệu của tỉnh Thái Nguyên để cập nhật lại số liệu vềdân số.
Các phép truy vấn dữ liệu cũng có thể được coi là phép tốn lựa chọn, được xác định bởi các điều kiện một cách đơn lẻđối với các thành phần dữ liệu thuộc tính. Các phép lựa chọn này đa số thường dựa vào các bảng dữ liệu thuộc tính của một lớp hay nhiều lớp dữ liệu. Các thuộc tính của mỗi đối tượng được so sánh với nhóm các điều kiện, nếu thuộc tính thỏa mãn điều kiện thì chúng được lựa chọn, cịn nếu chúng khơng thỏa mãn điều kiện thì được xếp vào nhóm khơng được lựa chọn. Các dữ liệu được sắp xếp lựa chọn thường được sử dụng vào một hay nhiều mục đích nào đó và chúng được lưu trữvào một file riêng biệt, được thiết lập và chỉnh sửa theo các cách khác nhau.
Thực tếthì phép tốn sắp xếp lựa chọn bảng thuộc tính có quan hệkhơng gian với các đối tượng địa lý, bởi vì mỗi bảng ghi trong bảng thuộc tính đều được liên kết với một đối tượng khơng gian có liên quan. Lựa chọn một bảng ghi trong bảng thuộc tính cũng có thểđược dùng để lựa chọn một hay nhiều đối tượng điểm, đường hay vùng nào đó. Các phép lựa chọn khơng gian có thể được kết hợp với phép lựa chọn bảng thuộc tính để nhận biết nhóm các đối tượng địa lý được sắp xếp lựa chọn.
Trong phân tích dữ liệu GIS, thuật toán lựa chọn thể hiện phổ biến ở 2 dạng toán đại số tập hợp và đại số logic. Các điều kiện lựa chọn thường được sử dụng dưới hình thức đại số tập hợp, với các toán tử: nhỏ hơn, nhỏ hơn bằng, lớn hơn, lớn hơn bằng, bằng và khơng bằng. Các tốn tử này có thể được dùng riêng lẻ hoặc gộp chung để lựa chọn đối tượng. Ví dụ: Khi lựa chọn công thức để cắt các xã của tỉnh Thái Nguyên mà có dân số trên 50 nghìn người (sử dụng dữ liệu hành chính Vietnam_xa, trong phần mềm MapInfo), chúng ta dùng toán tử: “Tỉnh = Thái Nguyên, Dân số > 50.000”. Kết quả sẽ lựa chọn ra những xã của tỉnh Thái Ngun có dân sốtrên 50 nghìn dân.
Dạng tốn đại sốlogic (hay cịn gọi là đại số Boolean) sử dụng điều kiện OR, AND, NOT và NOR để lựa chọn các đối tượng. Các biểu thức logic thường được sử dụng để gộp nhiều điều kiện và tạo ra các lựa chọn không gian ghép. Biểu thức logic gồm có một bộcác tốn tửlogic, các biến và có thểcó cảcác giá trị vô hướng hay hằng số. Các biểu thức logic được xác định bằng cách quy vềgiá trịđúng hoặc sai của biểu thức đối với từng điều kiện.
Hình 3.7: Các tốn tử logic sử dụng trong phân tích dữ liệu GIS
Đại số logic ứng dụng rất nhiều trong phân tích khơng gian GIS. Các ví dụ như: Tìm khu đất thích hợp để mở cửa hàng với điều kiện diện tích trên 200 m2, cách mặt đường không quá 50 m (sử dụng toán tửAND, hai điều kiện cùng tồn tại độc lập); Hoặc bài toán lựa chọn cây trồng năng suất trên 10 tấn/ha, không chịu được mùa đông lạnh (sử dụng tốn tửNOT, đáp ứng điều kiện A nhưng khơng đáp ứng điều kiện B - Có mùa đơng lạnh).
b) Thuật toán phân loại
Thuật toán phân loại được hiểu một cách đơn giản là việc phân chia, phân loại các đối tượng địa lý dựa vào một hay nhiều điều kiện nào đó. Phân loại là một phép toán thường được sử dụng kết hợp với phép lựa chọn để phân loại các đối tượng địa lý. Ví dụ: Thành lập bản đồ mật độ dân số Việt Nam, áp dụng thuật toán phân loại để phân chia các nhóm có mật độdân sốkhác nhau: dưới 100, 100 - 300, 300 - 500, 500 - 700, 700 - 900, trên 900 người/km2. Hoặc khi thành lập bản đồ đơn vịđất đai, chúng ta phải dựa vào cácđặc điểm loại đất, thành phần cơ giới, tầng dày, độ dốc đểphân chia thành các đơn vịđất đai khác nhau.
Thuật tốn phân loại có thểđược sử dụng cho nhiều mục đích khác nhau. Một trong những mục đích phổ biến là gộp nhóm các đối tượng địa lý. Các đối tượng địa lý thường có một hoặc một vài thuộc tính chung. Mục đích cần đạt được là hiển thị chúng theo một màu sắc hay biểu tượng thống nhất. Như vậy, các đối tượng tương tự nhau sẽ được nhận biết theo nhóm bằng phương pháp nền chất lượng hoặc phân tầng màu. Màu sắc hay hoa văn được hiển thị phụ thuộc vào giá trị của một hay nhiều thuộc tính. Một dãy màu sắc biến chuyển đậm nhạt hay từmàu này sang màu khác sẽđược lựa chọn và các giá trị tương ứng cho mỗi thuộc tính cụ thểđược xác định. Sau đó, bản đồ sẽđược hiển thị dựa vào sựphân loại đó.
Thuật tốn phân loại cịn có thể được thực hiện đối với nhiều thuộc tính khác nhau của các đối tượng. Việc phân loại ghép trên cơ sở hai hay nhiều thuộc tính cho phép ta có thể nhận biết được mối quan hệ giữa các loại thuộc tính này trên cùng một đối tượng cũng như nhiều đối tượng lân cận nhau. Điều này có thể mang lại nhiều thông tin hơn cho người sử dụng.
Trong GIS, thuật toán phân loại được ứng dụng rộng rãi trong các bài tốn gộp nhóm thơng qua hàm phân lập. Hàm phân lập có mục đích chính là gộp nhóm các đối tượng trong phạm vi một lớp dữ liệu. Các đối tượng địa lý liền kề trong lớp dữ liệu được phân lập thường có các giá trị giống nhau của một thuộc tính nào đó. Ví dụ: Một lớp dữ liệu bản đồ cảnh quan được tạo bởi đối tượng vùng của nhiều lớp (địa hình, khí hậu, đất, thực vật). Giả sử nếu một phép phân tích địi hỏi chúng ta phân loại các dạng cảnh quan có địa hình cao từ 500 - 1.000 m, đất feralit đỏvàng, khi đó ta phải áp dụng hàm phân lập các lớp ranh giới địa hình và các loại đất để lựa chọn các dạng cảnh quan có cùng giá trịđộcao địa hình từ 500 - 1.000 m và cùng loại đất feralit đỏvàng.
Hàm phân lập thường được sử dụng dựa vào một thuộc tính cụ thểnào đó liên quan với mỗi đối tượng, được gọi là thuộc tính phân lập. Một hay nhiều giá trị của thuộc tính phân lập sẽ được xác định và các giá trịđó thuộc vào cùng một nhóm. Trước hết, các đường đóng vai trị là đường ranh giới giữa hai đối tượng vùng được xác lập. Các giá trị của thuộc tính phân lập của các đối tượng ởbên này và bên kia đường ranh giới sau đó được so sánh với nhau. Nếu các giá trịđó là giống nhau thì đường ranh giới sẽđược xóa bỏ. Ngược lại, nếu các giá trị của thuộc tính phân lập là khác nhau ởbên này và bên kia ranh giới thì đường ranh giới sẽđược giữnguyên.
a) Trước khi phân lập b) Sau khi phân lập
Hình 3.9: Phân lập cảnh quan tỉnh Thái Ngun theo nhóm địa hình
Hàm phân lập đóng vai trị quan trọng trong q trình tổng qt hóa bản đồ, chúng giúp q trình tổng qt hóa bản đồđược đơn giản, xóa bỏ bớt các thông tin không cần thiết. Sau khi phân loại các đối tượng thành các lớp bản đồcó kích thước nhỏ, vừa hoặc lớn, nhiều khoanh vi sẽ tồn tại các đường ranh giới không cần thiết. Các đường ranh giới khơng cần thiết đó sẽảnh hưởng đến bộ nhớ dữ liệu và làm chậm tốc độ xửlý của
máy tính. Hàm phân lập có ưu điểm là xóa bỏđược các dữ liệu khơng gian và thuộc tính khơng cần thiết, qua đó cải thiện được tốc độ xửlý của máy tính, giảm thiểu dung lượng lưu trữdư thừa và sự phức tạp của hệ thống.
c) Thuật tốn nội suy khơng gian
Trên thực tếcác sự vật, hiện tượng địa lý phân bố rất phức tạp, rất khó đểxác định tính chất biến đổi một cách liên tục trên bề mặt không gian hai chiều. Không phải lúc nào chúng ta cũng thu thập được đầy đủ dữ liệu trong khơng gian liên tục. Vì vậy, phép nội suy khơng gian cho phép cập nhật, bổ sung các dữ liệu cịn thiếu trên cơ sởtốn học xácđịnh.
Thuật tốn nội suy khơng gian là q trình dựbáo các giá trịchưa biết từcác giá trị đã biết ởcác điểm lân cận. Trong trường hợp nguồn dữ liệu khuyết một sốđiểm, đường hay vùng thì cần phải thực hiện hình thức nội suy (giải đoán) để tạo thêm dữ liệu. Nội suy cũng có nghĩa là sử dụng dữ liệu của một hay nhiều điểm trong không gian xung quanh đểtìm ra các giá trị mới cho các điểm khuyết thiếu mà trước đó khơng thểđo đạc hay quan trắc được. Căn cứđể xây dựng thuật tốn nội suy khơng gian là những điểm được xác định gần nhau trong không gian thì thường có những giá trị tương tự. Hai điểm cách xa nhau vài mét thì thường có cùng giá trị độ cao hơn là hai điểm cách xa nhau vài kilômét (Burrough, 1986).
Có nhiều cách để nội suy khơng gian, như: nội suy giá trị gần nhất, nội suy tuyến tính qua đường thẳng nối 2 điểm, nội suy dùng đa thức (spline) dựa trên 3 hay nhiều điểm cho trước, nội suy stochastic trên cơ sở tạo số ngẫu nhiên và các tham số fractal với một số điểm; và nội suy trên cơ sở mơ hình. Xét về ngun lý tốn học, phép nội suy khơng gian GIS đều sử dụng các hàm tốn học như hồi quy đa thức, chuỗi fourier, hàm spline, trung bình di chuyển, kriging,...
Phương pháp nội suy được chia thành 3 nhóm chính, nội suy cục bộ, nội suy tồn cầu và Kriging. Nội suy cục bộ chỉtính tới những điểm được quan sát lân cận, ngược lại nội suy toàn cầu sử dụng toàn bộ tập hợp điểm đã biết. Kriging tổ hợp cả hai phương pháp nội suy trên. Nguyên lý và ứng dụng cụ thể của từng thuật tốn sẽđược trình bày trong phần các phương pháp phân tích dữ liệu GIS.
d) Thuật tốn đại số bản đồ
Thuật toán đại số bản đồ (Map algebra) cho phép GIS xác định quan hệ toán học giữa các lớp dữ liệu. Các lớp dữ liệu bản đồ có thểđược gộp với nhau (phép cộng), cắt lẫn nhau (phép trừ), nhân và chia các dữ liệu thuộc tính theo những điều kiện hay quy tắc do người sử dụng đặt ra. Ví dụ: Bản đồ khí hậu thổnhưỡng được xây dựng từphép toán đại số bản đồ, chồng xếp của hai lớp bản đồ thổnhưỡng và khí hậu.
Thuật tốn đại số bản đồ có thể được sử dụng để phân tích khơng gian các dữ liệu dạng raster. Các biểu thức của Algebra cũng tương tựnhư phương pháp chồng xếp bản đồnhưng các thành phần phép tính đại sốđược sử dụng trong việc kết hợp hoặc so sánh các lớp dữ liệu. Đại số bản đồ cho biết cách so sánh các lớp dữ liệu thông qua chức
năng thuật tốn đại sốđơn giản. Ví dụ: Trong chồng xếp 2 lớp dữ liệu raster các giá trị của các cell trùng khớp được tính bằng tổng của chúng trong lớp dữ liệu kết quả.
Hình 3.10: Thao tác số học trên hai lớp thông tin raster
Trong các phần mềm GIS, biểu thức đại số bản đồ(Map algebra expressions) được xây dựng trong chức năng Map Calculator đểphân tích một hay nhiều lớp dữ liệu. Kết quả là tạo ra một lớp dữ liệu mới sau khi áp dụng biểu thức đại số (được thành lập từ việc sử dụng bàn phím hoặc nhấn chuột vào lớp dữ liệu toán tử) và các yêu cầu của bài toán phân tích khơng gian.