Một số thuật toán trong phân tích dữ liệu GIS

Một phần của tài liệu Giáo trình hệ thống thông tin địa lý (Trang 59 - 63)

Chương 3: CÁC CHỨC NĂNG CỦA GIS 3.1 Chức năng nhập dữ liệu

3.3.2.Một số thuật toán trong phân tích dữ liệu GIS

Nguyên tắc trong thực hiện chức năng phân tích dữ liệu GIS là ứng dụng các thuật toán phân tích không gian. Một số thuật toán trong phân tích dữ liệu GIS bao gồm: thuật toán sắp xếp lựa chọn, thuật toán phân loại, nội suy không gian, đại số bản đồ,...

a) Thuật toán sắp xếp lựa chọn

Sắp xếp lựa chọn là một thuật toán đơn giản, dựa trên việc so sánh tại chỗ. Chọn phần tử nhỏ nhất trong n phần tửban đầu, đưa phần tửnày về vịtrí đúng là đầu tiên của dãy hiện hành. Sau đó chỉxét dãy hiện hành với n-1 phần tử của dãy ban đầu, bắt đầu từ vịtrí thứ 2. Lặp lại quá trình trên cho dãy hiện hành đến khi dãy hiện hành chỉcòn một phần tử. Dãy ban đầu có n phần tử, vậy tóm tắt ý tưởng thuật toán là thực hiện n-1 lượt việc đưa phần tử nhỏ nhất trong dãy hiện hành về vịtrí đúng ởđầu dãy.

3 5 7 2 4 6 9 8 7 6 Bước 1 2 5 7 3 4 6 9 8 7 6 Bước 1 2 5 7 3 4 6 9 8 7 6 Bước 2 3 7 5 4 6 9 8 7 6 Bước 3 4 5 7 6 9 8 7 6 Bước 4 5 7 6 9 8 7 6 Bước 5 6 7 9 8 7 6 Bước 6 6 9 8 7 7 Bước 7 7 8 9 7 Bước 8 7 9 8 Bước 9 8 9 Kết quả 2 3 4 5 6 6 7 7 8 9

Hình 3.6: Mô phỏng thuật toán sắp xếp lựa chọn

Vận dụng thuật toán sắp xếp lựa chọn trong GIS bao gồm việc nhận biết các đối tượng thỏa mãn một hay nhiều điều kiện nào đó. Các đặc điểm không gian hay thuộc tính của đối tượng được kiểm tra dựa vào các tiêu chí và các điều kiện thỏa mãn sự lựa chọn. Các đối tượng được lựa chọn được ghi lại trên một lớp dữ liệu mới hoặc trong lớp dữ liệu không gian hay thuộc tính của chúng bằng các cách khác nhau. Một ví dụ đơn giản về việc ứng dụng thuật toán sắp xếp lựa chọn là tìm kiếm các tỉnh, thành phố của Việt Nam có diện tích trên 5.000 km2, dân số trên 1 triệu người. Trong kho dữ liệu về hành chính Việt Nam, GIS sẽ tiến hành phân tích sắp xếp lựa chọn và đưa ra danh sách các tỉnh, thành phố của Việt Nam thỏa mãn điều kiện của đầu bài.

Hình thức đơn giản nhất của việc ứng dụng thuật toán sắp xếp lựa chọn là phép truy vấn trực quan trên màn hình. Một lớp dữ liệu sẽ được hiển thị và các thuộc tính được lựa chọn thông qua một toán tửdo người sử dụng quy định. Toán tửđó sử dụng thiết bị đểđịnh vị vịtrí con trỏ chuột thông qua một đặc tính nào đó có liên quan và gửi đi một câu lệnh để tiến hành thao tác lựa chọn. Phép truy vấn trực quan trên màn hình thường dùng để thu thập các thông tin vềcác đối tượng cụ thểcũng như tương tác, cập nhật cho các dữ liệu thuộc tính hay không gian. Ví dụ: Để cập nhật số liệu dân số cho tỉnh Thái Nguyên, chúng ta có thể để trỏ chuột vào trường “Tên tỉnh” đánh câu lệnh “ = Thái Nguyên” lập tức bảng thuộc tính sẽ di chuyển đến dòng có dữ liệu của tỉnh Thái Nguyên để cập nhật lại số liệu vềdân số.

Các phép truy vấn dữ liệu cũng có thể được coi là phép toán lựa chọn, được xác định bởi các điều kiện một cách đơn lẻđối với các thành phần dữ liệu thuộc tính. Các phép lựa chọn này đa số thường dựa vào các bảng dữ liệu thuộc tính của một lớp hay nhiều lớp dữ liệu. Các thuộc tính của mỗi đối tượng được so sánh với nhóm các điều kiện, nếu thuộc tính thỏa mãn điều kiện thì chúng được lựa chọn, còn nếu chúng không thỏa mãn điều kiện thì được xếp vào nhóm không được lựa chọn. Các dữ liệu được sắp xếp lựa chọn thường được sử dụng vào một hay nhiều mục đích nào đó và chúng được lưu trữvào một file riêng biệt, được thiết lập và chỉnh sửa theo các cách khác nhau.

Thực tếthì phép toán sắp xếp lựa chọn bảng thuộc tính có quan hệkhông gian với các đối tượng địa lý, bởi vì mỗi bảng ghi trong bảng thuộc tính đều được liên kết với một đối tượng không gian có liên quan. Lựa chọn một bảng ghi trong bảng thuộc tính cũng có thểđược dùng để lựa chọn một hay nhiều đối tượng điểm, đường hay vùng nào đó. Các phép lựa chọn không gian có thể được kết hợp với phép lựa chọn bảng thuộc tính để nhận biết nhóm các đối tượng địa lý được sắp xếp lựa chọn.

Trong phân tích dữ liệu GIS, thuật toán lựa chọn thể hiện phổ biến ở 2 dạng toán đại số tập hợp và đại số logic. Các điều kiện lựa chọn thường được sử dụng dưới hình thức đại số tập hợp, với các toán tử: nhỏ hơn, nhỏ hơn bằng, lớn hơn, lớn hơn bằng, bằng và không bằng. Các toán tử này có thể được dùng riêng lẻ hoặc gộp chung để lựa chọn đối tượng. Ví dụ: Khi lựa chọn công thức để cắt các xã của tỉnh Thái Nguyên mà có dân số trên 50 nghìn người (sử dụng dữ liệu hành chính Vietnam_xa, trong phần mềm MapInfo), chúng ta dùng toán tử: “Tỉnh = Thái Nguyên, Dân số > 50.000”. Kết quả sẽ lựa chọn ra những xã của tỉnh Thái Nguyên có dân sốtrên 50 nghìn dân.

Dạng toán đại sốlogic (hay còn gọi là đại số Boolean) sử dụng điều kiện OR, AND, NOT và NOR để lựa chọn các đối tượng. Các biểu thức logic thường được sử dụng để gộp nhiều điều kiện và tạo ra các lựa chọn không gian ghép. Biểu thức logic gồm có một bộcác toán tửlogic, các biến và có thểcó cảcác giá trị vô hướng hay hằng số. Các biểu thức logic được xác định bằng cách quy vềgiá trịđúng hoặc sai của biểu thức đối với từng điều kiện.

Hình 3.7: Các toán tử logic sử dụng trong phân tích dữ liệu GIS

Đại số logic ứng dụng rất nhiều trong phân tích không gian GIS. Các ví dụ như: Tìm khu đất thích hợp để mở cửa hàng với điều kiện diện tích trên 200 m2, cách mặt đường không quá 50 m (sử dụng toán tửAND, hai điều kiện cùng tồn tại độc lập); Hoặc bài toán lựa chọn cây trồng năng suất trên 10 tấn/ha, không chịu được mùa đông lạnh (sử dụng toán tửNOT, đáp ứng điều kiện A nhưng không đáp ứng điều kiện B - Có mùa đông lạnh).

b) Thuật toán phân loại

Thuật toán phân loại được hiểu một cách đơn giản là việc phân chia, phân loại các đối tượng địa lý dựa vào một hay nhiều điều kiện nào đó. Phân loại là một phép toán thường được sử dụng kết hợp với phép lựa chọn để phân loại các đối tượng địa lý. Ví dụ: Thành lập bản đồ mật độ dân số Việt Nam, áp dụng thuật toán phân loại để phân chia các nhóm có mật độdân sốkhác nhau: dưới 100, 100 - 300, 300 - 500, 500 - 700, 700 - 900, trên 900 người/km2. Hoặc khi thành lập bản đồ đơn vịđất đai, chúng ta phải dựa vào cácđặc điểm loại đất, thành phần cơ giới, tầng dày, độ dốc đểphân chia thành các đơn vịđất đai khác nhau.

Thuật toán phân loại có thểđược sử dụng cho nhiều mục đích khác nhau. Một trong những mục đích phổ biến là gộp nhóm các đối tượng địa lý. Các đối tượng địa lý thường có một hoặc một vài thuộc tính chung. Mục đích cần đạt được là hiển thị chúng theo một màu sắc hay biểu tượng thống nhất. Như vậy, các đối tượng tương tự nhau sẽ được nhận biết theo nhóm bằng phương pháp nền chất lượng hoặc phân tầng màu. Màu sắc hay hoa văn được hiển thị phụ thuộc vào giá trị của một hay nhiều thuộc tính. Một dãy màu sắc biến chuyển đậm nhạt hay từmàu này sang màu khác sẽđược lựa chọn và các giá trị tương ứng cho mỗi thuộc tính cụ thểđược xác định. Sau đó, bản đồ sẽđược hiển thị dựa vào sựphân loại đó.

Thuật toán phân loại còn có thể được thực hiện đối với nhiều thuộc tính khác nhau của các đối tượng. Việc phân loại ghép trên cơ sở hai hay nhiều thuộc tính cho phép ta có thể nhận biết được mối quan hệ giữa các loại thuộc tính này trên cùng một đối tượng cũng như nhiều đối tượng lân cận nhau. Điều này có thể mang lại nhiều thông tin hơn cho người sử dụng.

Trong GIS, thuật toán phân loại được ứng dụng rộng rãi trong các bài toán gộp nhóm thông qua hàm phân lập. Hàm phân lập có mục đích chính là gộp nhóm các đối tượng trong phạm vi một lớp dữ liệu. Các đối tượng địa lý liền kề trong lớp dữ liệu được phân lập thường có các giá trị giống nhau của một thuộc tính nào đó. Ví dụ: Một lớp dữ liệu bản đồ cảnh quan được tạo bởi đối tượng vùng của nhiều lớp (địa hình, khí hậu, đất, thực vật). Giả sử nếu một phép phân tích đòi hỏi chúng ta phân loại các dạng cảnh quan có địa hình cao từ 500 - 1.000 m, đất feralit đỏvàng, khi đó ta phải áp dụng hàm phân lập các lớp ranh giới địa hình và các loại đất để lựa chọn các dạng cảnh quan có cùng giá trịđộcao địa hình từ 500 - 1.000 m và cùng loại đất feralit đỏvàng.

Hàm phân lập thường được sử dụng dựa vào một thuộc tính cụ thểnào đó liên quan với mỗi đối tượng, được gọi là thuộc tính phân lập. Một hay nhiều giá trị của thuộc tính phân lập sẽ được xác định và các giá trịđó thuộc vào cùng một nhóm. Trước hết, các đường đóng vai trò là đường ranh giới giữa hai đối tượng vùng được xác lập. Các giá trị của thuộc tính phân lập của các đối tượng ởbên này và bên kia đường ranh giới sau đó được so sánh với nhau. Nếu các giá trịđó là giống nhau thì đường ranh giới sẽđược xóa bỏ. Ngược lại, nếu các giá trị của thuộc tính phân lập là khác nhau ởbên này và bên kia ranh giới thì đường ranh giới sẽđược giữnguyên.

Một phần của tài liệu Giáo trình hệ thống thông tin địa lý (Trang 59 - 63)