Rõ ràng đây là một bài toán phân lớp và để giải bài tốn này, hai bước xử lý
chính thường được sử dụng như sau [2]:
- Bước 1: Xây dựng một mơ hình xác định một tập các lớp dữ liệu. Mơ hình
này được xây dựng bằng cách phân tích các dữ liệu của cơ sở dữ liệu, mỗi bộ
dữ liệu được xác định bằng giá trị của các thuộc tính. Mơ hình thu được sau khi phân tích xong tập dữ liệu thường có dạng những quy tắc phân lớp, cây quyết định và các cơng thức tốn học.
- Bước 2: Sử dụng mơ hình phân lớp đã xây dựng ở Bước 1 để phân lớp dữ
liệu. Bước này được chia làm 2 giai đoạn:
Đánh giá độ chính xác của mơ hình hay bộ phân lớp bằng cách sử dụng
một bộ mẫu đã được phân lớp để thử gọi là bộ thử, những mẫu này được
xác định hoàn toàn ngẫu nhiên và độc lập. Ta lần lượt so sánh các mẫu
trong bộ thử, nếu lớp của mẫu đó thuộc vào trùng với lớp mà mơ hình đó dự đốn thì bộ phân lớp là chính xác với mẫu đó. Ta xác định độ chính xác của bộ thử ban đầu.
Nếu độ chính xác là chấp nhận được thì áp dụng mơ hình phân lớp để phân lớp cho các bộ (mẫu) chưa được phân lớp.
Ở q trình xây dựng cây, chúng tơi định nghĩa một số tiêu chí cho việc phân
loại của sáu loại địa hình trên. Mỗi địa hình trong tập huấn luyện được duyệt với các tiêu chí để phân loại. Các tiêu chí phân loại như sau:
- Biên: Là một tập các điểm bao ngoài của một vùng. Về cơ bản thì số lượng
các điểm này nên đủ lớn để giúp cho việc phân lớp chính xác hơn. Tuy vậy, để giảm phức tạp tính tốn, chúng tơi lưu một số lượng các điểm nhất định
và sử dụng thuật tốn BandWidth thích nghi [10] để xấp xỉ chúng vào một
đường biên của đối tượng với một ngưỡng sai số cho trước . - Các giá trị nội tại:
Giá trị độ cao lớn nhất và nhỏ nhất của vùng. Chú ý rằng một vùng là tập hợp của các điểm có giá trị độ cao.
Góc giữa đường thẳng nối điểm cao nhất và thấp nhất của vùng với lưới chiếu của nó.
Tọa độ x,y của điểm cao nhất của vùng.
Số lượng và giá trị độ cao của các điểm trong vùng.
- Lân cận: Thông tin về bốn vùng lân cận theo bốn hướng: Bắc, Nam, Đông và
Tây. Đặc điểm này thể hiện mối quan hệ về khơng gian trên địa hình, ví dụ
cao ngun thì thường gần với đồng bằng hơn là sông.
- Các tham số tham chiếu: Một số giá trị địa lý như lưới chiếu, mã của địa
hình trong hệ thống tham chiếu được sử dụng để chuyển tất cả các thuộc tính trên về một đơn vị chuẩn.
Hình 2.1 dưới đây nêu rõ các đặc trưng của bài tốn nhận dạng địa hình độ cao số thông qua một file dữ liệu dạng chuẩn XML (EXtensible Markup Language).
Trước hết thẻ <ID> để chỉ ID của địa hình file DEM. Tiếp theo các thẻ <Hmax> và
<Hmin> thể hiện các giá trị độ cao lớn và nhỏ nhất của địa hình này. Tiếp đến là thẻ <projection> thể hiện các tham số về lưới chiếu như tên lưới chiếu, đơn vị (unit), tự cầu (spheroid), vùng (zone).
Thẻ <object> thể hiện từng vùng trên địa hình DEM. Thẻ <Classid> chỉ loại
địa hình của vùng đó (các vùng núi, cao nguyên, đồi, đồng bằng, sông, hồ được đánh số từ 1 đến 6), <nvertices> thể hiện số điểm cần để khoanh vùng đó với các điểm cụ thể được thể hiện trong thẻ <point>. <Hmax> và <Hmin> là giá trị độ cao
lớn và nhỏ nhất của vùng. <Slope> chỉ độ dốc còn <Center> là tọa độ tâm của vùng. <Density> là số điểm độ cao của vùng. Tiếp đến <AdjEast>, <AdjWest>, <AdjNorth>, <AdjSouth> chứa dạng địa hình của các vùng lân cận của vùng đang xét. Ở đây, vùng phía đơng là núi, vùng phía tây là cao nguyên, vùng phía bắc là đồi cịn cùng phía nam là đồng bằng.
Hình 2.1: Ví dụ về các đặc trưng của việc nhận dạng địa hình độ cao số