2.1 Các phương pháp đánh giá độ chính xác của grid DEM
2.1.2 Phương pháp đánh giá định lượng
Để định lượng và phân tích độ lệch giữa hai bộ dữ liệu độ cao (bộ dữ liệu DEM mới được xây dựng theo các phương pháp tái chia mẫu và bộ dữ liệu DEM mẫu), các cách thơng thường là tính sai số trung phương dựa trên các giá trị độ cao của các bộ dữ liệu DEM và phương pháp sử dụng các tham số thống kê để đánh giá độ chính xác của dữ liệu DEM (đánh giá độ chính xác khơng gian của các bộ dữ liệu).
2.1.2.1 Sử dụng giá trị sai số trung phương
Sai số trung phương là đại lượng được sử dụng nhiều nhất để đánh giá độ chính xác trong DEM. Sai số trung phương được trình bày trong cơng thức 1.1.
2.1.2.2 Sử dụng các giá trị thống kê R (Hệ số tương quan) và phương trình hồi quy được đại diện bằng 2 tham số m và b
Hệ số tương quan là thước đo về giá trị bằng số của một số loại tương quan giữa hai biến, nghĩa là mối quan hệ thống kê giữa hai biến. Các biến có thể là hai cột của một tập hợp dữ liệu quan sát nhất định, thường được gọi là mẫu hoặc hai thành phần của ngẫu nhiên đa biến với một phân phối đã biết. Các giá trị của hệ số tương quan nằm trong khoảng -1.0 đến 1.0. Giá trị chính xác là 1 có nghĩa là có một mối quan hệ tích cực hồn hảo giữa hai biến. Đối với sự gia tăng tích cực trong một biến, cũng có sự gia tăng tích cực trong biến thứ hai. Giá trị -1.0 có nghĩa là có một
mối quan hệ phủ định hồn hảo giữa hai biến. Điều này cho thấy các biến di chuyển theo hướng ngược lại đối với sự gia tăng tích cực trong một biến, có sự giảm trong biến thứ hai. Nếu tương quan giữa hai biến là 0, nghĩa là khơng có mối quan hệ tuyến tính giữa chúng [46].
Có một số loại hệ số tương quan, nhưng loại phổ biến nhất là tương quan Pearson (R). Hệ số này dùng để tính tốn giá trị và hướng của mối quan hệ tuyến tính giữa hai biến. Nó khơng thể sử dụng để đánh giá các mối quan hệ phi tuyến giữa hai biến và không thể phân biệt giữa các biến phụ thuộc và biến độc lập.
Trong tốn học, các mơ hình hồi quy là một kỹ thuật thống kê dùng để ước lượng phương trình phù hợp nhất với một tập hợp các kết quả quan sát của biến phụ thuộc và biến độc lập. Nó cho phép đạt được kết quả ước lượng tốt nhất về mối quan hệ chân thực giữa các biến số. Từ phương trình ước lượng được này, người ta có thể dự báo về biến phụ thuộc (chưa biết) dựa vào giá trị cho trước của biến độc lập (đã biết).
Hình 2-1 biểu thị tập hợp các kết quả quan sát của một mơ hình hồi quy dưới dạng đồ thị và chúng ta phải tìm phương trình của đường thẳng trên đồ thị với điều kiện nó phù hợp nhất với số lượng mẫu mà chúng ta thu thập được, vì một đường như vậy sẽ đem lại kết quả dự báo tốt nhất cho biến phụ thuộc. Đường thẳng phù hợp nhất với số liệu phải được lựa chọn sao cho giá trị của tổng bình phương các độ lệch (khoảng cách) theo phương thẳng đứng giữa các điểm và đường thẳng là nhỏ nhất. Phương pháp số bình phương nhỏ nhất thơng thường này được ứng dụng trong hầu hết các phân tích hồi quy. Tính phù hợp của đường hồi quy với các kết quả quan sát mẫu được phản ánh bằng hệ số tương quan R. Ở Hình 2-1, đường màu đỏ là đường mà mơ hình ước lượng được.
Trong nội dung luận án này, để đánh giá kết quả của các phương pháp khác nhau, các mơ hình hồi quy tuyến tính đã được gắn vào mối quan hệ giữa dữ liệu tham chiếu và dữ liệu được tái chia mẫu. Sự tương tự nhau của hai loại DEM cũng có thể được đánh giá định lượng bằng cách sử dụng các hệ số hồi quy tuyến tính (m,
b) và hệ số tương quan R.
= [( − )2 ] (2.1)
. 2
Trong đó:
R là hệ số tương quan; là giá trị độ cao thứ i trên bề mặt DEM kết quả của phương pháp tái chia mẫu; là giá trị độ cao thứ i trên bề mặt DEM tham khảo; n là số lượng điểm độ cao kiểm tra.
Hình 2-1. Mơ hình đường hồi quy tổng quát [62]
Khi so sánh hai DEM (dữ liệu DEM kết quả sau khi tái chia mẫu và dữ liệu DEM tham chiếu – DEM mẫu), nếu gọi độ cao của một pixel (i, j) trong tập dữ liệu tham chiếu là y và độ cao của pixel tương ứng ở vị trí (i, j) trong tập dữ liệu chuẩn sử dụng làm mẫu là x, nếu như hai tập dữ liệu độ cao này giống nhau hồn tồn thì giá trị y(i, j) = x(i, j) với mọi (i, j). Nếu coi giá trị độ cao tham chiếu y là một hàm của
x, vẽ đồ thị phân tán với một trục tọa độ là x và trục kia là giá trị y tương ứng của
mỗi pixel (i, j) thì tất cả các điểm trên đồ thị phân tán sẽ nằm trên đường thẳng y = x, gọi là đường trùng khớp tuyệt đối, hay đại lượng y và x có sự tương quan thuận tuyệt đối (Hình 2-2) [14].
Tuy nhiên, khi so sánh giữa các DEM với mọi giá trị x và y thì việc trùng khớp tuyệt đối khơng thể xảy ra, khi đó người ta sử dụng đường hồi quy y = mx + b
Hình 2-2. Đường trùng khớp tuyệt đối theo tương quan thuận [14]
để đặc trưng cho xu thế biến thiên của y theo x. Nếu các tham số hồi quy m = 1 và b = 0 thì giữa DEM chuẩn và DEM tái chia mẫu có sự tương quan thuận tuyệt đối. Tuy nhiên do giá trị độ cao trên DEM cần đánh giá sẽ không thể trùng khớp với giá trị độ cao trên DEM chuẩn nên y ≠ x và sẽ có giá trị y = mx + b với m ≠ 1 và b ≠ 0. Dựa vào các giá trị m và b có thể xác định được thành phần sai số hệ thống trong các DEM. Giả sử b > 0 có thể thấy DEM tái chia mẫu sẽ có xu hướng thấp hơn mặt DEM chuẩn một giá trị b, người lại b < 0 thì DEM tái chia mẫu sẽ có xu hướng cao hơn DEM chuẩn một giá trị b. Tương tự khi m > 1 thì DEM tái chia mẫu có xu thế thấp hơn DEM chuẩn và m < 1 thì DEM tái chia mẫu có xu thế cao hơn DEM chuẩn. DEM tái chia mẫu được đánh giá có sai số hệ thống nhỏ khi m càng gần giá trị bằng 1 và b càng cần giá trị bằng 0. Như vậy, hai thành phần m và b thể hiện sự xuất hiện của sai số hệ thống trong dữ liệu cần đánh giá độ chính xác.
Hệ số tương quan R được sử dụng để đo sự liên kết giữa hai bộ dữ liệu, do đó sẽ đánh giá được sự phân phối các điểm dữ liệu trong các biểu đồ phân tán xung quanh đường hồi quy. Hình 2-3 cho thấy tính phân tán của các điểm trên đồ thị phân tán tương ứng với mỗi giá trị R2. Giá trị của R2 sẽ đặc trưng cho thành phần sai số ngẫu nhiên khi so sánh DEM. Khi giá trị của R2 càng gần đến 1 thì càng có nhiều điểm dữ liệu nằm gần đường hồi quy, nghĩa là sai số ngẫu nhiên có giá trị nhỏ. Nếu
dữ liệu DEM là tương ứng với việc cả hai thành phần sai số ngẫu nhiên và sai số hệ thống đều nhỏ, có nghĩa là khi tất cả các điểm dữ liệu được đặt sát với đường khớp tuyệt đối (y = x) và hệ số xác định R2 càng gần 1. Điều đó có nghĩa là hai bộ dữ liệu sẽ giống hệt nhau nếu các giá trị m = 1, b = 0 và R2 = 1 đồng thời xuất hiện.
Hình 2-3. Biểu đồ phân tán với các giá trị tương quan khác nhau tương ứng với thành phần sai số ngẫu nhiên lớn hay nhỏ [12]