CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.2. Các lý thuyết và phương pháp có liên quan
2.2.1. Hồi quy logistic phục vụ cho đánh giá thích nghi đất đai.
Trong nội dung này, phân tích các vấn đề liên quan đến hồi quy logistic (LRM): (i) tầm quan trọng, (ii) lịch sử phát triển, (iii) phương pháp ước lượng của LRM, (iv) phương pháp đánh giá LRM.
(i) Tầm quan trọng của hồi quy logistic
Do dữ liệu phân tích ứng dụng trong đề tài nghiên cứu gồm có biến nhân tố đầu vào và biến đầu ra. Biến nhân tố đầu vào (driving factor) thì có đạng dữ liệu phong phú, có thể là nhị phận, liên tục. Biến đầu ra (outcome) hay còn gọi biến phụ thuộc (dependent variables) là các LUTs, dạng dữ liệu của các biến này là nhị phân (binary variable), chỉ có 2 giá trị 0|1 (không xuất hiện | xuất hiện). Trong trường hợp nghiên cứu này, không thể dùng mô hình hồi quy tuyến tính thông thường, vì định dạng dữ liệu của biến phụ thuộc không thỏa mãn điều kiện là biến liên tục. Do vậy một mô hình hồi quy mới đƣợc các nhà thống kê phát triển là LRM (Logistic Regression Model) được đề xuất sử dụng để áp dụng trong trường hợp này. LRM đƣợc sử dụng vì các mục tiêu chính là [47]:
mô tả mối liên quan giữa biến outcome và biến driving factor,
kiểm soát các biến nhiễu (controlling for confounders).
phát triển một mô hình tiên đoán, dự báo (developing a prediction model) (ii) Lịch sử hình thành và phát triển của mô hình hồi quy logistic
Hàm Logistic (có đồ thị đường cong sigmoid hay đường cong logistic) do nhà toán học Pierre Franỗois Verhulst (1804-1849) phỏt triển vào giai đoạn 1844-1845 trong một nghiên cứu về tăng trưởng dân số. Trước đó, thầy giáo của P.F.Verhulst là Adolphe Quetelet (1796-1874) quan sát thấy sự tăng trưởng của các sinh vật và con người nói chung không theo quy luật của hàm mũ (exponential), mà theo hàm chữ S. Nhƣng ông chƣa tìm ra đƣợc hàm mô tả, nên giao vấn đề trên cho Verhulst, sau này chính Verhulst mới là người viết ra phương trình logistic đầu tiên. Nhưng Verhulst chết sớm, theo thời gian công trình của Verhulst bị trôi vào quên lãng, ngay cả Quitelet cũng không nhắc đến hàm logistic nữa [51].
Công thức và đồ thị dạng hình chữ S của hàm logistic dạng chuẩn do nhà toán học Pierre Franỗois Verhulst viết ra (cũn gọi là hàm sigmoid)
Hình 2.1: Đồ thị hàm logistic
1 1
( ) 1 x 1 exp( )
f x e x (1) (1)
Tuy nhiên, sang thế kỷ 20 do nhu cầu nghiên cứu của nhiều ngành khoa học khác nhau cần dùng một hàm có chức năng chuyển đổi, hàm logistic của Verhulst là một điển hình trong số đó. Hàm logistic ứng dụng phổ biến trong mạng neural nhân tạo (artificial neural networks), sinh học, nhân khẩu học, kinh tế, thống kê…
Theo đó, ở lĩnh vực thống kê ứng dụng, hàm logistic đại diện cho xác xuất p thông qua phép chuyển đổi logit để thực hiện hồi quy, mục đích là để xử lý dữ liệu outcome ở dạng phân loại . Năm 1938, Ronald Fisher và Frank Yates đã có ý tưởng chuyển p thành đơn vị logit cho mô hình hồi quy nhị phân nhƣng chƣa phát triển đƣợc thành LRM [47].
Mãi đến năm 1970, bước ngoặt xảy ra khi giáo sư thống kê lỗi lạc người Anh, Sir David Roxbee Cox (1924 - ) đƣa ra khái niệm logit để hình thành LRM hoàn chỉnh đƣợc sử dụng đến ngày nay. D.R.Cox đã thực hiện động tác chuyển đổi sau đây [48]:
logit log 1 p p
p (2) Trong đó LRM dựa trên khái niệm logit:
Gọi X là biến nhân tố (driving factor), p là xác suất của một biến cố (outcome).
LRM phát biểu rằng:
logit p X (3) hay
log 1
p X
p (4) Điều này cũng có nghĩa là:
1 1
1 exp
1 X
p e X
(5) Mối liên quan giữa X, p và logit(p)
Mối liên quan giữa X và logit(p) Mối liên quan giữa X và p
log 1
p X
p
1 1 exp
p X
Hình 2.2: Hai đồ thị thể hiện mối liên quan X và logit(p), X và p
Hai đồ thị trên cho thấy lý do tại sao cần phải hoán chuyển tính từ p sang logit.
Logit(p) ―đại diện‖ cho các biến outcome trong thực tế để thực hiện hồi quy với các biến driving factor. Một ý nghĩa khác hết sức quan trọng là khi đổi từ p sang logit(p) là mở rộng miền giá trị dễ cho để thực hiện mô hình hồi quy ở dạng tuyến tính. Cụ thể hơn, vì p [0;1] nên [0; )
1 p
p , do vậy
log ;
1 p
p . Ý nghĩa logistic nằm ở chỗ này. Cũng vì lý do đó, LRM đƣợc xếp vào nhóm mô hình hồi quy tuyến tính tổng quát (Generalized Linear Model - GLM), khác với mô hình hồi quy tuyến tính thường gặp. Điểm khác
biệt rõ ràng nhất là biến outcome của LRM có biến phân loại, biến outcome của mô hình hồi quy tuyến tính là biến liên tục.
Một cách viết khác ở dạng tổng quát cho LRM đa biến:
0 1 1 2 2 ...
0 1 1 2 2
1 1
Pr 1|
1 exp ...
1 i i
i i i i x x
i i
p Y X x
x x
e (6)
Hay viết dưới dạng logit
logit log 0 1 1 2 2 ...
1
i
i i i
i
p p x x
p (7)
Các giả định về LRM về mặt toán học:
- Mô hình cung cấp một sự ―đại diện‖ tiêu biểu giữa biến outcome và X.
- Các biến Outcomes (LUTs) độc lập với nhau.
- Biến nhân tố (driving factors) không có sai số ngẫu nhiên.
Các lợi thế của LRM:
- Mô tả mối liên quan giữa biến outcome và các nhân tố, xác suất của outcome (LUTs) có thể thay đổi với giá trị của biến nhân tố (driving factors).
- Phát triển đƣợc mô hình tiên đoán, áp dụng đƣợc cho nhiều lĩnh vực đặc biệt là tạo đƣợc bản đồ thích nghi đất đai.
- Nhiều chương trình, phần mềm có thể dùng để ước tính tham số.
(iii) Ước tính tham số của LRM bằng phương pháp ước lượng hợp lý cực đại - Maximum Likelihood Estimation (MLE).
Maximum likelihood estimator (MLE) ƣớc tính (β0,β1, β2,…) bằng cách tối đa hóa hàm :
0 1 1 2 2
0 1 2
1 1 0 1 1 2 2
exp ...
, , ... 1
1 exp ...
i i i
N N
n y i i i
y
i i
i i i i
y x x
L x x
(8)
Trong thực tế, phần mềm ngôn ngữ R hay các phần mềm thống kê thương mai khác nhƣ SAS, SPSS… đều có khả năng ƣớc tính các tham số của mô hình theo phương pháp MLE. Riêng trong môi trường ngôn ngữ R việc ước tính thông
qua việc triển trai qua hàm ―generalized linear model - glm‖, ―logistic regression model - lrm‖ trong package(regression modeling strategies – rms).
Trong đề tài này sẽ viết một chương trình với các hàm có sẵn trong ngôn ngữ lập trình R để ƣớc tính tham số và chọn lọc các i có độ tin cậy ≥ 95%.và đánh giá LRM của từng biến outcome (LUT).
(iv) Đánh giá LRM bằng đường cong Receiver Operating Characteristics (ROC) Curve
(iv.a) Hoàn cảnh ra đời
Đường cong ROC là một biểu đồ có dạng đường cong, biểu diễn mức độ hiệu quả của một hệ thống phân loại nhị phân (binary classifier). Đường cong ROC dùng để đánh giá các kết quả của một dự đoán. Ứng dụng đầu tiên của nó là cho việc nghiên cứu các hệ thống nhận diện trong việc phát hiện các tín hiệu radio khi có sự hiện diện của nhiễu vào thập niên 1940, sau sự kiện cuộc tấn công Trân Châu Cảng. Công trình nghiên cứu đầu tiên nhằm mục đích xác định lý do tại sao mà các ―bộ phận thu nhận tín hiệu radar‖ của hải quân Hoa Kỳ lại bỏ qua tín hiệu của các máy bay Nhật Bản [62]. Vào thập niên 1960, ROC đƣợc ứng dụng trong nghiên cứu y dƣợc. Ngày nay, ROC sử dụng rất hữu ích trong quản lý tài nguyên , dự báo thảm họa
thiên nhiên. Trong lĩnh vực thành lập bản đồ từ ảnh viễn thám, kỹ thuật ROC đƣợc dùng để đánh giá các phương pháp xử lý ảnh siêu phổ (hyperspectral imagery)[83], [84] hay đánh giá độ chính xác của phân tích biến động [85], đánh giá kết quả phân loại [86].
(iv.b) Mô tả về biểu đồ ROC:
ROC là một đồ thị với trục tung thể hiện Độ nhạy (Sensitivity), trục hoành thể hiện [1-đặc trƣng (specificity)] (một số phần mềm có khi thể hiện giá trị đặc trƣng) cho một hệ thống phân loại nhị phân khi mà ngƣỡng phân loại của nó bị thay đổi (giá trị ngưỡng – cutpoint – là nằm trên trục hoành, đường thẳng đứng cho thấy sự phân tách: phần bên trái đƣợc xem là không có thuộc tính cần kiểm tra, phần bên phải đƣợc xem là có thuộc tính cần kiểm tra.
Giá trị của ngƣỡng sẽ quyết định số lƣợng: true positives, true negatives, false positives, false negatives.
Đường cong ROC biểu diễn bằng một dạng tương đương bằng cách vẽ phần true positive (TP) theo phần false positive (FP).
Hiệu của (1- đặc trƣng) bằng false positive(FP), ví dụ đặc trƣng =0,8 thì FP=0,2.
Ứng với mỗi ngƣỡng, sẽ cho một điểm (true positive, false positive)
Nhƣ vậy với nhiều lựa chọn ngƣỡng khác nhau, sẽ cho một tập hợp các điểm trên đồ thị TP-FP. Tập các điểm này sẽ tạo thành đường cong ROC. Một dự đoán tốt nhất có thể sẽ cho ra đồ thị là một điểm nằm ở góc trên cùng, bên trái của không gian ROC, tức là 100% Độ nhạy (mọi true positives đều đƣợc tìm thấy) và 100%
Đặc trƣng (không có false positives nào cả). Một dự đoán ngẫu nhiên sẽ cho kết quả là một đường thẳng tạo một góc 45 độ với trục hoành, tính từ phía dưới bên trái đến phía trên bên phải, điều này là vì, khi ngƣỡng tăng, sẽ có cùng số lƣợng true positives và false positives giảm đi. Như vậy đường cong càng đi dọc theo biên trái, rồi đi dọc theo biên phía trên của không gian ROC thì chứng tỏ kết quả đánh giá càng tốt. Ngược lại, đường cong càng tiến tới thành đường chéo của hình vuông trong không gian ROC, thì kết quả đánh giá càng kém.
(iv.c) Tính chất của đường cong ROC
Trong đồ thị biểu diễn ROC có nhiều tính chất đƣợc sử dụng khi phân tích dữ liệu khoa học. Tuy nhiên, trong phạm vi nghiên cứu này, khi đánh giá chất lƣợng của LRM của từng LUT, tính chất đặc trưng rất quan trọng của đường cong ROC được quan tâm nhất đó là diện tích dưới đường cong ROC (the Area Under the Curve – AUC). AUC đƣợc tính theo công thức của tổng các diện tích hình thang nhƣ sau:
1 1 1
1 [ ][( )]
2
n
i i i i
t
AUC x x y y (9)
Trong thực tế ứng dụng, do dữ liệu tạo ra có rất nhiều ngƣỡng, nên sẽ công thức trên sẽ đƣợc các phần mềm sử dụng để tính diện tích. Trong nghiên cứu này, sử dụng ngôn ngữ R để đánh giá LRM của các LUTj bằng AUCLUTj với j=1’k loại hình sử dụng đất.
Bảng 2.1: Kết luận về AUC tham khảo để đánh giá mô hình Logistic:
AUC Dạng đồ thị tương ứng Ý nghĩa (diễn giải)
> 0,9 Rất tốt (Excellent)
0,8 đến 0,9 Tốt (Good)
0,7 đến 0,8 Khá(Fair)
0,6 đến 0,7 Tệ (Poor)
0,5 đến 0,6 Vô dụng (Fail)
Thực ra bảng kết luận này đánh giá tổng quát, tùy thuộc vào lĩnh vực mà yêu cầu đòi hỏi về AUC khác nhau. Trong đánh giá đất đai, LRM thường được kết luận là tốt để xây dựng bản đồ thích nghi với AUC ≥ 0,7 (R.Gil Pontius Jr., Laura C.
Schneider ,2001 [49]; Simond Moulds et al., 2013[50]; Laura C. Schneider, R.Gil Pontius Jr.,2001 [63]; Overmars, K.P., Verburg, P.H., Veldkamp. A, 2007 [70] ) 2.2.2. Luật ra quyết định
Phương pháp kết hợp GIS & Luật ra quyết định: (P.H. Verburg and K.P.
Overmars) [41]; E. Koomen, J. Stillwell [64]; L.J.M. Jansen, G. Carrai and M. Petri [65]; N. Dendoncker, P. Bogaert and M. Rounsevell [66]; W. Loonen, P. Heuberger and M. Kuijpers-Linde [67]; D. Felsenstein, E. Ashbel and A. Ben-Nun [68] ) dựa trên kiến thức chuyên gia và phân tích không gian trong GIS giúp xác định: các chuyển đổi sử dụng đất trong vùng nghiên cứu, tổng hợp các quy hoạch chuyên ngành để loại trừ, xác định không gian bố trí sử dụng đất nông nghiệp..Việc chỉ định các vị trí cụ thể bao gồm việc phân định ranh đất nông nghiệp và phi nông nghiệp. Trong quy hoạch sử dụng đất, việc xác định đƣợc các vùng thích hợp cho việc phát triển nông nghiệp hay khu vực bảo tồn thiên nhiên là cần thiết trong việc bố trí các LUT trong không gian sử dụng đất.
Trong thủ tục bố trí sử dụng đất, luật ra quyết định xác định các điều kiện đối với các LUT được phép thay đổi trong các bước thời gian tiếp theo. Những quy định này nằm tạo nên sự hợp lý, bền vững, ổn định trong cơ cấu sử dụng đất.
2.2.3. Phân tích Markov
Phõn tớch Markov (J. Peủa, A. Bonet, J. Bellot, J.R. Sỏnchez, D. Eisenhuth, S.
Hallettand, A. Aledo [69] ): Giúp xác định tần suất chuyển đổi sử dụng đất của từng loại hình sử dụng đất (LUT) ở trong quá khứ đến thời điểm hiện trạng, ví dụ nhƣ giai đoạn 2000-2010. Tần suất chuyển đổi này chính là hệ số ELAS của mỗi LUT trong vùng nghiên cứu, cần có để khai báo lúc mô phỏng. Phần lớn các LUT có thể chuyển đổi sang LUT khác với mức khả năng chuyển đổi thuận nghịch nằm giữa hai trường hợp kia. Có một hệ số đặc trưng cho tính chất khả năng chuyển đổi khả nghịch về lại LUT lúc ban đầu là Elasticity (ELAS) . Trường hợp hệ số ELAS = 1 (không thể quay lại trạng thái ban đầu). Ngƣợc lại, hệ số ELAS=0 thể hiện sự dễ dàng quay về trạng thái ban đầu. Hệ số ELAS 0,1 .