ISSN 1859 1531 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 9, 2022 5 DỰ BÁO NGUY CƠ TRƯỢT LỞ ĐẤT CHO HUYỆN A LƯỚI, TỈNH THỪA THIÊN HUẾ SỬ DỤNG MÔ HÌNH LOGISTIC REGRESSION PREDICT LANDSLI.
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 9, 2022 DỰ BÁO NGUY CƠ TRƯỢT LỞ ĐẤT CHO HUYỆN A LƯỚI, TỈNH THỪA THIÊN HUẾ SỬ DỤNG MƠ HÌNH LOGISTIC REGRESSION PREDICT LANDSLIDE SUSCEPTIBILITY USING LOGISTIC REGRESSION MODEL IN A LUOI DISTRICT, THUA THIEN HUE PROVINCE Lê Trần Minh Đạt1, Trương Thị Hồng Ngọc2, Đồn Viết Long1, Nguyễn Chí Công1* Trường Đại học Bách khoa - Đại học Đà Nẵng Công ty Cổ phần Tư vấn Đầu tư Xây dựng Thừa Thiên Huế *Tác giả liên hệ: nccong@dut.udn.vn (Nhận bài: 07/6/2022; Chấp nhận đăng: 07/9/2022) Tóm tắt - Nghiên cứu đề xuất mơ hình hồi quy Logistic (LR) hiệu việc dự báo nguy trượt lở đất (TLĐ) cho huyện miền núi A Lưới Cơ sở liệu gồm 429 điểm sạt lở 574 điểm không sạt lở thu thập năm 2006, 2009, 2020 với 11 yếu tố biến đầu vào ảnh hưởng đến xác xuất xảy xem xét, bao gồm: Độ dốc, hướng phơi sườn, cao độ, số độ ẩm địa hình, loại đất, sử dụng đất, khoảng cách đến đường, khoảng cách đến sông, số thực vật lượng mưa lớn ngày Một mơ hình LR tối ưu đề xuất để dự báo nguy TLĐ Đường cong ROC diện tích đường cong AUC sử dụng để đánh giá hiệu suất mơ hình dự báo Kết cho thấy, AUC tập huấn luyện đạt 0,8 0,81 tập kiểm tra Cuối cùng, đồ nguy TLĐ cho huyện A Lưới với độ phân giải 30mx30m xây dựng dựa kết dự báo mơ hình hồi quy LR Abstract - This study proposes an effective Logistic Regression (LR) model for predicting landslide susceptibility (LS) at A Luoi district The dataset includes 429 landslide points and 574 nonlandslide points collected in the years 2006, 2009 and 2020 with eleven input variables, affecting on landslide probability They are considered, including slope, slope direction, elevation, topographic moisture index, soil type, land use, distance to road, distance to river, vegetation index (NVDI) and 3-day antecedent rainfall An optimal LR model is also proposed to predict landslide susceptibility The ROC curve and the area under the ROC curve (AUC) are used to evaluate the performance of the predictive model The results show that, the AUC in the training set and testing set is 0.8 and 0.81, respectively Finally, a LS predictive model with a resolution of 30mx30mfor A Luoi district is established basing on the prediction results of the LR model Từ khóa - Học máy; logistic regression; trượt lở đất; ROC; AUC Key words - Machine learning; logistic regression; landslides; ROC; AUC Đặt vấn đề Trượt lở đất (TLĐ) loại hình thiên tai nguy hiểm, xảy phổ biến giới, gây nhiều hậu nghiêm trọng Để góp phần giảm thiểu tác hại loại hình thiên tai này, công tác nghiên cứu xây dựng đồ dự báo nguy TLĐ cần thiết Bản đồ dự báo nguy TLĐ cung cấp thông tin mức độ nguy xảy trượt lở đất khu vực tương lai Đây tài liệu quan trọng hỗ trợ công tác quy hoạch phịng chống loại hình thiên tai đặc biệt nguy hiểm [1] Nghiên cứu xây dựng đồ dự báo nguy TLĐ nhà khoa học giới trọng từ lâu Vào năm 1970, xuất nghiên cứu đánh giá nguy trượt lở đất [1] Cho đến nay, có phương pháp để xây dựng đồ nguy TLĐ phương pháp định tính phương pháp định lượng phân làm nhóm: Phương pháp phát (heuristic); Phương pháp thống kê (statistical); Phương pháp định (deterministic) [5] Phương pháp phát dựa hiểu biết chuyên gia để đánh giá trọng số yếu tố ảnh hưởng, từ xây dựng số nguy vị trí đồ Phương pháp có nhược điểm lớn phụ thuộc vào ý kiến chủ quan người [2], [8], [9] Phương pháp định phương pháp định lượng, dựa việc tính tốn phân tích điều kiện ổn định không ổn định mái dốc Đây phương pháp có độ xác cao, nhiên yêu cầu mức độ chi tiết liệu nên áp dụng phạm vi nhỏ [5] Phương pháp thống kê dựa vào liệu vụ TLĐ khứ tập hợp yếu tố ảnh hưởng để xây dựng mơ hình dự báo thành lập đồ nguy TLĐ, phương pháp tỏ ưu việt khu vực có diện tích rộng lớn [5] Với phát triển khoa học thống kê đại, kỹ thuật học máy, học sâu áp dụng năm gần đây, kết hợp với cơng cụ GIS để xây dựng mơ hình dự báo nguy TLĐ dựa phương pháp thống kê với độ xác cao [3], [4], [10] Nghiên cứu thống kê báo uy tín viết lĩnh vực Reichenbach [1] giai đoạn từ năm 1983 đến 2016 cho thấy có đến 160 mơ hình thống kê áp dụng, mơ hình hồi quy Logistic loại sử dụng phổ biến Nghiên cứu Pourghasemi [5] cho kết tương tự lý giải mô hình hồi quy Logistic sử dụng nhiều có ưu điểm mắc lỗi, dễ sử dụng phù hợp với đa số khu vực nghiên cứu Ở nước ta, trượt lở đất chủ yếu xuất vào tháng mùa mưa, xảy chủ yếu tỉnh miền núi phía Bắc khu vực miền Trung - Tây Nguyên [6] Theo báo cáo Tổng cục phịng chống thiên tai - Bộ Nơng nghiệp Phát triển Nông thôn, thiên tai lũ quét sạt lở đất Việt Nam giai đoạn 2000 đến 2009 xảy 108 trận làm 544 người chết The University of Danang - University of Science and Technology (Le Tran Minh Dat, Doan Viet Long, Nguyen Chi Cong) Thua Thien Hue Construction and Investment Consulting Joint Stock Company (Truong Thi Hong Ngoc) Lê Trần Minh Đạt, Trương Thị Hồng Ngọc, Đồn Viết Long, Nguyễn Chí Cơng tích Trong giai đoạn từ 2010 đến 2020, có đến 224 trận lũ quét sạt lở đất xảy làm chết tích 572 người, riêng tháng 10 năm 2020 có 18 trận trượt lở đất tỉnh thành miền Trung làm 111 người chết tích Có thể nói, thiên tai TLĐ ngày xảy với mức độ nghiêm trọng, đòi hỏi cần nghiên cứu xác định khu vực có nguy cơ, từ đưa giải pháp phịng chống A Lưới huyện miền núi biên giới phía Tây tỉnh Thừa Thiên Huế, Địa giới huyện A Lưới giới hạn tọa độ địa lý từ 16000'57'' đến 16027’30'' vĩ độ Bắc từ 1070 0'3’ đến 107030'30'' kinh độ Đông Hàng năm huyện A Lưới gánh chịu nhiều rủi ro thiên tai gây như: Bão, lũ lụt, hạn hán TLĐ Trong đó, TLĐ dạng thiên tai thường xuyên xảy vào mùa mưa Trong thời gian qua, số nghiên cứu khảo sát, đánh giá nguy TLĐ áp dụng cho khu vực [2], [7], [8], [9] Nghiên cứu [2], [8], [9] sử dụng kỹ thuật thống kê cổ điển để đánh giá trọng số yếu tố nguy cơ, kết hợp với công cụ GIS để xây dựng đồ nguy TLĐ, nghiên cứu chưa đánh giá độ xác mơ hình Nguyen Thanh Long [7] áp dụng mơ hình số thống kê (Statistical Index - SI), mơ hình hồi quy Logistic mơ hình Certainty Factor (CF) để đánh giá nguy TLĐ Kết mơ hình CF cho kết tốt Tuy nhiên, dựa số điểm TLĐ hạn chế (181 điểm) nên áp dụng phương pháp thống kê truyền thống chưa đưa cấp dự báo nguy TLĐ Dựa phân tích tình hình nghiên cứu giới khu vực, báo áp dụng mơ hình học máy sử dụng phương pháp hồi quy Logistic để xây dựng đánh giá mô hình dự báo nguy TLĐ cho địa bàn huyện A Lưới, tỉnh Thừa Thiên Huế Mơ hình sau kết hợp với kỹ thuật GIS để xây dựng đồ dự báo nguy TLĐ cho khu vực ArcGIS 10.2 (Hình 2) Dữ liệu điểm đại diện cho vị trí sạt lở chuyển đổi sang định dạng pixel, với độ phân giải 30x30 m Ngoài ra, pixel đại diện điểm không trượt lở chọn ngẫu nhiên từ pixel không trượt lở khu vực nghiên cứu Bộ liệu sử dụng để huấn luyện kiểm tra mơ hình dự báo LR bao gồm 429 điểm TLĐ 574 điểm không sạt lở Mười yếu tố biến đầu vào ảnh hưởng đến xác suất xảy TLĐ xem xét, bao gồm: Độ dốc (x1), hướng phơi sườn (x2), cao độ (x3), hình dạng bề mặt địa hình (x4), số độ ẩm địa hình (x5), loại đất (x6), sử dụng đất (x7), khoảng cách đến đường (x8), khoảng cách đến sông (x9), số thực vật (NVDI) (x10) lượng mưa ngày lớn [1] ứng với tần suất 2% (x11) Trạng thái trượt lở đất chọn làm biến đầu (y) cho mơ hình dự báo, nhận giá trị không trượt trượt Hình Vị trí điểm TLĐ thu thập (chấm đen) Bảng Mô tả 11 biến đầu vào mơ hình Hình Vị trí khu vực nghiên cứu (đường bao nét đậm) Dữ liệu phương pháp nghiên cứu 2.1 Dữ liệu nghiên cứu Các vị trí sạt vùng nghiên cứu xác định dựa việc điều tra, khảo sát kết hợp phục hồi điểm sạt lở sử dụng kỹ thuật viễn thám Các vị trí sạt lở đất số hóa cách diễn giải trực quan công cụ Biến đầu vào x1 x2 x3 x4 x5 x6 Yếu tố ảnh hưởng đến TLĐ Độ dốc Hướng phơi sườn Cao độ Hình dạng địa hình Chỉ số độ ẩm địa hình Loại đất x7 Sử dụng đất x8 x9 x10 x11 Khoảng cách đến đường Khoảng cách đến sông Chỉ số thực vật Lượng mưa Nguồn, tỷ lệ, độ phân giải NasaDEM, 30mx30m NasaDEM, 30mx30m NasaDEM, 30mx30m NasaDEM, 30mx30m NasaDEM, 30mx30m 1/50.000 landcovermapping.org, 30mx30m 1/50.000 1/50.000 sentinel.esa.int, 30mx30m [2], 30mx30m ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 9, 2022 3.1) Độ dốc (độ) 3.2) Hướng phơi sườn 3.3) Cao độ (m) 3.4) Hình dạng địa hình 3.5) Chỉ số độ ẩm địa hình 3.6) Loại đất 3.7) Sử dụng đất 3.8) Khoảng cách đến đường 3.9) Khoảng cách đến sông 3.10) Chỉ số thực vật 3.11) Lượng mưa ngày lớn nhất, p=2% Hình Dữ liệu 11 biến đầu vào mơ hình Để xác nhận hiệu mơ hình LR, phần liệu tập kiểm tra chiếm tỉ lệ 30% (301 điểm) tổng số 1004 mẫu Tập liệu huấn luyện sử dụng để xác định trọng số (hoặc tham số) mơ hình LR chứa 70% liệu (702 điểm) Tần suất xuất biến đầu vào đầu liệu thể Hình Để giảm biên độ biến động mơ hình LR, nâng cao tốc độ học tập mơ hình, hiệu suất, độ xác tính ổn định q trình huấn luyện, biến đầu vào đầu tập liệu quy đổi lại tỷ lệ khoảng [0, 1] Phương trình quy đổi tỷ lệ biến biểu diễn bên dưới: 𝑥̂𝑖 = 𝑥𝑖 −𝑥𝑚𝑖𝑛 𝑥𝑚𝑎𝑥 −𝑥𝑚𝑖𝑛 (1) Trong đó: xi giá trị thực tế, 𝑥̂𝑖 giá trị quy đổi, 𝑥𝑚𝑖𝑛 , 𝑥𝑚𝑎𝑥 giá trị nhỏ lớn biến đầu vào Dữ liệu thống kê biến đầu vào đầu tóm tắt Bảng Lê Trần Minh Đạt, Trương Thị Hồng Ngọc, Đồn Viết Long, Nguyễn Chí Cơng 4.1) Độ dốc (x1) 4.2) Hướng phơi sườn (x2) 4.3) Cao độ (x3) 4.4) Hình dạng DEM (x4) 4.5) Chỉ số độ ẩm DEM (x5) 4.6) Loại đất (x6) 4.7) Sử dụng đất (x7) 4.8) k/c đến đường (x8) 4.9) k/c đến sông (x9) 4.10) Chỉ số thực vật (x10) 4.11) Lượng mưa (x11) 4.12) Biến đầu (y) Hình Tần suất xuất 11 biến đầu vào đầu mơ hình Bảng Thống kê mơ tả biến đầu vào biến đầu liệu Biến mean max sd skewness x1 21,74 67,84 12,16 0,38 x2 1,00 4,49 8,00 2,42 0,04 x3 43,00 624,20 1763,00 282,49 0,62 x4 -13,66 -0,029 12,18 1,52 -0,24 x5 2,53 4,64 10,33 0,96 1,31 2,00 6,00 0,86 2,23 x6 1,00 x7 15,00 x8 2193,21 12051,20 2412,49 1,38 473,90 1690,00 341,60 0,66 x9 1,00 4,00 8,00 0,55 -1,37 x10 -0,19 0,55 0,80 0,14 1,72 x11 970,82 1042,21 1126,74 27,13 0,20 y 0,427 1,00 0,49 0,29 2.2 Phương pháp Trong hồi quy logistic (LR), mối quan hệ định lượng xuất trượt lở đất phụ thuộc vào tập hợp yếu tố ảnh hưởng biểu thị dạng hàm logistic: (2) 𝑝= + 𝑒 −𝑍 Trong đó, p xác suất kiện trượt đất, trượt p = khơng trượt p = Z hàm tuyến tính đa biến sau: 𝑛 (3) 𝑍 = 𝑎0 + ∑ 𝑎𝑖 𝑥𝑖 𝑖=1 Trong đó, a0, tham số mơ hình xi biến đầu vào Một yếu tố quan trọng mơ hình LR việc xác định các tham số (a0, ai) phương trình hồi quy phù ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 9, 2022 hợp để tối ưu hóa hàm mát Mơ hình LR đề xuất thơng qua việc tìm kiếm tham số tối ưu sử dụng công cụ GridSearchCV scikit-learn Thuật toán Broyden – Fletcher – Goldfarb – Shanno (lbfgs) nhớ giới hạn kết hợp phương pháp điều chuẩn với hệ số C=1 áp dụng để tối ưu hóa hàm mát Kỹ thuật phân bố liệu Stratified K-Fold áp dụng để đảm bảo tỉ lệ phân chia tương đồng biến liệu Các thuật toán code triển khai Google Colab kết hợp với công cụ GIS Để giảm thiểu độ nhiễu mơ hình để đảm bảo kết hợp tuyến tính hồn hảo biến, phân tích đa cộng tuyến tiến hành Hệ số phóng đại phương sai dung sai áp dụng để kiểm tra tính đa cộng tuyến 11 biến đầu vào Để đánh giá độ xác hiệu suất mơ hình dự báo, biểu đồ đường cong ROC dựa mối liên hệ độ nhạy độ đặc hiệu số AUC sử dụng Độ nhạy, độ đặc hiệu độ xác xác định phương trình sau: 𝑇𝑃 (4) Độ 𝑛ℎạ𝑦 = 𝑇𝑃 + 𝐹𝑁 𝑇𝑁 (5) Độ đặ𝑐 ℎ𝑖ệ𝑢 = 𝐹𝑃 + 𝑇𝑁 𝑇𝑃 + 𝑇𝑁 (6) Độ 𝑐ℎí𝑛ℎ 𝑥á𝑐 = 𝑇𝑃 + 𝐹𝑁 + 𝐹𝑃 + 𝑇𝑁 Trong đó: TP: số điểm TLĐ mà mơ hình dự báo đúng; FP: số điểm TLĐ mà mơ hình dự báo sai; FN: số điểm khơng TLĐ mà mơ hình dự báo sai; TN: số điểm khơng TLĐ mà mơ hình dự báo ROC) giá trị AUC tập liệu huấn luyện kiểm tra quan sát đạt giá trị tương ứng 0,80 0,81 Quan sát giá trị fold trình phân bố liệu cho thấy kết tập liệu kiểm tra huấn luyện tương đồng nhau, điều đảm bảo hoạt động ổn định mơ hình dự báo Do với mơ hình LR tối ưu đề xuất nghiên cứu xem công cụ hữu hiệu việc dự báo nguy LTĐ vùng nghiên cứu Giá trị hệ số phương trình hồi quy (3) mơ hình LR đề xuất thể Bảng Bảng Hệ số phương trình hồi quy mơ hình LR a0 a1 a2 a3 a4 a5 3,53 2,56 0,65 0,19 -0,53 -1,58 a6 a7 a8 a9 a10 a11 -0,39 -0,01 -1,66 0,25 4,28 -1,73 Hình đồ dự báo nguy TLĐ huyện A Lưới chia theo mức cấp độ: nguy cao, nguy cao, nguy trung bình, nguy thấp nguy thấp Hình biểu diễn tỷ lệ % mật độ TLĐ với cấp nguy dự báo nêu Đáng ý vùng dự báo mức nguy TLĐ cao có tỷ lệ % mật độ TLĐ đạt 60% Kết bàn luận Hình Bản đồ dự báo nguy TLĐ huyện A Lưới Hình Mật độ TLĐ huyện A Lưới Hình Đường cong ROC tập liệu huấn luyện kiểm tra Mô hình hồi quy Logistic cho kết dự báo tốt Điều thể qua kết Hình (đồ thị đường Kết luận Nghiên cứu thu thập cập nhật điểm TLĐ cho huyện A Lưới với tổng số 429 điểm năm 2006, 2009 2020 Dựa phân tích 11 biến đầu vào, Lê Trần Minh Đạt, Trương Thị Hồng Ngọc, Đồn Viết Long, Nguyễn Chí Cơng 10 mơ hình hồi quy Logistic tối ưu đề xuất để dự báo xác suất xảy TLĐ cho vùng nghiên cứu với độ tin cậy cao, giá trị AUC=0,80 cho tập huấn luyện AUC=0,81 cho tập liệu kiểm tra Dựa mơ hình dự báo đề xuất kết hợp với công cụ GIS, đồ nguy TLĐ chi tiết cho huyện A Lưới với độ phân giải 30mx30m xây dựng [4] [5] Lời cảm ơn: Đoàn Viết Long tài trợ Tập đồn Vingroup – Cơng ty CP hỗ trợ chương trình học bổng đào tạo thạc sĩ, tiến sĩ nước Quỹ Đổi sáng tạo Vingroup (VINIF), Viện Nghiên cứu Dữ liệu lớn (VinBigdata), mã số VINIF.2021.TS.122 [6] TÀI LIỆU THAM KHẢO [8] [1] P Reichenbach, M Rossi, B D Malamud, M Mihir, and F Guzzetti, "A review of statistically-based landslide susceptibility models", Earth-Science Rev., vol 180, 2018, pp 60–91 [2] Vo Nguyen Duc Phuoc, Nguyen Quang Binh, Phan Dinh Hung, Doan Viet Long, Nguyen Chi Cong, "Study on the causes of landslides for mountainous regions in central region of VietNam" Journal of science and technology ISSN 1859-1531, Vol 17, No 12.1, 2019, pp 29-33 [3] B Thai Pham, D Tien Bui, and I Prakash, "Landslide susceptibility [7] [9] [10] modelling using different advanced decision trees methods" Civ Eng Environ Syst., vol 35, no 1–4, 2018, pp 139–157 B T Pham et al, "Ensemble modeling of landslide susceptibility using random subspace learner and different decision tree classifiers" Geocarto Int, 2020, pp 1–23 H R Pourghasemi, Z T Yansari, P Panagos, and B Pradhan, "Analysis and evaluation of landslide susceptibility: a review on articles published during 2005–2016 (periods of 2005–2012 and 2013–2016)" Arab J Geosci., vol 11, no 9, 2018, p 193 Doan Viet long, Nguyen Chi Cong, Nguyen Quang Binh, Nguyen Tien Cuong, “Đánh giá thực trạng giải pháp nghiên cứu sạt lở đất Việt Nam giai đoạn 2010-2020”, Tạp chí Khoa học Công nghệ Thủy lợi Số 61, 2020, pp 119-128 Nguyen Thanh Long et al, “Analysis and mapping of rainfallinduced lamdslide susceptibility in A Luoi district, Thua Thien Hue province, Vietnam” Water 2019,11,5; doi: 10.3390 N H K Linh, J Degener, N B Ngoc, and T T M Chau, “Mapping risk of landslide at A Luoi district, Thua Thien Hue province, Vietnam by GIS-based multi-criteria evaluation” Asian J Agric Dev., vol 15, no 1362-2018–3543, 2018, pp 87–105 M T Tan and N Van Tao, “Studying landslides in Thua Thien-Hue province: VIETNAM J EARTH Sci., vol 36, no 2, 2014, pp 121–130 D T Bui, P Tsangaratos, V.-T Nguyen, N Van Liem, and P T Trinh, “Comparing the prediction performance of a Deep Learning Neural Network model with conventional machine learning models in landslide susceptibility assessment”, Catena, vol 188, 2020, pp 104-426