Do đó, xây dựng mô hình dự đoán nguy cơ sạt lở đất sử dụng phương pháp học máy đang trở thành xu hướng chính trong các nghiên cứu hiện nay.. Trong nghiên cứu xây dựng mô hình dự đoán n
Trang 1ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐOÀN VIẾT LONG
NGHIÊN CỨU NÂNG CAO ĐỘ CHÍNH XÁC TRONG XÂY DỰNG BẢN ĐỒ PHÂN VÙNG NGUY CƠ SẠT LỞ ĐẤT CHO KHU VỰC MIỀN NÚI TỈNH QUẢNG NGÃI
Ngành: Kỹ thuật xây dựng công trình thủy
Mã số: 9580202
TÓM TẮT LUẬN ÁN TIẾN SỸ
Đà Nẵng - Năm 2024
Trang 2MỞ ĐẦU
1 Giới thiệu chung
Sạt lở đất là một trong những loại hình thiên tai nguy hiểm, phân bố trên cả 5 châu lục, gây nhiều thiệt hại nghiêm trọng Ở Việt Nam, hiện tượng sạt lở đất chủ yếu tập trung ở các tỉnh miền núi phía Bắc và các tỉnh duyên hải miền Trung – Tây Nguyên Sạt lở đất xảy ra ở những khu vực này do nhiều nguyên nhân, trong đó mưa được xem là yếu tố kích thích Dưới tác động của biến đổi khí hậu, số lượng đợt mưa lớn, mưa cực đoan, dị thường được dự đoán sẽ tăng lên và trở thành yếu tố chính gây ra sạt lở đất ở nhiều khu vực
Trong nghiên cứu về sạt lở đất, bản đồ phân vùng nguy cơ sạt lở đất
là công cụ hữu hiệu để phòng chống loại hình thiên tai này Ngày nay, sự
ra đời của các mô hình thống kê hiện đại như học máy giúp nâng cao độ chính xác của mô hình dự đoán nguy cơ sạt lở đất Do đó, xây dựng mô hình dự đoán nguy cơ sạt lở đất sử dụng phương pháp học máy đang trở thành xu hướng chính trong các nghiên cứu hiện nay Tuy nhiên, đối với khu vực nghiên cứu mới thì việc xác định mô hình học máy phù hợp trong
dự đoán nguy cơ sạt lở đất là rất quan trọng
Trong nghiên cứu xây dựng mô hình dự đoán nguy cơ sạt lở đất bằng phương pháp học máy, dữ liệu là một yếu tố hết sức quan trọng Ngày nay, sự phát triển của công nghệ viễn thám cùng với các kỹ thuật phân tích hiện đại cho phép khôi phục và làm giàu dữ liệu thống kê Ngoài ra, việc chọn lọc dữ liệu hợp lý cho mô hình học máy là rất quan trọng, đặc biệt là các dữ liệu có giá trị thay đổi theo thời gian như mưa và chỉ số thực vật (NDVI) Đối với dữ liệu mưa, rất nhiều nghiên cứu trước đây lại
sử dụng dữ liệu mưa trung bình nhiều năm (TBNN) trong đánh giá nguy
cơ sạt lở đất Cách tiếp cận này là không hợp lý đối với một số khu vực
mà ở đó mưa lớn kéo dài trong nhiều ngày mới là nguyên nhân chính dẫn
Trang 3đến sạt lở đất Ngoài yếu tố mưa, NDVI cũng là một yếu tố thường xuyên thay đổi theo thời gian Trong khi đó, rất nhiều nghiên cứu trước đây chỉ
sử dụng một bản đồ NDVI duy nhất cho xây dựng mô hình dự đoán Như vậy, vẫn còn nhiều vấn đề cần phải cải thiện từ dữ liệu đến mô hình dự đoán trong nghiên cứu xây dựng bản đồ phân vùng nguy cơ sạt
lở đất Vùng núi tỉnh Quảng Ngãi là địa phương thường xuyên xảy ra sạt
lở đất nhưng dữ liệu đo đạc lại rất hạn chế Do đó, luận án lựa chọn khu vực này để nghiên cứu nhằm nâng cao độ chính xác trong xây dựng bản
đồ phân vùng nguy cơ sạt lở đất, phục vục vụ tốt công tác phòng chống thiên tai, quy hoạch và thiết kế công trình
- Cần có cách tiếp cận hợp lý hơn trong sử dụng dữ liệu thay đổi theo thời gian như mưa và NDVI trong đánh giá nguy cơ sạt lở đất
- Cần nghiên cứu lựa chọn loại dữ liệu mưa phù hợp trong đánh giá và xây dựng bản đồ phân vùng nguy cơ sạt lở đất cho những khu vực hạn chế dữ liệu
3 Mục tiêu nghiên cứu
3.1 Mục tiêu tổng quát
Nâng cao độ chính xác trong xây dựng bản đồ phân vùng nguy cơ sạt lở đất cho khu vực hạn chế dữ liệu
3.2 Mục tiêu cụ thể
Trang 4- Xây dựng được bộ dữ liệu đầu vào cho mô hình học máy dự đoán nguy cơ sạt lở đất
- Xác định được mô hình dự đoán nguy cơ sạt lở đất phù hợp, có độ chính xác cao cho một khu vực nghiên cứu cụ thể
- Xây dựng được bản đồ phân vùng nguy cơ sạt lở đất theo tần suất mưa
4 Đối tượng nghiên cứu và phạm vi nghiên cứu
4.1 Đối tượng nghiên cứu
- Các vụ sạt lở đất đã xảy ra
- Lượng mưa gây sạt lở đất
- Các yếu tố ảnh hưởng đến sạt lở đất
- Mô hình học máy dự đoán nguy cơ sạt lở đất
- Các phương pháp đánh giá mô hình và đánh giá bản đồ
- Các công trình thủy trong phạm vi khu vực nghiên cứu
4.2 Phạm vi nghiên cứu
Khu vực 5 huyện miền núi tỉnh Quảng Ngãi
5 Phương pháp nghiên cứu
- Phương pháp phân tích, thống kê kết hợp nghiên cứu lý thuyết
- Phương pháp điều tra, khảo sát, phương pháp kế thừa
- Phương pháp phân tích ảnh viễn thám
- Phương pháp tổng hợp, phân tích và xử lý số liệu
- Phương pháp học máy
- Phương pháp kiểm tra, đánh giá và so sánh các mô hình
- Phương pháp xây dựng bản đồ bằng kỹ thuật GIS
6 Ý nghĩa khoa học và thực tiễn của luận án
6.1 Ý nghĩa khoa học
- Bổ sung và làm giàu dữ liệu phục vụ cho việc xây dựng bản đồ phân vùng nguy cơ sạt lở đất cho vùng miền núi Quảng Ngãi
Trang 5- Ứng dụng thành công mô hình học máy trong xây dựng bản đồ phân vùng nguy cơ sạt lở đất theo tần suất mưa cho vùng núi Quảng Ngãi
6.2 Ý nghĩa thực tiễn
Bản đồ phân vùng nguy cơ sạt lở đất là tài liệu hữu hiệu phục vụ công tác phòng chống thiên tai, quy hoạch, thiết kế và quản lý công trình trên địa bàn vùng núi tỉnh Quảng Ngãi
7 Cấu trúc của luận án
Luận án có cấu trúc gồm có phần Mở đầu, 4 chương, Kết luận và kiến nghị Tổng luận án được trình bày trong 133 trang A4, không kể phụ
lục
Trang 6Chương 1: TỔNG QUAN 1.1 Tổng quan về sạt lở đất
1.1.1 Khái niệm
Sạt lở đất là sự dịch chuyển của khối đất đá trên sườn dốc dưới tác động của trọng lực Đây là một hiện tượng rất phức tạp do sự tương tác của nhiều yếu tố tự nhiên (địa chất, địa mạo, khí tượng, thủy văn ) và yếu tố con người
1.1.2 Các dạng sạt lở đất
Nghiên cứu của L Highland chia sạt lở đất ra làm các dạng: trượt, rơi, lật, chảy, dòng chảy tràn và dạng hỗn hợp Trong đó, trượt là loại hình phổ biến nhất trong các loại hình sạt lở đất ở trên thế giới (chiếm 55.2%), tiếp theo là chảy (19.3%), rơi (9.4%), các dạng còn lại chiếm khoảng 13.2% Ở Việt Nam, sạt lở đất xảy ra hầu hết là do mưa kích thích, các dạng sạt lở đất chủ yếu bao gồm: tai biến trượt lở ở vùng đồi núi, trượt dòng bùn đất đá
1.1.3 Nguyên nhân và các yếu tố ảnh
Nghiên cứu của Crozier và cộng sự phân chia nhóm yếu tố gây sạt lở đất ra làm 2 loại chính: (i) nhóm yếu tố điều kiện (conditioning factors) gồm: độ dốc, hướng phơi sườn, độ cao, đứt gãy, loại nền đá, mật độ sông suối, sử dụng đất và loại đất và (ii) nhóm yếu tố kích thích (triggering factors) gồm: lượng mưa, động đất và hoạt động của con người
1.1.4 Thiệt hại do sạt lở đất
Theo thống kê của Ngân hàng thế giới, khoảng 3.7 triệu km2 bề mặt đất và khoảng 300 triệu người (khoảng 5% dân số thế giới) chịu ảnh hưởng bởi sạt lở đất Ở Việt Nam, sạt lở đất xảy ra thường xuyên ở các tỉnh miền núi phía Bắc và miền Trung – Tây Nguyên gây nhiều thiệt hại
về người và tài sản Từ năm 2000 đến 2020, thiên tai lũ quét, sạt lở đất
Trang 7đã làm 1,117 người chết và mất tích, 671 người bị thương, 12,038 nhà bị sập đổ
1.2 Mức độ đánh giá sạt lở đất và bản đồ sạt lở đất
1.2.1 Mức độ đánh giá sạt lở đất
Các nghiên cứu của D J Varnes và F Guzzetti đã phân chia các phương pháp đánh giá sạt lở đất ra làm các loại sau: (i) phân vùng sạt lở, (ii) đánh giá nguy cơ sạt lở đất theo không gian, (iii) đánh giá nguy cơ sạt
lở đất theo không gian – thời gian, (iv) đánh giá tổn thương do sạt lở đất, (v) đánh giá rủi ro sạt lở đất
1.2.2 Các loại bản đồ sạt lở đất
Nghiên cứu của D J Varnes và nnk đã phân chia bản đồ sạt lở đất thành các loại: (i) bản đồ hiện trạng sạt lở, (ii) bản đồ phân vùng nguy cơ sạt lở đất, (iii) bản đồ nguy cơ sạt lở đất, và (iv) bản đồ rủi ro sạt lở đất Trong số đó, bản đồ nguy cơ sạt lở đất và bản đồ rủi ro sạt lở đất rất khó xây dựng vì đòi hỏi nhiều dữ liệu Đối với khu vực hạn chế về dữ liệu, nghiên cứu này tiếp cận đánh giá nguy cơ sạt lở đất theo không gian (gọi tắc là “đánh giá nguy cơ sạt lở đất”) và xây dựng bản đồ phân vùng nguy
cơ sạt lở đất
1.3 Phương pháp xây dựng mô hình dự đoán nguy cơ sạt lở đất
Nghiên cứu của Shano và nnk đã thống kê được có 3 phương pháp
cơ bản để xây dựng mô hình dự đoán nguy cơ sạt lở đất, bao gồm: (i) phương pháp định tính, (ii) phương pháp bán định lượng và (iii) phương pháp định lượng Trong đó, phương pháp định tính và phương pháp bán định lượng phụ thuộc vào ý kiến chủ quan của người lập bản đồ nên độ chính xác không cao Trong khi đó, phương pháp định lượng mang lại sự đáng giá khách quan và có độ chính xác tốt hơn Phương pháp này gồm
2 loại: phương pháp tiền định và phương pháp thống kê Phương pháp tiền định được đánh giá có độ tin cậy cao nhưng chỉ phù hợp cho khu vực
Trang 8nghiên cứu hẹp Trong khi đó phương pháp thống kê thường được sử dụng cho khu vực rộng lớn hơn
Phương pháp thống kê bao gồm: thống kê truyền thống và học máy Hiện nay, phương pháp học máy với nhiều ưu điểm đã áp dụng phổ biến và thay thế cho phương pháp thống kê truyền thống Nghiên cứu của Liu
và nnk đã thống kê được 3 phương pháp học máy dùng trong dự đoán nguy cơ sạt lở đất, bao gồm: (i) Học máy thông thường, (ii) Phương pháp kết hợp, (iii) Học sâu (deep learning) Các nghiên cứu đã thực hiện chỉ ra rằng, phương pháp kết hợp hiệu quả hơn so với mô hình học máy thông thường, ngoài ra phương pháp học sâu mới được phát triển gần đây cho hiệu quả dự đoán cao hơn các phương pháp học máy khác Tuy nhiên, phương pháp học sâu chỉ thực sự hiệu quả với dữ liệu lớn nên các phương pháp học máy thông thường vẫn được áp dụng vào nghiên cứu cho các khu vực không có nhiều dữ liệu để huấn luyện một mạng học sâu hoàn hảo
Nghiên cứu tổng quan về các phương pháp xây dựng mô hình dự đoán nguy cơ sạt lở đất cho thấy phương pháp dựa trên thống kê là phù hợp với phạm vi nghiên cứu của luận án Trong đó, phương pháp học máy với ưu điểm vượt trội so với phương pháp thống kê truyền thống được sử dụng trong nghiên cứu này
Trang 9Chương 2: CƠ SỞ LÝ THUYẾT CÁC PHƯƠNG PHÁP SỬ DỤNG XÂY DỰNG BẢN ĐỒ PHÂN VÙNG NGUY CƠ SẠT LỞ ĐẤT 2.1 Quy trình xây dựng bản đồ phân vùng nguy cơ sạt lở đất bằng phương pháp học máy
Sơ đồ minh họa phương pháp được thể hiện trong Hình 2.1
Hình 2.1 Sơ đồ minh họa quy trình xây dựng bản đồ phân vùng
nguy cơ sạt lở đất
2.2 Phương pháp khôi phục hiện trạng sạt lở đất bằng kỹ thuật xử
lý ảnh viễn thám
2.2.1 Cơ sở dữ liệu ảnh vệ tinh
Đối với khu vực vùng núi Việt Nam, nguồn dữ liệu ảnh quang học có thể khai thác sử dụng trong nghiên cứu này gồm có: dữ liệu ảnh có độ phân giải cao Google Earth Pro, dữ liệu ảnh vệ tinh Landsat, Sentinel 2 Trong
đó, dữ liệu ảnh Sentinel 2 mới ra đời từ năm 2015 với độ phân giải tốt hơn dữ liệu ảnh Landsat, giúp nhận diện vết sạt lở tốt hơn Do đó, nghiên cứu này sử dụng kết hợp các nguồn ảnh từ vệ tinh Sentinel 2 và nguồn ảnh Google Earth để khôi phục hiện trạng sạt lở đất đã xảy ra
2.2.2 Kỹ thuật phân tích
Nghiên cứu này đưa ra phương pháp kết hợp nguồn ảnh Google Earth và nguồn ảnh Sentinel 2 trong phân tích nhằm khắc phục hạn chế
Trang 10của mỗi phương pháp đơn lẻ, tăng hiệu quả nhận diện vị trí sạt lở và phân loại thời gian (năm) xảy ra sạt lở (Hình 2.3)
Hình 2.3 Sơ đồ phương pháp kết hợp hai nguồn ảnh Sentinel 2 và Google Earth để xác định vị trí và thời gian sạt lở đất
2.3 Phương pháp xây dựng chuỗi dữ liệu mưa và NDVI dùng trong
dự đoán nguy cơ sạt lở đất
Yếu tố mưa và NDVI là các yếu tố có giá trị biển đổi theo thời gian Trong khi đó, nghiên cứu trước đây khi chỉ sử dụng duy nhất một bản đồ các yếu tố này để đánh giá cho một tập hợp các điểm sạt lở đất được thu thập trong nhiều năm Để cải thiện vấn đề này, luận án sử dụng chuỗi dữ liệu mưa và NDVI trong đánh giá Phương pháp xây dựng các loại dữ liệu này được thể hiện ở Hình 2.4 và Hình 2.5
Hình 2.4 Sơ đồ phương pháp xây dựng chuỗi dữ liệu mưa tích lũy lớn nhất
Trang 11Hình 2.5 Sơ đồ phương pháp xây dựng chuỗi dữ liệu NDVI
2.4 Phương pháp phân tích tần suất mưa vùng
Trong các nghiên cứu về phân tích tần suất mưa, cách tiếp cận phân tích tần suất mưa vùng (RFA) được đánh giá là có hiệu quả hơn các tiếp cận địa phương Do đó, nghiên cứu này sử dụng phương pháp RFA để tạo ra bản đồ mưa bình quân lớn nhất Các bản đồ này được dùng để xây dựng bản đồ phân vùng nguy cơ sạt lở đất theo các kịch bản tần suất mưa
Hình 2.6 Sơ đồ phương pháp nghiên cứu xây dựng cơ sở dữ liệu mưa
bằng kỹ thuật phân tích tần suất mưa vùng
2.5 Phương pháp phân tích và chọn lọc dữ liệu yếu tố ảnh hưởng
Trang 12Nghiên cứu này sử dụng 2 hình thức đánh giá dữ liệu, bao gồm: phân tích đa cộng tuyến bằng phương pháp ước tính hệ số lạm phát phương sai (VIF) và đánh giá mức độ quan trọng của mỗi yếu tố đến sạt lở đất bằng phương pháp Boruta Quá trình phân tích đa cộng tuyến sẽ loại bỏ các yếu tố có mối quan hệ phụ thuộc nhau khi áp dụng các mô hình tuyến tính Trong khi đó, quá trình chọn lọc dữ liệu sẽ loại bỏ các yếu tố không thực
sự cần thiết trong mô hình dự đoán nguy cơ sạt lở đất
2.6 Lý thuyết các mô hình dự đoán nguy cơ sạt lở đất
2.6.1 Mô hình hồi quy Logistic (LR)
Trong đánh giá nguy cơ sạt lở đất, LR được sử dụng như một mô hình hồi quy với các biến độc lập là giá trị của các yếu tố ảnh hưởng và biến phụ thuộc mô tả dữ liệu là sạt lở đất (bằng 1) hoặc không sạt lở đất (bằng 0) Nghiên cứu này sử dụng phương pháp SGD để tối ưu hóa hàm mất mát nhằm tìm ra bộ thông số tốt nhất cho mô hình
2.6.2 Mô hình máy vector hỗ trợ (SVM)
Giả sử ta có một tập huấn luyện (Xi, Yi), với Xi ϵ Rn: là vector đầu vào của các yếu tố ảnh hưởng đến sạt lở đất; Yi là giá trị đầu ra (sạt lở đất hoặc không sạt lở đất) Bài toán tối ưu trong SVM là tìm ra một siêu mặt phẳng sao cho lề (margin) đạt giá trị lớn nhất hay xác định các tham số w và b để tối ưu hóa hàm mục tiêu sau:
SVM với các hàm kernel cho phép giải quyết bài toán phân loại với dữ liệu đầy vào phi tuyến tính Một số hàm kernel thông dụng có thể kể đến như PL, sigmoid, RBF Bộ thông số của mô hình SVM tùy thuộc vào hàm kernel được áp dụng
2.6.3 Mô hình cây quyết định (DT)
Trang 13Đây là mô hình phân loại phi tham số, bao gồm việc phân vùng và phân loại dữ liệu liên tục dựa trên quy tắc quyết định Mô hình DT có thể triển khai bằng nhiều thuật toán như: ID3, C4.5, CART, CHAID, MARS
Ba tiêu chí phân chia được sử dụng phổ biến trong các thuật toán này là chỉ số Gini, quy tắt Twoing và entropy chéo.Với bài toán phân loại thì chỉ số Gini thường được chọn vì nó mang lại độ chính xác phân loại tổng thể tốt nhất Bộ thông số chính của mô hình DT bao gồm: complexity parameter (cp), max_depth, minsplit, minbucket
2.6.4 Mô hình rừng ngẫu nhiên (RF)
RF là một thuật toán khai thác dữ liệu sử dụng kỹ thuật Ensemble thuộc nhóm Bagging, có khả năng phân loại chính xác dữ liệu bằng cách
sử dụng một tập hợp các cây quyết định (DT) Các thông số của mô hình
RF bao gồm: (i) số lượng cây quyết định (ntree) và (ii) số lượng biến ngẫu nhiên tại mỗi lần phân tách (mtry) Nhiệm vụ của nghiên cứu là tìm ra bộ thông số mà mô hình cho khả năng dự đoán tốt nhất
2.6.5 Mô hình tăng cường độ dốc cấp cao (XGBoost)
XGBoost là thuật toán học máy có hiệu suất cao được phát triển bởi Chen vào năm 2016 XGboost sử dụng nhiều cây phân loại và hồi quy (CART) và tích hợp chúng bằng phương pháp Gradient Boosting Mục tiêu của thuật toán XGboost là cực tiểu hóa hàm mất mát sau:
Với 𝑦̂ và 𝑦𝑖 𝑖 là các giá trị dự đoán và quan sát; T là số lá của cây quyết định ; w là trọng số của mỗi lá; γ, λ : là các mức độ điều chuẩn.Bộ thông số chính của mô hình XGBoost bao gồm: nrounds, max_depth, eta, gamma, colsample_bytree, min_child_weight, subsample
Trang 142.7 Phương pháp đánh giá và so sánh mô hình dự đoán nguy cơ sạt
lở đất
Đối với mô hình phân loại, các phương pháp được sử dụng phổ biến để đánh giá hiệu quả của mô hình bao gồm: phương pháp dựa trên chỉ số thống kê, phương pháp ROC
2.7.1 Phương pháp dựa trên chỉ số thống kê
Các chỉ số thống kê được sử dụng trong đánh giá mô hình bao gồm: độ chính xác (ACC), kappa (k), độ nhạy (SST), độ đặc hiệu (SPF), PPV, NPV Các chỉ số có giá trị càng cao chứng tỏ mô hình càng đáng tin cậy
2.7.2 Phương pháp ROC
Đường cong ROC được xây dựng bởi các điểm có tọa độ (SST,
(1-SPF)) tương ứng với một ngưỡng quyết định cụ thể Giá trị diện tích dưới đường cong ROC (AUC) dùng để đo hiệu suất của mô hình AUC có giá trị trong khoảng (0,1), giá trị AUC càng gần 1 thì hiệu suất dự đoán của
mô hình càng cao Mô hình có giá trị AUC từ 0.9 – 1.0 được đánh giá loại “rất tốt”, tiếp theo là “tốt” (0.8 – 0.9), “khá” (0.7 – 0.8), “trung bình” (0.6-0.7) và “không đáng tin cậy” (0.5 – 0.6)
2.8 Phương pháp xây dựng bản đồ phân vùng nguy cơ sạt lở đất
theo tần suất mưa
Phương pháp xây dựng bản đồ được trình bày như sơ đồ Hình 2.11
Hình 2.11 Phương pháp xây dựng bản đồ phân vùng nguy cơ sạt lở
đất theo tần suất mưa