Tom tat tieng viet nghiên cứu nâng cao Độ chính xác trong xây dựng bản Đồ phân vùng nguy cơ sạt lở Đất cho khu vực miền núi tỉnh quảng ngãi

Do đó, xây dựng mô hình dự đoán nguy cơ sạt lở đất sử dụng phương pháp học máy đang trở thành xu hướng chính trong các nghiên cứu hiện nay.. Trong nghiên cứu xây dựng mô hình dự đoán n

Trang 1

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐOÀN VIẾT LONG

NGHIÊN CỨU NÂNG CAO ĐỘ CHÍNH XÁC TRONG XÂY DỰNG BẢN ĐỒ PHÂN VÙNG NGUY CƠ SẠT LỞ ĐẤT CHO KHU VỰC MIỀN NÚI TỈNH QUẢNG NGÃI

Ngành: Kỹ thuật xây dựng công trình thủy

Mã số: 9580202

TÓM TẮT LUẬN ÁN TIẾN SỸ

Đà Nẵng - Năm 2024

Trang 2

MỞ ĐẦU

1 Giới thiệu chung

Sạt lở đất là một trong những loại hình thiên tai nguy hiểm, phân bố trên cả 5 châu lục, gây nhiều thiệt hại nghiêm trọng Ở Việt Nam, hiện tượng sạt lở đất chủ yếu tập trung ở các tỉnh miền núi phía Bắc và các tỉnh duyên hải miền Trung – Tây Nguyên Sạt lở đất xảy ra ở những khu vực này do nhiều nguyên nhân, trong đó mưa được xem là yếu tố kích thích Dưới tác động của biến đổi khí hậu, số lượng đợt mưa lớn, mưa cực đoan, dị thường được dự đoán sẽ tăng lên và trở thành yếu tố chính gây ra sạt lở đất ở nhiều khu vực

Trong nghiên cứu về sạt lở đất, bản đồ phân vùng nguy cơ sạt lở đất

là công cụ hữu hiệu để phòng chống loại hình thiên tai này Ngày nay, sự

ra đời của các mô hình thống kê hiện đại như học máy giúp nâng cao độ chính xác của mô hình dự đoán nguy cơ sạt lở đất Do đó, xây dựng mô hình dự đoán nguy cơ sạt lở đất sử dụng phương pháp học máy đang trở thành xu hướng chính trong các nghiên cứu hiện nay Tuy nhiên, đối với khu vực nghiên cứu mới thì việc xác định mô hình học máy phù hợp trong

dự đoán nguy cơ sạt lở đất là rất quan trọng

Trong nghiên cứu xây dựng mô hình dự đoán nguy cơ sạt lở đất bằng phương pháp học máy, dữ liệu là một yếu tố hết sức quan trọng Ngày nay, sự phát triển của công nghệ viễn thám cùng với các kỹ thuật phân tích hiện đại cho phép khôi phục và làm giàu dữ liệu thống kê Ngoài ra, việc chọn lọc dữ liệu hợp lý cho mô hình học máy là rất quan trọng, đặc biệt là các dữ liệu có giá trị thay đổi theo thời gian như mưa và chỉ số thực vật (NDVI) Đối với dữ liệu mưa, rất nhiều nghiên cứu trước đây lại

sử dụng dữ liệu mưa trung bình nhiều năm (TBNN) trong đánh giá nguy

cơ sạt lở đất Cách tiếp cận này là không hợp lý đối với một số khu vực

mà ở đó mưa lớn kéo dài trong nhiều ngày mới là nguyên nhân chính dẫn

Trang 3

đến sạt lở đất Ngoài yếu tố mưa, NDVI cũng là một yếu tố thường xuyên thay đổi theo thời gian Trong khi đó, rất nhiều nghiên cứu trước đây chỉ

sử dụng một bản đồ NDVI duy nhất cho xây dựng mô hình dự đoán Như vậy, vẫn còn nhiều vấn đề cần phải cải thiện từ dữ liệu đến mô hình dự đoán trong nghiên cứu xây dựng bản đồ phân vùng nguy cơ sạt

lở đất Vùng núi tỉnh Quảng Ngãi là địa phương thường xuyên xảy ra sạt

lở đất nhưng dữ liệu đo đạc lại rất hạn chế Do đó, luận án lựa chọn khu vực này để nghiên cứu nhằm nâng cao độ chính xác trong xây dựng bản

đồ phân vùng nguy cơ sạt lở đất, phục vục vụ tốt công tác phòng chống thiên tai, quy hoạch và thiết kế công trình

- Cần có cách tiếp cận hợp lý hơn trong sử dụng dữ liệu thay đổi theo thời gian như mưa và NDVI trong đánh giá nguy cơ sạt lở đất

- Cần nghiên cứu lựa chọn loại dữ liệu mưa phù hợp trong đánh giá và xây dựng bản đồ phân vùng nguy cơ sạt lở đất cho những khu vực hạn chế dữ liệu

3 Mục tiêu nghiên cứu

3.1 Mục tiêu tổng quát

Nâng cao độ chính xác trong xây dựng bản đồ phân vùng nguy cơ sạt lở đất cho khu vực hạn chế dữ liệu

3.2 Mục tiêu cụ thể

Trang 4

- Xây dựng được bộ dữ liệu đầu vào cho mô hình học máy dự đoán nguy cơ sạt lở đất

- Xác định được mô hình dự đoán nguy cơ sạt lở đất phù hợp, có độ chính xác cao cho một khu vực nghiên cứu cụ thể

- Xây dựng được bản đồ phân vùng nguy cơ sạt lở đất theo tần suất mưa

4 Đối tượng nghiên cứu và phạm vi nghiên cứu

4.1 Đối tượng nghiên cứu

- Các vụ sạt lở đất đã xảy ra

- Lượng mưa gây sạt lở đất

- Các yếu tố ảnh hưởng đến sạt lở đất

- Mô hình học máy dự đoán nguy cơ sạt lở đất

- Các phương pháp đánh giá mô hình và đánh giá bản đồ

- Các công trình thủy trong phạm vi khu vực nghiên cứu

4.2 Phạm vi nghiên cứu

Khu vực 5 huyện miền núi tỉnh Quảng Ngãi

5 Phương pháp nghiên cứu

- Phương pháp phân tích, thống kê kết hợp nghiên cứu lý thuyết

- Phương pháp điều tra, khảo sát, phương pháp kế thừa

- Phương pháp phân tích ảnh viễn thám

- Phương pháp tổng hợp, phân tích và xử lý số liệu

- Phương pháp học máy

- Phương pháp kiểm tra, đánh giá và so sánh các mô hình

- Phương pháp xây dựng bản đồ bằng kỹ thuật GIS

6 Ý nghĩa khoa học và thực tiễn của luận án

6.1 Ý nghĩa khoa học

- Bổ sung và làm giàu dữ liệu phục vụ cho việc xây dựng bản đồ phân vùng nguy cơ sạt lở đất cho vùng miền núi Quảng Ngãi

Trang 5

- Ứng dụng thành công mô hình học máy trong xây dựng bản đồ phân vùng nguy cơ sạt lở đất theo tần suất mưa cho vùng núi Quảng Ngãi

6.2 Ý nghĩa thực tiễn

Bản đồ phân vùng nguy cơ sạt lở đất là tài liệu hữu hiệu phục vụ công tác phòng chống thiên tai, quy hoạch, thiết kế và quản lý công trình trên địa bàn vùng núi tỉnh Quảng Ngãi

7 Cấu trúc của luận án

Luận án có cấu trúc gồm có phần Mở đầu, 4 chương, Kết luận và kiến nghị Tổng luận án được trình bày trong 133 trang A4, không kể phụ

lục

Trang 6

Chương 1: TỔNG QUAN 1.1 Tổng quan về sạt lở đất

1.1.1 Khái niệm

Sạt lở đất là sự dịch chuyển của khối đất đá trên sườn dốc dưới tác động của trọng lực Đây là một hiện tượng rất phức tạp do sự tương tác của nhiều yếu tố tự nhiên (địa chất, địa mạo, khí tượng, thủy văn ) và yếu tố con người

1.1.2 Các dạng sạt lở đất

Nghiên cứu của L Highland chia sạt lở đất ra làm các dạng: trượt, rơi, lật, chảy, dòng chảy tràn và dạng hỗn hợp Trong đó, trượt là loại hình phổ biến nhất trong các loại hình sạt lở đất ở trên thế giới (chiếm 55.2%), tiếp theo là chảy (19.3%), rơi (9.4%), các dạng còn lại chiếm khoảng 13.2% Ở Việt Nam, sạt lở đất xảy ra hầu hết là do mưa kích thích, các dạng sạt lở đất chủ yếu bao gồm: tai biến trượt lở ở vùng đồi núi, trượt dòng bùn đất đá

1.1.3 Nguyên nhân và các yếu tố ảnh

Nghiên cứu của Crozier và cộng sự phân chia nhóm yếu tố gây sạt lở đất ra làm 2 loại chính: (i) nhóm yếu tố điều kiện (conditioning factors) gồm: độ dốc, hướng phơi sườn, độ cao, đứt gãy, loại nền đá, mật độ sông suối, sử dụng đất và loại đất và (ii) nhóm yếu tố kích thích (triggering factors) gồm: lượng mưa, động đất và hoạt động của con người

1.1.4 Thiệt hại do sạt lở đất

Theo thống kê của Ngân hàng thế giới, khoảng 3.7 triệu km2 bề mặt đất và khoảng 300 triệu người (khoảng 5% dân số thế giới) chịu ảnh hưởng bởi sạt lở đất Ở Việt Nam, sạt lở đất xảy ra thường xuyên ở các tỉnh miền núi phía Bắc và miền Trung – Tây Nguyên gây nhiều thiệt hại

về người và tài sản Từ năm 2000 đến 2020, thiên tai lũ quét, sạt lở đất

Trang 7

đã làm 1,117 người chết và mất tích, 671 người bị thương, 12,038 nhà bị sập đổ

1.2 Mức độ đánh giá sạt lở đất và bản đồ sạt lở đất

1.2.1 Mức độ đánh giá sạt lở đất

Các nghiên cứu của D J Varnes và F Guzzetti đã phân chia các phương pháp đánh giá sạt lở đất ra làm các loại sau: (i) phân vùng sạt lở, (ii) đánh giá nguy cơ sạt lở đất theo không gian, (iii) đánh giá nguy cơ sạt

lở đất theo không gian – thời gian, (iv) đánh giá tổn thương do sạt lở đất, (v) đánh giá rủi ro sạt lở đất

1.2.2 Các loại bản đồ sạt lở đất

Nghiên cứu của D J Varnes và nnk đã phân chia bản đồ sạt lở đất thành các loại: (i) bản đồ hiện trạng sạt lở, (ii) bản đồ phân vùng nguy cơ sạt lở đất, (iii) bản đồ nguy cơ sạt lở đất, và (iv) bản đồ rủi ro sạt lở đất Trong số đó, bản đồ nguy cơ sạt lở đất và bản đồ rủi ro sạt lở đất rất khó xây dựng vì đòi hỏi nhiều dữ liệu Đối với khu vực hạn chế về dữ liệu, nghiên cứu này tiếp cận đánh giá nguy cơ sạt lở đất theo không gian (gọi tắc là “đánh giá nguy cơ sạt lở đất”) và xây dựng bản đồ phân vùng nguy

cơ sạt lở đất

1.3 Phương pháp xây dựng mô hình dự đoán nguy cơ sạt lở đất

Nghiên cứu của Shano và nnk đã thống kê được có 3 phương pháp

cơ bản để xây dựng mô hình dự đoán nguy cơ sạt lở đất, bao gồm: (i) phương pháp định tính, (ii) phương pháp bán định lượng và (iii) phương pháp định lượng Trong đó, phương pháp định tính và phương pháp bán định lượng phụ thuộc vào ý kiến chủ quan của người lập bản đồ nên độ chính xác không cao Trong khi đó, phương pháp định lượng mang lại sự đáng giá khách quan và có độ chính xác tốt hơn Phương pháp này gồm

2 loại: phương pháp tiền định và phương pháp thống kê Phương pháp tiền định được đánh giá có độ tin cậy cao nhưng chỉ phù hợp cho khu vực

Trang 8

nghiên cứu hẹp Trong khi đó phương pháp thống kê thường được sử dụng cho khu vực rộng lớn hơn

Phương pháp thống kê bao gồm: thống kê truyền thống và học máy Hiện nay, phương pháp học máy với nhiều ưu điểm đã áp dụng phổ biến và thay thế cho phương pháp thống kê truyền thống Nghiên cứu của Liu

và nnk đã thống kê được 3 phương pháp học máy dùng trong dự đoán nguy cơ sạt lở đất, bao gồm: (i) Học máy thông thường, (ii) Phương pháp kết hợp, (iii) Học sâu (deep learning) Các nghiên cứu đã thực hiện chỉ ra rằng, phương pháp kết hợp hiệu quả hơn so với mô hình học máy thông thường, ngoài ra phương pháp học sâu mới được phát triển gần đây cho hiệu quả dự đoán cao hơn các phương pháp học máy khác Tuy nhiên, phương pháp học sâu chỉ thực sự hiệu quả với dữ liệu lớn nên các phương pháp học máy thông thường vẫn được áp dụng vào nghiên cứu cho các khu vực không có nhiều dữ liệu để huấn luyện một mạng học sâu hoàn hảo

Nghiên cứu tổng quan về các phương pháp xây dựng mô hình dự đoán nguy cơ sạt lở đất cho thấy phương pháp dựa trên thống kê là phù hợp với phạm vi nghiên cứu của luận án Trong đó, phương pháp học máy với ưu điểm vượt trội so với phương pháp thống kê truyền thống được sử dụng trong nghiên cứu này

Trang 9

Chương 2: CƠ SỞ LÝ THUYẾT CÁC PHƯƠNG PHÁP SỬ DỤNG XÂY DỰNG BẢN ĐỒ PHÂN VÙNG NGUY CƠ SẠT LỞ ĐẤT 2.1 Quy trình xây dựng bản đồ phân vùng nguy cơ sạt lở đất bằng phương pháp học máy

Sơ đồ minh họa phương pháp được thể hiện trong Hình 2.1

Hình 2.1 Sơ đồ minh họa quy trình xây dựng bản đồ phân vùng

nguy cơ sạt lở đất

2.2 Phương pháp khôi phục hiện trạng sạt lở đất bằng kỹ thuật xử

lý ảnh viễn thám

2.2.1 Cơ sở dữ liệu ảnh vệ tinh

Đối với khu vực vùng núi Việt Nam, nguồn dữ liệu ảnh quang học có thể khai thác sử dụng trong nghiên cứu này gồm có: dữ liệu ảnh có độ phân giải cao Google Earth Pro, dữ liệu ảnh vệ tinh Landsat, Sentinel 2 Trong

đó, dữ liệu ảnh Sentinel 2 mới ra đời từ năm 2015 với độ phân giải tốt hơn dữ liệu ảnh Landsat, giúp nhận diện vết sạt lở tốt hơn Do đó, nghiên cứu này sử dụng kết hợp các nguồn ảnh từ vệ tinh Sentinel 2 và nguồn ảnh Google Earth để khôi phục hiện trạng sạt lở đất đã xảy ra

2.2.2 Kỹ thuật phân tích

Nghiên cứu này đưa ra phương pháp kết hợp nguồn ảnh Google Earth và nguồn ảnh Sentinel 2 trong phân tích nhằm khắc phục hạn chế

Trang 10

của mỗi phương pháp đơn lẻ, tăng hiệu quả nhận diện vị trí sạt lở và phân loại thời gian (năm) xảy ra sạt lở (Hình 2.3)

Hình 2.3 Sơ đồ phương pháp kết hợp hai nguồn ảnh Sentinel 2 và Google Earth để xác định vị trí và thời gian sạt lở đất

2.3 Phương pháp xây dựng chuỗi dữ liệu mưa và NDVI dùng trong

dự đoán nguy cơ sạt lở đất

Yếu tố mưa và NDVI là các yếu tố có giá trị biển đổi theo thời gian Trong khi đó, nghiên cứu trước đây khi chỉ sử dụng duy nhất một bản đồ các yếu tố này để đánh giá cho một tập hợp các điểm sạt lở đất được thu thập trong nhiều năm Để cải thiện vấn đề này, luận án sử dụng chuỗi dữ liệu mưa và NDVI trong đánh giá Phương pháp xây dựng các loại dữ liệu này được thể hiện ở Hình 2.4 và Hình 2.5

Hình 2.4 Sơ đồ phương pháp xây dựng chuỗi dữ liệu mưa tích lũy lớn nhất

Trang 11

Hình 2.5 Sơ đồ phương pháp xây dựng chuỗi dữ liệu NDVI

2.4 Phương pháp phân tích tần suất mưa vùng

Trong các nghiên cứu về phân tích tần suất mưa, cách tiếp cận phân tích tần suất mưa vùng (RFA) được đánh giá là có hiệu quả hơn các tiếp cận địa phương Do đó, nghiên cứu này sử dụng phương pháp RFA để tạo ra bản đồ mưa bình quân lớn nhất Các bản đồ này được dùng để xây dựng bản đồ phân vùng nguy cơ sạt lở đất theo các kịch bản tần suất mưa

Hình 2.6 Sơ đồ phương pháp nghiên cứu xây dựng cơ sở dữ liệu mưa

bằng kỹ thuật phân tích tần suất mưa vùng

2.5 Phương pháp phân tích và chọn lọc dữ liệu yếu tố ảnh hưởng

Trang 12

Nghiên cứu này sử dụng 2 hình thức đánh giá dữ liệu, bao gồm: phân tích đa cộng tuyến bằng phương pháp ước tính hệ số lạm phát phương sai (VIF) và đánh giá mức độ quan trọng của mỗi yếu tố đến sạt lở đất bằng phương pháp Boruta Quá trình phân tích đa cộng tuyến sẽ loại bỏ các yếu tố có mối quan hệ phụ thuộc nhau khi áp dụng các mô hình tuyến tính Trong khi đó, quá trình chọn lọc dữ liệu sẽ loại bỏ các yếu tố không thực

sự cần thiết trong mô hình dự đoán nguy cơ sạt lở đất

2.6 Lý thuyết các mô hình dự đoán nguy cơ sạt lở đất

2.6.1 Mô hình hồi quy Logistic (LR)

Trong đánh giá nguy cơ sạt lở đất, LR được sử dụng như một mô hình hồi quy với các biến độc lập là giá trị của các yếu tố ảnh hưởng và biến phụ thuộc mô tả dữ liệu là sạt lở đất (bằng 1) hoặc không sạt lở đất (bằng 0) Nghiên cứu này sử dụng phương pháp SGD để tối ưu hóa hàm mất mát nhằm tìm ra bộ thông số tốt nhất cho mô hình

2.6.2 Mô hình máy vector hỗ trợ (SVM)

Giả sử ta có một tập huấn luyện (Xi, Yi), với Xi ϵ Rn: là vector đầu vào của các yếu tố ảnh hưởng đến sạt lở đất; Yi là giá trị đầu ra (sạt lở đất hoặc không sạt lở đất) Bài toán tối ưu trong SVM là tìm ra một siêu mặt phẳng sao cho lề (margin) đạt giá trị lớn nhất hay xác định các tham số w và b để tối ưu hóa hàm mục tiêu sau:

SVM với các hàm kernel cho phép giải quyết bài toán phân loại với dữ liệu đầy vào phi tuyến tính Một số hàm kernel thông dụng có thể kể đến như PL, sigmoid, RBF Bộ thông số của mô hình SVM tùy thuộc vào hàm kernel được áp dụng

2.6.3 Mô hình cây quyết định (DT)

Trang 13

Đây là mô hình phân loại phi tham số, bao gồm việc phân vùng và phân loại dữ liệu liên tục dựa trên quy tắc quyết định Mô hình DT có thể triển khai bằng nhiều thuật toán như: ID3, C4.5, CART, CHAID, MARS

Ba tiêu chí phân chia được sử dụng phổ biến trong các thuật toán này là chỉ số Gini, quy tắt Twoing và entropy chéo.Với bài toán phân loại thì chỉ số Gini thường được chọn vì nó mang lại độ chính xác phân loại tổng thể tốt nhất Bộ thông số chính của mô hình DT bao gồm: complexity parameter (cp), max_depth, minsplit, minbucket

2.6.4 Mô hình rừng ngẫu nhiên (RF)

RF là một thuật toán khai thác dữ liệu sử dụng kỹ thuật Ensemble thuộc nhóm Bagging, có khả năng phân loại chính xác dữ liệu bằng cách

sử dụng một tập hợp các cây quyết định (DT) Các thông số của mô hình

RF bao gồm: (i) số lượng cây quyết định (ntree) và (ii) số lượng biến ngẫu nhiên tại mỗi lần phân tách (mtry) Nhiệm vụ của nghiên cứu là tìm ra bộ thông số mà mô hình cho khả năng dự đoán tốt nhất

2.6.5 Mô hình tăng cường độ dốc cấp cao (XGBoost)

XGBoost là thuật toán học máy có hiệu suất cao được phát triển bởi Chen vào năm 2016 XGboost sử dụng nhiều cây phân loại và hồi quy (CART) và tích hợp chúng bằng phương pháp Gradient Boosting Mục tiêu của thuật toán XGboost là cực tiểu hóa hàm mất mát sau:

Với 𝑦̂ và 𝑦𝑖 𝑖 là các giá trị dự đoán và quan sát; T là số lá của cây quyết định ; w là trọng số của mỗi lá; γ, λ : là các mức độ điều chuẩn.Bộ thông số chính của mô hình XGBoost bao gồm: nrounds, max_depth, eta, gamma, colsample_bytree, min_child_weight, subsample

Trang 14

2.7 Phương pháp đánh giá và so sánh mô hình dự đoán nguy cơ sạt

lở đất

Đối với mô hình phân loại, các phương pháp được sử dụng phổ biến để đánh giá hiệu quả của mô hình bao gồm: phương pháp dựa trên chỉ số thống kê, phương pháp ROC

2.7.1 Phương pháp dựa trên chỉ số thống kê

Các chỉ số thống kê được sử dụng trong đánh giá mô hình bao gồm: độ chính xác (ACC), kappa (k), độ nhạy (SST), độ đặc hiệu (SPF), PPV, NPV Các chỉ số có giá trị càng cao chứng tỏ mô hình càng đáng tin cậy

2.7.2 Phương pháp ROC

Đường cong ROC được xây dựng bởi các điểm có tọa độ (SST,

(1-SPF)) tương ứng với một ngưỡng quyết định cụ thể Giá trị diện tích dưới đường cong ROC (AUC) dùng để đo hiệu suất của mô hình AUC có giá trị trong khoảng (0,1), giá trị AUC càng gần 1 thì hiệu suất dự đoán của

mô hình càng cao Mô hình có giá trị AUC từ 0.9 – 1.0 được đánh giá loại “rất tốt”, tiếp theo là “tốt” (0.8 – 0.9), “khá” (0.7 – 0.8), “trung bình” (0.6-0.7) và “không đáng tin cậy” (0.5 – 0.6)

2.8 Phương pháp xây dựng bản đồ phân vùng nguy cơ sạt lở đất

theo tần suất mưa

Phương pháp xây dựng bản đồ được trình bày như sơ đồ Hình 2.11

Hình 2.11 Phương pháp xây dựng bản đồ phân vùng nguy cơ sạt lở

đất theo tần suất mưa

Tiêu đề	Nâng Cao Độ Chính Xác Trong Xây Dựng Bản Đồ Phân Vùng Nguy Cơ Sạt Lở Đất Cho Khu Vực Miền Núi Tỉnh Quảng Ngãi
Tác giả	Đoàn Viết Long
Trường học	Trường Đại Học Bách Khoa
Chuyên ngành	Kỹ Thuật Xây Dựng Công Trình Thủy
Thể loại	Luận Án Tiến Sĩ
Năm xuất bản	2024
Thành phố	Đà Nẵng

Định dạng
Số trang	28
Dung lượng	1,16 MB