CHƯƠNG 2. PHƯƠNG PHÁP XÂY DỰNG BẢN ĐỒ CẤP ĐỘ RỦI RO DO SẠT LỞ ĐẤT
2.2. Phương pháp xây dựng bản đồ cấp độ rủi ro do sạt lở đất
Để phát triển bản đồ nguy cơ trượt lở đất thích hợp, việc ứng dụng các công cụ sẽ quyết định dựa vào nhiều tiêu chí trên GIS được sử dụng rộng rãi. Phương pháp này cho phép kết hợp thông tin từ các nhân tố và mức độ tác động của các nhân tố đó đến quá trình sạt lở đất. Một phương pháp phân tích được sử dụng rộng rãi trong nhiều lĩnh vực: Phương pháp phân tích thứ bậc AHP (Analytic Hierarchy Process (AHP)) được
áp dụng trong nhiều lĩnh vực. Phương pháp này cũng được dụng phổ biến trong việc đánh giá trọng số của các nhân tố ảnh hưởng đến trượt lở đất trong nhiều nghiên cứu.
Phương pháp AHP xác định sự đóng góp trọng số của các nguyên nhân sạt lở đất sẽ được xác định bằng ma trận so sánh theo cặp. Dựa trên các nghiên cứu được thực hiện bởi Saaty [25], các tiêu chí sẽ được so sánh trong phạm vi từ 1 đến 9. Mỗi một giá trị thể hiện mức độ quan trọng của tiêu chí này so với tiêu chí còn lại. Theo đó 1 cho thấy hai tiêu chí có tầm quan trọng như nhau và 9 cho thấy tầm quan trọng cực kỳ mạnh mẽ của một tiêu chí so với một tiêu chí định lượng khác [25].
Trọng số lớn nhất trong mô hình AHP đại diện cho một tiêu chí có tác động đáng kể nhất trong việc xác định mục tiêu của cả quá trình tính toán. Các trọng số được tính toán từ ma trận tương quan. Ngoài ra, tỷ lệ nhất quán (CR) và Chỉ số nhất quán (CI) sẽ được tính toán để ước tính tính nhất quán của quá trình xác định trọng số dựa theo AHP [25]. Cần lưu ý rằng giá trị CR phải nhỏ hơn 0,1. Nếu không đạt được giá trị này, quá trình tính toán dựa theo phương pháp thứ bậc được coi là không nhất quán [25] và cần phải thay đổi. Chỉ số CI và CR được tính toán theo công thức dưới đây.
max
1 CI n
n
(2.1)
CR CI
RI (2.2)
2.2.2. Phương pháp RFA
Như đã phân tích ở phần trước, nhóm kịch bản mưa cực hạn được xây dựng dựa trên ước tính lượng mưa ứng với các tần xuất 2% và 1%. Lượng mưa này thường nằm ở vùng đuôi của đường cong tần suất mưa. Tuy nhiên với số năm quan trắc ngắn của mỗi trạm đo sẽ dẫn đến sự không chắc chắn của giá trị suy luận ứng với tần suất thiết kế. Để khắc phục hạn chế này, phương pháp phân tích tần suất vùng (RFA-Regional Frequency Analysis) đã được áp dụng rộng rãi trong những năm gần đây, tiêu biểu như
8, 9, 10, 11, 12, 21.
Đối với phân tích tần suất mưa thì bản chất của phương pháp vùng là nhóm tất cả các giá trị thống kê của các trạm đo mưa trong vùng sau khi các giá trị thống kê của mỗi trạm được chia cho “chỉ số mưa vùng” (index rainfall), sau đó tiến hành phân tích tần suất vùng với mục đích làm lớn kích thước mẫu thống kê, từ đó tăng độ tin cậy của đường cong suy luận vùng. Sau đó, giá trị đường cong suy luận vùng này (regional quantiles) được nhân với chỉ số mưa vùng ta sẽ thu được đường cong suy luận cho mỗi trạm đo mưa trong vùng với độ tin cậy cao hơn so với phương pháp suy luận mà chỉ sử dụng số liệu thống kê hạn chế của mỗi trạm.
Tuy nhiên, để làm được đều này dữ liệu mưa vùng phải thỏa mãn điều kiện là
“đồng nhất” và chỉ số mưa vùng sử dụng theo đề xuất của Hosking và Wallis (1997) là bộ giá trị mưa bình quân của mỗi trạm đo. Theo Hosking và Wallis (1997), một vùng được xem là đồng nhất về dữ liệu mưa khi mẫu dữ liệu mưa của các trạm đo có cùng chung một tỷ lệ phân phối (scale distribution), điều này đồng nghĩa sẽ tồn tại một hàm phân phối thống kê chung cho tất cả các mẫu thống kê trong vùng và mẫu dữ liệu mưa vùng phải thỏa mãn các điều kiện của test Hosking và Wallis. Nếu không thỏa mãn điều kiện này thì cần phải tiến hành chia vùng nghiên cứu chính (main region) thành các tiểu vùng (sub-region) sao cho mẫu dữ liệu của các tiểu vùng thỏa mãn test Hosking và Wallis.
Do vậy, trong phân tích tần suất mưa vùng có 2 bước cơ bản là (i) phân chia vùng đồng nhất và (ii) phân tích tần suất vùng sau khi được phân chia. Trong nghiên cứu này, kết quả phân tích tần suất mưa vùng tại các trạm ứng với các tần suất thiết kế và các thời đoạn mưa 3 ngày lớn nhất sẽ được trích suất để xây dựng bộ cơ sở dữ liệu mưa thời đoạn và sử dụng phương pháp nội suy trong ArcGIS để xây dựng bản đồ mưa thời đoạn.
2.2.2.1. Phương pháp phân chia vùng đồng nhất dữ liệu mưa ngày.
Để phân chia vùng có N trạm nhưng không đồng nhất thành Nk tiểu vùng (với K chính là số lượng tiểu vùng, K = 2 hoặc 3 ...), nghiên cứu sử dụng phương pháp phân cụm (phân tích Cluster) để thể hiện quan hệ mật thiết giữa các trạm trong một tiểu vùng. Phương pháp phân cụm bao gồm: (i) phương pháp không thứ bậc (K- Means) 7 và (ii) phương pháp thứ bậc (Ward) 7.
Giả sử trong vùng nghiên cứu có N trạm đo mưa, khi đó vector thuộc tính biểu diễn cho N trạm đo mưa là:
Y = {yi/i = 1,…, N} (2.3)
Trong đó: yi = [yi1, …, yij, …, yin] ∈ ℜn là vector thuộc tính của trạm thứ i.
Vector thuộc tính này bao gồm: kinh độ, vĩ độ và cao độ của trạm thứ i 9 ; yij là giá trị thuộc tính j của vector yi.
Cho tập xi biểu thị cho giá trị tỷ lệ thứ i trong không gian n chiều {i.e., xi = [xi1,
…, xij, …, xin] ∈ ℜn} , trong đó xij thu được từ sự thay đổi tỷ lệ yi bằng phương trình:
( ̅ )
với 1≤ j ≤ n (2.4)
Trong đó: xij biểu thị cho sự thay đổi tỷ lệ của yij; σj là độ lệch chuẩn của thuộc tính j, yjlà giá trị trung bình của tất cả vector thuộc tính.
a. Phương pháp phân cụm không thứ bậc (K-Means)
Phương pháp phân cụm không thứ bậc là phân bổ các trạm đo vào số lượng các cụm đã xác định trước, trong đó số lượng cụm K hay còn gọi là tiểu vùng phải được giả định trước (K= 1, 2, 3..). Phương pháp này bao gồm: (i) phương pháp ngưỡng tuần tự; (ii) phương pháp ngưỡng song song, (iii) phương pháp phân chia tối ưu. Nghiên cứu này sử dụng phương pháp phân chia tối ưu. Theo đó, thuật toán K-Means được McQueen đề xuất năm 1967 và được sử dụng trong phổ biến trong RFA 7. Phương pháp này sử dụng thuật toán lặp để phân thành các cụm sao cho hàm sô F đạt cực tiểu.
F được xác định như sau:
2
1 1 k1 ( )
K n N k k
ij j
k j j
F d x x (2.5)
Trong đó: K là số tiểu vùng và được giả định ban đầu K=1; Nk là số trạm trong tiểu vùng thứ k; d là khoảng cách của mỗi vector đến trung tâm của nhóm; xijk
là giá trị đã thay đổi tỷ lệ thứ j của vector i được quy định bởi nhóm k; xjk
là giá trị trung bình của thuộc tính j của nhóm thứ K:
∑
(2.6)
Để F đạt cực tiểu, thì khoảng cách của mỗi vector đến tâm của nhóm phải nhỏ nhất (d đạt cực tiểu). Chúng ta có thể lựa chọn phương pháp khoảng cách như Euclidean hoặc Mahalanobis. Trong nghiên cứu này tác giả chọn phương pháp khoảng cách như Euclidean và sử dụng ngôn ngữ lập trình R triển khai thuật toán thông qua hàm kmeans.
b. Phương pháp phân cụm thứ bậc (Ward)
Phương pháp này là một thủ tục được xây dựng theo một cấu trúc thứ bậc hình cây và được tiến hành theo cách tích tụ hoặc phân chia ra. Nghiên cứu này sử dụng phương pháp phân cụm thứ bậc tích tụ dựa vào khoảng cách trung tâm. Phương pháp này được Ward đề xuất năm 1963 và được sử dụng khá phổ biến trong RFA hiện nay
9, đây là một thuật toán phân cấp mà ban đầu giả định một trạm là một tiểu vùng.
Thuật toán sau đó sát nhập các tiểu vùng bằng cách xem xét mối quan hệ giữa các đối tượng bằng phương pháp bình phương cực tiểu (Error Sum of Squares ESS) khoảng cách giữa các đối tượng, ESS được tính như sau:
ESSj N1( ij j) '( ij j)
i x y x y
(2.7)
Trong đó: các tham số xij và yj như trình bày ở trên. Nghiên cứu sử dụng ngôn ngữ lập trình R triển khai thuật toán này thông qua hàm hclust.
Tiếp theo, mẫu dữ liệu của mỗi tiểu vùng K sẽ được kiểm tra tính đồng nhất thông qua phương pháp của Hosking và Wallis (1997).
2.2.2.2. Phương pháp kiểm tra tính đồng nhất mẫu dữ liệu
Theo Hosking và Wallis (1997) vùng đồng nhất được đánh giá bởi tính đồng nhất dữ liệu thông qua L-moment. Lượng mưa trong vùng sẽ được mô phỏng (Nsim= 500 lần) từ phân phối kappa dựa trên các giá trị trung bình L-moment: l1R, R, 3R and
4R. Các giá trị thống kê này được ước tính theo ba chỉ số đồng nhất Hn (n = 1, 2 và 3):
Trong đó: V là độ lệch chuẩn trọng số của mỗi trạm L-CV, V2 là khoảng cách trung bình trọng số từ trạm đến trung bình trọng số trong không gian ba chiều L-CV, L-CA và L-Kurtosis, và V3 là khoảng cách trung bình trọng số từ trạm đến trung bình trọng số trong không gian hai chiều L-CA and L-kurtosis. Với V, V2 và V3 là giá trị trung bình, V, V2 , và V3 là độ lệch chuẩn ứng với N lần mô phỏng của V, V2 and V3.Một vùng có thể xem “chấp nhận đồng nhất” nếu Hn < 1, “có thể đồng nhất” nếu 1
≤ Hn ≤ 2, và “ không đồng nhất” nếu Hn > 2.
{
( - )
( - ) ( - )
{
( )
( ) ( )
(2.8)
2.2.2.3. Phương pháp phân tích tần suất mưa vùng a. Lựa chọn phân phối thống kê
Trong phân tích tần suất vùng, hàm phân phối (F) được chọn dựa trên tỷ lệ L- moment và giá trị ZDist. Với mỗi dạng phân phối, ZDist được tính toán như sau:
(2.9)
Trong đó là giá trị trung bình L-kurtosis tính từ dữ liệu vùng, là giá trị L-kurtosis lý thuyết tính từ mô phỏng cho một dạng phân phối, và là giá trị độ lệch chuẩn của L-kurtosis nhận được từ mô phỏng dữ liệu. Những phân phối được chọn phải có giá trị | | . Trường hợp tồn tại nhiều hàm phân phối đều thỏa mãn thì hàm phân phối nào cho | | gần bằng 0 nhất sẽ phù hợp nhất 15.
b. Phương pháp chỉ số mưa vùng
Phương pháp này dựa trên nguyên lý được đề xuất bởi Dalrymple (1960). Giá trị xác xuất lũy tích F tại trạm thứ i có thể được viết:
( ) ( ) (2.10) Trong đó ( ) là giá trị xác xuất lũy tích F của vùng, là chỉ số mưa vùng và được tính bằng giá trị trung bình của mẫu dữ liệu đo tại trạm thứ i.
Sau khi phân tích tần suất mưa vùng sẽ ước tính được đường cong tần suất mưa vùng ̂ và thông qua chỉ số mưa vùng thì đường cong tần suất của từng trạm đo trong vùng sẽ là ̂ ̂
Quá trình phân tích tần suất mưa vùng được thực hiện dựa trên suy luận Bayesian và thuật toán Markov chain Monte Carlo.
c. Thuật toán Bayesian Markov chain Monte Carlo
Suy luận Bayesian và thuật toán MCMC hiện nay được sử dụng rộng rãi cho các ứng dụng thủy văn 8, 10, 12. Nghiên cứu này sẽ giới thiệu ngắn gọn thủ tục Bayesian MCMC. Theo thuyết của Bayes, likelihood của mẫu cho bởi các tham số của mô hình xác suất ( | ) có mối quan hệ với likelihood hoặc hàm mật độ của xác xuất các tham số cho mẫu ( | ):
( | ) ( | ) ( )
( ) (2.11) Trong đó: ( ) là phân phối cho trước của tham số , ( ) là xác xuất của mẫu D hay còn gọi là hằng số chuẩn hóa. Likelihood của mẫu quan sát D được tính như sau:
( | ) ∏ [∏ ( )] (2.12)
Trong đó là hàm mật độ xác xuất của phân phối thống kê đã lựa chọn cho đường cong tần suất vùng, và là vector các tham số của phân phối lựa chọn để ước tính.