Dự báo Số trạm thực tế quan trắc được hiện tượng (s)
S ≤1/4 1/4 < S ≤1/3 1/3 < S ≤1/2 1/2 < S ≤2/3 2/3 < S ≤3/4 S > 3/4 Không + - - - - - Vài nơi + + + - - - Có nơi Rải rác - - + + + - Nhiều nơi - - - + + +
- Đánh giá định lượng về lượng mưa trong thời kỳ dự báo
Bảng 2.5: Quy định đánh giá dự báo về lượng mưa (mm)
Thực tế R dự báo 0 ≤ 0,6 ≤ 5 ≤ 15 ≤ 30 ≤ 50 ≤ 80 ≤ 150 ≤ 300 > 300 < 10 + + + + - - - - - - 10 ≤ R < 30 - + + + + - - - - - 30 ≤ R < 50 - - - + + + + - - - 50 ≤ R < 100 - - - - + + + + - - 100 ≤ R < 250 - - - - - + + + + -
R > 250 Sai số cho phép ± 20% và xem xét hiện tượng TTNH
b. Đánh giá theo pha:
- Đánh giá sai số trung bình ME=1
n (Fi-Oi)
i=1
n
å (2.1)
Trong đó: Fi là trị số dự báo; Oi là giá trị thực đo; n là số lượng mẫu. Chỉ số ME chỉ ra sai số trung bình so với giá trị quan trắc, nhưng không phản ánh biên độ của sai số. Giá trị dương tức là trung bình giá trị dự báo lớn hơn giá trị quan trắc, giá trị âm tương ứng với việc dự báo thấp hơn giá trị quan trắc. Chỉ số ME có giá trị từ -∞ đến +∞, với 0 là giá trị “hồn hảo”. Tuy nhiên, đơi khi một dự báo sai lại nhận được giá trị ME = 0 khi trong đó có
những sai số triệt tiêu nhau, do vậy, không bao giờ người ta sử dụng chỉ số ME một mình.
- Đánh giá sai số quân phương
n i i O i F n MSE RMSE 1 1 2 (2.2)
Chỉ số này cho biết biên độ trung bình của sai số dự báo, nhưng khơng cho biết hướng của độ lệch. RMSE có thể được tính tốn trên bất kỳ hay tất cả các hướng theo không gian hoặc theo thời gian. RMSE bằng 0 chỉ khi có sự tương đồng tuyệt đối ở mọi nơi giữa dự báo và quan trắc, cịn khơng, chúng đều có giá trị lớn hơn 0.
- Xác suất xuất hiện (Probability of Detection (Hit Rate) (PoD, HR))
c a a HR PoD (2.3)
HR có giá trị dao động từ 0 - 1 với 1 đại diện cho một dự báo hoàn hảo. Vì nó chỉ dùng phương án quan trắc a và c và nó chỉ nhạy với Miss và False alarm. Do đó HR có thể được cải thiện bằng cách hệ thống hóa sự xuất hiện của phương án dự báo trên. HR là chưa hoàn chỉnh và cần được sử dụng kết hợp với một trong hai FAR (False Alarm Ratio) và FA (False alarm rate) dưới đây.
- Hệ số cảnh báo sai (False Alarm Ratio (FAR))
FAR= b
a+b (2.4)
FAR là tỷ số giữa tổng báo động giả (b) với tổng số các phương án dự báo (a+b). Phạm vi của nó dao động từ 0 tới 1 và giá trị tối ưu là 0. Nó khơng bao gồm c do đó sẽ khơng phải là nhạy với Miss. Người ta có thể cải thiện các FAR bởi việc hệ thống các phương án dự báo dưới hiếm thấy. Đó cũng là một điểm hạn chế và cần được sử dụng trong kết nới với HR phía trên.
- Đường chéo tần suất (Frequency Bias (B))
c a b a Bias (2.5)
Đường chéo tần suất chỉ được sử dụng để tính tổng biên của bảng ngẫu nhiên, và đó khơng phải là biện pháp kiểm tra đúng, vì nó khơng phù hợp với
dự báo và thực đo. Thay vào đó, nó sẽ so sánh tần suất xuất hiện của phương án dự báo và thực đo trong mẫu. Dự báo được cho là khách quan nếu như phương án được dự báo chính xác với cùng một tần suất mà nó được quan trắc, để đường chéo tần suất của một đại diện có giá trị cao nhất. Giá trị cao hơn 1 biểu thị dự báo trên (quá thường xuyên) và giá trị thấp hơn 1 biểu thị dự báo dưới (không đủ thường xuyên). Khi được kết nối với HR và FAR, đường chéo có thể được sử dụng để giải thích phương hướng dự báo liên quan đến tần suất của False alarm hoặc Miss.
- Chỉ số quyết định thành công (Threat Score (Critical success index) (TS, CSI))
CSI=TS= a
a+b+c (2.6)
Chỉ số quyết định thành công CSI hay TS thường được sử dụng như một tiêu chuẩn kiểm tra thực đo. CSI có giá trị dao động từ 0 - 1 với 1 là giá trị tối ưu. CSI nói lên mức độ trùng khớp giữa vùng mưa dự báo và vùng mưa thực đo. CSI hồn chỉnh hơn HR và FAR vì nó nhạy cảm với cả Miss và False alarm. Vì vậy, nó khó khăn hơn để áp dụng với một hệ thống phương hướng dự báo được đảm bảo để nâng cao trị số.
- Độ chính xác(Percentage Correct - PC)
(2.7)
Chỉ số này cho biết tỷ lệ phần trăm dự báo đúng trên tổng số dự báo; Giá trị “hoàn hảo” là 1.
Để đảm bảo chất lượng số liệu quan trắc trước khi đưa vào sử dụng số liệu mưa được so sánh với số liệu từ Aphrodite thông qua nguyên tắc 4 điểm lưới Aphrodite xung quanh điểm trạm. Nếu lượng mưa tại trạm chênh lệch quá lớn so với lượng mưa từ 4 điểm trên Aphrodite thì số liệu này sẽ bị loại bỏ. Ngoài ra nếu lượng mưa vượt quá giá trị khí hậu 5σ, quan trắc tại trạm sẽ được kiểm tra với các thông tin lịch sử đảm bảo mưa lớn thực sự diễn ra hay khơng.
Do bản chất của phương pháp MLR là tìm ra một phương trình thống kê phù hợp nhất dựa trên các nhân tố dự báo và yếu tố dự báo nên vẫn có những trường hợp “quá khớp” xảy ra. Tức là các giá trị xác xuất dự báo vẫn
có thể lớn hơn 1 hoặc nhỏ hơn 0. Để khắc phục trường hợp này ta sử dụng phương pháp cắt ghép, các giá trị nhỏ hơn 0 sẽ được gán bằng 0; các giá trị lớn hơn 1 sẽ được gán bằng 1.
Mặt khác, do sự khác nhau về thứ nguyên và bậc đại lượng nên trước khi xây dựng phương trình thống kê, các nhân tố dự báo cần được chuẩn hóa về cùng bậc đại lượng và triệt tiêu thứ ngun. Cơng thức chuẩn hóa được đưa ra theo (8). k k k k sd x x xˆ (2.8)
ở đây xˆklà giá trị chuẩn hóa của nhân tố dự báo thứ xk, xkvà sdktương ứng là giá trị trung bình và độ lệch chuẩn của nhân tố xk xác định từ tập số liệu phụ thuộc. Sau khi được chuẩn hóa, các nhân tố mới xˆklà vơ thứ ngun và phần lớn có giá trị tập trung trong khoảng từ -3 cho đến +3. Đối với các biến
luôn dương (như lượng mưa, độ ẩm, … thì các giá trị này sẽ nằm trong khoảng [0,3].
Với một tập khoảng 600 nhân tố dự báo cho mỗi điểm trạm, khối lượng tính tốn sẽ rất lớn và cũng khơng cần thiết khi các biến có quan hệ tương hỗ nhất định. Do đó, một quá trình tuyển chọn nhân tố cần được thực hiện nhằm giảm thiểu khối lượng tính tốn trong khi vẫn đảm bảo những thơng tin quan trọng thu được từ các biến dự báo. Với bài toán PQPF, đề tài sẽ thực hiện tuyển chọn theo phương pháp tuyển chọn từng bước tiến với nguyên lý tương đương như phương pháp hồi quy từng bước tiến. Tuy nhiên, thay vì hệ số tương quan như phương pháp hồi quy từng bước, chỉ tiêu tuyển chọn được sử dụng là chỉ số kỹ năng Brier (BSS).
Chỉ số Brier được sử dụng trong đánh giá dự báo xác suất sự kiện nhị phân có hay khơng. Dự báo sẽ được đưa ra dưới dạng xác suất y (0≤y≤1) trong khi quan trắc o chỉ bao gồm hai giá trị 0 (hiện tượng không xuất hiện) và 1 (hiện tượng xuất hiện). Chỉ số Brier được tính như sau:
n 1 k 2 k k o ) y ( N 1 BS (2.9)
với chỉ số k chạy trên tập n dự báo được đưa vào đánh giá. Chỉ số BS sẽ có giá trị từ 0 đến 1, giá trị 0 tương ứng với dự báo tất định hoàn hảo.
Để một dự báo xác suất có kỹ năng ít nhất dự báo này phải dự báo tốt hơn so với dự báo khí hậu. Do đó, người ta ít khi xem xét chỉ số Brier mà thường sử dụng chỉ số kỹ năng Brier.
ref ref perf ref BS BS 1 BS BS BS BS BSS (2.10)
với BSperf là chỉ số Brier của dự báo hoàn hảo (BSperf = 0), BSref là chỉ số Brier của dự báo đối chứng mà thông thường là dự báo khí hậu. Ngược với BS, BSS có giá trị 1 tương ứng với dự báo hồn hảo, nhỏ hơn hoặc bằng khơng có nghĩa dự báo có kỹ năng dự báo khơng tốt hơn so với dự báo đối chứng.
Trong quá trình tuyển chọn nhân tố, nếu nhân tố đưa vào trong phương trình dự báo có chỉ số BSS khơng lớn hơn chỉ số BSS của phương trình chứa các nhân tố trước đó một ngưỡng cho trước thì nhân tố đó khơng được tuyển chọn. Do đó, chỉ số BSS rất quan trọng trong quá trình tuyển chọn nhân tố đối với bài tốn PQPF.
Sau khi xây dựng được phương trình dự báo cho PQPF, các giá trị định lượng mưa QPF được nội suy trực tiếp trên hàm phân bố xác suất định lượng mưa. Với các ngưỡng mưa sắp xếp theo giá trị giảm dần ta sẽ có một hàm phân bố tích lũy có giá trị 0 khi ngưỡng mưa lớn nhất (trong nghiên cứu này chúng tôi chọn giá trị 100mm) và nhận giá trị 1 khi ngưỡng mưa bằng 0. Để đảm bảo hàm phân bố tăng dần khi ngưỡng mưa giảm dần, các giá trị xác suất sẽ được điều chỉnh sao cho sự kiện ít xuất hiện sẽ có xác suất thấp hơn so với sự kiện hay xảy ra. Ví dụ, xác suất dự báo mưa lớn hơn 10mm phải nhỏ hơn xác suất xảy ra mưa 5mm. Từ hàm phân bố PQPF ở trên, lượng mưa dự báo được tính bằng lượng mưa ứng với xác suất tích lũy 50%. Giá trị này được nội suy theo phương pháp hàm spline bậc ba từ các ngưỡng mưa đã chọn.
Để đánh giá, đề tài lựa chọn bảng phân loại (Contigency table) để biết tần suất xảy ra hiện tượng dự báo.
2.2.2 Đánh giá sai số dự báo thủy văn:
Khi dự báo người thường cố gắng chọn phương án dự báo nào có chỉ số sai số quân phương S hay chỉ số sai số tuyệt đối A nhỏ nhất.
S = n 1 n 1 i i i 2 ) Q Q ( (2.11)
Với: Qi
là giá trị dự báo; Qilà giá trị thực đo tại thời điểm thứ i Người ta cũng hay dùng chỉ số Nash- Sutclifte:
N = o 1 o S S S 100% (2.12) Với: S0 = 2 i n 1 i i Q ) (Q (2.13) S1 = n 1 i i i 2 ) Q Q ( (2.14) Những chỉ số này càng gần 100% càng tốt.
Để đánh giá phương án dự báo và đánh giá sai số dự báo, cần xác định sai số cho phép của yếu tố dự báo. Trong dự báo thủy văn sai số cho phép được xác định theo quy định tạo thông tư số 42/2017/TT- BTNMT ngày 23/10/2017 của Bộ Tài nguyên và Môi trường quy định kỹ thật đánh giá chất lượng dự báo, cảnh báo thủy văn.
Phương án được coi là tốt khi mức đảm bảo phương án lớn hơn 80% và lớn hơn mức đảm bảo thiên nhiên. Bất kỳ phương án dự báo nào được xem là hợp lý và có thể dùng được trong thực tiễn đều phải có mức đảm bảo phương án lớn hơn mức đảm bảo thiên nhiên.