lớn tại khu vực Bắc Bộ
3.2.1 Xử lý số liệu trước khi đưa vào mơ hình k điểm gần nhất
Qua việc nghiên cứu lựa chọn các chỉ số từ các đặc trưng khí tượng trong cả khoảng thời gian 3 ngày trước, trong và kéo dài tới 3 ngày sau khi có mưa vừa, mưa to đến mưa rất to xảy ra tại các tỉnh Bắc Bộ, trong nội dung luận văn, tôi đã lựa chọn một số chỉ số tiêu biểu, có quan hệ mật thiết đối với các q trình đối lưu khí quyển, 6 nhân tố tiêu biểu đã chọn bao gồm: dị thường xoáy thế 300K (17-240N, 103-1100E), dị thường xoáy thế 315K (17-240N, 103-1100E), dị thường xoáy thế 350K (17-240N, 103-1100E), dị thường xoáy tương đối 850mb (16-230N, 105- 1120E), dị thường xoáy tương đối 700mb (13-210N, 103-1120E) và dị thường xoáy tương đối 500mb (12-170N, 103-1120E). Sáu chỉ số đã lựa chọn đều được tính tốn trong cả thời kỳ 15 năm nghiên cứu giai đoạn 2001-2015 từ bộ số liệu hàng ngày ERA-interim.
Việc chọn nhân tố dự báo được thực hiện theo phương pháp phân tích sơ bộ, dựa vào các đặc trưng khí tượng trước, trong và sau thời kỳ có mưa vừa, mưa to đến mưa rất to xảy ra tại Bắc Bộ và tiến hành thực nghiệm nghiên cứu ở trên. Các khảo sát ban đầu về các đặc trưng thống kê của các nhân tố trong phương pháp k điểm gần nhất được sử dụng có tất cả 4 pha: có mưa vừa, có mưa to, có mưa rất to và không mưa.
Trong luận văn tôi đã sử dụng số liệu về pha mưa và 6 nhân tố dự báo là trung bình xốy thế ở các mực 300K, 315K, 330K và xoáy tương đối ở các mực 850mb, 700mb và 500mb trên các ơ lưới như trong hình 3.19 và bảng 3.1 cho từng ngày trong giai đoạn 13 năm (2001-2013) để làm bộ số liệu mẫu (tập mẫu). Số liệu pha mưa và 6 nhân tố tương ứng cho hai năm từ ngày 1/1/2014 đến ngày 31/12/2015 được sử dụng là số liệu độc lập, kiểm chứng lại kết quả dự báo xác suất mưa lớn tại Bắc Bộ và xác định giá trị k tối ưu cho bài toán dự báo xác suất mưa lớn khu vực Bắc Bộ.
Bảng 3.1 Cấu trúc bảng số tập mẫu của mơ hình kNN của các yếu tố dị thường xốy thế và xoáy tương đối
Năm Tháng Ngày Cấp mưa
Xoáy thế Xoáy tương đối 300K 315K 350K 850mb 700mb 500mb 2001 T1 1 0 0.61 0.27 0.50 -0.07 -0.13 0.01 T1 2 0 0.34 0.22 0.65 -0.08 -0.12 -0.08 … … … … … … … … … … 2001 T8 1 2 0.22 0.19 0.03 -0.05 -0.29 -0.42 T8 2 2 0.32 0.20 0.05 -0.10 -0.32 -0.33 T8 3 2 0.32 0.21 0.25 -0.20 -0.38 -0.32 … … … … … … … … … … … … … … … … … … … … 2006 T5 27 3 0.40 0.26 0.34 -0.22 -0.30 -0.33 T5 28 3 0.46 0.37 0.10 -0.15 -0.29 -0.44 T5 29 3 0.52 0.40 0.04 -0.08 -0.25 -0.40 … … … … … … … … … … 2015 T1 1 0 0.48 0.28 0.30 0.02 0.02 -0.26 2 0 0.43 0.25 0.32 0.02 0.08 -0.05 3 0 0.37 0.28 0.27 0.29 0.29 0.17 … … … … … … … … … … … … … … … … … … … … T12 31 0 0.71 0.33 0.38 0.03 -0.02 -0.07 Trong đó, ở cột cấp mưa:
0: kí hiệu cho ngày khơng mưa
1: kí hiệu cho ngày có mưa vừa
2: kí hiệu cho ngày có mưa to
3.2.2 Tính khoảng cách
Bảng 3.2 Mẫu bảng tính tốn khoảng cách Ơclit đối với các dị thường xoáy
Ngày 1/1/2014 2/1/2014 …… 30/12/2015 31/12/2015 1/1/2001 𝑑1/1/2014→1/1/2001 𝑑2/1/2014→1/1/2001 …… 𝑑30/12/2014→1/1/2001 𝑑31/12/2014→1/1/2001 2/1/2001 𝑑1/1/2014→2/1/2001 𝑑2/1/2014→2/1/2001 …… 𝑑30/12/2014→2/1/2001 𝑑31/12/2014→2/1/2001 …… …… …… …… …… …… …… …… …… …… …… …… 30/12/2013 𝑑1/1/2014→30/12/2001 𝑑2/1/2014→30/12/2001 …… 𝑑30/12/2014→30/12/2001 𝑑31/12/2014→30/12/2001 31/12/2013 𝑑1/1/2014→31/12/2001 𝑑2/1/2014→31/12/2001 …… 𝑑30/12/2014→31/12/2001 𝑑31/12/2014→31/12/2001 3.2.3 Lựa chọn giá trị trọng số k
Phương pháp thực nghiệm được sử dụng để xác định giá trị k tối ưu. Theo tác giả Hoàng Phúc Lâm k sẽ được chọn là các số lẻ lớn hơn hoặc bằng 1, sau đó chọn ra giá trị k cho kết quả đánh giá độc lập đạt cao nhất trên tập số liệu phụ thuộc. Trên thực tế, ta ln mong muốn có được giá trị của k lớn để giảm thiểu xác suất của phân bố phi của điểm dự báo, nhưng chúng ta cũng mong muốn k là nhỏ (khi so sánh với dung lượng mẫu) để đảm bảo các điểm được chọn là “đủ gần” điểm dự báo, để kết quả dự báo có thể tin cậy được. Và trong khuôn khổ nghiên cứu này với phương pháp kNN, bằng phương pháp thực nghiệm tôi đã tính tốn dựa trên việc lựa chọn k = 1, 3, 5, 7, 9 và 11 tương ứng với việc sử dụng phương pháp thống kê phi tham số từ 1 đến 11 (bao gồm các số lẻ) điểm gần nhất để dự báo xác suất xuất hiện mưa lớn tại khu vực Bắc Bộ. Cụ thể: dựa vào khoảng cách đã tính tốn sẽ tìm ra k khoảng cách có giá trị nhỏ nhất tương ứng với k ngày có dị thường xốy gần đúng nhất, sau đó tính tốn tỷ lệ ngày có mưa vừa, có mưa to và ngày có mưa rất to xảy ra để đưa ra dự báo xác suất xuất hiện khả năng có mưa lớn rơi vào pha mưa lớn nào của ngày cần dự báo.
Bảng 3.3 Bảng kết quả dự báo pha mưa lớn cho khu vực Bắc Bộ với k=11
Sau khi chọn các giá trị K để thử nghiệm, kết quả cho thấy rằng nên chọn k với giá trị k bằng 1 tức là lấy duy nhất một khoảng cách có giá trị nhỏ nhất sau khi tính khoảng cách Ơclit sẽ đưa ra được ngày có những dị thường xốy thế và xốy tương đối có nhiều điểm tương đồng nhất với ngày cần dự báo. Kết quả nghiên cứu cũng chỉ ra rằng với k=1 cho dự báo mưa lớn trong năm 2014 và 2015 có giá trị các pha mưa gần đúng nhất với số liệu mưa ngày quan trắc thực tế. Như vậy, nếu ngày tương tự trong quá khứ (chuỗi số liệu 2001-2013) thuộc pha mưa nào thì ngày cần dự báo sẽ được dự báo có khả năng thuộc pha mưa đó. Trong trường hợp nếu ngày tương tự trong q khứ khơng có mưa thì ngày được dự báo sẽ được nhận định là khơng có mưa; nếu ngày tương tự trong quá khứ có mưa vừa xảy ra thì ngày được dự báo sẽ có khả năng xuất hiện mưa vừa; nếu ngày tương tự trong q khứ có mưa to xảy ra thì ngày được dự báo sẽ có khả năng xuất hiện mưa to và cuối cùng trong trường hợp ngày tương tự ở q khứ có mưa rất to xảy ra thì ngày được dự báo sẽ có mưa rất to xuất hiện (bảng 3.4).
Bảng 3.4 Kết quả thử nghiệm với các lựa chọn K điểm gần nhất khác nhau Cấp mưak 1 3 5 7 9 11 Quan trắc 0 685 726 729 730 730 730 681 1 10 0 0 0 0 0 16 2 17 2 0 0 0 0 22 3 18 2 1 0 0 0 11
Trong đó ký hiệu cấp mưa 0 tương ứng với không mưa, cấp 1 tương ứng với mưa vừa, cấp 2 tương ứng với mưa to và cấp 3 tương ứng với mưa rất to.
3.2.4 Đánh giá chất lượng dự báo pha có mưa lớn cho khu vực Bắc Bộ
Đánh giá kết quả dựa trên chỉ số tỷ lệ thành công (SR) để trả lời cho câu hỏi
bao nhiêu phần trăm dự báo xác suất xuất hiện mưa lớn là tương đồng so với thực tế quan trắc. Cơng thức tính:
SR= 𝐷ự 𝑏á𝑜 đú𝑛𝑔
𝐷ự 𝑏á𝑜 đú𝑛𝑔+𝑑ự 𝑏á𝑜 𝑠𝑎𝑖 (14) Giá trị SR biến đổi từ 0-1, khi SR =1 là điểm hoàn hảo.
Bảng 3.5 Chỉ số SR với các lựa chọn K điểm gần nhất khác nhau
Cấp mưak 1 3 5 7 9 11
Mưa vừa 0.63 0.00 0.00 0.00 0.00 0.00
Mưa to 0.77 0.09 0.00 0.00 0.00 0.00
Mưa rất to 0.61 0.18 0.09 0.00 0.00 0.00
Từ bảng giá trị chỉ số SR tỷ lệ thành công (bảng 3.5) cho thấy với k=1 cho tỷ lệ dự báo xác suất xuất hiện mưa lớn tại Bắc Bộ có mối tương đồng với quan trắc thực tế cao, đều phổ biến ở từ 0.6- gần 0.8 gần với điểm hoàn hảo là 1. Với kết quả lựa chọn k=3 cho tỷ lệ thành công thấp, dưới 0.2 ở cấp độ mưa to đến rất to; cịn với mưa vừa khơng bắt được ngày có mưa so với thực tế quan trắc. Tỷ lệ thành công
giảm tiếp khi lựa chọn k=5, chỉ bắt được ngày có mưa rất to tuy nhiên với tỷ lệ thấp, với SR dưới 0.1.
Với k=7, k=9 và k=11 tỷ lệ thành cơng là khơng có, đều có giá trị SR=0 cho cả ba cấp độ mưa lớn.
Hình 3.20 Đồ thị biểu diễn giá trị SR dự báo mưa lớn cho khu vực Bắc Bộ
3.3 Phân tích đánh giá khả năng sử dụng mơ hình k điểm gần nhất thơng qua một số ngày mưa lớn điển hình.
Trong khuôn khổ luận văn, tôi sẽ lựa chọn một số ngày mưa điển hình bằng cách chọn ngẫu nhiên trong nhữngngày thử nghiệm dự báo (2014-2015) để lựa chọn ra 01 ngày mưa lớn do hình thế bão và áp thấp nhiệt đới, 01 ngày mưa lớn không phải do bão và áp thấp nhiệt đới. Kết quả dự báo xác suất mưa lớn và xác định ngày tương tự trong quá khứ bằng cách sử dụng phương pháp kNN với k = 1 Sau đó, luận văn sẽ tiến hành phân tích các đặc trưng hình thế và mưa trong hai ngày tượng tự để đánh giá khả năng của mơ hình k điểm gần nhất đã xây dựng.