Dự báo xác suất dựa trên phương pháp NGR

Phần lớn các hệ dự báo tổ hợp trong thực tế thường cho thấy một độ tán nhỏ hơn so với thực tế do chưa xem xét hết mọi khả năng dẫn tới bất định trong dự báo. Ngược lại, hệ dự báo tổ hợp sử dụng dự báo từ các trung tâm khác nhau giống như hệ tổ hợp hiện tại lại cĩ xu hướng thể hiện một độ tán lớn hơn thực tế. Để khắc phục nhược điểm này, rất nhiều phương pháp xử lý sau mơ hình hay hiệu chỉnh đã được đưa ra. Trong nghiên cứu này, phương pháp đầu tiên được chúng tơi sử dụng là phương pháp NGR như trong mục 1.3.3. Đây là phương pháp đơn giản nhất trong

được rất đáng kể (Wilks 2006, Wilks và Hamill 2007). Các biểu đồ hạng từ dự báo của hệ tổ hợp này trên hình 2.3.10 và 2.3.11 khẳng định thêm các kết quả nghiên cứu của các tác giả trên. Biểu đồ hạng từ dự báo của tất cả các biến trên hai mực 850 và 500mb với hạn dự báo 24, 48 giờ đều thể hiện một phân bố tương đối đều, tốt hơn so với dự báo từ ba hệ tổ hợp trước đĩ. Cĩ những biểu đồ phân bố hơi lệch so với phân bố đều (dạng chữ U như với pmsl hạn 48 giờ) nhưng về tổng thể độ tin cậy của hệ tổ hợp NGR cao hơn so với RAW, BCMA và BCLR.

Hình 2.3.10. Tương tự như hình 2.3.1 nhưng cho hệ tổ hợp NGR

Biểu đồ hạng đối với dự báo áp suất mực biển theo hệ NGR cĩ hình chữ U nhưng hơi cĩ xu hướng lệch trái dẫn đến dự báo xác suất sẽ cĩ xu hướng thiên thấp, đường tin cậy nằm phía trên đường chéo như trên hình 2.3.12. Tuy nhiên, độ tin cậy từ dự báo này là khá tốt, khơng cĩ điểm dự báo nào nằm ngồi vùng cĩ kỹ năng dự báo. Khi dự báo đã tin cậy, quan tâm của ta chủ yếu đặt vào độ phân giải hay độ nhọn của dự báo. Từ hình 2.3.12, cĩ thể thấy dự báo pmsl từ hệ NGR cĩ độ phân giải lớn hơn so với dự báo từ hệ BCMA. Độ phân giải bằng 0.0309 với hạn dự báo 24 giờ và 0.0288 với hạn dự báo 48 giờ.

Hình 2.3.12. Tương tự hình 2.3.3 nhưng cho hệ tổ hợp NGR

Giả định phân bố xác suất dự báo cĩ dạng phân bố chuẩn, phương pháp NGR chỉ đơn giản xem trung bình của phân bố này là một hàm bậc nhất đối với trung bình tổ hợp của hệ tổ hợp chưa qua xử lý RAW. Cách thực hiện phức tạp hơn NGR_EMOS sẽ xem đại lượng này dưới dạng một tổ hợp tuyến tính của các dự báo thành phần từ hệ tổ hợp RAW. Để loại trừ các trọng số âm cĩ thể xuất hiện trong tổ hợp tuyến tính này, phương pháp NGR_EMOSP được đề xuất với ràng buộc khơng âm trên các hệ số của tổ hợp tuyến tính. Chi phí tính tốn của mỗi phương pháp này lớn hơn so với phương pháp NGR, phụ thuộc vào số thành phần tổ hợp.

Để xác định xem cách thực hiện phức tạp hơn cĩ làm tăng độ tin cậy dự báo hay khơng, chúng tơi đã xây dựng hệ tổ hợp theo hai phương pháp NGR_EMOS và NGR_EMOSP. Hình 2.3.13 và 2.3.14 cho ta biểu đồ hạng dự báo các biến theo hệ tổ hợp NGR_EMOSP. Biểu đồ hạng cho hệ NGR_EMOS cũng cĩ dạng tương tự nên khơng thể hiện ở đây. Ngồi ra do vấn đề trọng số âm, hệ tổ hợp NGR_EMOS sẽ khơng được sử dụng trong thực tế mà chỉ được thực hiện trong mục này với mục đích so sánh với NGR_EMOSP. Điều dễ dàng nhận ra từ các biểu đồ hạng là tất cả đều cĩ hình chữ U, ngược lại so với phân bố của hệ tổ hợp BCMA. Nghĩa là tất cả

các dự báo đều cĩ độ tán nhỏ hơn so với thực tế, quan trắc thường nằm ngồi khoảng biến động của các dự báo thành phần.

Hình 2.3.13. Tương tự như hình 2.3.1 nhưng cho hệ tổ hợp NGR_EMOSP

Hình 2.3.14. Tương tự như hình 2.3.2 nhưng cho hệ tổ hợp NGR_EMOSP Biểu đồ hạng dự báo áp suất mực biển cĩ phân bố hình chữ U, ngược lại so với biểu đồ hạng của cùng dự báo này từ hệ BCMA (cĩ hình chữ U ngược), cũng cĩ nghĩa đường tin cậy (hình 2.3.15) cĩ diễn biến ngược với cùng đường này trên hình 2.3.6. Lúc đầu, dự báo cĩ xu hướng thiên thấp, lúc sau lại cĩ xu hướng thiên cao.

Giống như hệ tổ hợp BCMA được xem là tin cậy dù cĩ độ tán hơi lớn hơn so với thực tế, cĩ thể xem hệ tổ hợp NGR_EMOSP tin cậy dù độ tán hơi nhỏ so với thực tế. So với hai hệ tổ hợp BCMA và NGR, NGR_EMOSP cĩ độ phân giải dự báo pmsl lớn nhất: 0.0310 với hạn dự báo 24 giờ và 0.0292 với hạn dự báo 48 giờ. Tuy nhiên, giá trị này chỉ lớn hơn một chút so với độ phân giải từ hệ tổ hợp NGR.

Hình 2.3.15. Tương tự hình 2.3.3 nhưng cho hệ tổ hợp NGR_EMOSP

Cuối cùng trước khi kết thúc khảo sát độ tin cậy của các hệ thống dự báo tổ hợp, ta sẽ khảo sát 66.67% độ phủ của mỗi hệ tổ hợp. Mỗi hệ tổ hợp của ta cĩ 5 thành phần dự báo tương ứng với 6 khoảng dự báo mà quan trắc cĩ thể nằm trong bất kỳ khoảng này nếu hệ tổ hợp là tin cậy. Như vậy, nếu lấy hai dự báo lớn nhất và nhỏ nhất làm giới hạn thì khả năng quan trắc rơi vào khoảng giới hạn này là 4/6=66.67%. Lý luận đơn giản này cho phép ta khảo sát 66.67% độ phủ của dự báo tổ hợp nhằm kiểm chứng độ tin cậy của mỗi hệ dự báo tổ hợp. Số quan trắc thực sự rơi vào khoảng này nhỏ hơn 66.67% chứng tỏ hệ cĩ độ tán nhỏ và ngược lại nếu lớn hơn 66.67% hệ cĩ độ tán lớn. Cách khảo sát này cho phép định lượng cụ thể hơn những gì biểu đồ hạng mơ tả. Bảng 2.3.1 tổng kết giá trị phần trăm của 66.67% độ phủ xác định từ 6 hệ tổ hợp. Điều thú vị là khi đi từ trên xuống dưới độ phủ cĩ xu hướng giảm dần, bắt đầu với một độ tán lớn từ hệ tổ hợp ban đầu chưa qua xử lý cho tới độ tán nhỏ với hệ tổ hợp đã qua xử lý theo phương pháp NGR_EMOSP. Cĩ thể thấy rất rõ BCMA cĩ độ tán lớn hơn so với thực tế khi 66.67% độ phủ hạn dự báo 24 giờ thường vượt quá 15% và 8% với hạn dự báo 48 giờ. Ngược lại NGR_EMOP luơn cĩ độ tán nhỏ hơn so với thực tế, 66.67% độ phủ thường nhỏ hơn 10% với hạn dự báo 24 giờ, với hạn dự báo 48 giờ là 13%. Độ tán đạt giá trị lớn nhất với hệ tổ hợp chưa qua xử lý RAW, 66.67% độ phủ cĩ lúc vượt quá 25% lên tới 90% như với các biến T và q tại mực 500mb cho hạn dự báo 24 giờ. Hai hệ tổ

hợp tỏ ra cĩ độ tán phù hợp hơn cả là BCLR và NGR trong đĩ NGR cho độ tin cậy lớn hơn. BCLR với một số biến cĩ thể dẫn đến độ tán quá nhỏ như v và q tại mực 850mb cho hạn dự báo 48 giờ, 66.67% độ phủ nhỏ hơn tới 15-20%.

Bảng 2.3.1. Giá trị 66.67% độ phủ của các biến dự báo tại mực 850, 500mb với hạn dự báo 24, 48 giờ từ 6 hệ tổ hợp. H (%) u (%) v (%) T (%) q (%) pmsl (%) 850 500 850 500 850 500 850 500 850 500 24 78.7 68.9 74.6 81.5 84.3 78.5 79.2 89.3 90.6 86.3 90.5 RAW 48 78.7 72.0 72.6 74.8 76.9 72.7 71.7 84.5 86.4 79.5 84.9 24 80.5 81.6 84.3 82.7 82.9 79.5 80.2 84.5 84.1 84.4 86.8 BCMA 48 72.0 72.9 74.3 75.7 73.7 73.0 71.9 78.2 76.3 77.1 81.5 24 74.8 76.0 78.8 71.2 75.1 65.1 67.6 63.4 66.6 58.0 71.4 BCLR 48 64.5 65.2 67.9 61.8 64.6 53.7 56.3 56.0 58.7 48.3 62.3 24 62.5 61.7 63.7 62.5 63.6 62.2 64.9 62.6 62.0 62.6 62.1 NGR 48 57.8 57.5 60.8 60.4 61.3 60.1 64.0 61.1 63.2 62.4 60.6 24 55.8 55.6 58.7 57.0 59.2 56.9 59.7 59.3 58.3 57.5 54.8 NGR_ EMOS 48 53.2 52.3 54.7 54.6 56.0 54.0 58.9 57.6 61.0 58.0 54.9 24 56.1 55.3 58.0 57.4 58.3 57.1 59.1 58.4 58.0 56.9 55.0 NGR_ EMOSP 48 53.4 52.6 54.7 55.4 55.6 54.7 58.9 57.3 60.4 57.8 54.1 Qua khảo sát độ tin cậy của 6 hệ thống dự báo tổ hợp nêu trên, cĩ thể rút ra một số nhận định như sau:

• Khơng thể sử dụng trực tiếp dự báo từ các mơ hình trong hệ tổ hợp RAW bởi hệ này cho thấy bias cũng nhưđộ tán quá lớn so với thực tế.

• Trong hai phương pháp khử bias, phương pháp hồi quy tuyến tính đem lại một hệ dự báo tổ hợp cĩ độ tin cậy cao hơn dù một số biến độ tán cịn nhỏ hơn nhiều với thực tế. Phương pháp trung bình trượt cho một hệ tổ hợp với độ tán hơi lớn hơn so với thực tế.

• Hai hệ tổ hợp NGR_EMOS và NGR_EMOSP cĩ độ tin cậy như nhau và độ tin cậy này thấp hơn so với độ tin cậy từ hệ tổ hợp thực hiện theo cùng một phương pháp nhưng đơn giản hơn NGR.

• Hệ tổ hợp NGR cĩ độ tin cậy cao nhất, tiếp đến là hệ tổ hợp BCLR, cuối cùng là hai hệ tổ hợp BCMA và NGR_EMOSP.

Các nhận định này cho thấy phương pháp thực hiện đơn giản (hồi quy một thành phần NGR) cho kết quả tốt hơn so với các phương pháp phức tạp (hồi quy nhiều thành phần NGR_EMOSP). Dự báo xác suất chỉ cĩ ích khi tin cậy. Từ những

nhận định trên, sau khi đã đảm bảo cĩ được một độ tin cậy nhất định, trong phần dưới đây chúng tơi sẽ tiếp tục khảo sát độ nhọn của bốn hệ tổ hợp BCMA, BCLR, NGR, và NGR_EMOSP. NGR_EMOS khơng được đưa vào do độ tin cậy tương đương với NGR_EMOSP và ta khơng muốn sử dụng phương pháp này vì vấn đề trọng số âm. Hệ tổ hợp RAW khơng được khảo sát do khơng đảm bảo về độ tin cậy đối với tất cả các biến.

Điểm số đầu tiên sẽ được khảo sát là CRPS. Đây là điểm số khơng chỉ cung cấp thơng tin về độ tin cậy của hệ tổ hợp mà cịn cho ta thơng tin về độ nhọn. Nhớ lại rằng điểm số Brier được định nghĩa bằng hiệu giữa độ tin cậy và độ phân giải cộng với độ bất định và CRPS là mở rộng của điểm số Brier trong trường hợp biến liên tục. CRPS sẽ nhỏ khi độ tin cậy lớn và độ phân giải lớn. Khi giá trị của độ tin cậy bằng khơng (dự báo hồn tồn tin cậy), CRPS biến đổi phụ thuộc vào độ nhọn của mỗi dự báo. Phương pháp NGR xây dựng phân bố dự báo dựa trên cực tiểu hĩa hàm CRPS do đĩ dễ hiểu tại sao giá trị CRPS nhỏ nhất tập trung chủ yếu vào hai phương pháp NGR và NGR_EMOSP. Giá trị chênh lệch điểm số CRPS giữa hai phương pháp chỉ vào cỡ 3% hoặc nhỏ hơn. Điều đáng ngạc nhiên là CRPS lại cực tiểu tại một số biến dự báo hạn 48 giờ như biến H tại mực 850 và 500mb từ hệ tổ hợp BCMA (xem bảng 2.3.2). Nếu chú ý đến các biểu đồ tin cậy trên hình 2.3.6, 2.3.9, 2.3.12 và 2.3.15 ta cũng quan sát thấy điểm số Brier tương ứng với hệ tổ hợp BCMA cĩ giá trị nhỏ nhất dù hai hệ tổ hợp NGR và NGR_EMOSP cĩ độ phân giải cao hơn, độ tin cậy tương đương với BCMA. Điều này được giải thích do tập số liệu sử dụng để xác định các chỉ số này khơng giống nhau, dẫn đến số hạng độ bất định khác nhau.

Bảng 2.3.2. Điểm số CRPS của các biến dự báo tại mực 850, 500mb với hạn dự báo 24, 48 giờ từ 4 hệ tổ hợp BCMA, BCLR, NGR và NGR_EMOSP.

H u v T q pmsl 850 500 850 500 850 500 850 500 850 500 24 0.28 2.22 1.88 0.64 0.71 0.61 0.65 0.19 0.19 0.29 0.17 BCMA 48 0.42 3.32 2.76 0.88 1.05 0.91 0.89 0.25 0.26 0.36 0.25 24 0.30 2.41 1.97 0.70 0.78 0.69 0.72 0.22 0.22 0.34 0.20 BCLR 48 0.45 3.64 2.96 1.00 1.17 1.03 1.01 0.28 0.30 0.42 0.29 24 0.29 2.28 1.88 0.62 0.69 0.62 0.64 0.18 0.19 0.27 0.17 NGR 48 0.44 3.51 2.82 0.91 1.06 0.93 0.90 0.24 0.26 0.35 0.25 24 0.27 2.21 1.82 0.62 0.70 0.61 0.65 0.17 0.18 0.27 0.17 NGR_ EMOSP 48 0.41 3.35 2.82 0.89 1.07 0.91 0.90 0.22 0.25 0.34 0.26

Bởi điểm số Brier hay CRPS mơ tả chung cả tác động đến từ độ tin cậy, độ phân giải và độ bất định, so sánh giữa các điểm số này cĩ thể dẫn đến những nhận định sai lầm. Phần trên ta đã xét riêng độ phân giải thơng qua biểu đồ hạng và độ phủ. Tiếp theo để tách riêng các điểm số, bây giờ ta sẽ khảo sát riêng độ nhọn. Như lý luận liên quan đến 66.67% độ phủ, ta cĩ thể sử dụng độ lệch giữa giá trị cực đại và giá trị cực tiểu từ các dự báo thành phần làm độ rộng của hàm phân bố dự báo. Phân bố càng nét, độ rộng này càng hẹp. Bảng 2.3.3 cho thấy một diễn biến ngược lại so với bảng 2.3.1, 66.67% độ rộng trung bình giảm dần khi đi từ hệ tổ hợp BCMA tới hệ NGR_EMOSP tương ứng với độ nhọn tăng dần. Độ nhọn lớn nhất đạt được khi sử dụng hệ tổ hợp NGR_EMOSP, sau đĩ là độ nhọn thu được từ hệ NGR. Hai bảng này kết hợp lại cho thấy hệ tổ hợp với độ tán lớn sẽ cĩ độ nhọn nhỏ và ngược lại hệ tổ hợp với độ tán nhỏ lại cĩ độ nhọn lớn.

Bảng 2.3.3. Giá trị 66.67% độ rộng phân bố trung bình của các biến dự báo tại mực 850, 500mb với hạn 24, 48h từ hệ tổ hợp BCMA, BCLR, NGR và NGR_EMOSP.

H (m) u (m/s) v (m/s) T (0K) q (g/kg) pmsl pmsl (mb) 850 500 850 500 850 500 850 500 850 500 24 1.58 12.2 10.8 3.62 4.05 3.15 3.46 1.20 1.06 1.77 1.10 BCMA 48 1.86 14.2 12.2 4.03 4.54 4.04 3.76 1.29 1.24 1.82 1.33 24 1.42 11.1 10.0 2.96 3.57 2.48 2.75 0.84 0.86 1.06 0.89 BCLR 48 1.64 12.7 11.4 3.26 4.00 2.76 2.88 0.89 0.97 1.04 1.01 24 0.89 6.77 5.79 1.90 2.19 1.90 2.09 0.59 0.60 0.85 0.51 NGR 48 1.22 9.32 8.15 2.65 3.15 2.73 2.90 0.73 0.82 1.08 0.75 24 0.73 5.74 4.92 1.67 1.95 1.65 1.86 0.49 0.51 0.74 0.43 NGR_ EMOSP 48 1.01 7.98 6.97 2.30 2.79 2.29 2.60 0.61 0.72 0.94 0.63

Như vậy trong 4 hệ tổ hợp khảo sát, BCMA tỏ ra cĩ chất lượng kém nhất với độ tin cậy thấp (độ tán quá lớn), độ nhọn nhỏ. Hệ tổ hợp NGR_EMOSP dù cĩ độ nhọn lớn nhất nhưng độ tin cậy lại thấp (độ tán quá nhỏ). Trong hai hệ tổ hợp cịn lại, NGR tỏ ra cĩ ưu thế hơn rõ rệt khi dự báo vừa tin cậy vừa cĩ độ nhọn lớn. Riêng hệ tổ hợp BCLR cĩ độ tin cậy và độ nhọn cao hơn BCMA nhưng độ tán của một số biến như q tại mực 850 hạn dự báo 48 giờ quá nhỏ nên cần thận trọng khi sử dụng. Về chi phí tính tốn, BCMA cĩ chi phí tính tốn thấp nhất, tiếp đến là BCLR. Hệ tổ hợp NGR_EMOSP cĩ chi phí tính tốn lớn nhất do phân bố đưa ra cĩ tính phi tuyến. Giải thuật BFGS sử dụng để cực tiểu hĩa hàm CRPS khi chạy qua từng điểm lưới, trên từng mực, theo từng hạn dự báo nên cần nhiều thời gian thực hiện. Nếu số thành phần dự báo tăng lên quá trình cực tiểu cịn chậm hơn nữa do số biến tăng lên.

Ngồi ra do NGR_EMOSP đưa thêm ràng buộc khơng âm vào các trọng số giữa các dự báo thành phần, phương pháp giải sẽ chuyển thành lặp giải. Quá trình này địi hỏi quá trình cực tiểu hĩa phải thực hiện thêm 1 đến 2 lần, càng làm tăng thêm thời gian thực hiện. Hệ tổ hợp NGR là một phiên bản đơn giản hĩa của NGR_EMOS do đĩ thời gian tính tốn giảm đi đáng kể so với NGR_EMOSP.

Về sản phẩm dự báo, NGR và NGR_EMOSP rõ ràng cĩ thể đưa ra nhiều sản phẩm hơn BCMA và BCLR. Hai hệ tổ hợp sau do là hệ rời rạc nên dự báo xác suất đưa ra chỉ mang tính rời rạc và cũng chỉ cĩ thể đưa ra tại từng điểm. Sản phẩm hai hệ tổ hợp NGR và NGR_EMOSP, do đưa dự báo hàm phân bố xác suất, phong phú

Dự báo xác suất dựa trên phương pháp NGR

Phương pháp sử dụng vector kỳ dị

Phương pháp nhiễu động số liệu quan trắc