Mô hình dự báo số trị - (LUẬN văn THẠC sĩ) nghiên- 123docz.net

Hiện Đài sử dụng kết quả các sản phẩm mô hình HRM, WRF,... từ Trung tâm Dự báo KTTV Quốc gia và kết nối các kết quả dự báo đến Đài KTTV khu vực Bắc Trung Bộ. Tham khảo các sản phẩm mô hình dự báo của Trung tâm Dự báo châu Âu, Nhật Bản, Hồng Kông. Từ tháng 5/2016 Đài đã tiếp nhận và chuyển giao chạy mô hình WRF riêng cho khu vực Bắc Trung Bộ với độ phân giải (5km x 5km), hiện đang theo dõi, đánh giá để hiệu chỉnh cho phù hợp.

Tóm lại, từ những kết quả nghiên cứu trên, ta có thể nhận thấy rằng, việc nghiên cứu các hình thế gây mưa lớn và xây dựng phương trình dự báo mưa thời hạn 24 giờ trong mùa mưa cho khu vực tỉnh Nghệ An là một vấn đề vừa có ý nghĩa thực tiễn, vừa có ý nghĩa khoa học, tính thời sự trong công tác dự báo định lượng mưa ở tỉnh Nghệ An.

CHƢƠNG 2

CƠ SỞ SỐ LIỆU VÀ PHƢƠNG PHÁP NGHIÊN CỨU 2.1 Cơ sở số liệu

Để nghiên cứu, xác định được các hình thế thời tiết gây mưa lớn và xây dựng phương trình dự báo định mưa trong các tháng mùa lũ cho tỉnh Nghệ An, luận văn sử dụng các nguồn số liệu sau:

2.1.1 Số liệu quan trắc

1) Các trạm khí tượng cần khai thác: Cả 09 trạm khí tượng: Vinh, Hòn Ngư, Quỳnh Lưu, Đô Lương, Con Cuông, Tương Dương, Quỳ Hợp, Tây Hiếu và Quỳ Châu (hình 2.1).

Hình 2.1. B n đồ Mạng lư i trạm khí tượng thủy văn khu vực Bắc Trung Bộ

2) Các yếu tố khí tượng cần khai thác:

- Lượng mưa ngày tại 09 trạm khí tượng để xác định hình thế thời tiết gây mưa lớn và làm yếu tố dự báo;

trắc 18z, 00z, 06zh và 12z, của 04 trạm khí tượng: Vinh, Quỳnh Lưu, Tây Hiếu và Quỳ Châu cùng tham gia làm nhân tố dự báo sơ cấp.

3) Thời gian cần khai thác: Từ tháng 6 đến tháng 11 hàng năm trong thời gian 11 năm, từ năm 2007 đến năm 2017.

2.1.2 Số liệu mô hình

Luận văn tiến hành khai thác sản phẩm mô hình số trị của Trung tâm Dự báo Thời tiết hạn vừa châu Âu (European Centre for Medium-Range Wether Forecasts -ECMWF).

ECMWF là một cơ quan độc lập hỗ trợ bởi 34 nước thành viên. ECMWF thực hiện cả nghiên cứu và nghiệp vụ dự báo. ECMWF được thiết lập từ năm 1975, hiện tại có khoảng 350 nhân viên tới từ 34 quốc gia khác nhau. Trụ sở ECMWF được đặt tại thành phố Reading, Vương quốc Anh. Hệ thống siêu máy tính và lưu trữ dữ liệu tại ECMWF là một trong những hệ thống lớn nhất thế giới trong cùng lĩnh vực.

Từ năm 2012 Trung tâm Dự báo khí tượng thủy văn Trung ương đã bắt đầu khai thác và sử dụng sản phẩm dự báo khí tượng của ECMWF. Đây là một sản phẩm có độ tin cậy cao, là một nguồn tham khảo không thể bỏ qua đối với mỗi dự báo viên khí tượng ở Việt Nam.

Một trong những sản phẩm của ECMWF được sử dụng rộng rãi nhất là số liệu ERA-interim. ERA-Interim là số liệu tái phân tích khí quyển toàn cầu từ năm 1979, được cập nhật liên tục trong thời gian thực. Hệ thống đồng hóa dữ liệu được sử dụng để tạo ERA-Interim dựa trên bản phát hành năm 2006 của IFS (Cy31r2). Hệ thống bao gồm phân tích đa dạng 4 chiều (4D-Var). Độ phân giải khác nhau từ 0.125o × 0.125o cho đến 3o ×3o ,với các mực thẳng đứng từ bề mặt lên đến 0,1 hPa.

Số liệu xây dựng bản đồ

Số liệu tái phân tích Era-interim của ECMWF từ tháng 6 đến tháng 11 hàng năm trong giai đoạn từ năm 2007 đến 2017. Bao gồm các yếu tố độ cao địa thế vị (z), khí áp mực biển (msl), thành phần gió vĩ hướng (u), thành phần gió kinh hướng (v). Các yếu tố này được lấy tại [40], xuất theo dạng lưới 0.5o×0.5o, tại thời điểm 00:00 giờ GMT hàng ngày,trong phạm vi 10oS-50oN, 60-160oE.

Số liệu xây dựng phƣơng trình

Số liệu mô hình của ECMWF được lấy từ tháng 6 đến tháng 11 hàng năm trong giai đoạn từ năm 2012 đến năm 2017. Bao gồm các yếu tố: Nhiệt độ (T), độ ẩm riêng (Q), thành phần gió vĩ hướng (U), thành phần gió kinh hướng (V) và xoáy thế (PV) tại các mực 1000mb, 925mb, 850mb, 700mb, 500mb. Các yếu tố này được lấy tại [40], xuất theo dạng lưới 0.5o×0.5o, tại thời điểm 00:00 giờ GMT hàng ngày và được tính trung bình tại các vùng : 18-200N, 107-1090E; 19-210N, 107-1090E; 18-200N, 108-1100E.

- Khu vực cần khai thác: Do đặc điểm của những hình thế thời tiết ảnh hưởng đến khu vực nghiên cứu thường đến từ phía đông bắc, đông và đông đông nam và với tốc độ gió trung bình từ 4-6m/s nên trong khoảng 24 giờ không khí ở trong phạm vi của các ô lưới: 18-200N, 107-1090E; 19-210N, 107-1090E; 18-200N, 108-1100E sẽ di chuyển đến khu vực nghiên cứu nên những ô lưới này sẽ được chọn để lấy giá trị các yếu tố khí tượng làm nhân tố dự báo. Giá trị của các yếu tố khí tượng được lấy trung bình cho cả ô lưới.

2.2 Phƣơng pháp nghiên cứu

Như đã nói, phương pháp thống kê được sử dụng rất rộng rãi trong nghiên cứu khí tượng, khí hậu nói chung và nghiên cứu dự báo thời tiết nói riêng. Trong thống kê, hiện có rất nhiều phương pháp được sử dụng để xây dựng phương trình dự báo xác suất xuất hiện hiện tượng khí tượng. Các phương trình dự báo này được phát triển từ những phương pháp đơn giản như biểu đồ tụ điểm, hồi quy đơn giản cho đến các phương pháp thống kê hiện đại như nguyên lý tương tự, xích Markov, hồi quy nhiều chiều, phân tích phân biệt, thống kê trên các sản phẩm của mô hình số trị,...

Luận văn này sẽ tiến hành sử dụng phương pháp thống kê đã được rất nhiều tác giả sử dụng và cũng đã đạt được những kết quả rất khả quan trong việc xây dựng các công thức dự báo thời tiết, đó là hàm hồi quy nhiều chiều để dự báo mưa cho các trạm khí tượng trên khu vực Nghệ An. Phương pháp này đã được rất nhiều nhà khí tượng trong và ngoài nước ứng dụng để xây dựng các phương trình dự báo hiện tượng khí tượng. Lý thuyết của phương pháp được trình bày tóm tắt như sau:

2.2.1 Các dạng biến trong dự báo thống kê

Từ một tập hợp các nhân tố ban đầu có thể được nhân lên nhiều lần bằng những phép biến đổi toán học. Vì trong rất nhiều trường hợp, các nhân tố dẫn xuất này rất có ý nghĩa trong việc xây dựng phương trình hồi quy. Trong một số trường hợp, phép biến đổi được thực hiện trên cơ sở những hiểu biết vật lý nhưng cũng không ít trường hợp, phép biến đổi lại dựa vào kinh nghiệm. Những phép biến đổi như x2=x1n hay x2=x11/n là những phép biến đổi thường được sử dụng. Khi đó, x2 được xem như là một biến dự báo khác x1. Ngoài ra, một dạng biến khác thường gặp trong các bài toán khí tượng là dạng biến nhị phân. Biến nhị phân nhận một trong hai giá trị (thông thường là 0 và 1, mặc dù sự lựa chọn không làm ảnh hưởng đến kết quả) phụ thuộc vào biến được biến đổi lớn hơn hay nhỏ hơn một giá trị ngưỡng C nào đó. Khi thay giá trị ngưỡng C ta lại được một biến khác.

Các phương trình dự báo dựa trên cơ sở thống kê cho ta biết thông tin về xác suất xuất hiện của một yếu tố dự báo nào đó. Theo nghĩa hẹp, dự báo xác suất là dự báo trong đó yếu tố dự báo là một xác suất chứ không phải là giá trị của biến khí tượng. Thông thường, phương trình dự báo xác suất được xây dựng trên cơ sở phép hồi quy bằng việc biến đổi yếu tố dự báo thành biến nhị phân nhận giá trị 0 và 1 như các nhân tố dự báo đã nói ở trên. Khi đó phép hồi quy sẽ được thực hiện. Nghĩa là 0 và 1 được xem như là xác suất của yếu tố dự báo không xuất hiện và có xuất hiện.

2.2.2 Phép ước lượng hồi quy xác suất sự kiện

Có hai phép gần đúng hồi quy để ước lượng xác suất của yếu tố dự báo là phép hồi quy loga và phép ước lượng hồi quy xác suất sự kiện REEP (Regression Estimation of Event Probabilities). Trong đó phép ước lượng hồi quy xác suất sự kiện có ưu việt là không đòi hỏi phải tính toán nhiều hơn bất kỳ một mô hình hồi quy tuyến tính nào.

Mô hình ước lượng hồi quy xác suất sự kiện có thể được nêu một cách ngắn gọn như sau:

Trong trường hợp dự báo pha, giả sử có K pha thời tiết khác nhau: 1, 2,...,

K, xác suất để cho pha thời tiết thứ i xảy ra sẽ là Pi = P(i), trong đó i = 1, 2,..., K. Gọi X là vector các nhân tố dự báo, X = {x1, x2, ..., xm}, khi đó yếu

tố khí tượng cần dự báo (biến phụ thuộc) phụ thuộc vào m nhân tố dự báo (biến độc lập). Nếu ký hiệu P* là vector ước lượng của P (P = {P1, P2,..., PK}), khi đó ta có:

P* = A . X + A0 (2.1)

Trong đó, A là ma trận K hàng m cột chứa các hệ số hồi quy, A0 là vector các hệ số tự do. Ma trận A và vec tơ A0 được xác định bằng phương pháp bình phương tối thiểu. Điều kiện ràng buộc khi xác định các hệ số trong A và A0 là, tại mọi thời điểm, chúng cần phải thoả mãn hệ thức:

Pi 1 (2.2)

i1

Trên cơ sở những nguyên tắc này, để ứng dụng cho bài toán dự báo mưa, ta có bài toán dự báo lựa chọn giữa 2 pha thời tiết là có mưa và không có mưa xuất hiện.

Gọi  là sự kiện có mưa và P là xác suất xuất hiện sự kiện . Khi đó P sẽ nhận giá trị bằng 1 nếu có mưa và P nhận giá trị bằng 0 nếu không có MƯA. Như vậy, xác suất để sự kiện  xuất hiện sẽ là:

P() = P(P = 1) = M[P] (2.3)

Trong đó M là toán tử kỳ vọng.

Như vậy ta thấy rằng, để xác định được xác suất xuất hiện hiện tượng , ta cần phải xác định được kỳ vọng toán của biến ngẫu nhiên P.

Giả thiết rằng, xác suất xuất hiện sự kiện  phụ thuộc vào m nhân tố dự

P(/X) = M[P/X] (2.4) Trong đó: X là vector các nhân tố dự báo X = {x1, x2 , ... , xm}. M[P/X] là kỳ vọng có điều kiện của biến ngẫu nhiên P.

Như vậy, để dự báo xác suất xuất hiện mưa theo vector các nhân tố dự báo X = { x1, x2, ... , xm} đã chọn, chúng ta cần phải xác định được kỳ vọng có điều kiện M[P/X]. Thông thường, M[P/X] được xấp xỉ bằng một tổ hợp tuyến

tính các nhân tố dự báo:

P = M[P/X] = a0 + a1x1 + a2x2 + ... + amxm (2.5) Trong đó, các hệ số ai (i = 0, 1, ... , m) là các hệ số hồi quy được xác định

bằng phương pháp bình phương tối thiểu.

Ta có thể nhận thấy rằng, việc xấp xỉ P bằng một tổ hợp tuyến tính của các biến như trên có thể chưa phản ánh hết được mối quan hệ phụ thuộc giữa P với các nhân tố dự báo xi. Bởi vì mối quan hệ giữa chúng rất có thể không hoàn toàn là tuyến tính. Do đó, thay cho (2.5), ta cần biểu diễn P dưới dạng một hàm nào đó của các nhân tố này:

P = M[P/X] = f (x1, x2, ... , xm) (2.6) Như vậy, để xác định được P, ta phải xây dựng được hàm f(xi). Trên thực tế khó có thể tìm được một hàm f(xi) có dạng (2.6) mô tả đầy đủ sự phụ thuộc của P vào tập các nhân tố và tham số dự báo.

2.2.3 Lọc nhân tố

Nguyên tắc kiểm tra đánh giá để lựa chọn công thức dự báo tốt nhất ngoài việc dựa vào tiêu chuẩn hiệu quả dự báo còn phải căn cứ vào số lượng biến tham gia vào phương trình hồi quy. Nếu phương trình sau cho hiệu quả dự báo cao hơn phương trình trước nhưng mức độ cao hơn không đáng kể mà số biến có mặt trong đó lại tăng lên thì vẫn không được lựa chọn. Một trong những điều kiện ràng buộc quan trọng khi thực hiện phép lọc là chất lượng của phương trình hồi quy. Sau mỗi bước tính, trước khi đưa vào đánh giá hiệu quả để lựa chọn, các phương trình hồi quy thu được đều phải được kiểm nghiệm theo tiểu chuẩn F với mức ý nghĩa nào đó. Điều đó cho phép lựa chọn được tổ hợp biến có số lượng biến ít nhất có thể mà vẫn bảo đảm được độ tin cậy của công thức dự báo.

Có nhiều phương pháp lọc nhân tố. Phương pháp hồi quy từng bước là một trong những phương pháp thường được sử dụng. Ưu điểm của phương pháp này là lựa chọn được tập những nhân tố tương quan với nhau kém nhưng lại quan hệ chặt chẽ với yếu tố dự báo. Tiêu chuẩn lọc của phương pháp này có thể căn cứ vào hệ số tương quan riêng hoặc hệ số tương quan bội.

Trong luận văn này chúng tôi sử dụng phương pháp hồi quy từng bước để lọc nhân tố. Phương pháp này được tóm tắt như sau:

Bước 1: Tính các hệ số tương quan toàn phần ryi giữa yếu tố dự báo y với các nhân tố dự báo xi (i=1, 2,..., m), sau đó chọn trong chúng hệ số tương quan nào có giá trị tuyệt đối lớn nhất. Giả sử:

 maxryi  (2.7)

1im

Khi đó biến x1 là nhân tố có tác động chính lên y và ta xây dựng phương trình hồi quy:

y(1)=a0(1) +a1(1) x1 (2.8)

Tương ứng với phương trình (2.8) ta tính được chuẩn sai thặng dư s(1):

s(1)  Q (2.9)

n  m 1

trong đó, Q là tổng bình phương các sai số, (n-m-1) là số bậc tự do của Q.

Bước 2: tính các hệ số tương quan riêng ryi.1 (i=2, 3,..., m) và cũng chọn hệ số có giá trị lớn nhất trong chúng. Giả sử:

 maxryi.1  (2.10)

y2.1

2im

Khi đó ta chọn tiếp biến x2 và xây dựng phương trình hồi quy:

y(2)=a0(2) +a1(2)x1 +a2(2)x2 (2.11)

Tương ứng với nó ta cũng tính được chuẩn sai thặng dư s(2). Đến đây ta có phương trình hồi quy hai biến (2.11) mà độ chính xác của nó được đánh giá bởi s(2).

Bước 3: So sánh giá trị chuẩn thặng dư s(2) với s(1) . Nếu:

s(2)s(1)  ε (2.12)

s(2)

thì biến x2 sẽ bị bỏ qua và một biến khác trong số các biến còn lại sẽ được lựa chọn để xây dựng phương trình hồi quy (2.11) và bắt đầu tính từ bước 2. Ở đây,  là một số dương tuỳ ý ta đưa vào để đánh giá xem nếu khi ta tăng thêm biến cho phương trình hồi quy thì độ chính xác của nó có tăng lên đáng kể hay không. Hay nói cách khác, khi thêm vào phương trình hồi quy một biến mới thì sự đóng góp thông tin của nó làm giảm sai số được bao nhiêu phần trăm, nếu mức độ giảm không vượt quá  thì có thể bỏ qua nó.

Tuy nhiên, ry 2.1 có giá trị lớn nhất trong số các ryi.1 , do đó nhân tố sẽ được đưa vào tiếp theo thay thế x2, chẳng hạn x3, sẽ là nhân tố thoả mãn điều

kiện: r

y3.1  maxryi.12  3im

Nếu tất cả các nhân tố còn lại đều thoả mãn (2.12) thì quá trình hồi quy sẽ kết thúc và phương trình hồi quy (2.8) là kết quả cuối cùng.

Nếu:

s(2)s(1)  ε (2.13)

s(2)

thì nhân tố x2 sẽ được chọn. Khi đó ta phải tính tiếp các hệ số tương quan ryi.12(i = 3, 4,... m) và quy trình được lặp lại bắt đầu như bước 2.

Quá trình cứ tiếp tục như vậy cho đến khi hết tất cả các nhân tố hoặc tự kết thúc như đã trình bày.

Như vậy bước thứ m ta có chuẩn sai thặng dư s(k) tương ứng với phương trình hồi quy:

y(k)=a0 (k)+a1(k)x1+...+ak(k)xk (2.14) Và điều kiện lựa chọn:

s(k) s

(k-1)  ε với k  m (2.15)

s(2)

2.2.4 Xác định ngưỡng dự báo

Ngưỡng dự báo y0 có thể được xem như là các chỉ tiêu dự báo khi ta tính được các giá trị y từ tập các nhân tố dự báo. Để xác định giá trị ngưỡng dự báo y0 từ hệ thức nhận được của hàm y sử dụng tập số liệu quan trắc của các nhân tố xi ta tính được giá trị ước lượng của y, sau đó tính tần suất các khoảng giá trị của y đối với hai lớp có mưa (yc) và không có mưa (yk):

ycy n  ; yky n ;

N N

trong đó: yc(y), yk(y) là tần suất xuất hiện và không xuất hiện mưa ứng với các khoảng giá trị của y; N là dung lượng mẫu; n+ và n- là số lần có mưa