4) Nhóm cơng trình nghiên cứu theo phương pháp thống kê trên sản phẩm mơ hình (Model Output Statistics – MOS). Trong đó, yếu tố dự báo và nhân tố dự
báo chính là các trường khí hậu nhận được từ mơ hình khí hậu khu vực. Đây là một hướng tiếp cận khá mới mẻ, phương pháp này cần phải có kết quả mơ phỏng nhiều năm từ mơ hình khí hậu khu vực. Cho đến nay ở Việt Nam vẫn cịn rất ít cơng trình nghiên cứu theo hướng này.
Năm 2009, tác giả Nguyễn Minh Trường đã thực hiện báo cáo chuyên đề “Nghiên cứu xây dựng các mơ hình thống kê, lựa chọn tập nhân tố dự báo, lập chương trình tính, kiểm tra độ chính xác bằng tập số liệu mẫu”, thuộc đề tài KC08.29/0610 [15]. Trong chuyên đề này, tác giả đã phân tích các cơ chế thời tiết, khí hậu khu vực Việt Nam để làm cơ sở khoa học cho việc lựa chọn một số nhân tố dự báo phù hợp được lấy từ mơ hình RegCM, sau đó sẽ xây dựng MOS để dự báo một số hiện tượng và yếu tố khí hậu cực đoan hạn mùa cho khu vực Việt Nam. Báo cáo bước đầu đã đưa ra được cơ sở khoa học trong việc nghiên cứu phương pháp MOS đối với dự báo hạn mùa cho khu vực Việt Nam. Có thể hướng nghiên cứu này
sẽ được phát triển mạnh trong tương lai khi có được chuỗi số liệu dự báo lại (hindcast) của các mơ hình khí hậu khu vực đủ dài.
Tóm lại: Từ tổng quan nghiên cứu trong và ngoài nước về dự báo khí hậu hạn mùa trong đó có dự báo mưa có thể rút ra một số điểm chính sau:
Đối với nghiên cứu dự báo mưa hạn mùa, có hai cách tiếp cận là sử dụng phương pháp thống kê (thống kê truyền thống và downscaling thống kê) và phương pháp mơ hình động lực. Nhìn chung, phương pháp thống kê truyền thống đã đạt được những kết quả nhất định, nhiều mơ hình thống kê có đóng góp chính trong việc đưa ra bản tin dự báo tổng lượng mưa mùa. Phương pháp downscaling thống kê phụ thuộc nhiều vào độ chính xác của sản phẩm dự báo từ các GCM, tuy nhiên sai số của các GCM hiện nay vẫn còn khá lớn nên kết quả nhận được theo hướng này cũng cịn nhiều hạn chế. Phương pháp mơ hình động lực là hướng nghiên cứu đang rất được quan tâm, nó có những ưu điểm vượt trội về khả năng cung cấp sản phẩm dự báo nhưng độ chính xác cũng chưa đạt được như mong muốn.
Dự báo mưa hạn mùa ở Việt Nam hiện mới dừng lại trong phạm vi các mơ hình thống kê, mặc dù đã có một số cơng trình nghiên cứu ứng dụng các mơ hình số nhưng chưa có điều kiện đưa vào nghiệp vụ, có thể do một số nguyên nhân như: khả năng tính tốn của máy tính, chưa có điều kiện biên ổn định (chưa chủ động được sản phẩm của mơ hình tồn cầu), hạn chế về độ chính xác của sản phẩm dự báo ...
Các thông tin dự báo hạn mùa, trong đó có dự báo mưa đã đáp ứng phần nào nhu cầu phục vụ phát triển kinh tế xã hội và đời sống. Tuy nhiên, để ứng dụng có hiệu quả thì bản tin dự báo mùa cịn có những hạn chế như: 1) Đối tượng dự báo mới giới hạn ở hai yếu tố là nhiệt độ trung bình và tổng lượng mưa, thiếu thơng tin dự báo về các yếu tố khí hậu quan trọng khác như: nhiệt độ cực trị, lượng mưa lớn nhất, bốc hơi, độ ẩm, số giờ nắng, gió, khả năng khơ hạn. 2) thơng tin dự báo về 3 tháng kề nhau nhiều khi không phù hợp với yêu cầu sản xuất nông nghiệp trong những thời kỳ sinh trưởng quan trọng của cây trồng, nhất là các thông tin dự báo theo từng tháng và dự báo đầu vụ cùng với dự báo 3 tháng để có kế hoạch điều tiết nước và bố trí cơ cấu cây trồng hợp lý ngay từ đầu vụ.
Hiện nay, mơ hình ARIMA đã được nhiều nước trên thế giới nghiên cứu ứng dụng trong dự báo mưa hạn mùa, trong đó có các nước gần Việt Nam như Thái Lan, Indonesia đã sử dụng mơ hình này trong hoạt động nghiệp vụ. Tuy nhiên ở Việt Nam, hướng tiếp cận này còn rất hạn chế. Để thực hiện nhiệm vụ luận văn thạc sỹ, tác giả nhận thấy việc nghiên cứu mơ hình ARIMA đối với bài tốn dự báo mưa hạn mùa ở Việt Nam là hướng nghiên cứu có ý nghĩa khoa học và thực tiễn. Nhằm có cơ sở khoa học và những nhận định đúng đắn về mơ hình này, bước đầu tác giả nghiên cứu cho một vùng trọng điểm về sản xuất nông nghiêp và một vụ sản xuất thường xuyên gặp khó khăn về nguồn nước là khu vực đồng bằng Bắc Bộ với thời gian dự báo là 4 tháng. Từ kết quả nghiên cứu này sẽ nhân rộng cho các vùng khác, vụ sản xuất khác. Ngồi ra, có thể khai thác mơ hình này để dự báo hạn mùa với một số yếu tố khí hậu quan trọng khác, khi các mơ hình động lực chưa đạt được kết quả như mong muốn.
Chƣơng 2
MƠ HÌNH ARIMA VÀ SỐ LIỆU SỬ DỤNG
Trong chương này, sẽ giới thiệu về cấu trúc của các mơ hình ARIMA bao gồm mơ hình tự hồi quy trung bình trượt ARIMA và mơ hình động thái ARIMA, trên cơ sở đó sẽ đưa ra phương pháp áp dụng các loại mơ hình này đối với bài tốn dự báo mưa hạn mùa, và cuối cùng là phân tích các nguồn số liệu phù hợp sử dụng làm nhân tố đầu vào cho mơ hình ARIMA.
2.1. Giới thiệu cấu trúc của mơ hình ARIMA
Với mục đích xem xét mối quan hệ giữa các quan trắc trong quá khứ với hiện tại nhằm dự báo cho tương lai của một biến trình nào đó, năm 1970, Box và Jenkins đã đưa ra mơ hình tự hồi quy trung bình trượt ARIMA (AutoRegresive Integrated Moving Average). Mơ hình này là mơ hình dự báo định lượng theo chuỗi thời gian,
giá trị tương lai của yếu tố dự báo sẽ phụ thuộc vào quy luật vận động của chính yếu tố đó.
Năm 1976, trên cơ sở mơ hình tự hồi quy trung bình trượt, Box-Tiao đã phát triển thành cơng mơ hình động thái ARIMA (Transfer Function Model). Mơ hình này không chỉ xem xét mối quan hệ trong quá khứ với hiện tại của yếu tố dự báo mà còn xem xét tác động từ các chuỗi thời gian khác đến yếu tố dự báo.
Để thuận tiện khi trình bày, từ đây, mơ hình tự hồi quy trung bình trượt được ký hiệu là ARIMA và mơ hình động thái được ký hiệu là ARIMAX.
Đến nay các mơ hình ARIMA và ARIMAX được áp dụng khá phổ biến trong nhiều lĩnh vực kinh tế, xã hội, mơi trường. Các mơ hình này khơng q phức tạp, nhưng có thể áp dụng hữu hiệu đối với nhiều dạng bài toán dự báo khác nhau. Trong lĩnh vực khí tượng thủy văn, mơ hình ARIMA và ARIMAX là một trong những công cụ quan trọng phục vụ công tác dự báo ở một số nước trên thế giới.
Chi tiết về thuật toán và phương pháp áp dụng đối với mỗi loại mơ hình sẽ được trình bày sau đây:
2.1.1. Mơ hình tự hồi quy trung bình trượt ARIMA
Mơ hình ARIMA cũng có thể được hiểu tương tự như mơ hình tự hồi quy tuyến tính, nhưng về bản chất có sự khác biệt với mơ hình tự hồi quy tuyến tính là các hệ số hồi quy của mơ hình ARIMA được xác định theo tiêu chuẩn hội tụ, sai số cịn lại chính là thành phần ngẫu nhiên. Khi dự báo, thành phần ngẫu nhiên này chính là sai số dự báo của khoảng thời gian trước, khi tạo chuỗi nó là chuỗi ngẫu nhiên sao cho đảm bảo các đặc trưng thống kê không thay đổi theo thời gian. Do vậy, mơ hình này được thực hiện đối với chuỗi ổn định ngẫu nhiên (chuỗi dừng), khi chuỗi chưa đạt được độ ổn định, có thể dùng phép biến đổi thống kê để đưa về dạng ổn định ngẫu nhiên và khi dự báo, cần phải đưa trở lại giá trị thực của đại lượng ban đầu.
Giả sử có chuỗi thời gian ổn định ngẫu nhiên hoặc bất ổn định ngẫu nhiên Yt (t=1,2,…,n) thì dạng thức cơ bản của mơ hình ARIMA bao gồm 3 thành phần sau: Thành phần tự hồi quy bậc p (p= 1, 2,…); Thành phần sai phân bậc d (d=0,1,2…); và thành phần trung bình trượt bậc q (q = 1, 2,…) và được ký hiệu là ARIMA(p,d,q). Dạng tổng qt của mơ hình ARIMA(p,d,q) có thể được viết như sau [20]:
Wt = µ + p1Wt-l + p2Wt-2 +…+ ppWt-p - q1at-1 - q2at-2 -…- qqat-q + at (2.1) Trong đó:
Wt = Δdyt
d là bậc sai phân, μ là hằng số
Với d = 0 Wt = yt ; với d = 1 Δyt = yt - yt-1;
yt, yt-l, yt-2, …, yt-p là giá trị quan trắc ở các bước thời gian t, t-1, t-2,…, t-p at, at-1, at-2, …, at-q là sai số ngẫu nghiên (giữa giá trị thực và giá trị tính tốn) ở các bước thời gian t, t-1, t-2,…, t-q;
p1, p2, …, pp ; q1, q3, ..., qq là các tham số hồi quy.
t t a B p B q W ) ( ) ( hoặc p(B)(1-B)d yt = μ + q(B)at (2.2) Trong đó:
yt, at như đã trình bày ở trên
B là phép tính dịch chuyển lùi: BWt = Wt-1 hay BkWt = Wt-k p(B) = (1 – p1B – p2B2 –… – ppBp) là phép toán tự hồi quy q(B) = (1 – q1B – q2B2 –… – qqBq) là phép tốn trung bình trượt
2.1.2. Mơ hình động thái ARIMAX
Mơ hình động thái ARIMAX có sự khác biệt cơ bản so với mơ hình tự hồi quy trung bình trượt ARIMA là ngồi việc xem xét q trình tự hồi quy trung bình trượt của chuỗi yếu tố dự báo, nó cịn cho phép xem xét ảnh hưởng của các chuỗi thời gian khác tác động đến yếu tố dự báo, chuỗi tác động (biến độc lập) được gọi là chuỗi nhập, chuỗi bị tác động (biến phụ thuộc) được gọi là chuỗi xuất.
Giả sử ta có các chuỗi độc lập Xit (i = 1,2…m; t=1,2…n) và chuỗi phụ thuộc Yt (t=1,2…n), khi đó mơ hình động thái ARIMAX được viết dưới dạng tổng quát như sau: t t i ki m i ir s i t a B p B q X B B S B U Y ) ( ) ( ) ( ) ( , 1 (2.3) Trong đó:
Yt là giá trị quan trắc ở các bước thời gian t; μ là hằng số;
B là phép toán dịch chuyển lùi theo quy tắc : BXt = Xt-1 , BkXt = Xt-k ;
Us(B)Ui0 Ui1B UisBs
i ; Ss(B)Si0 Si1BSisBs
i là
những trọng số động thái của chuỗi độc lập thứ i;
k là thời điểm tác động của chuỗi độc lập thứ i tại thời điểm t = k;
p(B) = (1 – p1B – p2B2 –… – ppBp); q(B) = (1 – q1B – q2B2 –… – qqBq) là phép toán tự hồi quy và trung bình trượt của chuỗi phụ thuộc;
at, là sai số ngẫu nghiên (giữa giá trị thực và giá trị tính tốn).
Lưu ý : các chuỗi Xit và Yt trong công thức 2.3 phải là các chuỗi có tính ổn định ngẫu nhiên, nếu chuỗi không ổn định, sẽ cần phải thông qua bước sai phân để đưa chuỗi về dạng ổn định ngẫu nhiên.
Tóm lại: Bản chất của các mơ hình ARIMA và ARIMAX là mơ hình ngẫu nhiên. Việc phân tích chuỗi thời gian trong các mơ hình này bắt buộc phải chấp nhận một giả thiết hết sức cơ bản là tính ổn định của các q trình ngẫu nhiên, tính ổn định ở đây có nghĩa là các đặc trưng thống kê (hay phân phối xác suất) không thay đổi theo thời gian. Trong thực tế nhiều q trình ngẫu nhiên có tính ổn định trong một khoảng thời gian gián đoạn hữu hạn nào đó có thể coi là ổn định. Ví dụ chuỗi tổng lượng mưa tháng là chuỗi khơng dừng, cịn chuỗi tổng lượng mưa năm có thể coi là dừng vì khi đó qui luật bên trong năm bị loại trừ. Các chuỗi khơng dừng có thể trở thành dừng nhờ một số phép biến đổi sai phân. Lợi thế cơ bản của các mơ hình này là cho phép dự báo với độ chính xác nhất định, mặc dù chưa hiểu rõ bản chất của các quá trình tác động từ các nhân tố dự báo đến yếu tố dự báo.
2.2. Phƣơng pháp áp dụng mơ hình ARIMA và ARIMAX đối với bài toán dự báo mƣa mùa
Trong mục 2.1 đã trình bày các dạng tổng qt của mơ hình ARIMA và ARIMAX, nó có thể bao gồm nhiều thành phần tham gia vào mơ hình như: thành phần tự hồi quy, thành phần trung bình trượt, thành phần sai phân, thành phần ảnh hưởng của các chuỗi nhập khác (các chuỗi nhân tố dự báo), trong mỗi thành phần lại có các thành phần con khác nhau. Bài tốn cần giải quyết ở đây là đưa ra được phương pháp xác định các thành phần có ý nghĩa về mặt thống kê để tham gia vào mơ hình dự báo mưa hạn mùa. Đây là bài tốn khá phức tạp, độ chính xác của mơ hình dự báo khơng chỉ phụ thuộc vào các chuỗi nhập, chuỗi xuất mà còn phụ thuộc việc lựa chọn chính xác các thành phần tham gia vào mơ hình dự báo. Để giải quyết bài tốn này luận văn đã thực hiện theo các bước sau:
1) Áp dụng phương pháp thống kê sai phân để xác định tính ổn định ngẫu nhiên của các chuỗi dữ liệu tham gia vào mơ hình ARIMA và ARIMAX;
2) Kế thừa phương pháp Box Jenkin đối với mơ hình ARIMA và phương pháp Box Tao đối với mơ hình ARIMAX trong việc nhận dạng các thành phần tự hồi quy, thành phần trung bình trượt và thành phần ảnh hưởng của các chuỗi nhập đến chuỗi lượng mưa thông qua việc xem xét sự biến đổi các hàm tự tương quan, tự tương quan riêng phần và tương quan chéo;
3) Sử dụng phương pháp bình phương tối thiểu trong việc xác định các tham số trong mơ hình ARIMA và ARIMAX;
4) Áp dụng các phương pháp kiểm nghiệm giả thiết thống kê trong khí hậu để chọn lựa các tham số có đủ độ tin cậy thống kê tham gia trong mô hình ARIMA và ARIMAX;
5) Sử dụng công cụ phần mềm thống kê SAS để tính tốn các đặc trưng của chuỗi thời gian và các tham số trong mơ hình ARIMA và ARIMAX.
Sau đây sẽ trình bày cụ thể từng nội dung này:
2.2.1. Xác định tính ổn định ngẫu nhiên của chuỗi thời gian
Chuỗi thời gian là chuỗi số liệu được sắp xếp theo trình tự thời gian. Nếu một chuỗi thời gian có giá trị trung bình và phương sai khơng đổi theo thời gian thì chuỗi đó được xem là ổn định ngẫu nhiên (chuỗi có tính dừng) hay nói một cách khác cụ thể hơn đó là một chuỗi thời gian khơng có xu thế, khơng có chu kỳ, mà chỉ dao động xung quanh kỳ vọng của nó.
Một chuỗi quan trắc khí hậu trung bình tháng thường bao gồm 3 thành phần: 1) thành phần ngẫu nhiên là sự tăng lên hay giảm đi thường xen kẽ nhau, góp phần làm cho các trị số khí hậu dao động xung quanh một giá trị nào đó. Giá trị đó có thể là trung bình số học, nếu chuỗi khơng có thành phần chu kỳ và xu thế. 2) Thành phần chu kỳ là những biến đổi của chuỗi lặp lại nhiều lần sau những khoảng thời gian nhất định nào đó. Mối tương quan giữa các thành phần trong một chu kỳ thường đạt trị số lớn nhất. 3) Thành phần xu thế là biểu hiện xu hướng tăng hoặc
giảm theo thời gian của các thành phần trong chuỗi, trị số đầu của xu thế là cực tiểu hoặc cực đại và trị số cuối của xu thế là cực đại hoặc cực tiểu. Biểu đồ minh họa 3 thành phần này được trình bày trong hình 2.1.
Hình 2.1. Các thành phần trong chuỗi quan trắc khí hậu [10]
Để loại bỏ thành phần xu thế và chu kỳ nhằm đưa các chuỗi quan trắc về dạng ổn định ngẫu nhiên, thường sử dụng phép lọc sai phân, phép lọc Loga, phép lọc căn thức...[10]. Trong luận văn này chúng tôi chọn phép lọc sai phân, cụ thể như sau:
- Đối với việc loại bỏ thành phần xu thế: sử dụng phép biến đổi sai phân bậc 1
hoặc bậc 2. Sai phân bậc 1 là chênh lệch giữa 2 giá trị kề nhau trong chuỗi.
ΔYt = Yt - Yt-1 (2.5)
Trong đó: ΔYt là giá trị của sai phân bậc 1