Phương pháp nghiên cứu

Một phần của tài liệu THỬ NGHIỆM DỰ BÁO SỐ LƯỢNG BÃO ĐỔ BỘ VÀO VIỆT NAM BẰNG PHƯƠNG PHÁP HỔI QUY TUYẾN TÍNH TỪNG BƯỚC (Trang 27 - 36)

CHƯƠNG 2: CƠ SỞ SỐ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.2 Phương pháp nghiên cứu

Phương pháp thống kê là phương pháp dự báo mà công cụ sử dụng chủ yếu là thống kê toán và để sử dụng phương pháp toán thống kê vào dự báo khí tượng, trước hết cần phải xác định đâu là đối tượng cần dự báo và đâu là những thành phần cần dựa vào để tiến hành dự báo gọi là nhân tố dự báo.

Đối tượng dự báo (ĐTDB) là những yếu tố, những hiện tượng khí tượng, cũng có thể là một số đối tượng khác có liên quan đến các nghành kinh tế cần được dự báo. Trong mô hình thống kê nó đóng vai trò của biến phụ thuộc, thường được ký hiệu là Y. Các ĐTDB chính thường là nhiệt độ không khí, lượng mưa, thời gian nắng, một số hiện tượng khí tượng cực đoan ( hạn hán, mưa lớn, bão…) dưới dạng chuẩn sai hoặc xác suất xuất hiện các khoảng của nó. ĐTDB cũng có thể là các trường SST, khí áp, hoặc độ cao địa thế vị, trường gió, trường nhiệt độ, trường

ẩm…. của các đường đẳng áp hoặc các độ cao chính theo lưới các ô kinh vĩ độ với các độ phân giải khác nhau.

Nhân tố dự báo (NTDB) là tập hợp các đặc trưng được sử dụng để dự báo ĐTDB. Nó là biến độc lập: Xij (i=1,N;j=1,M) trong các phương trình dự báo. NTDB rất đa dạng, gồm nhiều loại bao gồm không chỉ các đặc trưng khí tượng, hải dương mà cả các yếu tố thiên văn, địa vật lý. Trong một số trường hợp như dự báo biến dổi khí hậu dùng cả một số tham biến về kinh tế xã hội và môi trường. trong các mô hình thống kê dự báo khí hậu hiện nay, các đặc trưng thường được dùng làm NTDB là SST, đặc biệt là các đặc trưng có liên quan đến Enso như SST các vùng Nino,SOI… các đặc trung của trường AT500, AT850, OLR, QBO….

Cho đến nay, việc sử dụng phương pháp thống kê vào dự báo khí hậu đã khá phổ biến trên thế giới, nhất và đối với các nước chưa có điều kiện phát triển các phương pháp động lực và các phương pháp thống kê được sử dụng vào dự báo khí hậu ở các nước rất đa dạng như: phương pháp hồi quy (hồi quy tuyến tính, hồi quy phi tuyến, hồi quy từng bước…), phương pháp tương quan canon, phương pháp xác suất có điều kiện và hàm phân liệt, phương pháp phân tích chuỗi thời gian, phương pháp mạng thần kinh….

Trong nghiên cứu này, tác giả sử dụng phương pháp hồi quy tuyến tính từng bước vì đây là phương pháp phổ biến nhất và cũng dễ ứng dụng nhất.

2.2.1 Đặt vấn đề

Trong nghiên cứu khí tượng thuỷ văn nói chung, ta thường gặp bài toán hồiqui nhiều biến, tức là nghiên cứu mối phụ thuộc giữa một bên là biến phụ thuộcX1 với một bên là một loạt các biến độc lập X2,...,Xm. Tuy nhiên các yếu tố khítượng thuỷ văn thường có những tác động qua lại và ảnh hưởng lẫn nhau, bởivậy khái niệm biến độc lập chỉ mang nghĩa hình thức. Điều đó có nghĩa là giữacác biến độc lập thường có mối quan hệ tương quan nào đó. Mặt khác, giữa cácbiến độc lập và biến phụ thuộc cũng tồn tại những mối quan hệ ràng buộc. Dođó có thể xảy ra tình trạng các biến độc lập được chọn đều tương quan tốt vớinhau và tương quan tốt cả với biến phụ thuộc, ý nghĩa cung cấp thông tin củacác biến độc lập vì thế mà

giảm đi. Trong nhiều trường hợp, điều đó dẫn đến hậuquả là mặc dù phương trình hồi qui khá phức tạp do sự có mặt của nhiều biếnđộc lập nhưng độ chính xác của nó lại kém hơn do sai số quan trắc, do dao độngngẫu nhiên, sai số tính toán,... mang lại.

Vậy vấn đề đặt ra là cần phải xác định xem những biến nào trong các biếnđộc lập có ảnh hưởng đáng kể đến biến phụ thuộc, có nhất thiết tất cả các biếnđược chọn đều phải có mặt trong phương trình hồi qui hay chỉ là một bộ phậnnào đó. Đó là mục tiêu của bài toán hồi qui từng bước.

2.1.2 Xây dựng phương trình dự báo số lượng bão đổ bộ vào Việt Nam

Do hạn chế về mặt số liệu và tính toán nên khóa luận này chỉ đưa ra thử nghiệm sự báo bão đổ bộ bằng phương pháp hồi quy từng bước. Sau đây là cơ sở lý thuyết để xây dựng phương pháp:

Về nguyên tắc, khi xây dựng phương trình hồi quy, số biến càng tăng thì sai số càng giảm. Tuy nhiên thực tế lại không hoàn toàn như vậy:

• Tăng số biến ⇒ tăng sai số hệ thống

• Sai số quan trắc có thể lớn hơn sai số tính toán

Vì vậy, đối với mỗi yếu tố dự báo cần phải chọn được bộ các nhân tố dự báo hợp lý. Số nhân tố muốn đưa vào (hoặc có thể chọn để đưa vào) là nhiều (ta gọi chúng là các nhân tố dự tuyển).Vậy cần chọn bao nhiêu nhân tố trong số các nhân tố dự tuyển để xây dựng phương trình hồi quy?Những nhân tố nào sẽ được chọn?Và tại sao lại chọn nhân tố này mà không chọn nhân tố khác?Một trong những phương pháp để lựa chọn các nhân tố dự báo tham gia vào phương trình hồi quy là sử dụng phép hồi quy từng bước. Nguyên tắc cơ bản của phương pháp này là lần lượt chọn trong số các nhân tố dự tuyển những nhân tố có đóng góp thông tin lớn nhất cho việc xác định giá trị của yếu tố dự báo và đưa vào xây dựng phương trình hồi quy.

• Mỗi lần đưa vào một nhân tố.

• Thứ tự các nhân tố đưa vào được xác định thông qua mức độ đóng góp thông tin từ “cao” đến “thấp”.

• Có thể dựa vào khái niệm tương quan riêng hoặc tương quan bội.

• Số lượng nhân tố sẽ được khống chế tùy thuộc mức độ làm giảm sai số ước lượng.

Nguyên tắc chung:

Bước 1: Tính các hệ số tương quan cặp (tương quan toàn phần) giữa Y với các nhân tố dự báo Xj:

m j

y y x

x

y y x x

r n

t t n

t

j tj n

t

t j tj

jy , 1 , 2 ,...,

) (

) (

) )(

(

1

2 1

2

1 =

= ∑ ∑

=

=

=

} ..

1 ,

1 max{ r j m

ry = jy =

Và chọn một nhân tố có tương quan tốt nhất với yếu tố dự báo.

Giả sử:

) 1 (

1 . )

1 (

ry

s y ˆ(1) = a0(1) + a1(1)x1

Khi đó X1 sẽ được chọn đầu tiên để xây dựng phương trình hồi quy:

Bước 2: Tính các hệ số tương quan riêng giữa Y và các X2,…,Xm sau khi đã loại bỏ ảnh hưởng của X1 và chọn nhân tố có tương quan tốt nhất với Y. Giả sử nhận được:

} ..

2 ,

max{ .1

1 .

2 r j m

r y = jy =

) 2 (

12 . )

2 (

ry

s y ˆ(2) = a0(2) + a1(2)x1 + a2(2)x2

Khi đó X2 sẽ được chọn tiếp theo để xây dựng phương trình hồi quy:

Bước 3: So sánh mức độ suy giảm sai số ước lượng (chuẩn sai thặng dư) với tiêu chuẩn cho trước e:

• Nếu mức độ suy giảm sai số lớn hơn e, tức việc đưa thêm nhân tố mới vào phương trình hồi quy là có ý nghĩa, thì tiếp tục lặp lại B2 trong đó các nhân tố bị loại bỏ ảnh hưởng khi tính hệ số tương quan riêng là những nhân tố đã được đưa vào ở bước trước.

• Nếu mức độ suy giảm sai số nhỏ hơn e, tức việc đưa thêm nhân tố mới vào phương trình hồi quy là không có ý nghĩa, thì quá trình tuyển chọn sẽ dừng lại và phương trình hồi quy cuối cùng là phương trình đã được xác định ở bước trước.

• Mức độ suy giảm sai số thông thường được xác định bởi

) (

) 1 ( ) (

k k k

s s SS s

− −

=

Giữ lại NTDB và phương trình hồi qui ở bước k-1 εk

ε0

εk >

ε0

εk <

Sơ đồ khối:

2.2.3. Hệ số tương quan bội của phương trình dự báo:

Hệ số tương quan bội (R) đặc trưng cho mối quan hệ tuyến tính giữa một bên là biến phụ thuộc Y và một bên là tập hợp biến độc lập Xi. Nó được xác định theo công thức:

Với R = 1 thì có thể nói hầu như chắc chắn Y bằng một tổ hợp tuyến tính nào đó của các biến Xi . khi đó, toàn bộ các điểm thực nghiệm đều nằm trên đường hồi quy. Hệ số tương quan bội bằng 0 khi mà biến Y không tương quan với bất kỳ một biến Xi

2.2.4 Kiểm nghiệm đánh giá phương tình dự báo:

Là công đoạn không thể thiếu trong khi xây dựng mô hình dự báo nhất là bằng phương pháp thống kê. Kiểm chứng phương trình giúp ta đánh giá khách quan mức độ chính xác của phương trình thông qua đo độ chênh lệch giữa kết quả dự báo và thực tế quan trắc, từ đó chọn ra phương trình tối ưu đưa vào tác nghiệp.

Để đánh giá phương trình, sử dụng một số chỉ tiêu đánh giá:

Để đánh giá phương trình dự báo em sử dụng bằng các kiểm nghiệm sau đây:

a Chuẩn sai thặng dư: Chuẩn sai thặng dư được tính theo công thức sau:

( )

∑=

− −

= −

= − n

i

thq

t y

m y n m

n s Q

1

2

1 1 1

Nếu sai số s ≤ ey thì phương trình dự báo có thể sử dụng được với ey là sai số cho phép (tùy đặt miễn thõa mãn yêu cầu của bài toán).

b.Chỉ số Fisher: Chỉ số Fisher được xác định theo công thức:

) /(

) 1 /(

m n Q

m f U

= −

Với

∑=

= n

i

thq y

y U

1

)2

(

∑=

= n

i

thq

t y

y Q

1

)2

(

Nếu chỉ số f nhận được thỏa mãn điều kiện f ≥ Fα thì phương trình dự báo dùng được. Với Fα là giới hạn tin cậy của f ứng với xác suất sai phạm loại I.

Trong đó:

U: tổng bình phương các biến sai hồi quy.

Q: tổng bình phương các biến sai thặng dư.

n: độ dài chuỗi số liệu;

m: số nhân tố dự báo tham gia trong phương trình hồi quy.

yt: số bão thực tế 6 tháng mùa bão.

ythp: số liệu dự báo bằng phương trình dự báo.

y

: trung bình số bão thực tế 6 tháng mùa bão.

Ngoài ra, em còn sử dụng các chỉ số đánh giá sau:

1) Sai số trung bình ME (Mean Error)

Sai số trung bình cho biết phương trình dự báo số lượng cơn bão thấp hơn hay cao hơn so với thực tế. Hay nói cách khác là để đo độ lệch giữa số lượng cơn bão thực tế với dự báo: nếu độ lệch dương thì dự báo lớn hơn quan trắc nếu độ lệch âm thì dự báo sẽ nhỏ hơn quan trăc. Để tính sai số trung bình người ta sử dụng công thức:Nếu cho N chuỗi dự báo thì sai số trung bình ME được xác định như sau:

( )

N

i i

i 1

ME 1 F O N =

 

= ∑ − 

trong đó: Fi là giá trị dự báo thứ i Oi là giá trị quan trắc thứ i ME nằm trong khoảng

)

; (−∞+∞

. Giá trị ME tối ưu là ME = 0. ME cho biết xu hướng lệch trung bình của giá trị dự báo so với giá trị quan trắc nhưng không phản ánh độ lớn sai số.Nếu ME dương có nghĩa là giá trị dự báo vượt quá giá trị quan trắc.ME âm cho biết giá trị dự báo nhỏ hơn giá trị quan trắc. ME hữu ích nhất và thường sử dụng trong dự báo số trị là ME hệ thống, tức là sai số trung bình theo thời gian.

2) Sai số trung bình tuyệt đối MAE (Mean Absolute Error)

Sai số trung bình tuyệt đối cho biết độ lớn sai số dự báo trung bình của phương trình.

Nếu cho N chuỗi dự báo thì sai số trung bình tuyệt đối được xác định:

N

i i

i 1

MAE 1 F O

N =

 

= ∑ − 

trong đó: Fi là giá trị dự báo thứ i Oi là giá trị quan trắc thứ i MAE xác định trong khoảng

)

; (−∞+∞

. Giá trị tối ưu của MAE là MAE = 0.

MAE biểu thị giá trị độ lớn trung bình của sai số, nhưng không cho thấy xu hướng lệch giữa giá trị dự báo và giá trị quan trắc.

3) Sai số quân phương RMSE ( Root Mean Square Error)

Sai số bình phương trung bình cho biết độ biến thiên sai số của phương trình hay mức độ ổn định của phương trình.

Một phần của tài liệu THỬ NGHIỆM DỰ BÁO SỐ LƯỢNG BÃO ĐỔ BỘ VÀO VIỆT NAM BẰNG PHƯƠNG PHÁP HỔI QUY TUYẾN TÍNH TỪNG BƯỚC (Trang 27 - 36)

Tải bản đầy đủ (DOCX)

(45 trang)
w