1. Trang chủ
  2. » Luận Văn - Báo Cáo

TIỂU LUẬN THỐNG KÊ KHÍ HẬU

14 339 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 399,5 KB

Nội dung

TIỂU LUẬN THỐNG KÊ KHÍ HẬU I. GIỚI THIỆU MỘT SỐ MÔ HÌNH THỐNG KÊ 1. Mô hình hồi quy a) Hồi quy tuyến tính Hồi quy tuyến tính một biến Khái niệm về hồi quy: Xét mối quan hệ giữa hai biến ngẫu nhiên X và Y, giữa chúng có mối quan hệ phụ thuộc hàm: X = f(Y). Giữa chúng có mối quan hệ phụ thuộc thống kê. Mỗi giá trị x  X tương ứng với một hàm phân bố (hoặc hàm mật độ) có điều kiện F(yx) (hoặc f(yx)) của Y. Ta gọi mối quan hệ phụ thuộc này là sự phụ thuộc tương quan giữa hai biến ngẫu nhiên.

Trang 1

TIỂU LUẬN THỐNG KÊ KHÍ HẬU

I.GIỚI THIỆU MỘT SỐ MÔ HÌNH THỐNG KÊ

1 Mô hình hồi quy

a) Hồi quy tuyến tính

- Hồi quy tuyến tính một biến

Khái niệm về hồi quy:

Xét mối quan hệ giữa hai biến ngẫu nhiên X và Y, giữa chúng có mối quan

hệ phụ thuộc hàm: X = f(Y) Giữa chúng có mối quan hệ phụ thuộc thống kê Mỗi giá trị x ∈ X tương ứng với một hàm phân bố (hoặc hàm mật độ) có điều kiện F(y/x) (hoặc f(y/x)) của Y Ta gọi mối quan hệ phụ thuộc này là sự phụ thuộc tương quan giữa hai biến ngẫu nhiên

Để xác định mối quan hệ tương quan ta cần phải xác định được các phân bố

có điều kiện

) (

) , ( ) / (

2 y f

y x f y x

f =

) (

) , ( ) / (

1 x f

y x f x y

Để xác định các phân bố có điều kiện trên là rất khó Do vậy, để đơn giản chúng ta chỉ xét mối quan hệ phụ thuộc giữa X và một số đặc trưng có điều kiện của Y, như

kỳ vọng, trung vị, mốt, …

Phổ biến hơn cả là xét mối quan hệ giữa X và kỳ vọng có điều kiện my(x)= M[Y/X]

Đây là sự phụ thuộc hồi quy: Hồi quy của Y lên X

y = my(x) Hồi quy trên được gọi là hồi quy I Hồi quy này có thể là hàm tuyến tính hoặc phi tuyến Nói chung, y = my(x) là một hàm bất kỳ, phức tạp và hầu như không biết được dưới dạng giải tích

+∞

=

=

x

y = my(x) xt ,y

t

Trang 2

Trong thực tế, để nghiên cứu mối quan hệ tương quan giữa Y và X người ta thường xấp xỉ my(x) bởi một lớp hàm f(x) nào đó đã biết trước dạng giải tích y ≈

= f(x) Trong trường hợp này hàm hồi quy tìm được gọi là hồi quy II

Trong trường hợp hàm hồi quy II được xác định bằng phương pháp bình phương tối thiểu thì nó được gọi là hồi quy bình phương trung bình Trường hợp đơn giản nhất của hồi quy bình phương trung bình là hồi quy bình phương trung bình tuyến tính, f(x) là hàm bậc nhất

Y = f(X) = α + βX, hay Y = f(x) = α + βx Với các hệ số xác định bởi :

α = M[Y] - βM[X], β = µxy/µxx

- Hồi quy tuyến tính nhiều biến

Xét m biến ngẫu nhiên X1, X2, , Xm với phân bố đồng thời f(x1, x2, , xm) Hồi quy I giữa X1 lên X2, X3, , Xm được xác định bởi :

x1 = m1(x1, x2, , xm) = M[X1/X2 =x2, ,Xm=xm] =

Trong đó f(x1,x2, ,xα) là mật độ có điều kiện của X1 khi X2 = x2, , Xα=xα

Đây là quỹ tích của những điểm (m1, x1, x2, , xm) với mọi giá trị có thể có của

x2, , xm và được gọi là mặt hồi quy I

x1 = m1(x1, ,xm) Nói chung, đây là một mặt bất kỳ và trên thực tế khó có thể biết được dạng thức giải tích của nó

Nếu xấp xỉ x1 bởi một hàm f(x2, ,xm) nào đó đã biết trước dạng giải tích

m1(x2, ,xm) ≈ = f(x2, ,xm)

nó được gọi là hồi quy II của X1 lên X2, ,Xm

Nếu hàm f thuộc lớp hàm tuyến tính thì mặt hồi quy được gọi là một siêu phẳng Khi đó ta có phương trình hồi quy tuyến tính nhiều biến :

+∞

) , , / (x x x dx f

1

ˆx

Trang 3

mx x

x ˆ1 = β1 + β2 2 + + β

m

mX X

X ˆ1 = β1 + β2 2 + + β

Các hệ số β1 được xác định sao cho

min

2

2 1









 +

=

m

i i i

X X

b) Hồi quy phi tuyến

- Hồi quy phi tuyến một biến

Hồi quy phi tuyến là khi y = my(x) ≈ f(x), với f(x) là một hàm phi tuyến nào đó Nguyên tắc cơ bản để tìm các phương trình hồi quy phi tuyến là tuyến tính hóa các thành phần phi tuyến

Một số dạng phổ biến :

1) Dạng hyperbol :

x

a a

0 +

= đặt x

1

và đưa phương trình về dạng mới

x a a

2) Dạng lũy thừa : 1

0

a

x a

y = logarit hóa hai vế : logy =loga0 +a1logx và đặt

y

log , logx=x′, loga0 =a0′ và phương trình được đưa về dạng :

x a a

y′= ′0 + 1 ′

3) Dạng hàm mũ : y a e 1x

0

= logarit tự nhiên hai vế rồi đặt lny= y′, lna0 =a0′

và đưa phương trình về dạng mới : y′=a0′ +a1x

4) Dạng lôga : y=a0 +a1logx, đặt logx=x′ ta được dạng mới : y=a0 +a1x

m x a x

a x a x a a

3

2 2 1 0

-Hồi quy phi tuyến nhiều biến

c Hồi quy từng bước

Khi xét hồi quy giữa X1 và các X2, , Xm với m khá lớn, nảy sinh vấn đề :

= +

+ +

+

= +

+ +

+

= +

+ +

+

= +

+ +

+

+ +

+ +

y x x

a x

a x

a x a

y x x

a x

a x a x a

xy x

a x

a x a x a

y x

a x

a x a n a

m m

m m

m m

m m

m m

m m o

2 2

2

1 1

0

2 2

4 2

3 1

2 0

1 3

2

2 1 0

2 2 1

Trang 4

Phương trình hồi quy quá cồng kềnh, sai số hệ thống tăng, giữa các X2, Xm luôn tồn tại mối tương quan do vậy một số biến không cần thiết có mặt trong phương trình hồi quy

Bài toán đặt ra : Chỉ chọn k trong số m biến (k << m) có ý nghĩa quan trọng nhất Một trong những cách giải quyết bài toán này là hồi quy từng bước (Stepwise Regression)

Xét hồi quy tuyến tính giữa biến phụ thuộc X1 và m-1 biến độc lập X2, , Xm

chọn trong chúng hệ số có giá trị tuyệt đối lớn nhất

Giả sử : { }i

m i r

2

2 ) 1 ( 2 ) 1 ( 1 ) 1 (

nhất trong chúng Giả sử:

{ }1 2

3

2

m

i r

3 ) 2 ( 3 2 ) 2 ( 2 ) 2 ( 1 ) 2 (

Bước 3: So sánh giá trị chuẩn thặng dư s(2) với s(1):

Quá trình được chọn cho đến bước thứ k thỏa mãn điều kiện: (k) −(k)(k−1) <ε

s

s s

2 Hàm phân lớp

Phương pháp áp dụng hàm phân lớp vào dự báo khí tượng đã được đề cập đến khá lâu trên thế giới ở nước ta cũng đã có một số tác giả nghiên cứu áp dụng như Nguyễn Viết Phong (1964), Nguyễn Văn Tuyên (1988), Phan Văn Tân (2000), Nguyễn Viết Lành (2001), Tuy nhiên bài toán phân lớp chủ yếu được thực hiện với những dự báo các hiện tượng mà kết quả dự báo chỉ trả lời câu hỏi là có hoặc không, tức là chỉ tồn tại 2 lớp A và B mà xác suất xuất hiện lớp này là phần bù của lớp kia Nói cách khác:

P(A) = 1 - P(B)

ở đây: P(A), P(B) là xác suất xuất hiện 2 lớp đối nhau A và B của một hiện tượng Q nào đó Dự báo như vậy được gọi là dự báo 2 pha, ví dụ: dự báo xuất hiện dông, xuất hiện sương mù, có bão hay không, mưa trên chuẩn hay dưới chuẩn, Ta xét mối quan hệ giữa Q và một tập hợp các nhân tố Xj (j=1,…, M) mà ta cho rằng giữa chúng có quan hệ với nhau Giả sử khi Q xảy ra lớp A ta sẽ có tập hợp {XjA}

và ngược lại ứng với lớp B ta có tập hợp {XjB} Khi đó giữa {XjA} và {XjB} có thể xảy ra:

Trang 5

- 2 tập hợp này khụng giao nhau, tỏch rời khỏi nhau Khi đú thụng qua sự xuất hiện của X ta cú thể nhận biết hay dự bỏo chớnh xỏc sự xuất hiện A hay B của hiện tượng Q;

- 2 tập hợp này giao nhau, khi đó tuỳ thuộc phần giao nhau nhỏ hay lớn mà khả năng dự báo Q chính xác đợc nhiều hay ít thông qua sự xuất hiện của X Tất nhiên, khi chúng trùng khít nhau thì không có khả năng dùng X để nhận biết hay dự báo Q

Thụng thường, người ta dựng một hàm f nào đú biểu thị giỏ trị của X sao cho f(XjA) và f(XjB) tạo thành 2 miền giỏ trị trờn trục số Hai miền này tỏch rời nhau hoặc giao nhau tương ứng với mức độ giao nhau của {XjA} và {XjB} trong khụng gian M chiều Điểm phõn cỏch tốt nhất là 0 Khi đú dấu của f(XjA) và f(XjB) sẽ giỳp

ta nhận biết hay dự bỏo 2 lớp của Q Nếu gọi I là hàm phõn lớp và hàm phõn bố của cỏc Xj là chuẩn, khi đú cú thể đặt:

I = Sign[(P(X)]

Trong nhiều cụng trỡnh, người ta chọn hàm I dưới dạng:

Ở đõy f là hàm mật độ Với giả thiết là cỏc hàm f(xi) đều cú dạng phõn bố chuẩn, ta sẽ cú f0(XA) và f1(XB) cũng cú phõn bố chuẩn với hàm mật độ:

Trong đú: Rij là ma trận tương quan và |R| là định thức của nú, à0 , à1 là kỳ vọng của tập hợp A và B Khi đú hàm I cú dạng chung:

hoặc

Cú thể nhận được ci (i = 0,…, M) nhờ vào quan hệ tương quan giữa cỏc Xi I

sẽ nhận được giỏ trị trỏi dấu, nếu Xi thuộc vào 2 tập khỏc nhau đó nờu Điều đú cũng cú nghĩa là tựy theo dấu của I ta sẽ cú được tớn hiệu xuất hiện A hay B

Đối với trường hợp số pha >2 cũn đang ớt kết quả nghiờn cứu sử dụng hàm phõn lớp để dự bỏo Chẳng hạn đối với 3 pha:

- Pha 1 (dưới chuẩn): Y < Y1

X f

X f Ln

) (

) (

1

∑∑

= =

i

M

j

kj j ki i

M M

R x

x

x

f

1 1 ij

5 0 2 / 2

R

1 2

1 exp R

) 2 ( )

,

i M

i

M

j

j i ij

x R

2

1

1 1

1 0

∑ ∑

(30)

(31)

(31)

i M

i

i x C C

= +

=

1 0

(32)

Trang 6

- Pha 2 (cận chuẩn) : Y1≤ Y < Y2

- Pha 3 (trờn chuẩn): Y ≥ Y2

Cỏc ngưỡng Y1 và Y2 được xỏc định bằng một trong hai tuỳ chọn sau đõy:

- Tớnh theo cỏc phõn vị: Y1 = q33 , Y2 = q66 , trong đú q33 và q66 là cỏc phõn vị ứng với cỏc xỏc suất 33% và 66%;

- Tớnh theo độ lệch chuẩn: Y1 = Ytb - Sy/2, Y2 = Ytb + Sy/2 trong đú Y và Sy

tương ứng là giỏ trị trung bỡnh và độ lệch chuẩn của Y

Hàm phân lớp ứng với pha thứ i (i=1, 2, 3) cũng đợc sử dụng dạng tơng tự nh

đối với hàm phân lớp (32), có dạng:

F i = Ci0+ C1i X +1 Ci2 X +…+2 i

M

C X (i=1,2,3) M (33) Trong đú M là số nhõn tố dự bỏo; Xj (j=1,2, ,M) là cỏc nhõn tố dự bỏo Kết

quả dự bỏo sẽ căn cứ vào giỏ trị của Fi Nếu Fk = max{Fi (i=1,2,3)}: dự bỏo hiện tượng rơi vào pha k (với k=1, 2, 3)

a) Hai lớp

b) Nhiều lớp

Phơng pháp phân lớp đợc sử dụng rộng rãi trong khí tợng để xây dựng các phơng trình dự báo các pha thời tiết khác nhau, thông dụng nhất là phân hai lớp tuyến tính Ưu điểm của nó là sử dụng dễ dàng và cho hiệu quả cao, nhất là đối với

dự báo sự “có xảy ra” và “không xảy ra” một hiện tợng thời tiết nào đó

Giả sử có hai pha thời tiết là φ1 và φ2 cùng với véc tơ nhân tố ảnh hởng đợc chia thành hai lớp tơng ứng Nh vậy mỗi véc tơ nhân tố ảnh hởng ở trong số liệu lu trữ X = (x1,x2,x n) ta biết nó thuộc lớp nào trong hai lớp φ1 và φ2 Nhiệm vụ đặt ra là

ta phải tìm quy tắc giải để khi có bất kỳ véc tơ nhân tố ảnh hởng nào không nằm trong bộ lu trữ ta phải chỉ ra đợc thời tiết thuộc φ1 hay φ2

ứng với mỗi nhân tố ảnh hởng là một điểm trong không gian n chiều Các

điểm ứng với các véc tơ nhân tố ảnh hởng thuộc một lớp sẽ tạo ra một miền nào đó trong không gian n chiều Nếu ta ký hiệu các điểm của lớp thứ nhất là dấu tròn, các

điểm của lớp thứ hai là dấu gạch thì trong trờng hợp có hai nhân tố ta có hai miền trong mặt phẳng, hai miền này có thể ở một trong 3 trờng hợp sau:

Trờng hợp thứ nhất: Hai miền riêng biệt Đây là trờng hợp phân lớp lý tởng Các véc tơ nhân tố ảnh hởng chia thành hai lớp Trong không gian n chiều rất ít khi thấy Trong không gian này ta tìm đợc đờng thẳng phân chia hai lớp

Trờng hợp thứ 2, hai miền trùng nhau ta không thể phân chia các véc tơ nhân

tố ảnh hởng thành các lớp, nh vậy không thể dự báo đợc pha thời tiết φ1 và φ2 theo

hệ thống nhân tố đã chọn

Trang 7

Trờng hợp thứ 3 là hai miền có chung trong trờng hợp này đa đến dự báo có

điều kiện

Trong thực tế khí tợng bài toán phức tạp hơn nhiều vì các véc tơ nhân tố ảnh hởng bị giới hạn thống kê và biên của miền xác định cha chắc có trong bộ số liệu mẫu, ta chỉ có thể tìm đợc biên hữu hạn của chúng, giá trị tìm đợc chỉ có ý nghĩa xác suất ứng với qui luật phân bố các đại lợng cực trị

Giả sử sau khi tuyển chọn bằng các phơng pháp ở trên, ta có một tập hợp m nhân tố xi = (x1, x2,…, xm) cần đa vào tham gia xây dựng phơng trình dự báo phân hai lớp Trong chuối số liệu của mỗi nhân tố: xi = (xi1, xi2,…, xin) đợc phân thành 2 lớp ứng với các pha thời tiết cần dự báo

Gọi n1 và n2 là độ dài lớp 1 và lớp 2 của nhân tố xi: n1 + n2 = n

Giả thiết hàm mật độ phân bố các nhân tố trong mỗi lớp là phân bố chuẩn Gọi f1(x1, x2,…, xn) là hàm mật độ xác suất của các nhân tố (x1, x2,…, xn) trong lớp 1

và f2(x1, x2,…, xn) là hàm mật độ xác suất của các nhân tố (x1, x2,…, xn) trong lớp 2

Ta có hàm mật độ xác suất đối với hai pha nh sau:

1

1

2 2

1 1

1 ( , , , ) (2 ) exp

2

i j

1

1

2 2

1 1

1 ( , , , ) (2 ) exp

2

i j

Với giả thiết: kij (I) = kij (II) = kij

Và: kij =E x( ix i)(x jx j)

1 ij

ij

k

k − =

Trong đó:

n n

∆ = là mô men tơng quan của véc tơ xij

1

ij

k− là các thành phần của ma trận mô men tơng quan nghịch đảo

Xét tỉ số 1

2

f F f

- Nếu khả năng yếu tố dự báo xảy ra vào lớp thứ nhất lớn hơn khả năng xảy ra ở lớp thứ hai thì f >1 f , khi đó F>1.2

Trang 8

3 Phân tích trực giao

a) Hàm trực giao tự nhiên

- Đặt bài toán

Trong thực tế ta có thể khai triển một hàm không ngẫu nhiên bất kỳ f(t) thành chuỗi theo một hệ hàm {ϕk( )t }nào đó : ( ) ∑∞ ( )

=

= 1

k k k

t a t

Hệ hàm {ϕk( )t } là trực chuẩn trên đoạn [a,b] nếu :

∫ = =≠

b

a

k

k i t

d t t

khi 1

, khi 0 )

( ) ( ϕ ϕ

Khi đó hệ số khai triển Fourier ak được xác định bởi:

= b

a

k

a ( )ϕ ( ) , Nếu xấp xỉ khai triển f(t) bởi n thành phần đầu

( ) ( ) ∑ ( )

=

f t

f

1

ϕ

Khi đó sai số xấp xỉ tại mỗi giá trị đối số t là:

( )t f( )t f n( )t

δ

Sai số bình phương trung bình của phép xấp xỉ là:

( ) ( )

a

n

n f t f t 2dt

δ

Nếu hệ hàm {ϕn( )t } là trực chuẩn đầy đủ thì với mọi hàm f(t) bất kỳ ta có:

∑∞ =

=

b

a

k k

dt t f

1 2

Hệ hàm {ϕn( )t } có thể là hệ hàm lượng giác, hệ hàm Bessel, đa thức trực giao – Trebưsev, Ermit và các hệ hàm khác

Giả sử X(t) là một hàm ngẫu nhiên xác định trên khoảng [a,b] có kỳ vọng toán học bằng không, mx(t) = 0, và hàm tương quan cho trước R x(t1,t2) (, t1,t2)∈[ ]a,b

( )

n t } là hệ hàm trực chuẩn đầy đủ

Khi đó ta biểu diễn hàm ngẫu nhiên X(t) dưới dạng chuỗi Fourier

∑∞

=

= 1

) ( )

(

k k k

t A t

Các hệ số Fourier Ak là những đại lượng ngẫu nhiên

=b

a

k

k X t t dt

Trang 9

Nếu xấp xỉ X(t) bởi n thành phần đầu :

=

k k k

X

1

) ( )

Sai số bình phương trung bình của phép xấp xỉ là một đại lượng ngẫu nhiên:

a

n

n x t X t 2d t

) ( )

(

δ

Độ chính xác của phép xấp xỉ được xác định bởi

[ ]2

2

n

σ =

Nó phụ thuộc vào việc chọn hệ hàm {ϕn( )t } và số hạng tử n trong biểu thức xấp xỉ Vấn đề đặt ra là liệu có thể xác định được hệ hàm {ϕn( )t } khi cho trước số hạng tử

n và độ chính xác của phép xấp xỉ là 2

n

σ hay không?

Bài toán biểu diễn hàm ngẫu nhiên X(t) dưới dạng tổng của n số hạng

) ( )

(

1

t A t

k k

ϕ

=

Trong đó hệ hàm {ϕk( )t ,k =1 n} được gọi xác định sao cho

[ ]2

2

n

σ =

Đạt cực tiểu được gọi là khai triển hàm thành tổng các thành phần trực giao tự nhiên Hệ hàm {ϕk( )t ,k =1 n} được gọi là hệ hàm trực giao tự nhiên

=

= b

a

n

k k

1

2 2

=

k k

b

a

1

2 2

δ

n

k

b

a

k b

a

1

2 2

δ

∑∫∫

k

b

a

b

a

k k b

a

dt dt t t t X t X dt

t

X

[ ]=

=

n

k

b

a

b

a

k k x

b

a

R

) ( ) ( ) , ( )

Bài toán quy về tìm hệ hàm {ϕk( )t ,k =1 n} để tổng sau đạt cực đại

∑∫∫k n= b

a

b

a

k k

x t t t t dt dt

R

) ( ) ( ) ,

- Tìm các thành phần trực giao tự nhiên

Từ lý thuyết phương trình tích phân ta có:

a

R (1, 2)ϕ( 2) 2 λϕ(1)

Trang 10

Với λ là giá trị riêng và ϕ( )t1 là hàm riêng

∫∫

=b

a

b

a

k k x

k R (t1,t2)ϕ (t1)ϕ (t2)dt1dt2

λ

Tương ứng với mỗi giá trị riêng λk của hàm tương quan ta có một hàm riêng ϕk( )t

như vậy cần xác định được n hàm riêng ứng với n giá trị riêng có giá trị tuyệt đối lớn nhất đầu tiên λ1,λ2 , ,λn

Khi đó phương sai sai số của phép xấp xỉ được xác định bởi:

=

= b

a

n

k k x

n R t t dt

1

σ

a

b

a

k k x

k R (t1,t2)ϕ (t1)ϕ (t2)dt1dt2

b

a

k t dt D A t

X





2

) ( ) ( ϕ

Các giá trị riêng của hàm tương quan là phương sai của các hệ số Ak tương ứng của khai triển hàm ngẫu nhiên theo hệ các hàm riêng {ϕk( )t } Như vậy cần xác định được n hàm riêng ứng với n giá trị riêng có trị tuyệt đối lớn nhất đầu tiên

n

λ

λ

λ1, 2, ,

Khi đó phương sai sai số của phép xấp xỉ được xác định bởi:

=

= b

a

n

k k x

n R t t dt

1

σ

a

b

a

k k x

k R (t1,t2)ϕ (t1)ϕ (t2)dt1dt2

b

a

k t dt D A t

X





2

) ( ) ( ϕ

Các giá trị riêng của hàm tương quan là phương sai của các hệ số Ak tương ứng của khai triển hàm ngẫu nhiên theo các hàm riêng {ϕn( )t } Các giá trị riêng của hàm tương quan là những số dương

Độ chính xác của phép xấp xỉ:





=

b

a

b

a

n

n

dt t X M

dt t X t X M

) (

)]

( )

( [

2

2 2

=

a x

b

a

n

k k x

n

dt t t R

dt t t R

) , (

) ,

(

1 2

λ η

Giả sử hàm ngẫu nhiên X(t) có kỳ vọng toán học bằng 0, được cho tại một số hữu hạn điểm t1, t2,…, tm

( )

k t } là một hệ hàm nào đó cũng được cho tại t1, t2, …, tm

Ký hiệu X1=X(t1), …, Xm=X(tm) là các lát cắt của X(t)

Khi đó có thể biểu diễn X(t) như là một vectơ :

X=(X1, X2, , Xm)

Ngày đăng: 02/08/2014, 21:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w