1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thong ke

56 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

MụC LụC Các 1.1 1.2 1.3 phân bố xác suất th-ờng gặp thống kê Hàm Gamma, hàm Beta Hàm phân bè Gamma Phân bố , phân bố F ph©n bè Student 1.3.1 Ph©n bè χ2 1.3.2 Ph©n bè F 1.3.3 Phân bố Student (hay gọi ph©n bè T ) 1.3.4 Ph©n bè trung bình mẫu ph-ơng sai mẫu 1.3.5 Phụ lôc 3 11 11 12 13 15 18 Các 2.1 2.2 2.3 toán thống kê lệnh Excel Bài toán -ớc l-ợng khoảng tin cËy Mét vµi lệnh EXCEL sử dụng toán thống kê Bài toán kiểm định giả thiết thống kê 21 21 23 27 T-¬ng quan hồi quy 3.1 Hệ số t-ơng quan 3.2 T-ơng quan bội hồi quy tuyến tính 3.2.1 Ph-ơng trình mặt phẳng hồi quy 3.2.2 Cách tính mặt ph¼ng håi quy 3.2.3 HƯ sè t-¬ng quan béi t-ơng quan riêng 3.2.4 Tính håi quy b»ng lƯnh LINEST EXCEL 3.3 Kho¶ng tin cậy kiểm định giả thiết cho tham sè håi quy cña 39 39 42 42 45 46 49 51 thèng kª toán Nguyễn Ngọc Cừ Tài liệu dùng cho học sinh lớp cao học xây dựng ngành kĩ thuật công trình tr-ờng Đại học xây dựng Ch-ơng Các phân bố xác suất th-ờng gặp thống kê 1.1 Hàm Gamma, hàm Beta Các hàm mật độ phân bố xác suất th-ờng gặp thống kê nói chung hàm phức tạp, đ-ợc biểu diễn thông qua hàm đặc biệt: Hàm Gamma, hàm Beta Do tr-ớc tiên cần làm quen với hàm Gamma, Beta vài tính chất chúng + Bổ đề 1.1.1 Tích phân suy réng e−t tx−1 dt héi tơ víi mäi sè thùc x > 0 Chøng minh +∞ e−t tx−1dt I2 = ã Với < x < xÐt hai tÝch ph©n I1 = e−ttx−1 dt Tích phân I1 hội tụ với < x < 1, < t ≤ 1, ta cã e t t x1 Giải tích ta đà biÕt tÝch ph©n t1−x < t1−x dt hội tụ Tích phân I2 hội tụ lim et tx+1 = 0, suy víi t ®đ lín e−t tx−1 < t→+∞ +∞ tÝch ph©n 1 dt héi tơ VËy I1 = t2 vµ t2 vµ e−t tx−1 dt = I1 + I2 héi tô ã Với x t-ơng tự nh- trên, víi t ®đ lín et > tx+1 ⇒ e−t tx−1 < Vậy t tích phân đà cho hội tụ với x > Ch-ơng I Các phân bố th-ờng gặp thống kê Từ bổ đề trên, ng-ời ta định nghĩa + Định nghĩa 1.1.1 Hàm Gamma (x) = ettx1 dt đ-ợc xác định với mäi sè thùc x > Hµm Gamma cã tính chất quan trọng d-ới Chúng ta dựa vào tính chất để tính giá trị chóng cÇn +∞ Γ(1) = e−t dt = Γ(x + 1) = xΓ(x) víi mäi x > Thật vậy, cách tính tích phân tõng phÇn +∞ +∞ −t x Γ(x + 1) = txde−t e t dt = − 0 = −txe−t +∞ +∞ xtx−1e−t dt = + xΓ(x) + 0 Từ hai tính chất trên, quy nạp ta cã Víi x − k > 0, k lµ số tự nhiên (x) = (x 1)(x − 2) · · · (x − k)Γ(x − k) Suy Γ(n) = (n − 1)! víi mäi sè tù nhiªn n = 1, √ √ Chó ý r»ng Γ( 12 ) = π ThËt vËy ®æi biÕn u = t Γ( ) = +∞ e−t √ dt = t +∞ e−u du = √ π Suy víi mäi sè tù nhiªn n ∈ N∗ · · · · (2n − 1) √ (2n − 1)!! √ Γ(n + ) = π= π n 2 2n Γ(x + 1) = +∞ x→0+ x lim Γ(x) = lim x→0+ 1.1 Hµm Gamma, hµm Beta Bổ đề 1.1.2 Tích phân suy rộng tx1 (1 − t)y−1 dt héi tơ víi mäi sè thùc x > 0, y > Chøng minh • Tr-êng hỵp < x, y < 1, xÐt hai tÝch ph©n sau, víi ∀c ∈ (0, 1) c tx−1 (1 − t)y−1 dt vµ I2 = I1 = tx−1 (1 − t)y−1 dt c K TÝch ph©n I1 héi tơ v× t (1 − t) < 1−x víi số K thích hợp t c K tÝch ph©n dt héi tơ x > 1−x t Tích phân I2 hội tụ đ-ợc chứng minh t-ơng tự Suy tích phân đà cho x1 y1 tx−1 (1 − t)y−1 dt = I1 + I2 hội tụ ã Tr-ờng hợp ng-ợc lại, x y bổ đề trở thành hiển nhiên Từ bổ đề trên, ng-ời ta định nghĩa Định nghĩa 1.1.2 Hàm Beta B(x, y) = tx1 (1 t)y1 dt đ-ợc xác định với số thùc x > 0, y > Hµm Beta cã c¸c tÝnh chÊt sau B(x, y) > víi mäi sè thùc x > 0, y > B(x, y) = B(y, x) hàm tx1 (1 t)y1 ty1 (1 t)x1 có đồ thị ®èi xøng qua ®-êng th¼ng t = 12 B(x, 1) = tx−1 dt = víi mäi sè thùc x > x π/2 n B( , ) = 2 π/2 cosn−1 u du víi ∀n ∈ N∗ cosn−1 u du = −π/2 ThËt vËy víi phÐp ®ỉi biÕn t = sin2 u π/2 t B(x, y) = x−1 (1 − t) y−1 sin2x−2 u cos2y−2 u · sin u cos u du dt = π/2 sin2x−1 u cos2y−1 u du =2 Ch-¬ng I Các phân bố th-ờng gặp thống kê Thay x = 12 , y = n n ta đ-ợc B( , ) = 2 /2 cosn−1 u du Víi x > 0, y > B(x, y) = y−1 B(x, y − 1) x+y1 Thật sử dụng tích phân phần y1 x t (1 − t)y−2 dt x y−1 y − 1 x−1 t (1 − t)y−2 dt − = x x y−1 y−1 B(x, y − 1) − B(x, y) = x x B(x, y) = Suy tx−1 (1 − t)y−1 dt y−1 x+y1 B(x, y) = B(x, y 1) Từ suy ®.p.c.m x x Víi sè thùc x > y số tự nhiên bất kì, sử dụng tính chất liên tiếp tính chất 3, ta đ-ợc B(x, y) = = y1 y2 y1 B(x, y − 1) = · B(x, y − 2) = x+y−1 x+y−1 x+y−2 y−2 (y − 1)! y−1 · · B(x, 1) = x+y−1 x+y−2 x+2 x+1 x(x + 1) (x + y − 1) Víi m, n hai số tự nhiên bất kì, theo tính chất tính chất hàm Gamma (m 1)!(n − 1)! Γ(m)Γ(n) B(m, n) = = (m + n − 1)! Γ(m + n) Ta thõa nhËn kÕt qu¶ sau víi mäi sè thùc x > 0, y > B(x, y) = Γ(x)Γ(y) Γ(x + y) TÝnh chÊt nµy lµ sù më réng tÝnh chất cho hai số thực d-ơng 1.2 Hàm phân bố Gamma 1.2 Hàm phân bố Gamma Trong mục cần đến định lí đ-ợc biết lí thuyết xác suất nói hàm mật độ mật độ chung đại l-ợng ngẫu nhiên Định lí 1.2.1 Giả sử f (x) hàm mật độ Khi ®ã hµm mËt ®é cđa η = ϕ(ξ) b»ng g(y) = f ϕ−1 (y) · ϕ−1 (y) Gi¶ thiÕt song ánh khả vi miền giá trị đại l-ợng ngẫu nhiên Chẳng h¹n nÕu y = ϕ(x) = ax + b (a = 0) hàm bậc đại yb l-ợng ngẫu nhiên với f (x) hàm mật ®é cđa ξ Khi ®ã ϕ−1 (y) = vµ a hàm mật độ g(y) = () theo định lÝ trªn g(y) = f |a| y−b a T-ơng tự, ta có kết sau cho đại l-ợng ngẫu nhiên chiều Định lí 1.2.2 Giả sử song ánh :DT D R2 , T R2 khả vi điểm thuộc miền D (X, Y ) véc tơ ngẫu nhiên nhận giá trị D h(x, y) hàm mật độ véc tơ ngẫu nhiên Khi hàm mËt ®é cđa (U, V ) = ϕ(X, Y ) b»ng g(u, v) = h ϕ−1 (u, v) · |J (u, v)| J (u, v) Jacobien Chú ý hàm mật độ véc tơ ngẫu nhiên (X, Y ) đ-ợc gọi mật độ đồng thời mật độ chung hai đại l-ợng ngẫu nhiên X Y Jacobien đ-ợc xác định nh- sau: Kí hiệu (x, y) = ϕ−1 (u, v), Jacobien cña (x, y) theo (u, v) J (u, v) = ∂x ∂u ∂y ∂u ∂x ∂v ∂y ∂v = ∂x ∂y ∂x ∂y − ∂u v v u Ch-ơng I Các phân bố th-ờng gặp thống kê Chứng minh Định lí đ-ợc chứng minh dựa định lí đổi biến tích phân kép Xét E D tập cđa D Sư dơng phÐp ®ỉi biÕn (x, y) = (u, v) ta có xác suất để điểm ngẫu nhiªn (U, V ) thuéc tËp E b»ng P ((U, V ) ∈ E) = P ((X, Y ) ∈ ϕ−1 (E)) = h(x, y) dxdy ϕ−1 (E) h(ϕ−1 (u, v)) · |J (u, v)| dudv = E Do E D tập D suy h (ϕ−1 (u, v)) · |J (u, v)| lµ hàm mật độ chung U V Nhận xét sử dụng định lí 1.2.1, ta dễ dàng tìm đ-ợc hàm mật độ Y = X với X đại l-ợng ngẫu nhiên có ph©n bè chuÈn X ∈ N (0, 1) x2 Thật vậy, hàm mật độ X : (x) = √ e− , suy mËt ®é cđa 2π ξ = |X| : f (x) = x √2 e− 2π nÕu x > nÕu x áp dụng định lí 1.2.1, ta đ-ợc hàm mật độ Y = X = y 1 g(y) = √ e− y với y > Hàm mật độ g(y) tr-ờng hợp đặc biệt phân bố Gamma đ-ợc định nghĩa d-ới đây: Định nghĩa 1.2.1 Đại l-ợng ngẫu nhiên X đ-ợc gọi đại l-ợng ngẫu nhiên có phân bố Gamma X có hàm mËt ®é G(x, α, p) = αp · e−αx xp−1 , Γ(p) α > 0, p > 0, x > > 0, p > tham số d-ơng, x > biến hàm mật độ G(x, , p) 1.2 Hàm phân bố Gamma Hàm mật độ phân bố Gamma viết d-ới dạng khác đầy đủ G(x, α, p) =  p α −αx p−1   Γ(p) · e x   nÕu x > nÕu x ≤ 0 +∞ Γ(p) , suy hàm mật độ p không âm có tích phân R Do tính chất hàm mật độ, từ sau ta viết hàm mật độ phân bố Gamma d-ới dạng gọn Nhận xét tích phân ex xp1 dx = G(x, α, p) = c · e−αx xp−1 , c số thích hợp + Hằng số c công thức giá trị tích phân ex xp1dx để thuận tiện từ vỊ sau ta kÝ hiƯu X ∈ G(α, p) để nói X đại l-ợng ngẫu nhiên có phân bố Gamma với tham số p Mô men cÊp k cđa ph©n bè Gamma +∞ xk mk = αp · e−αx xp−1 dx = Γ(p) +∞ Γ(p + k) αp · e−αx xk+p−1 dx = k (p) (p) Vì kì vọng ph-ơng sai phân bố Gamma lần l-ợt m= p , α σ = m2 − m21 = p2 Γ(p + 2) p − = 2 (p) (1.1) Định lí sau sở để ta trình bày tiếp phân bố th-ờng gặp (phân bố 2, phân bố F , phân bố t) thống kê Định lí 1.2.3 NÕu X ∈ G(α, p1 ), Y ∈ G(α, p2 ) đại l-ợng ngẫu nhiên độc ®éc lËp Ngoµi lËp cã cïng tham sè α, r = X + Y f = X Y r ∈ G(α, p1 + p2 ) vµ hàm mật độ f f p1 (p1 + p2 ) · Γ(p1 )Γ(p2 ) (1 + f )p1 +p2 Ch-ơng I Các phân bố th-ờng gặp thống kê 10 Chứng minh Hàm mật độ (X, Y ) b»ng c · e−αx−αy xp1 −1 y p2 −1 §ỉi biÕn x = r sin2 ϕ, y = r cos2 ϕ, < r < +∞, < ϕ < π2 , ®ã Jacobien cđa (x, y) b»ng J (r, ϕ) = r sin 2ϕ Theo định lí 1.2.2, mật độ (r, ) c · e−αr rp1 +p2 −1 (sin ϕ)2p1 −1 (cos )2p21 , (1.2) điều chứng tỏ r ®éc lËp Suy r = X + Y vµ f = X = tg 2ϕ cịng Y ®éc lËp Tõ biĨu thøc (1.2) hiĨn nhiªn r ∈ G(α, p1 + p2 ) Cũng từ hàm mật độ chung biểu thức (1.2), hàm mật độ có dạng c · (sin ϕ)2p1−1 (cos ϕ)2p2 −1 (1.3) §Ĩ xácđịnh hàm mật độ f , ta sử dụng định lí 1.2.1 đổi biến = arctg f (hay f = tg2 ϕ cos ϕ = = + tg ϕ , 1+f sin ϕ = tgϕ = + tg ϕ f 1+f thay vào (1.3), ta thu đ-ợc hàm mật độ cña f b»ng c· f p1 −1 (1 + f )p1 +p2 Để tính xác hệ số c biểu thức hàm mật độ f , ta sử dơng , ®ã phÐp biÕn ®ỉi u = 1+f ∞ c= f p1 −1 df = (1 + f )p1 +p2 up2 −1 (1 − u)p1 −1 du = B(p1 , p2 ) = Γ(p1 )Γ(p2 ) Γ(p1 + p2 ) VËy hµm mËt độ f = X (th-ơng đại l-ợng ngẫu nhiên độc lập có Y phân bố Gamma cïng chung tham sè α) b»ng Γ(p1 + p2 ) f p1 −1 · ®.p.c.m Γ(p1 )Γ(p2 ) (1 + f )p1 +p2 Ch-ơng III T-ơng quan hồi quy 42 L-u ý để xây dựng quy tắc kiểm định việc đại l-ợng ngẫu nhiên có t-ơng quan hay không, ng-ời ta đà chứng minh (Xi , Yi ) cã ph©n bè chn chiỊu, với giả thiết (X, Y ) = √ r n−2 √ − r2 cã ph©n bè Student víi n−2 bËc tù 3.2 T-¬ng quan béi hồi quy tuyến tính 3.2.1 Ph-ơng trình mặt phẳng hồi quy Giả sử ta có k + đại l-ợng ngẫu nhiên , , , , k mô tả k + yếu tố ngẫu nhiên t-ợng Chúng ta dự đoán chẳng hạn theo đại l-ợng ngẫu nhiên l¹i ξ1 , ξ2 , ξ3, , ξk Nh- đà biết dự báo tốt hàm hồi quy mục ta dự đoán hàm tuyến tính đại l-ợng ngẫu nhiên l¹i (NÕu (η, ξ1 , ξ2 , , ξk ) có phân bố chuẩn hàm hồi quy hàm tuyến tính) Chúng ta giả thiết m = E(η) = 0, mi = E(ξi ) = víi i = 1, 2, k (Tr-ờng hợp ng-ợc lại ta tịnh tiến hệ trục toạ độ tới điểm (m, m1, m2 , , mk) Rk+1 ) Bµi toán dự báo thực chất tìm hệ số bi cho E(η − b1ξ1 − b2 ξ2 − bk k )2 (Đây ph-ơng pháp bình ph-ơng bé để xác định hÖ sè bi ), y = b1x1 + b12x2 + + b1k xk đ-ợc gọi mặt phẳng hồi quy tuyến tính, hệ số bi đ-ợc gọi hệ số hồi quy Giả sử đại l-ợng ngẫu nhiên , 1, , , k tồn ph-ơng sai (nói cách khác chúng thuộc không gian L2 víi tÝch v« h-íng ξ, η = E(ξη) = cov(, )) Khi hình chiếu vuông góc lên không gian sinh , , , ξk lµm cho biĨu thøc E(η − b1 ξ1 b2 bk k )2 đạt giá trị bé Gọi = b1 + à à à + bk k hình chiếu vuông góc lên không gian sinh , ξ2 , , ξk , ta cã: ξi , η − ηˆ = ξi , η − b1ξ1 − b2ξ2 − − bk ξk = 0, KÝ hiÖu c = (cij ) = (σi σj ij ) ∀ i = 1, , k (3.1) lµ ma trËn covarian (cÊp k +1) cña η, ξ1 , ξ2 , , k 3.2 T-ơng quan bội hồi quy tuyến tính vµ A lµ ma trËn covarian  c00 c01 c10 c11 c=  ck0 ck1 43 (cÊp k) cña ξ1 , ξ2, , ξk   c11 c12 · · · · · · c0k c21 c22 · · · · · · c1k   A=   · · · ckk ck1 ck2 · · ·  c1k c2k   ckk Gọi Cij phần phụ đại số t-ơng ứng với cij ma trận c, Rij phần phụ đại số t-ơng ứng với ij ma trận hệ số t-ơng quan r = ( ij ) Tất nhiên ta giả thiết tiếp C11 = det A = 0, điều ξ1 , ξ2, , ξk ®éc lËp tuyÕn tÝnh Khi hệ ph-ơng trình (3.1) viết c11b1 + c12 b2 + · · · + c1k bk = c01    c b + c b + · · · + c b = c 21 22 2k k 01  · · · · · · · · ·    ck1 b1 + ck2 b2 + · · · + ckk bk = c0k d-ới dạng ma trận (3.2) Ab = c1 , b = (b1 , · · · , bk ) véc tơ ẩn số, c1 = (c01, · · · , c0k ) lµ covarian cđa với đại l-ợng ngẫu nhiên , , , k Ph-ơng trình (3.2) có nghiệm nhÊt b = A−1 c1 hay bi = − C0i C00 i = 1, , k (3.3) ThËt vËy, nhËn xÐt r»ng det(c)c−1 = (Cij )T = (Cij ) hay (Cij )c = det(c)E, hµng thø nhÊt cđa (Cij ) : (C00, h) = (C00, C01, , C0k) vu«ng víi cét thø i, i ≥ cđa c, suy Ah = −C00c1 hay b = A−1 c1 = − C0i h ⇔ bi = − , C00 C00 i = 1, , k (3.4) C¸c hƯ sè hồi quy b1 , b2, , bk đ-ợc tính thông qua ma trËn covarian A nhê c«ng thøc (3.3) VËy ph-ơng trình mặt phẳng hồi quy tuyến tính k y= k bi xi = − i=1 i=1 C0i xi C00 Ch-ơng III T-ơng quan hồi quy 44 Tr-ờng hợp tổng quát (mi khác 0) k y =m+ k bi (xi − mi) = m − i=1 i=1 C0i (xi − mi) C00 (3.5) k Nh- vËy ph-ơng trình mặt phẳng hồi quy có dạng y = a + bi xi, ®ã i=1 k bi mi hệ số tự mặt phẳng hồi quy theo công thức a = m i=1 Ng-ời ta sử dụng mặt phẳng hồi quy để dự báo đại l-ợng ngẫu nhiên theo đại l-ợng ngẫu nhiên lại , , , , k cách thay giá trị , , , , k vào mặt phẳng hồi quy k bi (ξi − mi ), ®ã m = E(η), mi = E(ξi ) η ≈ m+ i=1 C¸c sai sè cđa dù b¸o cịng nh- sai sè hệ số hồi quy đ-ợc trình bày mơc sau NhËn xÐt r»ng ta cịng cã thĨ tÝnh c¸c hƯ sè håi quy b1, b2, , bk thông qua hệ số t-ơng quan ij = (i , ξj ) cña ma trËn r = ( ij ) Do cij = σi σj ij , ®ã i2 = D(i ) ph-ơng sai i , suy 10 11 σ 2σ · · · σk2 20 C0i = (−1)i σ0 σi k0 k1 = σ02 σ12 · · · σk2 σ0 σi R0i , 21 ··· ··· ··· 1i−1 1i+1 2i−1 2i+1 ··· ··· ki+1 ··· ki−1 Rij lµ phần phụ đại số ứng với C0i R0i = · C00 σi R00 2k VËy bi = − 1k i = 1, , k kk ij 3.2 T-ơng quan bội hồi quy tuyến tính 45 3.2.2 Cách tính mặt phẳng hồi quy Trong thống kê, thay cho giá trị ch-a biết đại l-ợng ngÉu nhiªn η, ξ1, ξ2 , , ξk , ng-êi ta xÐt mét mÉu ngÉu nhiªn kÝch th-íc n (yi , x1i, x2i , , xki), i = 1, 2, , n Ph-ơng trình mặt phẳng hồi quy đ-ợc tính dựa phần tử mẫu Ma trận covarian A công thức (3.3) ma trận covarian mẫu kì vọng m, mi công thức (3.5) kì vọng mẫu , i t-ơng øng XÐt mét vÝ dơ sau vỊ mèi quan hƯ sản l-ợng loại trồng (y) với chi phí đầu t- ban đầu (x2) l-ợng m-a đợt gieo trồng (x1) Để tìm hồi quy tun tÝnh cđa y theo x1 vµ x2 , ng-ời ta dựa vào bảng số liệu quan sát sản l-ợng giống nhiều địa ph-ơng cã thỉ nh-ìng, khÝ hËu kh¸c STT 10 11 12 13 Y 590 660 780 770 710 640 670 520 660 690 500 460 610 x1 58 52 133 179 98 72 72 43 62 67 64 33 57 x2 405 450 350 285 330 400 550 480 450 610 380 460 425 STT 14 15 16 17 18 19 20 21 22 23 24 25 26 Y 710 620 660 620 590 740 730 720 720 640 805 510 673 x1 62 54 48 86 74 95 44 53 77 46 123 26 62 x2 560 420 620 390 350 570 710 700 580 700 560 370 430 Cét SST 26 địa ph-ơng khác trồng giống ®ã Sư dơng lƯnh COV AR(Y, X) EXCEL ®Ĩ lËp ma trËn covarian   7507.100592 1852.139053 2870.872781 c = 1852.139053 1060.408284 −1448.16568  2870.872781 −1448.16568 14221.48669 A= 1060.408284 1448.16568 1448.16568 14221.48669 Ch-ơng III T-ơng quan hồi quy 46 Theo (3.3) c¸c hƯ sè b1 , b2 cđa mặt phẳng hồi quy đ-ợc tính thông qua ma trận nghịch đảo A1 Sử dụng lệnh MINV ERSE để tính ma trận nghich đảo ta đ-ợc b1 b2 = A−1 c1 = 0.0010954 0.0001115 0.0001115 0.00008167 1852.139053 2870.872781 = 2.348974 0.441063 Nh- vËy c¸c hƯ sè håi quy b1 = 2.348974, b2 = 0.441063 §Ĩ tÝnh hƯ sè tù ph-ơng trình mặt phẳng hồi quy y = a + b1 x1 + b2x2 , c«ng thøc (3.5), thay cho m, m1, m2 kì vọng mÉu y = AV ERAGE(y1 , , yn), x1, x2 y = 653.7692, x1 = 70.7692, x2 = 482.1154 ⇒ c = y − bi xi = 274.8907 i=1 Vậy ph-ơng trình mặt phẳng hồi quy y = 2.348974x1 +0.441063x2 +274.8907 3.2.3 Hệ số t-ơng quan bội t-ơng quan riêng Nh- đà trình bày mục đầu, ng-ời ta sử dụng ph-ơng trình mặt phẳng hồi quy để dự báo biết giá trị i , i = 1, 2, , k Bài toán dự báo dựa giả thiết = + 11 + β2 ξ2 + · · · + βk ξk + E() = D() = Các hệ số hồi quy đ-ợc tính toán (nh- ví dụ trên) -ớc l-ợng cho tham sè thùc α, β1 , β2, , βk a = α, ˆ b1 = βˆ1, b2 = βˆ2, , bk = βˆk cđa hµm håi quy y = α + β1x1 + β2x2 + · · · + βk xk Đại l-ợng ngẫu nhiên = a + b1 ξ1 + · · · + bk ξk ®-a giá trị dự báo, ta gọi giá trị hàm hồi quy Khi phần d- sai số dự báo Hệ số t-ơng quan đ-ợc gọi hệ số t-ơng quan bội, đo mức độ tác dụng tuyÕn tÝnh cña ξ1 , · · · , ξk lên Nhận xét tính hệ số hồi quy, phần đầu mục ta đà coi đại l-ợng ngẫu nhiên , , , , k nh- phần tử thuộc không 3.2 T-ơng quan bội hồi quy tuyến tính 47 gian L2 víi tÝch v« h-íng ξ, η = E(ξη) = cov(, )) Khi hệ số t-ơng quan bội (t-ơng quan ), kí hiệu R = (, ηˆ) b»ng R= ηˆ, η ηˆ, ηˆ + η − ηˆ ηˆ, ηˆ ||ˆ η|| cov(η, ηˆ) = = = = ||η|| · ||ˆ η || ||ˆ η|| · ||η|| ||ˆ η || · ||η|| ||ˆ η|| · ||η|| ||η|| (Trong kh«ng gian L2 ng-êi ta th-êng kÝ hiƯu |||| = , gọi chuẩn Hiển nhiên |||| ph-ơng sai Nãi c¸ch kh¸c R2 = D(ˆ η) D(η) (3.6) Trong số tài liệu thống kê ng-ời ta gọi R2 hệ số xác định hồi quy Nã ®o tØ lƯ phơ thc tun tÝnh cđa η lên biến ngẫu nhiên phụ thuộc , à à à , k Hệ số xác định R2 đ-ợc tính thông qua ma trận covarian c phần phụ đại số t-ơng ứng c Thật ph-ơng sai phần d- E( )2 = || − ηˆ||2 = η − ηˆ, η − ηˆ = η − ηˆ, η , ¸p dơng (3.4) b»ng η+ C01 ξ1 C0k ξk C00c00 C01 c01 C0k c0k det c det c +· · ·+ ,η = + +· · ·+ = = C00 C00 C00 C00 C00 C00 det A Suy R2 = ||ˆ η ||2 ||η − ηˆ||2 det c = − =1− 2 ||η|| ||η|| c00C00 (3.7) L-u ý r»ng ng-êi ta đà chứng minh ph-ơng sai phần d- E( ηˆ)2 = n−k−1 σ Do vËy n s2e = n n det c ||η − ηˆ||2 = n−k−1 (n − k − 1) det A (3.8) lµ -íc l-ợng không chệch ta gọi se = s2e sai số tiêu chuẩn hồi quy (Ta cịng kÝ hiƯu σ ˆ = s2e ) Ng-ời ta đà chứng minh hệ số hồi quy b1 , , bk -ớc l-ợng không chệch , , k sai số hệ số hồi quy đ-ợc suy từ ma trËn covarian cña b cov(b) = A−1 cov(c1 )A−1 = σ −1 A n (3.9) Ch-¬ng III T-ơng quan hồi quy 48 Khi khảo sát mối t-ơng quan ta tính hệ số t-ơng quan đại l-ợng ngẫu nhiên, chẳng hạn ij = ij (i , j ) Đó độ đo toàn phần mối t-ơng quan chúng (có kể đến mối quan hệ thông qua biến ngẫu nhiên khác: , , k ) Nh- ta biết phân tích đại l-ợng ngẫu nhiên thành tổng hai đại l-ợng ngẫu nhiên không t-ơng quan, chẳng hạn = ηˆ + (η − ηˆ) = ηˆ + η0.23 k , ξ1 = ξˆ1 + (ξ1 − ξˆ1 ) = + 1.23 k hình chiếu vuông góc xuốngL2 (2 , , ξk ) Ta coi η0.23 k = η − phần lại sau đà loại tác động tuyến tính , , k vào T-ơng tự 1.23 k = phần lại sau đà loại tác động tuyến tính , , k vào Khi hệ số t-ơng quan hai phần d- đ-ợc gọi hệ số t-ơng quan riêng (mối quan hệ nội tại, không phụ thuộc vào đại l-ợng ngẫu nhiên khác: , , k ) Kí hiệu 01.(23 k) = (ξ1 − ξˆ1 , η − ηˆ) Ta cã thÓ chứng minh (nh- đà tính hệ số t-ơng quan bội), hệ số t-ơng quan riêng 01.(23 k) −C10 = (ξ1 − ξˆ1 , η − ηˆ) = √ C00C11 (3.10) Mét c¸ch tỉng qu¸t hƯ sè t-ơng quan riêng i j HS t-ơng quan riªng: ij.( ) = −Cij Cii Cjj (3.11) (Trong Cij phần phụ đại số t-ơng ứng với cij cđa ma trËn covarian c) Trë l¹i víi vÝ dụ sản l-ợng giống trồng mục 3.2.2, áp dụng công thức từ (3.7) đến (3.11) mục này, ta tính hệ số t-ơng quan bội hệ số t-ơng quan riêng sản l-ợng giống nhân tố khác nh- l-ợng m-a, chi phí đầu t- ban đầu Ma trận phần phụ đại số ma trận covarian c (tính b»ng EXCEL, det c = 24541694726)   12983398.46 −30497670.32 −5726501.492 −1  16188781.03  (Cij ) = c = −30497670.32 98520220.59 det c −5726501.492 16188781.03 4530172.584 3.2 T-¬ng quan béi vµ håi quy tuyÕn tÝnh 49 det c 24541694726 = 0.748 = 1− c00 C00 √ 7507.100592 ∗ 12983398.46 hệ số t-ơng quan bội R = 0.748 = 0.865 Sai sè tiªu chn cđa håi quy, theo (3.8) Hệ số xác định R2 = − se = n det c = (n − k − 1) det A 26 det c = 46.2254 23 det A Để tính sai số -ớc l-ợng hƯ sè håi quy, ta sư dơng c«ng thøc (3.9), thay σ b»ng -íc l-ỵng s2e s2 s2 cov(b) = e A−1 = e n 26 = s2e 26 1060.408284 −1448.16568 −1448.16568 14221.48669 −1 = 0.001095359 0.00011154 0.00011154 8.16742E − 05 Thay se = 46.2254, suy sai sè cđa c¸c hƯ sè b1 , b2 D(b1 ) = 46.2254 √ √ 0.001095359 = 0.300035 26 D(b2 ) = 46.2254 √ √ 8.16742E − 05 = 0.08193 26 HÖ số t-ơng quan riêng Y X1 , sử dơng c«ng thøc (3.10) (Y, X1 ) = 01.(2) −C10 =√ = 0.8527 C00 C11 3.2.4 TÝnh håi quy b»ng lƯnh LINEST EXCEL NhËn xÐt r»ng nhiỊu tµi liệu thống kê công thức (3.6) đ-ợc viết d-ới dạng nD(ˆ η) n||ˆ η||2 D(ˆ η) SSR R2 = = = = D(η) nD(η) n||η||2 SST n ®ã SST = nD() = i=1 (yi y)2 đ-ợc gọi tổng bình ph-ơng chung yi y)2 đ-ợc gọi tỉng b×nh (total sum of squares), SSR = nD(ˆ η ) = ni=1 ( Ch-ơng III T-ơng quan hồi quy 50 ph-¬ng håi quy (regression sum of squares) L-u ý yi giá trị hàm hồi quy điểm (x1i, x2i , , xki) ứng với phần tö mÉu thø i yˆi = a + b1x1i + b2x2i + · · · + bk xki Gäi ei = yi yi sai số giá trị yi giá trị hàm hồi quy t-ơng ứng η||2 + ||η − ηˆ||2 kh«ng gian L2 , suy yˆi Khi ®ã tõ hƯ thøc ||η||2 = || tổng bình ph-ơng sai số SSE = ni=1 e2i = (yi − yˆi )2 tháa m·n hÖ thøc SST = SSR + SSE Nh- vËy hƯ sè x¸c định R2 = SSE SSR =1 SST SST tỉ số tổng bình ph-ơng hồi quy tổng bình ph-ơng chung, mức độ phụ thuộc tuyến tÝnh cđa η theo c¸c biÕn ξ1 , ξ2 , , k Đồng thời theo công thức (3.8) sai sè cña håi quy se = n i=1 e2i = n−k−1 SSE n−k−1 (3.12) Trong EXCEL, lÖnh LIN EST (Y, X, 1, 1) cho phép tính đồng thời tất hệ số hồi quy, tổng bình ph-ơng hồi quy, tổng bình ph-ơng sai số nh- hệ số xác định sai số tiêu chuẩn hồi quy Nó thuận lợi cho việc giải toán hồi quy Chú ý nh- lệnh nhân ma trận hay tính ma trận nghịch đảo, lệnh LIN EST đòi hỏi ta nhấn đồng thời phím CTRL+SHIFT+ENTER kết đ-ợc cho d-ới dạng bảng gồm hàng Hàng thứ hệ số hồi quy, theo thứ tự từ trái sang phải, lần l-ợt hệ số bk , bk1 , , b1 hƯ sè tù a n»m ë ci hµng Hµng thứ hai sai số hệ số hồi quy t-¬ng øng, kÝ hiƯu sbk , sbk−1 , , sb1 vµ sa Hµng thø ba chØ gåm phần tử: hệ số xác định R2 sai số tiêu chuẩn Hàng thứ t- để giúp ta giải toán kiểm định đồng thời hệ số hồi quy 0, ta nói tới phần sau Hàng cuối gồm phần tử: tổng bình ph-ơng hồi quy SSR tổng bình ph-ơng sai số SSE 3.3 Khoảng tin cậy kiểm định giả thiÕt cho c¸c tham sè cđa håi quy 51 Quay lại ví dụ sản l-ợng giống trồng mơc 3.2.2, sư dơng lƯnh LIN EST (Y, X, 1, 1), ta cã b¶ng kÕt qu¶ 0.441063 0.08193 0.7482 34.1724 146038.4642 2.348974 0.300035 46.2254 23 49146.151 274.89068 52.1415458 Tõ b¶ng ta đọc đ-ợc kết đà tính tr-ớc đây: b2 = 0.441063, b1 = 2.348974 a = 274.89068 Các sai số t-ơng ứng với hệ số håi quy sb2 = 0.08193, sb1 = 0.300035, vµ sa = 52.1415458 = 0.7482, sai sè tiªu chuÈn se = 46.2254 Hệ số xác định có hàng thứ ba: R√ Suy hƯ sè t-¬ng quan béi R = 0.7482 = 0.865 Tổng bình ph-ơng hồi quy SSR = 146038.4642 vµ SSE = 49146.151 NhËn xÐt r»ng hƯ số t-ơng quan riêng tính trực tiếp từ bảng kết Có thể tính hệ số t-ơng quan riêng công thức (3.10), (3.11) tính hệ số t-ơng quan phần d- nh- đà trình bày định nghĩa hệ số t-ơng quan riêng 3.3 Khoảng tin cậy kiểm định giả thiết cho tham số hồi quy Các vấn đề khoảng tin cậy kiểm định giả thiết cho tham số hồi quy dựa định lí sau Định lí 3.3.1 Giả sử y = x1 + β2 x2 + · · · + βk xk + hàm hồi quy hệ số håi quy bk , bk−1 , , b2, b1 , a -ớc l-ợng tìm đ-ợc ph-ơng pháp bình ph-ơng bé đà trình bày mục trªn KÝ hiƯu sbk , sbk−1 , , sb2 , sb1 , sa sai số tiêu chuẩn hệ số hồi quy t-ơng ứng Khi ta = a−α , sa tbi = bi − βi , sbi i = 1, 2, , k đại l-ợng ngẫu nhiên có phân bố Student với n k − bËc tù Ch-¬ng III T-¬ng quan hồi quy 52 Khoảng tin cậy với ®é tin cËy − α cho c¸c hƯ sè hồi quy Theo định lí để tìm khoảng tin cËy víi ®é tin cËy − α cho hƯ số hồi quy i, tra phân vị mức ph©n bè Student víi n − k − bËc tù LÖnh T INV (α, n − k − 1) EXCEL cho phân vị t hay P( bi − βi < tα) = P (|tbi | < tα ) = − α sbi Suy |bi − i| < sbi t Vậy khoảng tin cậy với độ tin cËy − α cho hÖ sè håi quy βi bi − sbi tα < βi < bi + sbi t Chẳng hạn phân vị mức = 0.05 phân bố Student với 23 bậc tự T INV (0.05, 23) = 2.068655 Do vËy kho¶ng tin cËy víi ®é tin cËy 95% cho hƯ sè håi quy ví dụ sản l-ợng giống trång, môc 3.2.2 0.441063 − 0.08193 ∗ 2.068655 < β2 < 0.441063 + 0.08193 ∗ 2.068655 hay 0.2716 < β1 < 0.6105 Kiểm định giả thiết cho tham số hồi quy Cũng dựa sở tbi cã ph©n bè Student víi n − k − bậc tự do, ta kiểm định giả thiết liên quan tới hệ số hồi quy i , i = 1, 2, , k, theo lÝ thuyÕt kiểm định đà biết ch-ơng tr-ớc (a) Bài toán 1: Kiểm định giả thiết không (H) : i = βi,0 víi ®èi thiÕt (K) : βi = βi,0 Quy tắc: Bác bỏ (H) tqs = bi i,0 > t , sbi t đ-ợc xác định tõ hÖ thøc P (|t| ≥ tα ) = α (t cã ph©n bè Student víi n − k − bậc tự do.) 3.3 Khoảng tin cậy kiểm định giả thiết cho tham số hồi quy 53 (b) Bài toán 2: Kiểm định (H) : i = i,0 (H) : i i,0 với đối thiết (K) : i > i,0 Quy tắc: Bác bỏ (H) nÕu tqs = bi − βi,0 > tα , sbi t đ-ợc xác định từ hệ thức P (t ≥ tα ) = α (t cã ph©n bè Student víi n − k − bËc tù do.) (c) Bài toán 3: Kiểm định (H) : i = i,0 (H) : i i,0 với đối thiết (K) : i < i,0 Quy tắc: Bác bỏ (H) nÕu tqs = bi − βi,0 < −tα, sbi t đ-ợc xác định từ hệ thức P (t ≥ tα ) = α (t cã ph©n bè Student víi n − k − bËc tù do.) Đặc biệt ta nghi ngờ hàm hồi quy không phụ thuộc vào biến Xi Khi ta kiểm định giả thiết không (H) : i = Quay trở lại ví dụ sản l-ợng gièng c©y trång mơc 3.2.2, víi møc ý nghÜa α = 0.05 hÃy kiểm định giả thiết không (H) : β2 = víi ®èi thiÕt (K) : β2 > Đây toán kiểm định phía, phân vị mức = 0.05 phân bố Student với 23 bậc tự đ-ợc xác định từ hệ thức P (t ≥ tα) = 0.05 Sư dơng lƯnh T INV (0.1, 23) = 1.71387, phân vị phía t0.05 = 1.71387 Giá trị quan sát tqs = b2 0.441063 = 5.38 > 1.71387 = sb2 0.081929 Do vËy ta bác bỏ gải thiết không (H) : = NhËn xÐt r»ng thËm chÝ víi møc ý nghÜa α = 0.01, phân vị phía t0.01 = 2.45 nhỏ nhiều so với giá trị quan sát tqs = 5.38 Ta có đủ sở để bác bỏ giả thiết không Ch-ơng III T-ơng quan hồi quy 54 Kiểm định giả thiết đồng thời cho tham số hồi quy Kiểm định giả thiết kh«ng H0 : β1 = β2 = · · · = k = với đối thiết Tồn nhÊt mét i : βi = H1 : NÕu giả thiết H0 đúng, hàm hồi quy tuyến tính y = số Nhvậy biến độc lập Xi ảnh h-ởng (tuyến tính) tới Y Kiểm định giả thiết H0 thực chất kiểm định tính phụ thuộc tuyến tính biến Ta biết r»ng SST = SSR + SSE, ®ã SSR nh»m giải thích biến động hồi quy (sự phụ thuộc tuyến tính biến phụ thuộc vào biến độc lập), SSE phần biến động hồi quy Do biến ngẫu nhiên không tồn quan hệ tuyến tính SSR t-ơng ®èi nhá so víi SSE, nãi c¸ch kh¸c tØ sè SSR SSE lớn, khả bác bỏ giả thiết không (quan hệ tuyến tính) cao Vì để tạo thống kê nh- ng-ời ta sư dơng kÕt qu¶ sau: NÕu gi¶ thiÕt H0 : β1 = β2 = · · · = βk = ®óng, ®ã F = SSR/k SSE/(n − k − 1) cã ph©n bè F víi (k, n − k − 1) bËc tù VËy ta cã quy t¾c ë møc α (møc ý nghÜa cđa kiĨm định ) Bác bỏ H0 Fqs = SSR/k > Fk,n−k−1,α , SSE/(n − k − 1) ®ã Fk,nk1, phân vị phân bố F mức P (F > Fk,n−k−1,α ) = α NhËn xÐt r»ng R2 = Fqs = SSR SST =1− SSE , SST suy giá trị quan sát nk1 R2 SSR/k = · SSE/(n − k − 1) k − R2 Giá trị quan sát Fqs có mặt bảng kết (dòng thứ t-) lệnh LIN EST ®· nãi tíi mơc 3.2.4 3.3 Kho¶ng tin cậy kiểm định giả thiết cho tham số hồi quy 55 Trở lại ví dụ sản l-ợng giống trồng, giá trị Fqs = 34.1724 (trang 51), hc ta cã thĨ tÝnh trùc tiÕp Fqs = 146038.5/2 SSR/k = = 34.1724 SSE/(n − k − 1) 49146.15/23 Víi møc ý nghÜa 1%, Fk,n−k−1,α = F2,23,0.01 = 5.66, nhá h¬n rÊt nhiỊu so víi Fqs = 34.1724, ta bác bỏ giả thiết H0 Kiểm định giả thiết đồng thời cho tập tham số hồi quy Giả thiết ta cần kiểm định k1 tham số hồi quy H0 : (Víi ®èi thiÕt H1 : β = β = · · · = β k1 = Tån t¹i Ýt nhÊt mét i, ≤ i ≤ k1 : βi = 0.) NÕu gi¶ thiÕt H0 đúng, biến X1 , X2 , , Xk1 ảnh h-ởng tới Y , ta tiến hành -ớc l-ợng hồi quy Y thông qua biến Xk1 +1 , Xk1 +2 , , Xk y = α∗ + βk∗1 +1 xk1 +1,i + · · · + βk∗xki Khi ®ã ta hy vọng tổng bình ph-ơng sai số SSE mẫu håi quy cị kh¸c nhiỊu so víi SSE ∗ cđa mÉu håi quy míi Thèng kª (SSR∗ − SSE)/k1 F = SSE/(n − k − 1) cã ph©n bè F víi (k1 , n − k − 1) bËc tù Vậy ta có quy tắc mức Bác bá H0 nÕu Fqs = (SSE ∗ − SSE)/k1 > Fk1 ,n−k−1,α SSE/(n − k − 1) Dù báo Với mẫu hồi quy nh- đà nói trên, kí hiệu a, b1, b2, , bk -ớc l-ợng theo ph-ơng pháp bình ph-ơng bé hệ sè håi quy, ®ã víi mÉu thø n + biến độc lập: (x1, x2 , , xk) 56 Ch-ơng III T-ơng quan hồi quy (nói cách khác đại l-ợng ngẫu nhiên , , , k lần l-ợt nhận giá trị x1, x2 , , xk ) dự báo biến phụ thuộc đ-ợc tính cách thay vµo hµm håi quy ηˆ = a + b1x1 + b2x2 + · · · + bk xk Trë lại ví dụ quen thuộc l-ợng m-a đợt gieo trồng x1 = 80 chi phí đầu t- x2 = 600 sản l-ợng thu đ-ợc, dù b¸o Yˆ = a + b1 x1 + b2 x2 = 727.45 Ngoài với giả thiết phân bố chuẩn i ta tính khoảng tin cậy cho dự báo nói

Ngày đăng: 13/10/2021, 15:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w