Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
511,54 KB
Nội dung
Thống kê toán Mẫu ngẫu nhiên phân bố mẫu Xét mẫu ngẫu nhiên (X1 , X2 , , Xn ) tơng ứng với đại lợng ngẫu nhiên X D(X) = E(X) = m, Gọi đại lợng ngẫu nhiên: P ( = xi ) = n với i = 1, 2, , n Khi E(), D() đợc gọi đặc trng mẫu Ngời ta kí hiệu X = E() kì vọng mẫu S = D() phơng sai mẫu Hiển nhiên X1 + X2 + + Xn X= = n n n S2 = E(X) = n n i=1 Xi i=1 n n (Xi X)2 = n i=1 n n2 E(Xi ) = m, D(X) = i=1 Xi2 X n D(Xi ) = i=1 n Để tính kì vọng phơng sai mẫu, ta sử dụng n n i=1 (Xi X)2 = n (Xi X)2 = n i=1 Xi2 X Suy E(S ) = = n E n n i=1 n n i=1 (m2 + ) m2 + Kí hiệu S2 = n S2 = n1 n1 Khi E(S ) = S đợc gọi là phơng sai mẫu điều chỉnh n i=1 n E(Xi2 ) E(X ) = = n1 n n i=1 (Xi X)2 n n1 ã = n1 n E(X) = m = E(X), E(S ) = = D(X), Nhận xét X hội tụ theo xác suất mà hội tụ hầu chắn tới m = E(X) S , S hội tụ hầu chắn (suy hội tụ theo xác suất) tới n 23 http://www.ebook.edu.vn Các hàm phân bố thờng gặp thống kê Hàm Gamma, Beta tính chất hàm Gamma, Beta A Tích phân sau hội tụ với x > 0, y > + (x) = et tx1 dt, B(x, y) = 0 tx1 (1 t)y1 dt Tách (x) thành hai tích phân + (x) = et tx1 dt = + et tx1 dt + et tx1 dt = I1 + I2 1 Tích phân I1 hội tụ với < x < 1, < t 1, ta có et tx1 < t1x t x+1 t x1 Tích phân I2 hội tụ limt+ e t = 0, suy với t đủ lớn e t < t2 B Tích phân sau hội tụ với x > 0, y > B(x, y) = tx1 (1 t)y1 dt Tách (x) thành hai tích phân B(x, y) = tx1 (1 t)y1 dt = c tx1 (1 t)y1 dt + c tx1 (1 t)y1 dt (1) = (x + 1) = x(x) Thật với x > 0, xét + (x + 1) = et tx dt = limx0+ (x) = limx0+ (x+1) x + tx det = tx et |+ + + xtx1 et dt = x(x) = + Với x k > 0, k số tự nhiên (x) = (x 1)(x 2) ã ã ã (x k)(x k) suy (n) = (n 1)! Chú ý ( 12 ) = , suy (2n 1)!! ã ã ã ã (2n 1) (n + ) = = 2n 2n Ta công nhận kết sau với số thực x > 0, y > B(x, y) = (x)(y) (x + y) Phân bố Gamma, Beta Nếu Xi N (mi , i2 ), i = 1, 2, , n độc lập, trung bình mẫu X= X1 + X2 + ã ã ã + Xn N (m, ) n m= m1 + m2 + ã ã ã + mn , n 24 i2 = 12 + 22 + ã ã ã + n2 n http://www.ebook.edu.vn Phân bố Y = X với X N (m, ) Hàm mật độ Y 2y)1 e g(y) = (2 (y+m2 ) 2 y y em + em Nếu m = y 1 e 22 y 2 Phân bố Y = X trờng hợp đặc biệt phân bố Gamma: G(y, , p) = const ã ey y p1 g(y) = Phân bố Gamma phân bố có hàm mật độ G(x, , p) = p ã ex xp1 , (p) > 0, p > 0, x > Mô men cấp k phân bố Gamma + xk mk = p ã ex xp1 dx = (p) + p (p + k) ã ex xk+p1 dx = k (p) (p) Vì kì vọng phơng sai phân bố Gamma lần lợt m= p , = m2 m21 = (p + 2) p p2 = 2 (p) (1) Bài tập Giả sử X phân bố đoạn [0, 1] Chứng minh Y = ln X có phân bố Gamma với tham số = 1, p = Phân bố Beta phân bố có hàm mật độ B(x, , ) = [B(, )]1 ã x1 (1 x)1 = ( + ) ã x1 (1 x)1 , ()() < x < Đặc biệt B(x, 1, 1) = x hàm mật độ phân bố đoạn [0, 1] Bài tập H y tính mô men cấp k phân bố Beta ( B(+k,) B(,) ) Từ suy kì vọng phơng sai (m = + , = (+)2 (++1) ) Bài tập Giả sử X Y độc lập có phân bố Beta với tham số (1 , ) (2 , ) tơng ứng Chứng minh XY có có phân bố Beta với tham số (2 , + ), = + Hớng dẫn: Xét phép biến đổi u = xy, v = x Khi Jacôbiên v1 Tích phân hàm mật độ chung (U, V ) theo v từ u đến ta đợc mật độ XY X có phân bố Bài tập Giả sử X G(1 , 1) Y G(2 , 1) độc lập có phân bố Gamma Khi u = X+Y Beta với tham số (1 , ) x , v = y Tích phân hàm mật độ chung theo v từ đến Hớng dẫn: Xét phép biến đổi u = x+y Định lí Nếu X G(, p1 ), Y G(, p2 ) độc lập, r = X + Y f = r G(, p1 + p2 ) hàm mật độ f X Y độc lập Ngoài (p1 + p2 ) f p1 ã (p1 )(p2 ) (1 + f )p1 +p2 Chứng minh Hàm mật độ (X, Y ) Đổi biến x = r sin2 , y = r cos2 , r sin Mật độ (r, ) c ã exy xp1 y p2 < r < +, < < 2, Jacobien (x, y) J(r, ) = c ã er rp1 +p2 (sin )2p1 (cos )2p2 , (2) điều chứng tỏ r độc lập Suy r = X + Y f = X Y = tg độc lập Từ biểu thức (2) hiển nhiên r G(, p1 + p2 ) Để xác định hàm mật độ f , ta sử dụng phép đổi biến = arctg f , ta thu đợc kết f p1 (p1 + p2 ) ã (p1 )(p2 ) (1 + f )p1 +p2 Chú ý với phép biến đổi u = 1+f , up2 (1 u)p1 du = 25 f p1 (1+f )p1 +p2 df http://www.ebook.edu.vn Phân bố Nếu Xi N(0, 1), i = 1, 2, , n độc lập, phân bố X12 + X22 + ã ã ã + Xn2 đợc gọi phân bố với n bậc tự Ngời ta thờng kí hiệu (n) lớp đại lợng ngẫu nhiên có phân bố với n bậc tự Đây trờng hợp đặc biệt phân bố Gamma ( = 12 , p = n2 ) với hàm mật độ n x n G(x, , ) = n n ã e x , 2 2 ( ) x > Do đẳng thức (1), kì vọng phơng sai phân bố (n) lần lợt = 2n m = n, Phân bố F Nếu X1 (m), X2 (n) độc lập, phân bố F = m X1 n X2 đợc gọi phân bố F với (m, n) bậc tự Mật độ X1 X2 m ( m+n f 2 ) m n ã ( )( ) (1 + f ) m+n Mật độ phân bố F với (m, n) bậc tự m n m m ã ( m+n x 2 ) m n ã ( )( ) (1 + mx ) m+n n Phân bố Student (hay gọi phân bố t) Nếu X (n) Y N (0, 1) độc lập, phân bố Y T = n X đợc gọi phân bố T (hay phân bố Student) với n bậc tự Phân bố đồng thời (Y, X) c ã e y2 x n e x Đổi biến y = r sin , x = r2 cos2 , < r < +, < < J(r, ) = 2r2 cos Mật độ (r, ) c ã e r2 2, Jacobien (x, y) rn (cos )n1 , điều chứng tỏ r độc lập Chú ý hệ số c c(cos )n1 c = [B( 12 , n2 )]1 Để xác định hàm mật độ T , ta sử dụng phép đổi biến ny t t = = ntg hay = arctg , x n ta đợc hàm mật độ phân bố T với n bậc tự ã S(t, n) = nB Nếu X n , 2 t2 1+ n n+1 ( n+1 ) = n( n2 )( 12 ) t2 1+ n n+1 (n) Y N (m, ) độc lập, Y m T = n X có phân bố Student với n bậc tự Kí hiệu S(n) lớp đại lợng ngẫu nhiên có phân bố Student với n bậc tự 26 http://www.ebook.edu.vn Phân bố trung bình mẫu phơng sai mẫu Nếu Xi N (m, ), i = 1, 2, , n độc lập, X= X1 + X2 + ã ã ã + Xn N n m, n n n S = S (n 1) Thật vậy, kí hiệu X = (X1 , , Xn )T xét phép biến đổi trực giao Y = AX với ( 1n , 1n , ã ã ã , 1n ) hàng thứ A Khi (a) Y1 = X n (b) Y12 + ã ã ã + Yn2 = X12 + ã ã ã + Xn2 = (Xi X)2 + nX Y22 + ã ã ã + Yn2 = (n 1)S (c) Với véc tơ m = (m, m, , m), ta có A(X m) = Y (m n, 0, , 0) = (Y1 m n, Y2 , , Yn ) Suy (Y1 m n)2 + Y2 + ã ã ã + Yn2 = (X1 m)2 + (X2 m)2 + ã ã ã + (Xn m)2 Biết hàm mật độ X c ã e Vậy mật độ Y (xi m)2 22 (y1 m n)2 +y2 +ããã+yn 22 c ã e 2 Điều chứng tỏ Y1 = X n N (m n, ), Yi N (0, ), i = 2, , n độc lập Y + ã ã ã + Yn2 (n 1)S = (n 1) Bây ta suy hệ quan trọng: T có phân bố Student với n bậc tự do, với T = X m X m n= n S S Thật T thơng đại lợng ngẫu nhiên T = Xm n N (0, 1) S n X m n1 n: nS 2 = (n1)S 2 27 (n 1) http://www.ebook.edu.vn Khoảng tin cậy cho giá trị trung bình (a) Mẫu có phân bố chuẩn với phơng sai đ cho Khoảng tin cậy cho giá trị trung bình, với độ tin cậy X u < m < X + u , n n u đợc xác định từ hệ thức P (|u| u ) = , u N(0, 1) (b) Mẫu có phân bố chuẩn với phơng sai cha biết Khoảng tin cậy cho giá trị trung bình, với độ tin cậy S S X t < m < X + t , n n t đợc xác định từ hệ thức P (|t| t ) = (t có phân bố Student với n bậc tự do.) Nếu kích thớc mẫu đủ lớn (n 30), phân bố mẫu không phân bố chuẩn, nhiên áp dụng luật giới hạn trung tâm ta sử dụng công thức sau để tính khoảng tin cậy cho giá trị trung bình, độ tin cậy S S X u < m < X + u , n n u đợc xác định từ hệ thức P (|u| u ) = , u N(0, 1) Khoảng tin cậy cho xác suất Cho biến cố ngẫu nhiên với xác suất p cấn phải ớc lợng Giả thiết p = nk tần suất xuất biến cố (Kích thớc mẫu đủ lớn - thông thờng n 40) Khi với độ tin cậy , khoảng tin cậy cho xác suất u p n u p(1 p) < p < p + n p(1 p), u đợc xác định từ hệ thức P (|u| u ) = , u N(0, 1) Khoảng tin cậy cho phơng sai phân bố chuẩn Mẫu có phân bố chuẩn với phơng sai cấn phải ớc lợng Với độ tin cậy , khoảng tin cậy cho nS nS 2 < < 21 2 đợc xác định từ hệ thức P (2 > ) = , (2 đại lợng ngẫu nhiên có phân bố với (n 1) bậc tự do) 28 http://www.ebook.edu.vn Khoảng tin cậy cho hiệu giá trị trung bình phân bố chuẩn 6.1 Trờng hợp phơng sai biết Gọi (X1 , X2 , , Xm ) mẫu ngẫu nhiên tơng ứng với đại lợng ngẫu nhiên X N (m1 , 12 ), (Y1 , Y2 , , Yn ) mẫu ngẫu nhiên tơng ứng với đại lợng ngẫu nhiên Y N (m2 , 22 ) Các tham số m1 , m2 cha biết 12 , 22 tham số đ biết Giả thiết tiếp đại lợng ngẫu nhiên X1 , X2 , , Xm , Y1 , Y2 , , Yn độc lập Dễ dàng nhận thấy E(X Y ) = m1 m2 D(X Y ) = D(X) + D(Y ) = 12 + m n Suy u= (X Y ) (m1 m2 ) 12 m + 22 n có phân bố chuẩn, thuộc lớp N(0,1) Khoảng tin cậy cho hiệu giá trị trung bình m1 m2 với độ tin cậy (X Y ) u 12 + < m1 m2 < (X Y ) + u m n u đợc xác định từ hệ thức P ((|u| u ) = , 12 + 2, m n u N (0, 1) Nếu n1 , n2 đủ lớn ( 30), ta xấp xỉ công thức cho hiệu giá trị trung bình m1 m2 trờng hợp mẫu đ cho không tuân theo phân bố chuẩn, sử dụng S1 S2 thay cho , tơng ứng công thức 6.2 Trờng hợp phơng sai cha biết Gọi (X1 , X2 , , Xm ) mẫu ngẫu nhiên tơng ứng với đại lợng ngẫu nhiên X N (m1 , ), (Y1 , Y2 , , Yn ) mẫu ngẫu nhiên tơng ứng với đại lợng ngẫu nhiên Y N(m2 , ) (Chúng có phơng sai nhau) Các tham số m1 , m2 , cha biết giả thiết đại lợng ngẫu nhiên X1 , X2 , , Xm , Y1 , Y2 , , Yn độc lập Dễ dàng nhận thấy E(X Y ) = m1 m2 2 D(X Y ) = D(X) + D(Y ) = + = m n m+n mn Suy u= (X Y ) (m1 m2 ) m+n mn có phân bố chuẩn, thuộc lớp N(0,1) Dễ dàng chứng minh đợc + nSY2 mSX m+n2 29 http://www.ebook.edu.vn ớc lợng không chệch Ngời ta chứng minh đợc (thay thống kê ớc lợng nó) (X Y ) (m1 m2 ) mn(m + n 2) (X Y ) (m1 m2 ) t= = ã +nS 2 mSX m+n m+n mSX + nSY2 Y m+n2 mn có phân bố Student với m + n bậc tự Đặc biệt hai giá trị trung bình m1 = m2 t= mn(m + n 2) ã m+n X Y mSX + nSY2 có phân bố Student với m + n bậc tự Khoảng tin cậy cho hiệu giá trị trung bình m1 m2 với độ tin cậy n Mẫu {Xi }m i=1 N (m1 , ) {Yi }i=1 N(m2 , ), có phân bố chuẩn với phơng sai cha biết Giả thiết phần tử mẫu độc lập (X Y ) S.t m+n < m1 m2 < (X Y ) + S.t mn kí hiệu S = m+n , mn mSX + nSY2 t đợc xác định từ hệ thức m+n2 P (|t| t ) = (t có phân bố Student với m + n bậc tự do.) Kiểm định giả thiết giá trị trung bình (trờng hợp biết) Bài toán quy tắc kiểm định Mẫu có phân bố chuẩn với phơng sai đ cho Kiểm định giả thiết kì vọng mẫu, mức ý nghĩa (H) : m = m0 , với đối thiết (K) : m = m0 X m0 n = |uqs | > u , Quy tắc: Bác bỏ (H) u đợc xác định từ hệ thức P (|u| u ) = , u N(0, 1) Bài toán quy tắc kiểm định Mẫu có phân bố chuẩn với phơng sai đ cho Kiểm định giả thiết kì vọng mẫu, mức ý nghĩa (H) : m = m0 , với đối thiết (K) : m > m0 X m0 n = uqs > u , đợc xác định từ hệ thức P ((u u ) = , u N (0, 1) Quy tắc: Bác bỏ (H) u 30 http://www.ebook.edu.vn Mẫu có phân bố chuẩn với phơng sai đ cho Kiểm định giả thiết kì vọng mẫu, mức ý nghĩa (H) : m m0 , với đối thiết (K) : m > m0 X m0 n = uqs > u , đợc xác định từ hệ thức P ((u u ) = , u N (0, 1) Quy tắc: Bác bỏ (H) u Mẫu có phân bố chuẩn với phơng sai đ cho Kiểm định giả thiết kì vọng mẫu, mức ý nghĩa (H) : m = m0 (H) : m m0 với đối thiết (K) : m > m0 X m0 n = uqs > u , đợc xác định từ hệ thức P ((u u ) = , u N (0, 1) Quy tắc: Bác bỏ (H) u Hoàn toàn tơng tự, xét toán kiểm định phía Bài toán Mẫu có phân bố chuẩn với phơng sai đ cho Kiểm định giả thiết kì vọng mẫu, mức ý nghĩa (H) : m = m0 (H) : m m0 với đối thiết (K) : m < m0 X m0 n = uqs < u , đợc xác định từ hệ thức P ((u u ) = , u N (0, 1) Quy tắc: Bác bỏ (H) u 31 http://www.ebook.edu.vn Kiểm định giả thiết giá trị trung bình (trờng hợp cha biết) Mẫu có phân bố chuẩn với phơng sai cha biết Kiểm định giả thiết kì vọng mẫu, mức ý nghĩa (a) Bài toán (H) : m = m0 với đối thiết (K) : m = m0 Quy tắc: Bác bỏ (H) X m0 n > t , S t đợc xác định từ hệ thức P (|t| t ) = (t có phân bố Student với n bậc tự do.) (b) Bài toán (H) : m = m0 (H) : m m0 với đối thiết (K) : m > m0 X m0 n > t , S đợc xác định từ hệ thức P (t t ) = Quy tắc: Bác bỏ (H) tqs = t (t có phân bố Student với n bậc tự do.) (c) Bài toán (H) : m = m0 (H) : m m0 với đối thiết (K) : m < m0 X m0 n < t , S đợc xác định từ hệ thức P (t t ) = Quy tắc: Bác bỏ (H) tqs = t (t có phân bố Student với n bậc tự do.) 32 http://www.ebook.edu.vn đợc xác định từ hệ thức P (2 > ) = , (2 đại lợng ngẫu nhiên có phân bố với r k bậc tự do) Ta tóm tắt quy tắc bảng sau Kiểm định phù hợp với hàm phân bố chứa tham số cha biết Giả thiết mẫu ngẫu nhiên gồm n phần tử mẫu Các phần tử mẫu đợc phân loại thành r nhóm: nhóm chứa ni phần tử mẫu, phần tử mẫu thuộc nhóm r n = n1 + n2 + + nr = ni i=1 Xét toán kiểm định mức ý nghĩa , giả thiết không sau đây: (H) : Mẫu ngẫu nhiên có phân bố dạng F (x, ) r Q2 = Quy tắc: Bác bỏ (H) i=1 (ni npi )2 > , npi pi , i = 1, 2, , r xác suất để X nhận giá trị thuộc nhóm thứ i, xác suất đợc tính thông qua hàm phân bố F (x, ) mà = (1 , , , k ) ớc lợng hợp lí cực đại tham số , , , k Phân vị đợc xác định từ hệ thức P (2 > ) = , (2 đại lợng ngẫu nhiên có phân bố với r k bậc tự do) 13 Kiểm định tính độc lập Ngời ta kiểm định tính độc lập biến cố ngẫu nhiên, đại lợng ngẫu nhiên Chúng ta trình bày vấn đề dới dạng sau đây: Cho hai hệ đầy đủ biến cố A1 , A2 , , Ar ; B1 , B2 , , Bs H y kiểm định giả thiết hai hệ độc lập: (H): P (Ai Bj ) = P (Ai )P (Bj ) với i = 1, 2, , r; j = 1, 2, , s Xét mẫu ngẫu nhiên cỡ n (mẫu gồm n phần tử mẫu) Ta đa vào kí hiệu sau: nij số lần xảy biến cố tích Ai Bj tập hợp phần tử mẫu s ni = j=1 nij số lần xảy biến cố Ai r n.j = i=1 nij số lần xảy biến cố Bj Hiển nhiên r s ni = n.j = n i=1 j=1 r s nij = n i=1 j=1 38 http://www.ebook.edu.vn Các số nij đợc xếp vào bảng sau đây: j i r Tổng s Tổng n11 n21 n12 n22 nr2 n.2 n1s n2s nrs n.s n1 n2 nr1 n.1 ããã ããã ããã ããã ããã ããã ããã nr n Ta tóm tắt quy tắc kiểm định bảng sau Kiểm định tính độc lập Cho hai hệ đầy đủ biến cố A1 , A2 , , Ar ; B1 , B2 , , Bs H y kiểm định giả thiết hai hệ độc lập, với mức ý nghĩa : (H) : P (Ai Bj ) = P (Ai )P (Bj ) với i = 1, 2, , r; j = 1, 2, , s r s Quy tắc: Bác bỏ (H) ni n.j n ni n.j n nij i=1 j=1 > , đợc xác định từ hệ thức P (2 > ) = , (2 đại lợng ngẫu nhiên có phân bố với (r 1)(s 1) bậc tự do) Chú ý xấp xỉ tơng đối tốt ni n.j n2 với i, j 39 http://www.ebook.edu.vn 14 Hệ số tơng quan mẫu Trong lí thuyết xác suất, biết để đo mối quan hệ hai nhiều đại lợng ngẫu nhiên, ngời ta thờng tính hệ số tơng quan chúng cov(X, Y ) E[(X E(X))(Y E(Y ))] = x y D(X) D(X) (X, Y ) = Nếu X Y hai đại lợng ngẫu nhiên độc lập hệ số tơng quan (X, Y ) = Trờng hợp |(X, Y )| = 1, X Y có mối quan hệ phụ thuộc tuyến tính Y = aX + b Trong thống kê, thay hai đại lợng ngẫu nhiên X, Y ta xét mẫu ngẫu nhiên (X1 , Y1 ), (X2 , Y2 ), , (Xn , Yn ) Có thể coi chúng nh điểm ngẫu nhiên mặt phẳng toạ độ Hệ số tơng quan mẫu đợc định nghĩa r= n i=1 (xi n x)(Yi Y ) = Sx SY n i=1 n xi Y i x ã Y Sx SY SX , SY2 phơng sai mẫu X, Y tơng ứng SX = n n i=1 n (Xi X)2 = n i=1 Xi2 X , SY2 = n n i=1 (Yi Y )2 = n n i=1 Yi2 Y Dễ dàng chứng minh đợc r= n i=1 (xi x)(Yi Sx SY n1 Y) n i=1 = n i=1 xi Yi nx ã Y Xi2 nX n i=1 Yi2 nY Chẳng hạn ta xét toán dự báo đỉnh lũ hàng năm sông Hồng Hà nội, ngời ta thu thập số liệu hàng năm lợng ma tháng Sáu thợng nguồn sông Hồng (Xi ) đỉnh lũ tơng ứng với năm Hà nội (Yi ) Các số liệu giả định nhằm giúp độc giả nghiên cứu cách sử dụng hồi quy công việc dự báo đợc cho bảng dới STT 10 11 12 Năm 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 Lợng ma (X) 720 720 730 590 660 780 770 710 640 670 520 660 Đỉnh lũ (Y ) 1405 1405 1439 1133 1272 1519 1524 1364 1253 1324 1002 1303 STT 13 14 15 16 17 18 19 20 21 22 23 24 Năm 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 Lợng ma (X) 690 500 460 610 710 620 660 620 590 740 640 805 Đỉnh lũ (Y ) 1337 960 879 1176 1382 1178 1271 1194 1161 1449 1225 1377 Nếu ta minh hoạ cặp số liệu (xi , yi ), i = 1, 2, , 24 bảng điểm mặt phẳng, cảm nhận thấy mối liên hệ lợng ma (X) hàng năm đỉnh lũ Hà nội (Y ), lợng ma lớn lũ ma gây nên cao Hệ số tơng quan mẫu giải thích mối quan hệ hai đại lợng: lợng ma hàng năm đỉnh lũ Hà nội Để tính hệ số tơng quan mẫu chúng, ta tính đặc trng kì vọng mẫu phơng sai mẫu X Y x n n i=1 Sx2 y xi 658,95833 n n i=1 yi 1272,16667 n n i=1 (xi Sy2 x)2 85, 024252 40 n n i=1 (yi y)2 163, 50712 http://www.ebook.edu.vn Hệ số tơng quan mẫu r= n n i=1 (xi x)(yi y) = 0, 97045 Sx Sy Dựa vào hệ số tơng quan mẫu, sau ngời ta giải thích đợc mức độ liên hệ hai đại lợng ngẫu nhiên X Y biểu diễn chúng thông qua mối quan hệ tuyến tính 15 Hồi quy bình phơng trung bình tuyến tính Giả sử (X1 , Y1 ), (X2 , Y2 ), , (Xn , Yn ) mẫu ngẫu nhiên tơng ứng với hai đại lợng ngẫu nhiên X Y Chẳng hạn xét toán dự báo đỉnh lũ hàng năm sông Hồng Hà nội đ nói mục trớc Chúng ta cảm nhận đợc mối liên hệ lợng ma (X) hàng năm đỉnh lũ Hà nội (Y ), nhiên thông tin mối liên hệ thực X Y , ta giả thiết chúng có mối quan hệ tuyến tính (bậc nhất) Mặt khác xem lợng ma đỉnh lũ đại lợng ngẫu nhiên, dự báo lợng ma Y với điều kiện lợng ma X giá trị x đó, ta khảo sát hàm phân bố có điều kiện Y (X gọi biến độc lập Y đợc gọi biến phụ thuộc) Đặc trng quan trọng phân bố có điều kiện kì vọng có điều kiện E(Y /X = x) Vì chơng hạn chế xét trờng hợp kì vọng có điều kiện E(Y /X = x) hàm tuyến tính X E(Y /X = x) = x + Chú ý X tăng đơn vị, kì vọng có điều kiện Y tăng E(Y /X = x + 1) = (x + 1) + = x + + = E(Y /X = x) + Để đợc phụ thuộc hàm đó, với thông tin cặp số liệu (xi , yi ), i = 1, 2, , n, toán hồi quy ngời ta coi xi biểu cụ thể biến ngẫu nhiên X, yi biểu cụ thể biến ngẫu nhiên phụ thuộc Yi tơng ứng Do đẳng thức trên, kì vọng có điều kiện Yi thoả m n E(Yi /X = xi ) = xi + i = 1, 2, , n Nh sai số Yi kì vọng có điều kiện E(Yi /X = xi ), kí hiệu i = Yi E(Yi /X = xi ) = Yi (xi + ) đại lợng ngẫu nhiên có kì vọng E(i ) = E(Yi ) E(E(Yi /X = xi )) = E(Yi ) E(Yi ) = Vậy mẫu hồi quy tuyến tính Y X đợc tóm tắt nh sau: Đại lợng ngẫu nhiên độc lập X nhận giá trị xi , Yi = xi + + i (3) i = 1, 2, , n , hệ số cần ớc lợng, y = x + đợc gọi đờng thẳng hồi quy, i đại lợng ngẫu nhiên có kì vọng E(i ) = Ta gọi a, b ớc lợng hệ số , tơng ứng Khi đờng thẳng hồi quy đợc ớc lợng đờng thẳng y = ax + b Độ lệch (hay tạm gọi sai số) yi với đờng thẳng điểm xi , kí hiệu ei ei = yi (axi + b) 41 http://www.ebook.edu.vn Độ lệch dơng âm tuỳ theo giá trị mẫu (xi , yi ) điểm nằm nằm dới đờng thẳng ớc lợng y = ax + b Một phơng pháp ớc lợng có nhiều u điểm tìm ớc lợng a, b , cho tổng bình phơng độ lệch ei đạt giá trị nhỏ Ngời ta gọi phơng pháp ớc lợng nh phơng pháp bình phơng bé Đờng thẳng hồi quy nhận đợc từ phơng pháp bình phơng bé đợc gọi hồi quy bình phơng trung bình tuyến tính Các ớc lợng a, b dựa phơng pháp bình phơng bé nhất, tức làm cực tiểu hàm n u(a, b) = i=1 (Yi axi b)2 Bài toán giải cách dễ dàng cách tìm điểm dừng hàm u(a, b) : u a u b n i=1 (Yi n i=1 (Yi = = axi b)xi = axi b) = Từ phơng trình thứ hai suy (4) b = Y ax Thay b vào phơng trình thứ nhất, n i=1 n [(Yi Y ) a(xi x)]xi = i=1 [(Yi Y ) a(xi x)](xi x) = Suy a= n i=1 (xi x)(Yi n i=1 (xi x) Y) n i=1 xi Yi nxY n 2 i=1 xi nx = =r SY , Sx (5) r hệ số tơng quan mẫu r= n i=1 (xi n n i=1 n x)(Yi Y ) = Sx SY xi Y i x ã Y Sx SY (6) SX , SY2 phơng sai mẫu X, Y tơng ứng n SX = SY2 n i=1 = n (Xi X)2 = n n (Yi Y ) = n i=1 n i=1 Xi2 X , n i=1 Yi2 Y (7) Vậy hàm hồi quy bình phơng trung bình tuyến tính có dạng y = ax + b = y + r Sy (x x) Sx Trở lại ví dụ dự báo lũ, ta đ tính x = 658, 95833, y = 1272, 16667, Sx = 85, 02425, Sy = 163, 5071 Hệ số tơng quan mẫu r = 0, 97045 áp dụng công thức để tính hệ số a b đờng thẳng hồi quy y = ax + b Sy a=r = 1, 86623 Sx Sy b = y rx = 42, 39808 Sx Vậy đờng thẳng hồi quy Y X y = 1, 86623x + 42, 39808 Ta phát biểu định lí sau 42 http://www.ebook.edu.vn Định lí 10 [Định lí Gauss-Markov] Giả thiết theo (3) mẫu hồi quy tuyến tính Y X : Yi = xi + + i i = 1, 2, , n thoả m n E(i ) = 0, D(i ) = , với E(i j ) = 0, i = j, i, j = n Khi ớc lợng a, b theo phơng pháp bình phơng bé ớc lợng không chệch có phơng sai nhỏ Hơn với số thực u v, ua + vb ớc lợng có phơng sai nhỏ số tất ớc lợng tuyến tính pi Yi = P Y không chệch u + v Theo (4) (5) a b hàm tuyến tính Yi n i=1 (xi x)(Yi n i=1 (xi x) a= Y) b = Y ax , Vậy E(a) = E n i=1 (xi x)(Yi n i=1 (xi x) Y) = n i=1 (xi x)(E(Yi ) E(Y )) = n i=1 (xi x) n i=1 (xi x)(xi n i=1 (xi x) x) = E(b) = E(Y ax) = ax + ax = Hay a, b ớc lợng không chệch E(b) = , E(a) = Nhận xét E(b) = , E(a) = , D(b) = , n D(a) = nSx2 Định lí 11 Với điều kiện định lí Gauss-Markov, kì vọng tổng bình phơng sai số n E(SSE) = (n 2) (SSE = i=1 [yi (axi + b)]2 ) Nói cách khác kí hiệu = SSE n2 = nSY2 (1 r ) n2 , ớc lợng không chệch , đợc gọi sai số chuẩn (Standard Error) ớc lợng cho phơng sai đợc tính nh sau: a=r Đặt Ci = xi x , nSx SY = Sx n n i=1 (xi x)(Yi Y ) = Sx2 n i=1 xi x Yi nSx2 với giá trị cố định xi , phơng sai hệ số a n D(a) = D i=1 xi x Yi nSx2 n n Ci Yi ) = = D( i=1 Ci2 = i=1 nSx2 Sử dụng định lí trên, kí hiệu s2a = SSE = nSx2 n(n 2)Sx2 ta có s2a ớc lợng không chệch D(a), sa đợc coi sai số trung bình hệ số góc phơng trình đờng thẳng hồi quy 43 http://www.ebook.edu.vn Chú ý với điều kiện định lí Gauss-Markov, ta giả thiết thêm i (sai số mẫu hồi quy) có phân bố chuẩn, thống kê a t= sa có phân bố Student với n bậc tự Do khoảng tin cậy viết dới dạng (8) a t s a < < a + t s a Cũng dựa sở t có phân bố Student với n bậc tự do, ta kiểm định giả thiết H0 : = H0 : với đối thiết H1 : > , a > t sa (Các kiểm định phía khác kiểm định phía theo quy tắc tơng tự đ biết) theo quy tắc bác bỏ H0 tqs = Đặc biệt giả thiết = 0, Yi = + i E(Yi ) = không bị ảnh hởng biến độc lập X Nói cách khác biến thiên biến phụ thuộc Y hoàn toàn không phần giải thích mối quan hệ tuyến tính với X Nhận xét = 0, tqs = saa giá trị quan sát (t Stat) ứng với hệ số góc bảng ANOVA phân tích hồi quy Tơng tự xét hệ số tự hồi quy trung bình tuyến tính thực nghiệm b = Y rx Đặt Ci = xi x , nSx SY =Y xn Sx n i=1 (xi x)(Yi Y ) = Sx n n i=1 n Yi i=1 xi x Yi ã x nSx2 n b= i=1 Ci x Yi n Suy với giá trị cố định xi , phơng sai hệ số b n D(b) = i=1 Kí hiệu Ci x n n s2b = i=1 n Ci x + Ci2 x2 n n = i=1 x2 + n nSx2 = n = i=1 x2 + n nSx2 ( ni=1 x2i ) (1 r2 )SY2 (Sx2 + x2 ) = , (n 2)Sx2 n2 Sx2 s2b ta có ớc lợng không chệch D(b), sb đợc coi sai số trung bình hệ số tự phơng trình đờng thẳng hồi quy Cũng nh hệ số góc đờng thẳng hồi quy, ngời ta chứng minh đợc i có phân bố chuẩn, thống kê b t= sb có phân bố Student với n bậc tự Do áp dụng phơng pháp ớc lợng khoảng tin cậy cho giá trị trung bình, ta nhận đợc khoảng tin cậy (9) b t s b < < b + t s b Khi = 0, tqs = hồi quy b sb giá trị quan sát (t Stat) ứng với hệ số tự bảng ANOVA phân tích Ví dụ Trong ví dụ mục trớc, đờng thẳng hồi quy Y X y = 1, 86623x + 42, 39808 Sai số trung bình = n SY n2 SSE = n2 r2 = 44 37363, 89302 = 41, 21115 22 http://www.ebook.edu.vn Sai số ớc lợng hệ số a b đờng hồi quy Ta biết s2a = s2b SY2 (1 r ) (n 2)SX 2 +X ) (1 r )SY2 (SX = (n 2)SX Thay vào tính ta đợc sai số ớc lợng a b Sai số trung bình a sa = 0, 098939 Sai số b sb = 65, 73696 Kiểm định quan hệ tuyến tính hàm hồi quy Nh đ trình bày trên, kiểm định mối liên quan tuyến tính tơng đơng với kiểm định giả thuyết (H): = với đối thiết (K): = Khi giả thiết (H): = đúng, giá trị quan sát thống kê tqs = a 1, 86623 = 18, 86 = sa 0, 098939 tra bảng phân vị phân bố Student với n = 22 bậc tự do, mức ý nghĩa = 0, 05 ta có phân vị t0,05 = 2, 405468 Giá trị quan sát lớn nhiều so với phân vị t0,05 = 2, 405468 Ta bác bỏ giả thiết = 0, mối quan hệ Y X quan hệ tuyến tính Nhận xét tơng đơng với kiểm định trên, ta sử dụng thống kê F Fqs = (24 2)r2 = 355, 7938 r2 Với mức ý nghĩa = 0, 05 tra bảng phân vị phân bố F với n = 22 bậc tự do, ta xác định F2 = 5, 78632 Giá trị quan sát Fqs = 355, 7938 lớn nhiều so với F2 = 5, 78632, ta bác bỏ giả thiết (H): = 0, tức mối quan hệ tuyến tính Y X chặt Khoảng tin cậy cho hệ số góc đờng hồi quy Thống kê t= a sa có phân bố Student với 22 bậc tự áp dụng công thức (8) tìm khoảng tin cậy với độ tin cậy 95% cho hệ số góc : a t sa < < a + t sa (phân vị t0,05 = 2, 405468) ta đợc khoảng tin cậy cho hệ số góc (1, 628237 ; 2, 104225) 45 http://www.ebook.edu.vn Ví dụ H y phân tích hiệu việc đầu t quảng cáo (X) doanh thu công ty (Y ) khoảng thời gian năm Các số liệu đợc cho bảng dới đây: X Y 14,99 18,61 X Y 12,08 14,25 5,55 5,52 9,79 16,38 9,68 12,49 15,94 12,54 Sử dụng lệnh {= LINEST (Y, X, 1, 1)} EXCEL (nhấn đồng thời phím CT RL + SHIF T + EN T ER) ta thu đợc bảng sau 1.72676783 0.199411812 0.882330203 74.98357456 163.7465154 2.965007587 1.161334855 1.47775679 10 21.83765129 Hàng thứ hệ số hồi quy a = 1.72676783, b = 2.965007587 y = 1.72676783x + 2.965007587 Sai số trung bình hệ số hồi quy a b hàng thứ hai D() = 0.199411812 D() = 1.161334855 Hàng thứ ba hệ số số tơng quan r = 0.882330203 sai số chuẩn (standard error) = 1.47775679 Hàng thứ t cho giá trị quan sát Fqs = 74.98357456 phân bố F với 10 bậc tự Hàng thứ năm tổng bình phơng toàn phần theo Y (còn kí hiệu SST ) nSY2 = 163.7465154 phần d R20 = 21.83765129 (kí hiệu SSR) bảng phân tích phơng sai SUMMARY OUTPUT Regression Statistics Multiple R 0.939324333 R Square 0.882330203 Adjusted R Square 0.870563223 Standard Error 1.47775679 Observations 12 ANOVA Regression Residual Total Intercept X Variable df 10 11 SS 163.7465154 21.83765129 185.5841667 Coefficients 2.965007587 1.72676783 MS 163.7465154 2.183765129 Stand Error 1.161335 0.199412 F 74.98357456 t Stat 2.5531 8.6593 Significance F 5.84643E-06 P-value 0.028710768 5.84643E-06 Lower 95% 0.377392 1.282451 Upper 95% 5.552623 2.171085 áp dụng công thức (8) ta đợc cận trên, cận dới (1.282451; 2.171085) hệ số góc đờng thẳng hồi quy với độ tin cậy 95% Các nhận xét sau công thức (8) (9): tqs = a D(a) , tqs = b D(b) cho ta giá trị quan sát t Stat 8.6593 2.5531 Công thức (9) để tính khoảng tin cậy cho hệ số tự b đờng thẳng hồi quy với độ tin cậy 95% (0.377392; 5.552623) 46 http://www.ebook.edu.vn 16 Hồi quy nhiều chiều Bài toán hồi quy nhiều chiều toán xét tác động nhiều biến ngẫu nhiên (X1 , X2 , ) tới biến ngẫu nhiên khác (Y ) Chẳng hạn muốn tìm hiểu l i suất hàng năm công ty tài chính, ngời ta thấy l i suất tỉ lệ thuận với tổng thu (từ thuế nhà nớc, đơn vị tổng thu tính theo % kí hiệu X1 ), đồng thời tỉ lệ nghịch với số văn phòng giao dịch (X2 ) (Do cạnh tranh công ty, số văn phòng giao dịch đợc mở ngày tăng) Gọi Y tỉ lệ l i suất hàng năm công ty (đơn vị %) Bảng sau cho ta số liệu quan sát đợc đại lợng vòng 25 năm STT 10 11 12 13 X1 3.92 3.61 3.32 3.07 3.06 3.11 3.21 3.26 3.42 3.42 3.45 3.58 3.66 X2 7298 6855 6636 6506 6450 6402 6368 6340 6349 6352 6361 6369 6546 STT 14 15 16 17 18 19 20 21 22 23 24 25 Y 0.75 0.71 0.66 0.61 0.7 0.72 0.77 0.74 0.9 0.82 0.75 0.77 0.78 X1 3.78 3.82 3.97 4.07 4.25 4.41 4.49 4.7 4.58 4.69 4.71 4.78 X2 6672 6890 7115 7327 7546 7931 8097 8468 8717 8991 9179 9318 Y 0.84 0.79 0.7 0.68 0.72 0.55 0.63 0.56 0.41 0.51 0.47 0.32 Mẫu hồi quy nhiều chiều E(Yi /X1 = x1i , X2 = x2i , , Xk = xki ) = + x1i + x2i + + k xki , i = 1, 2, , n hay Yi = + x1i + x2i + + k xki + i , i số cần ớc lợng i biến ngẫu nhiên có kì vọng Các mẫu ngẫu nhiên điểm quan sát (x1i , x2i , , xki , yi ), i = 1, 2, , n Do mẫu hồi quy nhiều chiều E(Yi /X1 = x1i , X2 = x2i , , Xk = xki ) = + x1i + x2i + + k xki , i = 1, 2, , n Suy E(Yi /X1 = x1i + 1, X2 = x2i , , Xk = xki ) E(Yi /X1 = x1i , X2 = x2i , , Xk = xki ) = (Nghĩa ví dụ tổng thu tăng thêm 1%, với số văn phòng giao dịch X2 không đổi, tỉ lệ l i suất hàng năm tăng thêm ) Gọi a, b1 , b2 , , bk ớc lợng tơng ứng, mẫu dự báo biến ngẫu nhiên Y y = a + b1 x1 + b2 x2 + + bk xk Theo sai số ei = yi (a + b1 x1i + b2 x2i + + bk xki ), i = 1, 2, , n Đối với mẫu hồi quy tuyến tính nhiều chiều, ớc lợng a, b1 , b2 , , bk cần xác định theo phơng pháp bình phơng bé nhất, tức tổng bình phơng độ lệch n n e2i = SS = i=1 i=1 (yi a b1 x1i b2 x2i bk xki )2 đạt giá trị nhỏ Phơng trình y = a + b1 x1 + b2 x2 + + bk xk đợc gọi mặt phẳng hồi quy Y X1 , X2 , , Xk Trớc hết ta phát biểu định lí sau 47 http://www.ebook.edu.vn Định lí 12 Giả thiết mẫu hồi quy tuyến tính Y X1 , X2 , , Xk : Yi = + x1i + x2i + + k xki + i , x1i , x2i , , xki thể X1i , X2i , , Xki Các biến ngẫu nhiên độc lập với i E(i ) = 0, D(i ) = , với E(i j ) = 0, i = j, i, j = n Hạng ma trận (xij ) k Khi ớc lợng a, b1 , b2 , , bk xác định theo phơng pháp bình phơng bé , , , k ớc lợng không chệch có phơng sai nhỏ Hơn với số thực d0 , d1 , d2 , , dk , ớc lợng d0 + d1 b1 + d2 b2 + ã ã ã + dk bk ớc lợng có phơng sai nhỏ số tất ớc lợng tuyến tính không chệch d0 + d1 + d2 + ã ã ã + dk k Từ hệ thức yi y = ( yi y) + ei , bình phơng hai vế đẳng thức cộng chúng lại theo i ta đợc n n i=1 (yi y)2 = i=1 n ( yi y)2 + e2i i=1 Đẳng thức có ý nghĩa nh sau: vế trái tổng bình phơng độ lệch phần tử mẫu Y với giá trị trung bình mẫu y, kí hiệu SST (total sum of squares) đợc phân tích thành tổng hai phần: phần thứ tổng bình phơng độ lệch hồi quy yi với trung bình mẫu y phần thứ hai phần d: tổng bình phơng sai số Kí hiệu n SST = i=1 (yi y)2 = nSy2 (Tổng bình phơng chung) n SSR = i=1 ( yi y)2 (Tổng bình phơng hồi quy) n e2i SSE = (Tổng bình phơng sai số) i=1 Theo đẳng thức: SST = SSR + SSE, tỉ số R2 = SSR SSE =1 SST SST đợc gọi hệ số xác định biểu diễn lực hồi quy R2 R2 gần với 1, phần d SSE (tổng bình phơng sai số) nhỏ so với tổng bình phơng độ lệch chung Y Chú ý: hệ số xác định điều chỉnh R =1 SSE/(n k 1) SST /(n 1) Ngời ta chứng minh đợc với điều kiện định lí s2e = n i=1 ei nk1 = SSE nk1 ớc lợng không chệch Ta gọi se = s2e sai số chuẩn Việc tính sai số chuẩn hệ số hồi quy bk , bk1 , , b2 , b1 , a phức tạp (xem phần hồi quy đơn giản, chiều) Các chơng trình phần mềm thống kê tính giúp ta sai số Thực hành EXCEL Xét ví dụ l i suất hàng năm công ty tài chính, sử dụng lệnh {= LIN EST (Y, X, 1, 1)}, ta đợc bảng sau 48 http://www.ebook.edu.vn -0.000249079 3.20485E-05 0.865296068 70.66057082 0.40151122 0.237197475 0.055559366 0.053302217 22 0.06250478 1.564496771 0.079395981 Hàng thứ hệ số hồi quy viết theo thứ tự y = bk xk + bk1 xk1 + + b2 x2 + b1 x1 + a Hay y = 0.00025x2 + 0.2372x1 + 1.5645 Sai số trung bình (căn bậc hai phơng sai) hệ số hồi quy bk , bk1 , , b2 , b1 , a cho hàng thứ hai D(b2 ) = 3.20485E 05, D(b1 ) = 0.055559, D(a) = 0.079396 Hàng thứ ba hệ số xác định giải thích lực hồi quy R2 = 0.865296068 sai số chuẩn (standard error) se = 0.053302217 Hàng thứ t cho giá trị quan sát Fqs = 70.66057082 phân bố F với (k, 22) bậc tự (Trong ví dụ k = 2) Hàng thứ năm tổng bình phơng SSR = 0.40151122 phần d SSE = 0.06250478 Chú ý hồi quy tuyến tính nhiều chiều thờng xuyên đợc sử dụng hồi quy đơn giản (một chiều), biến độc lập tác động đáng kể tới biến phụ thuộc Chẳng hạn ví dụ , biến phụ thuộc (l i suất y) tỉ lệ thuận với tổng thu (x1 ) Trong ta quan tâm tới l i suất tổng thu, hồi quy đơn giản cho ta kết y = 1.326 0.169x1 l i suất giảm x1 tăng(!) Tơng quan bội tơng quan riêng Ta nhấn mạnh tơng ứng với mẫu quan sát yi , i = 1, 2, , n mẫu dự báo yi = a + b1 x1i + b2 x2i + + bk xki , i = 1, 2, , n Hệ số tơng quan chúng đợc gọi hệ số tơng quan bội, đo mức độ tác dụng tuyến tính X = (X1 , ã ã ã , Xk ) lên Y (Dễ dàng chứng minh đợc: Y Y không tơng quan (trực giao) với X1 , ã ã ã , Xk Thực chất phơng pháp bình phơng nhỏ sau tịnh tiến hệ trục toạ độ tới điểm (EY, EX1 , , EXk ) Rk+1 , Y phép chiếu vuông góc Y xuống L2 (X1 , , Xk )) Suy ra, nh đ biết lí thuyết không gian Hilbert hệ số tơng quan chẳng qua côsin góc hai véc tơ, hệ số tơng quan bội bậc hai hệ số xác định R= Trong ví dụ R = R2 0.8652 = 0.93 Khi khảo sát mối tơng quan ta tính hệ số tơng quan đại lợng ngẫu nhiên, chẳng hạn ij = ij (Xi , Xj ) Đó độ đo toàn phần mối tơng quan chúng (có kể đến mối quan hệ thông qua biến ngẫu nhiên khác: X1 , , Xk ) Nh ta biết phân tích đại lợng ngẫu nhiên thành tổng hai đại lợng ngẫu nhiên không tơng quan (chiếu vuông góc xuống L2 (X2 , , Xk )) Y = YY k + (Y YY k ) = YY k + Y k , X1 = X1 + (X1 X1 ) = X1 + k Có thể coi Y k = Y YY k phần lại Y sau đ loại tác động tuyến tính X2 , , Xk vào Y Tơng tự k = X1 X1 phần lại X1 sau đ loại tác động tuyến tính X2 , , Xk vào X1 Khi hệ số tơng quan hai phần d Y k = Y YY k k = X1 X1 đợc gọi hệ số tơng quan riêng (mối quan hệ nội tại, không phụ thuộc vào đại lợng ngẫu nhiên khác: X2 , , Xk ) Y X1 Kí hiệu Y.1 = (Y k , k ) Quay trở lại ví dụ trên, ta tính hệ hệ số tơng quan riêng l i suất (Y ) số văn phòng giao dịch đợc mở (X2 ) Ta lập bảng sau mà cột liệu hồi quy Y theo X1 hồi quy Y theo X2 49 http://www.ebook.edu.vn STT 10 11 12 13 Y k 0.086830251 -0.005600136 -0.104647917 -0.196930487 -0.10862179 -0.080165276 -0.013252248 -0.034795734 0.152265111 0.072265111 0.007339019 0.049325955 0.072856378 k = X1 X1 -53.63957787 9.06929472 263.1517884 540.9815244 501.2947138 371.7287666 174.5968723 65.03092506 -186.980106 -183.980106 -223.9196743 -427.991137 -381.4966525 STT Y k 0.153152011 0.109917223 0.045286765 0.042199793 0.112643243 -0.030295912 0.06323451 0.028751869 -0.141543765 -0.022939434 -0.059556828 -0.197717709 14 15 16 17 18 19 20 21 22 23 24 25 k = X1 X1 -451.2549257 -298.5076835 -318.2055251 -269.3374194 -343.9748293 -219.9858604 -184.4913759 -156.0683541 288.6899192 383.2448354 538.6184565 563.4261304 Hệ số tơng quan riêng l i suất (Y ) số văn phòng giao dịch đợc mở (X2 ) Y.1 = 0.85617 (Sử dụng lệnh CORREL) Bình phơng hệ số tơng quan riêng (0.85617)2 = 0.73, 73% phần biến động l i suất (Y ) đợc giải thích phụ thuộc tuyến tính (tỉ lệ nghịch) vào số lợng văn phòng giao dịch đợc mở Tơng tự hệ số tơng quan riêng l i suất (Y ) (X1 ) Y.2 = 0.6731 (Tỉ lệ thuận) Ta tính tơng quan riêng l i suất (Y ) (X1 ) cách sử dụng công thức (??-??) C10 5.929936871 = = 0.673126 01.(23 n) = C00 C11 3.10432981 ì 25 Khoảng tin cậy kiểm định giả thiết cho tham số hồi quy Các vấn đề khoảng tin cậy kiểm định giả thiết cho tham số hồi quy dựa định lí sau Định lí 13 Với giả thiết nh định lí 12, đồng thời giả thiết thêm rằng số hạng sai số i có phân bố chuẩn Kí hiệu sbk , sbk1 , , sb2 , sb1 sa sai số chuẩn hệ số hồi quy bk , bk1 , , b2 , b1 , a, ta = a , sa tbi = b i i , sbi i = 1, 2, , k đại lợng ngẫu nhiên có phân bố Student với n k bậc tự Chẳng hạn ví dụ l i suất công ty tài chính, với độ tin cậy 99% 0.081 < < 0.394, (sb1 t b1 sb1 t + b1 , 0.000339 < < 0.000159 t = t0.01 = 2.81876, Do mẫu hồi quy nhiều chiều sb1 = 3.2 ì 105 , E(Yi /X1 = x1i , X2 = x2i , , Xk = xki ) = + x1i + x2i + + k xki , b1 = 0.000249) i = 1, 2, , n Suy E(Yi /X1 = x1i + 1, X2 = x2i , , Xk = xki ) E(Yi /X1 = x1i , X2 = x2i , , Xk = xki ) = Nghĩa ví dụ đ nêu số văn phòng giao dịch tăng thêm 1000, (với tổng thu X1 không đổi), tỉ lệ l i suất hàng năm giảm từ 0.159 tới 0.339 Kiểm định giả thiết cho tham số hồi quy Cũng dựa sở tbi có phân bố Student với n k bậc tự do, ta kiểm định giả thiết H0 : i = i,0 H0 : i i,0 với đối thiết H1 : i > i,0 , 50 http://www.ebook.edu.vn theo quy tắc bác bỏ H0 tqs = i i,0 > t sbi (Các kiểm định phía khác kiểm định phía theo quy tắc tơng tự đ biết) Đặc biệt giá trị thực = Yi = + x2i + + k xki + i không bị ảnh hởng biến độc lập X1 biến X2 , , Xk nhận giá trị cố định cho trớc Nói cách khác X1 không góp phần vào giải thích mối quan hệ tuyến tính biến phụ thuộc với biến độc lập Trong ví dụ kiểm định H0 : = với đối thiết H1 : > tqs = Nhận xét i = 0, tqs = phân tích hồi quy bi sbi bi i,0 0.237 = = 4.27 sbi 0.0555 giá trị quan sát (t Stat) ứng với hệ số góc i bảng ANOVA Nếu mức ý nghĩa bé 0.5%, tra bảng 22 bậc tự (1 phía) t = 2.81876, ta bác bỏ H0 : Tơng tự xét toán kiểm định H0 : = với đối thiết H1 : < tqs = ta bác bỏ H0 : = b2 0.000249 = 7.78 < t = 2.81876, = sb 0.0000320 = mức 0.5% Ta kiểm định Bài toán (2): giả thiết H0 : i = i,0 H0 : i i,0 với đối thiết H1 : theo quy tắc bác bỏ H0 i < i,0 , tqs = i i,0 < t sbi Bài toán (3): H0 : i = i,0 với đối thiết H1 : theo quy tắc bác bỏ H0 i = i,0 , |tqs | = i i,0 > t/2 sb i Kiểm định giả thiết đồng thời cho tham số hồi quy H0 : = = ã ã ã = k = với đối thiết H1 : Tồn i : i = Nếu giả thiết H0 đúng, Yi = + i , nên E(Yi /X) = số Các biến độc lập Xi ảnh hởng (tuyến tính) tới Y Kiểm định giả thiết H0 thực chất nhằm bác bỏ tính phụ thuộc tuyến tính biến Ta biết SST = SSR + SSE, SSR nhằm giải thích biến động hồi quy (sự phụ thuộc tuyến tính biến phụ thuộc vào biến độc lập), SSE phần biến động hồi quy Do biến ngẫu nhiên không tồn quan hệ tuyến tính SSR tơng đối nhỏ so với SSE, nói cách khác tỉ số SSR SSE lớn, khả bác bỏ giả thiết không (quan hệ tuyến tính) cao Vì để tạo thống kê nh ngời ta sử dụng kết sau: Nếu giả thiết H0 : = = ã ã ã = k = i có phân bố chuẩn, F = SSR/k SSE/(n k 1) 51 http://www.ebook.edu.vn có phân bố F với (k, n k 1) bậc tự Vậy ta có quy tắc mức Bác bỏ H0 Fqs = SSR/k > Fk,nk1, , SSE/(n k 1) P (Fk,nk1 > Fk,nk1, ) = Nhận xét R2 = SSR SST =1 F = SSE , SST suy SSR/k nk1 R2 = ã SSE/(n k 1) k R2 Trở lại ví dụ l i suất tiết kiệm cho vay Fqs = SSR/k 0.40151122/2 = = 70.66057082 SSE/(n k 1) 0.06250478/22 Với mức ý nghĩa 1%, Fk,nk1, = 5.719, nhỏ nhiều so với Fqs = 70.66057082, ta bác bỏ giả thiết H0 Kiểm định giả thiết đồng thời cho tập tham số hồi quy Giả thiết ta cần kiểm định k1 tham số hồi quy H0 : (Với đối thiết H1 : = = ã ã ã = k = Tồn i, i k1 : i = 0.) Nếu giả thiết H0 đúng, biến X1 , X2 , , Xk1 ảnh hởng tới Y , ta tiến hành ớc lợng hồi quy Y thông qua biến Xk1 +1 , Xk1 +2 , , Xk Yi = + k1 +1 xk1 +1,i + ã ã ã + k xki + i Khi ta hy vọng SSE mẫu hồi quy cũ khác nhiều so với SSE mẫu hồi quy Thống kê (SSR SSE)/k1 F = SSE/(n k 1) có phân bố F với (k1 , n k 1) bậc tự Vậy ta có quy tắc mức Bác bỏ H0 Fqs = (SSE SSE)/k1 > Fk1 ,nk1, SSE/(n k 1) Dự báo Với mẫu hồi quy nh đ nói trên, kí hiệu a, b1 , b2 , , bk ớc lợng theo phơng pháp bình phơng bé hệ số hồi quy, với mẫu thứ n + biến độc lập: (x1,n+1 , x2,n+1 , , xk,n+1 ) dự báo biến phụ thuộc (Yn+1 = + x1,n+1 + ã ã ã + k xk,n+1 + n+1 ) Yn+1 = a + b1 x1,n+1 + b2 x2,n+1 + ã ã ã + bk xk,n+1 ớc lợng tuyến tính không chệch tốt Yn+1 Trở lại ví dụ quen thuộc x1,n+1 = 4.50 số lợng văn phòng x2,n+1 = 9000 Yn+1 = a + b1 x1,n+1 + b2 x2,n+1 = 0, 39 Ngoài giả thiết i có phân bố chuẩn tính khoảng tin cậy cho dự báo Yn+1 52 http://www.ebook.edu.vn [...]... dụng thống kê u = uqs = n p p0 p0 (1 p0 ) , u có phân bố xấp xỉ chuẩn N(0,1), khi giả thiết (H): p = p0 đúng 35 http://www.ebook.edu.vn Kiểm định giả thiết về xác suất của biến cố ngẫu nhiên Giả thiết kích thớc mẫu n đủ lớn (n 40) Kiểm định giả thiết về xác suất, mức ý nghĩa (a) Bài toán 1 (H) : p = p0 với đối thiết (K) : p = p0 n Quy tắc: Bác bỏ (H) nếu p p0 > u , p0 (1 p0 ) trong đó u đợc xác. .. nr = ni i=1 Giả sử pi là xác suất để đại lợng ngẫu nhiên X nhận các giá trị thuộc nhóm thứ i, i = 1, 2, , r với điều kiện giả thiết (H) đúng Khi đó 1 = p1 + p2 + + pr Hiển nhiên ni là đại lợng ngẫu nhiên có phân bố nhị thức với kì vọng E(ni ) = npi Xét thống kê r Q2 = i=1 (ni npi )2 np i trong đó pi , i = 1, 2, , r là xác suất để X nhận các giá trị thuộc nhóm thứ i, xác suất đó đợc tính thông qua... vọng mẫu, mức ý nghĩa (a) Bài toán 1 (H) : m1 = m2 với đối thiết (K) : m1 = m2 Quy tắc: Bác bỏ (H) nếu X Y 12 m 22 n + > u , trong đó u đợc xác định từ hệ thức P ((|u| u ) = , u N (0, 1) (b) Bài toán 2 (H) : m1 = m2 hoặc (H) : m1 m2 với đối thiết (K) : m1 > m2 Quy tắc: Bác bỏ (H) nếu X Y 12 m + 22 n > u , trong đó u đợc xác định từ hệ thức P ((u u ) = , u N (0, 1) (c) Bài toán 3 (H) : m1 = m2... (K) : p < p0 Quy tắc: Bác bỏ (H) nếu n p p0 p0 (1 p0 ) < u , trong đó u đợc xác định từ hệ thức P (u u ) = (u có phân bố chuẩn u N (0, 1).) Trong bài toán 2, bài toán 3, u đợc xác định từ hệ thức P (u > u ) = trong khi đó ở bài toán 1, u đợc xác định từ hệ thức P (|u| > u ) = 36 http://www.ebook.edu.vn 12 Kiểm định giả thiết về tính phù hợp của hàm phân bố Giả thiết mẫu ngẫu nhiên gồm n phần... nr = ni i=1 Xét bài toán kiểm định mức ý nghĩa , giả thiết không sau đây: (H) : Xác suất để mỗi phần tử mẫu thuộc nhóm thứ i bằng pi r với mọi i = 1, 2, , r ( pi = 1) i=1 r Quy tắc: Bác bỏ (H) nếu Q2 = i=1 trong đó 2 (ni npi )2 > 2 , npi đợc xác định từ hệ thức P (2 > 2 ) = , (2 là đại lợng ngẫu nhiên có phân bố 2 với r 1 bậc tự do) Ngời ta cũng sử dụng phân bố 2 để kiểm định các bài toán về tính... nhiên phân bố F với m 1, n 1 bậc tự do.) 11 Kiểm định giả thiết về xác suất của biến cố ngẫu nhiên Giả sửA là biến cố ngẫu nhiên có xác suất P (A) = p cha biết Ta sử dụng ớc lợng p=X= X1 + X2 + ã ã ã + Xn n trong đó Xi bằng 1 hoặc 0 tùy theo biến cố A xảy ra hoặc không xảy ra ở phép thử ngẫu nhiên thứ i, i = 1, 2, , n (p thực chất là tần suất xuất hiện của biến cố A) Khi đó np có phân bố nhị thức với... bố dạng F (x, ) r Q2 = Quy tắc: Bác bỏ (H) nếu i=1 (ni npi )2 > 2 , npi trong đó pi , i = 1, 2, , r là xác suất để X nhận các giá trị thuộc nhóm thứ i, xác suất đó đợc tính thông qua hàm phân bố F (x, ) mà = (1 , 2 , , k ) là các ớc lợng hợp lí cực đại của các tham số 1 , 2 , , k Phân vị 2 đợc xác định từ hệ thức P (2 > 2 ) = , (2 là đại lợng ngẫu nhiên có phân bố 2 với r k 1 bậc tự do) 13 Kiểm... xếp sao cho SX > SY 2 (a) Bài toán 1 2 (H) : X = Y2 với đối thiết 2 (K) : X = Y2 Quy tắc: Bác bỏ (H) nếu 2 SX > F/2 , SY 2 2 là đại lợng ngẫu nhiên phân bố F với m 1, n 1 bậc tự do.) trong đó F/2 đợc xác định từ hệ thức P (F F/2 ) = (F (b) Bài toán 2 2 (H) : X = Y2 hoặc 2 (H) : X Y2 với đối thiết 2 (K) : X > Y2 Quy tắc: Bác bỏ (H) nếu 2 SX > F , SY 2 trong đó F đợc xác định từ hệ thức P (F ... phân bố chuẩn u N (0, 1).) (b) Bài toán 2 (H) : p = p0 hoặc (H) : p p0 với đối thiết (K) : p > p0 n Quy tắc: Bác bỏ (H) nếu p p0 p0 (1 p0 ) > u , trong đó u đợc xác định từ hệ thức P (u u ) = (u có phân bố chuẩn u N (0, 1).) (c) Bài toán 3 (H) : p = p0 hoặc (H) : p p0 với đối thiết (K) : p < p0 Quy tắc: Bác bỏ (H) nếu n p p0 p0 (1 p0 ) < u , trong đó u đợc xác định từ hệ thức P (u u ) =... ý nghĩa (a) Bài toán 1 (H) : m1 = m2 với đối thiết (K) : m1 = m2 mn(m + n 2) ã m+n Quy tắc: Bác bỏ (H) nếu X Y 2 mSX + nSY2 > t , trong đó t đợc xác định từ hệ thức P (|t| t ) = (t có phân bố Student với m + n 2 bậc tự do.) (b) Bài toán 2 (H) : m1 = m2 hoặc (H) : m1 m2 với đối thiết (K) : m1 > m2 mn(m + n 2) ã m+n Quy tắc: Bác bỏ (H) nếu X Y 2 + nS 2 mSX Y > t , trong đó t đợc xác định từ hệ ... < X + u , n n u đợc xác định từ hệ thức P (|u| u ) = , u N(0, 1) Khoảng tin cậy cho xác suất Cho biến cố ngẫu nhiên với xác suất p cấn phải ớc lợng Giả thiết p = nk tần suất xuất biến cố (Kích... phân bố nhị thức với kì vọng E(ni ) = npi Xét thống kê r Q2 = i=1 (ni npi )2 np i pi , i = 1, 2, , r xác suất để X nhận giá trị thuộc nhóm thứ i, xác suất đợc tính thông qua hàm phân bố F (x, )... SY F đợc xác định từ hệ thức P (F F ) = (F đại lợng ngẫu nhiên phân bố F với m 1, n bậc tự do.) 11 Kiểm định giả thiết xác suất biến cố ngẫu nhiên Giả sửA biến cố ngẫu nhiên có xác suất P (A)