thống kê

Mục lục Lời nói đầu Lý thuyết 1.1 Mẫu ngẫu nhiên, hàm phân phối mẫu số đặc trưng mẫu 1.1.1 Mẫu ngẫu nhiên 1.1.2 Hàm phân phối mẫu 1.1.3 Các số đặc trưng mẫu 1.2 Ước lượng tham số 1.2.1 Ước lượng điểm 1.2.2 Phương pháp hợp lý cực tìm ước lượng 1.2.3 Ước lượng khoảng 1.3 Kiểm định giả thiết 1.3.1 Thiết lập toán 1.3.2 Một số toán kiểm định giả thiết 3 3 6 12 12 14 Lời nói đầu Trong đời sống nay, thống kê ngày trở nên cần thiết quan trọng ngành kinh tế xã hội Thống kê giúp ta phân tích số liệu cách khách quan rút nhiều thông tin ẩn chứa số liệu Thống kê học định nghĩa cách khái quát khoa học, kỹ thuật hay nghệ thuật việc rút thông tin từ liệu quan sát được, phân tích, giải thích thảo luận vấn đề nhằm giải toán từ thực tế sống Việc rút thông tin kiểm định giả thiết khoa học, ước lượng đại lượng chưa biết hay dự đoán kiện tương lai Có thể kể tên số mục đích thống kê sau: - Mô tả số liệu - Ước lượng dự đoán đại lượng - Kiểm định giả thuyết Thống kê học ngành lớn với nhiều phương pháp khác để dùng cho tình khác (có người ví phương pháp thống kê cách nấu ăn, đa dạng, phong phú) có nhiều điểm cần ý để khỏi dẫn đến kết luận thống kê sai lệch (hoặc bị mắc lừa người cố tình làm thống kê theo phương pháp sai lệch) Chương Lý thuyết 1.1 1.1.1 Mẫu ngẫu nhiên, hàm phân phối mẫu số đặc trưng mẫu Mẫu ngẫu nhiên Định nghĩa 1.1.1 Mẫu ngẫu nhiên dãy n biến ngẫu nhiên (X1 , , Xn ) từ phân phối F (x, θ), n gọi kích thước mẫu Các giá trị mẫu ký hiệu chữ thường x1 , , xn Về mặt hình học, mẫu (X1 , , Xn ) xem điểm không gian Rn chiều Không gian Rn gọi không gian mẫu Ví dụ 1.1.1 Để đo đại lượng chưa biết θ đó, ta tiến hành n thí nghiệm Kết n thí nghiệm đặc trưng dãy n biến ngẫu nhiên X1 , X2 , , Xn mà phân phối đồng thời F (x1 , , xn , θ) phụ thuộc vào tham số θ (X1 , X2 , , Xn ) gọi mẫu ngẫu nhiên từ phân phối F (x, θ) 1.1.2 Hàm phân phối mẫu Cho mẫu ngẫu nhiên (X1 , X2 , , Xn ) từ phân phối F (x) F (x, θ) Định nghĩa 1.1.2 Hàm phân phối mẫu (hay hàm phân phối thực nghiệm) tỷ số m , n kích thước mẫu, m số giá trị mẫu Xi < x; x ∈ R ký hiệu: n m Fn (x) = , x ∈ R n 1.1.3 Các số đặc trưng mẫu a) Trung bình mẫu ¯ = X1 + X2 + · · · + Xn gọi trung bình mẫu Định nghĩa 1.1.3 X n Chương Lý thuyết i) Nếu mẫu ngẫu nhiên cho dạng: Xi ni X1 n1 X2 n2 Xk nk Thì trung bình mẫu tính theo công thức: ¯ = n1 X + n2 X2 + · · · + nk X k X n1 + n2 + · · · + nk ii) Nếu mẫu ngẫu nhiên cho dạng khoảng trung bình mẫu tính theo công thức: n1 X1∗ + n2 X2∗ + · · · + nk Xk∗ ¯ X = n1 + n2 + · · · + nk Xi + Xi+1 Xi mút trái khoảng thứ i; Xi+1 mút phải khoảng thứ i Trong đó: Xi∗ = b) Phương sai mẫu ∗ Công thức tính phương sai mẫu: Sn2 (X) = n n i=1 (Xi ¯ 2= − X) n n i=1 Xi2 ¯2 = −X n n i=1 Xi2 − ( n i=1 n Xi ) ∗ Phương sai mẫu hiệu chỉnh: Sn∗ (X) = n−1 n i=1 (Xi ¯ − X) ∗ Trong trường hợp mẫu ngẫu nhiên cho dạng khoảng phương sai mẫu tính theo công thức: Sn∗ (X) = n−1 n ¯ ] [ni (Xi∗ − X) i=1 Chương Lý thuyết c) Hệ số tương quan mẫu Cho mẫu ngẫu nhiên (X1 , Y1 ), (X2 , Y2 ), , (Xn , Yn ) cặp biến ngẫu nhiên (X, Y) Hệ số tương quan mẫu (X, Y ) tính theo công thức: r= n = [n n i=1 (Xi ¯ i − Y¯ ) − X)(Y Sn (X)Sn (Y ) n ni=1 Xi Yi − ( ni=1 Xi )( ni=1 Yi ) n n n 2 i=1 Xi − ( i=1 Xi ) ][n i=1 Yi − ( n i=1 Yi )2 ] d) Mômen mẫu - Mômen gốc mẫu bậc k đại lượng ngẫu nhiên X định nghĩa sau: s k n i=1 ni Xi k X = mk = s n i=1 i i=1 ni - Mômen trung tâm mẫu bậc k đại lượng ngẫu nhiên X : ak = n n i=1 (Xi ¯ k= − X) s i=1 ¯ k ni (Xi − X) s i=1 ni e) Mod Nếu số liệu cho dạng khoảng công thức tính mod mẫu là: xmod = AM o + h × nM o − nM o−1 , 2nM o − nM o−1 − nM o+1 : AM o mút trái khoảng mod ; h khoảng cách quan sát Xi ; nM o số lần xuất khoảng mod ; nM o−1 số lần xuất khoảng trước khoảng mod ; nM o+1 số lần xuất khoảng sau khoảng mod Nếu số liệu xếp theo giá trị khác Xi xmod giá trị X mà tần suất xuất giá trị lớn Chương Lý thuyết f) Trung vị mẫu Nếu mẫu ngẫu nhiên cho dạng (X1 , X2 , , Xn ), ta xếp quan sát Xi , i =1, n , theo thứ tự tăng dần: X (1) < X (2) < · · · < X (q−1) < X (q) < X (q+1) < · · · < X (n) i) Nếu n số chẵn, tức n = 2q trung vị là: XM e = X (q) + X (q+1) ii) Nếu n số lẻ, tức n = 2q − thì: XM e = X (q) Nếu mẫu quan sát cho dạng khoảng số trung vị tính theo công thức: xM e n − mM e = AM e + h × ; nM e : AM e đầu mút trái khoảng trung vị ; h khoảng cách quan sát Xi ; nM e số lần xuất khoảng trung vị ; mM e số lần xuất khoảng trước khoảng trung vị 1.2 1.2.1 Ước lượng tham số Ước lượng điểm Giả sử (X1 , X2 , , Xn ) mẫu ngẫu nhiên từ phân phối f (x, θ), tham số θ ∈ U a) Ước lượng điểm Định nghĩa 1.2.1 Ước lượng điểm tham số θ đại lượng ngẫu nhiên Tn (X) = ϕ(X1 , X2 , , Xn ) phụ thuộc vào quan sát Xi không phụ thuộc vào tham số θ Chương Lý thuyết Ví dụ 1.2.1 Giả sử (X1 , X2 , , Xn ) mẫu ngẫu nhiên độc lập từ phân phối chuẩn dạng N (a; σ ) ¯ = n Xi ước lượng điểm kỳ vọng a Ta thấy X n i=1 ¯ mặt a mà chứa X1 , , Xn biểu thức X ∗ Đại lượng n n ∗2 ¯ ¯ (Xi − X) i=1 (Xi − X) Sn (X) = n n − i=1 ước lượng điểm σ Ta thấy biểu thức Sn2 (X), Sn∗ (X) mặt σ , mà có quan sát X1 , X2 , , Xn ∗ Đại lượng Sn2 (X) = b) Ước lượng không chệch Định nghĩa 1.2.2 Ước lượng Tn gọi ước lượng không chệch tham số θ ETn = θ ¯ = Ví dụ 1.2.2 X n n i=1 Xi ước lượng không chệch a Sn∗ (X) ước lượng không chệch σ c) Ước lượng vững Định nghĩa 1.2.3 Ước lượng Tn tham số θ gọi ước lượng vững tham p số θ Tn → − θ theo xác suất n → ∞ , nghĩa với ε > cho trước tùy ý có: lim P [|Tn − θ| < ε] = n→∞ Ví dụ 1.2.3 - Giả sử (X1 , X2 , , Xn ) mẫu ngẫu nhiên độc lập từ phân phối chuẩn n ¯ dạng N (a; σ ), X = Xi ước lượng vững a n i=1 - Giả sử k số lần xuất biến cố A dãy n phép thử Bernoulli P(A) xác suất xuất biến cố A phép thử, không đổi p Khi k : ước lượng vững p n Chương Lý thuyết d) Ước lượng không chệch tốt Định nghĩa 1.2.4 Ước lượng Tn tham số θ gọi ước lượng không chệch tốt : + E(Tn ) = θ + DTn ≤ DTˆn với Tˆn ước lượng không chệch θ 1.2.2 Phương pháp hợp lý cực tìm ước lượng Định nghĩa 1.2.5 (Hàm hợp lý) Giả sử (X1 , X2 , , Xn ) mẫu ngẫu nhiên độc lập từ phân phối f (x, θ), θ ∈ U Gọi tích L(X/ θ) = f (X1 , θ)f (X2 , θ) f (Xn , θ) hàm hợp lý Định nghĩa 1.2.6 (Ước lượng hợp lý cực đại) Ước lượng θˆ (X1 , X2 , , Xn ) gọi ước lượng hợp lý cực đại tham số θ ˆ L(X/ θ(X)) ≥ L(X/ θ) với θ ∈ U Phương pháp tìm ước lượng : ˆ ˆ Tìm giá trị θ(X) θ cho L(X/θ) đạt cực đại θ(X) Trường hợp θ số: Ta tìm: ∂L(X/θ) = ∂θ (1) ˆ Sau xét dấu L L θ xem θˆ có phải Giải phương trình (1) ta tìm θ θ θ điểm để L(X/θ) đạt cực đại hay không Nếu θˆ mà L(X/ θ) đạt cực đại θˆ ước lượng phải tìm Nếu f (x, θ) > L(X/θ) > Ta viết: ∂L ∂lnL =0⇔ =0⇔ L ∂θ ∂θ n i=1 ∂lnf (Xi , θ) = ∂θ (2) ˆ Giải phương trình (2) ta θ(X) Lý luận tương tự ta nhận ước lượng phải tìm Trường hợp θ = (θ1 , θ2 , , θr ): Tương tự trường hợp tham số số Ở có r ẩn, ta phải lập hệ r phương trình:  ∂L   =0   ∂θ1   ∂L   =0 ∂θr Chương Lý thuyết Giải hệ ta tìm θˆ = (θˆ1 , , θˆr ) thường hay gặp hàm mật độ có dạng hàm mũ Dó đạo hàm hàm mũ lũy thừa dạng hàm số mũ Việc giải phương trình có chứa hàm số mũ thường phức tạp Vì vậy, giống trường hợp tham số số, ta nhận hệ r phương trình:  ∂lnf (Xi , θ1 , θ2 , , θr ) n   =0  i=1  ∂θ1     n ∂lnf (Xi , θ) = i=1 ∂θr ˆ Giải hệ ta tìm θ(X) = (θˆ1 (X), , θˆr (X)) 1.2.3 Ước lượng khoảng Giả sử (X1 , X2 , , Xn ) mẫu ngẫu nhiên độc lập từ phân phối f (x, θ), θ ∈ U Định nghĩa 1.2.7 Khoảng ( θˆ1 (X1 , , Xn ); θˆ2 (X1 , , Xn )), (θˆ1 < θˆ2 ), gọi khoảng ước lượng tham số θ với độ tin cậy - α nếu: P[θˆ1 (X) < θ < θˆ2 (X)] = - α a) Khoảng ước lượng kỳ vọng a Bài toán : Giả sử (X1 , X2 , , Xn ) mẫu ngẫu nhiên từ phân phối chuẩn dạng N (a; σ ) Tìm khoảng ước lượng a với độ tin cậy - α Giải : Trường hợp σ biết:  √  ¯ −a X ε n ¯ − a|< ε] = P  Xét xác suất P[|X <  σ  = - α σ √ n ¯ −a σ2 X ¯ Vì X có phân phối chuẩn dạng N a; nên σ có phân phối chuẩn dạng n √ n √ ε n N (0; 1) Đặt xα = , ta có: σ ¯ − a|√n | X ¯ − a| < ε] = P P[|X < xα = 2Φ(xα ) - = - α σ Chương Lý thuyết Vậy Φ(xα ) = - 10 α Từ ta tìm xα cách tra bảng giá trị hàm phân phối chuẩn N (0; 1) ¯ − a)√n| |(X Giải < xα , ta nhận được: σ ¯ + xα √σ ¯ − xα √σ < a < X X n n ¯ ± xα √σ viết: a = X n Đây khoảng ước lượng phải tìm Trường hợp σ chưa biết: ¯ − a| < ε] = - α Ta xét xác suất P[|X √ ¯ − a)√n| n |( X ε ¯ − a| < ε] = P Ta có P[|X < t = α, đó: t = α α ∗ (X) ∗ (X) S S n n ¯ − a)√n (X có phân phối Student với n − bậc tự Đại lượng Sn∗√ (X) ¯ − a| n |X Vậy P < tα = 2ϕ(t, n − 1) – = - α Sn∗ (X) α Vậy ϕ(t, n − 1) = - Từ ta tìm tα cách tra bảng phân phối Student với n − bậc tự √ mức ý nghĩa α (bảng tiêu chuẩn hai phía) Theo định lý giới hạn ¯ − a) n (X trung tâm có phân phối tiệm cận phân phối chuẩn N (0; 1) Vì với Sn∗ (X) n lớn, n > 30, ta tra bảng phân phối chuẩn N(0; 1) cho α Φ(tα ) = - ¯ − a)√n| |(X < tα ta được: Giải Sn∗ (X) ∗ ∗ ¯ − tα S√n (X) < a < X ¯ + tα S√n (X) X n n ∗ ¯ ± tα Sn√(X) với S∗n (X) = viết: a = X n−1 n n ¯ (Xi − X) i=1 i) Nếu n ≥ 30 tα tra bảng phân phối chuẩn N (0; 1) cho α Φ(tα ) = - ii) Nếu n < 30 tα tra bảng phân phối Student với n − bậc tự mức ý nghĩa α( bảng tiêu chuẩn hai phía) b) Khoảng ước lượng phương sai σ mẫu từ phân phối chuẩn Người ta tìm khoảng ước lượng phương sai σ với độ tin cậy - α là: Chương Lý thuyết 15 b) So sánh hai xác suất phân phối nhị thức Tiêu chuẩn chủ yếu áp dụng giải toán so sánh tỷ lệ xuất đặc tính A cá thể hai đám đông khác Bài toán: Xét hai dãy phép thử Bernoulli Dãy I có n phép thử, X số lần xuất biến cố A dãy I, P(A) = p1 xác suất để biến cố A xuất phép thử dãy I Dãy II có m phép thử , Y số lần xuất biến cố A dãy II, xác suất để biến cố A xuất phép thử dãy II P(A) = p2 Hãy so sánh hai xác suất p1 , p2 mức α Ta đưa kiểm định giả thiết: H0 : p1 = p2 mức α K : p1 = p2 Giải: Người ta chứng minh rằng: tồn tiêu chuẩn để kiểm định giả thiết H0 : p1 = p2 mức α K : p1 = p2 Tiêu chuẩn phát biểu sau: Giả thiết H0 bị bác bỏ mức α nếu: Y X − n m |Z| = 1 + n m X +Y n+m > xα 1− X +Y n+m Còn |Z| < xα chấp nhận H0 , xα tra bảng phân phối chuẩn N (0; 1) α cho Φ(xα ) = - * Tiêu chuẩn phía: X Y Nếu > đưa toán kiểm định giả thiết: n m H0 : p1 ≤ p2 mức α K : p1 > p2 Giải: Người ta chứng minh tồn tiêu chuẩn để kiểm định giả thiết H0 : p1 ≤ p2 tiêu chuẩn phát biểu dạng: K : p1 > p2 Giả thiết H0 bác bỏ mức α nếu: Chương Lý thuyết 16 Z= 1 + n m X Y − n m X +Y n+m > xα X +Y 1− n+m Còn Z < xα chấp nhận H0 , xα tra bảng giá trị hàm phân phối chuẩn N (0; 1) cho Φ(xα ) = - α Y X < đưa toán kiểm định giả thiết: Nếu n m H0 : p1 ≥ p2 mức α K : p1 < p2 Tương tự phần trên, người ta tồn tiêu chuẩn để kiểm H0 : p1 ≥ p2 định giả thiết tiêu chuẩn phát biểu dạng: K : p1 < p2 Giả thiết H0 bị bác bỏ mức α nếu: Z= 1 + n m Y X − m n X +Y n+m > xα X +Y 1− n+m Còn Z < xα chấp nhận H0 , xα tra bảng giá trị hàm phân phối chuẩn N (0; 1) cho Φ(xα ) = - α c) Kiểm định trung bình Giả sử (X1 , X2 , , Xn ) mẫu ngẫu nhiên độc lập từ phân phối chuẩn dạng N (a; σ ) H0 : a = a0 Kiểm định giả thiết mức α K : a = a0 Giải: Người ta chứng minh rằng: tồn tiêu chuẩn để kiểm định giả thiết H0 : a = a0 mức α tiêu chuẩn phát biểu dạng: K : a = a0 Trường hợp σ biết: Giả thiết H0 bị bác bỏ mức α nếu: ¯ − a0 |√n |X |Z| = > xα σ Chương Lý thuyết 17 Còn |Z| < xα chấp nhận H0 , xα tra bảng giá trị hàm phân phối α chuẩn N (0; 1) cho Φ(xα ) = - Trường hợp σ chưa biết: Giả thiết H0 bị bác bỏ mức α nếu: ¯ − a0 |√n |X |Z| = > tα Sn∗ (X) Còn |Z| < tα chấp nhận H0 , đó: Sn∗ (X) = n−1 n i=1 (Xi ¯ , tα − X) tra bảng sau: i) Nếu n ≤ 30 tα tra bảng phân phối Student với n − bậc tự mức ý nghĩa α (bảng tiêu chuẩn hai phía) ii) Nếu n > 30 tα tra bảng giá trị hàm phân phối chuẩn N (0; 1) cho α Φ(tα ) = - * Tiêu chuẩn phía: ¯ > a0 ta đưa đến toán kiểm định giả thiết: Nếu X H0 : a ≤ a0 mức α K : a > a0 Người ta chứng minh rằng: tồn tiêu chuẩn để kiểm định giả thiết tiêu chuẩn phát biểu dạng: Trường hợp σ biết: Giả thiết H0 bị bác bỏ mức α nếu: ¯ − a0 )√n (X Z= > xα σ Còn Z < xα chấp nhận H0 , xα tra bảng giá trị hàm phân phối chuẩn N (0; 1) cho Φ(xα ) = - α Trường hợp σ chưa biết: Giả thiết H0 bị bác bỏ mức α nếu: ¯ − a0 )√n (X Z= > tα Sn∗ (X) Còn Z < tα chấp nhận H0 , Sn∗ (X) = tra bảng sau: n−1 n i=1 (Xi ¯ , tα − X) Chương Lý thuyết 18 i) Nếu n ≤ 30 tα tra bảng giá trị tiêu chuẩn Student với n − bậc tự mức ý nghĩa α (bảng tiêu chuẩn phía) ii) Nếu n > 30 tα tra bảng giá trị hàm phân phối chuẩn N (0; 1) cho Φ(tα ) = - α ¯ < a0 ta đưa đến toán kiểm định giả thiết: Nếu X H0 : a ≥ a0 mức α K : a < a0 Tương tự trường hợp trên, người ta chứng minh rằng: tồn tiêu chuẩn để kiểm định giả thiết tiêu chuẩn phát biểu dạng: Trường hợp σ biết: Giả thiết H0 bị bác bỏ mức α nếu: ¯ √n (a0 − X) > xα Z= σ Còn Z < xα chấp nhận H0 , xα tra bảng phân phối chuẩn N (0; 1) cho Φ(xα ) = - α Trường hợp σ chưa biết: Giả thiết H0 bị bác bỏ mức α nếu: ¯ √n (a0 − X) Z= > tα Sn∗ (X) Còn Z < tα chấp nhận H0 , tα tra sau: i) Nếu n ≤ 30 tα tra bảng giá trị tiêu chuẩn Student với n − bậc tự mức ý nghĩa α (bảng tiêu chuẩn phía) ii) Nếu n > 30 tα tra bảng phân phối chuẩn N (0; 1) cho Φ(tα ) = - α d) So sánh trung bình hai mẫu độc lập Ta cần nghiên cứu tính trạng X cá thể hai đám đông Ta chọn mẫu (X1 , X2 , , Xn ) từ đám đông I mẫu (Y1 , Y2 , , Ym ) từ đám đông II Giả sử hai mẫu độc lập có phân phối chuẩn dạng tổng quát tương ứng N (a1 , σ12 ) N (a2 , σ22 ), tức EX = a1 , EY = a2 , DX = σ12 , DY = σ22 H0 : a1 = a2 Kiểm định giả thiết mức α K : a1 = a2 Giải: Chương Lý thuyết 19 Người ta chứng minh rằng: tồn tiêu chuẩn để kiểm định giả thiết tiêu chuẩn phát biểu dạng: Trường hợp phương sai DX, DY biết: Giả thiết H0 bị bác bỏ mức α nếu: |Z| = ¯ − Y¯ | |X σ12 σ22 + n m > xα Còn |Z| < xα chấp nhận H0 , xα tra bảng phân phối chuẩn N (0; 1) α cho Φ(xα ) = - Trường hợp DX, DY chưa biết, ta phải giả thiết DX = DY: Giả thiết H0 bị bác bỏ mức α nếu: |Z| = ¯ − Y¯ | |X > tα 1 S + n m (*) Còn |Z| < tα chấp nhận H0 , đó: m n ¯ ¯ S2 = i=1 (Yi − Y ) , tα tra bảng sau: i=1 (Xi − X) + n+m−2 i) Nếu n + m ≤ 60 tα tra bảng phân phối Student với n + m − bậc tự mức ý nghĩa α(bảng tiêu chuẩn hai phía) ii) Nếu n + m > 60 tα tra bảng phân phối chuẩn N (0; 1) cho α Φ(tα ) = - * Tiêu chuẩn phía: ¯ < Y¯ ta đưa toán kiểm định giả thiết: Nếu X H0 : a1 ≥ a2 mức α K : a1 < a2 Trường hợp σ12 , σ22 cho: Giả thiết H0 bị bác bỏ mức α nếu: Z= ¯ Y¯ − X σ12 σ22 + n m > xα Còn Z < xα chấp nhận H0 , xα tra bảng phân phối chuẩn N (0; 1) cho Φ(xα ) = - α Trường hợp σ12 , σ22 chưa biết, ta phải giả thiết σ12 = σ22 : Giả thiết H0 bị bác bỏ mức α nếu: Chương Lý thuyết 20 Z= ¯ Y¯ − X > tα 1 S + n m Còn Z < tα chấp nhận H0 , tα tra bảng sau: i) Nếu n + m ≤ 60 tα tra bảng phân phối Student với n + m − bậc tự mức ý nghĩa α (bảng tiêu chuẩn phía) ii) Nếu n + m > 60 tα tra bảng phân phối chuẩn N (0; 1) cho Φ(tα ) = - α ¯ > Y¯ ta đưa toán kiểm định giả thiết: Nếu X H0 : a1 ≤ a2 mức α K : a1 > a2 Trường hợp σ12 , σ22 cho: Giả thiết H0 bị bác bỏ mức α nếu: Z= ¯ − Y¯ X σ12 σ22 + n m > xα Còn Z < xα chấp nhận H0 , xα tra bảng phân phối chuẩn N (0; 1) cho Φ(xα ) = - α Trường hợp σ12 , σ22 chưa biết, ta phải giả thiết σ12 = σ22 : Giả thiết Ho bị bác bỏ mức α nếu: Z= ¯ − Y¯ X > tα 1 S + n m Còn Z < tα chấp nhận H0 , tα tra bảng sau: i) Nếu n + m ≤ 60 tα tra bảng phân phối Student với n + m − bậc tự mức ý nghĩa α (bảng tiêu chuẩn phía) ii) Nếu n + m > 60 tα tra bảng phân phối chuẩn N (0; 1) cho Φ(tα ) = - α Chú ý: Khi nhận kết thí nghiệm hai mẫu ngẫu nhiên độc lập (X1 , X2 , , Xn ) (Y1 , Y2 , , Ym ) từ phân phối chuẩn, chưa biết phương sai DX, DY; để so sánh hai trung bình EX, EY tiêu chuẩn (*) ta phải xét xem hai phương sai DX, DY có hay không Muốn ta phải giải Chương Lý thuyết 21 toán kiểm định giả thiết H0 : DX = DY K : DX = DY mức α Giải: Giả thiết H0 bị bác bỏ mức α nếu: Z= Trong đó: fbảng ( Sn∗ (X) α > fbảng ( , n − 1, m − 1) ∗ Sm (Y ) α , n − 1, m − 1) tra bảng phân phối F với n − 1, m − bậc tự mức α e) So sánh hai trung bình mẫu phụ thuộc từ phân phối chuẩn Giả sử (X1 , X2 , , Xn ) (Y1 , Y2 , , Ym ) hai mẫu ngẫu nhiên từ phân phối chuẩn X, Y phụ thuộc Hãy so sánh hai trung bình EX EY mức α H0 : EX = EY Ta đưa toán kiểm định giả thiết mức α K : EX = EY Ta giải toán theo bước sau: Tính di = Xi − Yi , i =1, n n ( ni=1 di )2 n 1 n 2 ¯ ¯ d= di Sd = (di − d) = i=1 di − n i=1 n − i=1 n−1 n Kết luận: Giả thiết H0 bị bác bỏ mức α nếu: √ |d¯ n| > tα |Z| = Sd Còn |Z| < tα chấp nhận H0 , tα tra bảng phân phối Student với n − bậc tự mức ý nghĩa α (bảng tiêu chuẩn phía) f) Tiêu chuẩn χ2 (khi bình phương) kiểm định phân phối Giả sử đại lượng ngẫu nhiên X nhận giá trị không gian S Ta chia không gian S thành q phần rời nhau, không thiết phải S1 , S2 , , Sq (S1 ∪ S2 ∪ · · · ∪ Sq = S) Giả sử (X1 , , Xn ) mẫu quan sát đại lượng ngẫu nhiên X Gọi nk số giá trị mẫu Xi biến ngẫu nhiên X rơi vào phận Sk Ta có n1 + n2 + · · · + nk = n Và pk xác suất để giá trị x X rơi vào phận Sk (nghĩa pk = P [ω : X ∈ Sk ]) Hãy kiểm định giả thiết: H0 : p1 = po1 , p2 = po2 , , pq = poq mức α K : p1 = po1 , p2 = po2 , , pq = poq Chương Lý thuyết 22 Trong poi số, phân phối cho, chẳng hạn như: phân phối chuẩn, phân phối nhị thức, phân phối Poisson Trường hợp poi , i = 1, q số Người ta chứng minh được: tồn tiêu chuẩn để kiểm định giả thiết H0 Tiêu chuẩn phát biểu dạng: Giả thiết H0 bị bác bỏ mức α nếu: Z= q k=1 (nk − npok )2 = −n + npok q k=1 n2k > Cα npok Còn Z < Cα chấp nhận H0 , Cα số tra bảng phân phối χ2 với q − bậc tự mức ý nghĩa α Trường hợp pok phân phối cho giả sử pok = pok (θ), θ = (θ1 , , θr ) Ta tiến hành bước sau: i) Tìm ước lượng tham số θ θˆ (có thể dùng phương pháp hợp lý cực đại) ˆ ii) Tính ước lượng po (θ) : pˆo = po (θ) k k k iii) Kết luận: Giả thiết H0 bị bác bỏ mức α nếu: Z= q k=1 (nk − nˆ pok )2 = −n + nˆ pok q k=1 n2k > Cα nˆ pok Còn Z < Cα chấp nhận H0 , Cα tra bảng phân phối χ2 với q − − r bậc tự mức ý nghĩa α g) Tiêu chuẩn χ2 (khi bình phương) kiểm định tính độc lập tính * Kiểm định tính độc lập Ta xét n phép thử độc lập, phép thử có biến cố A1 , A2 , , Ar biến cố B1 , B2 , , Bv xảy Đặt P(Ai , Bj ) = pij ; i = 1, r; j = 1, v Ta viết dãy xác suất dạng bảng sau: Chương Lý thuyết 23 B A A1 A2 Ar Tổng Ta có P (Ai ) = đến toán: Kiểm định giả thiết: v j=1 B1 p11 p21 pr1 p.1 pij , P (Bj ) = B2 p12 p22 pr2 p.2 r i=1 Bv p1v p2v prv p.v Tổng p1 p2 pr pij Để xét tính độc lập A B ta H0 : P (Ai Bj ) = P (Ai )P (Bj ); i = 1, r K : P (Ai Bj ) = P (Ai )P (Bj ); j = 1, v Gọi Xij số lần xuất biến cố tích Ai Bj n phép thử Ta có bảng quan sát sau: B A A1 A2 Ar Tổng B1 X11 X21 Xr1 X.1 B2 X12 X22 Xr2 X.2 Bv X1v X2v Xrv X.v Tổng X1 X2 Xr n Người ta chứng minh rằng: tồn tiêu chuẩn để kiểm định giả thiết H0 : P (Ai Bj ) = P (Ai )P (Bj ); i = 1, r K : P (Ai Bj ) = P (Ai )P (Bj ); j = 1, v Tiêu chuẩn phát biểu dạng: Giả thiết H0 bị bác bỏ mức α nếu: Z = n× r i=1 v j=1 Xi X.j Xij − n Xi X.j > Cα ((r − 1)(v − 1)) Chương Lý thuyết 24 Nếu Z < Cα chấp nhận giả thiết H0 , Cα tra bảng phân phối χ2 với (r − 1)(v − 1) bậc tự mức ý nghĩa α Chú ý: - Tiêu chuẩn áp dụng tốt trường hợp mẫu lớn Xi X.j ≥ - Đảm bảo điều kiện n * Kiểm định tính Nếu thí nghiệm thực điều kiện khác xác định phép thử khác nhau: G1 , G2 , , Gv (các quy luật xác suất phép thử khác cách tiên quyết) Vấn đề đặt tìm xem xác suất hệ kiện đầy đủ A1 , A2 , , Ar có v phép thử, tức kiểm định giả thiết H0 : “xác suất pij biến cố Ai phép thử Gj số pi không phụ thuộc vào j”; ta xét nhiều tập Xét đám đông Q cá thể có biến dạng A1 , A2 , , Ar đặc tính A phép phân hoạch đám đông Q thành v đám đông nhỏ Q1 , Q2 , , Qv Trong đám đông Q1 , Q2 , , Qv gọi đặc tính A việc khảo sát đặc tính không cho phép ta phân biệt đám đông nhỏ Chấp nhận hay bác bỏ Q tức kiểm định giả thiết H0 : “Xác suất pij cá thể có biến dạng Ai đặc tính A đám đông Qj số pi không phụ thuộc j” Một cách tổng quát, ta xét hai đặc tính A B Chia A thành r mức A1 , A2 , , Ar B thành v mức B1 , B2 , , Bv Ký hiệu P (Ai , Bj ) = pij với i = 1, r; j = 1, v Kiểm định giả thiết B là:  H0 : p11 = p12 = · · · = p1v    mức α pr1 = pr2 = · · · = prv    K : pi1 = pi2 = · · · = piv , i = 1, r Người ta tính tiêu chuẩn để kiểm định giả thiết sau: Giả thiết H0 bị bác bỏ mức α nếu: Z =n× r i=1 v j=1 ni n.j n ni nj nij − > Cα Còn Z < Cα chấp nhận giả thiết H0 , Cα tra bảng phân phối χ2 với (r−1)(v−1) bậc tự mức ý nghĩa α Ta nhận thấy lời giải toán kiểm định tính giống lời giải toán kiểm định tính độc lập Chương Lý thuyết 25 Xét trường hợp đặc biệt r = v = z Giả thiết H0 bị bác bỏ mức α nếu: Z =n× (ad − bc)2 > Cα (1) (a + c)(b + d)(a + b)(c + d) B A A1 A2 Tổng B1 B2 Tổng a b a+b c d c+d a+c b+d n Cα (1) tra bảng phân phối χ2 với bậc tự mức ý nghĩa α h) Kiểm định phân phối chuẩn Jarque – Bera Bài toán trị số p cho kiểm chứng giả thuyết thường dựa giả thiết phân bố chuẩn Do đó, phép thử kiểm định giả thiết phân phối chuẩn tắc hữu ích để kiểm tra Nhiều kiểm định phân phối chuẩn phát triển nhà thống kê khác Chúng xin đề cập đến phép thử Jarque - Bera khuôn khổ luận văn Xét hai thống kê là: hệ số bất đối xứng độ nhọn * Hệ số bất đối xứng định nghĩa là: S= n n i=1 (Xi − (˜ σ )3/2 ¯ X) với σ ˜2 = n n i=1 (Xi ¯ − X) Hệ số bất đối xứng tính theo công thức: µ3 γ1 = σ Ở đây: µ3 mômen trung tâm mẫu bậc σ độ lệch chuẩn Hình 1.1: Đồ thị biểu diễn hệ số bất đối xứng Hệ số bất đối xứng đại lượng đo lường mức độ đối xứng quan sát trung bình Với phân phối chuẩn, giá trị hệ số bất đối xứng - Phân phối lệch bên phải bất đối xứng dương Khi đó, số mode nhỏ số trung vị số trung vị lại nhỏ số trung bình Chương Lý thuyết 26 - Phân phối lệch bên trái bất đối xứng âm Khi đó, số trung bình nhỏ số trung vị số trung vị nhỏ số mod - Nếu hệ số 0, phân phối cân xứng Khi đó, số trung bình, trung vị mod * Độ nhọn mẫu định nghĩa là: K= n n i=1 (Xi − (˜ σ )2 ¯ X) Độ nhọn mẫu tính theo công thức: γ2 = µ4 σ4 Ở đây: µ4 mômen trung tâm mẫu bậc σ độ lệch chuẩn Độ nhọn đại lượng thống kê mô tả mức độ tập trung phân phối xác suất biến ngẫu nhiên, cụ thể mức độ tập trung quan sát quanh trung tâm phân phối mối quan hệ với hai đuôi Nói cách khác, độ nhọn đo lường mức độ nhọn hay bẹt phân phối so với phân phối chuẩn Với phân phối chuẩn độ nhọn có giá trị Công thức độ nhọn thặng dư viết lại với dạng trừ Độ nhọn thặng dư định nghĩa là: EK = K – Do đó, phân phối chuẩn có giá trị độ nhọn thặng dư Phân phối có đuôi dày phân phối logistic với hàm mật độ xác suất: √ exp(−x/b) với b = f (x) = b[1 + exp(−x/b)] π Phân phối có trung bình 0, phương sai 1, hệ số bất đối xứng hệ số độ nhọn 4,2 Ta thấy độ nhọn phân phối lớn Như vậy, độ nhọn thặng dư dương gọi độ nhọn vượt chuẩn - Khi độ nhọn 3, phân phối tập trung mức độ bình thường - Khi độ nhọn lớn 3, phân phối tập trung mức bình thường; đỉnh đồ thị hình chuông phân phối cao nhọn đuôi ngắn - Khi độ nhọn nhỏ 3, phân phối tập trung mức bình thường; đỉnh đồ thị hình chuông phân phối thấp tù với đuôi dài Chương Lý thuyết 27 Hình 1.2: Đồ thị so sánh dạng hàm mật độ xác suất cho phân phối chuẩn tắc phân phối dày đuôi Biểu đồ bên so sánh dạng hàm mật độ xác suất cho phân phối chuẩn tắc (trung bình phương sai 1) phân phối dày đuôi có trung bình phương sai Lưu ý: Công thức tính toán hiệu chỉnh cho hệ số bất đối xứng là: n g1 = (n − 1)(n − 2) n i=1 (Xi − (s2 ) ¯ X) Công thức tính toán hiệu chỉnh cho độ nhọn thặng dư là: n(n + 1) g2 = (n − 1)(n − 2)(n − 3) n i=1 ¯ Xi − X s − 3(n − 1)2 (n − 2)(n − 3) Chương Lý thuyết 28 Kiểm định Jarque – Bera cho phân phối chuẩn tắc phát biểu sau: Xét kiểm định giả thiết: H0 : phân phối chuẩn, hệ số bất đối xứng độ nhọn thặng dư không; H1 : không phân phối chuẩn S (EK)2 + 24 Giả thuyết không phân phối chuẩn tắc bị bác bỏ tính toán thống kê kiểm định lớn giá trị tới hạn lấy từ phân phối χ(2 2) Giá trị tới hạn tra từ Bảng Phụ lục cho phân phối bình phương χ2 sau: Thống kê kiểm định Jarque - Bera là: JB = n Mức ý nghĩa α 0.10 0.05 0.01 Giá trị tới hạn 4.61 5.99 9.21 Bảng tiêu chuẩn kiểm định dùng cho mẫu lớn, với mẫu nhỏ xem gần Ví dụ: Tập hợp liệu thị trường chứng khoán có ghi lại số phần trăm hàng ngày quan sát vào năm 1997 hai công ty vàng Barrick ngân hàng New York Mẫu quan sát có: n = 253 ngày giao dịch Đối với công ty, vấn đề đặt làm phép thử kiểm định cho phân phối chuẩn quan sát ghi lại hàng ngày Những thống kê khác cho bảng đây: Thống kê mẫu nhỏ Hệ số bất đối xứng g1 Độ nhọn dư g2 Barrick Gold 0.01 1.38 Bank of NY - 0.14 0.41 Barrick Gold 0.01 1.33 Bank of NY - 0.14 0.38 Thống kê mẫu lớn Hệ số bất đối xứng S Độ nhọn dư EK Chương Lý thuyết 29 Kiểm định Jarque - Bera cho phân phối chuẩn với thống kê mẫu lớn Thống kê kiểm định JB Trị số p Barrick Gold 18.73 < 0.0005 Bank of NY 2.31 0.315 Cả hai loại mẫu nhỏ mẫu lớn hệ số bất đối xứng độ nhọn dư thống kê trình bày để nhấn mạnh đến phương pháp luận Với công ty vàng Barrick, thống kê kiểm định Jarque - Bera 18.73 lớn giá trị tới hạn với mức ý nghĩa hợp lý để dẫn đến kết luận ghi lại hàng ngày không theo phân phối chuẩn Từ đó, độ nhọn thặng dư thống kê lớn 0, cho thấy ghi lại hàng ngày theo phân phối miêu tả độ nhọn vượt chuẩn Những nhà nghiên cứu gợi ý độ nhọn vượt chuẩn phát sinh từ mô hình không ổn định thị trường tài chính, giai đoạn không ổn định cao tiếp nối giai đoạn ổn định tương đối Với ngân hàng New York, tính toán trị số p cho thống kê kiểm định Jarque Bera minh hoạ biểu đồ bên Rõ ràng, trị số p lớn mức ý nghĩa thường (chẳng hạn: α = 0.10, 0.05 0.01) để thấy chứng để gạt bỏ giả thuyết không phân phối chuẩn cho quan sát hàng ngày ngân hàng New York Hình 1.3: Hàm mật độ xác suất phân phối χ2 với bậc tự

Định dạng
Số trang	29
Dung lượng	279,9 KB