kiểm định giả thuyết thống kê
Kiểm định giả thuyết thống kê Hoàng Văn Hà hvha@hcmus.edu.vn Ngày 10 tháng 11 năm 2012 Bài toán kiểm định giả thuyết thống kê Định nghĩa Giả thuyết không đối thuyết Cách đặt giả thuyết Miền bác bỏ - Tiêu chuẩn kiểm định Sai lầm loại I loại II Sai lầm loại I loại II - Nhận xét p - giá trị (p - value) Kiểm định giả thuyết cho trường hợp mẫu Kiểm định giả thuyết cho kỳ vọngTH biết σ Kiểm định giả thuyết cho kỳ vọngTH σ , mẫu nhỏ Kiểm định giả thuyết cho kỳ vọngTH σ , mẫu lớn Kiểm định giả thuyết cho kỳ vọngTH σ Kiểm định giả thuyết cho kỳ vọngTH σ Kiểm định giả thuyết cho kỳ vọngTH σ Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ So sánh hai kỳ vọng, trường hợp biết phương sai So sánh hai kỳ vọng So sánh hai kỳ vọng, trường hợp phương sai, mẫu lớn So sánh hai kỳ vọng, trường hợp phương sai, mẫu nhỏ So sánh hai phương sai 2 So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ1 = σ2 = σ 2 So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ1 = σ2 So sánh hai kỳ vọng, trường hợp phương sai So sánh hai tỷ lệ So sánh hai tỷ lệ So sánh hai mẫu không độc lập (paired t - test) Kiểm định giả thuyết phân phối Kiểm định giả thuyết phân phối Kiểm định giả thuyết tính độc lập Kiểm định giả thuyết tính độc lập 11 18 19 21 22 32 36 37 38 39 40 44 47 50 52 55 56 59 61 62 64 67 69 76 79 86 93 Bài toán kiểm định giả thuyết thống kê Bài toán kiểm định giả thuyết thống kê s Định nghĩa s Giả thuyết không đối thuyết s Cách đặt giả thuyết s Miền bác bỏ - Tiêu chuẩn kiểm định s Sai lầm loại I loại II s p - giá trị Định nghĩa Định nghĩa Giả thuyết thống kê phát biểu tham số, quy luật phân phối, tính độc lập đại lượng ngẫu nhiên Việc tìm kết luận để bác bỏ hay chấp nhận giả thuyết gọi kiểm định giả thuyết thống kê Ví dụ Giám đốc nhà máy sản xuất bo mạch chủ máy vi tính tuyên bố tuổi thọ trung bình bo mạch chủ nhà máy sản xuất năm; giả thuyết kỳ vọng biến ngẫu nhiên X = tuổi thọ bo mạch chủ Để đưa kết luận chấp nhận hay bác bỏ giả thuyết trên, ta cần dựa vào mẫu điều tra quy tắc kiểm định thống kê Giả thuyết không đối thuyết Định nghĩa Trong toán kiểm định giả thuyết, giả thuyết cần kiểm định gọi Giả thuyết không (null hypothesis), ký hiệu H0 Mệnh đề đối lập với H0 gọi đối thuyết (alternative hypothesis), ký hiệu H1 Xét toán kiểm định tham số, giả sử ta quan trắc mẫu ngẫu nhiên (X1 , , Xn ) từ biến ngẫu nhiên X có hàm mật độ xác suất f (x; θ) phụ thuộc vào tham số θ Gọi Θ không gian tham số, Θ0 Θc hai tập rời Θ cho Θ0 ∪ Θc = Θ Giả thuyết (giả thuyết không) đối 0 thuyết tốn có dạng sau H : θ ∈ Θ0 (1) H : θ ∈ Θc Giả thuyết khơng đối thuyết Ví dụ Gọi µ độ thay đổi trung bình huyết áp bệnh nhân sau dùng thuốc; bác sĩ điều trị cần quan tâm đến giả thuyết sau H0 : µ = Khơng có ảnh hưởng thuốc lên huyết áp bệnh nhân H1 : µ = Có ảnh hưởng thuốc lên huyết áp bệnh nhân Một khách hàng quan tâm đến tỷ lệ sản phẩm chất lượng lô hàng mua nhà cung cấp Giả sử tỷ lệ sản phấm tối đa phép 5% Khách hàng cần quan tâm đến giả thuyết sau H0 : p ≥ 0.05 Tỷ lệ sản phẩm cao mức cho phép H1 : p < 0.05 Tỷ lệ sản phẩm mức chấp nhận Cách đặt giả thuyết Giả thuyết đặt với ý đồ bác bỏ nó, nghĩa lã giả thuyết đặt ngược lại với điều ta muốn chứng minh, muốn thuyết phục Giả thuyết đặt cho chấp nhận hay bác bỏ có tác dụng trả lời tốn thực tế đặt Giả thuyết đặt cho ta xác định quy luật phân phối xác suất đại lượng ngẫu nhiên chọn làm tiểu chuẩn kiểm định Khi đặt giả thuyết, ta thường so sánh chưa biết với biết Cái chưa biết điều mà ta cần kiểm định, kiểm tra, làm rõ "Cái biết" thông tin khứ, định mức kinh tế, kỹ thuật Giả thuyết đặt thường mang ý nghĩa: "không khác nhau" "khác khơng có ý nghĩa" "bằng nhau" Cách đặt giả thuyết Tổng quát, toán kiểm định giả thuyết cho tham số θ có dạng (θ0 giá trị kiểm định biết): Hai phía: H0 : θ = θ0 H1 : θ = θ0 Một phía bên trái: H0 : θ ≥ θ0 H1 : θ < θ0 Một phía bên phải: H0 : θ ≤ θ0 H1 : θ > θ0 Miền bác bỏ - Tiêu chuẩn kiểm định Định nghĩa Xét toán kiểm định giả thuyết có giả thuyết H0 đối thuyết H1 Giả sử H0 đúng, từ mẫu ngẫu nhiên X = (X1 , , Xn ) chọn hàm Z = h(X1 , , Xn ; θ0 ) cho với số α > bé tùy ý ta tìm tập hợp Wα thỏa điều kiện P (Z ∈ Wα ) = α (2) c Tập hợp Wα gọi miền bác bỏ giả thuyết H0 phần bù Wα gọi miền chấp nhận giả thuyết H0 Đại lượng ngẫu nhiên Z = h(X1 , , Xn ; θ0 ) gọi tiêu chuẩn kiểm định giả thuyết H0 Giá trị α gọi mức ý nghĩa toán kiểm định Miền bác bỏ - Tiêu chuẩn kiểm định Thực quan trắc dựa mẫu ngẫu nhiên (X1 , , Xn ) ta thu mẫu thực nghiệm (x1 , , xn ) Từ mẫu thực nghiệm này, ta tính giá trị Z z = h(x1 , , xn ; θ0 ) s Nếu z ∈ Wα ta bác bỏ giả thuyết H0 s c Nếu z ∈ Wα ta kết luận chưa đủ sở để bác bỏ H0 10 Sai lầm loại I loại II Trong toán kiểm định giả thuyết thống kê, ta mắc phải sai lầm sau a Sai lầm loại I: sai lầm mắc phải ta bác bỏ H0 thực tế giả thuyết H0 Sai lầm loại I ký hiệu α, mức ý nghĩa kiểm định (3) α = P (Wα |H0 ) b Sai lầm loại II: sai lầm mắc phải ta chấp nhận giả thuyết H0 thực tế H0 sai Sai lầm loại II ký hiệu β c β = P (Wα |H1 ) (4) 11 Sai lầm loại I loại II XX XXX Thực tế XXX XXX Quyết định X Không bác bỏ H0 Bác bỏ H0 H0 H0 sai Khơng có sai lầm (1 − α) Sai lầm loại I α Sai lầm loại II β Khơng có sai lầm (1 − β) 12 Sai lầm loại I loại II Ví dụ Khảo sát tốc độ cháy loại nhiên liệu rắn dùng để đẩy tên lửa khỏi giàn phóng Giả sử biến ngẫu nhiên X = tốc độ cháy nhiên liệu (cm/s) có phân phối chuẩn với kỳ vọng µ độ lệch chuẩn σ = 2.5 Ta cần kiểm định giả thuyết H0 : µ = 50 H1 : µ = 50 Giả sử bác bỏ H0 khi: x < 48.5 x > 51.5 Các giá trị 48.5 51.5 gọi giá trị tới hạn (critical ¯ ¯ value) Giả sử khảo sát mẫu ngẫu nhiên cỡ n = 10, ta tìm xác suất sai lầm loại I α = P(Bác bỏ H0 H0 đúng) 13 Sai lầm loại I loại II Tức là, ¯ ¯ α = P(X < 48.5|µ = 50) + P(X > 51.5|µ = 50) ¯ ¯ 48.5 − 50 X − 50 51.5 − 50 X − 50 √ < √ √ < √ +P =P 2.5/ 10 2.5/ 10 2.5/ 10 2.5/ 10 = P(Z < −1.90) + P(Z > 1.90) = 0.0287 + 0.0287 = 0.0574 nghĩa có 5.74% số mẫu ngẫu nhiên khảo sát dẫn đến kết luận bác bỏ giả thuyết H0 : µ = 50 (cm/s) tốc độ cháy trung bình thực 50 (cm/s) Ta giảm sai lầm α cách mở rộng miền chấp nhận Giả sử với cỡ mẫu n = 10, miền chấp nhận 48 ≤ x ≤ 52, giá trị α ¯ 52 − 50 48 − 50 √ √ +P Z > 2.5/ 10 2.5/ 10 = 0.0057 + 0.0057 = 0.0114 α=P Z< 14 Sai lầm loại I loại II Cách thứ hai √ giảm α tăng cỡ mẫu khảo sát, giả sử cỡ mẫu n = 16, ta có để √ σ/ n = 2.5/ 16 = 0.625, với miền bác bỏ x < 48.5 x > 51.5, ta có ¯ ¯ ¯ ¯ α = P(X < 48.5|µ = 50) + P(X > 51.5|µ = 50) 48.5 − 50 51.5 +P Z > 0.625 0.625 = 0.0082 + 0.0082 = 0.0164 =P Z< Xác suất sai lầm loại II β tính sau β = P(Khơng bác bỏ H0 H0 sai) Để tính β, ta cần giá trị cụ thể cho tham số đối thuyết H1 15 Sai lầm loại I loại II ¯ Giả sử với cỡ mẫu n = 10, miền chấp nhận giả thuyết H0 48.5 ≤ X ≤ 51.5 giá trị thực µ = 52 Sai lầm β cho ¯ β = P(48.5 ≤ X ≤ 51.5|µ = 52) ¯ X − 52 51.5 − 52 48.5 − 52 √ √ ≤ √ ≤ =P 2.5/ 10 2.5/ 10 2.5/ 10 = P(−4.43 ≤ Z ≤ −0.63) = P(Z ≤ −0.63) − P(Z ≤ −4.43) = 0.2643 − 0.0000 = 0.2643 Giả sử giá trị thực µ = 50.5, ¯ β = P(48.5 ≤ X ≤ 51.5|µ = 50.5) ¯ 48.5 − 50.5 X − 50.5 51.5 − 50.5 √ √ √ =P ≤ ≤ 2.5/ 10 2.5/ 10 2.5/ 10 = P(−2.53 ≤ Z ≤ 1.27) = 0.8980 − 0.0057 = 0.8923 16 Sai lầm loại I loại II Tương tự α, tăng cỡ mẫu làm giảm sai lầm β, với cỡ mẫu n = 16 miền chấp nhận ¯ 48 < X < 52, ta tính β = 0.229 Bảng tổng kết sai lầm lầm loại I loại II với miền chấp nhận cỡ mẫu khác Miền chấp nhận 48.5 < x < 51.5 ¯ 48 < x < 52 ¯ 48.5 < x < 51.5 ¯ 48 < x < 52 ¯ n 10 10 16 16 β với µ = 52 0.2643 0.5000 0.2119 0.5000 α 0.0574 0.0114 0.0164 0.0014 β với µ = 50.5 0.8923 0.9705 0.9445 0.9918 Bảng 1: Sai lầm loại I loại II 17 Sai lầm loại I loại II - Nhận xét Ta giảm kích thước miền bác bỏ (tương ứng tăng kích thước miền chấp nhận), xác suất sai lầm loại I α cách chọn điểm tới hạn thích hợp Xác suất sai lầm loại I loại II có liên quan với Với cỡ mẫu cố định, việc giảm sai lầm loại làm tăng sai lầm loại Cố định điểm tới hạn, tăng cỡ mẫu n làm giảm xác suất sai lầm loại I α loại II β Nếu H0 sai, sai lầm β tăng giá trị thực tham số tiến gần đến giá trị phát biểu giả thuyết H0 18 p - giá trị (p - value) Định nghĩa Tương ứng với giá trị thống kê kiểm định tính mẫu giá trị quan trắc xác định, p - giá trị mức ý nghĩa nhỏ dùng để bác bỏ giả thuyết H0 Dựa vào đối thuyết H1 , bước tính p-giá trị sau: Xác định thống kê kiểm định: T S Tính giá trị thống kê kiểm định dựa mẫu (x1 , , xn ), giả sử a p-giá trị cho P(|T S| > |a||H0 ), kiểm định hai phía p = P(T S < a|H0 ), kiểm định phía - bên trái P(T S > a|H0 ), kiểm định phía - bên phải Kết luận: Bác bỏ giả thuyết H0 p-giá trị ≤ α Kiểm định giả thuyết cho trường hợp mẫu (5) 19 20 Kiểm định giả thuyết cho trường hợp mẫu s Kiểm định giả thuyết cho kỳ vọng x Trường hợp biết phương sai, x Trường hợp phương sai, mẫu nhỏ, x Trường hợp phương sai, mẫu lớn s Kiểm định giả thuyết cho tỷ lệ 21 Kiểm định giả thuyết cho kỳ vọng TH biết σ • Các giả định: s Mẫu ngẫu nhiên X1 , , Xn chọn từ tổng thể có phân phối chuẩn N (µ, σ ) với kỳ vọng µ chưa biết s Phương sai σ biết s Cho trước giá trị µ0 , cần so sánh kỳ vọng µ vi à0 ã Bi toỏn kim nh cú trường hợp: (a) H : µ = µ0 H : µ = µ0 (b) H : µ = µ0 H : µ < µ0 (c) H : µ = µ0 H : µ > µ0 với mức ý nghĩa α cho trước 22 Kiểm định giả thuyết cho kỳ vọng TH biết σ Các bước kiểm định Phát biểu giả thuyết không đối thuyết Xác định mức ý nghĩa α Lấy mẫu ngẫu nhiên cỡ n: X1 , , Xn tính thống kê kiểm định Z0 = ¯ X − µ0 √ σ/ n (6) Xác định miền bác bỏ Wα : bảng 23 Kiểm định giả thuyết cho kỳ vọng TH biết σ Giả thuyết H : µ = µ0 H : µ = µ0 H : µ = µ0 H : µ < µ0 H : µ = µ0 H : µ > µ0 Miền bác bỏ Wα = z0 : |z0 | > z1−α/2 Wα = z0 : z0 < −z1−α Wα = z0 : z0 > z1−α Bảng 2: Miền bác bỏ với đối thuyết tương ứng Kết luận: Bác bỏ H0 / Chưa đủ sở để bác bỏ H0 24 Kiểm định giả thuyết cho kỳ vọng TH biết σ • Sử dụng p-giá trị (p - value): tính p-giá trị dựa theo đối thuyết kết luận bác bỏ H0 p -giá trị ≤ α, với mức ý nghĩa α cho trước Công thức tính p - giá trị theo trường hợp xem bảng Giả thuyết H : µ = µ0 H : µ = µ0 H : µ = µ0 H : µ < µ0 H : µ = µ0 H : µ > µ0 p - giá trị p = [1 − Φ(|z0 |)] p = Φ(z0 ) p = − Φ(z0 ) Bảng 3: p-giá trị với đối thuyết tương ứng 25 10 So sánh hai phương sai • Khi đó, đại lượng F = 2 S1 /σ1 /σ S2 (13) có phân phối F với (n − 1, m − 1) bậc tự • Xét biến ngẫu nhiên F ∼ F(u, v) có hàm mật độ xác suất f (x), phân vị mức α F fα,u,v định nghĩa sau ∞ f (x)dx = α P(F > fα,u,v ) = (14) fα,u,v • Phân vị mức − α F cho f1−α,u,v = fα,u,v (15) 57 So sánh hai phương sai Các bước kiểm định 2 2 Phát biểu giả thuyết H0 : σ1 = σ2 đối thuyết H1 : σ1 = σ2 Xác định mức ý nghĩa α Khi H0 đúng, thống kê F = S1 S2 (16) có phân phối F với (n − 1, m − 1) bậc tự Xác định miền bác bỏ: bác bỏ H0 f > fα/2,n−1,m−1 f < f1−α/2,n−1,m−1 Kết luận: Nếu bác bỏ H0 , ta kết luận H1 với (1 − α) ∗ 100% độ tin cậy Ngược lại kết luận chưa đủ sở để bác bỏ H0 58 23 2 So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ1 = σ2 = σ s 2 2 Trường hơp σ1 = σ2 = σ , ta sử dụng ước lượng chung cho σ1 σ2 Sp gọi phương sai mẫu chung (pooled sample variance) Sp = s 2 (n − 1)S1 + (m − 1)S2 n+m−2 Thống kê T0 = ¯ ¯ X − Y − (µ1 − µ2 ) 1 + Sp n m (17) (18) có phân phối Student với n + m − bậc tự 59 2 So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ1 = σ2 = σ s Đặt df = n + m − 2, miền bác bỏ p - giá trị trường hợp có dạng Đối thuyết Miền bác bỏ p - giá trị H1 : µ1 − µ2 = D0 |t0 | > tdf 1−α/2 t0 < −tdf 1−α df t0 > t1−α p = 2P(Tdf ≥ |t0 |) H1 : µ1 − µ2 < D0 H1 : µ1 − µ2 > D0 s p = P(Tdf ≤ t0 ) p = P(Tdf ≥ t0 ) Kết luận: Bác bỏ H0 /Chưa đủ sở để bác bỏ H0 60 2 So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ1 = σ2 s 2 Khi σ1 = σ2 , sử dụng thống kê T0 = s ¯ ¯ X − Y − (µ1 − µ2 ) S1 S2 + n m (19) Khi T0 có phân phối Student với bậc tự df xác định sau (s2 /n) + (s2 /m) df = 21 (s1 /n) (s2 /m)2 + n−1 m−1 s (20) Miền bác bỏ trường hợp giống trường hợp phương sai nhau, thay bậc tự df cho phương trình (20) 61 24 So sánh hai kỳ vọng, trường hợp khơng biết phương sai Ví dụ 10 Tại thành phố, khu vực A, người ta chọn ngẫu nhiên 17 sinh viên cho làm kiểm tra để đo số IQs, thu trung bình mẫu 106 độ lệch tiêu chuẩn 10; khu vực B, số IQs trung bình mẫu gồm 14 sinh viên 109 với độ lệch tiêu chuẩn Giả sử phương sai Có khác biệt số IQs sinh viên hai khu vực A B hay không? α = 0.02 62 So sánh hai kỳ vọng, trường hợp khơng biết phương sai Ví dụ 11 Hàm lượng thạch tín (Asen) (Đv: ppb) nước cao có hại cho sức khỏe Người ta kiểm tra hàm lượng thạch tín hai khu vực trung tâm thành phố Biên Hòa khu vực gần sân bay Biên Hòa Tại khu vực, người ta đo ngẫu nhiên hàm lượng thạch tín nước ứng với 10 địa điểm khác Số liệu cho bảng thống kê bên Trung tâm TP 25 10 15 12 25 15 Khu vực gần sân bay 48 44 40 38 33 21 20 12 18 Với α = 0.05, kiểm tra xem có khác biệt hàm lượng thạch tín hai khu vực 63 So sánh hai tỷ lệ • Khảo sát phần tử thỏa tính chất A hai tổng thể độc lập với tỷ lệ tương ứng p1 p2 ; từ hai tổng thể chọn hai mẫu với cỡ n m Gọi X Y số phần tử thỏa tính chất A mẫu mẫu Khi đó, ta có X ∼ B(n, p1 ) Y ∼ B(m, p2 ) • Bài toán: so sánh tỷ lệ p1 p2 • Bài tốn kiểm định giả thuyết gồm trường hợp sau: (a) H0 : p1 − p2 = D0 H1 : p1 − p2 = D0 (b) H0 : p1 − p2 = D0 H1 : p1 − p2 < D0 (c) H0 : p1 − p2 = D0 H1 : p1 − p2 > D0 • Các giả định s Hai mẫu độc lập, s Cỡ mẫu lớn np1 > 5; n(1 − p1 ) > mp2 > 5; m(1 − p2 ) > 64 25 So sánh hai tỷ lệ Các bước kiểm định Phát biểu giả thuyết H0 đối thuyết H1 Xác định mức ý nghĩa α Tính thống kê kiểm định Z0 = ˆ ˆ P1 − P2 − D0 ˆ ˆ P (1 − P ) với (21) 1 + n m Y ˆ X +Y X ˆ ˆ P1 = ; P2 = ; P = n m n+m H0 đúng, Z ∼ N (0, 1) 65 So sánh hai tỷ lệ Xác định miền bác bỏ Đối thuyết Miền bác bỏ p - giá trị H1 : p1 − p2 = D0 H1 : p1 − p2 < D0 H1 : p1 − p2 > D0 |z0 | > z1−α/2 z0 < −z1−α z0 > z1−α p = 2[1 − Φ(|z0 |)] p = Φ(z0 ) p = − Φ(z0 ) Kết luận: Nếu bác bỏ H0 , ta kết luận H1 với (1 − α)100% độ tin cậy Ngược lại ta kết luận chưa đủ sở để bác bỏ H0 với α cho trước 66 So sánh hai tỷ lệ Ví dụ 12 Một cơng ty sản xuất thuốc cần kiểm tra loại thuốc có tác dụng giảm việc xuất đau ngực bệnh nhân Cơng ty thực thí nghiệm 400 người, chia làm hai nhóm: nhóm gồm 200 uống thuốc nhóm gồm 200 người uống giả dược Theo dõi thấy nhóm có người lên đau ngực nhóm có 25 người lên đau ngực Với α = 0.05, hay cho kết luận hiệu thuốc sản xuất 67 26 68 So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập (paired t - test) s Khi hai mẫu không độc lập giá trị quan trắc mẫu có mối liên hệ tương ứng với giá trị quan trắc mẫu thứ hai Như vậy, ta ghép cặp giá trị hai mẫu với s Việc ghép cặp kết việc x quan trắc giá trị trước sau thực thí nghiệm Chẳng hạn đo trọng lượng trước sau thực chế độ ăn kiêng x so sánh đặc tính x thí nghiệm địa điểm x thí nghiệm với thời gian 69 So sánh hai mẫu không độc lập (paired t - test) s Xét (X1i , X2i ), với i = 1, 2, , n, tập gồm n cặp giá trị quan trắc với giả sử kỳ vọng phương sai tổng thể đại diện X1 µ1 σ1 kỳ vọng phương sai tổng thể đại X X diện X2 µ2 σ2 1i 2j (i = j) độc lập s Định nghĩa độ sai khác cặp tập hợp giá trị quan trắc Di = X1i − X2i , i = 1, , n (22) s Các Di ,i = 1, , n giả sử có phân phối chuẩn s Goi µD = E(Di ), D1 , , Dn biến ngẫu nhiên độc lập có phân phối, d1 , , dn giá trị D1 , , Dn , ta định nghĩa 70 27 So sánh hai mẫu khơng độc lập (paired t - test) s Goi µD = E(Di ), D1 , , Dn biến ngẫu nhiên độc lập có phân phối, d1 , , dn giá trị D1 , , Dn , ta định nghĩa ¯ d= n s2 = d s n (23) di i=1 n−1 n i=1 ¯ (di − d)2 = n−1 n i=1 d2 − i n ¯ (d)2 n−1 (24) Ta cần kiểm định giả thuyết đối thuyết sau (a) H0 : µD = D0 H1 : µD = D0 H0 : µD = D0 H1 : µD < D0 (b) (c) H0 : µD = D0 H1 : µD > D0 71 So sánh hai mẫu không độc lập (paired t - test) Các bước kiểm định Phát biểu giả thuyết H0 đối thuyết H1 Xác định mức ý nghĩa α Tính thống kê kiểm định T0 = ¯ D − D0 √ SD / n (25) thống kê T0 có phân phối Student với n − bậc tự Xác định miền bác bỏ 72 28 So sánh hai mẫu không độc lập (paired t - test) Miền bác bỏ p - giá trị trường hợp có dạng Đối thuyết Miền bác bỏ p - giá trị H1 : µD = D0 n−1 |t0 | > t1−α/2 p = 2P(Tn−1 ≥ |t0 |) n−1 t0 < −t1−α H1 : µD < D0 H1 : µD > D0 t0 > n−1 t1−α p = P(Tn−1 ≤ t0 ) p = P(Tn−1 ≥ t0 ) Kết luận: Nếu bác bỏ H0 , ta kết luận H1 với (1 − α) ∗ 100% độ tin cậy Ngược lại kết luận chưa đủ sở để bác bỏ H0 • Trường hợp cỡ mẫu n > 30, toán kiểm định hai mẫu phụ thuộc thực tương tự trường hợp mẫu dựa mẫu ngẫu nhiên (D1 , , Dn ) 73 So sánh hai mẫu khơng độc lập Ví dụ 13 Một bác dinh dưỡng nghiên cứu chế độ ăn kiêng tập thể dục để làm giảm lượng đường máu bệnh nhân bị bệnh tiểu đường 10 bệnh nhân bị bệnh tiểu đường chọn để thử nghiệm chương trình này, bảng kết bên cho biết lượng đường máu trước sau bệnh nhân tham gia chương trình Trước Sau 268 106 225 186 252 223 192 110 307 203 228 101 246 211 298 176 231 194 185 203 Số liệu cung cấp có đủ chứng để kết luận chế độ ăn kiêng tập thể dục có tác dụng làm giảm lượng đường máu khơng? α = 0.05 74 Kiểm định Chi bình phương (Goodness-of-Fit-test) 75 Kiểm định giả thuyết phân phối • Bài toán: Khảo sát biến ngẫu nhiên X liên liên quan đến tổng thể có phân phối chưa biết Cần kiểm định xem phân phối tổng thể có phải F (x; θ) hay khơng? Chẳng hạn, ta cần kiểm định phân phối tổng thể xét phân phối chuẩn 76 29 Kiểm định giả thuyết phân phối Các bước kiểm định Chọn mẫu ngẫu nhiên cỡ n: (X1 , , Xn ) Chia miền giá trị biến ngẫu nhiên Xi thành K khoảng không trùng l1 , l2 , , lK (Trường hợp X biến ngẫu nhiên rời rạc, ta chia thành K điểm: x1 , x2 , , xK ) Gọi Oj số giá trị mẫu nằm khoảng lj (j = 1, 2, , K) (Trường hợp X biến ngẫu nhiên rời rạc tần số lặp lại giá trị xj ) Oj gọi tần số thực nghiệm Phát biểu giả thuyết H0 : X tuân theo luật phân phối F (x; θ) Khi đó, tính pj = P(X ∈ lj ) (hoặc P(X = xj ) X rời rạc) Đặt Ej = npj , Ej gọi tần số lý thuyết Điều kiện: Ej ≥ 5, j = 1, 2, , K 77 Kiểm định giả thuyết phân phối Thống kê kiểm định Q2 cho công thức K Q = j=1 (Oj − Ej )2 Ej (26) Q2 xấp xỉ phân phối χ2 với K − bậc tự Bác bỏ H0 Q2 ≥ χ2 α,K−r−1 (27) với r số tham số ước lượng Tìm χ2 α,K−r−1 : tra bảng Chi - bình phương 78 Kiểm định giả thuyết phân phối Ví dụ 14 Bảng thống kê số vụ tai nạn xe máy/ngày quận 80 ngày Số vụ tai nạn Số ngày 34 25 11 Với mức ý nghĩa 5%, kiểm tra xem số vụ tai nạn xe máy hàng ngày có tn theo luật phân phối Poisson hay khơng? 79 30 Kiểm định giả thuyết phân phối Gọi X = số vụ tai nạn xe máy/ngày Q.5; phát biểu giả thuyết H0 : X tuân theo luật phân phối Poisson với tham số λ Tính tần số thực lý thuyết Ej , j = 1, , Ej = npj = nP(X = xj ) Nếu X ∼ P (λ), xác suất pj tính sau pj = P(X = xj ) = e−λ λxj xj ! Do λ chưa biết nên ta sử dụng ước lượng λ ˆ λ= n Oi xi = i=1 80 Kiểm định giả thuyết phân phối Xác suất kết tính tần số lý thuyết cho bảng bên pi = P(X = xi ) p1 = p2 = p3 = p4 = e−1 10 0! e−1 11 1! e−1 12 2! e−1 13 3! p5 = − Ei = npi = 0.368 29.44 = 0.368 29.44 = 0.184 14.72 = 0.061 4.88 i=1 pi = 0.019 1.52 Tính thống kê Q2 , Q2 = j=1 (34 − 29.44)2 (3 − 1.52)2 (Oj − Ej )2 = + + = 4.67 Ej 29.44 1.52 81 Kiểm định giả thuyết phân phối Bác bỏ H0 khi: Q2 ≥ χ2 α,K−r−1 = χ0.05,5−1−1 Tra bảng, ta có χ2 0.05,3 = 7.815 Do Q2 = 4.67 < 7.815 nên kết luận chưa đủ sở để bác bỏ H0 Vậy, số vụ tai nạn giao thông/ ngày Q.5 tuân theo luật phân phối Poisson 82 31 Kiểm định giả thuyết phân phối Ví dụ 15 Điểm thi 200 sinh viên lớp học cho bảng bên Có ý kiến cho điểm thi sinh viên đại lượng ngẫu nhiên có phân phối chuẩn với điểm trung bình 75 độ lệch chuẩn Với α = 0.05, kiểm tra ý kiến Điểm thi Số sinh viên (0, 60] 12 (60, 70] 36 (70, 80] 90 (80, 90] 44 (90, 100] 18 83 Kiểm định giả thuyết phân phối Ví dụ 16 Nhóm máu 500 người chọn ngẫu nhiên từ khu vực cho bảng sau A 75 B 150 AB 15 O 260 Theo từ điển y khoa tỷ lệ nhóm máu dân số 0.18, 0.28, 0.05, 0.49 Hỏi nhóm máu dân số có phù hợp với từ điển y khoa hay không? Mức ý nghĩa 1% 84 Kiểm định giả thuyết phân phối Ví dụ 17 Chọn 100 người bệnh tâm thần phân loại vào mùa mà họ sinh ra, số liệu cho bảng sau: Xuân 20 Hạ 35 Thu 20 Đông 25 Hỏi bệnh có phụ thuộc vào mùa sinh hay không? Mức ý nghĩa 1% 85 32 Kiểm định giả thuyết tính độc lập • Bài tốn: s Giả sử phần tử tổng thể phân loại theo hai đặc tính khác nhau, gọi đặc tính X đặc tính Y X có r giá trị Y có s giá trị Gọi Pij = P(X = xi , Y = yj ) với i = 1, , r j = 1, , s Pij xác suất chọn phần tử tổng thể có đặc tính X i đặc tính Y j s Gọi s Pij , i = 1, , r Pij , pi = P(X = xi ) = j = 1, , s j=1 r qj = P(Y = yj ) = i=1 86 Kiểm định giả thuyết tính độc lập pi xác suất chọn phần tử tổng thể có đặc tính X xi , qj xác suất chọn môt phần tử tổng thể có đặc tính Y yj s Ta cần kiểm định xem X có độc lập với Y hay không? Phát biểu giả thuyết H0 : Pij = pi qj ∀i = 1, , r; j = 1, , s đối thuyết H1 : ∃ (i, j) cho Pij = pi qj 87 33 Kiểm định giả thuyết tính độc lập s Khảo sát N phần tử, ta bảng kết quả, toán gọi bảng ngẫu nhiên (contingency table): H HH Y X HH H y1 y2 ··· ys Tổng hàng x1 x2 n11 n21 n12 n22 ··· ··· n1s n2s n1 n2 xr Tổng cột nr1 m1 nr2 m2 ··· ··· nrs ms nr N Bảng đó, nij gọi tần số thực nghiệm 88 Kiểm định giả thuyết tính độc lập s Ước lượng pi qj ni , i = 1, , r N mj qj = ˆ , j = 1, , s N pi = ˆ s Gọi Nij số phần tử có đặc tính (xi , yj ) N phần tử khảo sát, Nij ∼ B(N, Pij ) Khi đó, E(Nij ) = N Pij = N pi qj H0 Đặt eij = N pi qj = ˆˆ n i mj N eij gọi tần số lý thuyết 89 34 Kiểm định giả thuyết tính độc lập Định lý (Pearson) Với Nij Eij = N Pij , biến ngẫu nhiên s r i=1 j=1 (Nij − Eij )2 Eij hội tụ theo phân phối biến ngẫu nhiên Chi bình phương χ2 (r−1)(s−1) bậc tự 90 Kiểm định giả thuyết tính độc lập Các bước kiểm định Phát biểu giả thuyết H0 : X Y độc lập Xác định tần số thực nghiệm nij tần số lý thuyết eij = n i mj N với ni mj tổng hàng i tổng cột j tương ứng, Điều kiện: eij ≥ 91 Kiểm định giả thuyết tính độc lập Tính thống kê kiểm định r s Q2 = i=1 j=1 (nij − eij )2 = eij r s i=1 j=1 n2 ij −N eij (28) Nếu H0 đúng, thống kê Q2 có phân phối Chi bình phương với (r − 1)(s − 1) bậc tự Bác bỏ H0 Q2 > χ2 (r−1)(s−1) (α) (29) 4b Sử dụng p-giá trị: p = P χ2 (r−1)(s−1) ≥ Q (30) Bác bỏ H0 khi: p ≤ α 92 35 Kiểm định giả thuyết tính độc lập Ví dụ 18 Một báo cáo khoa học y khoa tuyên bố việc sở hữu thú cưng nhà (chó mèo) làm tăng khả sống sót người chủ mà thường bị lên đau tim Một mẫu ngẫu nhiên gồm 95 người lên đau tim chọn để khảo sát Dữ liệu người khảo sát chia làm loại: - Những người sống sót/tử vong năm sau lên đau tim - Người sống sót/tử vong có ni thú cưng nhà hay khơng Kết cho bảng sau Có nuôi thú cưng Không nuôi thú cưng 28 44 15 Sống sót Tử vong 93 Kiểm định giả thuyết tính độc lập Phát biểu giả thuyết, H0 : Bệnh lên đau tim độc lập với việc ni thú cưng, Tính tần số thực nghiệm: với n1 = 72, n2 = 23, m1 = 36, m2 = 59 72 × 36 n m1 = = 27.284; N 95 n m1 23 × 36 = = = 8.716; N 95 n m2 72 × 59 = = 44.716 N 95 n m2 23 × 59 = = = 14.284 N 95 e11 = e12 = e21 e22 Tính giá trị thống kê Q2 2 Q = i=1 j=1 n2 ij −n= eij 282 442 82 152 + + + 27.284 44.716 8.716 15.284 − 95 = 0.125 94 Kiểm định giả thuyết tính độc lập Bác bỏ H0 khi: Q2 > χ2 (r−1)(s−1) (α) = χ1 (0.05) Tra bảng Chi - bình phương, ta χ2 (0.05) = 3.841 Q2 = 0.125, suy Q2 < 3.841 Ta kết luận chưa đủ sở để bác bỏ H0 tức bệnh lên đau tim độc lập với việc nuôi thú cưng 95 36 Kiểm định giả thuyết tính độc lập Ví dụ 19 Vé máy bay hãng hàng không Việt Nam Airline chia làm loại: Hạng thường (C), hạng trung (B) hạng doanh nhân (A) Hành khách máy bay VN Airlines nằm trong dạng sau: bay nội địa quốc tế Khảo sát 920 hành khách bay hãng, cho kết sau: Loại vé Hạng thường Hạng trung Hạng doanh nhân Loại chuyến bay Nội địa Quốc tế 29 22 95 121 518 135 Có ý kiến cho hành khách mua loại vé (A, B, C) phụ thuộc vào việc người bay nội địa hay quốc tế Với mức ý nghĩa 5%, kiểm tra ý kiến 96 37 ...2 Bài toán kiểm định giả thuyết thống kê Bài toán kiểm định giả thuyết thống kê s Định nghĩa s Giả thuyết không đối thuyết s Cách đặt giả thuyết s Miền bác bỏ - Tiêu chuẩn kiểm định s Sai lầm... bác bỏ giả thuyết trên, ta cần dựa vào mẫu điều tra quy tắc kiểm định thống kê Giả thuyết không đối thuyết Định nghĩa Trong toán kiểm định giả thuyết, giả thuyết cần kiểm định gọi Giả thuyết. .. a|H0 ), kiểm định phía - bên trái P(T S > a|H0 ), kiểm định phía - bên phải Kết luận: Bác bỏ giả thuyết H0 p-giá trị ≤ α Kiểm định giả thuyết cho trường hợp mẫu (5) 19 20 Kiểm định giả thuyết