8/10/2021 1 KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ (Statistical hypothesis testing) DƯƠNG HỮU HUY 1 XỬ LÝ SỐ LIỆU 1 1 Biến NGẪU NHIÊN 1 2 Thống kê mô tả 1 3 Kiểm định giả thiết thống kê 1 4 Phân tích phương sai[.]
8/10/2021 XỬ LÝ SỐ LIỆU KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ (Statistical hypothesis testing) DƯƠNG HỮU HUY 1.1 Biến NGẪU NHIÊN 1.2 Thống kê mô tả 1.3 Kiểm định giả thiết thống kê 1.4 Phân tích phương sai 1.5 Hồi quy tuyến tính Phần 2: Kiểm định giả thuyết thống kê TÌNH HUỐNG • Thế tốn kiểm định GT TK • So sánh trị trung bình • Theo tiêu chuẩn trọng lượng gói mì đóng máy tự động 453 g Kiểm tra ngẫu nhiên 81 gói ta thấy trọng lượng trung bình 448 g Với mức ý nghĩa 0,05 cho trọng lượng gói mì khơng đạt tiêu chuẩn hay khơng, biết trọng lượng gói mì biến ngẫu nhiên có phân phối chuẩn với độ lệch chuẩn 36g? – So sánh trị trung bình – So sánh trị trung bình • So sánh phương sai – So sánh phương sai – So sánh phương sai 8/10/2021 CÁC BƯỚC TIẾN HÀNH BÀI TOÁN CÁC BƯỚC TIẾN HÀNH BÀI TOÁN (Dựa vào critical value => phù hợp với tính tốn thủ cơng) (Dựa vào P-value => phù hợp với sử dụng máy vi tính) • B1: Phát biểu giả thuyết: Ho H1 => phát biểu cho đúng? • B1: Phát biểu giả thuyết: Ho H1 => phát biểu cho đúng? • B2: Chọn tính chuẩn thống kê G => chọn chuẩn thống kê, áp công thức => giá trị tính • B3: Xác định mức ý nghĩa, tra bảng thống kê => Critical value (giá trị điểm giới hạn) • B4: So sánh giá trị tính với critical value • B5: Kết luận: có case – Case 1: Bác Ho • B2: Chọn tính chuẩn thống kê G => chọn chuẩn thống kê => P-value • B3: Xác định mức ý nghĩa, α • B4: So sánh P-value với α • B5: Kết luận: có case – Case 1: P-value < α => Bác Ho – Case 2: P-value > α => Chấp nhận Ho – Case 2: Chấp nhận Ho Critical value P-value • Giả thiết xét trường hợp phân phối chuẩn XÁC SUẤT MẮC SAI LẦM • VÌ CHÚNG TA CHỈ DỰA VÀO MẪU ĐỂ KẾT LUẬN VỀ TỔNG THỂ, NÊN KHI BÁC BỎ HAY CHẤP NHẬN H0, CHÚNG TA SẼ CĨ MẮC SAI LẦM: • SAI LẦM LOẠI 1: H0 ĐÚNG, NHƯNG TA BÁC H0, SX MẮC SAI LẦM LÀ α • SAI LẦM LOẠI 2: H0 SAI, NHƯNG TA CHẤP NHẬN H0, SX MẮC SAI LẦM LÀ β 8/10/2021 VD PHÂN BIỆT TYPE-1 AND TYPE-2 • TRONG THỰC TẾ CHÚNG TA CHỌN “THÀ MẮC SAI LẦM LOẠI 1, CÒN HƠN MẮC SAI LẦM LOẠI 2” TỨC LÀ: NẾU TA KHÔNG ĐỦ BẰNG CHỨNG ĐỂ CHẤP NHẬN H0 THÌ BÁC BỎ H0 • MỨC Ý NGHĨA α: LÀ XS MẮC SAI LẦM LOẠI 1, THƯỜNG ĐƯỢC CHỌN KHOẢNG 1-10% (5%) • Thẩm phán cần đưa phán cho đối tượng bị xét xử tội hình => Sẽ có trường hợp phán sau: – Case 1: Người vô tội (Ho đúng) => phán xét vô tội – Case 2: Người vơ tội (Ho đúng) => phán xét có tội (Type-1) – Case 3: Người có tội (Ho sai) => phán xét vô tội (Type2) – Case 4: Người có tội (Ho sai) => phán xét có tội GIẢ THUYẾT - HO • Ký hiệu H0 giả thuyết (giả thuyết rỗng – null hypothesis) tham số tổng thể, kèm với giả thuyết H0 mệnh đề đối lập gọi đối thuyết (alternate hypothesis), ký hiệu H1 Bài toán kiểm định giả thuyết thống kê gồm cặp giả thuyết H0 đối thuyết H1 • Dựa vào thơng tin mẫu lấy từ tổng thể ta phải đưa định bác bỏ hay chấp nhận giả thuyết H0 , việc chấp nhận giả thuyết H0 tương đương với bác bỏ đối thuyết H1 ngược lại • Với việc bắt đầu giả thuyết đúng, tìm chứng để định bác bỏ hay chấp nhận VỚI MỨC Ý NGHĨA α (xác suất mắc sai lầm loại 1) • VẬY: GIẢ THUYẾT HO ĐƯỢC PHÁT BIỂU NHƯ THẾ NÀO? 8/10/2021 VD PHÁT BIỂU HO MỘT SỐ BÀI TỐN KIỂM ĐỊNH CỤ THỂ • VD 1: Trọng lượng bao gạo tiêu chuẩn 50kg Nhiều ý kiến customer cho trọng lượng bao gạo không đủ Để kiểm tra lấy ngẫu nhiên 20 bao gạo cân khối lượng trung bình 49.3 kg phương sai KIỂM ĐỊNH TRỊ TRUNG BÌNH KIỂM ĐỊNH PHƯƠNG SAI KIỂM ĐỊNH TỈ LỆ => Phát biểu Ho: ………………… => H1: …………………… • VD 2: Một người bị xét xử tòa => Phát biểu Ho: ………………… => H1:………………… Cần phân biệt rõ khái niệm mẫu tổng thể Đại lượng thống kê kiểm định (so sánh) đại lượng gì? => Chọn chuẩn thống kê để kiểm định KIỂM ĐỊNH TRỊ TRUNG BÌNH A - KIỂM ĐỊNH TRỊ TRUNG BÌNH A KIỂM ĐỊNH TRỊ TRUNG BÌNH B KIỂM ĐỊNH TRỊ TRUNG BÌNH • KIỂM ĐỊNH > TRỊ TRUNG BÌNH (ANOVA) • BT: Có tổng thể cho trước có giá trị kỳ vọng µ0 Từ tổng thể lấy ngẫu nhiên n đơn vị (mẫu) đo, thu giá trị trung bình µ So sánh µ với µ0 • Phương pháp: z-test t-test Khi mẫu lớn (n>30) phương sai biết trước (σ) => z-test Khi mẫu nhỏ (n≤30) => t-test (1 mẫu) Lưu ý thuật ngữ sử dụng tài liệu: trị trung bình tổng thể ~ kỳ vọng (kí hiệu µ) 8/10/2021 Bài tốn 1: So sánh trị trung bình phương sai (σ) biết • Cơng thức tính ztính ttính Đã biết phương sai σ² N ≥ 30, chưa biết phương sai s² N < 30, chưa biết phương sai s² Phát biểu giả thuyết: ztính X 0 n ztính X 0 s n Bác H0 |ztính|> zα/2 ttính X 0 n s Bác H0 |ttính|> tα/2; (n-1) VD: Để kiểm tra xem điểm thi Toeic lớp TKTN&XLSL có 600 hay không, lấy ngẫu nhiên điểm 20 SV (bảng dưới) Hãy cho biết với mức ý nghĩa α = 5% điểm lớp có 600 hay không? Biết độ lệch chuẩn điểm thi 100 650 710 730 670 510 640 670 780 480 650 800 490 690 800 530 600 590 510 620 700 • Nhận xét: σ = 100 biết trước Giải: • Gọi điểm trung bình X BNN có phân phối chuẩn X ~ N(641; 1002) • B1: Phát biểu giả thiết: H0: µ = 600; H1: µ ≠ 600 • B2: Tính ztính: ztính X 0 n 641 600 20 1.8336 100 • B3: Tra bảng: Với α = 0.05 zα/2 = 1.96 • B4: So sánh: |ztính| < zα/2 • B5: KL: chấp nhận H0, tức với mức ý nghĩa α = 0.05 điểm lớp (khơng có khác biệt) với 600 Bài toán 2: So sánh trị trung bình phương sai chưa biết, mẫu lớn (n ≥30) VD: Điểm thi trung bình khối 10 24, lấy ngẫu nhiên 36 thí sinh tính trị trung bình 24.7 độ lêch chuẩn Hỏi với mức ý nghĩa α = 5% giá trị trung bình thí sinh có khác với khối khơng? • Nhận xét: n = 36 > 30 (mẫu lớn); σ chưa biết, giá trị σ = độ lệch chuẩn tính từ mẫu 8/10/2021 Giải: • Gọi điểm trung bình X BNN có phân phối chuẩn X ~ N(24.7; 22) • B1: Phát biểu giả thiết: H0: µ = 24; v H1: 24 ã B2: Tớnh ztớnh: ztớnh X 0 n 24.7 24 36 2.1 • B3: Tra bảng: Với α = 0.05 zα/2 = 1.96 • B4: So sánh: |ztính| > zα/2 • B5: KL: Bác H0, tức với mức ý nghĩa α = 0.05 điểm trung bình thí sinh có khác với điểm trung bình khối Giải: • Gọi điểm trung bình X BNN có phân phối chuẩn X ~ N(24.7; 22) • B1: Phát biểu giả thiết: H0: µ = 600; H1: µ ≠ 600 • B2: Tính ttính: ttính X 0 606.8 600 n 10 1.64 s 13.14 • B3: Tra bảng: Với α = 0.05 tα/2; = 2.2622 • B4: So sánh: |ttính| < tα/2; • B5: KL: chấp nhận H0, tức với mức ý nghĩa α = 0.05 điểm lớp khơng có khác biệt với 600 Bài toán 3: So sánh trị trung bình phương sai chưa biết, mẫu bé (n µ2 Thế độc lập? VD: so sánh chiều cao trung bình khoa CNTP vs QTKD? • z-test: mẫu lớn (n > 30 σ² biết trước) • t-test: mẫu nhỏ (n ≤ 30), chia thành trường hợp • Phương pháp: z-test (mẫu lớn) t-test (mẫu nhỏ, ghép đơi) • Trong tốn so sánh trị trung bình mẫu có trường hợp xuất hiện: – mẫu độc lập với (z-test, t-test) – mẫu phụ thuộc lẫn (mẫu ghép đôi) (paired t-test) – Phương sai nhau: σ²1 = σ²2 – Phương sai khác nhau: σ²1 ≠ σ²2 8/10/2021 z-test t-test • Mẫu lớn: n >30 biết trước phương sai σ² • Mẫu nhỏ: n ≤ 30 chưa biết phương sai, xét case (Lưu ý: để so sánh phương sai ta dùng F-test): z 1 12 n1 22 n2 ã Trong ú: à, , n l tr trung bình, phương sai số lần đo mẫu – Phương sai nhau: σ²1 = σ²2 (công thức dưới) – Phương sai khác nhau: σ²1 ≠ σ²2 (công thức phức tạp (cần hiệu chỉnh df)=> không xét đây) t X1 X 1 sp n1 n2 sp (n1 1) s12 (n2 1) s22 n1 n2 df n1 n2 Case 2: Hai mẫu phụ thuộc Paired t-test • Thế phụ thuộc? => mẫu có tính liên hệ trước sau VD: để đánh giá hiệu thuốc giảm cân người ta chọn 20 người thử nghiệm Trước thử thuốc, tiến hành cân khối lượng 20 người Sau thử thuốc 30 ngày, tiến hành xác định lại cân nặng 20 người So sánh khối lượng trước sau • Cơng thức tính t: • TH khác: Để đánh giá hiệu thuốc ngủ, người ta cho 20 người sử dụng thuốc ngủ cho 20 người khác sử dụng giả dược, đo so sánh chiều dài giấc ngủ nhóm Hỏi: mẫu phụ thuộc hay độc lập? n t d i X 1i X 2i n d d i i 1 n (d sd i d )2 i 1 n 1 d sd n 8/10/2021 Bài toán 4: So sánh trị trung bình mẫu lớn ( n>30 phương sai biết trước) Giải: • B1: Phát biểu giả thuyt: H0: à1 = à2; H1: à1 à2 ã B2: Tính zt: 1 7.32 7.66 zt 12 n1 • Nhận xét: Q: Tại toán so sánh trị trung bình mẫu lớn biết phương sai?? • Q: dùng chuẩn để kiểm định sao? Bài tốn 5: So sánh trị trung bình mẫu nhỏ ( n≤30 chưa biết phương sai) • Cho kết phân tích hàm lượng đạm (gN/L) có mẫu nước mắm A B bảng sau Hãy so sánh hàm lượng đạm sản phẩm này? (Giả sử: phương sai mẫu = nhau) A 33.5 33.9 33.5 34.9 34.1 33.2 33.2 31.1 31.1 31.7 10 B 31.1 32.9 32.8 31.9 33.0 31.6 32.1 31.5 31.0 31.0 n2 1.09 1.12 64 68 1.77 • B3: Với α =0.01 zα/2 = 2.576 = zb • B4: So sánh: |zt| < zb • B5: KL: chấp nhận H0, với mức ý nghĩa 1% điểm tốn trường ngang Giải: • Tính: • Vì tốn cho biết sA = sB, nên khơng cần test lại phương sai • B1: Đặt giả thuyết: H0: XA = XB; H1: XA ≠ XB • B2: Tính tt: ttt n 22 XA XB 33.02 31.89 2.357 1 1 Sp 1.0719 n A nB 10 10 Sp ( n A 1) S A2 (nB 1) S B2 1.0719 n A nB df = nA + nB -2 =18 8/10/2021 • B3: Với α = 0.05, tra bảng t0.025;18 = 2.101 (vì kiểm định phía, nên α/2!) Bài tốn 6: So sánh trị trung bình mẫu nhỏ phụ thuộc => Miền bác bỏ: (-∞, -2.101) U (2.101, + ∞) • Để đánh giá tác dụng loại thuốc A (giúp tăng sức khỏe), người ta thử nghiệm TNV Trước dùng thuốc TNV yêu cầu nâng tạ nặng Sau tuần dùng thuốc TNV yêu cầu nâng tạ Kết cho bảng sau Hỏi vitamin có tác dụng hay khơng? • B4: So sánh: |ttt| > tb • B5: KL: bác H0, chấp nhận H1 => với mức ý nghĩa 5% hàm lượng đạm sản phẩm khác • Mở rộng: Nếu câu hỏi cho biết sản phẩm A có hàm lượng cao sản phẩm B giải nào? => one-tail Giải • B1: Đặt giả thuyết: H0: X1 = X2; H1: X1 ≠ X2 • B2: Tính ttt: t tt d sd 375 84 n n (X d 1i X 2i ) i 1 n n (d sd Lập bảng tính! i d )2 i 1 n 1 39 TNV Trước 210 230 182 205 262 253 219 216 Sau 236 179 204 270 250 222 216 219 • Q: Tại toán so sánh trị trung bình mẫu nhỏ phụ thuộc • Q: ta dùng kiểm định gì? X1 Trước TNV X2 Sau 210 230 182 205 262 253 219 216 219 236 179 204 270 250 222 216 Sum(X1i-X2i) dtb X1i-X2i di-dtb -9 -6.625 -6 -3.625 5.375 3.375 -8 -5.625 5.375 -3 -0.625 2.375 -19 Sum(di-dtb)^2 -2.375 sd (di-dtb)^2 43.89063 13.14063 28.89063 11.39063 31.64063 28.89063 0.390625 5.640625 163.875 4.838462 • B3: Với α = 5%, df=n-1 = => tb = t0.025; = 2.365 => Miền bác bỏ: (-; -2.365) U (+2.365; +) • B4: So sánh: |ttt|< tb • B5: chấp nhận H0 => với α = 5%, thuốc khơng có tác dụng 8/10/2021 Bài tập Bài tập Bài tập Bài tập 8/10/2021 Bài tập 10 KIỂM ĐỊNH PHƯƠNG SAI • Một nhóm bệnh nhân gồm 10 người điều trị thuốc giảm huyết áp Huyết áp đo lúc chưa dùng thuốc sau dùng thuốc cho bảng sau Hỏi thuốc điều trị có tác dụng làm giảm huyết áp khơng với mức ý nghĩa 1% 5%? • KIỂM ĐỊNH PHƯƠNG SAI MẪU • KIỂM ĐỊNH PHƯƠNG SAI MẪU Trước 180 140 160 160 220 185 145 160 160 170 Sau 170 145 145 125 205 185 150 150 145 155 Bài toán 7: So sánh phương sai mẫu • Ta cần so sánh phương sai mẫu s² với giá trị phương sai cho trước σ² • Đây tốn so sánh phương sai với phương sai biết => dùng chuẩn Chi-square • Cơng thức tính χt² t (n 1) s 2 Với mức ý nghĩa α, thực tra bảng χ² với bậc tự df=n-1 (lưu ý: tính bất đối xứng bình phương) 8/10/2021 VD: So sánh phương sai mẫu Giải: • B1: Phát biểu giả thuyết: Ho: σ² = 0.01; H1: σ² ≠ 0.01 • B2: Tính χtt²: tt2 (n 1) s (20 1) * 0.0153 29.07 02 • Nhận định: toán so sánh phương sai, phương sai mẫu? • Dùng chuẩn để thực kiểm định? Bây giờ, giải vd với kiểm định phía (one-tail) • B1: Đặt giả thuyết: Ho: Ho: σ² = 0.01; H1: σ² > 0.01 (Kiểm vế phải) • B2: Tính χtt²: = 29.07 • B3: Với α = 5%, χ ²19;α= 30.14 => Miền bác bỏ: (30.14, +∞) • B4: So sánh χtt² < χ ²19;α • B5: KL: chấp nhận Ho, với α = 5% máy đóng chai đạt chuẩn 0.01 • B3: Với α = 5%, χ ²19;α/2= 32.85; χ ²19;1α/2=8.907 => Miền bác bỏ: (-∞, 8.907) U (32.85, + ∞) • B4: So sánh: χtt² nằm ngồi miền bác bỏ • B5: KL: Chấp nhận H0 => Với mức ý nghĩa 5% máy đóng chai đạt chuẩn Bài tập 11 8/10/2021 Bài toán 8: So sánh phương sai mẫu Với mức ý nghĩa α, thực tra bảng Fisher với bậc tự df1 = n1-1 df2 = n2-1 • Cho BNN X1 có X1~N(µ1, σ1²) X2 có X2~N(µ2, σ2²) Ta cần so sánh phương sai mẫu σ1² σ2² • Đây toán so sánh phương sai mẫu=> dùng chuẩn Fisher • Cơng thức tính Ft: s12 Ft s2 VD: So sánh phương sai • Q: Tại lại nhận định toán so sánh phương sai? • Q: Dùng kiểm định thống kê để thực hiên? Giải • B1: Đặt giả thuyết: H0: s²1 = s²2; H1: s²1 ≠ s²2 (kiểm phía, two-tail) • B2: Tính Ftt: Ftt s1 17 0.654 s22 26 • B3: Với α = 5%, df1 = n1-1 = 14; df2 = n2-1 =12 => Fb = F0.025; 14;12 = 3.177 => F0.0975;14;12= 0.3148 => Miền bác bỏ: (0, 0.3148) U (3.177, + ∞) • B4: So sánh: Ft > 0.3148 Ft < 3.177 • B5: KL chấp nhận H0 => với mức ý nghĩa 5% hai máy xem có độ xác 8/10/2021 Bây kiểm phía cho vd • B1: Đặt giả thuyết: H0: s²1 = s²2; H1: s²1 < s²2 (kiểm phía trái, one-tail) s 17 • B2: Tính Ftt: F 0.654 tt s22 26 • B3: Với α = 5%, df1 = n1-1 = 14; df2 = n2-1 =12 => Fb = F0.05; 14;12 = 2.62 => F0.0975;14;12= 0.3817 => Miền bác bỏ: (0, 0.3817) • B4: So sánh: Ft > 0.3817 • B5: KL chấp nhận H0 => với mức ý nghĩa 5% hai máy xem có độ xác A B 4.40 4.42 4.56 4.47 4.42 4.70 4.59 4.72 4.55 4.53 4.45 4.55 4.55 4.60 4.39 4.64 4.75 4.29 10 4.72 4.52 11 4.53 4.57 12 4.66 4.56 13 4.90 4.66 14 4.50 4.36 15 4.45 4.22 • Bài tập 13: Có máy đo pH A B, đo pH mẫu sữa chua (bảng bên) a) Tính đại lượng đặc trưng tập liệu b) Phương sai tập liệu có khác khơng, với σ = 5%, 1%? Bài tập 12