Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 40 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
40
Dung lượng
1,67 MB
Nội dung
COURSE Kiểm định giả thuyết thống kê Phân tích thống kê Nhóm NCV trẻ Khương Quỳnh Long Hà Nội, 04/2020 https://gitlab.com/LongKhuong Nội dung • • • • • • Quần thể & mẫu Phân bố chuẩn & định lý giới hạn trung tâm Kiểm định giả thuyết thống kê P-value KTC 95% Sai lầm loại I, loại II lực thống kê Phân loại biến số Quần thể mẫu Quần thể & mẫu Quần thể & mẫu Thống kê mô tả - KTC - Kiểm định giả thuyết Quy luật số lớn (Law of Large Numbers - LLN) LLN - Ví dụ Dân số VN Mẫu Chiều cao TB1 Mẫu Chiều cao TB2 Mẫu Chiều cao TB3 Tbmẫu = Mẫu Chiều cao TB4 Mẫu Chiều cao TB Mẫu n Chiều cao TBn 𝑇𝐵1+𝑇𝐵2+𝑇𝐵3+ …+𝑇𝐵𝑛 𝑛 Trung bình mẫu trung bình dân số n lớn (+∞) Phân bố thống kê • Phân bố thống kê (Statistical distribution): hàm toán học cung cấp xác suất kết xảy ~Binomial ~Bernoulli Tung lần Tung 20 lần ~Normal Phân bố thống kê • Phân bố liên tục, rời rạc Phân bố chuẩn Phân bố chiều cao 135 145 155 165 175 185 195 10 Thận trọng với “Ý nghĩa thống kê” • P-value phụ thuộc cỡ mẫu • Ý nghĩa thống kê != ý nghĩa thực tế … Tham khảo thêm “P-value fallacy” “The difference between ‘signifcant’ and ‘not signifcant’ is not itself statistically signifcant.”1 1Blakeley B McShane, David Gal, Andrew Gelman, Christian Robert & Jennifer L Tackett (2019) Abandon Statistical Significance, The American Statistician, 73:sup1, 235-245 26 Khoảng tin cậy 27 Khoảng tin cậy 95% Nghiên cứu 10,000 người, tỉ lệ ung thư 10% (KTC 95% = 8% – 12%) Nghĩa là? 28 Khoảng tin cậy 95% • 95% khoảng tin cậy chứa giá trị thật dân số? • Xác suất để giá trị thật dân số nằm khoảng 95% ? 29 Khoảng tin cậy 95% • Theo Frequentist, giá trị thật dân số thật, khơng biết (unknown) cố định (fixed) • Nếu lặp lại nghiên cứu tương tự n lần, 95% số n lần tạo thành khoảng chứa giá trị thật dân số • 95%CI q trình “long-run” (95% n lần), không cụ thể cho mẫu (nghiên cứu) Cho nghiên cứu cụ thể, giá trị thật dân số nằm 95%CI không ! 30 Khoảng tin cậy 95% 31 Sai lầm loại I, II & lực thống kê 32 Xác suất sai lầm loại 1, lực thống kê (power) • Thống kê khoa học dựa vào nguyên lý xác suất • Kết luận diễn giải sai số quy ước (chấp nhận được) Thực tế Kết luận từ phương pháp thống kê Thuốc A = placebo (H0) Thuốc A > placebo (HA) Bác bỏ H0 Trường hợp Trường hợp Chấp nhận H0 Trường hợp Trường hợp 33 Xác suất sai lầm loại (α) • Trường hợp • Xác suất bác bỏ H0 H0 • Xác suất kết luận thuốc A > placebo thực tế thuốc A = placebo • Khả kết luận yếu tố có liên quan, có khác biệt (bác bỏ H0) thực khơng có liên quan, khơng có khác biệt Thực tế Kết luận Thuốc A = Thuốc A > • “Dương tính giả” từ placebo (H ) placebo (H ) phương Bác bỏ H Trường hợp Trường hợp • Thường chọn = 5% pháp A thống kê Chấp nhận H0 Trường hợp Trường hợp 34 Xác suất sai lầm loại (β) • Trường hợp • Xác suất chấp nhận H0 H0 sai • Xác suất kết luận thuốc A = placebo thực tế thuốc A > placebo • Khả kết luận yếu tố không liên quan, không khác biệt (chấp nhận H0) thực có liên quan, có khác biệt Thực tế Kết luận Thuốc A = Thuốc A > • “Âm tính giả” từ placebo (H ) placebo (H ) phương Bác bỏ H Trường hợp Trường hợp • Thường chọn = 20% pháp A thống kê Chấp nhận H0 Trường hợp Trường hợp 35 Lực thống kê (statistical power) • Trường hợp • – xác suất sai lầm loại (β) • Xác suất bác bỏ giả thuyết H0 (chấp nhận HA) giả thuyết H0 sai • Xác suất kết luận thuốc A > placebo thực tế thuốc A > placebo Thực tế • “Dương tính thật” Kết luận từ phương pháp thống kê Thuốc A = placebo (H0) Thuốc A > placebo (HA) Bác bỏ H0 Trường hợp Trường hợp Chấp nhận H0 Trường hợp Trường hợp 36 Tóm tắt 37 Phân loại biến số 38 Phân loại biến số • Có loại biến số? 39 Nội dung học • • • • • • Quần thể & mẫu Phân bố chuẩn & định lý giới hạn trung tâm Kiểm định giả thuyết thống kê P-value KTC 95% Sai lầm loại I, loại II lực thống kê Phân loại biến số 40 ... ~Binomial ~Bernoulli Tung lần Tung 20 lần ~Normal Phân bố thống kê • Phân bố liên tục, rời rạc Phân bố chuẩn Phân bố chiều cao 13 5 14 5 15 5 16 5 17 5 18 5 19 5 10 Phân bố chuẩn • • • • Normal (Gaussian) distribution... thuyết thống kê 14 Kiểm định giả thuyết 15 Q trình kiểm định ý nghĩa thống kê • • • • Được giới thiệu Ronald Fisher vào 19 20s Dựa triết lý phản nghiệm (falsificationism) Không chứng minh giả thuyết. .. thuyết Chỉ bác bỏ giả thuyết 16 Quá trình kiểm định ý nghĩa thống kê Xây dựng giả thuyết vô hiệu (Null) H0 giả thuyết thay HA Chọn lựa kiểm định thích hợp Tính giá trị thống kê số liệu thu thập