Phần 6 - Mô hình phân phối mẫu và khoảng tin chắc cho các phần. Chương này trình bày hai nội dung chính: Các mô hình phân phối mẫu (Sampling distribution models), khoảng tin chắc cho các phần (Confidence intervals for proportions). Mời tham khảo.
9/8/2010 Phần 06 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Cơng QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ Các mơ hình phân phối mẫu Các khoảng tin cho phần ©2010, Nguyễn Duy Long, Tiến Sỹ 9/8/2010 Sampling Distribution Models ©2010, Nguyễn Duy Long, Tiến Sỹ Các khảo sát ln biểu thị biến đổi lấy mẫu cá thể khác Chú Chúng t ta ẽ dự d báo bá biến biế đổi Thay Th vìì lặp lặ lại l i nhiều hiề mẫu ẫ thực, tưởng tượng điều xảy ta thực thực nhiều mẫu Hãy tưởng tượng: ◦ ◦ 25% độc giả VnExpress ủng hộ thu phí ơtơ vào trung tâm 64 sinh viên lớp người lấy khảo sát 100 thị dân, hỏi họ có ủng hộ phương án thu phí khơng Điều xảy ta xem biểu đồ tần suất tất phần ủ mẫu ẫ cho h khảo khả sát Bạn nghĩ biểu đồ tần suất tất phần mẫu này? ©2010, Nguyễn Duy Long, Tiến Sỹ 9/8/2010 Ta kỳ vọng biểu đồ tần suất phần mẫu tập trung phần (proportion) thực, thực p, quần thể Ta mơ mẫu ngẫu nhiên mà không thật lấy mẫu Biểu đồ tần suất mốt, đối xứng, trung tâm p ©2010, Nguyễn Duy Long, Tiến Sỹ Dưới hình dạng phân phối Phân phối nhắc bạn điều gì? ©2010, Nguyễn Duy Long, Tiến Sỹ 9/8/2010 Dùng mơ hình chuẩn hợp lý! Với phần, biết trị trung bình có độ lệch chuẩn: h ẩ pq n Phân phối phần mẫu mơ với mơ hình xác suất: N p, pq n ©2010, Nguyễn Duy Long, Tiến Sỹ Mơ hình chuẩn tốt cho phân phối phần kích thước mẫu lớn Ta cần kích thước mẫu sao? Sẽ trình bày sau… ©2010, Nguyễn Duy Long, Tiến Sỹ 9/8/2010 Các mơ hình hữu ích giả định chúng thật Hai giả định trường hợp mô hình cho phân phối phần mẫu: Các giá trị lấy mẫu độc lập Kích thước mẫu, n, phải đủ lớn Các giả định khó để kiểm tra Cần kiểm tra giả định hợp lý cách kiểm ể tra điều ề kiện cho biết ế thơng tin ề giả định ©2010, Nguyễn Duy Long, Tiến Sỹ Điều kiện 10% (10% condition): Nếu mẫu không lấy với thay thế, kích thước mẫu, ẫ n, phải khơng lớn 10% quần ầ thể ể Điều kiện thành công/thất bại (Success/failure condition): Kích thước mẫu phải đủ lớn để np nq lớn 10 ©2010, Nguyễn Duy Long, Tiến Sỹ 10 9/8/2010 Ứng viên A có 55% quần thể thích ứng viên cịn lại (B), kỳ vọng 100 người bầu Ta xác định xác suất ứng viên A có 50% hay phiếu bầu, hay thua ◦ Trị trung bình: ( pˆ ) p = 0.55 ◦ Độ lệch chuẩn: SD( pˆ ) pq n = 0.049 ◦ z = (0.50 - 0.55)/0.049 = -1.005 ◦ Pr(bầu < 0.50) = 0.157 Có kh khoảng ả 16% hội ứ ứng viên iê B thắng, hắ dù phần hầ lớn thích ứng viên A ©2010, Nguyễn Duy Long, Tiến Sỹ 11 Một phần khơng tính tốn từ tập hợp liệu ệ Nó ộ lượng ợ g ngẫu g nhiên có p phân phối ◦ Phân phối gọi mơ hình phân phối mẫu (sampling distribution model) cho phần Dù ta phụ thuộc vào mơ hình phân phối mẫu, khơng thật thấy Các mơ hình phân phối mẫu quan trọng vì: ◦ Chúng đóng vai trị cầu nối từ giới thực liệu đến giới tưởng tượng thống kê ◦ Cho ta biết quần thể tất ta có liệu từ giới thực ©2010, Nguyễn Duy Long, Tiến Sỹ 12 9/8/2010 Các phần (proportions) tóm tắt biến định tính Ta làm điều tương tự với liệu định tính? ©2010, Nguyễn Duy Long, Tiến Sỹ Như trị thống kê tính từ mẫu ngẫu nhiên, trị trung bình mẫu có phân phối mẫu ẫ Có thể dùng mơ để xem phân phối mẫu trị trung bình mẫu sao… Ví dụ, mơ súc sắc 10,000 lần: Số lần tu ung 13 Số nút ©2010, Nguyễn Duy Long, Tiến Sỹ 14 9/8/2010 Trung bình số nút súc sắc mô 10,000 lần ầ tung: Trung bình số nút súc sắc mô 10,000 lần tung: Số lần tung Số lần tung Số nút trung bình súc sắc Số nút trung bình súc sắc ©2010, Nguyễn Duy Long, Tiến Sỹ Trung bình số nút súc sắc mô phỏng10,000 lần ầ tung: Trung bình số nút 20 súc sắc mô hỏ 10 000 lần 10,000 lầ tung: ần tung Số lầ Số lầ ần tung 15 Số nút trung bình súc sắc Số nút trung bình 20 súc sắc ©2010, Nguyễn Duy Long, Tiến Sỹ 16 9/8/2010 Khi mẫu lớn (số súc sắc), bình qn mẫu có khả gần trị trung bình quần thể ◦ Ta thấy tiếp tục gần 3.5 Phân phối mẫu trị trung bình trở thành phân phối chuẩn ©2010, Nguyễn Duy Long, Tiến Sỹ 17 Định lý giới hạn trung tâm (Central Limit Theorem, CLT) phát biểu trị trung bình mẫu ngẫu nhiên có phân phối mẫu có hình dạng xấp xỉ mơ g lớn,, việc ệ xấp p xỉ g tốt hình chuẩn Mẫu Phân phối mẫu trị trung bình trở thành phân phối chuẩn kích thước mẫu lớn CLT tốt nếu… ◦ Kích thước mẫu lớn ◦ Mơ hình quần thể gần với mơ hình chuẩn ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9/8/2010 Mơ hình quần thể mẫu khác nhau, gồm trị trung bình Biểu đồ tần suất trị trung bình từ tất mẫu Biểu đồ tần suất tương tự với phân phối ©2010, Nguyễn Duy Long, Tiến Sỹ 19 CLT nói phân phối mẫu trị trung bình hay phần xấp xỉ mơ hình chuẩn Mơ hình chuẩn phần phối mẫu phần: pq ( pˆ ) p SD pˆ n Mơ hình chuẩn phân phối mẫu trị trung bình: ( y) SD y n σ độ lệch chuẩn quần thể ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10 9/8/2010 Dùng CLT đòi hỏi kiểm tra điều sau: Điều kiện lấy mẫu ngẫu nhiên (Random Sampling Condition): Các giá trị liệu phải lấy mẫu cách ngẫu nhiên không khái niệm phân phối mẫu khơng có ý nghĩa nghĩa Giả định tính độc lập (Independence Assumption): Các giá trị mẫu phải độc lập (Khi mẫu lấy mà khơng có thay thế, kiểm tra điều kiện 10%…) CLT không tốt cho mẫu nhỏ, hay liệu bị lệch lớn Cho phần (proportions) điều có nghĩa kỳ vọng có 10 thành cơng 10 thất bại mẫu Khơng có qui tắc cho trị trung bình – kinh nghiệm cho biến cố rời rạc có 10 lần xuất kỳ vọng cho biến cố ©2010, Nguyễn Duy Long, Tiến Sỹ 21 Giả định trọng lượng trung bình của người Việt Nam 60 kg độ lệch chuẩn 10 kg Thang máy trường ĐH Bách Khoa có giới hạn tối ố đa 15 người hay 1000 kg Xác suất 15 người dùng thang máy vượt tải trọng cho phép? ◦ Bạn cần biết trọng lượng tất 15 người hay cần trọng lượng trung bình nhóm? ◦ Bạn có cần biết trọng lượng phân phối chuẩn? ◦ Các giả định ta thỏa để dùng CLT? ◦ Hãy tính xác suất ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11 9/8/2010 Độ lệch chuẩn phân phối mẫu giảm với bậc hai kích thước mẫu T Trong ta t ln l muốn ố có ó mẫu ẫ lớn lớ hơn, hơ ă bậc bậ hai giới hạn mẫu nói quần thể (Một ví dụ qui tắc thu lại giảm (Law of Diminishing Returns) Trở lại với ví dụ kế hoạch thu phí xe vào thành phố TP.HCM p ©2010, Nguyễn Duy Long, Tiến Sỹ 23 Có thể dùng trị thống kê mẫu để ước lượng thông số quần thể Bất ta ước lượng độ lệch chuẩn phân phối mẫu, mẫu ta gọi sai số chuẩn (standard error) error) ◦ Với phần mẫu, sai số chuẩn SE pˆ ˆˆ pq n ◦ Với trị trung bình mẫu, sai số chuẩn SE y s n ◦ Với s độ lệch chuẩn mẫu Tính sai số chuẩn giống với tính độ lệch chuẩn khác ký hiệu! ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12 9/8/2010 Confidence Intervals for Proportions ©2010, Nguyễn Duy Long, Tiến Sỹ Mơ hình phân phối mẫu độ đ lệch l h chuẩn h ẩ pq pˆ 25 có trung tâm p, n Vì khơng biết p, ta khơng thể tìm độ lệch chuẩn thực mơ hình phân phối mẫu, cần tìm sai số chuẩn: ˆˆ SE( pˆ ) pq n ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13 9/8/2010 Từ qui tắc 68-95-99.7%, ta biết: ◦ Khoảng 68% tất mẫu có pˆ SE p ◦ Khoảng 95% tất ấ mẫu ẫ có pˆ SE p ◦ Khoảng 99.7% tất mẫu pˆ SE p Từ p ˆ , thường ước tính phần thực p với mẫu cho… ©2010, Nguyễn Duy Long, Tiến Sỹ 27 Xem xét mức 95%: ◦ Có khoảng 95% hộ p khơng lớn lần sai số chuẩn (SE) từ p ˆ ◦ Nếu vươn lầnSE, ta có 95% chắn p khoảng Nói cách khác, vươn lần SE theo hai hướng p ˆ , ta có 95% tin khoảng chứa phần thực ◦ Phần lại lớn (khoảng 2.5% hội) hay thấp ấ (khoảng 2.5% hội) Điều gọi khoảng tin 95% (95% confidence interval) * Hay xác 95.45% hội ©2010, Nguyễn Duy Long, Tiến Sỹ 28 14 9/8/2010 Vươn lần SE theo hai bên pˆ cho ta 95% tin ta “bẫy” phần thực p Nguồn: De Veaux, 2006, tr.429) ©2010, Nguyễn Duy Long, Tiến Sỹ 29 Mỗi khoảng tin dùng trị số thống kê mẫu để ước lượng tham số quần thể Nhưng mẫu biến đổi, trị số thống kê ta dùng, khoảng tin ta xây dựng biến đổi ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15 Hình bên số khoảng tin thu nạp phần thực (đường màu xanh nằm ngang), số khơng: Độ tin q trình xây dựng khoảng, khơng phải khoảng Vì vậy, ta kỳ vọng 95% tất khoảng tin 95% chứa tham số quần thể thực ước lượng Nguồn: De Veaux, 2006, tr.431 Phần (proportio on) 9/8/2010 Mẫu số ©2010, Nguyễn Duy Long, Tiến Sỹ 31 Ta tuyên bố với khoảng 95% tin chắc, khoảng pˆ 2* SE ( pˆ ) chứa phần thực ◦ Tầm khoảng cho bên pˆ gọi biên sai số (lỗi) (margin of error (ME)) Tổng quát, khoảng tin có dạng: ước lượng (estimate) ± ME Càng muốn độ tin lớn, ME cần lớn Tổng quát, dạng biên sai số (ME), với z* giá trị tới h hạn ((critical i i l value) l ) ME z SE pˆ ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16 9/8/2010 • Bây ta tin hơn, thiệt gì? Nguồn: De Veaux, 2006, tr.432) ©2010, Nguyễn Duy Long, Tiến Sỹ 33 Càng tin (confident), xác (precise) Mọi khoảng tin cân chắn (certainty) xác (precision) ◦ Trong hầu hết trường hợp ta vừa chắn chắn cách đầy đủ xác cách đầy đủ để có phát biểu hữu ích Lựa chọn mức tin tùy tiện, nhớ “sức căng” chắn xác chọn mức tin Các mức tin hay dùng 90%, 95%, 99%, dùng phần trăm ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17 9/8/2010 Sự cân chắn (certainty) xác (precision), thái cực cực Nguồn: De Veaux, 2006, tr.433) ©2010, Nguyễn Duy Long, Tiến Sỹ 35 Bạn làm việc với phòng tiếp thị cửa hiệu bán giầy dép trực tuyến khảo sát ngẫu nhiên 100 người ề ý kiến ế họ đối ố với mẫu ẫ website 60% người khảo sát thích website so với website củ ◦ Khoảng tin 95% cho phần thực người mua thích website hơn? Biên sai số bao nhiêu? ◦ Khoảng tin 99.7% cho phần thực người mua thích website ebs te hơn? Biên ê sa sai số bây g bao nhiêu? ◦ Nếu muốn tin xác hơn, theo bạn cần phải làm gì? ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18 9/8/2010 ‘2’ pˆ 2*SE( pˆ ) (khoảng tin 95%) từ qui tắc 6895-99.7% Bảng z cho giá trị xác cho khoảng tin 95% 1.96 96 thay 2 ◦ Ta gọi 1.96 giá trị tới hạn (critical value) ký hiệu z* Cho mức tin chắc, tìm giá trị tới hạn tương ứng ©2010, Nguyễn Duy Long, Tiến Sỹ 37 Với khoảng tin 90%, giá trị tới hạn 1.645 Chú ý tính đối xứng! ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19 9/8/2010 Tất mơ hình xác suất phụ thuộc giả định (assumptions) ◦ Mô hình khác phụ thuộc vào giả định khác ◦ Nếu giả định không đúng, mô hình khơng thích hợp kết luận dựa vào mơ hình sai Ta khơng chắn giả định đúng, ta thường định giả định có hợp lý khơng cách kiểm tra điều kiện liên quan ©2010, Nguyễn Duy Long, Tiến Sỹ 39 Trước tạo khoảng tin cho phần, cần kiểm tra Giả đinh độc lập (independence assumption): Giá trị liệu giả định độc lập Điều Điề kiện kiệ độc độ lập lậ hợp h lý (Plausible (Pl ibl Independence I d d Condition): Có lý để tin giá trị liệu ảnh hưởng nhau? Với lấy mẫu không thay thế, kiểm tra điều kiện 10% Điều kiện ngẫu nhiên hóa Giả định kích thước mẫu (Sample Size Assumption): Mẫu cần lớn để dùng CLT Điều kiện thành cơng/thất bại (Success/Failure Condition) ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20 9/8/2010 Khoảng z phần (one-proportion z-interval) gọi khoảng tin cho phần (the confidence interval for a proportion) Khi điều kiện thỏa, tìm khoảng tin chắn (CI) cho phần hầ ủ quần ầ thể, hể p Khoảng tin ± biên sai số (ME) pˆ CI pˆ z SE pˆ với ˆˆ SE( pˆ ) pq n Giá trị tới hạn, z*, phụ thuộc vào mức tin tương ứng, C ©2010, Nguyễn Duy Long, Tiến Sỹ 41 Từ phương trình ME để xác định kích thước mẫu cần thiết để tạo khoảng tin với ME cho với mức tin cho: z n ˆˆ pq ME với z* giá trị tới hạn cho mức tin cho cho ©2010, Nguyễn Duy Long, Tiến Sỹ 42 21 9/8/2010 Sếp bạn nghĩ khảo sát trước (60% thích, 100 người) miên man khơng thể hữu ích Sếp muốn tăng xác xác Tính số người bạn cần có khảo sát Bạn muốn có 95% tin phần thực người mua sắm thích website từ 55% đến 65%? Nếu bạn muốn có 99.7% tin chắn cho khoảng? ©2010, Nguyễn Duy Long, Tiến Sỹ 43 Chủ tịch xã nhỏ (5000 người) đề nghị huyện xây nhà sinh hoạt cộng đồng, lập luận việc xây dựng cải thiện đời sống ố văn hóa dân Tổng cộng 183 dân xã tham gia buổi tham vấn cộng đồng đề án, việc biểu đưa tay có 31 người ủng hộ đề án ◦ Bạn kết luận ý kiến người dân xã đề án? ◦ Ta có nên xây dựng khoảng tin 95% ? ©2010, Nguyễn Duy Long, Tiến Sỹ 44 22 9/8/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 45 23 ... z = (0.50 - 0.55)/0.049 = -1 .005 ◦ Pr(bầu < 0.50) = 0.157 Có kh khoảng ả 16% hội ứ ứng viên iê B thắng, hắ dù phần hầ lớn thích ứng viên A ©2010, Nguyễn Duy Long, Tiến Sỹ 11 Một phần không... đối xứng, trung tâm p ©2010, Nguyễn Duy Long, Tiến Sỹ Dưới hình dạng phân phối Phân phối nhắc bạn điều gì? ©2010, Nguyễn Duy Long, Tiến Sỹ 9/8/2010 Dùng mơ hình chuẩn hợp lý! Với phần, ... ©2010, Nguyễn Duy Long, Tiến Sỹ 12 9/8/2010 Các phần (proportions) tóm tắt biến định tính Ta làm điều tương tự với liệu định tính? ©2010, Nguyễn Duy Long, Tiến Sỹ Như trị thống kê tính