Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
296,5 KB
Nội dung
Chương5ĐIỀUTRACHỌNMẪU VÀ ƯỚC LƯỢNG ( Survey sampling methods and Estimation ) Đặt vấn đề: - Tổng thể nghiên cứu trong thực tế có thể vơ hạn hay hữu hạn song khơng phải lúc nào cũng có thể hoặc cũng cần thu thập dữ liệu trên tồn bộ tổng thể. Từ đó, điềutrachọnmẫu và ước lượng các tham số của tổng thể chung từ tổng thể mẫu là các phương pháp chủ lực trong thống kê thực hành. - Về mặt phương pháp luận, lý thuyết mẫu là nội dung động nhất của lý thuyết về khoa học thống kê. Giải quyết vấn đề: Từ bản chất của phương pháp mẫu, có 2 nội dung cơ bản cần giải quyết là chọn tổng thể mẫu và ước lượng kết quả. Tài liệu tham khảo cho SV: - Lý thuyết: giáo trình Xác suất thống kê, Thống kê ứng dụng, Kinh tế lượng…. - Ứng dụng: các tài liệu hướng dẫn trong các cuộc điềutrachọnmẫu của TCTK: www.gso.gov.vn và các tài liệu điềutra thực tế của các đơn vò. 1. MỘT SỐ VẤN ĐỀ CH UNG VỀ ĐIỀUTRACHỌNMẪU : 1.1.Khái niệm: ĐTCM là điềutra khơng tồn bộ trên một số đơn vị của tổng thể và từ đó suy rộng thành các đặc trưng của tồn bộ tổng thể. Từ khái niệm trên, có 2 nội dung cơ bản cần giải quyết trong ĐTCM là: -Chọn tổng thể mẫu: + phương pháp chọnmẫu + số lượng đơn vị tổng thể (kích thước mẫu) . -Suy rộng kết quả ( ước lượng ): + phương pháp + cơng thức. 1.2. Ưu điểm và hạn chế (so với điềutra tồn bộ) Tiêu chí ĐTCM ĐT tồn bộ 1.Sai số: - Sai số chọnmẫu - Sai số do kê khai (phi CM) 2.Chi phí: 3.Tổ chức: 4.Nội dung: 5. Ứ ng dụng : Có thấp hơn tiết kiệm hơn nhanh gọn hơn có thể mở rộng -Khi tổng thể không thể ĐT t.bộ. -Cần tổng hợp nhanh tài liệu. -Phúc tra,… -ĐT nghiên cứu thị trường, ĐT xã hội hội học,… Không cao hơn / / / - Cần thiết cho các nguồn thông tin quan trọng. 1.3. Sai số trong ĐTCM . Trong ĐTCM tồn tại 2 loại sai số: - Sai số do kê khai (nonsampling error) - Sai số chọnmẫu ( sampling error : б ) 1.4. Các ký hiệu thường dùng. Chỉ tiêu Tổng thể chung Tổng thể mẫu 1. Số đơn vị tổng thể 2. Các tham số -Số trung bình -Tỉ lệ -Phương sai +của STB + của tỉ lệ N θ µ p б 2 б x 2 б p 2 = p (1-p ) n θ’ x p ˆ s 2 s 2 x ) ˆ 1( ˆ 2 pp s p −= 2. CÁC PHƯƠNG PHÁP CHỌNMẪU ( Types of survey sampling methods) 2.1. Phân loại. 2.1.1. Căn cứ vào mức độ ngẫu nhiên khi chọn mẫu: 2 loại phương pháp *Chọn mẫu phi ngẫu nhiên (có chủ đích) (non random sampling). - Xuất hiện trước ( khoảng 300 năm trước) - Xuất phát từ các nhà thống kê thực hành . - Khơng có luận cứ chứng minh. * Chọnmẫu ngẫu nhiên (random sampling). - Xuất hiện sau ( đầu thế kỷ 20) - Do các nhà thống kê lý thuyết chứng minh. - Có cơ sở khoa học (lý thuyết xác suất): đònh lý giới hạn trung tâm (the central limit theorem) Trong thực hành, thường chọnmẫu theo phương pháp kết hợp giữa ngẫu nhiên và phi ngẫu (a mixture of random and non random sampling): chọnmẫu cả khối, chọnmẫu nhiều giai đoạn (multi- stage sampling) 2.1.2. Căn cứ theo yếu tố xác suất khi chọn mẫu: 2 loại chọn mẫu. *Chọn mẫu theo xác suất ( probability samples ). *Chọn mẫu khơng theo xác suất ( nonprobability samples ). Các phương pháp chọnmẫu CM khơng theo XS CM theo XS Judgment Quota Chunk Convenience Simple Systematic Stratified Cluster Sample Sample Sample Sample Random Sample Sample Sample Sample 2.1.3. Căn cứ theo sự thay đổi của tổng thể khi chọn mẫu: 2 phương pháp *Chọn hồn lại (chọn lặp, chọn nhiều lần) (select with replacement) *Chọn khơng hồn lại (chọn khơng lặp, chọn một lần)(select without replacement) 2.2. Một số phương pháp chọnmẫu ngẫu nhiên thơng dụng. 2.2.1. Chọnmẫu ngẫu nhiên đơn giản (simple random sample) Là phương pháp hồn tồn ngẫu nhiên, khơng qua một sự sắp xếp nào. *Kỹ thuật: - rút thăm ( “ names in a hat”or Raffle method) - quay số ( “lottery” method ) - dùng Bảng số ngẫu nhiên ( random number tables method) *Ưu điểm: hồn tồn ngẫu nhiên, bảo đảm tính khách quan. *Hạn chế: -Khơng bảo đảm tính đại biểu khi tổng thể có cấu thành phức tạp. -Khó đánh số thứ tự các đơn vị tổng thể khi tổng thể lớn. *Áp dụng: khi giữa các đơn vị tổng thể khơng khác biệt lớn. 2.2.2 Chọnmẫu hệ thống (Systematic sample). Trong chọnmẫu ngẫu nhiên hệ thống các đơn vị được chọn từ tổng thể chung một cách tuần tự và có khoảng cách ( d ) đều nhau. Bao gồm: - chọnmẫu hệ thống theo đường thẳng. - chọnmẫu hệ thống xoay vòng. *Kỹ thuật: -d : khoảng cách về thời gian, khơng gian, thứ hạng. -Xác định d = n N -Chọn đơn vị đầu tiên một cách ngẫu nhiên, sau đó chọn các đơn vị còn lại tuần tự có khoảng cách d. *Ưu điểm: - đơn giản. - các đơn vị trải đều, từ đó tính đại diện có thể cao. *Hạn chế: - có thể xuất hiện sai số hệ thống. - khi d là số thập phân thì phải làm tròn số , từ đó khi ước lượng có thể bị chệch. *Áp dụng: khi tổng thể có biến động tương đối đều theo thời gian, khơng gian,… 2.2.3. Chọnmẫu phân tổ (stratified sample) Trong chọnmẫu phân tổ, các đơn vị tổng thể chung được phân thành k tổ và tổng thể mẫu được chọn từ các tổ của tổng thể chung. Có 2 cách phân bổ số đơn vị mẫuchọn từ từng tổ: - Phân bổ theo tỉ lệ (với số đơn vị mỗi tổ) - Phân bổ khơng theo tỉ lệ( phân bổ Neyman) *Kỹ thuật: - Phân tổ tổng thể chung thành k tổ. - Chọn các đơn vị mẫu từ các tổ theo phương pháp phân bổ thích hợp. + Phân bổ theo tỉ lệ: Ưu điểm: dễ thực hiện, từ đó được áp dụng phổ biến hơn trong thực tế. Hạn chế: phụ thuộc vào sự phân tổ tổng thể chung. Nếu phân tổ phù hợp với hiện tượng thì tính đại biểu sẽ cao. Nếu khơng, sẽ ngược lại. +Phân bổ Neyman: phân bổ theo sự biến thiên trong nội bộ tổ ( độ lệch chuẩn) Ưu điểm: tính đại diện rất cao. Hạn chế: khi phải ước tính độ lệch chuẩn sẽ khơng bảo đảm có sự phân bố tốt nhất. *Áp dụng: khi tổng thể chung lớn và cấu thành các khối theo loại hình, địa bàn,… 2.2.4. Chọnmẫu cả khối (cụm) (cluster sample) Là chọnmẫu các khối, sau đó tiến hành điềutra tồn bộ trên các khối đã chọn. *Kỹ thuật:- chọnmẫu các khối của tổng thể chung. - điềutra tồn bộ trên từng khối . *Ưu điểm: nhanh gọn. *Hạn chế: nếu giữa các khối có chênh lệch lớn thì tính đại diện thấp. *Áp dụng: - trong từng khối của tổng thể chung khá chênh lệch. - giữa các khối của tổng thể chung ít chênh lệch. Ngồi ra, vài phương pháp khác như: chọnmẫu theo xác suất tỉ lệ với qui mơ, chọnmẫu nhiều giai đoạn ,…. 3. SAI SỐ CHỌNMẪU (σ),PHẠM VI SAI SỐ CHỌNMẪU (ε) VÀ KÍCH THƯỚC MẪU (n) TRONG ĐTCM NGẪU NHIÊN ĐƠN GIẢN. 3.1. Sai số chọnmẫu ( σ ) Là trung bình của các sai số chênh lệch giữa tham số của từng tổng thể mẫu có thể được chọn khác nhau với tham số thật sự của tổng thể chung. Trong tính toán, từng chênh lệch nói trên giữa từng tham số mẫu với tham số của tổng thể chung (θ i ’ - θ ) có thể là chênh lệch + hay chênh lệch - . Do vậy, ta phải bình phương chênh lệch và sau đó lấy căn bậc 2. Như vậy, cuối cùng sai số chọnmẫu được tính là độ lệch chuẩn của các số trung bình mẫu ( σ x ). Từ đó, có 2 nội dung cần xác đònh là: * Từ N đơn vị tổng thể chung, số khả năng thiết lập tổng thể mẫu với n đơn vị là: –Trường hợp chọn hồn lại: 2 Nk = - Trường hợp chọn khơng hồn lại: )!(! ! nNn N Ck n N − == TD: N = 4 , n =2 . Tổng thể chung: A B C D. Chọn có hồn lại: 2 Nk = = 2 4 = 16. Các tổng thể mẫu có thể chọn được là: AA AB AC AD BB BA BC BD CC CA CB CD DD DA DB DC. → Các tham số tương ứng của các tổng thể mẫu là: ', 3 ' 2 ' 1 , .,,, k θθθθ ⇒ k Sai số. → Như vậy, Sai số chọnmẫu là sai số trung bình chọnmẫu (Sai số chuẩn: standard error : SE ) ξ θθ = − = ∑ k SE k i 1 2' )( Tuy nhiên, trong thựïc hành người ta chỉ tiếp cận với 1 tổng thể mẫu cụ thể và sai số chọnmẫu được tính như sau: σ x = n 2 σ **Ngoài ra, Sai số chọnmẫu gồm hai loại: -Sai số ngẫu nhiên: do các đơn vị được chọn ngẫu nhiên -Sai số hệ thống: khi mẫu được chọn có chủ đích. → Nhìn chung , sai số chọnmẫu thường được hiểu là sai số ngẫu nhiên. Cơng thức Sai số chọnmẫu trong chọnmẫu ngẫu nhiên đơn giản: CHỌN HỒN CHỌN KHƠNG HỒN σ = n 2 σ = n σ σ = − N n n 1 σ 2 Khi ước Lượng Số trung bình σ x = n 2 σ σ x = − N n 1 n 2 σ Khi Ước Lượng Tỉ lệ σ p = n 2 σ = n pp )1( − σ p = n 2 σ = − − N n 1 n )p1(p Trong đo ù : ++ Công thức sai số chọnmẫu σ = n 2 σ = n σ được xây dựng trên cơ sở chọn có hoàn lại. Trong thực tế, tổng thể mẫu có n quan sát thường được chọn không hoàn lại từ tổng thể chung hữu hạn có N phần tử. Từ đó, khi tính sai số chọnmẫu trong trường hợp chọn không hoàn lại cần có đại lượng Hệ số điều chỉnh tổng thể hữu hạn (finite population correction factor : fpc) : fpc = − − 1N nN = − N n 1 ++ Trường hợp chọn không hoàn, khi N rất lớn so n (thông thường N n ≤ 0,05 ) thì ( 1- N n ) → 1 : có thể dùng công thức như chọn có hoàn lại. Ghi chú : Thơng thường , khi tính Sai số chọnmẫu ta chưa biết 2 σ , thứ tự ưu tiên xử lý như sau: 1. Dùng phương sai lớn nhất của lần điềutra trước nếu có. Áp dụng thích hợp với những hiện tượng khơng có sự thay đổi lớn trong q trình phát triển. 2. Sử dụng phương sai của cuộc điềutra tương tự ở nơi khác. Áp dụng nếu hiện tượng nghiên cứu ở nơi khác cũng có những đặc điểm và điều kiện tương tự với hiện tượng nghiên cứu. 3. Tiến hành điềutra thí điểm để tính độ lệch tiêu chuẩn. Nếu hiện tượng nghiên cứu có phân phối chuẩn thì có thể ước tính độ lệch tiêu chuẩn theo khoảng biến thiên R. Theo Qui tắc 3 σ , nếu X~ N ( µ , 2 σ ) thì hầu hết các giá trị của X sai lệch với µ khơng q 3 lần σ . Ta có : R= (xmax - xmin) = ( µ +3 σ ) – ( µ -3 σ ) = 6 σ ⇒ σ = 6 R = 6 minmax xx − 4 . Dùng phương sai mẫu ( s 2 ): được sử dụng nhiều nhất trong thực hành. 3.2. Phạm vi sai số chọnmẫu (ε ) Được xác định nhằm phục vụ cho việc suy rộng từ kết quả của tổng thể mẫu thành kết quả của tổng thể chung. ε phụ thuộc vào : + Sai số chọnmẫu σ + Độ tin cậy của tài liệu suy rộng ( 1 - α ) là xác suất đúng của tài liệu suy rộng. Từ độ tin cậy mong muốn, xác định hệ số tin cậy z. Độ tin cậy càng cao thì hệ số tin cậy càng lớn. Cơng thức: ε = σ z 2 trường hợp chính: a. Tổng thể có phân phối chuẩn + biết 2 σ * Ư ớc lượng 2 bên: ε = σ z 2 α = z 2 α n 2 σ Khi ước lượng STB: ε x = z 2 α x σ = z 2 α n σ Khi ước lượng tỉ lệ: ε p = z 2 α p ˆ σ = z 2 α n )p1(p − * Ư ớc lượng 1 bên : ε = σ z α b. Tổng thể có phân phối chuẩn, n < 30 + chưa biết 2 σ : ε = s t * ệ c lng 2 bờn: = s t n-1, 2 * ệc lng 1 bờn : = s t n-1, 3.3. Xỏc nh kớch thc mu ( Estimating the sample size) a. Choùn hoaứn laùi : T cụng thc = z 2 n 2 n = 2 22 2 x z / b. Choùn khoõng hoaứn laùi: T cụng thc = z 2 n 2 (1- N n ) n = 22 2 2 22 2 + / / zN Nz x Cụng thc xỏc nh kớch thc mu trong chn mu ngu nhiờn n gin: CHN HON CHN KHễNG HON Khi c Lng STB n = 2 22 2 x z / n = 22 2 2 22 2 + / / zN Nz x Khi c Lng T l n = 2 2 2 p pqz / n = pqzN pqNz p 2 2 2 2 2 + / / 5. C LNG ( Estimate) TRONG TCM. 5.1. Khỏi nim Phõn loi: Trong ĐTCM, ước lượng là sự suy rộng từ kết quả các tham số của tổng thể mẫu thành kết quả các tham số của tổng thể chung. * Có 2 phương pháp ước lượng: - Ước lượng trực tiếp. - Ước lượng gián tiếp. Ước lượng trực tiếp là dùng 1 đặc trưng của tổng thể mẫu để ước lượng cùng đặc trưng đó của tổng thể chung.Thí dụ, dùng trung bình mẫu x để ước lượng trung bình của tổng thể µ ,…. Ước lượng gián tiếp là dùng 1 đặc trưng của tổng thể mẫu cùng các tham số có liên quan để ước lượng 1 đặc trưng của tổng thể chung, thí dụ ước lượng hồi qui,… Trong thực hành, chủ yếu dùng ước lượng trực tiếp. Có thể phân biệt các loại ước lượng trực tiếp sau: *Căn cứ vào khoảng ước lượng: - Ước lượng điểm. - Ước lượng khoảng. * Căn cứ vào tổng thể ước lượng: - Ước lượng cho đơn vị tổng thể - Ước lượng cho tổng thể 5.2. Ước lượng điểm. Thống kê tốn chứng minh: E ( x ) = µ E ( p ˆ ) = p E ( s 2 ) = s 2 Nghĩa là các tham số mẫu là ước lượng khơng chệch của các tham số chung. Ước lượng điểm bò hạn chế do phụ thuộc vào tổng thể mẫu cụ thể chọn được. 5.2. Ước lượng Khoảng. Cơng thức: θ’- ε ≤ θ ≤ θ’ + ε → θ’- Z σ ≤ θ ≤ θ’ + Z σ Cụ thể: → *Ước lượng Số trung bình: x - z α/2 n 2 σ ≤ µ ≤ x + z α/2 n 2 σ [...]... hoàn lại và chọn không hoàn lại với độ tin cậy 95% , phạm vi sai số chọnmẫu không vượt quá 2 ,5% và đđộđlệch chuẩn của các lần điềutra trước là 37%, 42%, 45% 2 Biết rằng kết quả điềutra cho thấy 20% số hộ gia đình có thu nhập lớn hơn thu nhập bình qn chung Dựa vào kết quả điều trachọn có hồn lại, hãy xác định sai số chọnmẫu khi suy rộng tỉ lệ chung 05. 5: Cơng ty TNHH Bánh kẹo Bình Tân có 50 0 cơng nhân,... lượng bên phải Câu 5: Với cùng sai số chọn mẫu, Khỏang tịn cậy càng lớn thì: d Hệ số tin cậy càng lớn e Độ tin cậy càng lớn f a, b đúng g a, b sai 05. 3: Hãy trả lời đúng (Đ) , sai (S) cho các câu sau: a _ Tổng thể mẫu là một bộ phận của tổng thể chung được chọn ra để phân tích b _ Điềutra nghiên cứu thị trường chủ yếu là điều trachọnmẫu c _ Kiểm kê kho định kỳ là ĐT chọnmẫu d _ Sai số do... ĐT chọnmẫu thường cao hơn trong ĐT tòan bộ 05. 4: Để dự báo một số chỉ tiêu quan trọng liên quan đến chiến lược tài chính năm 2010 và năm 2020 của quốc gia, ngành tài chính đã kết hợp với ngành thống kê tiến hành điều trachọnmẫu về thu nhập, tiết kiệm và đầu tư của dân cư ở một số tỉnh thành Thành phố BMT có 100.000 hộ gia đình Yêu cầu:1 Cần điềutra thực tế bao nhiêu hộ gia đình trong trường hợp chọn. .. : θ’ + ε BÀI TẬP 05. 1: Hãy liên hệ thực tế để cho thí dụ về từng phương pháp chọnmẫu ngẫu nhiên thơng dụng 05. 2: Chọn câu trả lời đúng nhất: Câu 1: Một nhân viên tiếp thị qua điện thọai cài đặt để lưu lại trong máy tính của cơng ty các số điện thọai tuần tự với khỏang cách 20 chọn từ danh mục các cuộc điện đàm của cơng ty từ đầu đến cuối tháng 2/2009 Nhân viên trên đã dùng phương pháp chọnmẫu ngẫu... động của CN đóng gói Chọn ngẫu nhiên hồn lại 50 CN để theo dõi NSLĐ đóng gói Kết quả như sau: NSLĐ 1 kg/giờ) 20 – 30 30 – 40 40 – 50 50 – 60 Tổng u cầu:1 CN (x: Số CN (f :người) 14 17 11 8 50 Hãy ước lượng NSLĐ bình qn một CN đóng gói thành phẩm của cơng ty với độ tin cậy 98% 2 Để phạm vi sai số chọnmẫu khi suy rộng NSLĐ bình qn khơng vượt q 3 kg với độ tin cậy 98%, cần chọnmẫu bao nhiêu CN? 3 NSLĐ... 21-30 31- 65 66-99 Cộng Đã bị tai nạn(%) 0,48 0, 45 0,98 1,12 3,03 Chưa bị tai nạn(%) 7 ,52 14 ,55 48,02 26,88 96,97 Tổng cộng(%) 8 15 49 28 100 Yêu cầu: 1 Lập bảng tính tỉ trọng nhóm bò tai nạn và chưa bò tai nạn của từng nhóm tuổi so với tổng số quan sát của nhóm tuổi Cho nhận xét về tỉ lệ bò tai nạn theo các nhóm tuổi 2 Ước lượng tỉ trọng đã bò tai nạn của nhóm tuổi 31- 65 với độ tin cậy 95% Cho biết... thống c Phân tổ d Cả khối e Phương pháp khác Câu 2: Khi kích thước tổng thể mẫu càng lớn thì có ảnh hưởng: a Giảm sai số chọnmẫu b Tăng sai số do kê khai c Khơng ảnh hưởng đến sai số trong điềutra TK d a, b, c đúng e a, b, c sai Câu 3:Trong thực hành, ước lượng các tham số của tổng thể chung chỉ từ tham số của 1 tổng thể mẫu cụ thể: a Là sự hạn chế của phương pháp b Là hạn chế đã được tính đến trong... mẫu khi suy rộng NSLĐ bình qn khơng vượt q 3 kg với độ tin cậy 98%, cần chọnmẫu bao nhiêu CN? 3 NSLĐ trước cải tiến SX là 36 ,5 kg/người/giờ Giả thiết rằng NSLĐ của CN có phân phối chuẩn, với mức nghĩa 2%, có thể kết luận NSLĐ sau cải tiến SX cao hơn NSLĐ trước cải tiến khơng ? 05. 6: Một công ty bảo hiểm nghiên cứu tình hình bò tai nạn của những người hành nghề lái xe nhằm hoạch đònh phương án thu phí . các cuộc điều tra chọn mẫu của TCTK: www.gso.gov.vn và các tài liệu điều tra thực tế của các đơn vò. 1. MỘT SỐ VẤN ĐỀ CH UNG VỀ ĐIỀU TRA CHỌN MẪU : 1.1.Khái. sampling): chọn mẫu cả khối, chọn mẫu nhiều giai đoạn (multi- stage sampling) 2.1.2. Căn cứ theo yếu tố xác suất khi chọn mẫu: 2 loại chọn mẫu. *Chọn mẫu theo