Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
296,5 KB
Nội dung
Chương5 ĐIỀU TRA CHỌN MẪU VÀ ƯỚC LƯỢNG ( Survey sampling methods and Estimation ) Đặt vấn đề: - Tổng thể nghiên cứu trong thực tế có thể vơ hạn hay hữu hạn song khơng phải lúc nào cũng có thể hoặc cũng cần thu thập dữ liệu trên tồn bộ tổng thể. Từ đó, điều tra chọn mẫu và ước lượng các tham số của tổng thể chung từ tổng thể mẫu là các phương pháp chủ lực trong thống kê thực hành. - Về mặt phương pháp luận, lý thuyết mẫu là nội dung động nhất của lý thuyết về khoa học thống kê. Giải quyết vấn đề: Từ bản chất của phương pháp mẫu, có 2 nội dung cơ bản cần giải quyết là chọn tổng thể mẫu và ước lượng kết quả. Tài liệu tham khảo cho SV: - Lý thuyết: giáo trình Xác suất thống kê, Thống kê ứng dụng, Kinh tế lượng…. - Ứng dụng: các tài liệu hướng dẫn trong các cuộc điều tra chọn mẫu của TCTK: www.gso.gov.vn và các tài liệu điều tra thực tế của các đơn vò. 1. MỘT SỐ VẤN ĐỀ CH UNG VỀ ĐIỀU TRA CHỌN MẪU : 1.1.Khái niệm: ĐTCM là điều tra khơng tồn bộ trên một số đơn vị của tổng thể và từ đó suy rộng thành các đặc trưng của tồn bộ tổng thể. Từ khái niệm trên, có 2 nội dung cơ bản cần giải quyết trong ĐTCM là: -Chọn tổng thể mẫu: + phương pháp chọn mẫu + số lượng đơn vị tổng thể (kích thước mẫu) . -Suy rộng kết quả ( ước lượng ): + phương pháp + cơng thức. 1.2. Ưu điểm và hạn chế (so với điều tra tồn bộ) Tiêu chí ĐTCM ĐT tồn bộ 1.Sai số: - Sai số chọn mẫu - Sai số do kê khai (phi CM) 2.Chi phí: 3.Tổ chức: 4.Nội dung: 5. Ứ ng dụng : Có thấp hơn tiết kiệm hơn nhanh gọn hơn có thể mở rộng -Khi tổng thể không thể ĐT t.bộ. -Cần tổng hợp nhanh tài liệu. -Phúc tra,… -ĐT nghiên cứu thị trường, ĐT xã hội hội học,… Không cao hơn / / / - Cần thiết cho các nguồn thông tin quan trọng. 1.3. Sai số trong ĐTCM . Trong ĐTCM tồn tại 2 loại sai số: - Sai số do kê khai (nonsampling error) - Sai số chọn mẫu ( sampling error : б ) 1.4. Các ký hiệu thường dùng. Chỉ tiêu Tổng thể chung Tổng thể mẫu 1. Số đơn vị tổng thể 2. Các tham số -Số trung bình -Tỉ lệ -Phương sai +của STB + của tỉ lệ N θ µ p б 2 б x 2 б p 2 = p (1-p ) n θ’ x p ˆ s 2 s 2 x ) ˆ 1( ˆ 2 pp s p −= 2. CÁC PHƯƠNG PHÁP CHỌN MẪU ( Types of survey sampling methods) 2.1. Phân loại. 2.1.1. Căn cứ vào mức độ ngẫu nhiên khi chọn mẫu: 2 loại phương pháp *Chọn mẫu phi ngẫu nhiên (có chủ đích) (non random sampling). - Xuất hiện trước ( khoảng 300 năm trước) - Xuất phát từ các nhà thống kê thực hành . - Khơng có luận cứ chứng minh. * Chọn mẫu ngẫu nhiên (random sampling). - Xuất hiện sau ( đầu thế kỷ 20) - Do các nhà thống kê lý thuyết chứng minh. - Có cơ sở khoa học (lý thuyết xác suất): đònh lý giới hạn trung tâm (the central limit theorem) Trong thực hành, thường chọn mẫu theo phương pháp kết hợp giữa ngẫu nhiên và phi ngẫu (a mixture of random and non random sampling): chọn mẫu cả khối, chọn mẫu nhiều giai đoạn (multi- stage sampling) 2.1.2. Căn cứ theo yếu tố xác suất khi chọn mẫu: 2 loại chọn mẫu. *Chọn mẫu theo xác suất ( probability samples ). *Chọn mẫu khơng theo xác suất ( nonprobability samples ). Các phương pháp chọn mẫu CM khơng theo XS CM theo XS Judgment Quota Chunk Convenience Simple Systematic Stratified Cluster Sample Sample Sample Sample Random Sample Sample Sample Sample 2.1.3. Căn cứ theo sự thay đổi của tổng thể khi chọn mẫu: 2 phương pháp *Chọn hồn lại (chọn lặp, chọn nhiều lần) (select with replacement) *Chọn khơng hồn lại (chọn khơng lặp, chọn một lần)(select without replacement) 2.2. Một số phương pháp chọn mẫu ngẫu nhiên thơng dụng. 2.2.1. Chọn mẫu ngẫu nhiên đơn giản (simple random sample) Là phương pháp hồn tồn ngẫu nhiên, khơng qua một sự sắp xếp nào. *Kỹ thuật: - rút thăm ( “ names in a hat”or Raffle method) - quay số ( “lottery” method ) - dùng Bảng số ngẫu nhiên ( random number tables method) *Ưu điểm: hồn tồn ngẫu nhiên, bảo đảm tính khách quan. *Hạn chế: -Khơng bảo đảm tính đại biểu khi tổng thể có cấu thành phức tạp. -Khó đánh số thứ tự các đơn vị tổng thể khi tổng thể lớn. *Áp dụng: khi giữa các đơn vị tổng thể khơng khác biệt lớn. 2.2.2 Chọn mẫu hệ thống (Systematic sample). Trong chọn mẫu ngẫu nhiên hệ thống các đơn vị được chọn từ tổng thể chung một cách tuần tự và có khoảng cách ( d ) đều nhau. Bao gồm: - chọn mẫu hệ thống theo đường thẳng. - chọn mẫu hệ thống xoay vòng. *Kỹ thuật: -d : khoảng cách về thời gian, khơng gian, thứ hạng. -Xác định d = n N -Chọn đơn vị đầu tiên một cách ngẫu nhiên, sau đó chọn các đơn vị còn lại tuần tự có khoảng cách d. *Ưu điểm: - đơn giản. - các đơn vị trải đều, từ đó tính đại diện có thể cao. *Hạn chế: - có thể xuất hiện sai số hệ thống. - khi d là số thập phân thì phải làm tròn số , từ đó khi ước lượng có thể bị chệch. *Áp dụng: khi tổng thể có biến động tương đối đều theo thời gian, khơng gian,… 2.2.3. Chọn mẫu phân tổ (stratified sample) Trong chọn mẫu phân tổ, các đơn vị tổng thể chung được phân thành k tổ và tổng thể mẫu được chọn từ các tổ của tổng thể chung. Có 2 cách phân bổ số đơn vị mẫu chọn từ từng tổ: - Phân bổ theo tỉ lệ (với số đơn vị mỗi tổ) - Phân bổ khơng theo tỉ lệ( phân bổ Neyman) *Kỹ thuật: - Phân tổ tổng thể chung thành k tổ. - Chọn các đơn vị mẫu từ các tổ theo phương pháp phân bổ thích hợp. + Phân bổ theo tỉ lệ: Ưu điểm: dễ thực hiện, từ đó được áp dụng phổ biến hơn trong thực tế. Hạn chế: phụ thuộc vào sự phân tổ tổng thể chung. Nếu phân tổ phù hợp với hiện tượng thì tính đại biểu sẽ cao. Nếu khơng, sẽ ngược lại. +Phân bổ Neyman: phân bổ theo sự biến thiên trong nội bộ tổ ( độ lệch chuẩn) Ưu điểm: tính đại diện rất cao. Hạn chế: khi phải ước tính độ lệch chuẩn sẽ khơng bảo đảm có sự phân bố tốt nhất. *Áp dụng: khi tổng thể chung lớn và cấu thành các khối theo loại hình, địa bàn,… 2.2.4. Chọn mẫu cả khối (cụm) (cluster sample) Là chọn mẫu các khối, sau đó tiến hành điều tra tồn bộ trên các khối đã chọn. *Kỹ thuật:- chọn mẫu các khối của tổng thể chung. - điều tra tồn bộ trên từng khối . *Ưu điểm: nhanh gọn. *Hạn chế: nếu giữa các khối có chênh lệch lớn thì tính đại diện thấp. *Áp dụng: - trong từng khối của tổng thể chung khá chênh lệch. - giữa các khối của tổng thể chung ít chênh lệch. Ngồi ra, vài phương pháp khác như: chọn mẫu theo xác suất tỉ lệ với qui mơ, chọn mẫu nhiều giai đoạn ,…. 3. SAI SỐ CHỌN MẪU (σ),PHẠM VI SAI SỐ CHỌN MẪU (ε) VÀ KÍCH THƯỚC MẪU (n) TRONG ĐTCM NGẪU NHIÊN ĐƠN GIẢN. 3.1. Sai số chọn mẫu ( σ ) Là trung bình của các sai số chênh lệch giữa tham số của từng tổng thể mẫu có thể được chọn khác nhau với tham số thật sự của tổng thể chung. Trong tính toán, từng chênh lệch nói trên giữa từng tham số mẫu với tham số của tổng thể chung (θ i ’ - θ ) có thể là chênh lệch + hay chênh lệch - . Do vậy, ta phải bình phương chênh lệch và sau đó lấy căn bậc 2. Như vậy, cuối cùng sai số chọn mẫu được tính là độ lệch chuẩn của các số trung bình mẫu ( σ x ). Từ đó, có 2 nội dung cần xác đònh là: * Từ N đơn vị tổng thể chung, số khả năng thiết lập tổng thể mẫu với n đơn vị là: –Trường hợp chọn hồn lại: 2 Nk = - Trường hợp chọn khơng hồn lại: )!(! ! nNn N Ck n N − == TD: N = 4 , n =2 . Tổng thể chung: A B C D. Chọn có hồn lại: 2 Nk = = 2 4 = 16. Các tổng thể mẫu có thể chọn được là: AA AB AC AD BB BA BC BD CC CA CB CD DD DA DB DC. → Các tham số tương ứng của các tổng thể mẫu là: ', 3 ' 2 ' 1 , .,,, k θθθθ ⇒ k Sai số. → Như vậy, Sai số chọn mẫu là sai số trung bình chọn mẫu (Sai số chuẩn: standard error : SE ) ξ θθ = − = ∑ k SE k i 1 2' )( Tuy nhiên, trong thựïc hành người ta chỉ tiếp cận với 1 tổng thể mẫu cụ thể và sai số chọn mẫu được tính như sau: σ x = n 2 σ **Ngoài ra, Sai số chọn mẫu gồm hai loại: -Sai số ngẫu nhiên: do các đơn vị được chọn ngẫu nhiên -Sai số hệ thống: khi mẫu được chọn có chủ đích. → Nhìn chung , sai số chọn mẫu thường được hiểu là sai số ngẫu nhiên. Cơng thức Sai số chọn mẫu trong chọn mẫu ngẫu nhiên đơn giản: CHỌN HỒN CHỌN KHƠNG HỒN σ = n 2 σ = n σ σ = − N n n 1 σ 2 Khi ước Lượng Số trung bình σ x = n 2 σ σ x = − N n 1 n 2 σ Khi Ước Lượng Tỉ lệ σ p = n 2 σ = n pp )1( − σ p = n 2 σ = − − N n 1 n )p1(p Trong đo ù : ++ Công thức sai số chọn mẫu σ = n 2 σ = n σ được xây dựng trên cơ sở chọn có hoàn lại. Trong thực tế, tổng thể mẫu có n quan sát thường được chọn không hoàn lại từ tổng thể chung hữu hạn có N phần tử. Từ đó, khi tính sai số chọn mẫu trong trường hợp chọn không hoàn lại cần có đại lượng Hệ số điều chỉnh tổng thể hữu hạn (finite population correction factor : fpc) : fpc = − − 1N nN = − N n 1 ++ Trường hợp chọn không hoàn, khi N rất lớn so n (thông thường N n ≤ 0,05 ) thì ( 1- N n ) → 1 : có thể dùng công thức như chọn có hoàn lại. Ghi chú : Thơng thường , khi tính Sai số chọn mẫu ta chưa biết 2 σ , thứ tự ưu tiên xử lý như sau: 1. Dùng phương sai lớn nhất của lần điều tra trước nếu có. Áp dụng thích hợp với những hiện tượng khơng có sự thay đổi lớn trong q trình phát triển. 2. Sử dụng phương sai của cuộc điều tra tương tự ở nơi khác. Áp dụng nếu hiện tượng nghiên cứu ở nơi khác cũng có những đặc điểm và điều kiện tương tự với hiện tượng nghiên cứu. 3. Tiến hành điều tra thí điểm để tính độ lệch tiêu chuẩn. Nếu hiện tượng nghiên cứu có phân phối chuẩn thì có thể ước tính độ lệch tiêu chuẩn theo khoảng biến thiên R. Theo Qui tắc 3 σ , nếu X~ N ( µ , 2 σ ) thì hầu hết các giá trị của X sai lệch với µ khơng q 3 lần σ . Ta có : R= (xmax - xmin) = ( µ +3 σ ) – ( µ -3 σ ) = 6 σ ⇒ σ = 6 R = 6 minmax xx − 4 . Dùng phương sai mẫu ( s 2 ): được sử dụng nhiều nhất trong thực hành. 3.2. Phạm vi sai số chọn mẫu (ε ) Được xác định nhằm phục vụ cho việc suy rộng từ kết quả của tổng thể mẫu thành kết quả của tổng thể chung. ε phụ thuộc vào : + Sai số chọn mẫu σ + Độ tin cậy của tài liệu suy rộng ( 1 - α ) là xác suất đúng của tài liệu suy rộng. Từ độ tin cậy mong muốn, xác định hệ số tin cậy z. Độ tin cậy càng cao thì hệ số tin cậy càng lớn. Cơng thức: ε = σ z 2 trường hợp chính: a. Tổng thể có phân phối chuẩn + biết 2 σ * Ư ớc lượng 2 bên: ε = σ z 2 α = z 2 α n 2 σ Khi ước lượng STB: ε x = z 2 α x σ = z 2 α n σ Khi ước lượng tỉ lệ: ε p = z 2 α p ˆ σ = z 2 α n )p1(p − * Ư ớc lượng 1 bên : ε = σ z α b. Tổng thể có phân phối chuẩn, n < 30 + chưa biết 2 σ : ε = s t * ệ c lng 2 bờn: = s t n-1, 2 * ệc lng 1 bờn : = s t n-1, 3.3. Xỏc nh kớch thc mu ( Estimating the sample size) a. Choùn hoaứn laùi : T cụng thc = z 2 n 2 n = 2 22 2 x z / b. Choùn khoõng hoaứn laùi: T cụng thc = z 2 n 2 (1- N n ) n = 22 2 2 22 2 + / / zN Nz x Cụng thc xỏc nh kớch thc mu trong chn mu ngu nhiờn n gin: CHN HON CHN KHễNG HON Khi c Lng STB n = 2 22 2 x z / n = 22 2 2 22 2 + / / zN Nz x Khi c Lng T l n = 2 2 2 p pqz / n = pqzN pqNz p 2 2 2 2 2 + / / 5. C LNG ( Estimate) TRONG TCM. 5.1. Khỏi nim Phõn loi: Trong ĐTCM, ước lượng là sự suy rộng từ kết quả các tham số của tổng thể mẫu thành kết quả các tham số của tổng thể chung. * Có 2 phương pháp ước lượng: - Ước lượng trực tiếp. - Ước lượng gián tiếp. Ước lượng trực tiếp là dùng 1 đặc trưng của tổng thể mẫu để ước lượng cùng đặc trưng đó của tổng thể chung.Thí dụ, dùng trung bình mẫu x để ước lượng trung bình của tổng thể µ ,…. Ước lượng gián tiếp là dùng 1 đặc trưng của tổng thể mẫu cùng các tham số có liên quan để ước lượng 1 đặc trưng của tổng thể chung, thí dụ ước lượng hồi qui,… Trong thực hành, chủ yếu dùng ước lượng trực tiếp. Có thể phân biệt các loại ước lượng trực tiếp sau: *Căn cứ vào khoảng ước lượng: - Ước lượng điểm. - Ước lượng khoảng. * Căn cứ vào tổng thể ước lượng: - Ước lượng cho đơn vị tổng thể - Ước lượng cho tổng thể 5.2. Ước lượng điểm. Thống kê tốn chứng minh: E ( x ) = µ E ( p ˆ ) = p E ( s 2 ) = s 2 Nghĩa là các tham số mẫu là ước lượng khơng chệch của các tham số chung. Ước lượng điểm bò hạn chế do phụ thuộc vào tổng thể mẫu cụ thể chọn được. 5.2. Ước lượng Khoảng. Cơng thức: θ’- ε ≤ θ ≤ θ’ + ε → θ’- Z σ ≤ θ ≤ θ’ + Z σ Cụ thể: → *Ước lượng Số trung bình: x - z α/2 n 2 σ ≤ µ ≤ x + z α/2 n 2 σ [...]... không hoàn lại với độ tin cậy 95% , phạm vi sai số chọn mẫu không vượt quá 2 ,5% và đđộđlệch chuẩn của các lần điều tra trước là 37%, 42%, 45% 2 Biết rằng kết quả điều tra cho thấy 20% số hộ gia đình có thu nhập lớn hơn thu nhập bình qn chung Dựa vào kết quả điều tra chọn có hồn lại, hãy xác định sai số chọn mẫu khi suy rộng tỉ lệ chung 05. 5: Cơng ty TNHH Bánh kẹo Bình Tân có 50 0 cơng nhân, trong đó có 100... cải tiến khơng ? 05. 6: Một công ty bảo hiểm nghiên cứu tình hình bò tai nạn của những người hành nghề lái xe nhằm hoạch đònh phương án thu phí bảo hiểm có phân biệt theo lý lòch hành nghề Công ty tiến hành khảo sát trên một số lái xe trong 3 năm Bảng thống kê kết quả như sau: Độ tuổi < 20 21-30 31- 65 66-99 Cộng Đã bị tai nạn(%) 0,48 0, 45 0,98 1,12 3,03 Chưa bị tai nạn(%) 7 ,52 14 ,55 48,02 26,88 96,97... nhiên hồn lại 50 CN để theo dõi NSLĐ đóng gói Kết quả như sau: NSLĐ 1 kg/giờ) 20 – 30 30 – 40 40 – 50 50 – 60 Tổng u cầu:1 CN (x: Số CN (f :người) 14 17 11 8 50 Hãy ước lượng NSLĐ bình qn một CN đóng gói thành phẩm của cơng ty với độ tin cậy 98% 2 Để phạm vi sai số chọn mẫu khi suy rộng NSLĐ bình qn khơng vượt q 3 kg với độ tin cậy 98%, cần chọn mẫu bao nhiêu CN? 3 NSLĐ trước cải tiến SX là 36 ,5 kg/người/giờ... cậy (confidence interval) : θ’- ε ≤ Giới hạn tin cậy dưới (interval lower limit) : θ’ - ε G/hạn tin cậy trên (interval upper limit) θ ≤ θ’ + ε : θ’ + ε BÀI TẬP 05. 1: Hãy liên hệ thực tế để cho thí dụ về từng phương pháp chọn mẫu ngẫu nhiên thơng dụng 05. 2: Chọn câu trả lời đúng nhất: Câu 1: Một nhân viên tiếp thị qua điện thọai cài đặt để lưu lại trong máy tính của cơng ty các số điện thọai tuần tự với... 1,12 3,03 Chưa bị tai nạn(%) 7 ,52 14 ,55 48,02 26,88 96,97 Tổng cộng(%) 8 15 49 28 100 Yêu cầu: 1 Lập bảng tính tỉ trọng nhóm bò tai nạn và chưa bò tai nạn của từng nhóm tuổi so với tổng số quan sát của nhóm tuổi Cho nhận xét về tỉ lệ bò tai nạn theo các nhóm tuổi 2 Ước lượng tỉ trọng đã bò tai nạn của nhóm tuổi 31- 65 với độ tin cậy 95% Cho biết có 200 lái xe ở độ tuổi này được khảo sát ... Câu 4: Khi ước lượng trị số tối đa của số trung bình tổng thể chung là : a Ước lượng 1 bên b Ước lượng bên trái c Ước lượng bên phải Câu 5: Với cùng sai số chọn mẫu, Khỏang tịn cậy càng lớn thì: d Hệ số tin cậy càng lớn e Độ tin cậy càng lớn f a, b đúng g a, b sai 05. 3: Hãy trả lời đúng (Đ) , sai (S) cho các câu sau: a _ Tổng thể mẫu là một bộ phận của tổng thể chung được chọn ra để phân tích b ... phân tích b _ Điều tra nghiên cứu thị trường chủ yếu là điều tra chọn mẫu c _ Kiểm kê kho định kỳ là ĐT chọn mẫu d _ Sai số do kê khai trong các phiếu ĐT chọn mẫu thường cao hơn trong ĐT tòan bộ 05. 4: Để dự báo một số chỉ tiêu quan trọng liên quan đến chiến lược tài chính năm 2010 và năm 2020 của quốc gia, ngành tài chính đã kết hợp với ngành thống kê tiến hành điều tra chọn mẫu về thu nhập, tiết . nạn(%) Chưa bị tai nạn(%) Tổng cộng(%) < 20 0,48 7 ,52 8 21-30 0, 45 14 ,55 15 31- 65 0,98 48,02 49 66-99 1,12 26,88 28 Cộng 3,03 96,97 100 . hồn lại 50 CN để theo dõi NSLĐ đóng gói. Kết quả như sau: NSLĐ 1 CN (x: kg/giờ) Số CN (f :người) 20 – 30 30 – 40 40 – 50 50 – 60 14 17 11 8 Tổng 50 u cầu