Các phương pháp lấy mẫu và xử lý mẫu Các phương pháp lấy mẫu và xử lý mẫu Các phương pháp lấy mẫu và xử lý mẫu luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Mai Thị Hương CÁC PHƯƠNG PHÁP LẤY MẪU VÀ XỬ LÝ MẪU LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Mai Thị Hương CÁC PHƯƠNG PHÁP LẤY MẪU VÀ XỬ LÝ MẪU Chuyên ngành: Lý thuyết xác suất thống kê toán học Mã số: 60.46.15 LUẬN VĂN THẠC SĨ KHOA HỌC Người hướng dẫn khoa học: PGS TS Đào Hữu Hồ Hà Nội - 2013 Mục lục Lời nói đầu Mẫu ngẫu nhiên đơn giản từ lô hữu hạn phần tử 1.1 Định nghĩa ký hiệu 1.2 Tính chất ước lượng 1.3 Phương sai ước lượng 1.4 Ước lượng sai số tiêu chuẩn từ mẫu 11 1.5 Giới hạn tin cậy 12 1.6 Mẫu ngẫu nhiên có hồn lại 13 1.7 Ước lượng tỷ số 13 1.8 Tỷ lệ mẫu 14 1.9 Ưu điểm nhược điểm lấy mẫu ngẫu nhiên đơn giản 16 Lấy mẫu ngẫu nhiên phân tầng lấy mẫu hệ thống 2.1 19 Lấy mẫu ngẫu nhiên phân tầng 19 2.1.1 Tính chất ước lượng 20 2.1.2 Phương sai ước lượng giới hạn tin cậy 25 2.1.3 Số lượng tối ưu 25 2.1.4 Độ xác tương đối mẫu ngẫu nhiên phân tầng mẫu ngẫu nhiên đơn giản 27 2.1.5 Ước lượng cỡ mẫu với số liệu liên tục 30 2.1.6 Ước lượng mẫu cho tỷ lệ mẫu phân tầng 32 2.1.7 Hiệu độ lệch từ số lượng tối ưu 33 2.1.8 Hiệu sai số theo cỡ tầng 35 2.1.9 2.2 Ưu điểm nhược điểm mẫu ngẫu nhiên phân tầng 37 Mẫu hệ thống 39 2.2.1 Mô tả 39 2.2.2 Phương sai trung bình ước lượng 41 Mẫu chùm 48 3.1 Mẫu chùm với chùm cỡ 49 3.2 Mẫu chùm với chùm không cỡ 52 3.2.1 Mẫu ngẫu nhiên đơn giản chùm: Ước lượng không chệch 3.2.2 3.2.3 Mẫu ngẫu nhiên đơn giản chùm: Ước lượng dạng tỷ số 52 Lấy mẫu với xác suất tỷ lệ theo cỡ chùm 53 Phương pháp lấy mẫu lấy mẫu cặp 4.1 4.2 4.3 52 62 Lấy mẫu với tập có cỡ 62 4.1.1 Lấy mẫu hai giai đoạn 62 4.1.2 Trung bình phương sai lấy mẫu hai giai đoạn 63 4.1.3 Phương sai trung bình ước lượng lấy mẫu hai giai đoạn 64 4.1.4 Ước lượng mẫu phương sai 66 4.1.5 Ước lượng tỷ lệ 67 4.1.6 Cỡ mẫu tối ưu mẫu 69 4.1.7 Ước lượng mopt từ khảo sát thí điểm 71 4.1.8 Kỹ thuật lấy mẫu ba giai đoạn 72 Lấy mẫu với tập không cỡ 74 4.2.1 Các phương pháp lấy mẫu n = 75 4.2.2 Phương pháp lấy mẫu n > 82 Kỹ thuật lấy mẫu cặp 87 4.3.1 Lấy mẫu cặp phân tầng 87 4.3.2 Số lượng tối ưu 90 4.3.3 Phương sai ước lượng lấy mẫu cặp phân tầng 91 4.3.4 Ước lượng hồi quy 92 4.3.5 Ước lượng phương sai lấy mẫu cặp hồi quy 93 Kết luận 95 Tài liệu tham khảo 96 LỜI NĨI ĐẦU Trong nghiên cứu thống kê tốn học, mẫu đại diện thông tin mà nhà thống kê có được, sở phân tích, xử lý, rút kết luận cần thiết Do việc lấy mẫu khơng thể thiếu nghiên cứu thống kê Các điểm lấy mẫu tạo nhóm nhỏ từ tổng thể mang đầy đủ thông tin tổng thể Tức là, muốn có nhóm nhỏ giống nhóm lớn Với ý nghĩ đó, tính tìm kiếm mẫu mức độ đại diện - rút mẫu đại diện cho tổng thể ? Mẫu cần có tính chất chặt chẽ để giống tổng thể? Lấy mẫu có ưu điểm bật Đó giảm chi phí số liệu thu thập nhanh - Giảm chi phí: Nó rõ ràng tốn nghiên cứu liệu tập tổng thể, khơng phải tồn tổng thể Hơn nữa, liệu thu thập mẫu lựa chọn cách cẩn thận có độ xác cao tồn tổng thể - Tốc độ: việc quan sát thu thập tóm tắt mẫu dễ dàng nhanh so với tổng thể Điều tra toàn tổng thể cách liệt kê không thực tế Như vậy, điều tra dựa mẫu có linh hoạt loại thơng tin đạt Lấy mẫu ứng dụng rộng rãi tất lĩnh vực khoa học xã hội mà có nghiên cứu ứng dụng thống kê toán học Ở Việt Nam, lấy mẫu sử dụng nhiều ngành Song tồn thực tế khơng trường hợp Việt Nam mẫu lấy không đại diện trung thực khách quan cho tổng thể, chẳng hạn vùng trồng rau Thanh Trì Hà Nội người ta lấy mẫu gồm quan sát để kiểm tra xem có dư thừa độc tố rau hay khơng, để kiểm tra an toàn thực phẩm hoa Trung Quốc nhập qua biên giới phía Bắc, phận kiểm tra lấy số hàng chục ngàn quả, v .; Do dẫn đến kết luận trái ngược quan khoa học thành phố kết luận trái ngược với thực tế xảy Bàn việc lấy mẫu đại diện nước ta việc làm vượt tầm khả tác vượt ngồi khn khổ luận văn Dựa chuyên khảo “Sampling techniques” William G Cochran số báo, số bình luận, nhận xét trang mạng Bách khoa toàn thư mở (Wikipedia), luận văn “Các phương pháp lấy mẫu xử lý mẫu” trình bày tổng quan phương pháp lấy mẫu lô (một tổng thể) gồm hữu hạn phần tử xử lý thống kê đại lượng liên quan lô Luận văn gồm chương: - Chương trình bày kết mẫu ngẫu nhiên đơn giản từ lô gồm hữu hạn phần tử Các ước lượng, tính chất phương sai ước lượng trung bình tổng thể, tổng thể, tỷ số Ở chương đưa khái niệm mà ta dùng chương như: khái niệm ước lượng khơng chệch, tính vững ước lượng - Chương đề cập đến lấy mẫu ngẫu nhiên phân tầng lấy mẫu hệ thống, trình bày theo mạch giống lấy mẫu ngẫu nhiên đơn giản Ngoài cịn có so sánh mẫu ngẫu nhiên phân tầng mẫu ngẫu nhiên đơn giản, mẫu hệ thống với mẫu ngẫu nhiên phân tầng - Chương đề cập đến mẫu chùm với chùm cỡ, không cỡ kết hợp mẫu chùm mẫu đề cập hai chương trước - Chương 4: Lấy mẫu lấy mẫu cặp Lấy mẫu đưa kết cho mẫu hai giai đoạn mẫu ba giai đoạn Lấy mẫu cặp đề cập tới mẫu cặp phân tầng ước lượng hồi quy Qua đây, tác giả xin bày tỏ lời cảm ơn sâu sắc đến người thầy, người hướng dẫn luận văn mình, PGS.TS Đào Hữu Hồ, người đưa đề tài tận tình hướng dẫn suốt trình làm luận văn tác giả Đồng thời tác giả gửi lời cảm ơn tới đồng nghiệp, người bạn giúp đỡ tác giả q trình hồn thành luận văn Do thời gian trình độ cịn hạn chế, chắn luận văn khơng thể tránh khỏi thiếu sót, tác giả mong bảo tận tình thầy cô, đồng nghiệp bạn, tác giả xin chân thành cảm ơn! Hà Nội, ngày tháng 01 năm 2013 Tác giả Mai Thị Hương Chương Mẫu ngẫu nhiên đơn giản từ lô hữu hạn phần tử 1.1 Định nghĩa ký hiệu Lấy mẫu ngẫu nhiên đơn giản phương pháp chọn n phần tử số n N phần tử cho mẫu CN mẫu phân biệt có khả chọn Các phần tử tổng thể đánh số từ đến N Khi dãy số ngẫu nhiên từ tới N rút từ bảng số ngẫu nhiên từ chương trình máy tính tạo bảng n Dễ dàng thấy tất CN mẫu phân biệt có khả chọn theo phương pháp Thực vậy, ta xét mẫu, tập gồm n phần tử ấn định Ở lần rút đầu tiên, xác suất để phần tử n n phần tử chọn Ở lần rút thứ hai xác suất để phần tử N n−1 (n − 1) phần tử ấn định lại rút , Do xác N −1 suất để tất n phần tử ấn định lựa chọn sau n lần rút n n−1 n−2 n! (N − n)! · · ···· = = n N N −1 N −2 N −n+1 N! CN Bởi phần tử rút không trả lại tổng thể nên phương pháp gọi lấy mẫu ngẫu nhiên không hồn lại Cịn phần tử rút lại trả lại tổng thể trước thực lần rút tiếp theo, gọi lấy mẫu ngẫu nhiên có hồn lại Khi lần rút tất phần tử tổng thể có khả rút chúng rút hay chưa Các công thức phương sai ước lượng phương sai ước lượng thường đơn giản lấy mẫu hoàn lại so với lấy mẫu khơng hồn lại Với lý này, lấy mẫu hồn lại đơi sử dụng cách lấy mẫu phức tạp lấy mẫu khơng hồn lại Trong nghiên cứu mẫu ta quan tâm tính chất hay đặc trưng cố gắng đo, ghi lại phần tử chọn Các giá trị nhận đặc trưng xác định N phần tử tổng thể ký hiệu y1 , y2 , , yN Các giá trị tương ứng phần tử mẫu ký hiệu y1 , y2 , , yn Tổng thể Mẫu N Tổng: Y = n yi = y1 + y2 + + yN yi = y1 + y2 + + yn 1 N y1 + y2 + + yN Trung bình: Y¯ = = N n yi y1 + y2 + + yn y¯ = = n N yi n Trong mục ta quan tâm đến ước lượng ba đại lượng: trung bình tổng thể Y¯ , tổng tổng thể (Y ) tỷ số tổng trung bình ¯ tổng thể R = Y /X = Y X ¯ Để cho gọn đặc trưng tổng thể ta gọi đặc trưng lý thuyết Ta dùng ký hiệu “ˆ” để ước lượng đặc trưng tổng thể xây dựng từ mẫu Ước lượng ¯ = y¯ =Trung bình mẫu Yˆ Trung bình lý thuyết: Y¯ Yˆ = N y¯ = N Tổng lý thuyết: Y n yi n ˆ = y¯/¯ R x= Tỷ số lý thuyết: R n yi 1.2 n xi Tính chất ước lượng Trong luận văn này, phương pháp ước lượng gọi vững ước lượng giá trị tổng thể n = N , nghĩa mẫu bao gồm toàn tổng thể Với mẫu ngẫu nhiên đơn giản rõ ràng y¯ N y¯ tương ứng ước lượng vững trung bình lý thuyết tổng lý thuyết Một phương pháp ước lượng khơng chệch giá trị trung bình ước lượng lấy tồn mẫu có thể, xác giá trị tổng thể chân thực Dùng E để ký hiệu cho trung bình tất mẫu có Định lý 1.1 Trung bình mẫu y¯ ước lượng không chệch Y¯ Chứng minh Theo định nghĩa ta có: E y¯ = y¯ n CN = (y1 + y2 + + yn ) , n [N !/n! (N − n)!] (1.1) n tổng lấy tất CN mẫu Để ước lượng tổng này, ta phải có mẫu có xuất giá trị yi xác định Vì có (N − 1) phần tử khác chứa tất phần tử lại mẫu (n − 1) vị trí khác để lấp đầy mẫu, số mẫu chứa yi n−1 CN −1 = (N − 1)! (n − 1)! (N − n)! Do (y1 + y2 + + yn ) = (N − 1)! (y1 + y2 + + yN ) (n − 1)! (N − n)! Từ (1.1) suy n! (N − n)! (N − 1)! · (y1 + y2 + + yN ) (n − 1)! (N − n)! n.N ! (y1 + y2 + + yN ) = = Y¯ N E y¯ = Định lý chứng minh Hệ 1.2 Y = N y¯ ước lượng không chệch tổng lý thuyết Y 1.3 Phương sai ước lượng Phương sai yi tổng thể hữu hạn thường xác định sau: N σ2 = yi − Y¯ N , (1.2) Xây dựng biến ngẫu nhiên wis sau: wis wis tập thứ i xuất mẫu ngược lại Khi N Yˆ = wis Yˆi i=1 Ta có N E(Yˆ ) = E1 E2 (Yˆ ) = E1 wis Yˆi =Y i=1 E1 (wis ) = với i Định lý 4.12 n V (Yˆ ) = V n wis Yˆi N =V wis Yi i=1 i=1 E1 (wis2 )σ2i + i=1 Chứng minh Sử dụng công thức ˆ = V1 [E2 (θ)] ˆ + E1 [V2 (θ)] ˆ V (θ) Ta có: V (Yˆ ) = V1 [E2 (Yˆ )] + E1 [V2 (Yˆ )] n N =V wis Yi wis2 V2 (Yˆi ) + E1 i=1 i=1 Phương sai hai giai đoạn Yˆi Yˆj (i = j) lấy mẫu độc lập Do n V (Yˆ ) = V N wis Yi i=1 E1 (wis2 )σ2i + (4.19) i=1 Ví dụ 4.13 Với bảng giai đoạn ước lượng Horvitz – Thompson, YˆHT = n Yˆi /πi , trọng số w = 1/πi tập thứ i mẫu ngược i=1 is lại Do E1 (wis2 ) = πi /πi2 = 1/πi , πi xác suất tập ban đầu i lấy Hơn nữa, mi tập lấy từ Mi lấy mẫu ngẫu nhiên đơn giản tập thứ i lấy Mi (Mi − mi ) 2 S2i σ2i = V2 (Yˆi ) = mi 83 Do áp dụng định lý 4.12 sử dụng công thức cho bảng giai đoạn cho V (YˆHT ), ta có: N N V (YˆHT ) = (πi πj − πij ) i=1 j>i N Yj Yi − πi πj Mi (Mi − mi ) S2i mi πi + i=1 Định lý 4.14 Giả sử ước lượng không chệch σ ˆ2i phương sai giai đoạn hai N n σ2i Yˆi , ước lượng mẫu không chệch V wis Yi =V i=1 i=1 wis Yi từ mẫu giai đoạn Hơn nữa, n v n wis Yi = i=1 n ais Yi2 n +2 i=1 bijs Yi Yj (4.20) i=1 j>i n wis Yˆi Khi ước lượng mẫu không chệch V i=1 n n wis Yˆi v n ais Yˆi2 = i n bijs Yˆi Yˆj + +2 i n i wis σ ˆ2i j>i (4.21) i n Như quy tắc xây dựng ước lượng mẫu V wis Yˆi là: ước i n lượng không chệch V wis Yi từ mẫu giai đoạn, thay Yˆi cho Yi i n nơi đâu có Yi Và cộng thêm số hạng i (wis σ ˆ2i ), n wis Yˆi = Yˆ , i σ ˆ2i ước lượng không chệch V2 (Yˆi ) Chứng minh Ta có N V N wis Yi = i N Yi2 V N (wis ) + i Yi Yj cov(wis , wjs ) i (4.22) j>i Lại xây dựng biến ngẫu nhiên ais sau: ais ais tập thứ i xuất mẫu ngược lại, tương tự đặt bijs bijs tập i xuất mẫu ngược lại Từ (4.20) mẫu giai đoạn N v N wis Yi i N ais Yi2 = i +2 bijs Yi Yj i 84 N j>i (4.23) Nếu khơng chệch, so sánh (4.23) (4.22) ta phải có E1 (ais ) = V (wis ) Bây ước lượng phương sai (4.21), ta có N N N N ais Yˆi2 + E1 E2 i bijs Yˆi Yˆj + E1 E2 i N j>i N ais Yi2 = E1 wis σ ˆ2i i N N [V (wis ) + E (wis )]σ2i bijs Yi Yj + +2 i i j>i i Sử dụng kết E(ais ) = V (wis ) với i, E1 (wis ) = = E12 (wis ) ta có n n wis Yˆ E v =V N wis Yi i + i n E1 (wis2 )σ2i i wis Yˆi =V i Suy điều phải chứng minh Áp dụng định lý 4.12 4.14 ta tìm ước lượng cho tổng lý thuyết phương sai chúng, tập lựa chọn với xác suất Ta có mi tập mẫu tập thứ i chọn lấy mẫu ngẫu nhiên đơn giản Ước lượng không chệch tổng lý thuyết N Yˆu = n n i N Mi y i = n n Yˆi i Áp dụng định lý 4.12 với N nN n N2 N wis = , E(wis ) = = 1, E(wis ) = = , n N n N n n ta N2 ˆ V (Yu ) = (1 − f1 ) n (Yi − Y )2 N + N −1 n N i Mi2 (1 − f2i )S2i , mi f2i = mi /Mi Ước lượng trở thành trọng số riêng f2i số (ký hiệu f2 ) Khi N Yˆu = nf2 m mi yij i j Đại lượng nf2 /N xác suất để tập chọn giai đoạn hai 85 Với ước lượng mẫu không chệch phương sai, từ (4.21), định lý 4.14 cho ta n N (1 − f1 ) v(Yˆu ) = n 4.2.2.2 (Yˆi − Yˆ u )2 n N + n i n−1 Mi2 (1 − f2i )s22i mi i (4.24) Các tập lựa chọn hoàn lại với xác suất không Các tập ban đầu chọn hoàn lại với xác suất tỷ lệ với zi Kết zi = Mi /M0 (xác suất tỷ lệ với cỡ mẫu) trường hợp riêng Mẫu gồm mi tập từ tập ban đầu thứ i rút cách ngẫu nhiên khơng hồn lại Một ước lượng tổng lý thuyết là: Yˆppz = n n n Mi y i = zi n i i Yˆi zi Với n = 1, M0 y IV = YˆIV khơng chệch Phương sai thu từ công thức (4.16) sau nhân với M02 , sau: N V (YˆIV ) = zi i=1 N Yi −Y zi + i=1 Mi (Mi − mi )S2i zi mi Với phương pháp lấy mẫu này, ước lượng Yˆppz trung bình n ước lượng độc lập dạng YˆIV Do Yˆppz không chệch 1 V (Yˆppz ) = V (YˆIV ) = n n N zi i=1 Yi −Y zi + n N i=1 Mi (1 − f2i )S2i (4.25) mi zi Hơn nữa, với n ước lượng độc lập YˆIV = Yi /zi cho ước lượng mẫu khơng chệch V (YˆIV ) là, Yˆi − Yˆppz zi n v(YˆIV ) = i=1 n−1 Ước lượng mẫu không chệch V (Yˆppz ) có biểu diễn đơn giản sau: Yˆi − Yˆppz zi n v(Yˆppz ) = i=1 n(n − 1) 86 4.3 Kỹ thuật lấy mẫu cặp Như thấy số kỹ thuật lấy mẫu phụ thuộc vào việc có thông tin biến phụ xi Các ước lượng tỷ lệ hồi quy địi hỏi trung bình lý thuyết X biết trước Nếu ta muốn phân tầng tổng thể theo giá trị xi phân phối tần suất chúng phải biết trước Khi thông tin khơng có, đơi người ta đưa mẫu ban đầu lớn có xi đo đạc Mục đích mẫu để trang bị ước lượng tốt X phân phối tần suất xi Trong nghiên cứu mục đích ta để tạo ước lượng cho vài biến yi khác Kỹ thuật gọi lấy mẫu cặp hay lấy mẫu hai pha 4.3.1 Lấy mẫu cặp phân tầng Tổng thể phân tầng thành L lớp (tầng) Mẫu mẫu ngẫu nhiên đơn giản cỡ n Đặt Wh = Nh /N = tỷ lệ tổng thể tầng h wh = nh /n = tỷ lệ mẫu tầng h Khi wh ước lượng không chệch Wh Mẫu thứ mẫu ngẫu nhiên phân tầng cỡ n yhi đo: nh phần tử rút từ tầng h Thông thường mẫu thứ tầng h mẫu ngẫu nhiên từ mẫu nh tầng Mục đích mẫu ước lượng trọng số tầng, mẫu thứ ước lượng trung bình tầng Y h Trung bình lý thuyết Y = Wh Y h Một ước lượng dùng là: L y st = wh y h h=1 Vấn đề chọn n nh để cực tiểu V (y st ) với phí tổn cho trước Khi ta phải kiểm tra liệu phương sai cực tiểu có nhỏ phương sai mà nhận mẫu ngẫu nhiên đơn giản mà có yi đo hay khơng Giả sử mẫu nh mẫu ngẫu nhiên nh Do đó, nh = vh nh , < vh ≤ vh chọn trước, wh , nh y h biến ngẫu nhiên Do vấn đề phân tầng mà cỡ mẫu chưa biết xác 87 Để đơn giản ta làm hai xấp xỉ sau: Thứ cỡ mẫu n giả thiết đủ lớn cho wh > Thứ hai bàn đến chiến thuật tối ưu, tối ưu vh , tìm thấy cơng thức, giả sử ≤ Định lý 4.15 Ước lượng y st không chệch Định lý 4.16 Nếu mẫu mẫu ngẫu nhiên cỡ n , mẫu thứ hai mẫu ngẫu nhiên mẫu đầu tiên, cỡ nh = vh nh , < vh ≤ vh cố định, V (y st ) = S 1 − n N L Wh Sh2 n + h −1 , vh (4.26) S phương sai tổng thể Chứng minh Giả sử yhi đo tất nh thành phần mẫu tầng h, không đo mẫu ngẫu nhiên nh Khi đó, wh = nh /n nên, L wh y h = y h trung bình mẫu ngẫu nhiên đơn giản cỡ n từ tổng thể Do đó, lấy trung bình lựa chọn lặp lại mẫu cỡ n , L V wh y h = S2 h Mà L y st = L wh y h = h 1 − n N (4.27) wh (y h − y h ) (4.28) L wh y h + h h Giả sử số để trung bình tất mẫu ngẫu nhiên nh phần tử mà rút từ nh phần tử cho trước Rõ ràng, E2 (y h ) = y h Lập tức ta có: cov[y h , (y h − y h )] = cov(y h , y h ) = V (y h ) : V (y h − y h ) = V (y h ) − V (y h ) Do đó, với wh cố định, V2 [ wh (y h − y h )] = wh2 Sh2 1 − nh nh 88 = wh Sh2 n −1 vh (4.29) nh = vh nh = vh wh n Lấy trung bình phân phối wh ta thu lựa chọn lặp lại mẫu đầu tiên, ta có từ (4.27), (4.28) (4.29), V (y st ) = S L 1 − n N + h Wh Sh2 n −1 vh Kết V (y st ) thể số dạng khác Bằng phân tích phương sai, (N − 1)S = (Nh − 1)Sh2 + Nh (Y h − Y )2 Do đó, g = (N − n )/(N − 1), nhân với g /n N dẫn đến (N − n )S = S2 nN 1 − n N = g n (Wh − N −1 )Sh2 + g n Wh (Y h − Y )2 Từ (4.26) dẫn đến L V (y st ) = h Wh Sh2 n g −1 + vh n L (Wh − N −1 )Sh2 h g + n L Wh (Y h − Y )2 h (4.30) Hơn nữa, định nghĩa g = (N − n )/(N − 1), ta có − g g + =− + n n N nN Wh Sh2 , có hệ số Do (4.30) số hạng thứ hai thứ ba −1/n g /n nên L Wh Sh2 V (y st ) = h 1 − n vh N g + nN L (Wh − 1)Sh2 h g + n L Wh (Y h − Y )2 h (4.31) Với hầu hết ứng dụng, thành phần g /n N (4.31) bỏ qua, (4.31) trở thành L Wh Sh2 V (y st ) ≈ h 1 − n vh N g + n L Wh (Y h − Y )2 (4.32) h Kết định lý 4.15 đưa Rao năm 1973 (xem [15]) 89 Hệ 4.17 Các kết trường hợp mẫu thứ rút độc lập với mẫu đầu tiên, nh khơng phụ thuộc vào nh (ngoại trừ giả thiết nh ≤ nh ), nh /Nh bỏ qua, phương sai ước lượng y st là: L V (y st ) ≈ h 4.3.2 L g Wh Sh2 + nh n Wh (Y h − Y )2 h Số lượng tối ưu Mục đích chọn n vh để cực tiểu V (y st ) với phí tổn xác định Giả sử c phí tổn phân lớp ứng với mẫu ngẫu nhiên đơn giản cỡ n ch phí tổn đo đạc phần tử tầng h Với mẫu xác định, L C=cn + ch n h h Vì nh biến ngẫu nhiên, ta cực tiểu phí tổn trung bình cho n vh chọn E(C) = C ∗ = c n + n ch vh Wh (4.33) Đặt V = V (y st ), công thức (4.26) dẫn đến L 2 n (V + S /N ) = (S − Wh Sh2 ) + h Wh Sh2 vh Tích C ∗ (V +S /N ) không chứa n Áp dụng bất đẳng thức Cauchy - Schwarz cho tích ta được: tích cực tiểu với h, ta có: vh2 ch c = Sh (S − Wh Sh2 ) Suy ra: vh = Sh [c /ch (S − Wh Sh2 )]1/2 Giá trị n thu từ phương trình phí tổn trung bình (4.33) Thay vh tối ưu công thức C ∗ (V + S /N ), phương sai cực tiểu Vmin (y st ) = C∗ √ Wh Sh ch + (S − 90 √ Wh Sh2 )1/2 c − S2 N 4.3.3 Phương sai ước lượng lấy mẫu cặp phân tầng Nếu 1/n 1/N không đáng kể so với (chẳng hạn < 0, 02) hầu hết ước lượng mẫu không chệch V (y st ) (4.32) đơn giản công thức L v(y st ) = h L = h wh2 s2h − nh L h L g + n 1 − n vh N wh s2h wh s2h g + N n wh (y h − y st )2 (4.34) h L wh (y h − y st )2 , h g = (N − n )/(N − 1) Định lý 4.18 Ước lượng mẫu không chệch V (y st ) lấy mẫu cặp L n (N − 1) v(y st ) = (n − 1)N wh s2h h L g + n 1 − n vh N wh − N n vh s2h h g + n (4.35) L wh (y h − y st )2 h Chứng minh Từ (4.31) dạng tổng quát phương sai ước lượng L 1 − n vh N Wh Sh2 V (y st ) = h g + nN L (Wh − 1)Sh2 h g + n L Wh (Y h − Y )2 h Đầu tiên lấy trung bình với n wh cố định sau lấy trung bình biến thiên wh , trung bình wh s2h (4.35) Wh Sh2 , trung bình s2h Sh2 Số hạng cuối (4.35) wh (y h − y st )2 = wh y 2h − y 2st Đầu tiên lấy trung bình với wh cố định, wh y 2h = E wh Sh2 wh Y h + 1 − vh wh n wh N Hơn nữa, L wh y 2h Ew E = Wh Y h + h 91 Sh2 1 − vh n N (4.36) Cũng có E(y 2st ) = Y + V (y st ) (4.37) Lấy (4.37) trừ (4.36) nhân với g /n dẫn đến g E n wh (y h − y st )2 = g n Wh (Y h − Y )2 + Sh2 + 1 − vh n N (4.38) − V (y st ) Thay (4.38) tìm (n − 1)N Ev(y st )/n (N − 1) từ (4.35), ta có (n − 1)N Ev(y st ) = n (N − 1) 1− g n V (y st ) = (n − 1)N V (y st ) n (N − 1) Điều dẫn đến kết cần chứng minh Rao năm 1973 đưa kết (4.35) ngôn ngữ nh nh sau N −1 v(y st ) = N h nh − nh − − n −1 N −1 wh s2h (N − n ) + nh N (n − 1) wh (y h − y st )2 h Hệ 4.19 Để sử dụng (4.34) ước lượng tỷ lệ, đặt ph thay y h nh ph qh /(nh − 1) thay s2h 4.3.4 Ước lượng hồi quy Trong vài ứng dụng lấy mẫu cặp, biến phụ xi sử dụng để tạo nên ước lượng hồi quy Y Trong mẫu (mẫu lớn) cỡ n , ta đo xi , mẫu thứ 2, mẫu ngẫu nhiên cỡ n = = n /k, tỷ số v chọn trước, ta đo đạc xi yi Ước lượng Y là: y lr = y + b(x − x), x , x trung bình xi , mẫu thứ mẫu thứ hai b hệ số hồi quy bình phương tối thiểu yi theo xi tính tốn từ mẫu thứ hai Định lý 4.20 Nếu 1/n 1/n khơng đáng kể so với 1, ta có kết xấp xỉ cho V (y lr ) sau: V (y lr ) ≈ Sy2 (1 − ρ2 ) ρ2 Sy2 Sy2 + − n n N 92 (4.39) Chứng minh Trong việc tìm sai số mẫu y lr lấy mẫu ngẫu nhiên đơn giản ta b y lr thay hệ số hồi quy tổng thể hữu hạn B = Syx /Sx2 Do ta kiểm tra phương sai xấp xỉ ylr = y + B(x − x) Chỉ số 1, ký hiệu biến thiên pha lấy mẫu thứ hay thứ hai Đặt ui = yi − Bxi Trong pha thứ hai, xem mẫu lớn tổng thể hữu hạn Khi đó, mẫu nhỏ rút cách ngẫu nhiên từ mẫu lớn, E2 (ylr ) = y : V2 (ylr ) = 1 − n n su2 , su2 phương sai u mẫu lớn Nó V (y lr ) ≈ V (ylr ) = V1 (y ) + E1 = 1 − n N 1 − su2 n n 1 Sy2 + − n n Sy2 (1 − ρ2 ), su2 ước lượng không chệch Su2 = Sy2 (1 − ρ2 ) Do Sy2 (1 − ρ2 ) ρ2 Sy2 Sy2 + − V (y lr ) ≈ n n N 4.3.5 Ước lượng phương sai lấy mẫu cặp hồi quy Nếu số hạng 1/n không đáng kể, V (y lr ) cho (4.39): Sy2 (1 − ρ2 ) ρ2 Sy2 Sy2 V (y lr ) ≈ + − n n N Với mơ hình hồi quy tuyến tính, s2y.x = n−2 n n 2 (xi − x)2 (yi − y) − b i=1 i=1 ước lượng không chệch Sy2 (1 − ρ2 ) Vì s2y = (yi − y)2 n−1 93 ước lượng không chệch Sy2 nên s2y − s2y.x ước lượng không chệch ρ2 Sy2 Do ước lượng mẫu V (y lr ) s2y s2y.x s2y − s2y.x v(y lr ) = − + n n N 94 KẾT LUẬN Luận văn “Các phương pháp lấy mẫu xử lý mẫu” trình bày phương pháp lấy mẫu lơ hữu hạn phần tử Đó lấy mẫu ngẫu nhiên đơn giản, lấy mẫu ngẫu nhiên phân tầng, lấy mẫu hệ thống, lấy mẫu chùm, lấy mẫu lấy mẫu cặp Ứng với phương pháp lấy mẫu luận văn đề cập đến ước lượng đại lượng trung bình, tổng lý thuyết, tỷ lệ Phương sai ước lượng Từ rút nhận xét để so sánh phương pháp lấy mẫu so sánh ước lượng nhận tương ứng 95 TÀI LIỆU THAM KHẢO Tiếng Việt Đào Hữu Hồ (2008), “Xác suất thống kê”, in lần thứ 11, Nhà xuất Đại học Quốc Gia Hà Nội Đào Hữu Hồ, Nguyễn Văn Hữu, Hồng Hữu Như (2004), “Thống kê tốn học”, Nhà xuất Đại học Quốc Gia Hà Nội Nguyễn Viết Phú, Nguyễn Duy Tiến (2004), “Cơ sở lý thuyết xác suất”, Nhà xuất Đại học Quốc Gia Hà Nội Tiếng Anh Brooks, S (1955) The estimation of an optimum subsampling number Jour Amer Stat Assoc, 50, 398 – 415 Cochran, W G (1942) Sampling theory when the sampling units are of unequal sizes Jour Amer Stat Assoc Cornell, F G (1947) A stratified random sample of a small finite population Jour Amer Stat Assoc Dalenius, T., and Hodges, J L., Jr (1959) Minimum variance stratification Jour Amer Stat Assoc Das, A C (1950) Two-dimensional systematic sampling and the associated stratified and random sampling Sankhya Evans, W D (1951) On stratification and optimum allocations Jour Amer Stat Assoc, 46, 95 – 104 10 Finney, D J (1948) Random and systematic sampling in timber surveys Forestry 11 Hansen, M H., and Hurwitz, W N (1943) On the theory of sampling from finite populations Ann Math Stat 96 12 Horvitz, D G., and Thompson, D J (1952) A generalization of sampling without replacement from a finite universe Jour Amer Stat Assoc, 47, 663 – 685 13 Lahiri, D B (1951) A method for sample selection providing unbiased ratio estimates Bull Int Stat Inst., 33, 2, 133 – 140 14 Lohr, SharonL (1999) Sampling: Design and analysis, Duxbury, ISBN – 534 – 35361 – 15 Rao, J N K (1973) On double sampling for stratification and analytical surveys Biometrika, 60, 125 – 133 16 Robert M Groves, etalia (2010) Survey methodology ISBN – 471 – 48348 – 17 Stephan, F F (1941) Stratification in representative sampling Jour Marketing, 6, 38 – 46 18 Stuart, A (1954) A simple presentation of optimum sampling results Jour Roy Stat Soc, B16, 239 – 241 19 William G Cochran “Sampling techniques” (1977), third edition JOHN WILEY & SONS, INC 20 Yates, F., and Grundy, P M (1953) Selection without replacement from withinstrata with probability proportional to size Jour Roy Stat Soc, B15, 253 – 261 21 Trang web: Wikipedia, the free encyclopedia: • Sampling (Statistics) (12/2012) • Sampling techniques • Paula Lagapes Barreiro Justo Puerto Albandoz • Population and Sample Sampling Techniques, univ of Seville • Jamie Mcentosh (2/2008): Probability sampling techniques 97 ... chưa Các công thức phương sai ước lượng phương sai ước lượng thường đơn giản lấy mẫu hồn lại so với lấy mẫu khơng hoàn lại Với lý này, lấy mẫu hoàn lại sử dụng cách lấy mẫu phức tạp lấy mẫu khơng... đến mẫu chùm với chùm cỡ, không cỡ kết hợp mẫu chùm mẫu đề cập hai chương trước - Chương 4: Lấy mẫu lấy mẫu cặp Lấy mẫu đưa kết cho mẫu hai giai đoạn mẫu ba giai đoạn Lấy mẫu cặp đề cập tới mẫu. .. khoa toàn thư mở (Wikipedia), luận văn ? ?Các phương pháp lấy mẫu xử lý mẫu? ?? trình bày tổng quan phương pháp lấy mẫu lô (một tổng thể) gồm hữu hạn phần tử xử lý thống kê đại lượng liên quan lô Luận