116 Trần Thị Kim Thanh NGHIÊN CỨU MẪU NGẪU NHIÊN ĐƠN GIẢN VÀ MẪU NGẪU NHIÊN PHÂN TẦNG TRONG BÀI TOÁN CHỌN MẪU NGHIÊN CỨU SIMPLE RANDOM SAMPLING AND STRATIFIED RANDOM SAMPLING Trần Thị Kim Thanh Trường[.]
Trần Thị Kim Thanh 116 NGHIÊN CỨU MẪU NGẪU NHIÊN ĐƠN GIẢN VÀ MẪU NGẪU NHIÊN PHÂN TẦNG TRONG BÀI TOÁN CHỌN MẪU NGHIÊN CỨU SIMPLE RANDOM SAMPLING AND STRATIFIED RANDOM SAMPLING Trần Thị Kim Thanh Trường Đại học Kinh tế - Kỹ thuật Cơng nghiệp; Email: ttkthanh@uneti.edu.vn Tóm tắt - Ngày toán học thống kê ứng dụng rộng rãi nhiều lĩnh vực khác nhau, ưu điểm phương pháp cho kết trung thực, khách quan với sai số tương đối nhỏ Sử dụng phương pháp bắt buộc phải lấy mẫu, mẫu độc lập với đại diện cho miền Tồn thực tế, khơng trường hợp mẫu lấy, lại không đại diện trung thực khách quan cho tổng thể nghiên cứu, dẫn đến kết nghiên cứu không mong muốn, chí trái với thực tiễn Bài báo nghiên cứu hai phương pháp lấy mẫu ngẫu nhiên (Phương pháp lấy mẫu ngẫu nhiên đơn giản Phương pháp lấy mẫu ngẫu nhiên phân tầng) Kết nghiên cứu cho thấy, mẫu ngẫu nhiên phân tầng phức tạp, tốn nhiều thời gian chi phí lại cho độ xác cao mẫu ngẫu nhiên đơn giản Abstract - Mathematical statistics has been used in various areas because of its accurate and objective results, and relatively small errors Using statistics in research involves the collecting of samples, or a set of independent samples representing a whole group There remain, however, cases where sample selection is not unbiased, the samples not accurately represent the whole population, and then the results are undesirable and even contrary to the law of practice In this paper, we present our study of two random sampling methods: simple random sampling and stratified random sampling While stratified random sampling costs and is a complex and time-consuming process, its accuracy is higher than that of simple random sampling Từ khóa - mẫu; ngẫu nhiên; mẫu ngẫu nhiên; mẫu ngẫu nhiên đơn giản; mẫu ngẫu nhiên phân tầng Key words - sample; random; random sampling; simple random sampling; stratified random sampling Đặt vấn đề Trong thực tế, người ta thường phải nghiên cứu đặc tính tập hợp như: mức độ hài lòng khách hàng sản phẩm doanh nghiệp, kiểm tra an toàn thực phẩm kho hoa quả, trình độ văn hóa khu dân cư,… Để xử lý rút kết luận cần thiết, người ta sử dụng phương pháp nghiên cứu toàn bộ, nhiên việc áp dụng phương pháp gặp phải khơng khó khăn như: - Nếu quy mơ tập nghiên cứu lớn việc nghiên cứu tồn địi hỏi nhiều chi phí vật chất thời gian; xảy trường hợp tính trùng bỏ sót số phần tử vùng cần nghiên cứu Do đó, địi hỏi phải đưa giải pháp tối ưu, chi tiết, chặt chẽ thật khoa học để hạn chế sai sót khơng mong muốn q trình thu thập số liệu ban đầu - Trong nhiều trường hợp nắm toàn phần tử tập cần nghiên cứu, khơng thể tiến hành nghiên cứu tồn - Nếu phần tử tập hợp lại bị phá hủy trình nghiên cứu khơng tiến hành nghiên cứu tồn Để kết phản ánh cách trung thực khách quan, người ta thường nghiên cứu tập nhỏ gọi mẫu, từ tập lớn gọi tổng thể để phân tích, xử lý đưa kết cần thiết Vấn đề đặt cần chọn mẫu đại diện nào, để mang đầy đủ đặc tính tổng thể, từ đưa kết luận nhanh chóng, kịp thời mà giảm chi phí, đảm bảo độ xác cần thiết Bài báo kết nghiên cứu dựa sở hai phương pháp lấy mẫu ngẫu nhiên đơn giản lấy mẫu ngẫu nhiên phân tầng lý thuyết xác suất - thống kê, để đưa kết luận đánh giá hai phương pháp chọn mẫu ngẫu nhiên phổ biến thường sử dụng, từ giúp nhà thống kê vận dụng linh hoạt xử lí thơng tin cần thu thập Phương pháp nghiên cứu 2.1 Phương pháp lấy mẫu ngẫu nhiên đơn giản [3] Lấy mẫu ngẫu nhiên đơn giản phương pháp chọn ngẫu nhiên n phần tử số N phần tử cho Từ ta có hai phương án lấy mẫu: lấy mẫu có hồn lại khơng hồn lại Trường hợp: Lấy mẫu ngẫu nhiên có hồn lại Ta rút ngẫu nhiên phần tử, sau lại trả phần tử tập hợp ban đầu Cứ tiếp tục rút n phần tử Các phần tử rút trả lại cho tổng thể nên phương pháp gọi lấy mẫu ngẫu nhiên có hồn lại Trường hợp: Lấy mẫu ngẫu nhiên khơng hồn lại Ta rút ngẫu nhiên phần tử, sau lại tiếp tục rút ngẫu nhiên phần tử thứ hai Cứ tiếp tục rút n phần tử Các phần tử rút không trả lại cho tổng thể nên phương pháp gọi lấy mẫu ngẫu nhiên khơng hồn lại 2.2 Phương pháp lấy mẫu ngẫu nhiên phân tầng [2] Tổng thể nghiên cứu N phần tử chia thành tập gồm N1 , N2 , …, NL phần tử không trùng lặp cho: N1 + N2 + …+ NL = N Các tập gọi tầng Mẫu rút từ tầng việc lấy mẫu độc lập với tầng Cỡ mẫu tầng ký hiệu n1 , n2 , …, nL tương ứng (n1 + n2 + …+ nL = n) Nếu tầng lấy mẫu ngẫu nhiên tất mẫu gọi mẫu ngẫu nhiên phân tầng Khi nh n Nh N ký hiệu fh = f h tức tỷ suất lấy mẫu giống tất tầng Sự phân tầng gọi phân tầng với số lượng nh tỷ lệ ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN Kết thảo luận 3.1 Đánh giá điều kiện thực mẫu ngẫu nhiên phân tầng mẫu ngẫu nhiên đơn giản Cả hai phương pháp lấy mẫu ngẫu nhiên nên xác suất phần tử biết có xác suất chọn nhau, nghĩa từ danh sách tất cá thể quần thể định chọn mẫu, ta chọn đối tượng đến đủ mẫu Tuy nhiên, mẫu ngẫu nhiên phân tầng đòi hỏi thay đổi tầng phải nhỏ, tức tầng phải có đặc điểm chung yếu tố vùng miền, giới tính, nhóm tuổi,… Nhưng thay đổi tầng phải đủ lớn để tầng xét tổng thể riêng biệt, độc lập, từ tầng lựa chọn phương pháp lấy mẫu phù hợp hiệu giá Ví dụ: Một tịa soạn báo muốn tiến hành nghiên cứu mẫu 1000 doanh nghiệp nước quan tâm họ với tờ báo nhằm tiếp thị việc đưa thông tin quảng cáo báo Tịa soạn vào tiêu chí: vùng địa lý (miền Bắc, miền Trung, miền Nam); hình thức sở hữu (quốc doanh, ngồi quốc doanh, cơng ty 100% vốn nước ngồi, ) để định cấu mẫu nghiên cứu Số lượng mẫu tầng thực theo hai cách: dựa vào tỉ lệ cỡ dân số vùng với tổng thể, chẳng hạn với mẫu hai tầng: thành thị 60% tổng thể nơng thơn 40% với cỡ mẫu 5000, ta lấy tầng thành thị 3000 tầng nông thôn 2000 cỡ mẫu chọn tương đương tầng Vì vậy, mẫu ngẫu nhiên phân tầng phải lựa chọn biến phân tầng hợp lí, khó thực mẫu ngẫu nhiên đơn giản 3.2 Đánh giá thời gian chi phí mẫu ngẫu nhiên phân tầng mẫu ngẫu nhiên đơn giản Với toán lấy mẫu nghiên cứu, cỡ mẫu thường lớn với phạm vi điều tra rộng nên tiến hành phân tầng tổng thể, nhà thống kê phải điều tra để nắm rõ đặc điểm vùng dân cư khảo sát như: yếu tố địa lý, trình độ văn hóa, tỉ lệ giới tính,… để tổng thể phân chia thành nhóm nhỏ thực độc lập, phân biệt Do đó, tiến hành lấy mẫu ngẫu nhiên phân tầng tốn nhiều thời gian chi phí 3.3 Đánh giá độ xác tương đối mẫu ngẫu nhiên phân tầng mẫu ngẫu nhiên đơn giản 3.3.1 So sánh độ xác tương đối hai mẫu ngẫu nhiên Định lí sau cho ta kết mẫu ngẫu nhiên phân tầng xác mẫu ngẫu nhiên đơn giản Định lí Ký hiệu: Nh tổng số phần tử tầng h tổng thể Vran , Vprop phương sai trung bình ước lượng mẫu ngẫu nhiên đơn giản, mẫu ngẫu nhiên phân tầng với số lượng tỉ lệ Nếu tỉ số 1/ Nh bỏ qua (tức nhỏ so với 1) Vprop Vran Chứng minh: Theo định nghĩa S Vran (1 f ) n (1.1) V prop 1 f n 117 Wh Sh (1.2) Trong đó: N h yh Yh i 1 i Sh Nh phương sai chân thực tầng h; N Wh h N trọng số tầng h; N h yh Y h i 1 i S N 1 Ta có: phương sai tổng thể N h ( N 1) S yh Y h i 1 i N 2 h ( N 1) S yh Yh N h Yh Y h i 1 i h 2 ( N 1) S ( N h 1) Sh N h Yh Y h h (1.3) Nếu số hạng 1/Nh bỏ qua 1/N bỏ qua (1.3) trở thành: 2 S Wh Sh Wh Yh Y h h (1.4) Do đó, từ (1.1) (1.4) ta có: S Vran (1 f ) n 1 f 1 f Wh Sh Wh Yh Y n h n h 1 f Vran V prop Wh Yh Y n h (1.5) Điều chứng minh Ví dụ Số dân 63 tỉnh, thành phố nước ta năm 2012 thể Bảng (số liệu lấy [5]) Các thành phố xếp theo hai tầng, tầng gồm 41 tỉnh, thành phố tầng thứ hai gồm 22 tỉnh, thành phố lại Tổng số dân tất thành phố ước lượng từ cỡ mẫu 23 88772,9 Ta tính tổng thể đầy đủ: 𝑌̅ = ≈ 1409,09 63 𝑆 = 217240908,2 62 − 63 62 (1409,09)2 => S2 486 326,24 Bảng Dân số tỉnh, thành phố nước ta năm 2012 (đơn vị: nghìn người) Tầng h=1 Tỉnh(TP) Hà Nội h=2 Số dân Tỉnh(TP) 6844,1 Hà Nam Số dân 790 Trần Thị Kim Thanh 118 Vĩnh Phúc Bắc Ninh Quảng Ninh Hải Dương Hải Phịng Hưng n Thái Bình Nam Định Thái Nguyên Bắc Giang Phú Thọ Sơn La Thanh Hóa Nghệ An Hà Tĩnh Thừa Thiên Huế Quảng Nam Quảng Ngãi Bình Định Khánh Hịa Bình Thuận Lào Cai Đắc Lắc Lâm Đồng Tây Ninh Bình Dương Đồng Nai Bà Rịa-Vũng Tàu TP HCM Long An Tiền Giang Bến Tre Trà Vinh Vĩnh Long Đồng Tháp An Giang Kiên Giang Cần Thơ Sóc Trăng Cà Mau 1020,6 1079,9 1177,2 1735,1 1904,1 1145,6 1787,3 1836,9 1150,2 1588,5 1335,9 1134,3 3426,6 2952 1230,5 1114,5 1450,1 1227,9 1501,8 1183 1193,5 1342,7 1796,7 1234,6 1089,9 1748 2720,8 1039,2 7681,7 1458,2 1692,5 1258,5 1015,3 1033,6 1676,3 2153,7 1726,2 1214,1 1301,9 1217,1 Ninh Bình Hà Giang Cao Bằng Bắc Kạn Tuyên Quang Lào Cai n Bái Lạng Sơn Điện Biên Lai Châu Hịa Bình Quảng Bình Quảng Trị Đà Nẵng Phú Yên Ninh Thuận Kon Tum Đắc Nơng Bình Phước Hậu Giang Bạc Liêu 915,9 758 515,2 301 738,9 646,8 764,4 744,1 519,3 397,5 806,1 857,9 608,1 973,8 877,2 576,7 462,4 543,2 912,7 769,7 873,4 yhi 73420,6 15352,3 88772,9 Vran 40 [ 41 1858 415, 82 22 33968,18] 23.63 63 63 V prop 33714, 48 Nhận xét: Trong ví dụ này, mẫu hai tầng phân tầng tương đối hợp lí, tính đại diện khái qt hóa cao (hai tầng có phương sai chênh lệch gần 55 lần) Kết mẫu hai tầng với số lượng tỉ lệ xác mẫu ngẫu nhiên đơn giản (độ xác tăng 18,95%) (I) 3.3.2 Điều chỉnh độ xác mẫu ngẫu nhiên phân tầng Trong mẫu ngẫu nhiên phân tầng, giá trị cỡ mẫu n h tầng h tương ứng lựa chọn làm cực tiểu Vprop tức làm tăng độ xác Điều thể định lí phân bổ Neymann Định lí (Sự phân bổ Neymann) [4] Trong mẫu ngẫu nhiên phân tầng, Vprop nhỏ với tổng cỡ mẫu n cố định N S nh n h h N h S h Khi đó, thay giá trị nh vào cơng thức phương sai trung bình ước lượng mẫu ngẫu nhiên phân tầng, ta được: 2 ( Wh Sh ) Wh Sh V prop n N Bây giờ, ta xây dựng công thức xác định mức chênh lệch cao độ xác đạt việc chọn mẫu nghiên cứu mẫu ngẫu nhiên đơn giản mẫu ngẫu nhiên phân tầng 2 prop n WhSh ( Wh Sh ) (2.1) Từ (2.1) (1.5), ta có: V prop V Vran V yhi2 205814253,6 11426654,55 217240908,2 - Với mẫu ngẫu nhiên đơn giản: Vran (1 f ) V prop 33 968,18; N2 = 22 Ta có: Vprop Vpropmin Bảng Tổng tổng bình phương Tầng h=1 h=2 S22 - Với mẫu phân tầng hai tầng với số lượng tỉ lệ: S21 858 415,82; N1 = 41 1 f n Wh Yh Y h 1 Wh Sh ( Wh Sh )2 n (2.2) Hệ thức (2.2) biểu diễn độ chênh lệch phương sai mẫu ngẫu nhiên đơn giản mẫu ngẫu nhiên phân tầng tối ưu Đặt vế phải hệ thức (2.2) A A gồm thành phần: thành phần (số hạng sau dấu “=”) thể độ lệch trung bình tầng, số hạng cịn lại chênh lệch mẫu phân tầng tỉ lệ mẫu phân tầng tối ưu Sử dụng hệ thức: S2 N n S2 n N n 40 1486326, 24 41030, 63 23 prop a b a b (a 0, b 0) a b Ta có: Vran V prop A Vran Vran A ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN Hay: Vran V A prop (1 f ) S S2 (1 f ) n n A (2.3) với 1 f Wh Yh Y Wh Sh2 ( Wh Sh )2 n n h Hệ thức (2.3) cho ta kết cần tìm (II) A Kết luận Bài báo nghiên cứu hai phương pháp lấy mẫu: Lấy mẫu ngẫu nhiên đơn giản lấy mẫu ngẫu nhiên phân tầng dựa sở Toán Lý thuyết Xác suất - Thống kê Từ định nghĩa, báo đưa kết quả, đánh giá, so sánh thời gian, chi phí độ xác hai phương pháp lấy mẫu ngẫu nhiên tiến hành thu thập mẫu đại diện Đánh giá kiểm chứng việc xử lý số liệu chọn mẫu nghiên cứu tổng thể dân số tỉnh, thành phố nước ta năm 2012 (III) 119 Từ kết trên, nghiên cứu lấy mẫu ngẫu nhiên phân tầng phức tạp, tốn nhiều thời gian chi phí cho kết xác so với cách lấy mẫu ngẫu nhiên đơn giản Hơn nữa, dựa vào định lí phân bổ Neymann mẫu phân tầng xác mẫu ngẫu nhiên phân tầng hồn tồn điều chỉnh tối ưu (độ xác lớn có thể) Tác giả xây dựng cơng thức (2.3) xác định giá trị mức chênh lệch độ xác cao đạt chọn mẫu nghiên cứu mẫu ngẫu nhiên phân tầng lý tưởng (mẫu ngẫu nhiên phân tầng tối ưu) chọn mẫu mẫu ngẫu nhiên đơn giản (IV) Kết nghiên cứu sở khoa học cho việc ứng dụng vào thực tiễn để giải tốn lấy mẫu có nhiều tham số đưa kết tối ưu TÀI LIỆU THAM KHẢO [1] Đào Hữu Hồ (2008), Xác suất thống kê, in lần thứ 11, Nhà xuất Đại học Quốc gia Hà Nội [2] Tống Đình Quỳ (2003), Giáo trình xác suất thống kê, trang 115, Nhà xuất Đại học Quốc gia Hà Nội [3] Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như (2004), Thống kê toán học, trang 1- 2, Nhà xuất Đại học Quốc gia Hà Nội [4] William G Cochran, Sampling techniques (1977), third eddition, JOHN WILLEY & SONS, INC, 94 [5] www.gso.gov.vn (BBT nhận bài: 14/09/2014, phản biện xong: 26/09/2014) ... đương tầng Vì vậy, mẫu ngẫu nhiên phân tầng phải lựa chọn biến phân tầng hợp lí, khó thực mẫu ngẫu nhiên đơn giản 3.2 Đánh giá thời gian chi phí mẫu ngẫu nhiên phân tầng mẫu ngẫu nhiên đơn giản. .. lấy mẫu ngẫu nhiên phân tầng phức tạp, tốn nhiều thời gian chi phí cho kết xác so với cách lấy mẫu ngẫu nhiên đơn giản Hơn nữa, dựa vào định lí phân bổ Neymann mẫu phân tầng xác mẫu ngẫu nhiên phân. .. ngẫu nhiên đơn giản 3.3.1 So sánh độ xác tương đối hai mẫu ngẫu nhiên Định lí sau cho ta kết mẫu ngẫu nhiên phân tầng xác mẫu ngẫu nhiên đơn giản Định lí Ký hiệu: Nh tổng số phần tử tầng h tổng