bài viết trình bày kinh nghiệm lựa chọn mẫu để có thể kiểm soát hiệu quả thiết kế của các cuộc điều tra phức tạp; Các kinh nghiệm về quy trình kỹ thuật đã được thực hiện trong sự phát triển của các thiết kế mẫu mới đã được sử dụng cho Khảo sát lực lượng lao động 2009-2010 được tiến hành ở Bangladesh. Các thiết kế mẫu mới giải quyết các điểm yếu được xác định trong các thiết kế trước đó được thông qua vào LFS năm 2005.
Thống kê Quốc tế Hội nhập Kinh nghiệm thiết kế mẫu chủ… Kinh nghiệm thiết kế mẫu chủ cho điều tra hộ gia đình Bangladesh (Tiếp theo) Kinh nghiệm lựa chọn mẫu để kiểm soát hiệu thiết kế điều tra phức tạp Bảng 6: Đặc trưng thống kê đơn vị phân lớp theo thành thị/nông thôn Vùng Đơn vị phân tầng PStrong4 Barisal PAgri5 POal6 PStrong Chittagong PAgri POal PStrong Dhaka PAgri POal PStrong Khulna PAgri POal Thành thị/ Nơng thơn Nhỏ Trung vị Trung bình Lớn Độ lệch chuẩn Nông thôn Thành thị Nông thôn Thành thị 0 0 0.99 14.93 61.68 7.75 2.93 25.37 59.75 20.33 100 100 100 100 7.11 26.54 23.59 24.91 Nông thôn 69.46 66.26 100 22.92 Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị 0 0 0 0 0 0 0 0 0 50.57 4.05 30.48 46.94 4.55 58.33 38.63 1.85 57.56 67.42 1.25 61.54 48.54 15.27 44.17 71.07 6.49 61.17 43.33 50.46 7.46 38.11 48.99 15.21 57.26 40.41 5.37 53.90 62.93 10.24 61.37 48.32 17.87 46.28 65.90 19.61 60.87 44.54 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 23.62 10.70 31.68 25.85 22.29 22.87 25.21 9.49 35.59 24.50 19.36 20.77 26.22 14.37 27.19 22.95 25.59 20.36 22.60 Tỷ lệ hộ gia đình có nhà vật liệu tốt Tỷ lệ hộ gia đình có sản xuất nơng nghiệp nguồn thu nhập Tỷ lệ hộ gia đình sở hữu đất nông nghiệp SỐ 04 – 2016 29 11 Kinh nghiệm thiết kế mẫu chủ… Thống kê Quốc tế Hội nhập Vùng Đơn vị phân tầng Thành thị/ Nông thôn Nhỏ Trung vị Trung bình Lớn Độ lệch chuẩn Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị Nông thôn Thành thị 0 0 0 0 0 0 3.80 33.33 76.09 12.00 57.03 39.39 11.83 49.07 58.76 7.25 49.38 38.65 7.68 39.39 70.46 24.86 57.14 40.72 17.92 47.42 56.09 18.55 49.36 40.68 100 100 100 100 100 100 100 100 100 100 100 100 11.05 30.84 22.39 27.29 19.51 20.87 18.68 29.50 28.57 23.43 22.63 22.71 Tất 6.06 17.47 100 25.36 Bangladesh PAgri Tất 56.82 51.12 100 31.86 POal Tất 56.43 55.64 100 23.06 PStrong Rajshahi PAgri POal PStrong Sylhet PAgri POal PStrong … Nguồn: Tính tốn tác giả sử dụng liệu Tổng điều tra dân số năm 2001 tiến hành BBS Một vài phát phân loại nông thôn/thành thị cần xem xét cách cẩn thận Chi tiết, có PSU khu vực thị, tất hộ gia đình có sản xuất nơng nghiệp nguồn thu nhập có PSU khu vực nơng thơn có số hộ gia đình nguồn thu nhập không từ sản xuất nông nghiệp Bảng cho thấy quyền sở hữu đất nông nghiệp yếu tố phân biệt tốt cho khu vực thành thị /nơng thơn Điều cho thấy có nhiều chủ sở hữu khu vực thành thị, thuê hay cho thuê đất nông nghiệp họ đó, làm giảm giá trị đơn vị phân tầng Poal Xem xét đặc trưng thống kê: độ lệch chuẩn, giá trị nhỏ nhất, giá trị trung bình giá trị lớn nhất, thấy tỷ lệ hộ có nhà vật liệu tốt (Pstrong) khơng thay đổi nhiều khu vực nơng thơn Tính trung bình, hộ gia đình có nhà vật liệu tốt có tỷ lệ thấp đáng kể vùng nông thôn Mặt khác, đặc trưng thống kê (giá trị nhỏ nhất, 30 trung bình, lớn nhất) PAgri tương đối giống cho khu vực thành thị nông thôn số vùng, số lượng hộ gia đình với nơng nghiệp nguồn thu nhập thấp đáng kể khu vực thànhthị, mức trung bình Những kết nhắc nhở phân lớp khu vực thành thị sử dụng đơn vị phân lớp PStrong khu vực nông thôn sử dụng đơn vị phân lớp PAgri Đặc biệt, số lượng hộ gia đình PSU khu vực nơng thôn nhiều gấp hai lần khu vực thành thị, tương ứng với lớp lớp tính trước cho khu vực nơng thơn khu vực thành thị Ranh giới lớp thiết lập tứ phân vị PAgri cho khu vực nơng thơn trung bình PStrong cho khu vực thành thị Tuy nhiên, lớp nhỏ lớp có tổng số hộ gia đình khoảng lấy mẫu lớp kết hợp với lớp liền kề Nói chung, lợi quan trọng quy trình phân lớp (ngầm) đơn giản để thực cho kết chấp nhận SỐ 04– 2016 12 Thống kê Quốc tế Hội nhập Kinh nghiệm thiết kế mẫu chủ… Tuy nhiên, nghiên cứu tương lai xem xét việc thực thủ tục phân lớp tối ưu biện pháp mà Sethiv (1963) Kozak (2004) đề xuất 3.2 Chọn mẫu Để hiệu thiết kế kiểm sốt phải đảm bảo quyền số điều tra tầng không thay đổi nhiều Một khác biệt lớn quyền số tầng không làm gia tăng phương sai ước lượng, đó, nhà điều tra thống kê thường lựa chọn giữ nguyên quyền số sở gần tương tự tầng Do quyền số sở nghịch đảo xác suất chọn đơn vị lấy mẫu cuối cùng, sau trì quyền số sở tương tự gần thống tương đương với việc trì xác xuất lựa chọn giống gần tương tự tầng Phần thảo luận cách làm để đạt mục đích Ở đây, đề xuất thiết kế chọn mẫu đơn giản hai giai đoạn tầng d: (i) PSUα lựa chọn với xác suất tỷ lệ với quy mơ (ii) hộ gia đình β từ PSUα lựa chọn cách lấy mẫu ngẫu nhiên giản đơn chọn mẫu hệ thống, tầng d mà tất PSU nhóm lại đơn vị phân tầng tầng ngầm Vì vậy, phạm vi tầng d tầng (ngầm) h, xác suất 𝑓𝑑 mà hộ gia đình chọn từ PSU là: 𝑓𝑑 = 𝑛 𝑑′ 𝑀𝑑 đình cho PSUα tầng h) Trong thiết kế chọn mẫu chùm hai giai đoạn: 𝑓𝑑 = 𝑃 𝛼𝛽 = 𝑃 𝛼 𝑃(𝛽|𝛼) P(α|h) xác suất lựa chọn PSUα P(β|hα) xác suất lựa chọn hộ gia đình β thuộc PSUα tầng h chọn Do đó: 𝑓𝑑 = 𝑏 𝑎 𝑀 𝛼 𝑀 𝛼 𝑀 𝛼 = 𝑎 𝑏 𝑀 𝛼 (5) Trong 𝑎 số lượng PSU lấy mẫu từ tầng h, 𝑏 số hộ gia đình lựa chọn từ tầng h Thuật ngữ P(hβ|α) = 𝑏 𝑀 𝛼 đại diện cho phần chọn mẫu sử dụng việc chọn mẫu có hệ thống hộ gia đình giai đoạn lấy mẫu cuối Nghịch đảo khoảng chọn mẫu áp dụng chọn hộ gia đình từ PSU chọn Xem công thức (5), 𝑓𝑑 thống 𝑎 tầng 𝑏 không 𝑀 𝛼 phụ thuộc vào tầng h đó, hai liên tục tất tầng tầng d Nên lấy 𝑏 = 10, thực cho tất đơn vị 𝑎 chọn mẫu cấp 1, 𝑀 𝛼 trì khơng đổi, (3) (4) 𝑓𝑑 thống miền d Để thực sau, số lượng ′ Trong 𝑛𝑑 tổng số cỡ mẫu cho tầng d định nghĩa cột cuối bảng (Kish Allocation, Index = 1), 𝑀𝑑 đơn vị xác định quy mơ tầng d (ví dụ, tổng số hộ gia đình bình quân vùng xác định Tổng điều tra dân số năm 2001) 𝑀𝛼 đơn vị đo quy mô PSUα tầng h (tức là, tổng số hộ gia SỐ 04 – 2016 PSU lựa chọn cho tầng h, 𝑎 phải tương ứng với đơn vị đo kích thước tầng h, mà thực tế Tổng điều tra dân số năm 2001 số hộ gia đình cho tầng h Tuy nhiên, 𝑎 phải số nguyên đơn vị xác định cỡ tầng khác nhau, xác suất lựa chọn kết tầng tầng d 31 13 Kinh nghiệm thiết kế mẫu chủ… Thống kê Quốc tế Hội nhập không hồn tồn giống khơng thay đổi nhiều Để trì 𝑓𝑑 thống tồn tầng, khoảng lấy mẫu tương tự áp dụng danh sách tất PSU xếp theo tầng Điều ngụ ý việc lựa chọn PSU không thực riêng cho tầng mà thực chung cho tất tầng Quy trình bước cho việc trì xác suất chọn thống tầng nêu Bảng cho thấy xác suất lựa chọn kết đồng cho tên tầng Chọn mẫu cho đơn vị chọn mẫu cấp (1) Đối với tầng d, xác định số lượng ′ 𝑎𝑑 ′ với 𝑎𝑑 = 𝑛 𝑑′ , b 𝑏 số lượng hộ gia đình quy định PSU PSU chọn (trong trường hợp này, b = 10), 𝑛𝑑′ số hộ gia đình tầng d (Bảng 5, cột cuối cùng) (2) Tính khoảng chọn mẫu: 𝛼 𝑀 𝛼 𝑎 𝑑′ = 𝑁𝑑 … (6) 𝑎 𝑑′ (3) Sắp xếp tất PSU tầng d tỉnh, phân loại thành thị/nông thôn, tầng, giá trị “Pstrong” (4) Tính giá trị tích lũy kích cỡ đo lường (tổng số hộ gia đình dựa Tổng điều tra dân số năm 2001), 𝑀𝛼 sử dụng danh sách xếp bước (3) (5) Chọn ngẫu nhiên số ban đầu (RS) cách lấy số ngẫu nhiên và nhân với khoảng chọn mẫu bước Đơn vị chọn mẫu cấp PSU với giá trị tích lũy 𝑀𝛼 chứa giá trị bắt đầu ngẫu nhiên (RS) Các mẫu PSU PSU mà giá trị tích lũy 𝑀𝛼 chứa RS + 𝑆𝑑 , PSU mà giá trị tích lũy RS + ∗ 𝑆𝑑 ; … Bảng 7: Tóm tắt số lượng mẫu thống kê theo tầng Tổng số hộ (𝑁𝑑 ) Ƣớc tính mẫu PSU (𝑎𝑑′ ) Khoảng chọn mẫu (𝑆𝑑 ) Số lƣợng mẫu PSU thực tế (𝑎𝑑 ) Số lƣợng mẫu hộ gia đình dự kiến (hat *𝑛𝑑 ) Xác suất chọn (𝑓𝑑 ) Barisal 1,648,085 181.77 9066.992 182 1820 0.001104 Chittagong 4,472,548 246.05 18177.35 246 2460 0.000550 Dhaka 8,236,687 369.66 22282.06 370 3700 0.000449 Khulna 3,119,602 210.24 14838.39 210 2100 0.000673 Rajshahi 6,627,797 314.01 21107.21 314 3140 0.000474 Sylhet 1,388,222 178.28 7786.691 178 1780 0.001282 Vùng Nguồn: Tính toán tác giả sử dụng liệu từ Tổng điều tra dân số năm 2001 tiến hành BBS Chọn mẫu hộ gia đình Vì đơn vị xác định quy mơ (ví dụ, tổng số hộ) sử dụng để lựa chọn PSU dựa Tổng điều tra dân số năm 2001 cách 32 xa giai đoạn Khảo sát LFS 2009-2010, số hộ gia đình lấy mẫu phải điều chỉnh cho phù hợp để trì thống xác suất SỐ 04– 2016 14 Thống kê Quốc tế Hội nhập Kinh nghiệm thiết kế mẫu chủ… lựa chọn tầng Đặc biệt, hộ gia đình lựa chọn từ mẫu PSU𝛼 với 𝑏 P(h𝛽|𝛼) = giá trị 2009-2010 𝑀 𝛼 đơn vị xác định quy mô ký hiệu 𝑁𝛼 , sau trì cấp độ hộ gia đình xác suất lựa chọn là: P(h𝛽|𝛼) = 𝑏 = 𝑀 𝛼 10 𝑀 𝛼 = 𝑏′ 𝛼 (7) 𝑁 𝛼 ′ 𝑏𝛼 = 𝑁 𝛼 𝑀 𝛼 ′ 𝑏𝛼 ∗ 10 (8) tổng số lượng hộ gia đình thực tế lựa chọn PSUα tầng h Điều cho thấy cần phải có hoạt động liệt kê tất hộ gia đình PSU lựa chọn trước tiến hành LFS 2009-2010 3.3 Quyền số điều tra ước lượng Quyền số điều tra phải sử dụng đại lượng ước lượng tổng thể đặc điểm thiết kế biện pháp phân tầng, chọn PSU, chọn tầng phải đưa vào giá trị ước lượng phương sai suy luận 3.3.1 Quyền số điều tra Các quyền số điều tra cuối kết tính tốn ba giai đoạn liên tiếp Đầu tiên, quyền số sở tính tốn để trung hòa xác suất lựa chọn khơng việc thiết kế mẫu Sau đó, quyền số sở điều chỉnh để cân tỷ lệ trả lời khơng đồng liệu có sẵn, quyền số điều chỉnh không trả lời tiếp tục điều chỉnh để đảm bảo phân bổ quyền số phù hợp với phân bổ biết từ nguồn liệu Quyền số sở cho mẫu hộ gia đình nghịch đảo xác suất lựa chọn Trong thiết kế mẫu chủ, xác suất lựa chọn thống tầng đó, quyền số sở không khác tầng Nói (9) chung 𝑤𝑑 = 𝑓𝑑 Bảng trình bày quyền số sở hộ gia đình chọn mẫu cách phân tầng: Bảng 8: Quyền số sở theo tầng Vùng Xác suất lựa chọn Quyền số sở Barisal 0.001104 905.7971 Chittagong 0.000550 1818.1820 Dhaka 0.000449 2227.1710 Khulna 0.000673 1485.8840 Rajshahi 0.000474 2109.7050 Sylhet 0.001282 780.0312 Nguồn: Tính tốn tác giả sử dụng liệu từ Tổng điều tra dân số năm 2001 tiến hành BBS Điều chỉnh không trả lời phải đưa vào quyền số điều tra cuối mức độ đơn vị không trả lời bỏ qua SỐ 04 – 2016 Đơn vị không trả lời xảy hộ gia đình đủ điều kiện khơng tham gia vào điều tra Ví dụ, hộ gia đình từ chối 33 15 Kinh nghiệm thiết kế mẫu chủ… Thống kê Quốc tế Hội nhập tham gia đơn vị đủ điều kiện khơng đồng ý vấn Nói chung, việc điều chỉnh không trả lời làm tăng quyền số sở đơn vị trả lời “tương tự” để bù đắp cho việc khơng trả lời Các hình thức phổ biến việc điều chỉnh quyền số không trả lời loại lớp quyền số Các mẫu đầy đủ người trả lời không trả lời chia thành số lớp quyền số nhóm yếu tố điều chỉnh khơng trả lời tính cho nhóm (Kalton, 1990) là: 𝑤𝑐1 = 𝑖∈𝑟𝑐 𝑤 𝑑𝑖 + 𝑗 ∈𝑟𝑐 𝑤 𝑑𝑗 𝑖∈𝑟𝑐 𝑤 𝑑𝑖 = 𝑖∈𝑠𝑐 𝑤 𝑑𝑖 𝑖∈𝑟𝑐 Trong mẫu số 𝑤 𝑑𝑖 𝑤𝑐1 (10) tổng quyền số người điều tra (chỉ số r) quyền số nhóm c tử số thêm tổng quyền số cho người điều tra tổng quyền số cho đủ điều kiện không điều tra (chỉ số m thiếu) nhóm c tổng quyền số cho tổng số mẫu đủ điều s) nhóm c Như vậy, việc điều chỉnh quyền số không trả lời 𝑤𝑐1 nghịch kiện (chỉ số đảo tỷ lệ quyền số trả lời nhóm c Lưu ý việc điều chỉnh áp dụng với đơn vị đủ điều kiện Đơn vị lấy mẫu không đủ điều kiện loại trừ (ví dụ, đơn vị nhà bỏ trống bị phá hủy đơn vị khỏi phạm vi điều tra) Nhóm quyền số c khơng cần phù hợp với ranh giới tầng Nó cắt qua tầng, điều quan trọng nhóm quyền số bao quát hộ “tương tự” Tương tự hiểu “khuynh hướng trả lời hộ gia đình tương tự nhau” Nhìn chung, tỷ lệ trả lời nhóm quyền số khác Hơn nữa, có trường hợp mà quyền số phân bổ mẫu không phù hợp với tính tốn tổng thể dự kiến Khi điều xảy ra, quyền số điều chỉnh thêm quyền số điều chỉnh 34 tổng thể đưa vào quyền số điều … tra cuối để đảm bảo việc phân bổ mẫu phù hợp với phân bố dân cư Quyền số điều chỉnh tổng thể thực tương tự quyền số điều chỉnh không trả lời mơ tả trước Phương pháp hiệu chuẩn sử dụng trình Sử dụng thuật toán phù hợp tỷ lệ lặp lặp lại, thực quyền số không trả lời điều chỉnh ước tính quyền số điều tra số đặc trưng quan tâm (ví dụ nhóm tuổi giới tính) phù hợp với phân bố dân số tương ứng 3.3.2 Ước lượng Giả sử quyền số điều tra cuối cho hộ gia đình i 𝑤𝑖 xem số lượng đơn vị dân cư nhóm mà hộ gia đình trả lời i đại diện Sau đó, ước lượng tổng số dân với đặc trưng lãi suất 𝑌= 𝑖∈𝑠 𝑤𝑖 𝑦𝑖 𝑦𝑖 giá trị biến cho hộ gia đình i Ước lượng đơn có nhiều ứng dụng Ví dụ, áp dụng để ước lượng số dân số có đặc tính cụ thể quan tâm, cách thiết lập 𝑦𝑖 = hộ gia đình có đặc trưng cụ thể, khơng Để ước lượng trung bình tổng thể, 𝑌 , ước lượng tỷ lệ sau sử dụng: 𝑦= 𝑖∈𝑠 𝑤 𝑖 𝑦 𝑖 𝑖∈𝑠 𝑦 𝑖 (11) với tổng quyền số điều tra tất hộ gia đình trả lời, 𝑖∈𝑠 𝑤𝑖 , ước lượng cho tổng số hộ gia đình Một hình thức tổng quát ước lượng tỷ lệ (Kalton, 1983) 𝑅= 𝑖∈𝑠 𝑤 𝑖 𝑦 𝑖 𝑖∈𝑠 𝑤 𝑖 𝑥 𝑖 (12) SỐ 04– 2016 16 Thống kê Quốc tế Hội nhập Kinh nghiệm thiết kế mẫu chủ… Lưu ý với thiết kế mẫu phức tạp mẫu chủ, công cụ mô tả (11) (12) ước lượng tỷ lệ có liên quan đến tỷ lệ hai biến ngẫu nhiên đó, phải xem xét cách cẩn thận việc tính tốn sai số mẫu 3.3.3 Ước lượng phương sai Phương sai giá trị cần thiết để đánh giá độ xác điều tra Việc thiết kế chọn mẫu, thêm vào kích thước mẫu quan trọng với độ xác ước lượng điều tra Các gói phần mềm thống kê có mơđun cho gần phương sai ước tính từ điều tra phức tạp Hầu hết gói phần mềm sử dụng phương pháp Taylor việc tính toán phương sai, số phần mềm cung cấp phương pháp thay hình thức chép, tái chọn mẫu biện pháp khởi động Nói chung, phương pháp ước lượng phương sai có ưu điểm hạn chế riêng Lưu ý ước lượng điều tra phân khu địa lý dự kiến có sai số chọn mẫu mức độ chấp nhận Điều dự kiến cho ước lượng cấp quốc gia tầng Ví dụ, tỷ lệ thất nghiệp cấp độ khu vực thành thị/nông thôn dự kiến có sai số chọn mẫu chấp nhận Điều quan trọng sai số chọn mẫu dự toán lớn nên suy để xác nhận kỳ vọng Hơn nữa, sai số chọn mẫu cần thiết để đánh giá độ tin cậy ước tính cấp phận (ví dụ, cấp tỉnh trường hợp Bangladesh) Ước tính cho phận phụ với đủ cỡ mẫu làm cho sai số mẫu chấp nhận Trong trường hợp Bangladesh, số tỉnh có cỡ mẫu tương đối lớn Như vậy, phận thiết lập lĩnh vực thiết kế tầng rõ ràng, số ước tính mức tỉnh có sai số chấp nhận Tuy nhiên, ước tính phân tách cấp tỉnh theo thành thị/nơng thơn khơng phải tất khơng đủ cỡ mẫu Kết luận Các kinh nghiệm quy trình kỹ thuật thực phát triển thiết kế mẫu sử dụng cho Khảo sát lực lượng lao động 2009-2010 tiến hành Bangladesh Các thiết kế mẫu giải điểm yếu xác định thiết kế trước thơng qua vào LFS năm 2005 Một số đề xuất thay đổi sau: (1) xem xét tương quan dương lớp tiêu thức quan tâm, số hộ gia đình liệt kê giảm từ 40 xuống 10 PSU số lượng PSU lựa chọn tăng từ 1000 đến 1500 (2) Phương pháp phân bổ mẫu hiệu thực để đảm bảo độ tin cậy ước lượng cấp tầng đơn vị phân cắt tầng (3) Biện pháp phân lớp ngầm giới thiệu để giảm hiệu thiết kế (4) Biện pháp lựa chọn mẫu đảm bảo xác suất lựa chọn thống cho phận thông qua để khắc phục hiệu thiết kế lớn ghi nhận từ LFS năm 2005 Vân Anh - Thu Hằng (lược dịch) Nguồn: Developing a Master Sample Design for Household Surveys in Developing Countries: A Case Study in Bangladesh; Dalisay S Maligalig and Arturo Martinez Jr; 12.07.2013 (http://surveyinsights.org/?p=2151) SỐ 04 – 2016 35 17 ... số hộ gia đình lấy mẫu phải điều chỉnh cho phù hợp để trì thống xác suất SỐ 04– 2016 14 Thống kê Quốc tế Hội nhập Kinh nghiệm thiết kế mẫu chủ lựa chọn tầng Đặc biệt, hộ gia đình lựa chọn từ mẫu. .. khơng tham gia vào điều tra Ví dụ, hộ gia đình từ chối 33 15 Kinh nghiệm thiết kế mẫu chủ Thống kê Quốc tế Hội nhập tham gia đơn vị đủ điều kiện khơng đồng ý vấn Nói chung, việc điều chỉnh không... cỡ mẫu Kết luận Các kinh nghiệm quy trình kỹ thuật thực phát triển thiết kế mẫu sử dụng cho Khảo sát lực lượng lao động 2009-2010 tiến hành Bangladesh Các thiết kế mẫu giải điểm yếu xác định thiết