Hầu hết các dân sốđều bao gồm các nhóm cá thể khác nhau. Các nhóm như vậy chính là các nhóm dân số phụ (subpopulation), hay là các tầng (strata). Quá trình chọn mẫu mà các cá thể được chọn lựa theo từng nhóm như vậy được gọi là chọn mẫu ngẫu nhiên phân tầng (stratified random sampling). Phương pháp chọn mẫu phân tầng có hiệu quả thống kê cao hơn phương pháp chọn mẫu ngẫu nhiên đơn giản.
Tại sao chúng ta chọn phương pháp chọn mẫu phân tầng này? Phương pháp này cho chúng ta nhiều lợi ích như:
(1) Tăng hiệu quả thống kê của mẫu;
(2) Cung cấp dữ liệu phù hợp để phân tích từng nhóm dân số phụ hay từng tầng, và (3) Cho phép sử dụng các phương pháp nghiên cứu và phân tích khác nhau cho cá
nhóm dân số phụ khác nhau.
Nếu phân tầng một cách lý tưởng, ta sẽ có sựđồng nhất trong nội bộ từng nhóm và có sự dị biệt giữa các nhóm. Nếu phân tầng càng nhiều thì ta càng có thể tối đa hóa sự
khác biệt giữa các nhóm và tối thiểu hóa sự biến thiên trong nội bộ từng nhóm.
Tuy nhiên, chi phí cũng là một yếu tố đáng quan tâm. Nếu tăng số nhóm nghiên cứu lên (số tầng) thì chi phí cũng tăng theo vì chi phí đi đôi với mức độ chọn mẫu chi tiết. Ngoài ra, cũng phải chú ý đến các yếu tố sau: (1) kích cỡ tổng mẫu cần có và (2) tổng mẫu được phân bổ như thế nào giữa các tầng. Hai vấn đề này quan trọng vì chúng quyết định số cá thể cần có ở từng tầng.
Ví dụ, ta có hạn chế ngân sách nên chỉ có thể chọn cỡ mẫu tối đa là 250. Nếu ta chọn cách chia dân số làm 5 nhóm dân số phụ khác nhau, với tỷ lệ tương đương nhau, thì số
lượng cá thể cần quan sát của mỗi mẫu phụ (tương ứng với mỗi nhóm dân số phụ, hay là từng tầng) là 50, tương đương với tỷ lệ 20% tổng mẫu. Số lượng 50 cá thể này có thể bảo đảm mức độ tin cậy về phân tích thống kê. Nhưng nếu chúng ta muốn chia dân số làm 10 nhóm dân số phụ, thì kích cỡ của mẫu phụ chỉ là 25. Số lượng đơn vị nghiên cứu có trong 1 mẫu phụ này có thể không bảo đảm tin cậy về phân tích thống kê.
Đối với cách phân bố mẫu cho các nhóm phụ (tầng) khác nhau, có hai cách là theo tỷ
lệ (proportionate) và không theo tỷ lệ (disproportionate).
Đối với cách chọn mẫu phân tầng theo tỷ lệ (proportionate stratified sampling), cỡ
mẫu của mỗi mẫu phụ (tầng) theo đúng tỷ lệ của các thành phần có trong từng dân số
phụ so với tổng dân số. Cách chọn mẫu phân tầng theo tỷ lệ phổ biến nhiều hơn bất kỳ
cách chọn mẫu phân tầng nào khác, bởi vì:
- có hiệu quả thống kê cao hơn phương pháp ngẫu nhiên đơn giản - dễ thực hiện hơn các phương pháp phân tầng khác
- cung cấp một mẫu tự định trọng số (self-weighting sample); giá trị trung bình tổng thể hoặc tỷ lệ tổng thể có thểđược ước lượng một cách dễ dàng.
Quy trình chọn mẫu phân tầng bao gồm các bước sau đây:
- Quyết định các biến số dùng để phân tầng. Trong nghiên cứu kinh tế - xã hội, các biến danh nghĩa thường được dùng để phân chia dân số thành các dân số
phụ. Thông thường là các biến nhân khẩu học (ví dụ độ tuổi, giới tính, nghề
nghiệp, học vấn, v.v) hoặc các biến thể hiện sự khác biệt về vị thế kinh tế (ví dụ
nghèo, cận nghèo, trung bình, khá, giàu).
- Xác định tỷ lệ của từng nhóm dân số phụ so với dân số chung. Để làm được việc này, rõ ràng là chúng ta phải có được khung mẫu của dân số tổng thể, và các khung mẫu của các dân số phụ dựa trên các biến danh nghĩa mà chúng ta dùng để phân chia.
- Chọn lựa cách phân tầng theo tỷ lệ hoặc không theo tỷ lệ tùy theo nhu cầu thông tin nghiên cứu và các rủi ro có thể xảy ra.
- Thiết lập các khung mẫu của các dân số phụ. Mỗi khung mẫu (phụ) thể hiện một tầng (nhóm dân số phụ).
- Trộn ngẫu nhiên các thành phần (cá thể, đơn vị nghiên cứu) trong từng khung mẫu của từng tầng.
- Rút mẫu cho các tầng bằng cách rút mẫu ngẫu nhiên hoặc hệ thống.