Khái niệm chọn mẫu sample sampling Là quá trình chọn một số lượng nhỏ những đơn vị nghiên cứu từ một quần thể dân số nghiên cứu xác định.. Kỹ thuật chọn mẫu là cách rút chọn 1 đối tượng
Trang 3Phân tích dữ kiện Thu thập dữ kiện
Chọn mẫu Chọn dân số
SƠ ĐỒ NGHIÊN CỨU
3
Trang 4Khái niệm chọn mẫu (sample sampling)
Là quá trình chọn một số lượng nhỏ những đơn vị
nghiên cứu từ một quần thể (dân số) nghiên cứu xác định
CÁC KHÁI NIỆM
Câu hỏi:
1 Mẫu NC được rút ra trên nhóm người nào?
2 Cần bao nhiêu người trong mẫu NC?
3 Những người này được chọn như thế nào?
Trang 5Kỹ thuật chọn mẫu là cách rút chọn 1 đối
tượng/đơn vị nghiên cứu trong dân số vào
mẫu
Nguyên tắc thống kê đòi hỏi một mẫu có giá trị
khi mẫu đó có kích thước đủ lớn (đủ cỡ mẫu)
và mẫu đại diện cho dân số
CÁC KHÁI NIỆM
Tính đại diện:
1 Trực giác (Huyện Ninh Hải đại điện cho khí hậu “gió
như phan, nắng như rang” của cả tỉnh Ninh Thuận (Phan Rang – Tháp Chàm)
2 Chọn mẫu xác suất (tốt nhất)
5
Trang 6CÁC KHÁI NIỆM
Dân số (population): tập hợp các đối tượng có chung đặc điểm mà chúng ta muốn áp dụng kết quả nghiên cứu
Mẫu (sample): tập hợp những đối tượng được khảo sát có hệ thống nhằm ước lượng đặc trưng của dân số đích
Mẫu
Dân số mục tiêu
Dân số chọn mẫu
Trang 7Thống kê Tham số
Mẫu Quần thể
7
Kỹ thuật chọn mẫu
Suy diễn
Dân số, mẫu nghiên cứu và
suy diễn thống kê
Trang 8Các thành phần:
• Đơn vị nghiên cứu (study unit): đơn vị cơ bản, nhỏ
nhất cung cấp những giá trị của biến số
• Khung mẫu (sampling frame): tập hợp của những đơn
vị nghiên cứu hợp lệ trong dân số
1 Nghiên cứu về tỷ lệ cao huyết áp của người dân trên
40 tuổi trong năm 2013 của tỉnh Bình Dương
2 Nghiên cứu về tỷ lệ hộ gia đình sử dụng nước máy tại
tỉnh Tây Ninh, năm 2013
CÁC KHÁI NIỆM (tt)
Trang 9Đối tượng
với một số đặc
Kết quả
Giá Trị Bên Ngoài
(Khả năng khái quát hóa)
Giá Trị Bên Trong
số
9
Trang 10Không xác
suất Phân bổ quota (Quota)
Quả bóng tuyết (Snowball)
Mẫu ngẫu nhiên đơn (simple random sampling)
Mẫu ngẫu nhiên phân tầng (stratified random sampling) Mẫu ngẫu nhiên hệ thống (systematic random sampling)
CÁC PHƯƠNG PHÁP CHỌN MẪU PHỔ BIẾN
Có thể phối hợp nhiều phương pháp trên
Mẫu cụm (cluster sampling) PPS
Trang 11 Là phương pháp phổ biến nhất trong nghiên cứu định tính
Chọn tập hợp những người tham gia dựa theo những tiêu chí có tính đại diện liên quan tới 1 câu hỏi nghiên cứu
Cỡ mẫu có thể ấn định hoặc không ấn đinh trước khi thu thập thông tin vì cỡ mẫu phụ thuộc vào:
• Nguồn cung cấp thông tin
• Hạn định về thời gian
• Mục tiêu nghiên cứu
CHỌN MẪU CÓ CHỦ ĐÍCH
11
Trang 12• Là phương pháp lấy mẫu dựa trên sự thuận
lợi hay dựa trên tính dễ tiếp cận của đối tượng
VD:
- Khảo sát mẫu trên một vài bệnh viện có quen biết
- Tình cờ gặp hay chặn bất cứ người nào mà gặp để xin thực hiện cuộc phỏng vấn
CHỌN MẪU THUẬN TIỆN
Trang 13PHÂN BỔ QUOTA
Là sự phân bổ số đơn vị cần điều tra cho từng đơn vị được chia hoàn toàn theo kinh nghiệm chủ quan của người nghiên cứu
VD: Nghiên cứu về tỷ lệ tăng huyết áp trên 400 người từ 40 tuổi trở lên tại 1 thành phố A, tiến hành như sau:
- Phân đơn vị theo giới tính và tuổi:
200 người (100 nam và 100 nữ) từ 40 – 60 tuổi,
200 người (100 nam và 100 nữ) từ 60 tuổi trở lên
- Điều tra viên có thể chọn những người gần nhà hay thuận lợi cho việc điều tra để dễ nhanh chóng hoàn thành công việc
13
Trang 14QUẢ BÓNG TUYẾT (SNOWBALL)
Là phương pháp chọn một nhóm người trả lời thứ nhất được chọn theo phương pháp chọn mẫu ngẫu nhiên, nhưng những người trả lời sau là do nhóm
thứ nhất giới thiệu
VD: Nghiên cứu khảo sát KAP về HIV/AIDS của gái mại dâm đường phố tại TP HCM, năm 2012
Trang 15Các pp chọn mẫu xác suất phổ biến
1. Mẫu ngẫu nhiên đơn (simple random sampling)
2. Mẫu ngẫu nhiên hệ thống (systematic random
sampling)
3. Mẫu ngẫu nhiên phân tầng (stratified random
sampling)
4. Mẫu cụm (cluster sampling)
5. Lấy mẫu nhiều bậc (Multistage sampling)
Có thể phối hợp nhiều phương pháp trên
15
Trang 16MẪU NGẪU NHIÊN ĐƠN (SRS)
NGẪU NHIÊN ĐƠN (simple random sampling): phương pháp lấy mẫu mà mọi đơn vị lấy mẫu đều được chọn vào mẫu nghiên cứu với xác suất bằng nhau và độc lập với việc chọn đơn vị lấy mẫu khác
VD: Rút thăm, lô tô, bảng số ngẫu nhiên, tờ tiền, vé số…
Trang 18Chọn 384 đối tượng trong khung mẫu?
Tìm bảng số ngẫu nhiên trong sách xác suất thống kê
Trang 19Tạo bảng số ngẫu nhiên bằng phần mềm
1 Epi info 6
2. Stata 12: tsample số_đầu số_cuối số_lượng
Nghiên cứu chọn ngẫu nhiên 20 người có ID từ 1 đến 400
tsample 1 400 20
19
Trang 20ƯU ĐIỂM:
Đơn giản, chọn đơn vị NC thông qua 1 giai đoạn
Có đủ cơ sở tính xác suất (biết rõ xác xuất)
KHUYẾT ĐIỂM:
Cần khung mẫu chính xác kém khả thi
Mẫu được chọn có thể phân tán khó thu thập
Có cơ hội bỏ sót vài nhóm trong dân số (cơ hội)
ƯU – KHUYẾT ĐIỂM: NGẪU NHIÊN ĐƠN
Trang 21 Lấy mẫu hệ thống là phương pháp lấy mẫu chọn ngẫu nhiên một nhóm gồm nhiều đơn vị lấy mẫu cách nhau một khoảng cách mẫu
Trang 22 Chọn 5 đối tượng từ một dân số 15 đối tượng
- Tính khoảng cách mẫu: k = 15/5 = 3
- Chọn ngẫu nhiên một số r: 1 r 3
- Ví dụ r = 2
- Những đối tượng được chọn vào mẫu nghiên cứu
sẽ lần lượt có số thứ tự trong khung mẫu: 2, 2+3
= 5, 2 + 2(3) = 8, 2+3(3) = 11, 2 + 4(3) = 14
VÍ DỤ: NGẪU NHIÊN HỆ THỐNG
22
Trang 23HÌNH MINH HỌA
23
Trang 25ƯU – KHUYẾT ĐIỂM: Ngẫu nhiên hệ thống
25
Trang 26MẪU NGẪU NHIÊN PHÂN TẦNG
CHỌN MẪU NGẪU NHIÊN PHÂN TẦNG (stratified random sampling):
Đối tượng chia thành nhiều lớp
Sự khác biệt là ở mục tiêu của nghiên cứu
Dân số chung: nhiều dân số nhỏ có cùng một đặc trưng
nào đó (1 dân số nhỏ: 1 tầng)
26
Trang 27VD: MẪU NGẪU NHIÊN PHÂN TẦNG
Dân số : 100 học viên, chọn 1 mẫu 30 học viên từ 5 khoa: nội, ngoại, sản, nhi, YHDP
Trang 28“Hispanic hay Latino” là một người gốc Cuba, Mexico, Puerto Rico, Nam hoặc Trung
Mỹ, hay một người mang văn hóa hoặc nguồn gốc Tây Ban Nha bất kể chủng tộc
Trang 29ƯU ĐIỂM:
Số thống kê từ mẫu phân tầng có độ chính xác cao hơn kết quả tương ứng từ mẫu ngẫu nhiên đơn
Có thể biết được hình ảnh của từng tầng
Về mặt quản lý, mẫu phân tầng dễ hơn ngẫu nhiên đơn
KHUYẾT ĐIỂM:
Cần thiết lập khung mẫu chi tiết của từng tầng
ƯU – KHUYẾT ĐIỂM: Ngẫu nhiên phân tầng
29
Trang 30CHỌN MẪU CỤM CHỌN MẪU CỤM(Cluster sampling): phương pháp chọn ngẫu nhiên nhiều cụm (được gọi là đơn vị lấy mẫu bậc 1 – PSU: primary sampling units) Nếu qua 2 giai đoạn: cụm lấy mẫu bậc 2 (SSU: secondary sampling units) Lấy mẫu qua nhiều giai đoạn
Dân số nghiên cứu Mẫu cụm bậc 1 Mẫu cụm bậc 2
Trang 31CHỌN MẪU CỤM (PPS)
- Một kỹ thuật chọn mẫu cụm thường dùng là chọn cụm xác suất tỉ lệ theo cỡ (PPS: probability proportionate to size)
- Cụm nào có dân số lớn sẽ có nhiều cơ hội hơn để được chọn
- Số đơn vị liệt kê chọn ra trong từng cụm là bằng nhau
31
Trang 33 Với cùng một cỡ mẫu, những số thống kê tính được
từ mẫu cụm kém chính xác so với những số tương ứng từ mẫu ngẫu nhiên đơn
Khắc phục: cỡ mẫu lớn hơn -> n*design effect
ƯU – KHUYẾT ĐIỂM: chọn mẫu cụm
33
Trang 34CHỌN MẪU NHIỀU BẬC (Multistage sampling)
Ví dụ:
Khảo sát TCMR trong học sinh 1 tỉnh, gồm các bước:
- B1: chọn m huyện trong tổng M huyện của tỉnh
- B2: chọn n xã trong tổng N xã của 1 huyện
- B3: chọn p trường học trong tổng P trường học 1 xã
- B4: chọn q lớp học trong số Q lớp của 1 trường học
- B5: Khảo sát tất cả học sinh trong lớp đã chọn
Đơn vị nghiên cứu: học sinh
Đơn vị liệt kê: lớp học
Đơn vị chọn mẫu bậc 1,2,3 lần lượt: huyện, xã, trường học Khung mẫu: tất cả học sinh trong tỉnh
Là sự kết hợp nhiều phương pháp lấy mẫu
34
Trang 35Sai lệch trong chọn mẫu
- Sai lệch (BIAS): sai lầm hệ thống (Systemic Error)
- Sai lệch có khuynh hướng tạo ra những giá trị cao hay thấp hơn giá trị thật (có thể tăng hoặc giảm ước lượng của kết quả)
- Có 2 loại sai lệch: sai lệch chọn lựa và sai lệch thông tin
- Sai lệch chọn lựa: nghiêm trọng nhất (lỗi người nghiên cứu khó khắc phục) phụ thuộc: dân số,
kỹ thuật, và tiêu chí chọn mẫu
35
Trang 36- Khi xác suất chọn mẫu là không giống nhau trên từng đối tượng
- Chọn đối tượng NC bị ảnh hưởng bởi yếu tố phơi nhiễm (Bệnh chứng) hay bệnh (Đoàn hệ hồi cứu) Xác suất chọn không đều
NC Bệnh chứng: người NC biết trước MLQ: hút thuốc lá – K phổi tăng ước lượng của MLQ
NC đoàn hệ hồi cứu: vào thời điểm chọn mẫu cả phơi nhiễm – bệnh đều xảy ra
Sai lệch chọn lựa
Trang 37MẤT MẪU
Đối tượng từ chối tham gia NC
Mất mẫu trong quá trình theo dõi
Trang 38Mẫu NC < dân số tính đại diện tiêu chí chọn mẫu:
Tiêu chí đưa vào: thể hiện những đặc tính (who, where, when) mà căn cứ vào đó đối tượng được chọn vào NC
Tiêu chí loại ra: thuộc tính không phù hợp đưa vào mẫu
Lưu ý: TC loại ra không phải phần phụ của TC đưa vào
TIÊU CHÍ CHỌN MẪU
Trang 39Các sai lệch khác:
Nghiên cứu người tình nguyện
Lấy mẫu những bệnh nhân đăng kí
Trang 40Lọai sai số Biện pháp hạn chế sai số
Sai số lựa chọn •Chọn khung mẫu phù hợp, cỡ mẫu cho từng
tầng trong nhóm NC
•Tập huấn kỹ thuật chọn mẫu cho GSV
•Áp dụng chọn ngẫu nhiên và liệt kê sẵn danh sách, tiêu chuẩn chọn vào nhóm NC…
bỏ cuộc, động viên tham gia
Biện pháp khắc phục sai lệch chọn mẫu
Trang 41Kết luận
Việc chọn lựa một kỹ thuật lấy mẫu phụ thuộc vào nhiều yếu tố bao gồm: mục tiêu nghiên cứu, thiết kế nghiên cứu và các nguồn lực sẵn
Trang 42BÀI TẬP KHẢO SÁT HỘ GIA ĐÌNH
Bộ câu hỏi Chỉ tiêu/ 1 học
viên Đối tượng hỏi Ghi chú BCH phỏng vấn
hộ gia đình của
WHO
Khoảng 100 hộ gia đình Chủ hộ hay thành viên trong hộ từ
18 tuổi trở lên
Ủy quyền trả lời thay:
Cha mẹ: trả lời thay trẻ em dưới 15 tuổi
Người chăm sóc trực tiếp: trả lời thay người đang trong tình trạng sức khỏe không cho phép trả lời: câm, điếc, bệnh nặng…
Trang 43CÁCH CHỌN MẪU PPS/1 học viên
43
HUYỆN PHÚ GIÁO – BÌNH DƯƠNG
Trang 44CÁCH CHỌN MẪU PPS
Bước 1 Tính khoảng cách mẫu (Sampling Interval (SI))
= Tổng dân số tích lũy/tổng số cụm khảo sát
SI = 82.956/30 = 2765,2 ~ 2765
Bước 2 Chọn số ngẫu nhiên (Random Start (RS)):
tsample 1 2765 1 + -+
| No | ID | | + -|
| 1 | 1000 | + -+
Ví dụ: chọn RS = 1000
Trang 46Các dãy số của các cụm còn lại
Trang 481 BCH hộ gia đình WHO: PV chủ hộ (hay người đại diện ≥18 tuổi)
2 BCH cá nhân WHO: PV hết, từ già trẻ trong HGĐ
Đối với trẻ em < 15 tuổi: ủy quyền cha mẹ trả lời
Đối với người có vấn đề SK không trả lời được PV: Ủy quyền người chăm sóc trực tiếp trả lời
Người từ 15 tuổi trở lên: PV trực tiếp Đến 3 lần không gặp (loại khỏi KS)
3 BCH healthy days: PV thành viên trong hộ ≥ 18 tuổi
BÀI TẬP KHẢO SÁT HỘ GIA ĐÌNH
Số người trong 1 cụm = 576/30 = 19.2 ~ 20 người