Chọn mẫu là quy trình chọn các đơn vị mẫu từ quần thể đích (Target Poputatio: TP: là quần thể mà ta quan tâm, ta sẽ nghiên cứu).
Có một số phương pháp chọn mẫu như sau:
1. Chọn mẫu ngẫu nhiên đơn (Simple Random Sampling : SRS)
Tất cả các cá thể có trong quần thể đích (TP) đều có xác suất bằng nhau hay có cơ hội như nhau xuất hiện trong mẫu. Việc lựa chọn các cá thể vào mẫu nhờ vào bảng số ngẫu nhiên, hoặc bốc thăm. Mẫu SRS là mẫu đại diện tốt nhất cho quần thể, nhưng đòi hỏi phải có khung mẫu (Sampling Frame) - là danh sách toàn bộ các cá thể của quần thể đích. Mẫu này áp dụng tốt cho quần thể nhỏ, khu trú; khó áp dụng cho quần thể lớn, phân tán.
43
Bảng số ngẫu nhiên:
Là một bảng tạo bởi 10 ký tự (0, 1, 2, 3, ..., 9) mà sự xuất hiện của mỗi ký tự trong bảng có tỷ lệ như nhau và khơng theo một trật tự nào, hoàn toàn ngẫu nhiên. Cho nên, nếu chọn một số từ một điểm ngẫu nhiên nào đó trên bảng thì bất kỳ một ký tự nào cũng có cơ hội như nhau được xuất hiện.
Các bước tiến hành :
- Bước 1: Xây dựng 1 khung mẫu chứa đựng tất cả các dơn vị mẫu. - Bước 2: Sử dụng bảng số ngẫu nhiên để chọn các cá thể vào mẫu.
Ví dụ: Chọn 300 hồ sơ trong số 3000 trẻ được khám tại bệnh viện C trong năm 2012
để nghiên cứu về một vấn đề sức khỏe nào đó.
Cách tiến hành: Vì chọn mẫu ngẫu nhiên đơn nên mỗi trẻ đều có xác suất như nhau là: 300/3000 = 0,10 được chọn vào mẫu. Như vậy ta chỉ dùng 4 ký tự kế tiếp nhau trong bảng.
Bước 1: Xây dựng khung mẫu (3000 trẻ sẽ được đánh số thứ tự từ 1 đến 3000). Bước 2:
Vào bảng: một cách ngẫu nhiên (ví dụ: dùng đầu bút chì, khơng nhìn vào bảng, chấm vào một điểm nào đó trong bảng) bắt đầu từ điểm đó bằng một số có 4 ký tự, ví dụ điểm đó nằm vào hàng thứ 5 cột thứ 3 của bảng ta đọc được lần lượt theo chiều từ trên xuống dưới và từ trái qua phải, được các số 3302, 3696, 7432, 2735, 9437, 0025, 8712,9187, 7021, 3186, .. Chọn ra 300 số có 4 ký tự (khơng lấy các ký tự 000, các ký tự lớn hơn 3000, chỉ lấy ra một lần, không lấy các ký tự lặp lại); Như vậy ta đã có một mẫu 300 trẻ.
Một quần thể có kích thước N, mẫu chọn ra có kích thước n, tổng số T các mẫu có kích thước n là :
Trong mẫu ngẫu nhiên đơn, xác xuất để một đơn vị (phần tử) bất kỳ trong quần thể được chọn vào mẫu sẽ là n/N
BẢNG SỐ NGẪU NHIÊN 10347 81242 54237 47830 14309 03811 02339 15824 62345 80164 13387 63042 04736 81875 09086 84918 57668 07422 79716 92342 39648 54201 12307 20120 67015 68827 98912 83977 29847 93797 34722 28708 36283 79784 33025 81697 33254 33383 50361 75978 55866 32817 36969 38994 42853 32317 92865 33540 69534 38515 74323 62723 42768 45728 25454 24516 97409 87760 27354 52549 61977 17976 87474 77875 00905 91777 94373 48733 79688 05266 30331 96540 10731 38217 00252 84837 86644 60575 08220 30842 83219 96115 87128 88134 56039 04789 77119 45069 85563 08858 91872 82309 44923 53422 54141 46367 04928 68671 70215 16585 87309 60063 24182 56908 43105 80571 31869 56940 34376 31135 83453 19234 52262 35954 60560 84199 05865 81436 62723 73125 44163 39334 24705 34712 70991 83012 31553 22885 01762 36247 15408 20976 44133 76487 67438 36070 10622 72571 92283 51674 58183 82486 27401 50038 21687 48047 68835 61150 68582 86993 71551 64538 72005 96260 96382 98559 34991 42317 96840 46302 48977 51839 25511 19005 28907 68216 48859 87504 06636 42542 01208 26486 34318 22036 17945 07995 48393 80704 25749 32934 30569 18154 71595 01489 11011 07502 63076 70490 63323 85238 03724 70326 00441 29608 10669 83143 12853 33939 43893 34830 22539 33440 05274 58865 04486 05836 10857 42014 69428 79218 69384 08697 50724 27186 66327 54830 76833 41926 41642 30052 22811 48325 63545 56267 93092 96685 15674 28554 75784 93604 40430 71889 15306 29811 21251 31591 94832 25038 32750 65690 20173 91869 12150 36616 36247 31636 58724 07206 98383 08409 04051 55470 38757 89765 41036 09538 89346 90068 17162 56999 61095 83147 40757 58153 56017 37731 08626 08157 19292 32275 93574 32589 91202 58841 59745 98489 59264 44396 68511 07135
2. Chọn mẫu hệ thống (Systematic Sampling)
Việc chọn ngẫu nhiên các cá thể từ quần thể vào mẫu tuân theo một trình tụ nhất định thơng qua khoảng cách mẫu. Đạt được mẫu này một cách dễ dàng khi có khung mẫu.
Các bước tiến hành
Bước 1: Xây dựng khung mẫu: đánh số thứ tự từ 1 đến N vào danh sách toàn bộ các đơn vị mẫu;
Bước 2: Xác định khoảng cách mẫu: k = N/n ( N là kích thước quần thể, n là kích thước mẫu).
Bước 3: Chọn một số ngẫu nhiên R nằm trong khoảng (1,k);
Bước 4: Chọn các đơn vị mẫu: các đơn vị có số thứ tự R + ik (i đi từ 0 đến n-1) là các đơn vị được chọn vào mẫu.
Ví dụ: Quần thể đích có 3000 cá thể, cần chọn một mẫu n = 300 Cách tiến hành:
Bước 1: Xây dựng khung mẫu (đánh số thứ tự từ 1 đến 3000 vào danh sách toàn bộ các đơn vị mẫu)
Bước 2: Xác định khoảng cách mẫu k = N/n = 3000/300= 10
Bước 3: Chọn số ngẫu nhiên R nằm trong (1, 10), ví dụ ta chọn 5.
Bước 4: Chọn các đơn vị mẫu có số thứ tự R + ik ( trong đó : R= 5, k = 10, i đi từ 0 đến n – 1). Như vậy các cá thể được chọn là:
STT = R + ik
1. i= 0 => STT = R => số thứ tự 5 được chọn vào mẫu 2. i= 1 => STT = R + k => số thứ tự 15 được chọn vào mẫu 3. i= 2 => STT = R + 2k => số thứ tự 25 được chọn vào mẫu ……………………..
300. i= n – 1=> STT =R + 299k => số thứ tự 2995 được chọn vào mẫu.
3. Chọn mẫu chùm (Cluster Sampling)
Là mẫu đạt được từ sự chọn ngẫu nhiên các nhóm cá thể được gọi là chum từ nhiều chùm trong một quần thể nghiên cứu; trong trường hợp này đơn vị mẫu là các chum chứ không phải là các cá thể.
Các bước tiến hành:
- Bước 1: Xác định các chùm thích hợp: quàn thể được hình thành một cách tự nhiên bởi các chùm (cụm), mỗi chùm là tập hợp các cá thể gần nhau (làng, xã, trường học, khoa phòng, bệnh viện…), tùy theo mỗi nghiên cứu mà xác định các chùm cụ thể;
- Bước 2: Xây dựng khung mẫu: bằng cách lập danh sách toàn thể các chùm trong quần thể và đánh số thứ tự vào các chùm đó.
- Bước 3: Tiến hành chọn mẫu. Có 2 cách chọn + Cách 1: Mẫu chùm một giai đoạn
Dùng phương pháp ngẫu nhiên đơn chọn một số chùm từ khung mẫu, tất cả các cá thể trong các chùm được chọn đó sẽ hình thành mẫu nghiên cứu.
+ Cách 2: Mẫu chùm hai giai đoạn
Giai đoạn 1: dùng phương pháp ngẫu nhiên đơn chọn một số chùm như cách chọn mẫu chùm một giai đoạn;
Giai đoạn 2: dùng phương pháp ngẫu nhiên đơn hoặc phương pháp khác chọn một số cá thể nhất định từ mỗi chùm đã được chọn từ gia đoạn 1, tập hợp tất cả các cá thể này thành mẫu nghiên cứu.
4. Chọn mẫu tầng (Stratified Sampling)
Quần thể đích được phân chia một cách tự nhiên thành các bộ phận nhỏ hơn theo một tính chất nào đó, gọi là các tầng. Trong mỗi tầng, chọn một số đơn vị nhất định bằng phương pháp ngẫu nhiên đơn: Tập hợp các đơn vị này tạo nên mẫu nghiên cứu.
Có 2 loại mẫu tầng:
- Mẫu tầng tỷ lệ: khi số đơn vị của mỗi tầng được chọn vào mẫu tỷ lệ với kích thước của tầng.
- Mẫu tầng không tỷ lệ: khi số đơn vị của mỗi tầng được chọn vào mẫu là bằng nhau. Mẫu tầng tỷ lệ thường đại diện tốt hơn so với các loại mẫu khác.
Các bước tiến hành:
- Bước 1: Phân chia quần thể nghiên cứu thành các tầng khác nhau dựa vào một hoặc vài đặc điểm nào đó như vùng sinh thái, nhóm tuổi, giới, tầng lớp xã hội, dân tôc…
- Bước 2: Chọn mẫu ngẫu nhiên đơn trong mỗi tầng.
T1 : Vùng Thủ phủ T2 : Vùng Thành phố T3 : Vùng Thị trấn T4 : Vùng Nông thôn 0,34 0,13 0,15 0,38
Mẫu không tầng Mẫu tầng
Các cá thể được chọn ngẫu nhiên từ danh sách toàn bộ của quần thể đích: Khơng thực tiễn đối với quần thể lớn, phân tán
Ví dụ: phải chọn một mẫu n = 2000
Mẫu tỷ lệ: Số cá thể được chọn vào mẫu tỷ lệ với kích thước của tầng; Mẫu này rất tốt T1 = 0,34 × 2000 = 680 T2 = 0,13 × 2000 = 260 T3 = 0.15 × 2000 = 300 T4 = 0,38 × 2000 = 760 Mẫu khơng tỷ lệ: Số cá thể
ở mỗi tầng được chọn vào mẫu như nhau: Các tầng có kích thước nhỏ thì quá đại diện trong mẫu
T1 = 500
T2 = 500
T3 = 500
T4 = 500
Tổng : 2000
Sơ đồ 5.1: Các loại mẫu tầng
Ước lượng tốt cho các vùng nhỏ, nhưng không
tốt cho các vùng lớn (tỉnh, nước)
47
5. Chọn mẫu nhiều giai đoạn (Multi Stage Sampling)
Quần thể đích, ví dụ: Một nước có nhiều tỉnh, mỗi tỉnh có nhiều huyện, mỗi huyện có nhiều xã...
- Giai đọan 1: Chọn ngẫu nhiên một số tỉnh;
- Giai đọan 2: Chọn ngẫu nhiên một số huyện từ các tỉnh đã được chọn ở giai đoạn 1; - Giai đọan 3: Chọn ngẫu nhiên một số xã từ các huyện đã được chọn ở giai đoạn 2,... Quá trình chọn ngẫu nhiên ở mỗi giai đọan nói trên có thể dùng phương pháp ngẫu
nhiên đơn hoặc phương pháp PPS.
6. Chọn mẫu xác suất tỷ lệ với kích thước (Probability Proportional to Size: PPS)
Quần thể đích có nhiều cụm (ví dụ: một huyện có nhiều xã), các cụm này có kích thước khơng như nhau. Nếu dùng phương pháp ngẫu nhiên đơn để chọn một số cụm, rồi chọn một số nhất định các hộ gia đình ở mỗi cụm vào mẫu thì những hộ ở các cụm có kích thước (dân số) nhỏ hơn sẽ có cơ hội nhiều hơn được chọn vào mẫu so với những hộ ở các cụm có kích lớn. Một phương pháp tốt hơn là chọn các cụm theo phương pháp: xác suất được chọn tỷ lệ với kích thước của cụm .
Các bước tiến hành như sau:
- Bước 1: Đánh số thứ tự vào các cụm ;
- Bước 2: Lập bảng tần số dồn, sẽ có được tổng số dân tồn quần thể: m;
- Bước 3: Ấn định số cụm cần chọn vào mẫu: Nên chọn nhiều cụm để mỗi cụm có ít hộ vào mẫu hơn là chọn ít cụm mà mỗi cụm có nhiều hộ. Giả sử ta chọn N cụm ;
Tìm khoảng cách mẫu k = m N
- Bước 4: chọn một số ngãu nhiên R từ 1 đến k (dùng bảng số ngẫu nhiên);
- Bước 5: Tìm các cụm vào mẫu: dựa vào tầng số cộng dồn: theo tần số dồn, cụm nào có chứa các số R + ik ( i từ 0 đến n – 1) là những cụ được chọn vào mẫu.
Ví dụ: Một quần thể (một huyện chẳng hạn) có 17 cụm (xã), đã biết dân số của mỗi cụm (xã) và tổng dân số toàn quần thể (huyện) m = 90000. Cần chọn vào mẫu n = 100 hộ.
Giả sử chọn N = 10 cụm (xã), thì k = 90000 = 9000 10
Chọn một số ngãu nhiên R từ 1 đến 9000, ví dụ: chọn được số 5500 thì các cụm (xã) được chọn vào n=mẫu là các cụm (xã) tương ứng với tần sơ dồn có chứa các số:
5500, 5500 + (1 x 9000) +, 5500 + (2 x 90000),….. 5500 + (9 x 9000)…. Các cụm (xã) có đánh dấu ⊗
Chọn được 10 cụm (xã), mỗi cụm (xã) chọn n/N = 100/10 = 10 hộ vào mẫu.
Có thể áp dụng phương pháp ngẫu nhiên đơn, hoặc dùng phương pháp khác để chọn các hộ gia đình vào mẫu.
48
Bảng 5.1: chọn cụm theo phương pháp PPS ( dữ kiện giả định)
cụm thứ
(a) Dân số (b) Tần số dồn (c ) Cụm thứ (a) Dân số (b) Tần số dồn (c ) 1 2 3 4 5 6 7 8 3762 4348 6569 5541 7684 8835 6426 7275 3762 8110 ⊗ 14679 ⊗ 20220 27904 ⊗ 36739 ⊗ 43165 ⊗ 50440 9 10 11 12 13 14 15 16 17 2967 9143 4578 5416 1987 7694 2123 3532 2120 53407 ⊗ 62550 ⊗ 67128 72544 ⊗ 74531 82225 ⊗ 84348 87880 ⊗ 90000
Bảng 5.2: Chọn cụm theo phương pháp PPS (Dữ kiện giả định)
cụm thứ (a) Dân số (b) Tần số dồn (c ) Cụm thứ (a) Dân số (b) Tần số dồn (c ) 1 2 3 4 5 6 7 8 3762 4348 6569 5541 7684 8835 6426 7275 3762 8110 ⊗ 14679 ⊗ 20220 27904 ⊗ 36739 ⊗ 43165 ⊗ 50440 9 10 11 12 13 14 15 16 17 2967 9143 4578 5416 1987 7694 2123 3532 2120 53407 ⊗ 62550 ⊗ 67128 72544 ⊗ 74531 82225 ⊗ 84348 87880 ⊗ 90000
Có thể dùng phương pháp ngẫu nhiên đơn, hoặc dùng phương pháp khác để chọn các hộ gia đình vào mẫu.
C. HÌNH THỨC VÀ PHƯƠNG PHÁP DẠY – HỌC a. Nội dung:
Trình chiếu Powerpoint
Đặt vấn đề, trao đổi
b. Sau khi học xong lý thuyết sv vận dụng trả lời câu hỏi lượng giá để hệ thống hóa lại kiến thức bài.
49 D. TÀI LIỆU THAM KHẢO
1. Nguyễn Minh Sơn, Dịch tễ học, 2010, Bộ Y tế, NXB Giáo dục Việt Nam. 2. Giáo trình dịch tễ học cơ sở, 2009, Đại học Y Dược Huế, Nxb Giáo dục. 3. Phương pháp nghiên cứu sức khỏe cộng đồng, 2011, Nxb Đại học Huế.
CÂU HỎI LƯỢNG GIÁ
Câu 1: Về mặt lý thuyết thì mẫu đại diện tốt hơn cả cho quần thể là:
A. Mẫu ngẫu nhiên đơn; B. Mẫu chùm một giai đoạn; C. Mẫu chùm hai giai đoạn; D. Mẫu nhiều giai đoạn;
Câu 2: Một trong các loại mẫu thường được sử dụng trong DTH là:
A. Mẫu ngẫu nhiên đơn; B. Mẫu ngẫu nhiên;
C. Mẫu cố định; D. Mẫu thích hợp;
Câu 3: Một trong các loại mẫu thường được sử dụng trong DTH là:
A. Mẫu ngẫu nhiên; B. Mẫu hệ thống; C. Mẫu cố định; D. Mẫu thích hợp;
Câu 4: Một trong các loại mẫu thường được sử dụng trong DTH là:
A. Mẫu ngẫu nhiên; B. Mẫu cố định; C. Mẫu chùm; D. Mẫu thích hợp;
Câu 5: Khung mẫu cần thiết của mẫu ngẫu nhiên đơn là:
A. Danh sách toàn bộ các cá thể của quần thể đích; B. Danh sách các đối tượng nghiên cứu;
C. Danh sách toàn bộ các cụm của quần thể đích; D. Tổng số các cụm của quần thể đích;
Câu 6: Khung mẫu cần thiết của mẫu hệ thống là:
A. Danh sách tồn bộ các cá thể của quần thể đích; B. Danh sách các đối tượng nghiên cứu;
C. Danh sách tồn bộ các cụm của quần thể đích; D. Tổng số các cụm của quần thể đích;
Câu 7: Một trong các phương tiện dùng để chọn ngẫu nhiên là:
A. Bảng số ngẫu nhiên; B. Bảng chữ cái ABC...; C. Bảng các giá trị (2; D. Bảng tần số dồn;
Câu 8: Một quần thể có kích thước N = 5, mẫu chọn ra có kích thước n = 3. Tổng số T
các mẫu có kích thước n = 2 là: A. T = 20;
B. T = 15; C. T = 10;
50 D. T = 6;
Câu 9: Để tiến hành chọn mẫu ngẫu nhiên thường dùng tới bảng số ngẫu nhiên vì:
A. Rẻ tiền B. Dễ thực hiện
C. Giảm được sai số mẫu
D. Giảm được sai số đo lường
Câu 10: Quần thể đích là tồn dân tỉnh A phân bố trên ba vùng khơng đều nhau: Đồng
bằng, Trung du, Miền núi. Cần chọn một mẫu n = 200 cá thể để nghiên cứu một vấn đề sức khỏe có liên quan tới mơi trường. Mẫu đại diện tốt nhất cho quần thể sẽ là:
A. Mẫu chùm (một giai đoạn); B. Mẫu nhiều giai đoạn; C. Mẫu tầng tỷ lệ; D. Mẫu tầng không tỷ lệ;
51
Bài 6: LÝ LUẬN CĂN NGUYÊN VÀ NGHIÊN CỨU QUAN SÁT PHÂN TÍCH
A. MỤC TIÊU HỌC TẬP
Sau khi học xong bài này, sinh viên có khả năng: 1. Trình bày được mối quan hệ nhân quả trong y học. 2. Nắm được các đo lường nhân quả.
3. Trình bày được các nghiên cứu quan sát phân tích. B. NỘI DUNG