Khái niệm: Chọn mẫu sampling là chọn lấy 1 số thành phần trong tổng thể population, để rút ra các kết luận về tổng thể đó.. Tuy nhiên, chọn mẫu xác suất có nhược vì người NC phải theo qu
Trang 1PHƯƠNG PHÁP CHỌN MẪU
TS NGUYỄN MINH HÀ TRƯỜNG ĐH MỞ TPHCM
NỘI DUNG TRÌNH BÀY
1 GIỚI THIỆU
2 CÁC BƯỚC THIẾT KẾ MẪU
3 KỸ THUẬT LẤY MẪU THEO XÁC SUẤT
4 KỸ THUẬT LẤY MẪU PHI XÁC SUẤT
5 XÁC ĐỊNH CỞ MẪU
Trang 2GIỚI THIỆU
1 Khái niệm:
Chọn mẫu (sampling) là chọn lấy 1 số thành phần trong tổng thể
(population), để rút ra các kết luận về tổng thể đó
Đơn vị NC: 1 thành phần của tổng thể (population element) là 1 cá thể/cá
nhân mà người NC sẽ tiến hành các đo lường
Một tổng thể: gồm tất cả các thành phần của tổng thể mà ta muốn NC
Khung mẫu: Danh sách tất cả các thành phần của tổng thể mà dựa vào đó
chúng ta rút ra mẫu
2 Tại sao phải lấy mẫu:
- Tốn kém thời gian và chi phí khi NC tổng thể
- Lợi thế của điều tra mẫu:
- Chi phí thấp
- Vẫn đạt được tốt hơn độ chính xác cần có của kết quả.
- Tốc độ thu thập dữ liệu cao hơn
- Tính sẳn có của các thành phần tổng thể.
GIỚI THIỆU
Lợi thế của điều tra mẫu so với điều tra tổng thể sẽ mất đi nếu tổng
thể nhỏ và có tính biến động cao
Điều kiện để NC tổng thể phù hợp:
- Tổng thể nhỏ
- Khi mỗi cá thể đều rất khác biệt nhau
3 Thế nào là 1 mẫu tốt:
Phải có tính hợp lệ (Validity), tùy thuộc vào tính đúng đắn và tính
chính xác
4 Tổng quan về các kỹ thuật lấy mẫu
Trang 3GIỚI THIỆU
Lấy mẫu
Ngẫu
nhiên
đơn
giản
Hệ
thống
Ngẫu
nhiên
phân
tầng
Theo cụm
Nhiều giai đoạn
Hạn ngạch (quota)
Có mục đích
Lan dần
Tự lựa chọn
Thuận tiện
II CÁC BƯỚC THIẾT KẾ MẪU
Để thực hiện các bước và các nguyên tắc, phải trả lời các câu hỏi
theo trình tự như sau:
1 Tổng thể mục tiêu là gì?
Khi xác định vấn đề NC và đặt câu hỏi NC, ta phải đã biết tổng thể
mục tiêu là gì
Đối tượng và phạm vi NC Vd: Hộ gia đình, DN hoặc cá nhân
2 Các tham số (parameters) cần quan tâm là gì?
- Các chỉ số thể hiện cho tổng thể: là các chỉ số tổng hợp các biến
của tổng mà chúng ta quan tâm: giá trị trung bình, phương sai,
- Các chỉ số thống kê mẫu: cũng mô tả các biến trên nhưng của mẫu
Các chỉ số thống kê mẫu ước lượng và tham chiếu các chỉ
số thống kê của tổng
Trang 4II CÁC BƯỚC THIẾT KẾ MẪU
3 Khung mẫu là gì?
- Danh sách tất cả các thành phần trong tổng mà sẽ được rút mẫu ra
- Một khung mẫu lý tưởng: 1 danh sách hoàn thiện, đầy đủ và đúng tất cả
các thành viên của tổng
4 Phương pháp chọn mẫu phù hợp:
Người NC phải quyết định chọn mẫu xác suất hay phi xác suất?
Việc chọn mẫu xác suất sẽ cho người NC có thể đạt được các ước lượng
cho nhiều chỉ tiêu NC khác nhau dựa trên sự tin cậy của xác suất
Chọn mẫu phi xác suất không có được điều này
Tuy nhiên, chọn mẫu xác suất có nhược vì người NC phải theo quy trình
phù hợp mà:
- Không thể điều chỉnh sự lựa chọn đã có
- Chỉ có các thành phần được chọn từ khung mẫu mới được tính
- Không được thay thế thành phần này bằng thành phần khác, trừ khi có
chỉ dẫn cụ thể theo các nguyên tắc định trước
II CÁC BƯỚC THIẾT KẾ MẪU
5 Cần cỡ mẫu bao nhiêu là vừa?
- Cỡ mẫu là số đơn vị NC mà ta cần có trong 1 mẫu khi rút ra từ tổng thể
mục tiêu
Có 2 quan điểm về cở mẫu: (i) Cỡ mẫu phải đủ lớn để đại diện cho tổng
thể (ii) Cỡ mẫu phải tương ứng với 1 tỷ lệ nào đó so với kích cỡ của
tổng mà nó được rút ra Cả 2 quan điểm cũng chưa chính xác
- Với mẫu phi xác suất: Số lượng nhóm phụ, các nguyên tắc lựa chọn và
hạn chế về ngân sách là yếu tố quyết định cỡ mẫu
- Với mẫu xác suất: cỡ mẫu phụ thuộc vào sự biến thiên của các chỉ số
thống kê của tổng và mức độ chính xác của kết quả mà ta muốn có
Một số nguyên tắc ảnh hưởng đến xác định cỡ mẫu:
- Tổng thể biến thiên càng nhiều thì cỡ mẫu phải lớn để đạt tính chính
xác
- Độ chính xác mong muốn càng tăng thì cỡ mẫu phải càng lớn
- Phạm vi sai số càng nhỏ thì cỡ mẫu phải càng lớn
Trang 5II CÁC BƯỚC THIẾT KẾ MẪU
5 Cần cỡ mẫu bao nhiêu là vừa?
Một số nguyên tắc ảnh hưởng đến xác định cỡ mẫu (tt):
- Mức độ tin cậy của ước lượng càng cao thì cỡ mẫu phải càng lớn
- Khi tổng thể có nhiều nhóm phụ, thì cỡ mẫu phải càng lớn để cỡ mẫu
của từng nhóm phụ phải đạt yêu cầu tối thiểu
- Hạn chế về ngân sách cũng ảnh hưởng đến cỡ mẫu, cách chọn mẫu và
phương pháp thu thập dữ liệu Hạn chế ngân sách làm các nhà NC áp
dụng các phương pháp chọn mẫu phi xác suất
III CHỌN MẪU XÁC SUẤT
1 Chọn mẫu xác suất ngẫu nhiên đơn giản (simple Random
Sampling): Hay còn gọi lấy mẫu ngẫu nhiên
Chọn mẫu 1 cách ngẫu nhiên từ khung mẫu bằng các bảng số ngẫu nhiên,
hoặc bằng máy tính Thực hiện:
- Đánh số mỗi phần tử trong khung mẫu với 1 con số duy nhất, từ 0, 1, 2,
- Lựa chọn các phần tử bằng con số ngẫu nhiên cho đến khi đạt được cỡ
mẫu mong muốn (mỗi phần tử đều có xác suất được chọn như nhau)
Chi phí cao
Áp dụng
trung bình
Mỗi phần tử của
tổng đều có cơ hội
được lựa chọn
ngang nhau
- Đảm bảo mức đại diện cao
- Dễ áp dụng, nhất là với cách phỏng vấn qua điện thoại do máy quay số ngẫu nhiên Có thể áp dụng hệ
thống trả lời tự động
Đòi hỏi danh sách khung mẫu.
Tốn nhiều thời gian Cần cỡ mẫu lớn Tạo ra nhiều sai số
Trang 6III CHỌN MẪU XÁC SUẤT
2 Chọn mẫu hệ thống (Systematic Sampling):
Đòi hỏi bạn lựa chọn mẫu theo khoản (interval) đều đặn từ khung lấy mẫu
Ta chọn lấy thành phần thứ kth trong tổng thể, bắt đầu 1 con số ngẫu nhiên
trong phạm vi từ 1 đến k
Thành phần thứ kthgọi là bước nhảy (skip interval), K = Tổng thể/cỡ mẫu
Các bước thực hiện:
- Xác định, lập danh sách và đánh số các phần tử của tổng thể (sắp xếp
ngẫu nhiên tổng trước khi chọn mẫu nếu tổng thể được sắp xếp theo
trật tự sẵn có)
- Xác định bước nhảy K
- Xác định con số khởi đầu cách ngẫu nhiên
- Rút mẫu bằng cách chọn tất cả các phần tử theo các bước nhảy Kth
III CHỌN MẪU XÁC SUẤT
2 Chọn mẫu hệ thống (Systematic Sampling):
Chi phí trung
bình
Áp dụng
trung bình
Mỗi phần tử của
tổng đều có cơ hội
được lựa chọn
ngang nhau
- Đảm bảo mức đại diện cao
- Thiết kế đơn giản, dễ áp dụng hơn ngẫu nhiên đơn giản
Ít ngẫu nhiên hơn lấy mẫu Xác suất đơn giản Tính chu kỳ của tổng thể có thể làm méo, sai lệch mẫu và kết quả.
Trang 7III CHỌN MẪU XÁC SUẤT
3 Chọn mẫu phân tầng (Stratified Sampling):
Là 1 biến thể của chọn mẫu ngẫu nhiên, trong đó ta chia tổng thể thành 2
hay nhiều tầng (nhóm) quan trọng và có ý nghĩa, dựa vào 1 hay 1 số
thuộc tính Sau đó rút ra từ mỗi tầng này
Phương pháp này có ưu nhược giống với chọn mẫu ngẫu nhiên đơn giản,
nhưng hệ quả thống kê cao hơn
Cần chú ý khi phân tầng:
- Chi phí: phân tầng càng nhiều -> chi phí càng lớn
- Kích cỡ tổng mẫu cần có và mẫu phân bổ như thế nào giữa các tầng Vd:
tổng mẫu là 200, chia cho 4 tầng hay 10 tầng?
Đối với phân mẫu theo tầng khác nhau: theo tỷ lệ hoặc không theo tỷ lệ
Chọn mẫu phân tầng theo tỷ lệ thì cỡ mẫu của mỗi tầng đúng theo tỷ lệ
của các thành phần có trong từng tầng so với tổng số
Để có đủ dữ liệu phân tích, cần phải tăng tỷ lệ chọn mẫu cho các tầng có
tổng thể nhỏ hơn
III CHỌN MẪU XÁC SUẤT
3 Chọn mẫu phân tầng (Stratified Sampling):
Quy trình chọn mẫu phân tầng:
- Quyết định các đặc tính để phân tầng: Tuổi, giới tính, nghề nghiệp,
- Xác định tỷ lệ của từng nhóm tổng số phụ so với tổng thể chung
- Chọn cách phân tầng theo tỷ lệ hay không theo tỷ lệ
- Thiết lập các khung mẫu của các tổng thể phụ: Mỗi tầng có 1 khung mẫu
- Trộn ngẫu nhiên các thành phần trong từng khung mẫu của từng tầng
- Rút mẫu cho từng tầng: ngẫu nhiên hoặc hệ thống
Chi phí cao
Áp dụng
trung bình
Khi tổng lệ là
không đồng nhất
và chứa nhiều
nhóm khác nhau,
trong đó có vài
- Đảm bảo mức đại diện cao cho từng nhóm NC
- Kiểm soát cỡ mẫu trong các tầng
Tăng hiệu quả thống kê Cung cấp dữ
liệu đại diện cho từng nhóm Cho
Tăng sai số nếu các tầng được chọn ở tỷ lệ
khác nhau.
Chi phí cao nếu
Trang 8III CHỌN MẪU XÁC SUẤT
4 Chọn mẫu theo nhóm (Cluster Sampling):
Lấy mẫu theo cụm nhìn bề ngoài giống lấy mẫu phân tầng Các nhóm căn
cứ trên dạng ghép nhóm tự nhiên Hay còn gọi Chọn mẫu theo vùng
Vd: Có thể ghép nhóm dữ liệu theo loại hình công ty hoặc khu vực địa lý
x x x x x
x x x x x
x x x x x
x x x x x
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
x x x x x
0 0 0 0 0
x x x x x
0 0 0 0 0
0 0 0 0 0
x x x x x
0 0 0 0 0
x x x x x
Chi phí TB
Áp dụng
cao
Khi tổng lệ chứa
các chủ thể lớn
hơn là chứa
chứa từng chủ
thể riêng lẽ.
-Dễ và thuận bện, chi phí thấp
- Cung cấp các ước lượng không thiên lệch nếu được thực hiện đúng
- Hiệu quả kinh tế cao hơn chọn mẫu ngẫu nhiên đơn giản
Thường có hiệu quả thống kê thấp
do các nhóm phụ
có xu hướng đồng nhất hơn là dị biệt
III CHỌN MẪU XÁC SUẤT
5 Chọn mẫu nhiều giai đoạn (Double sampling – Sequential
sampling - Multi-stageSampling):
Cho phép ta sử dụng các thông tin có được từ các cuộc nghiên cứu ban đầu
để làm cơ sở cho việc chọn mẫu tiếp theo
Trong NC kinh tế – xã hội:
- Giai đoạn đầu tiên là NC khám phá, tìm hiểu các thông tin cơ bản của
tổng thể (thông tin rộng) Áp dụng các phương pháp lấy mẫu trên
- Giai đoạn sau, dựa vào kết quả NC giai đoạn trước, NC chuyên sâu,
tìm hiểu chi tiết và chuyên sâu Áp dụng các phương pháp lấy mẫu
trên
Chi phí TB
Áp dụng
trung bình
Khi chưa biết các
đặc [nh của tổng
thể, theo yêu
cầu NC
- Có thể giảm chi phí nếu kết quả giai đoạn đầu cho đầy đủ dữ liệu để
phân tầng hoặc chia nhóm tổng thể
Tăng chi phí nếu được áp dụng không phân biệt
Trang 9IV CHỌN MẪU PHI XÁC SUẤT
1 Lựa chọn kỹ thuật chọn mẫu và mẫu phù hợp nhất:
Lựa chọn người cần phỏng vấn -> thiên lệch và méo mó kết quả Tuy
nhiên, một số lý do để chọn phương pháp này
- Thỏa yêu cầu chọn mẫu theo mục tiêu
- Khi không cần phải tổng quát hóa các kết quả NC cho tổng thể thì không
quan tâm tính đại diện cho tổng Điều này phù hợp với NC khám phá
và lấy ý kiến chuyên gia
- Do chi phí và thời gian ít
- Khi không biết tổng thể nghiên cứu, không có khung mẫu và không có cơ
sở để chọn mẫu xác suất -> Phải chọn mẫu phi xác suất
- Khi người tham gia NC (đối tượng) không có sự ngang bằng về cơ hội
chọn lựa giống nhau
IV CHỌN MẪU PHI XÁC SUẤT
2 Chọn mẫu thuận tiên (Convenience Sampling):
Việc lựa chọn 1 cách tình cờ những phần tử dễ lấy nhất cho mẫu của bạn
Quy trình chọn mẫu được tiếp tục cho đến khi đạt cỡ mẫu cần thiết
Vd: Vào lớp cao học phỏng vấn 1 vấn đề gì đó
Mặc dù kỹ thuật này được sử dụng rộng rãi nhất nhưng dễ có xu hướng sai
lệch Mức tin cậy ít nhất, rẽ, dễ tiến hành vì các nhà NC có quyền tự
do lựa chọn bất kỳ ai họ muốn để phỏng vấn
Trong giai đoạn NC khám phá có thể áp dụng phương pháp này NC thị
trường hay thăm dò ý kiến khách hàng được tiến hành bằng cách này
Chi phí thấp
Áp dụng thấp
Khi các thành viên của
tổng thể là thuận bện
- Thuận bện và
rẽ
Mức độ tổng quát hóa/khái quát hóa cho tổng thể
Trang 10IV CHỌN MẪU PHI XÁC SUẤT
3 Chọn mẫu theo mục đích (Purposive Sampling) hay phán
đoán (Judgemental Sampling):
Sử dụng phán đoán để lựa chọn các phần tử nhằm trả lời các câu hỏi NC và
đạt được các mục tiêu 1 cách tốt nhất
Dạng này được sử dụng khi làm việc với mẫu rất nhỏ như NC tình huống
hay lựa chọn các phần tử đặc biệt chứa nhiều thông tin, hoặc phù
hợp khi sử dụng vào các giai đoạn đầu của NC khám phá.
VD: NC về những người có học thức cao, ta chọn những lớp sau đai học
NC đầu tư chứng khoán cá nhân, ta chọn các nhà đầu tư chứng khoán cá
nhân
IV CHỌN MẪU PHI XÁC SUẤT
4 Chọn mẫu theo hạn ngạch (Quota Sampling)
Là 1 kiểu của lấy mẫu phân tầng nhưng sự lựa chọn những phần tử trong
mỗi tầng hoàn toàn phi ngẫu nhiên
Thưởng được sử dụng trong các cuộc khảo sát phỏng vấn Dựa trên tiền đề
là mẫu sẽ đại diện cho tổng thể vì sự biến động trong mẫu đối với các
biến số cũng giống như biến động trong mẫu
Các bước thực hiện:
- Chia tổng thể thành những nhóm cụ thể
- Tính toán hạn mức cho mỗi nhóm dựa vào dữ liệu liên quan có sẵn
- Giao một nhiệm vụ cho mỗi người phỏng vấn, nói rõ số lượng các phần
tử trong mỗi hạn mức mà họ phải thu thập dữ liệu
- Tổng hợp dữ liệu của những người phỏng vấn để cung cấp 1 mẫu đầy đủ
Trang 11IV CHỌN MẪU PHI XÁC SUẤT
4 Chọn mẫu theo hạn ngạch (Quota Sampling)
Chi phí thấp
Áp dụng TB
Khi tầng xuất hiện và
không thể chọn mẫu
phân tầng
- Đảm bảo mức độ đại diện của các tầng trong mẫu
Mức độ tổng quát hóacho tổng thể thấp/đáng nghi ngờ
Phụ thuộc vào điều tra viên
Giới
/nh
Nhóm
tuổi
(10% mẫu)
Hạn mức
Nam 20-29 - Chuyên viên
- Quản lý/giám đốc
- Cấp trung gian & hành chánh
- Làm việc phổ thông có kỹ năng
- Làm việc phổ thông không có kỹ năng
11210 7983 9107 16116 5039
56 40 43 79 25 Nữ 20-29 - Chuyên viên
- Quản lý/giám đốc
- Cấp trung gian & hành chánh
- Làm việc phổ thông có kỹ năng
-Làm việc phổ thông không có kỹ năng
8811 6789 21585 1754 3570
44 34 108 9 18
IV CHỌN MẪU PHI XÁC SUẤT
5 Chọn mẫu mở rộng dần (Snowball Sampling)
Thường được sử dụng khi khó xác định/khó tiếp cận các thành viên
của tổng thể mong muốn Phù hợp cho các NC định tính
Do đó, ta cần:
- Liên lạc với 1 hay 2 phần tử
- Đề nghị các phần tử này xác định các phần tử tiếp theo
- Đề nghị các phần tử mới này xác định các phần tử tiếp theo (và cứ
thế)
- Dừng lại khi không tìm thêm phần tử mới hay cỡ mẫu đủ lớn để
NC
Do việc xác định tiếp theo như thế nên vấn đề sai lệch là lớn và vì
những người được hỏi có xu hướng tìm những người tương tự,
nên mẫu đồng nhất
Trang 12V XÁC ĐỊNH CỠ MẪU
Mẫu tối thiểu là 30 cho mỗi nhóm
Nói chung, 1 mẫu lớn hơn để đại diện cho tổng thể khi:
- Số biến động trong (within groups) các nhóm là lớn hơn
- Sự khác nhau giữa 2 nhóm (between two groups) là nhỏ hơn
Theo Saunders, Lewis and Thornhill (2008), kích cở mẫu tối thiểu
đối với kích cở tổng thể khác nhau và mức ý nghĩa khác nhau
như sau (bảng kế bên):
Theo 1 cách tính khác: Kích cở mẫu tối thiểu = số biến x 5
Ví dụ: số biến là 20, thì kích cỡ mẫu tối thiểu là 20x5 = 100
Tổng thể Biên sai số (Margin of error)
10.000 370 964 1.936 4.899
100.000 383 1.056 2.345 8.762
1.000.000 384 1.066 2.395 9.513
Trang 13V XÁC ĐỊNH CỠ MẪU
1 Xác định cở mẫu trung bình:
2 Xác định cỡ mẫu theo tỷ lệ
(Tham khảo trong tài liệu Trần Tiến Khai và các tác giả, trang 79-83;
và Kothari (2004): C8)
Kết thúc chương
Thanks