1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp chọn mẫu và xác định cỡ mẫu

27 2,5K 20

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,03 MB

Nội dung

Phương pháp chọn mẫu và xác định cỡ mẫu trong nghiên cứu thống kê. Phương pháp chọn mẫu và xác định cỡ mẫu trong nghiên cứu thống kê.Phương pháp chọn mẫu và xác định cỡ mẫu trong nghiên cứu thống kê.Phương pháp chọn mẫu và xác định cỡ mẫu trong nghiên cứu thống kê.Phương pháp chọn mẫu và xác định cỡ mẫu trong nghiên cứu thống kê.Phương pháp chọn mẫu và xác định cỡ mẫu trong nghiên cứu thống kê.

Trang 1

Bài 6 Phương pháp chọn mẫu và xác định cỡ mẫu

Giới thiệu chương

Chương này tập trung vào chủ đề chọn mẫu và xác định cỡ mẫu cho nghiên cứu Nội dung đầu tiên được thảo luận là bản chất của việc chọn mẫu và lý do mà ta phải chọn mẫu trong quá trình nghiên cứu và các tính chất mà một mẫu tốt cần có Nội dung kế tiếp trình bày về các đặc điểm thể hiện tính đúng đắn và tính chính xác để đo lường mức độ hiệu lực của mẫu Sau đó, chương hướng dẫn các nguyên tắc cần thiết khi phát triển một kế hoạch chọn mẫu, chỉ ra hai nhóm kỹ thuật chọn mẫu và các phương pháp cụ thể Phần cuối của chương tập trung vào hai phương pháp xác định cỡ mẫu là xác định theo giá trị trung bình và theo giá trị tỷ lệ

1 BẢN CHẤT CỦA VIỆC CHỌN MẪU

Chọn mẫu (sampling) là việc chọn lấy một số phần tử của một dân số (population), và từ

đó, có thể rút ra các kết luận về chính dân số đó Điều này có nghĩa là khi nghiên cứu một dân số mục tiêu nào đó, ta không nghiên cứu toàn bộ dân số mà chỉ một bộ phận của dân

số, và cách thức mà ta chọn ra bộ phận đó, chính là chọn mẫu

Mẫu sẽ bao gồm một số phần tử của dân số Một phần tử của dân số (population element)

là một cá thể của đối tượng nghiên cứu hoặc một cá nhân người tham gia nghiên cứu mà nhà nghiên cứu sẽ tiến hành các đo lường Đây chính là đơn vị nghiên cứu (unit of study) Như vậy, nói ngược lại, một dân số bao gồm tất cả các phần tử của dân số mà ta muốn nghiên cứu

Thông thường ta không thực hiện nghiên cứu trên toàn bộ phần tử của dân số Tuy nhiên,

ở cấp độ quốc gia, đôi khi các nhà nghiên cứu vẫn tiến hành điều tra tổng thể Một điều tra tổng thể (census) là một nghiên cứu thực hiện trên tất cả mọi phần tử của dân số Khi chọn mẫu, thường ta phải dựa vào khung mẫu Khung mẫu (sample frame) là một danh sách chưa đựng các thông tin cơ bản của tất cả các đơn vị nghiên cứu (phần tử của dân số) mà dựa vào đó chúng ta rút ra mẫu Khi chuẩn bị chọn mẫu nghiên cứu ta cần luôn lưu ý là có thể tìm được khung mẫu hay không

1.1 Tại sao phải lấy mẫu?

Khi thực hiện nghiên cứu, chúng ta rất hiếm khi điều tra tổng thể, vì lý do cơ bản là hết sức tốn kém và tốn rất nhiều thời gian, công sức Trong khi đó, nếu chúng ta chỉ điều tra mẫu, thì có nhiều lợi thế Thứ nhất, dĩ nhiên là chi phí nghiên cứu thấp Thứ hai, ta có thể đạt tốc độ thu thập dữ liệu nhanh mà vẫn đạt được mức chính xác cần có của kết quả Cuối cùng là ta có thể dễ dàng có được các đơn vị nghiên cứu sẵn có cho nghiên cứu

Trang 2

Chọn mẫu cho phép có chi phí nghiên cứu thấp Rõ ràng là điều tra nghiên cứu trên một mẫu nào đó của dân số sẽ có lợi thế về chi phí nhiều hơn là điều tra tổng thể Điều này là hiển nhiên

Chọn mẫu đúng cách vẫn cho phép ta đạt được mức chính xác cần có của kết quả Thậm chí chất lượng của một nghiên cứu thực hiện điều tra chọn mẫu hoặc nghiên cứu trên mẫu vẫn thường đạt kết quả tốt hơn so với thực hiện điều tra tổng thể hoặc nghiên cứu tổng thể

vì nhà nghiên cứu có thể phỏng vấn tốt hơn, điều tra nhiều hơn, sâu hơn về các thông tin nghi ngờ, sai sót và xử lý thông tin tốt hơn Chỉ khi nào dân số nghiên cứu quá nhỏ, dễ tiếp cận, và biến động nhiều thì điều tra tổng thể mới có thể đạt độ chính xác cao hơn điều tra mẫu

Chọn mẫu cho phép ta đạt tốc độ thu thập dữ liệu cao hơn Tốc độ thực hiện nhanh giúp làm giảm thời gian giữa giai đoạn chuẩn bị các thông tin cần thiết và giai đoạn thu thập thông tin Tốc độ thu thập dữ liệu cao cũng có nghĩa là ta có thể hoàn thành việc nghiên cứu sớm trong phạm vi giới hạn thời gian cho trước

Tính sẵn có của các phần tử dân số cũng là lợi thế của chọn mẫu Thông thường, một số phần tử dân số luôn có sẵn, và chúng ta có thể chọn lựa để thực hiện lấy mẫu để điều tra, nghiên cứu

Nếu phải so sánh hiệu quả giữa nghiên cứu chọn mẫu và điều tra tổng thể, ta thấy lợi thế của điều tra mẫu so với điều tra tổng thể sẽ mất đi nếu dân số nhỏ và có tính biến động cao Có hai điều kiện làm cho việc nghiên cứu tổng thể phù hợp hơn: (1) có tính khả thi khi dân số nhỏ và (2) cần thiết khi mà mỗi cá thể đều rất khác biệt nhau

Tính đúng đắn (accuracy) của mẫu là mức độ mà mẫu tránh được các thiên lệch (bias)

Khi mẫu được rút ra đúng cách, thì các các tính chất của một số phần tử nào đó của dân

số sẽ được thể hiện ít hơn mức độ thực có của chúng Ngược lại, sẽ có một số phần tử khác sẽ được thể hiện nhiều hơn mức độ thực có của chúng Kết quả là, các biến số này của các phần tử sẽ bù trù lẫn nhau, và dẫn đến việc giá trị của mẫu sẽ gần với giá trị của dân số

Tuy nhiên, để hiệu quả bù trừ này xảy ra, mẫu của chúng ta phải có đủ số lượng các phần

tử, và chúng phải được rút ra từ dân số một cách đúng đắn để không gây ra sự thiên lệch Một mẫu đúng (không thiên lệch) là một mẫu mà các sai số được đánh giá quá cao hay

quá thấp bù trừ lẫn nhau Và do đó, phương sai hệ thống (systematic variance) được định

Trang 3

nghĩa như là biến động trong đo lường do các ảnh hưởng biết được hay không biết được gây ra làm cho các điểm số bị thiên lệch về một phía nào đó

Tăng cỡ mẫu (sample size) có thể làm giảm được phương sai hệ thống như là một nguồn sai số Tuy nhiên, dù có tăng cỡ mẫu thì phương sai hệ thống vẫn có thể xảy ra nếu khung mẫu mà ta dựa vào để rút mẫu đã bị thiên lệch

Tiêu chuẩn thứ hai để thiết kế một mẫu tốt là tính chính xác (precision) của các ước lượng Các nhà nghiên cứu đồng ý với nhau là không có mẫu nào có thể đại diện một cách đầy đủ dân số của nó ở mọi phương diện, mọi khía cạnh Tuy nhiên, để diễn giải các phát hiện của nghiên cứu, chúng ta cần phải đo lường coi mẫu thể hiện được dân số chính xác tới mức nào Các biến số mô tả mẫu có thể khác với dân số do sai số ngẫu nhiên sinh

ra trong quá trình chọn mẫu Sai số này được gọi là sai số chọn mẫu (sampling error) hay

là sai số chọn mẫu ngẫu nhiên (random sampling error), và nó phản ảnh ảnh hưởng của cơ hội rút ra các thành viên của mẫu

Tính chính xác được đo lường bằng sai số chuẩn của ước lượng Sai số chuẩn càng nhỏ có nghĩa là độ chính xác càng cao, và ngược lại Một thiết kế chọn mẫu được coi là lý tưởng khi nó tạo ra sai số chuẩn của ước lượng nhỏ Tuy nhiên, không phải là tất cả các kiểu thiết kế mẫu đều tạo ra các ước lượng cho mức độ chính xác, và các mẫu có cỡ mẫu bằng nhau có thể sinh ra các mức độ sai số khác nhau

1.3 Các kiểu thiết kế chọn mẫu

Khi thiết kế chọn mẫu (hay là chọn lựa các chọn mẫu - types of sample design), các nhà nghiên cứu phải trả lời nhiều vấn đề (Hình 6.1) Quá trình ra quyết định chọn mẫu phụ thuộc vào nhiều yếu tố Có thể kế đến như bản chất của câu hỏi quản lý và các câu hỏi điều tra cụ thể được rút ra từ các câu hỏi nghiên cứu Ngoài ra, các yếu tố khác ảnh hưởng đến thiết kế mẫu còn là các yêu cầu của dự án nghiên cứu và mục tiêu của nó, mức độ rủi

ro mà các nhà nghiên cứu chấp nhận, ngân sách nghiên cứu, quỹ thời gian, các nguồn lực

có thể có và văn hóa vùng miền, dân tộc

Các phần tử trong một mẫu được chọn ra theo một trong hai kiểu chọn mẫu cơ bả: xác suất hay phi xác suất Chọn mẫu phi xác suất (non-probability sampling) có tính chất là tùy ý và có mục tiêu Khi chúng ta chọn mẫu có mục tiêu, chúng ta thường chọn mẫu theo một kế hoạch định trước, và mỗi đơn vị nghiên cứu được rút ra từ dân số không có cơ hội được chọn ngang bằng nhau

Sự khác biệt căn bản giữa chọn mẫu phi xác suất và chọn mẫu xác suất là tính chất xác suất Chọn mẫu xác suất (probability sampling) dựa trên các phần tử được chọn với cơ hội lựa chọn cho trước khác không Chọn mẫu xác suất cho phép chúng ta xác định được các ước lượng về mức chính xác, và cho chúng ta cơ hội để tổng quát hóa các phát hiện cho các dân số nghiên cứu dựa trên dân số mẫu Trong khi các nghiên cứu khám phá không đòi hỏi nhiều về việc này, nhưng các nghiên cứu giải thích, mô tả và nhân quả lại

Trang 4

đòi hỏi điều này Trong khi đó, với chọn mẫu phi xác suất, ta không biết trước xác suất để chọn một phần tử nào đó vào mẫu, đơn giản là vì ta không cần quan tâm đến xác suất này Chọn phần tử của dân số để đưa vào mẫu là một việc đòi hỏi có sự chuẩn bị và lựa chọn nghiêm túc để bảo đảm tính đúng đắn của mẫu Các phần tử của mẫu được chọn theo từng cá thể và trực tiếp từ dân số

Hình 6.1 Thiết kế chọn mẫu trong phạm vi quá trình nghiên cứu

Có nhiều kiểu thiết kế chọn mẫu khác nhau, và thuộc vào hai nhóm là chọn mẫu xác suất

và chọn mẫu phi xác suất (hình 6.2) Các kiểu chọn mẫu xác suất bao gồm các kiểu chọn mẫu ngẫu nhiên đơn giản (simple random sampling), chọn mẫu hệ thống (systematic sampling), chọn mẫu phân tầng (stratified sampling), chọn mẫu phân nhóm (cluster sampling), và chọn mẫu nhiều giai đoạn (multistage sampling) Các kiểu chọn mẫu phi xác suất bao gồm chọn mẫu thuận tiện (convienience sampling), chọn mẫu theo phán đoán (judment sampling), chọn mẫu hạn ngạch (quota sampling), và chọn mẫu quả cầu tuyết (snowball)

Thang bậc câu hỏi quản lý – câu hỏi nghiên cứu

Chọn kiểu chọn mẫu

Xác suất Phi xác suất Xác định dân số liên quan

Chọn kỹ thuật lấy mẫu Xác định các khung mẫu hiện có

Đánh giá khung mẫu

Chọn khung mẫu

Chỉnh sửa hoặc xây dựng lại khung mẫu

Rút ra mẫu

Chấp nhận Không chấp nhận

Trang 5

Ở hai kiểu chọn mẫu phân tầng và hạn ngạch, mỗi kiểu lại có hai kiểu phụ là chọn mẫu theo tỷ lệ (propotionate sampling) và không theo tỷ lệ (dispropotionate sampling)

Hình 6.2 Các thiết kế chọn mẫu xác suất và phi xác suất

2 CÁC BƯỚC THIẾT KẾ CHỌN MẪU

Khi lựa chọn cách chọn mẫu phù hợp nhất cho nghiên cứu, chúng ta phải trả lời một số câu hỏi đặt ra Các câu hỏi này cũng chính là các nguyên tắc, hay là các bước mà chúng ta phải theo Các câu hỏi đi theo một trình tự nhất định Tuy nhiên, để trả lời tốt một câu hỏi, ta phải xem xét lại câu hỏi và câu trả lời trước đó

1 Dân số mục tiêu là gì?

2 Các chỉ tiêu (parameters) cần quan tâm là gì?

Chọn mẫu xác suất (probability sampling)

Chọn mẫu phi xác suất

(non-probability sampling)

Chọn mẫu ngẫu nhiên đơn giản (simple random sampling)

Chọn mẫu hệ thống (systematic sampling)

Chọn mẫu phân tầng (stratified sampling)

Chọn mẫu phân nhóm (cluster sampling)

Trang 6

3 Khung mẫu của ta là gì ?

4 Phương pháp chọn mẫu nào là phù hợp?

5 Cần cỡ mẫu bao nhiêu?

Ví dụ 6.1 Khi nghiên cứu về vấn đề nghèo đói, ta phải hiểu dân số mục tiêu của ta là gì

Nếu nghiên cứu theo góc độ vùng địa giới hành chính, dân số mục tiêu có thể bao gồm các vùng hành chính như tỉnh, quận huyện, xã phường Nếu ta nghiên cứu theo góc độ

hộ gia đình thì dân số nghiên cứu lại bao gồm các hộ gia đình Trên thực tế, các phần tử

cơ bản của dân số mục tiêu này chính là hộ gia đình được phân bố theo các vùng địa giới hành chính Vì vậy, các phần tử mà ta phải chọn lựa bao gồm cả vùng địa giới hành chính và hộ gia đình

Ví dụ 6.2 Ở ví dụ 2.5 (chương 2), ta quan tâm đến vấn đề cải thiện môi trường đầu tư

để tăng cường thu hút đầu tư trực tiếp nước ngoài (FDI) của các tỉnh thành ở Việt Nam Hãy xem dân số mục tiêu của ta là gì? Thứ nhất, chắc chắn dân số mục tiêu phải bao gồm tất cả các tỉnh và thành phố trực thuộc trung ương của Việt Nam Tuy nhiên, ở từng tỉnh và thành phố, ta phải chọn các phần tử nào cho nghiên cứu? Liệu ta nên chọn các cá nhân là quan chức quản l{ của địa phương đó hay là chọn các doanh nghiệp nước ngoài hay các doanh nghiệp trong nước đang đầu tư sản xuất kinh doanh tại tỉnh? Rõ ràng là việc chọn lựa này không dễ dàng chút nào

2.2 Các chỉ tiêu cần quan tâm là gì?

Các chỉ số thể hiện cho dân số là các chỉ tiêu mô tả tổng hợp (ví dụ giá trị trung bình, phương sai, v.v.) của các biến số của dân số mà chúng ta quan tâm

Các chỉ số thống kê mẫu (sample statistics) là các chỉ tiêu mô tả cùng các biến số trên, nhưng không phải của dân số mà là của mẫu Các chỉ số thống kê mẫu được dùng để ước lượng các chỉ số thống kê của dân số Các chỉ số thống kê mẫu chính là cơ sở để chúng ta tham chiếu cho các chỉ số thống kê của dân số

Trang 7

Tùy thuộc vào cách mà chúng ta đặt ra câu hỏi đo lường như thế nào (xem lại Hình 2.1, Chương 2), mỗi câu lại có thể thu thập dữ liệu ở các mức độ khác nhau Mỗi mức độ khác biệt của dữ liệu lại sinh ra sự khác biệt về thống kê mẫu Vì vậy, việc chọn lựa các chỉ tiêu cần quan sát sẽ thực tế quyết định kiểu chọn mẫu và cỡ mẫu

Khi các biến số được đo lường với kiểu dữ liệu khoảng hay tỷ số, chúng ta sẽ sử dụng giá trị trung bình mẫu để ước lượng trung bình dân số, và độ lệch chuẩn của mẫu để ước lượng độ lệch chuẩn của dân số

Khi các biến số được đo lường ở dạng thang đo danh nghĩa hoặc thứ bậc, chúng ta sẽ sử

dụng các tỷ lệ của mẫu để ước lượng các tỷ lệ của dân số, và dùng chỉ số pq để ước lượng

phương sai của dân số Trong trường hợp này, tỷ lệ của dân số sẽ bằng số lượng phần tử

có trong dân số thuộc về một loại nào đó chia cho tổng số phần tử của dân số Các đo lường tỷ lệ như thế này rất cần thiết cho dữ liệu danh nghĩa và được sử dụng rộng rãi cho các đo lường khác nữa

2.3 Khung mẫu của ta là gì?

Khung mẫu có liên quan rất gần với dân số Đó chính là danh sách của tất cả các phần tử

có trong dân số mà từ đó chúng ta sẽ rút mẫu ra Một khung mẫu lý tưởng chính là một danh sách hoàn thiện, đầy đủ và đúng tất cả các thành viên của dân số

Tuy nhiên, trên thực tế, khung mẫu thường rất khác biệt với dân số lý thuyết

Thường là chúng ta chấp nhận một khung mẫu bao gồm cả các người hoặc các trường hợp mà chúng ta không quan tâm Nhưng chúng ta có thể giải quyết vấn đề này dễ dàng bằng cách rút một mẫu từ một dân số lớn hơn, và rồi sử dụng một quy trình lọc để loại bỏ các trường hợp mà chúng ta không quan tâm, hoặc không phải là thành viên của nhóm mà chúng ta muốn nghiên cứu

Khả năng tìm kiếm được khung mẫu hay không là vấn đề phải tính đến khi chuẩn bị chọn mẫu Có những dân số mục tiêu mà khung mẫu là sẵn có, ví dụ dân số sinh viên của một trường đại học, cư dân của một vùng hành chính nào đó, các doanh nghiệp vừa và nhỏ của một thành phố nào đó Tuy nhiên, có những dân số mục tiêu mà các phần tử của nó là không xác định, do đó ta không thể nào có được khung mẫu Ví dụ như dân số những người ưa thích chính sách A và không ưa thích chính sách B, dân số những người đang sử dụng diện thoại di động nhãn hiệu Nokia, dân số những người buôn bán nhỏ không đăng

ký chẳng hạn Ngoài ra, còn có những dân số mục tiêu xác định về nguyên tắc, và có tồn tại khung mẫu, nhưng vì những lý do đặc biệt nào đó mà ta không thể có được khung mẫu, ví dụ như dân số những người nhiễm HIV-AIDS, dân số những người đang sử dụng

xe máy thuộc một thương hiệu nào đó Ta không thể hoặc rất khó có danh sách khung mẫu của các dân số này vì các vấn đề quản lý hành chính (danh sách người đăng ký xe máy tại cơ quan quản lý phương tiện giao thông) hoặc tính chất nhạy cảm của dân số (danh sách người bị nhiễm HIV-AIDS)

Trang 8

2.4 Phương pháp chọn mẫu nào là phù hợp?

Nhà nghiên cứu phải đối mặt với một lựa chọn căn bản: chọn mẫu xác xuất hay phi xác suất Với cách chọn mẫu xác suất, nhà nghiên cứu có thể đạt được các ước lượng cho nhiều chỉ tiêu nghiên cứu khác nhau dựa trên sự tin cậy về xác suất Trong khi đó, chọn mẫu phi xác suất không cho được điều này

Tuy nhiên, chọn mẫu xác suất có một vài hệ quả Nhà nghiên cứu buộc phải theo các quy trình phù hợp mà phỏng vấn viên, điều tra viên không thể chỉnh sửa sự chọn lựa đã có Khi chọn mẫu, chỉ có các phần tử được chọn từ khung mẫu gốc mới được tính tới Trong quá trình chọn mẫu để thu thập thông tin, ta không thể thay thế phần tử này bằng phần tử khác ngoại trừ khi có các chỉ dẫn cụ thể theo các nguyên tắc định trước

Ngược lại, chọn mẫu phi xác suất dù không có tính đại diện cao cho dân số, nhưng lại dễ dàng áp dụng trong thực tế vì hầu hết các trường hợp ta không thể có được khung mẫu Đồng thời, nhiều nghiên cứu có mục đích chuyên biệt, không cần thiết phải đại diện cho toàn bộ dân số mục tiêu

Ở phần 3 và 4, ta sẽ hiểu thêm sự khác biệt giữa hai nhóm thiết kế chọn mẫu này

2.5 Cần cỡ mẫu bao nhiêu là vừa?

Cỡ mẫu chính là số đơn vị nghiên cứu mà ta cần có trong một mẫu khi rút ra từ dân số mục tiêu Thông thường, nhiều người có nhiều quan niệm không chính xác về cỡ mẫu Họ thường cho rằng, thứ nhất, một mẫu phải đủ lớn, nếu không nó sẽ không đại diện cho dân

số Thứ hai là một mẫu phải tương ứng với một tỷ lệ nào đó so với kích cỡ của dân số mà

nó được rút ra Trên thực tế, cả hai câu chuyện này đều không chính xác

Với mẫu phi xác suất, các nhà nghiên cứu khẳng định là số lượng nhóm phụ, các nguyên tắc lựa chọn và hạn chế về ngân sách là các yếu tố quyết định cỡ mẫu Với cách chọn mẫu xác suất, cỡ mẫu phụ thuộc vào sự biến thiên của các chỉ số thống kê của dân số và mức

độ chính xác của kết quả mà ta muốn có

Một số nguyên tắc ảnh hưởng đến việc xác định cỡ mẫu là:

- Dân số càng biến thiên nhiều thì cỡ mẫu phải càng lớn để đạt tính chính xác

- Độ chính xác mong muốn càng tăng thì cỡ mẫu phải càng lớn

- Phạm vi sai số càng nhỏ thì cỡ mẫu phải càng lớn

- Mức độ tin cậy của ước lượng càng cao thì cỡ mẫu càng phải lớn

- Khi dân số có nhiều nhóm phụ, thì cỡ mẫu phải lớn để cỡ mẫu của từng nhóm phụ phải đạt yêu cầu tối thiểu

Các hạn chế về ngân sách cũng ảnh hưởng đến cỡ mẫu, cách chọn mẫu và phương pháp thu thập dữ liệu Hầu hết các nghiên cứu đều bị giới hạn ngân sách, và điều này thúc đẩy các nhà nghiên cứu áp dụng các phương pháp chọn mẫu phi xác suất

Trang 9

3 CHỌN MẪU XÁC SUẤT

Một mẫu được coi là có hiệu quả hơn về phương diện thống kê là một mẫu mà nó có thể cho kích cỡ mẫu nhỏ hơn với một mức độ chính xác cho trước (dựa trên sai số chuẩn của trung bình hoặc của tỷ lệ) Một mẫu được coi là có hiệu quả về phương diện kinh tế là một mẫu có thể đạt được một mức độ chính xác cho trước với chi phí thấp Ở các phần dưới đây, ta sẽ thảo luận về thiết kế chọn mẫu ngẫu nhiên đơn giản, và sau đó bốn cách thức chọn mẫu xác suất phức tạp (complex probability sampling) có khả năng thay thế nhau là: (1) chọn mẫu hệ thống; (2) chọn mẫu phân tầng; (3) chọn mẫu theo nhóm hoặc phân tổ; và (4) chọn mẫu nhiều giai đoạn

3.1 Chọn mẫu xác suất ngẫu nhiên đơn giản

Là một phương pháp chọn mẫu không hạn chế, phương pháp chọn mẫu xác suất ngẫu nhiên đơn giản (simple random sampling) là hình thức đơn giản nhất, thuần nhất của cách chọn mẫu xác suất Khi mà tất cả các mẫu xác suất đều phải chọn lựa từng cá thể (đơn vị nghiên cứu) với một xác suất khác không cho trước thì phương pháp chọn mẫu ngẫu nhiên đơn giản được coi là một trường hợp đặc biệt vì mỗi một cá thể đều được lựa chọn với một xác suât biết trước và hoàn toàn ngang bằng nhau

Xác suất chọn lựa = cỡ mẫu ÷ kích cỡ của dân số (%)

Để thực hiện chọn mẫu ngẫu nhiên đơn giản, việc đầu tiên là chúng ta phải có khung mẫu, hay chính là danh sách tất cả các cá thể (thành viên) của dân số mục tiêu Dựa trên danh sách này, làm sao có thể rút mẫu ra mà vẫn bảo đảm xác suất rút mẫu hoàn toàn bằng nhau? Giả sử ta chọn mẫu với cỡ mẫu là 200 từ một dân số mục tiêu chứa 2.500 cá thể Điều này có nghĩa là xác suất rút mẫu phải bảo đảm bằng 200/2.500, tức là 8% Xác suất ra rút mẫu lần đầu tiên sẽ là 1/2.500 Xác suất rút mẫu lần thứ hai sẽ là 1/2.499, và sau đó, xác suất rút mẫu sẽ thay đổi tương tự như vậy Hiển nhiên là bằng cách này, ta không bảo đảm xác suất rút mẫu là bằng nhau và bằng với xác suất dự định ban đầu Đây

là hệ quả của cách chọn mẫu không có thay thế (sampling without replacement) Nếu thay thế phần tử đã được chọn bằng một phần tử khác trong dân số, ta có thể giữ cho xác suất rút mẫu không thay đổi (sampling with replacement)

Khi rút mẫu, ta sẽ đánh số và sử dụng bảng ngẫu nhiên để chọn lựa ra các cá thể (rút mẫu)

để bảo đảm mọi cá thể đều có xác suất được chọn như nhau Ta cũng có thể dùng các phần mềm máy tính hỗ trợ để xác định mẫu với một xác suất cho trước nào đó Với phần mềm Excel, một công cụ bảng tính phổ biến, ta có thể sử dụng lệnh Randbetween

Ví dụ 6.3

Giả sử ta xác định cỡ mẫu cần có cho một nghiên cứu là n = 200 Với danh sách khung mẫu cho trước, ta biết dân số có N = 2.500 cá thể Như vậy, xác suất chọn mẫu là 8% Dĩ nhiên là ta phải lập danh sách khung mẫu, và mỗi cá thể của dân số được đánh số thứ

tự từ 1 đến 2.500 Với phần mềm Excel, ta dùng lệnh Randbetween(1;2500), ta sẽ có được một giá trị ngẫu nhiên được chọn ra từ danh sách chứa 2.500 cá thể Ta chọn copy

Trang 10

công thức bằng cách kéo chuột (drag) ô tính toán đi để có đúng 200 ô Kết quả là ta sẽ

có một danh sách chứa 250 cá thể được chọn một cách ngẫu nhiên và với xác suất chọn lựa hoàn toàn bằng nhau là 8%

Ta cũng có thể dùng cách này để lập một vài danh sách dự phòng Khi bị mất một cá thể quan sát bất kỳ trong danh sách chuẩn đầu tiên, ta có thể lựa chọn một cá thể bất kỳ trong danh sách dự phòng để thay thế mà vẫn bảo đảm tính chất ngẫu nhiên và với xác suất hoàn toàn bằng nhau

3.2 Chọn mẫu hệ thống

Vớ thiết kế chọn mẫu hệ thống, ta chọn lấy các phần tử thứ kth

trong dân số, bắt đầu với một con số khởi điểm ngẫu nhiên trong phạm vi từ 1 đến k Phần tử thứ kth

, còn gọi là bước nhảy (skip interval), được tính bằng cách chia cỡ mẫu cho kích cỡ của dân số

k = bước nhảy = dân số ÷ cỡ mẫu Chúng ta cũng phải có khung mẫu chính xác và hoàn thiện

Thủ tục để tiến hành chọn mẫu hệ thống theo các bước sau:

- Xác định, lập danh sách và đánh số các cá thể của dân số

- Xác định bước nhảy (k)

- Xác định con số khởi đầu một cách ngẫu nhiên

- Rút mẫu bằng cách chọn tất cả các cá thể theo các bước nhảy kth

Ví dụ 6.4 Ta có dân số bao gồm 2.000 phần tử đã đánh số thứ tự Với cỡ mẫu 70, bước

nhảy k bằng 28,57, làm tròn là 29 Giả sử ta chọn điểm khởi đầu là phần tử có số thứ tự

12, phần tử được chọn kế tiếp sẽ là 41 (12+29) Tương tự như vậy, ta sẽ chọn các phần

Để tránh tình trạng thiên lệch như vậy, ta nên:

- Sắp xếp ngẫu nhiên dân số trước khi chọn mẫu

- Chọn con số khởi điểm một cách ngẫu nhiên vài lần khi bắt đầu chọn mẫu

- Lặp lại cách chọn mẫu như vậy cho các mẫu khác

Trang 11

Nếu thực hiện tốt, phương pháp này cho hiệu quả thống kê cao hơn phương pháp ngẫu nhiên đơn giản

Tại sao chúng ta chọn phương pháp chọn mẫu phân tầng này? Phương pháp này cho chúng ta nhiều lợi ích như:

(1) Tăng hiệu quả thống kê của mẫu;

(2) Cung cấp dữ liệu phù hợp để phân tích từng nhóm dân số phụ hay từng tầng, và (3) Cho phép sử dụng các phương pháp nghiên cứu và phân tích khác nhau cho cá nhóm dân số phụ khác nhau

Nếu phân tầng một cách lý tưởng, ta sẽ có sự đồng nhất trong nội bộ từng nhóm và có sự

dị biệt giữa các nhóm Nếu phân tầng càng nhiều thì ta càng có thể tối đa hóa sự khác biệt giữa các nhóm và tối thiểu hóa sự biến thiên trong nội bộ từng nhóm

Hình 6.3 Minh họa về thiết kế chọn mẫu phân tầng

Tuy nhiên, chi phí cũng là một yếu tố đáng quan tâm Nếu tăng số nhóm nghiên cứu lên (số tầng) thì chi phí cũng tăng theo vì chi phí đi đôi với mức độ chọn mẫu chi tiết Ngoài

ra, cũng phải chú ý đến các yếu tố sau: (1) kích cỡ tổng mẫu cần có và (2) tổng mẫu được

C

C

Dân số

Mẫu Dân số phụ

Trang 12

phân bổ như thế nào giữa các tầng Hai vấn đề này quan trọng vì chúng quyết định số cá thể cần có ở từng tầng

Giả sử ta có hạn chế ngân sách nên chỉ có thể chọn cỡ mẫu tối đa là 250 Nếu ta chọn cách chia dân số làm 5 nhóm dân số phụ khác nhau, với tỷ lệ tương đương nhau, thì số lượng cá thể cần quan sát của mỗi mẫu phụ (tương ứng với mỗi nhóm dân số phụ, hay là từng tầng) là 50, tương đương với tỷ lệ 20% tổng mẫu Số lượng 50 cá thể này có thể bảo đảm mức độ tin cậy về phân tích thống kê Nhưng nếu chúng ta muốn chia dân số làm 10 nhóm dân số phụ, thì kích cỡ của mẫu phụ chỉ là 25 Số lượng đơn vị nghiên cứu có trong

1 mẫu phụ này có thể không bảo đảm tin cậy về phân tích thống kê

Đối với cách phân bố mẫu cho các nhóm phụ (tầng) khác nhau, có hai cách là theo tỷ lệ (proportionate) và không theo tỷ lệ (disproportionate)

Đối với cách chọn mẫu phân tầng theo tỷ lệ (proportionate stratified sampling), cỡ mẫu của mỗi mẫu phụ (tầng) theo đúng tỷ lệ của các phần tử có trong từng dân số phụ so với tổng dân số Cách chọn mẫu phân tầng theo tỷ lệ phổ biến nhiều hơn bất kỳ cách chọn mẫu phân tầng nào khác, bởi vì:

- có hiệu quả thống kê cao hơn phương pháp ngẫu nhiên đơn giản

- dễ thực hiện hơn các phương pháp phân tầng khác

- cung cấp một mẫu tự định trọng số (self-weighting sample); giá trị trung bình tổng thể hoặc tỷ lệ tổng thể có thể được ước lượng một cách dễ dàng

Quy trình chọn mẫu phân tầng bao gồm các bước sau đây:

Bước 1 Quyết định các biến số dùng để phân tầng Trong nghiên cứu kinh tế - xã hội, các

biến định tính thường được dùng để phân chia dân số thành các dân số phụ Thông thường là các biến nhân khẩu học (ví dụ độ tuổi, giới tính, nghề nghiệp, học vấn, v.v) hoặc các biến thể hiện sự khác biệt về vị thế kinh tế (ví dụ nghèo, cận nghèo, trung bình, khá, giàu) Cần chú ý là ta phải xem xét liệu các biến định tính được dùng để phân chia dân số thành các dân số phụ có ý nghĩa gì đối với mục tiêu nghiên cứu của ta, có tác động

gì đến biến số quan trọng nhất mà ta cần đo lường

Ví dụ 6.5 Khi nghiên cứu về thu nhập của người lao động, ta xem xét liệu các biến định

tính nào có thể dùng để chia dân số mục tiêu thành những nhóm phụ có thu nhập chênh lệch nhau Liệu giới tính có thể dẫn đến sự khác biệt về thu nhập hay không? Liệu trình độ học vấn có dẫn đến sự khác biệt hay không? Liệu ngành nghề hay các hình thức

tổ chức của doanh nghiệp (ví dụ sở hữu nhà nước, tư nhân, liên doanh, nước ngoài), có ảnh hưởng đến thu nhập hay không?

Ví dụ 6.6 Khi nghiên cứu về nhu cầu sử dụng máy tính xách tay của sinh viên, ta cần xác

định xem có các yếu tố nào ảnh hưởng đến nhu cầu này Liệu giới tính của sinh viên hay ngành học quan trọng hơn? Liệu sinh viên ở các năm học khác nhau có nhu cầu khác nhau hay không? Nếu ta cho rằng ngành học là một yếu tố quan trọng ảnh hưởng đến

Trang 13

nhu cầu này (giả sử như là sinh viên ngành toán cần sử dụng máy tính thường xuyên hơn sinh viên ngành ngữ văn), và sinh viên các năm cuối phải sử dụng thường xuyên hơn sinh viên năm thứ nhất thì ta có thể lựa cho hai biến định tính này để phân tầng, thay vì dùng biến giới tính

Bước 2 Xác định tỷ lệ của từng nhóm dân số phụ so với dân số chung Để làm được việc

này, rõ ràng là chúng ta phải có được khung mẫu của dân số tổng thể, và các khung mẫu của các dân số phụ dựa trên các biến danh nghĩa mà chúng ta dùng để phân chia

Bước 3 Ta chọn lựa cách phân tầng theo tỷ lệ hoặc không theo tỷ lệ tùy theo nhu cầu

thông tin nghiên cứu và các rủi ro có thể xảy ra

Bước 4 Thiết lập các khung mẫu của các dân số phụ Mỗi khung mẫu (phụ) thể hiện một

tầng (nhóm dân số phụ)

Bước 5 Trộn các phần tử trong khung mẫu Để bảo đảm tốt hơn tính chất ngẫu nhiên,

không thiên lệch khi chọn mẫu, ta nên trộn ngẫu nhiên các phần tử (cá thể, đơn vị nghiên cứu) trong từng khung mẫu của từng tầng

Bước 6 Rút mẫu cho các tầng bằng cách rút mẫu ngẫu nhiên hoặc hệ thống

Hình 6.4 Minh họa về cách rút mẫu từ dân số đối với chọn mẫu phân tầng

Ví dụ 6.7 Minh họa chọn mẫu phân tầng để có mẫu nghiên cứu về nhu cầu sử dụng máy

tính xách tay của sinh viên

Bước 1 Chọn biến ngành để phân tầng Dân số sinh viên sẽ được chia làm nhiều dân số phụ khác nhau theo ngành học

Bước 2 Xác định tỷ lệ sinh viên từng ngành học so với tổng số sinh viên Ta quyết định

áp dụng chọn mẫu theo tỷ lệ để bảo đảm cấu trúc mẫu phản ảnh đúng như cấu trúc của dân số mục tiêu

Bước 3 Thiết lập các khung mẫu cho sinh viên của từng ngành học khác nhau Trên thực

tế, khung mẫu này chính là danh sách sinh viên của từng ngành học Ta có thể nhập dữ liệu cơ bản của danh sách này vào một file Excel để làm cơ sở rút mẫu

Bước 4 Ta trộn danh sách khung mẫu nhiều lần để bảo đảm phá vỡ mọi quy tắc sắp xếp

đã có của danh sách này

Ngày đăng: 28/08/2016, 19:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w