1.4.1 Phương pháp và tiêu chuẩn lựa chọn
1.4.1.1 Sơ lược về phương pháp mẫu
Mẫu là đối tượng nhận tin, trong nghiên cứu thống kê đã từng tồn tại nhiều phương pháp khác nhau, với những tổng thể nhỏ và tĩnh người ta có thể nghiên cứu toàn bộ. Trong trường hợp chỉ nghiên cứu một tiêu thức mà tính ngẫu nhiên thấp thì người ta có thể sử dụng phương pháp nghiên cứu điển hình. Nhưng hạn chế của phương pháp nói trê bộc lộ rất rõ khi nghiên cứu những tổng thể lớn, động và ngẫu nhiên thì phương pháp mẫu ngẫu nhiên sẽ khắc phục được những hạn chế vốn có của những phương pháp nói trên. Một số nguyên nhân dẫn đến việc sử dụng phương pháp mẫu phổ biến như ngày nay.
Thứ nhất, các vấn đề cần nghiên cứu trong các lĩnh vực kinh tế - xã hội thường tồn tại ở các tổng thể lớn và biến động nên khả năng để nghiên cứu tổng thể là khó khả thi do thời gian và kinh phí không cho phép. Trong rất nhiều trường hợp người ta không thể biết chính xác kích thước của tổng thể.
Thứ hai, thông tin dựa trên các biểu hiện hay sự hiểu biết của con người về một vấn đề tại một thời điểm trong một thời gian là hữu hạn. Lượng tin thực tế không tuyến tính với số lượng đối tượng cấp tin, có thể nói rằng khi số lượng quan sát đã đủ lớn thì lượng tin tăng thêm khi tăng số lượng quan sát sẽ không đáng kể. Nên không nhất thiết phải khảo sát toàn bộ tổng thể.
Thứ ba, với những thành tựu của lý thuyết xác suất và thống kê toán thì người ta có đủ các công cụ, mô hình mà nhờ đó những thông tin từ mẫu có thể suy diễn cho tổng thể với độ chính xác ước lượng được. Với độ chính xác trong các ước lượng làm căn cứ cho việc xác định kích thước mẫu.
Nội dung cơ bản của phương pháp mẫu như sau: Giả sử cần nghiên cứu sự vận động của một hiện tượng, người ta có thể mô hình hóa hiện tượng này bằng một biến ngẫu nhiên X (một chiều hoặc nhiều chiều). Với một mẫu ngẫu nhiên W(X) lập từ biến ngẫu nhiên gốc X, thiết lập các mô hình nhờ các thống kê – các hàm của thành phần mẫu thích hợp. Với các thống kê này có thể tiến hành các ước lượng, kiểm định, dự báo và các phân tích khác đối với X theo các yêu cầu cho trước.
Ví dụ, khi nghiên cứu lượng xe vào thành phố (X) qua một cửa ngõ A – nếu quan sát toàn bộ các xe vào thành phố qua cửa A này thì không khả dĩ và cũng không cần thiết. Bằng cách thiết lập một mẫu ngẫu nhiên kích thước n, lập các thống kê thích hợp, với các thống kê này người ta dự báo, kiểm tra giả định về dạng phân phối theo thời gian của X, ước lượng các đặc trưng chủ yếu như trung bình số xe qua cửa A vào thành phố trong một đơn vị thời gian, độ phân tán hay trung vị của số xe vào thành phố qua cửa A. Phương pháp mẫu nghiên cứu cách thức khai thác thông tin từ một mẫu ngẫu nhiên để kết luận cho tổng thể. Trong các chương trình cơ sở của thống kê toán học những nội dung cơ bản như: ước lượng tham số, kiểm định giả thiết, quan hệ của các biến... đã được đề cập ở mức đơn giản nhất. Mặc dù chỉ với những công cụ đơn giản, thống kê toán cơ sở với những phương pháp mẫu ngẫu nhiên đã đặt nền tảng cho một phương pháp nghiên cứu thống kê hiện đại. Cơ sở của thống kê toán trở thành công cụ cho lý thuyết điều tra chọn mẫu.
1.4.1.2 Tiêu chuẩn chọn mẫu
Các phương pháp chọn mẫu ngày càng phong phú, tuy nhiên các phương pháp này thường dựa trên các tiêu chuẩn chủ yếu được nhiều người sử dụng và đôi khi được coi như là mặc nhiên:
Tính ngẫu nhiên: Tính ngẫu nhiên được coi như là tiêu chuẩn quan trọng nhất, đảm bảo tính chất không chệch của các suy diễn thống kê, cũng như các mô tả thống kê. Một cách đơn giản tính chất này đỏi hỏi khả năng mỗi cá thể trong tổng thể hay trong một bộ phận của tổng thể có thể được chọn như nhau. Trong một số phương pháp chọn mẫu cụ thể có thể được chọn như nhau. Trong một số phương pháp chọn mẫu cụ thể tính chất này có thể phụ thuộc rất nhiều vào mục đích, phạm vi sử dụng số liệu mẫu cho phân tích và dự báo thống kê.
Tính đại diện: Tính đại diện thường được xác định trên cơ sở yêu cầu về mức tin cậy của các phân tích thống kê như ước lượng, kiểm định... Với những tổng thể lớn có phân thành những bộ phận khác nhau và phân tích thống kê ở nhiều cấp thì tính đại diện cần được lưu ý từ cấp thấp nhất.
Tính đồng nhất: Vì mỗi đối tượng cung cấp tin là một tác nhân kinh tế xã hội nên ngoài những gì làm cho các đối tượng này trở thành cá thể thống kê như đã nói ở chương trước, còn khá nhiều thuộc tính riêng. Các thuộc tính riêng nói chung có ảnh hưởng đến đối tượng với tư cách là cá thể thống kê. Đặc điểm này đòi hỏi khi chọn mẫu phải chú ý đến tính đồng nhất về môi trường kinh tế - xã hội của các cá thể.
Tính phổ biến: Trong nhiều trường hợp người điều tra có cảm giác rằng một số cá thể thống kê có những tính chất ngoại lệ so với phần đôn các cá thể khác. Trong trường hợp này, cũng như đòi hỏi của tính đồng nhất, các cá thể này có thể thuộc đối tượng chọn mẫu hoặc loại khỏi đối tượng chọn mẫu tùy thuộc tính đồng nhất của chúng với tổng thể. Tùy nhiên, hầu hết các trường hợp cần có những xử lý riêng biệt cho chúng. Đảm bảo tính phổ biến, nhằm làm cho phân tích thống kê nhận biết dễ dàng hơn bản chất của tổng thể về một mặt hay một phương diện đang nghiên cứu.
1.4.2 Xác định cỡ (kích thước) mẫu
Xác định kích thước mẫu là một trong các nội dung quan trọng của mỗi cuộc điều tra thống kê. Căn cứ vào độ chính xác cần thiết của các ước lượng và căn cứ vào mức độ sai lầm có thể chấp nhận được trong các kiểm định giả thuyết đối với các tham số. Thông thường có 2 cách tiếp cận xác định kích thước mẫu.
Trên cơ sở kích thước mẫu (n), người ta sẽ xác định các cá thể mẫu tùy theo điều kiện cụ thể của mỗi cuộc điều tra. Xác định kích thước mẫu trên cơ sở chọn mẫu ngẫu nhiên đơn giản. Căn cứ để lựa chọn kích thước mẫu dựa vào độ chính xác của các ước
lượng tham số, hệ số tương quan và căn cứ vào các sai lầm chấp nhận được khi tiến hành các kiểm định. Bài giảng đưa ra một số phương pháp xác định kích thước mẫu như sau:
a) Xác định kích thước mẫu từ các ước lượng khoảng tin cậy cho các tham số gồm: sử dụng độ dài khoảng tin cậy khi ước lượng trung bình, sử dụng tỷ lệ phương sai
1. Sử dụng độ dài khoảng tin cậy khi ước lượng trung bình
Xuất phát từ việc ước lượng trung bình của biến ngẫu nhiên X phân phối chuẩn ta có:
X − U σ < E(X) < X + U σ Độ dài khoảng tin cậy theo ước lượng này được xác định:
I = 2U σ = 2U σ √n
Nếu chọn trước mức tin cậy có thể xác định kích thước mẫu khi biết I n ≥ 4 U αI
Trên thực tế với tổng thể hữu hạn và thông tin mẫu người ta có thể thay phương sai bằng phương sai mẫu của số liệu điều tra với S là độ lệch chuẩn của mẫu điều tra. Tức là:
n ≥ N
1 + N ∗ /
2. Sử dụng tỷ lệ phương sai
Phương sai tổng thể là chưa biết trong trường hợp này chúng ta có thể ước lượng giá trị cỡ mẫu qua phương sai mẫu theo công thức sau:
n = 1 + t(N − 1)N
trong đó: = là tỷ lệ phương sai trung bình mẫu với phương sai tổng thể và tỷ lệ t do người nghiên cứu tự chọn. Công thức này thích hợp khi chúng ta quan tâm đến các ước lượng điểm, đặc biệt là ước lượng điểm của trung bình tổng thể.
Ví dụ: Một khu vực dân cư có 2.500 hộ, cần quan sát tối đa bao nhiêu hộ để độ sai lệch của thu nhập trung bình khẩu nhận được không lớn hơn 1% độ sai lệch của thu nhập trung bình khẩu chung?
Ví dụ: Để ước lượng tỷ lệ thanh niên trong số 10.000 thanh niên ở độ tuổi từ 18 đến 25 có hút thuốc lá hay không tại một khu dân cư. Có thể chọn mẫu kích thước bao nhiêu để sai số khi ước lượng không lớn hơn 2%?
b) Xác định kích thước mẫu từ kiểm định giả thuyết đối với hệ số tương quan tuyến tính của hai biến X và Y
Gọi R là hệ số tương quan tuyến tính mẫu của hai biến X và Y người ta chứng minh được biến = √ − 3 với n đủ lớn là biến ngẫu nhiên phân phối chuẩn N(0,1). Do mục tiêu của ước lượng hệ số tương quan bao gồm cả việc khẳng định chiều biến thiên của X và Y (thuận hay nghịch) nên việc tính toán kích thước mẫu thường được dựa trên cơ sở các sai lầm khi kiểm định giả thuyết “Có tương quan tuyến tính dương (hoặc âm)”.
c) Xác định kích thước mẫu trên cơ sở so sánh trung bình
Việc so sánh hai trung bình có thể xảy ra trên hai mẫu hay hai bộ phận của 1 mẫu. Giả sử có hai biến ngẫu nhiên X1, X2 độc lập cùng phân phối chuẩn với phương sai bằng nhau (ϭ2).
Thủ tục so sánh hai trung bình µ1, µ2 có thể thông qua kiểm định giả thuyết H0: µ1 = µ2 với giả thuyết đối H1: µ1 = µ2 + ε (với ε > 0).
Gọi n1, n2 là các kích thước mẫu tương ứng và đặt n = n1 + n2; r = n1/n2. Xét trường hợp hai phương sai bằng nhau, với mức sai lầm loại 1, α cho trước, để kết luận H1 đúng với sai lầm loại 2 không lớn hơn β người ta cần xác định n sao cho:
< − − =
Tức là
− −
+ < Sau khi biến đổi biểu thức này ta nhận được:
= + ≥ (1 + ) +
Có thể thấy rằng công thwucs này áp dụng được cho trường hợp ε < 0
Nếu chọn tỷ lệ so sánh theo số lần độ lệch chuẩn ta đặt = thì công thức trên có thể viết thành:
≥ (1 + ) +
1.5 SƠ LƯỢC VỀ LÝ THUYẾT BẢNG HỎI 1.5.1 Cơ sở thiết lập bảng hỏi 1.5.1 Cơ sở thiết lập bảng hỏi
a. Mục đích khảo sát và nghiên cứu
Cơ sở quan trọng nhất để thiết lập bảng hỏi là mục đích khảo sát và cụ thể là các yêu cầu đầu ra của các phân tích thống kê. Mỗi mục đích nghiên cứu đòi hỏi không chỉ sự phù hợp về nội dung bảng hỏi mà còn về hình thức và cấu trúc của bảng hỏi. Có rất nhiều cuộc khảo sát về mặt hình thức trên từng câu hỏi hay nhóm câu hỏi người ta có cảm giác thông tin thu thập như nhau nhưng khi xem xét tổng thể thì cách thức thu thập, thiết lập thang đo của các thông tin đã khác nhau. Mọi sự khác biệt đều xuất phát từ mục đích nghiên cứu.
Ví dụ: Thu thập thông tin về học vấn của cư dân với 2 mục đích khác nhau người ta đã thiết lập các câu hỏi khác nhau về thông tin này:
1. Với nghiên cứu nguồn lao động có thể chỉ cần thông tin về cấp học cao nhất đã hoàn thành của mỗi cư dân trong tổng thể các câu hỏi về giới, tuổi, khu vực sinh sống...
2. Với nghiên cứu phổ cập giáo dục hay khảo sát cho một qui hoạch giáo dục thông tin về trình độ học vấn có thể cần chi tiết hơn bên cạnh các thông tin về giới tính, tuổi, khu vực hay nguyên nhân bỏ học...
Trong nghiên cứu số 1 – việc qui hoạch đào tạo, sử dụng nguồn nhân lực việc phân lớp không cần thiết nên trong một số trường hợp thông tin chi tiết hơn không đảm bảo chắc chắn tổng hợp được thông tin theo mục đích nghiên cứu.
Một trường hợp khác, do không liên kết chặt chẽ với mục đích nghiên cứu và các khái niệm của nó mà thông tin không dùng được hoặc gây nên sai lệch không chấp nhận được. Ví dụ như: việc ghép câu hỏi của một khảo sát nhỏ vào bảng hỏi của một cuộc khảo sát lớn vì thấy trong bảng hỏi có một số câu hỏi về mặt hình thức là chung nhau. Mục đích việc làm này để tiết kiệm thời gian và chi phí nhưng không lại không đúng đắn về mặt thống kê và đôi khi dẫn tới việc phải thực hiện khảo sát lại.
Tóm lại, xác định mục đích nghiên cứu là cơ sở cũng như yêu cầu nguyên tắc khi
lập bảng hỏi bởi nó quyết định đến cách thể hiện các câu hổi và cách thức thu thập thông tin của từng câu hỏi cũng như toàn bộ nguồn thông tin cần thiết.
b. Môi trường kinh tế xã hội của đối tượng nghiên cứu
Yêu cầu thông tin của người nghiên cứu luôn đối diện với khả năng cung cấp tin của đối tượng nghiên cứu. Khác với khảo sát kĩ thuật thuần túy, các khảo sát kinh tế xã hội luôn vấp phải những cản trở chủ quan từ phía người nghiên cứu và đối tượng được nghiên cứu (người cung cấp thông tin). Chính vì vậy, một bảng hỏi hoàn chỉnh phải đảm bảo được tính phù hợp nhiều mặt đối với phương thức và đối tượng khảo sát. Người lập bảng hỏi phải xác định được mục tiêu thu được từ bảng hỏi là gì? Và đối tượng khảo sát có thể cung cấp được gì? Trong nhiều trường hợp việc xác định đối tượng khảo sát trước chính là định cách thiết lập và nội dung của các câu hỏi trong một bảng hỏi.
Các lưu ý cần tránh khi xây dựng bảng hỏi để lượng thông tin thu được sau điều tra thực sự có ích với người nghiên cứu:
Chương 1. Tránh những câu hỏi không phù hợp với điều kiện kinh tế xã hội, trình độ dân trí và trình độ cán bộ điều tra.
Chương 2. Người phân tích không xác định được một cách đúng đắn những thông tin cần thiết, không phân biệt đối tượng thống kê và thực thể vật chất mang tin. Điều này dẫn tới việc tạo ra những câu hỏi bị trùng lặp và quá nhiều câu hỏi trong một bảng hỏi.
Cũng giống như toàn bộ quá trình nghiên cứu thống kê, mỗi nghiên cứu phụ thuộc rất nhiều vào vốn hiểu biết về vấn đề nghiên cứu của người thực hiện nghiên cứu. Việc lập bảng hỏi thể hiện rất rõ những gì người nghiên cứu đã biết hay dự liệu. Vì vậy, tính chủ quan trong thiết lập điều tra bảng hỏi vừa có tác dụng tập trung thông tin, phân loại thông tin và có thể gây nên những sai lệch trong điều tra. Đặc điểm này đòi hỏi người lập bảng hỏi phải đặt vì trí của mình vào người trả lời bảng hỏi để có được bảng hỏi hiệu quả nhất.
1.5.2 Phân loại bảng hỏi
Thông thường căn cứ vào cách thức khảo sát người ta chia bảng hỏi thành 4 loại cơ bản sau:
a. Bảng hỏi dạng tờ rơi
Đặc điểm của bảng hỏi là thông tin thu thập gọn, ít và rất phổ thông. Nó thường được sử dụng trong các cuộc khảo sát nhanh về những vấn đề hết sức phổ thông hoặc là những vấn đề thời sự nóng bỏng. Tỷ lệ thu tin từ tờ rơi rất thấp nhưng có nhiều mục đích khác nhau khi sử dụng loại bảng hỏi này và vì vậy người ta thường chú ý đến tính khách
quan gần như tuyệt đối trong cách dùng tờ rơi. Một cuộc tham dò đôi khi sẽ trở nên rất hiệu quả khi dùng bảng hỏi tờ rơi.
b. Bảng hỏi dạng thư tín
Đây được coi là là bảng hỏi phỏng vấn gián tiếp. Bảng hỏi loại thư tín thường là những bảng hỏi được sử dụng trong các cuộc điều tra chuyên đề, điều tra thường xuyên. Các thông tin cần thu thập qua dạng bảng hỏi này thường phải được mô tả rất rõ ràng nhờ các câu hỏi đơn nghĩa. Loại bảng hỏi này đòi hỏi các đối tượng khảo sát hay cấp tin