Ứng dụng phương pháp chon mẫu trong điều tra chăn nuôi
Trang 1MỞ ĐẦU
1 Lý do chọn đề tài
Nhu cầu nắm bắt thông tin trong nền kinh tế thị trường định hướng Xã Hội Chủ Nghĩa là rất lớn Nếu như trước đây trong nền kinh tế bao cấp, với thành phần kinh tế Quốc Doanh chiếm đa số, việc thu thập thông tin chủ yếu bằng hình thức báo cáo thống kê định kỳ, thì nay với nền kinh tế nhiều thành phần đòi hỏi phải cải tiến phương pháp thu thập số liệu sao cho vừa đảm bảo tính chính xác, kịp thời và đầy đủ vừa phải tính đến hiệu quả của chi phí thu thập và xử lý
số liệu
Nền kinh tế nước ta, trước mắt nông nghiệp vẫn được xem là quan trọng, tạo tiền đề cho công nghiệp hóa, hiện đại hóa đất nước Trong cơ cấu tổng thu của ngành nông nghiệp: Thu từ trồng trọt chiếm 68,53%, thu từ chăn nuôi chiếm 29,75% (theo số liệu tổng điều tra nông thôn, nông nghiệp và thủy sản năm 2001) Mặc dù chiếm tỷ trọng không lớn trong nông nghiệp nhưng sản phẩm chăn nuôi đóng vai trò quan trọng trong đời sống của nhân dân Do đó việc thu thập thông tin về chăn nuôi là rất cần thiết để có các chính sách khuyến khích, đầu tư và phát triển chăn nuôi một cách hợp lý Trong chăn nuôi tỷ lệ hộ chăn nuôi cá thể chiếm 80%, do vậy để thu thập số liệu về tình hình chăn nuôi trong điều kiện nguồn kinh phí hạn hẹp, thì việc tiến hành điều tra toàn bộ để nắm thông tin là một việc làm hết sức khó khăn Hơn nữa nước ta chuyển từ nền kinh tế kế hoạch sang kinh tế thị trường, lượng thông tin ngày càng nhiều, nhu cầu sử dụng thông tin lại càng cao thì việc điều tra để nắm thông tin đã trở thành nhu cầu bức thiết đối với tất cả các ngành, các cấp Trong điều kiện như vậy phương pháp điều tra chọn mẫu lại tỏ ra có nhiều ưu thế, nó phù hợp với xu thế
Trang 2của thống kê hiện đại
Nếu so với nhiều nước trên thế giới thì việc ứng dụng phương pháp chọn mẫu ở Việt Nam có chậm hơn Ở các nước phát triển và đang phát triển theo nền kinh tế thị trường, với thành phần kinh tế tư nhân chiếm vị trí chủ yếu, thì hầu như tất cả các cuộc điều tra trên mọi lĩnh vực như: công nghiệp, nông nghiệp, thương nghiệp, dịch vụ, đều tiến hành theo phương pháp điều tra chọn mẫu Điều này nói lên tính hiệu quả và tầm quan trọng của điều tra chọn mẫu
Ở nước ta phương pháp điều tra chọn mẫu ngày càng được ứng dụng rộng rãi trong một số cuộc điều tra thực tế, trong đó có cả điều tra ngành chăn nuôi Tuy nhiên có thể nói cho đến nay, nhìn chung các phương pháp chọn mẫu áp dụng trong điều tra chăn nuôi là những phương pháp chọn mẫu không ngẫu nhiên, do đó kết quả điều tra không đánh giá được độ chính xác, độ tin cậy Việc chọn mẫu còn mang tính chủ quan, do đó kết quả điều tra nhiều khi không phản ánh đúng tình hình thực tế
Chính vì những lý do trên, bản thân tác giả quyết định chọn đề tài: “ Ứng dụng phương pháp chọn mẫu trong điều tra chăn nuôi “ làm vấn đề nghiên
cứu, và mong muốn bằng những kiến thức tích lũy được của mình sẽ trình bày những vấn đề lý luận về phương pháp chọn mẫu một cách rõ ràng, dễ hiểu, và việc ứng dụng phương pháp chọn mẫu vào trong điều tra chăn nuôi, nhằm góp phần nhỏ trong việc cải tiến các phương pháp điều tra chăn nuôi của ngành Thống Kê tiến hành hàng năm
2 Những công trình nghiên cứu đã có của các tác giả có liên quan đến đề tài nghiên cứu
Nhìn chung, trong phạm vi tài liệu mà tác giả tiếp cận được cho đến nay thì vấn đề ứng dụng phương pháp chọn mẫu trong điều tra chăn nuôi không có nhiều tác
Trang 3giả nghiên cứu Một số bài báo trong các tạp chí chuyên ngành có đề cập đến điều tra chăn nuôi như: “ Một số ý kiến về nghiên cứu cải tiến hệ thống chỉ tiêu thống kê và phương án điều tra chăn nuôi ” của tác giả Nguyễn Hòa Bình trong Thông tin Khoa Học Thống Kê số 6/2004, hay: “ Một số ý kiến về hệ thống chỉ tiêu thống kê chăn nuôi và phương pháp thu thập số liệu chăn nuôi ở nước ta “ của tác giả Tiến Sĩ Phùng Chí Hiền trong Thông tin Khoa Học Thống Kê số 3/2004 Các công trình có liên quan đến ứng dụng phương pháp chọn mẫu trong nghiên cứu kinh tế, theo danh sách lưu trữ của thư viện Quốc Gia Thành Phố Hồ Chí Minh, có 2 công trình:
- Luận án phó tiến sĩ khoa học với đề tài: “ Điều tra chọn mẫu và sự vận dụng trong thống kê Việt Nam “ (1983) của tác giả Tô Phi Phượng đã trình bày khá đầy đủ về lịch sử phát triển của phương pháp điều tra chọn mẫu Ngoài ra tác giả cũng đã tóm lược quá trình vận dụng điều tra chọn mẫu trong thống kê Việt Nam, nêu lên phương hướng hoàn thiện về điều tra chọn mẫu
- Luận án phó tiến sĩ khoa học kinh tế với đề tài: “ Ứng dụng phương pháp điều tra chọn mẫu trong nghiên cứu kinh tế “ (1992) của tác giả Lê Thị Thanh Loan đã trình bày cơ sở khoa học của phương pháp chọn mẫu, đặc biệt là cơ sở toán học Ngoài ra tác giả còn phân loại được các cuộc điều tra chọn mẫu và cách thực hiện một cuộc điều tra mẫu trong kinh tế
Riêng về bản thân, ngoài những bài báo bàn luận về phương pháp chọn mẫu trong điều tra chăn nuôi được đăng trên tạp chí chuyên ngành thì tác giả có tham gia viết chương điều tra chọn mẫu trong Giáo trình Lý Thuyết Thống Kê
Nhìn chung, những vấn đề lý luận về điều tra chọn mẫu đã có các tác giả nghiên cứu nghiêm túc được thể hiện trong các công trình nghiên cứu khoa học Tuy nhiên việc hoàn thiện lý luận về các phương pháp chọn mẫu, sao cho dễ hiểu, dễ làm, và phải có những ứng dụng “mẫu” trong thực tế để cho các đơn vị thực
Trang 4tế tham khảo là hướng nghiên cứu của tác giả Với đề tài này, tác giả đã tập trung nghiên cứu giải quyết những vấn đề mà các tác giả trước đây chưa đề cập hoặc chưa giải quyết một cách thỏa đáng nhằm bổ sung đầy đủ hơn cả về lý luận cũng như ứng dụng thực tiễn
3 Mục đích nghiên cứu
Việc nghiên cứu các vấn đề lý luận trong lý thuyết điều tra chọn mẫu là một vấn đề khó, việc vận dụng nó vào thực tế để nghiên cứu các hiện tượng kinh tế xã hội phức tạp trên một phạm vi rộng với các điều kiện đáp ứng chưa thỏa đáng thì lại càng khó hơn Luận án trình bày các vấn đề lý luận về điều tra chọn mẫu một cách có hệ thống, những ưu nhược điểm của điều tra chăn nuôi hiện nay và để tìm hiểu những khó khăn, lý do vì sao các phương pháp chọn mẫu ngẫu nhiên ít được áp dụng trong chăn nuôi, được sự giúp đỡ của Cục Thống Kê Thành Phố Hồ Chí Minh, Cục Thống Kê tỉnh Tây Ninh tác giả thực hiện cuộc điều tra chọn mẫu về chăn nuôi heo, từ khâu lập phương án điều tra, thiết kế mẫu, triển khai thu thập số liệu, tổng hợp và suy rộng số liệu để từ đó có những nhận định, đánh giá và đề ra những biện pháp thích hợp
4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án là việc ứng dụng các phương pháp chọn mẫu trong điều tra chăn nuôi Phạm vi nghiên cứu luận án giới hạn trong việc ứng dụng phương pháp chọn mẫu trong điều tra đàn gia súc ở phạm vi hộ gia đình, cụ thể là điều tra số lượng heo chăn nuôi ở các hộ gia đình của Thành Phố Hồ Chí Minh và tỉnh Tây Ninh Ta biết trong cơ cấu tổng thu của ngành chăn nuôi, thu về chăn nuôi gia súc (trâu, bò, heo) chiếm tỷ lệ lớn nhất 67,87% Trong cơ cấu tổng thu chăn nuôi gia súc, thu chăn nuôi heo chiếm tỷ trọng lớn nhất 76,82%, sau đó đến thu chăn nuôi bò 9,49%, thu chăn nuôi trâu 4,4% (theo số
Trang 5liệu tổng điều tra nông thôn, nông nghiệp và thủy sản năm 2001) Luận án tập trung nghiên cứu cách thu thập số liệu mẫu của một gia súc chủ yếu là heo, các gia súc còn lại cũng thực hiện tương tự như vậy
5 Nguồn tài liệu
Nguồn số liệu trình bày minh họa trong luận án lấy từ cuộc điều tra mẫu và kết hợp với số liệu của hai phòng nông nghiệp Cục Thống Kê Thành Phố Hồ Chí Minh và Cục Thống Kê tỉnh Tây Ninh Ngoài ra luận án cũng sử dụng số liệu từ các niên giám Thống Kê, các tạp chí chuyên ngành Thống Kê như: Con Số và Sự Kiện, Thông Tin Khoa Học Thống Kê, các tài liệu trên mạng Internet Tất cả những tài liệu này nhằm dẫn chứng cho đề tài thêm phong phú và có tính thuyết phục
6 Phương pháp luận nghiên cứu
Phương pháp nghiên cứu nhất quán toàn bộ đề tài dựa trên cơ sở chủ nghĩa duy vật biện chứng, các phương pháp toán học, đặc biệt là lý thuyết xác suất và thống kê toán, và các phương pháp phân tích thống kê Ngoài ra đề tài cũng sử dụng các phần mềm tin học như Excel, Spss để xử lý số liệu
Một số ký hiệu thống kê cập nhật theo giáo trình thống kê các nước và các giáo trình xác suất - thống kê toán Ví dụ: Sai số trung bình chọn mẫu (còn gọi là sai số chọn mẫu) ký hiệu: μ, sẽ được ký hiệu là σy (hoặc sy) Trung bình của tổng thể ký hiệu Y, sẽ được ký hiệu là μ Trung bình mẫu ký hiệu y~, sẽ được ký hiệu là y Hệ số tin cậy t theo phân phối chuẩn sẽ được ký hiệu là z
7 Những đóng góp chính của luận án thể hiện trên các mặt:
- Triển khai hoàn chỉnh một cuộc điều tra chọn mẫu ngẫu nhiên vào điều tra chăn nuôi, từ khâu lập phương án điều tra đến khâu cuối cùng là tính toán suy
Trang 6rộng số liệu với độ tin cậy cho trước Qua đó cho thấy tính khả thi của việc ứng dụng các phương pháp chọn mẫu ngẫu nhiên vào điều tra chăn nuôi
- Thực hiện kiểm định χ2 để kiểm định tính chuẩn của mẫu Đây là phương pháp tính toán phức tạp nhưng cho kết quả chính xác Trong thực tế khi áp dụng phương pháp chọn mẫu, người ta thường bỏ qua công đoạn này Nghĩa là sau khi tính toán, số liệu của mẫu sẽ được suy rộng cho tổng thể mà không cần biết qui luật phân phối của mẫu có phù hợp với qui luật phân phối của tổng thể hay không Chính vì vậy mà số liệu suy rộng nhiều khi kém chính xác
- Về phần lý luận, bản luận án đã sắp xếp, trình bày các vấn đề lý luận của điều tra chọn mẫu một cách có hệ thống, rõ ràng, dễ hiểu Về các phương pháp chọn mẫu, luận án đã trình bày được những ưu nhược điểm của từng phương pháp khá cặn kẽ làm cơ sở cho việc lựa chọn các phương pháp chọn mẫu ứng dụng vào thực tế điều tra chăn nuôi Ngoài ra luận án cũng chỉ ra được trong vô số các công thức trong điều tra chọn mẫu, thì việc xác định sai số chọn mẫu của từng phương pháp là trọng tâm trong việc tính toán và phân tích các chỉ tiêu khác Luận án cũng đã tính toán cụ thể sai số chọn mẫu theo các phương pháp chọn mẫu khác nhau
- Luận án cũng nêu lên một số kiến nghị, giải pháp góp phần cải tiến phương pháp điều tra trong chăn nuôi
- Thông qua nội dung của bản luận án sẽ giúp cho lãnh đạo các cấp cả về mặt nhận thức khoa học cũng như thấy được hiệu quả và tính khả thi của việc ứng dụng các phương pháp chọn mẫu trong điều tra chăn nuôi
Trang 7CHƯƠNG I
MỘT SỐ VẤN ĐỀ LÝ LUẬN VỀ ĐIỀU TRA CHỌN MẪU 1.1 MỘT SỐ KHÁI NIỆM VÀ ĐỊNH NGHĨA DÙNG TRONG ĐIỀU TRA CHỌN MẪU
Để thu thập tài liệu ban đầu, hiện nay ngành thống kê thực hiện hai hình thức: Báo cáo thống kê định kỳ và điều tra chuyên môn Chế độ báo cáo thống kê định kỳ áp dụng chủ yếu đối với các đơn vị kinh tế nhà nước, các cơ quan nhà nước Điều tra chuyên môn được áp dụng để thu thập thông tin đối với những trường hợp không thể hoặc không nhất thiết phải thực hiện chế độ báo cáo thống kê định kỳ Điều tra chuyên môn có thể tiến hành trên tất cả các đơn
vị của tổng thể nghiên cứu, gọi là điều tra toàn bộ hoặc chỉ tiến hành trên một số đơn vị thuộc tổng thể nghiên cứu gọi là điều tra không toàn bộ Điều tra không toàn bộ bao gồm các loại: điều tra chọn mẫu, điều tra trọng điểm, điều tra chuyên đề
1.1.1 Khái niệm điều tra chọn mẫu
Điều tra chọn mẫu là một loại điều tra không toàn bộ, trong đó người ta chỉ
chọn ra một số đơn vị từ tổng thể để điều tra thực tế, rồi sau đó bằng các phương pháp khoa học, tính toán và suy rộng kết quả cho toàn bộ tổng thể
Như vậy trong điều tra chọn mẫu người ta đặc biệt lưu ý tới hai vấn đề cơ bản:
- Quy tắc lựa chọn các đơn vị sao cho có thể đại diện cho toàn bộ tổng thể
Trang 8- Dùng công thức suy rộng thành các đặc điểm của tổng thể
Cơ sở khoa học của phương pháp chọn mẫu là lý thuyết xác suất và thống kê
toán Lý thuyết xác suất và thống kê toán đã chứng minh là bằng phương pháp
điều tra chọn mẫu ta có thể biết được các tham số của tổng thể theo một đặc
trưng nào đó với một mức độ chính xác, mức độ tin cậy tính toán được Như vậy dựa trên cơ sở khoa học này ta thấy phương pháp điều tra chọn mẫu
hoàn toàn có thể thay thế được điều tra toàn bộ trong một số trường hợp
1.1.2 Ưu điểm và nhược điểm của điều tra chọn mẫu so với điều tra toàn bộ
Trong điều tra chọn mẫu, người ta chỉ thực hiện điều tra trên một bộ phận
của tổng thể Do đó so với điều tra toàn bộ, điều tra chọn mẫu có các ưu điểm
chủ yếu sau:
- Chi phí điều tra giảm Do số đơn vị phải điều tra ít, điều tra chọn mẫu tiết kiệm
được khá nhiều sức người, vật tư và tiền của
- Đảm bảo được tính đầy đủ và chính xác hơn của tài liệu thu thập Tài liệu thu
thập bằng điều tra chọn mẫu có tính đầy đủ và chính xác cao bởi vì số nhân viên
điều tra ít, có thể lựa chọn những người có trách nhiệm, có kinh nghiệm điều tra
và huấn luyện nghiệp vụ kỹ lưỡng cho họ Đồng thời việc giám sát điều tra,
kiểm tra số liệu vừa thu thập được có thể thực hiện tỷ mỷ và tập trung, khiến
cho nguồn sai số do đăng ký, ghi chép giảm nhiều, tức là làm giảm sai số phi
chọn mẫu
- Có thể mở rộng nội dung điều tra Do số lượng đơn vị điều tra ít, các nhân viên
điều tra đuợc chọn lựa và huấn luyện nghiệp vụ kỹ lưỡng nên có thể thu thập
được nhiều thông tin chi tiết hơn so với điều tra toàn bộ
- Tiến độ công việc nhanh hơn Chính vì chỉ điều tra trên quy mô nhỏ nên trong
điều tra chọn mẫu, số liệu có thể thu thập và tổng hợp nhanh hơn so với điều tra
Trang 9toàn bộ Đây cũng là một ưu điểm quan trọng cùa điều tra chọn mẫu, đáp ứng được tính kịp thời của thông tin cần thu thập
Trong một nền kinh tế hoạt động theo cơ chế thị trường thì điều tra chọn mẫu là công cụ cơ bản trong việc thu thập số liệu gốc Tuy nhiên điều tra chọn mẫu không hoàn toàn có thể thay thế được điều tra toàn bộ vì những lý do sau:
- Trong điều tra toàn bộ, người ta thu thập thông tin trên từng đơn vị tổng thể, do đó có thể nghiên cứu tổng thể và các bộ phận của nó theo tất cả các đặc trưng cần nghiên cứu Chính vì vậy đối với những nguồn thông tin thống kê quan trọng người ta vẫn phải tiến hành tổng điều tra
- Do chỉ tiến hành trên một số đơn vị điều tra rồi dùng kết quả để suy rộng cho toàn bộ tổng thể nên kết quả điều tra chọn mẫu bao giờ cũng có sai số đại diện nhất định, còn gọi là sai số chọn mẫu, mà loại sai số này không có trong điều tra toàn bộ
Tuy điều tra chọn mẫu có nhược điểm là các tham số ước lượng cho tổng thể luôn có sai số, nhưng sai số này có thể tính toán được và khống chế với mức độ tin cậy cho phép
Điều tra chọn mẫu thường được dùng trong những trường hợp sau đây:
- Khi nội dung nghiên cứu vừa có thể điều tra chọn mẫu, vừa có thể điều tra toàn bộ thì người ta thường quyết định dùng điều tra chọn mẫu vì những ưu điểm của nó
- Một số trường hợp không thể dùng điều tra toàn bộ mà chỉ có thể áp dụng điều tra chọn mẫu: Khi tổng thể quá lớn hoặc không xác định trước được; khi điều tra làm phá hủy hoặc biến dạng đơn vị được điều tra (Điều tra chất lượng đồ hộp, chất lượng thuốc, chất lượng bóng đèn, phích nước v.v… )
- Trong một số cuộc tổng điều tra (chẳng hạn như tổng điều tra dân số, tổng điều tra nông nghiệp ) người ta kết hợp điều tra chọn mẫu nhằm mục đích: Mở
Trang 10rộng nội dung điều tra; để kiểm tra, đánh giá chất lượng của số liệu điều tra toàn bộ; xử lý nhanh một số số liệu cần thiết
- Khi tổng thể nghiên cứu được điều tra toàn bộ định kỳ, nhưng khoảng cách thời gian giữa hai cuộc điều tra là quá lớn (chẳng hạn 10 năm đối với điều tra dân số, 5 năm đối với điều tra nông thôn, nông nghiệp và thủy sản) thì đan xen với điều tra toàn bộ, người ta thường tiến hành điều tra chọn mẫu để kịp thời nắm bắt sự vận động, biến đổi của tổng thể
Để bảo đảm tiến hành cuộc điều tra chọn mẫu thành công, trước hết phải làm tốt công tác chuẩn bị Yêu cầu của khâu này là phải có những thông tin tiên nghiệm về tổng thể để làm căn cứ xây dựng lược đồ chọn mẫu như xác định cỡ mẫu, lựa chọn phương pháp tổ chức chọn mẫu, lập dàn chọn mẫu… Do vậy điều tra chọn mẫu phải được kết hợp với điều tra toàn bộ Trong thực tế nguồn số liệu do các cuộc tổng điều tra (điều tra toàn bộ) mang lại là hết sức quí, ví dụ trong chăn nuôi có các số liệu về số hộ chăn nuôi từng loại gia súc, gia cầm
Phương pháp chọn mẫu có thể ứng dụng rộng rãi trong các lĩnh vực nghiên cứu kinh tế xã hội Trên giác độ quản lý kinh tế vĩ mô, phương pháp chọn mẫu được áp dụng cho việc thu thập thông tin trên các lĩnh vực sau:
- Tình hình thu nhập và chi tiêu của các hộ gia đình, mức sống của các tầng lớp dân cư
- Nhu cầu tiêu dùng các loại hàng hóa
- Giá cả thị trường
- Tình hình biến động tự nhiên và cơ học của dân số
- Điều tra dư luận xã hội
- …
Đối với quản lý cấp vi mô, phương pháp chọn mẫu có thể được ứng dụng cụ thể trong từng ngành như:
Trang 11- Công nghiệp: Kiểm tra chất lượng sản phẩm, năng suất lao động
- Xây dụng cơ bản: Kiểm tra tiến độ xây dựng công trình, kiểm tra chất lượng xây dựng
- Nông nghiệp: Xác định năng suất sản lượng cây trồng, tình hình thâm canh, xác định năng suất sản lượng chăn nuôi
- Thương nghiệp: Kiểm tra chất lượng hàng hóa ở các kho hàng, cửa hàng
Nhìn chung, phương pháp chọn mẫu có thể ứng dụng trên phạm vi rộng và đảm bảo cung cấp được những thông tin chính xác, đầy đủ, kịp thời với chi phí thấp theo đúng như yêu cầu đặt ra
1.1.3 Các tham số của tổng thể và mẫu, mối liên hệ giữa tổng thể và mẫu
1.1.3.1 Các tham số của tổng thể
Để có kết luận thống kê về tổng thể, ta không trực tiếp nghiên cứu tổng thể mà nghiên cứu mẫu, bao gồm những đơn vị tổng thể được chọn ra từ tổng thể theo nguyên tắc chọn ngẫu nhiên Như vậy phải căn cứ vào các tham số tính được từ số liệu điều tra mẫu để suy ra các tham số của tổng thể với sai số và độ tin cậy nhất định
Tổng thể bao gồm N đơn vị, được tập hợp lại theo một tiêu thức Y nào đó, đứng trên giác độ tiêu thức Y mà xét, các đơn vị của tổng thể là đồng chất, nhưng về mặt lượng thì mỗi đơn vị tổng thể có những giá trị khác nhau
Nếu gọi yi(i=1,N) là trị số cụ thể của đơn vị tổng thể và giả định rằng nếu điều tra toàn bộ N đơn vị của tổng thể thì cuối cùng sẽ biết được tất cả các trị số cụ thể đó, và từ đó tính ra được các tham số mô tả tổng thể Trong số các tham số đó, ở đây chỉ chú ý tới một số tham số chủ yếu sau:
- Số trung bình tổng thể (The population mean), ký hiệu μ, biểu hiện mức độ điển hình theo tiêu thức Y của tổng thể, được tính theo công thức:
Trang 12μ =y y y
N
1+ + +2 N
=N
2 i
2
N1
- Tỷ lệ tổng thể, ký hiệu p, giả sử trong N đơn vị tổng thể có thể thống kê được
M đơn vị có mang dấu hiệu cần nghiên cứu (đương nhiên M < N) khi đó tỷ lệ tổng thể được tính theo công thức:
p = M
NĐương nhiên điều giả định như trên là không thể có, do ta không điều tra toàn bộ N đơn vị tổng thể Các tham số nói trên là chưa biết, nhưng chắc chắn chúng tồn tại khách quan và ta phải xác định chúng bằng phương pháp chọn mẫu, tức là xác định thông qua các tham số của mẫu
Tất cả các tham số của tổng thể có thể được trừu tượng hóa dưới một tên gọi chung là tham số θ
1.1.3.2 Các tham số của mẫu
Mẫu bao gồm n đơn vị tổng thể được tập hợp lại theo cùng tiêu thức Y với tổng thể Các đơn vị mẫu được chọn ra từ tổng thể theo nguyên tắc chọn ngẫu nhiên, theo một phương pháp tổ chức chọn mẫu nào đó
Vì chọn ra các đơn vị mẫu một cách ngẫu nhiên nên bản thân mẫu cũng mang tính chất ngẫu nhiên, và do đó các tham số tính được từ số liệu của mẫu cũng mang tính chất ngẫu nhiên, do đó có thể áp dụng các công thức suy rộng để tính các tham số của tổng thể được
Khi chọn một mẫu gồm n đơn vị từ tổng thể có N đơn vị bằng phương
Trang 13pháp chọn không lặp ta có thể lấy ra được CNn mẫu có kết cấu khác nhau CNn là tổ hợp chập n của N phần tử và
- Số trung bình mẫu (The sample mean), ký hiệu y biểu hiện mức độ điển hình theo tiêu thức Y của mẫu , được tính theo công thức trung bình cộng giản đơn:
y = y y y
n
yn
2 i
2
n
1sˆ
- Tỷ lệ mẫu, ký hiệu pˆ, giả sử sau khi điều tra trên n đơn vị mẫu, thống kê được
m đơn vị mang dấu hiệu cần nghiên cứu, khi đó tỷ lệ mẫu sẽ là:
n
m
pˆ= Tất cả các tham số của mẫu có thể được trừu tượng hóa dưới một tên chung là tham số θ' Như vậy tham số θ' là một tham số nào đó của mẫu, là một đại lượng ngẫu nhiên mà một trong các giá trị có thể có của nó chính là trị số cụ thể tính ra được từ một mẫu cụ thể mà ta vừa chọn ra
Trang 141.1.3.3 Mối liên hệ giữa tổng thể và mẫu
Tổng thể là một tồn tại khách quan, các tham số của chúng (như trung bình, tỉ lệ, phuơng sai) cũng tồn tại khách quan
Từ tổng thể, nếu theo cách chọn có trả lại, hoặc theo cách chọn không trả lại, có thể xây dựng được nhiều mẫu khác nhau Từ tổng thể, về mặt lý thuyết, nếu lấy theo cách chọn có trả lại, có thể chọn ra Nn mẫu khác nhau, và nếu lấy theo cách chọn không trả lại, thì có thể chọn ra CNn mẫu khác nhau Mỗi mẫu ấy đều được chọn một cách ngẫu nhiên, nên các tham số của nó (như trung bình, tỷ lệ, phương sai) là những đại lượng ngẫu nhiên tuân theo những quy luật phân phối nhất định
Từ nhận xét trên, có thể tìm được kỳ vọng toán và phương sai của các tham số của mẫu, từ đó rút ra nhận xét về mối liên hệ cụ thể giữa các tham số của mẫu và các tham số của tổng thể Ở đây, chúng ta chỉ chú ý đến kỳ vọng toán và phương sai của một số tham số mẫu như sau:
a) Kỳ vọng toán của trung bình mẫu ngẫu nhiên, trong trường hợp chọn có trả lại
và không trả lại đều là: E(Y)=μ
Phương sai của trung bình mẫu ngẫu nhiên trong trường hợp chọn có trả lại:
n)Y(Var
2 Y
σ
=Và trong trường hợp chọn không trả lại:
=
N
n 1 n 1 N
n N n ) Y ( Var
2 Y
2 Y
b) Kỳ vọng toán của tỷ lệ mẫu ngẫu nhiên trong trường hợp chọn có trả lại và
không trả lại đều là: E(Pˆ)=p
Trang 15Phương sai của tỷ lệ mẫu ngẫu nhiên trong trường hợp chọn có trả lại:
n
pq ) Pˆ ( Var = (với q =1-p) Và trong trường hợp chọn không trả lại:
pq1N
nNn
pq)Pˆ(Var
c) Kỳ vọng toán của phương sai mẫu ngẫu nhiên trong trường hợp chọn có trả
lại:
Y
2 y
n
1n)Sˆ(
1N
Nn
1n)Sˆ(
N là khá nhỏ và sự sai khác giữa N và N-1 là không đáng kể, khi đó các công thức dùng trong trường hợp chọn không trả lại sẽ xấp xỉ công thức dùng trong trường hợp chọn có trả lại Do đó trong thực tế, khi số đơn vị tổng thể khá lớn, số đơn vị mẫu là khá nhỏ so với số đơn vị tổng thể, thì dù lấy mẫu theo cách chọn không trả lại, ta vẫn có thể sử dụng các công thức của cách chọn có trả lại để dễ dàng tính toán mà vẫn bảo đảm chính xác
Một vấn đề rất quan trọng khác là: giữa quy luật phân phối của các tham số của tổng thể với quy luật phân phối của các tham số của mẫu có mối liên hệ với nhau Để có thể tìm được các tham số của tổng thể bằng cách suy đoán từ các tham số của mẫu, cằn phải nắm được những mối liên hệ đó, nắm được quy luật phân phối của các tham số của mẫu
Nhìn chung trong việc ứng dụng phương pháp chọn mẫu trong kinh tế, ta thường quan tâm nhiều nhất đến hai tham số là trung bình và tỷ lệ Vì vậy ở đây cũng
Trang 16chỉ chú ý đến việc nắm quy luật phân phối của trung bình mẫu và tỷ lệ mẫu
Mặt khác, tìm quy luật phân phối của mẫu là một vấn đề rất phức tạp, vì vậy ta
đặc biệt chú ý đến giả thuyết là tổng thể được phân phối theo quy luật chuẩn, vì
đó là trường hợp đơn giản nhất và những quy luật mẫu xuất phát từ giả thuyết đó
đều là những quy luật thông dụng Nhờ thống kê toán, ta có các kết luận sau:
- Phân phối của tỷ lệ mẫu Pˆ
Với n khá lớn có thể xem Pˆ có phân phối chuẩn với kỳ vọng p và phương sai
n
pq Tức Pˆ∼ N(p,
n
pq)
- Phân phối của trung bình mẫu Y
Chia ra 4 trường hợp:
* n ≥ 30, σY2 đã biết, khi đó có thể xem: Y ∼ N(
n,
2 Y
s ,
2 Y
σ
= Vì σY2 là phương sai tổng thể chưa biết, nhưng n ≥ 30 là khá lớn nên phương sai mẫu 2
y
sˆ và phương sai mẫu có hiệu chỉnh s2 đều xấp xỉ
σY2 , ta thay σY2 bằng s2 Và ta có s2 là ước lượng không chệch của σY2
Phương sai mẫu hiệu chỉnh được tính: s2= 1 ( )
Trang 17sẵn, cứ cho trước 1-α và biết n ta tính được tn−1,α/2
Khi n N các đặc trưng mẫu sẽ tiến tới các đặc trưng tương ứng của tổng thể,
vì vậy trong thực tế, với một mẫu cụ thể có n khá lớn, ta có:
1.1.4 Sai số trong điều tra chọn mẫu
Trong các cuộc điều tra chọn mẫu, sai số bao gồm:
- Sai số chọn mẫu
- Sai số phi chọn mẫu (sai số ngoài chọn mẫu)
Sai số chọn mẫu còn được gọi là sai số đại diện, tồn tại ngay trong bản thân cuộc điều tra chọn mẫu, bởi vì việc điều tra chỉ được thực hiện trên một số ít đơn
vị, nhưng kết quả thu được lại được tính toán suy rộng cho toàn bộ tổng thể Sai số chọn mẫu là điều khó tránh khỏi vì dù cho có tổ chức khoa học chu đáo đến đâu, thì việc lấy ra một mẫu có kết cấu giống như kết cấu của tổng thể là điều khó thực hiện, mà chỉ cần có sự sai khác nhỏ về kết cấu của hai tổng thể là đã phát sinh sai số rồi
Như vậy sai số chọn mẫu là chênh lệch về trị số giữa các chỉ tiêu tính ra được trong điều tra chọn mẫu và các chỉ tiêu tương ứng của tổng thể, tức là chênh lệch giữa các số y và μ, pˆ và p, 2
y
s và σ2 Rõ ràng là mẫu càng lớn, sai số trung bình chọn mẫu càng nhỏ Thước đo chung nhất của sai số chọn mẫu là căn bậc hai giá trị trung bình của bình phương các sai số chọn mẫu, giá trị này được coi là sai số chuẩn, ký hiệu SE (Standard error of sample mean) của ước lượng
Trang 18Theo cách chúng ta định nghĩa sai số chuẩn SE như trên, thì chúng ta phải có giá trị ước lượng của tất cả các mẫu có thể có, nghĩa là, giả sử từ tổng thể ta thiết lập tất cả mẫu có thể thiết lập được, giả sử ta lấy ra K mẫu, mỗi mẫu ta tính được các tham số của nó:
Loại sai số thứ hai xuất hiện cả trong điều tra chọn mẫu lẫn trong điều tra toàn bộ, được gọi là sai số phi chọn mẫu Việc lập danh sách tất cả các nguồn sai số phi chọn mẫu là rất khó Những sai số này xảy ra do nhiều nguyên nhân: Do đơn
vị điều tra trả lời sai vì không hiểu đúng nội dung, hoặc do cố ý khai sai Do nhân viên điều tra vô tình ghi chép sai Do tỷ lệ không trả lời quá cao Do dụng cụ đo lường sai… Rõ ràng rằng, với một đội ngũ nhân viên được huấn luyện tốt
ở cả hai lĩnh vực thu thập và xử lý số liệu, nên các sai số phi chọn mẫu ở các cuộc điều tra chọn mẫu có thể ít nghiêm trọng hơn so với các cuộc điều tra toàn bộ
Giữa sai số chọn mẫu và sai số phi chọn mẫu có mối quan hệ sau: sai số chọn mẫu sẽ giảm khi cỡ mẫu tăng lên Và như vậy, khối lượng công việc điều tra tăng lên và sai số phi chọn mẫu sẽ tăng lên
Trang 19Sai số chọn mẫu còn có thể chia thành sai số ngẫu nhiên và sai số hệ thống
- Sai số ngẫu nhiên: xuất hiện do mẫu được xây dựng theo nguyên tắc ngẫu nhiên Sai số này được tính theo công thức tương ứng với thiết kế mẫu Sai số này không phụ thuộc vào ý định của người điều tra cho nên chênh lệch giữa các chỉ tiêu của mẫu và của tổng thể không bao giờ xác định được trước là sẽ nhiều hơn hoặc ít hơn
- Sai số có hệ thống: Xuất hiện khi mẫu được thiết kế có chủ đích, hoặc mẫu được thiết kế theo nguyên tắc ngẫu nhiên nhưng không bao quát được toàn bộ tổng thể Loại sai số này chính là do có dụng ý trước của người điều tra làm cho kết quả điều tra luôn luôn lệch về một hướng hoặc nhiều hơn, hoặc ít hơn so với thực tế
Nguyên nhân sâu xa của sai số có hệ thống thường liên quan đến khâu lập dàn mẫu và việc chọn mẫu Chẳng hạn dùng mẫu cố định nhiều năm đối với tổng thể có biến động lớn về các đơn vị, hoặc điều tra viên vì ngại đi lại từ vị trí quan sát này sang vị trí quan sát khác, tự ý thay đổi vị trí quan sát
Nói chung khái niệm sai số chọn mẫu thường được hiểu là sai số ngẫu nhiên Như vậy đối với mỗi mẫu được chọn ra một cách ngẫu nhiên từ tổng thể sẽ có một trị số cụ thể của sai số, nếu giả định rằng không có sai số nói chung và không có sai số hệ thống, sai số ngẫu nhiên là một đại lượng ngẫu nhiên và thông thường người ta coi nó được phân phối theo quy luật phân phối chuẩn
- Khi nhiệm vụ chọn mẫu là để ước lượng số trung bình về một tiêu thức nào đó, giả sử với cách chọn lặp và theo phương pháp chọn mẫu ngẫu nhiên đơn giản, tức là khi mẫu được chọn ngẫu nhiên, giá trị trung bình sẽ khác nhau từ mẫu này sang mẫu khác Độ lệch tiêu chuẩn của các giá trị trung bình mẫu dùng để đo lường độ biến thiên giữa các giá trị trung bình mẫu với giá trị trung bình
Trang 20của tổng thể gọi là sai số trung bình chọn mẫu (sai số chọn mẫu) ký hiệu σy
được xác định theo công thức:
nn
2 y
- Khi nhiệm vụ chọn mẫu là để ước lượng tỷ lệ theo một tiêu thức nào đó, sai số trung bình chọn mẫu sẽ là:
n
) p - 1 ( p
pˆ =
σ (Nếu p chưa biết ta thay bằng pˆ)
Trong trường hợp chọn không hoàn lại sai số trung bình chọn mẫu sẽ nhân cho hệ số điều chỉnh tổng thể hữu hạn fpc (finite population correction factor)
fpc =
N
n - 1
Gọi ε là phạm vi sai số chọn mẫu
- Khi nhiệm vụ chọn mẫu là để ước lượng số trung bình về một tiêu thức nào đó thì:
nz
z /2 y /2
y
σ
=σ
- n : cỡ mẫu, cỡ mẫu càng lớn thì sai số chọn mẫu càng nhỏ, và ngược lại
- σ2: tính chất đồng đều của tổng thể, tổng thể càng có kết cấu phức tạp, các lượng biến của tiêu thức biến thiên càng nhiều, thì phương sai càng lớn và do đó sai số chọn mẫu càng lớn và ngược lại
Trang 21- Phương pháp tổ chức chọn mẫu khác nhau: mỗi phương pháp tổ chức chọn mẫu khác nhau sẽ có công thức tính sai số chọn mẫu khác nhau (cụ thể sẽ trình bày trong phần các phương pháp chọn mẫu)
Thông thường phương pháp tổ chức chọn mẫu nào càng thuận tiện cho việc lập dàn chọn mẫu và tổ chức điều tra bao nhiêu thì sai số chọn mẫu càng lớn
Rõ ràng hầu như mọi sự phức tạp của các công thức chọn mẫu đều tập trung ở việc tính sai số chọn mẫu Nếu tính được sai số chọn mẫu rồi thì việc tính toán các chỉ tiêu khác trở nên đơn giản hơn
* Ý nghĩa của việc tính toán sai số chọn mẫu:
- Sai số chọn mẫu dùng để ước lượng khoảng chỉ tiêu nghiên cứu
- Sai số chọn mẫu còn dùng để đánh giá tính đại diện của chỉ tiêu nghiên cứu
qua tính toán tỷ lệ sai số chọn mẫu H : x 100
- Là cơ sở xác định cỡ mẫu cho các cuộc điều tra được tiến hành về sau
1.1.5 CÁC PHƯƠNG PHÁP ƯỚC LƯỢÏNG
Khi nghiên cứu điều tra chọn mẫu, cái chính không phải nhằm nghiên cứu mẫu đại diện được chọn ra từ tổng thể, mà chính là qua mẫu đó để nghiên cứu được tính quy luật và trạng thái của tổng thể chứa nó Nghĩa là dựa vào sự hiểu biết về tham số θ' của mẫu đã tính ra được, để suy luận về tham số θ của tổng thể Việc làm như vậy gọi chung là ước lượng
Các phương pháp ước lượng có thể chia ra:
- Ước lượng trực tiếp
- Ước lượng gián tiếp
Trang 221.1.5.1 Ước lượng trực tiếp
Được gọi là ước lượng trực tiếp khi dùng các tham số mẫu theo một đặc trưng để ước lượng cho các tham số của tổng thể cũng theo đặc trưng đó Như dùng số trung bình mẫu y để ước lượng cho số trung bình tổng thể μ, hay tỷ lệ mẫu pˆ để ước lượng cho tỷ lệ tổng thể p
1 1.5.1.1 Ước lượng điểm
Theo phương pháp ước lượng này, thống kê toán đã chứng minh được rằng:
- Để ước lượng số trung bình chung μ ta dùng số trung bình mẫu y làm ước lượng, vì y là ước lượng không chệch của μ (E(Y)=μ)
- Để ước lượng tỷ lệ chung p, ta dùng tỷ lệ mẫu pˆ làm ước lượng vì pˆ là ước lượng không chệch của p (E(Pˆ)=p)
- Để ước lượng phương sai tổng thể σY2 ta không dùng phương sai mẫu 2
y
sˆ mà dùng phương sai mẫu hiệu chỉnh sy2 làm ước lượng, nhằm bảo đảm sy2 là ước lượng không chệch của σY2
Tức là: 2
Y
2
y ) S (
Gọi sy2 = n
n− 1
2 y
sˆ
Do đó : E(sy2) = E( n
n− 1
2 y
sˆ ) = σY2
Chứng tỏ sy2 là ước lượng không chệch của σY2
Tóm lại khi cần tìm các tham số của tổng thể mà không muốn hay không thể dùng phương pháp điều tra toàn bộ, thì có thể từ tổng thể đó lấy ra một mẫu theo nguyên tắc chọn ngẫu nhiên, sau đó căn cứ vào số liệu điều tra trên mẫu
Trang 23ñeơ tính ra tham soâ maêu roăi duøng caùc tham soâ maêu naøy ñeơ öôùc löôïng caùc tham soâ cụa toơng theơ
μ chöa bieât, laây y; p chöa bieât, laây pˆ; σY2 chöa bieât, laây sy2
Ñoù laø caùch laøm ñôn giạn nhaât, coù teđn laø öôùc löôïng ñieơm
1.1.5.1.2 Öôùc löôïng khoạng
Öôùc löôïng ñieơm khođng thaôt chính xaùc, noùi ñuùng hôn laø khođng theơ ñaùnh giaù ñöôïc möùc ñoô chính xaùc cụa vieôc öôùc löôïng caùc tham soâ cụa toơng theơ, bôûi vì bạn thađn vieôc ruùt ra moôt maêu cú theơ laøm ñái dieôn cho toơng theơ ñaõ chöùa ñöïng söï sai khaùc duø laø raât nhoû giöõa keât caâu cụa maêu so vôùi keẫt caâu cụa toơng theơ Do ñoù, chaĩc chaĩn xuaât hieôn moôt sai soâ naøo ñoù maø chöa ñaùnh giaù ñöôïc Vì vaôy raât caăn thieât phại chuyeơn töø öôùc löôïng ñieơm sang öôùc löôïng khoạng nhaỉm nađng cao ñoô tin caôy cụa caùc keât luaôn thoâng keđ
* Öôùc löôïng trung bình cụa toơng theơ:
P[Y−μ ≤zα/2σy]=1−α
Hay
nzyn
z
2 /
Y 2 /
σ+
≤μ
ε α : phám vi sai soâ chón maêu
1-α : ñoô tin caôy cụa öôùc löôïng
Trong tröôøng hôïp öôùc löôïng trung bình cụa toơng theơ, ta coù 4 tröôøng hôïp sau:
a) n ≥ 30 , σY2 ñaõ bieât Khi ñoù Y ∼ N(
n,
2 Y
nzY
2 /
Trang 24σ
nzYn
zY
2 /
Y 2 /
b) n ≥ 30, σY2 chưa biết, khi đó ta thay σY2 bằng sy2
≤
n
S z Y n
S z Y
c) n < 30, Y phân phối chuẩn, σY2 đã biết, kết quả giống như phần a
d) n < 30, Y phân phối chuẩn, σY2 chưa biết, ta tra vào bảng phân phối student với n-1 bậc tự do:
n
S t
≤
n
S t
Y n
S t
Y
P n 1, /2 y n 1, /2 y
* Ước lượng tỷ lệ tổng thể:
Để ước lượng tỷ lệ p của tổng thể ta dùng tỷ lệ mẫu pˆ Ta biết với n khá lớn Pˆ∼ N(p,
pPˆ
Pˆ 1 Pˆ z Pˆ
1.1.5.2 Ước lượng gián tiếp:
Trang 25Sai số chọn mẫu của các ước lượng có thể giảm xuống nhờ việc sử dụng thêm những thông tin bổ sung có liên quan đến đặc trưng nghiên cứu, như khi ước lượng tham số của tổng thể theo đặc trưng Y có thể dùng thêm thông tin về đặc trưng X có liên quan với Y Phương pháp ước lượng như thế gọi là ước lượng gián tiếp
Các phương pháp ước lượng gián tiếp gồm có: ước lượng tỷ lệ, ước lượng hồi quy và ước lượng sai phân Trong đó phương pháp ước lượng tỷ lệ thường được sử dụng hơn cả
Phương pháp ước lượng tỷ lệ sử dụng đặc trưng X bổ sung, nhằm mục đích dựa vào các đặc điểm thuận lợi của mối liên hệ giữa X và Y để làm tăng độ chính xác của ước lượng
Ước lượng tỷ lệ dựa trên cơ sở thừa nhận tỷ lệ R Y
y
n
1 i i
n
1 i
y x, : là số trung bình của mẫu
Tỷ lệ R của tổng thể được ước lượng bởi tỷ lệ r của mẫu
Với số tổng X (hoặc số trung bình μx) của tổng thể đã biết ước lượng tỷ lệ của
số tổng Y, số tổng của tổng thể là: X
x
yXx
y
Yˆ n
1 i i
n
1 i
Trang 26Ước lượng tỷ lệ của μy, số trung bình tổng thể là: n x
* Ước lượng tỷ lệ, sai số chọn mẫu của ước lượng:
Xét trường hợp chọn mẫu ngẫu nhiên đơn thuần, chọn không lặp, xác suất chọn các đơn vị bằng nhau
x
y N
1 i i
N
1 i i
x
yR
yx
w
i i n
i i
w
i i i n
i i
i i
n
= ∑
r có khả năng bị chệch nghiêm trọng nếu ri có khuynh hướng lớn hay nhỏ trong
Trang 27trường hợp quyền số xi lớn
Số trung bình của tổng thể μy được ước lượng bởi: yr = r w μx (1.3) Số tổng của Y được ước lượng bởi: Nyr = r X w (1.4)
(1.4) còn có thể viết thành: N yr = r w N μx
Phương sai của số trung bình mẫu của ước lượng trực tiếp số trung bình tổng thể trong trường hợp chọn mẫu ngẫu nhiên đơn thuần là:
σy S Y
n
n N
với giá trị r whay nói cách khác giữa yi với x ri w, nên SY2 ở hai công thức (1.5) được thay thế bởi SYX2
( )
S
y Rx N
σy YX
r
S n
n N
r
w μ
σ
=σPhương sai hiệu chỉnh của tổng thể SYX2 trong các công thức trên ta không biết nên được ước lượng bởi phương sai hiệu chỉnh của mẫu:
Trang 28( )
s
y r xn
y yx
r = 1 − (1.8)
s N s
n
n N
N yr
yx
* Hiệu quả của ước lượng tỷ lệ:
Mục tiêu của việc áp dụng phương pháp ước lượng tỷ lệ là làm giảm sai số chọn mẫu của ước lượng, để làm rõ điều này ta sẽ so sánh sai số chọn mẫu trong trường hợp ước lượng trực tiếp thông thường và ước lượng tỷ lệ
Đối với mẫu có qui mô n đơn vị, phương sai của số trung bình mẫu thông thường là: σy S Y
n
n N
n N
2 x i y i N
i
2 y
xy
−
μ
−μ
−
∑
là hệ số tương quan giữa X và Y
Thay các kết quả tính toán vào σy
r
2 ta được:
Trang 29σy ( Y X ρ X Y)
r n S R S R S S
nN
⎝⎜ ⎞⎠⎟ (1.9) Như vậy ước lượng tỷ lệ có sai số nhỏ hơn ước lượng trực tiếp thông thường nếu:
SY2 +R S2 2X−2R S Sρ X Y <SY2
Có nghĩa là: ρ >
y Y x X
Y
X Y
X
2 X 2
S
S2
1S2
RSS
RS2
SR
x X
S
μ và
y Y
Khi X là giá trị của Y ở thời kỳ trước, hai hệ số biến thiên có thể xấp xỉ nhau, thì ước lượng tỷ lệ sẽ tốt nhất nếu ρ lớn hơn 1/2
Trong thực tế, với mẫu có qui mô đủ lớn, việc ước lượng tham số từ cuộc điều tra mẫu bằng phương pháp ước lượng tỷ lệ sẽ cho sai số nhỏ hơn, nếu ta chú ý chọn lượng biến X có tương quan khá chặt chẽ với lượng biến chủ yếu Y và lượng biến bổ sung không có độ biến động lớn Riêng trường hợp khi tỷ lệ r là tốc độ phát triển qua hai thời kỳ của lượng biến y thì hiệu quả giảm sai số chọn mẫu của phương pháp ước lượng tỷ lệ là rõ ràng
1.2 CÁC PHƯƠNG PHÁP CHỌN MẪU VÀ XÁC ĐỊNH QUI MÔ MẪU 1.2.1 Các phương pháp chọn mẫu
Có nhiều loại phương pháp chọn mẫu tùy theo chúng ta đứng trên giác độ nào
Trang 30để xét
* Nếu căn cứ vào tính chất ngẫu nhiên hay không ngẫu nhiên trong việc chọn
đơn vị mẫu từ tổng thể chung để điều tra, thì ta có hai loại phương pháp chọn mẫu là chọn mẫu có chủ đích và chọn mẫu ngẫu nhiên
- Chọn mẫu có chủ đích (phi ngẫu nhiên): là phương pháp lựa chọn các đơn vị
của tổng thể vào mẫu điều tra trên cơ sở xem xét chủ quan của nhà thống kê Chọn mẫu có chủ đích là con đẻ của các nhà thống kê thực hành, đã xuất hiện cách đây khoảng 300 năm Để thay thế điều tra toàn bộ, các nhà thống kê thực hành đã áp dụng phương pháp điều tra mà họ cảm thấy là hợp lý, nhưng chưa chứng minh được căn cứ khoa học của nó Đó chính là phương pháp chọn mẫu có chủ đích mà ngày nay chúng ta thường gọi
Năm 1934 Neyman đã chứng minh rằng với cỡ mẫu đủ lớn, trung bình mẫu ngẫu nhiên có phân phối tiệm cận chuẩn Phương pháp chọn mẫu có chủ đích có căn cứ khoa học, song ứng dụng nó trong thực tế chỉ có kết quả tốt khi nhà thống kê hiểu biết đủ nhiều về tổng thể cần nghiên cứu Chính vì vậy, nó thường được áp dụng trên những tổng thể có quy mô nhỏ với cỡ mẫu không lớn
Chọn mẫu có chủ đích có nhiều loại như chọn mẫu thuận lợi, chọn mẫu theo phán đoán, chọn mẫu theo tỷ lệ khống chế,
Chọn mẫu có chủ đích có thể áp dụng cho các lĩnh vực điều tra như thăm dò dư luận xã hội, điều tra thị hiếu tiêu dùng, thăm dò ý kiến khách hàng,
Phạm vi nghiên cứu của luận án này cũng được giới hạn trong các phương pháp chọn mẫu ngẫu nhiên
- Chọn mẫu ngẫu nhiên: là phương pháp chọn các đơn vị mẫu từ tổng thể dựa
trên xác suất (hoặc quy luật ngẫu nhiên)
Chọn mẫu ngẫu nhiên có nhiều loại như chọn mẫu ngẫu nhiên đơn thuần, chọn
Trang 31mẫu phân tổ, chọn mẫu theo khối, chọn mẫu nhiều cấp
Phương pháp chọn mẫu ngẫu nhiên đảm bảo tính khoa học và có hiệu quả hơn trong việc chọn ra được một mẫu đại diện
* Xét theo yếu tố xác suất lấy đơn vị mẫu từ tổng thể, có hai loại chọn mẫu:
- Chọn mẫu theo xác suất đều: tất cả các đơn vị chọn mẫu đều có cơ hội được
chọn như nhau
- Chọn mẫu theo xác suất không đều: các đơn vị chọn mẫu có xác suất được
chọn khác nhau tùy vào quy mô, vị trí của mỗi đơn vị trong tổng thể chung Các xác suất được chọn thường được tính theo quy mô của đơn vị trong tổng thể, nên phương pháp chọn mẫu theo xác suất không đều còn được gọi là chọn mẫu theo xác suất tỷ lệ với quy mô
Khi chọn mẫu theo xác suất không đều các đơn vị nào có quy mô lớn, chiếm vị trí quan trọng trong tổng thể sẽ có cơ hội được chọn vào mẫu nhiều hơn
Trong phương pháp chọn mẫu theo xác suất tỷ lệ với quy mô thì vấn đề quan trọng là xác định tiêu thức nào để tiến hành lượng hóa quy mô của các đơn vị trong tổng thể chung Theo các nhà thống kê học thì nên sử dụng tiêu thức nào có mối liên hệ tương đối chặt chẽ với tiêu thức nghiên cứu là tốt nhất
Tùy từng trường hợp cụ thể mà quy mô của các đơn vị được phản ảnh bằng các tiêu thức khác nhau như dân số, số hộ gia đình, diện tích canh tác, số đơn vị sản xuất,
Để thực hiện phương pháp này người ta thường sử dụng hai phương pháp chọn mẫu đó là phương pháp tổng tích lũy và phương pháp Lahiri
- Phương pháp tổng tích lũy :
Trước hết người ta lập bảng với quy mô cộng dồn hay tỷ lệ cộng dồn của các đơn vị tổng thể chung
Trang 32Gọi X là quy mô chung của tổng thể
Gọi Xi là quy mô của đơn vị thứ i
G ọi Pi là tỷ lệ của đơn vị thứ i
Sau đó người ta dùng bảng số ngẫu nhiên để chọn ra một số R sao cho
1 ≤ R ≤ U N Nếu R nằm trên khoảng tương ứng của đơn vị nào thì đơn vị ấy sẽ được chọn Cứ tiếp tục làm như vậy cho đến khi chọn đủ số đơn vị mẫu cần thiết
Phương pháp tổng tích lũy sẽ gặp khó khăn khi số đơn vị tổng thể nhiều và quy mô các đơn vị lớn Trong những trường hợp như vậy người ta có thể sử dụng phương pháp Lahiri để chọn mẫu
Trang 33- Phương pháp Lahiri:
Gọi N là số đơn vị tổng thể
Xmax là quy mô lớn nhất của một đơn vị tổng thể
Các bước tiến hành như sau:
+ Chọn số ngẫu nhiên R sao cho R ≤ N Giả sử chọn được số i thì đơn vị thứ i sẽ được xét
+ Chọn số ngẫu nhiên R ′sao cho R ′ ≤ Xmax Nếu R ′ ≤ Xi thì đơn vị thứ i được chọn Ngược lại, nếu R ′ > Xi thì không chọn đơn vị thứ i
Cứ tiếp tục làm như vậy cho đến khi chọn đủ số đơn vị mẫu thì dừng lại
Phương pháp chọn mẫu theo xác suất tỷ lệ với quy mô có ưu điểm là cho các ước lượng không chệch, sai số chọn mẫu nhỏ nên được xem như biện pháp làm giảm sai số trong điều tra chọn mẫu
* Xét sự thay đổi của tổng thể trong quá trình chọn mẫu, phương pháp chọn mẫu ngẫu nhiên được chia làm hai loại:
- Chọn lặp: Khi một đơn vị được chọn vào mẫu xong, sau khi thu thập dữ liệu
thống kê, đơn vị ấy được trả trở vào tổng thể và tiếp tục tham gia vào quá trình chọn mẫu tiếp theo Tổng thể không thay đổi trong suốt quá trình chọn mẫu
- Chọn không lặp: Khi một đơn vị được chọn vào mẫu xong, đơn vị ấy bị loại ra
khỏi tổng thể Quy mô của tổng thể bị giảm dần trong quá trình chọn mẫu Mỗi đơn vị chỉ có khả năng chọn mẫu một lần mà thôi
Về nguyên tắc, chọn không lặp cho kết quả ước lượng chính xác hơn chọn lặp Tuy nhiên, khi n rất nhỏ so với N thì chọn lặp cũng tương đương với chọn không lặp Trong cách chọn không lặp người ta cũng có thể dùng chọn mẫu hệ thống Trong chọn mẫu hệ thống, một đơn vị được chọn ngẫu nhiên từ một danh sách các đơn vị và tất cả các đơn vị trong mẫu xuất hiện sau một khoảng đã định
Trang 34trước Như vậy, nếu một đơn vị được chọn ngẫu nhiên được đánh số là R và khoảng định trước là r, thì mẫu sẽ gồm các đơn vị được đánh số là R,R+r,R+2r, R+3r
Thường thường một đơn vị trong số r các đơn vị đầu tiên của danh sách được chọn ngẫu nhiên và quá trình chọn mẫu hệ thống được tiếp tục từ điểm đó
Nếu một mẫu gồm n đơn vị được chọn một cách hệ thống từ danh sách N đơn vị, thì phần nguyên của phép chia N
n được coi như khoảng cách r
Trong chọn mẫu hệ thống quay vòng, R có thể được chọn hoàn toàn ngẫu nhiên từ N đơn vị, và quá trình chọn được tiếp tục ngoài N bằng các đơn vị được đánh số 1,2,3, như là N+1,N+2,N+3, đến N+R-r
Nếu danh sách các đơn vị có sẵn cùng với các đặc điểm, quy mô của chúng, thì mẫu hệ thống có thể được rút thuận tiện sau khi sắp xếp lại danh sách một cách hợp lý để tăng hiệu quả của chọn mẫu
Trong thực tế có những hiện tượng mà các đơn vị của nó đã được sắp xếp sẵn, và trong suốt thời gian điều tra vẫn không thay đổi vị trí.Với những hiện tượng như vậy có thể lợi dụng sự bố trí sẵn có để chọn theo khoảng cách đã tính
Ví dụ khi điều tra chọn mẫu dân số, cứ theo thứ tự số nhà trên các đường phố mà chọn theo khoảng cách
Trong chọn mẫu hệ thống, nếu các đơn vị của tổng thể được sắp xếp theo những tiêu thức không liên quan trực tiếp đến tiêu thức nghiên cứu thì sẽ có sai số ngẫu nhiên Ngược lại, nếu các đơn vị của tổng thể được sắp xếp theo tiêu thức nghiên cứu thì lại xuất hiện sai số có hệ thống Sai số có hệ thống lớn hay nhỏ phụ thuộc vào việc chọn đơn vị đầu tiên Nếu đơn vị chọn đầu tiên ở gần giữa hoặc giữa khoảng cách đầu thì sai số hệ thống sẽ nhỏ Vì lý do trên, người ta thường sắp xếp các đơn vị theo tiêu thức không có liên quan đến nội dung
Trang 35Dàn chọn mẫu là một hình thức sắp xếp các đơn vị thuộc tổng thể nghiên cứu Dàn chọn mẫu có thể là một danh sách các đơn vị với những đặc tính nhận dạng của chúng, hoặc là một bản đồ chỉ ra các ranh giới của các đơn vị chọn mẫu Dàn chọn mẫu cần được đổi mới, không có sai sót nhầm lẫn, hoặc một đơn vị chọn mẫu không được phép xuất hiện hai lần trong dàn chọn mẫu Dàn chọn mẫu là cơ sở để tiến hành lấy mẫu trong bất kỳ phương pháp chọn mẫu nào
* Các tham số :
Giả sử tổng thể gồm N đơn vị là u1, u2, ,uN, gọi Y là đặc tính điều tra Như vậy các giá trị của tổng thể mà ta nghiên cứu là y1, y2, ,yN
Gọi u1,u2, ,un là các đơn vị được rút ở lần thứ nhất, thứ hai, ,và lần cuối cùng thứ n Gọi y1,y2 yn là giá trị các quan sát của đặc tính nghiên cứu trên những đơn vị này
Bảng 1.2 Các tham số của tổng thể và mẫu Các tham số Tổng thể Mẫu
Số tổng Y = y1 +y2 + +yN
Số trung bình
N
y
Trang 36Phương sai σ = ∑N ( − μ)
i
2 i
2
n
1 sˆ
Phương sai hiệu chỉnh s ( )
= 1 − (trường hợp chọn không lặp)
σY2 ta không biết nên phải dùng phương sai hiệu chỉnh của mẫu để ước lượng, do đó sai số trung bình chọn mẫu được tính như sau:
s
sy = y − (chọn không lặp) Số trung bình μ của tổng thể được ước lượng như sau:
P[Y−μ ≤zα/2σy]=1−α
Hay y−zα/2σy ≤μ≤y+zα/2σy với độ tin cậy là 1-α
* Ước lượng tổng của tổng thể:
Y = N μ với σ ( )
N y sy N N n
n
= − (chọn không lặp)
* Ước lượng tỷ lệ tổng thể:
Để ước lượng tỷ lệ p của tổng thể ta dùng tỷ lệ mẫu pˆ
Trang 37p Pˆ
pˆ 1 pˆ z
pˆ− /2 − ≤ ≤ + /2 −
α
α Với độ tin cậy là 1-α
Một mẫu được coi là nhỏ so với tổng thể nghiên cứu nếu: 0 , 05
N n ≤ và được coi là lớn nếu 0 , 05
+ Nhượïc điểm: có 3 nhược điểm chính như sau:
- Trong nhiều trường hợp, sự biến thiên của tổng thể nghiên cứu rất lớn và không theo quy tắc thì lấy mẫu ngẫu nhiên đơn thuần không được dùng đến vì nó kém chính xác
- Chọn mẫu theo danh sách và đánh số tất cả những đơn vị lấy mẫu sẽ hoàn toàn không thực tế trong trường hợp tổng thể có quy mô khá lớn
- Trong quá trình thu thập số liệu sẽ gặp khó khăn vì điều kiện địa lý, làm những đơn vị lấy mẫu bị phân bố trên địa bàn rộng
Do đó, phương pháp chọn mẫu ngẫu nhiên đơn thuần thường được áp dụng trong lĩnh vực nhiên cứu phục vụ quản lý kinh tế vi mô như kiểm tra chất lượng sản phẩm, chất lượng hàng hoá, năng suất chăn nuôi, , còn trong các cuộc điều tra chọn mẫu trên phạm vi rộng phục vụ cho quản lý kinh tế vĩ mô, phương pháp chọn mẫu ngẫu nhiên đơn thuần thường được áp dụng để chọn mẫu ở từng tổ
Trang 38trong phương pháp chọn mẫu phân tổ, hoặc áp dụng vào giai đoạn cuối của phương pháp chọn mẫu nhiều giai đoạn
1.2.1.2 Chọn mẫu phân tổ
Sau khi các tổ được xác định xong, mẫu được chọn từ từng tổ Số đơn vị mẫu n của toàn bộ tổng thể được phân phối cho các tổ, tuần tự là n1, n2, ,nL và
n1+n2+ +nL=n
Việc chọn mẫu trong các tổ được thực hiện độc lập với nhau
* Các tham số:
Các ký hiệu:
Nh : số đơn vị của tổ h ; nh : số đơn vị mẫu của tổ h
yhi : giá trị của đơn vị thứ i ở tổ h, h=1,2, ,L
Bảng 1.3 Các tham số trong chọn mẫu phân tổ
Các tham số Tổng thể Mẫu
Số trung bình 1 đơn vị
Số trung bình 1 đơn vị
trong tổng thể μ = ∑L
h
h
h Y N N 1
Phương sai tổ σ = ∑Nh ( − )
i
2 h hi h
2
n1Phương sai hiệu chỉnh ∑ ( − )
−
i
2 h hi h
2
1N
2
1n1s
Trang 39* Phương sai của tổng thể:
Trường hợp tổng thể được phân tổ, phương sai của tổng thể có thể phân tích theo quy tắc cộng phương sai như sau:
2 hY h
2
N
1 N
N 1
* Ước lượng μ , sai số chọn mẫu củay:
Xét trường hợp chọn mẫu ở từng tổ theo phương pháp chọn mẫu ngẫu nhiên đơn thuần
y N N
1
y = ∑ (1.13) Sai số chọn mẫu của y được tính như sau:
- Trường hợp chọn lặp: σy h hY
h h
L
Sn
2 2
2 hY 2 h 2
2
n 1 n
S N N
L
s n
2
2 2 2
1
= ∑ (chọn lặp) (1.16)
σy h hy
h h
L
h h
s n
n N
2
2 2 2
Trang 40Ước lượng của số trung bình tổng thể μ là: y±zσy
y được tính theo công thức (1.13)
* Phân phối mẫu vào các tổ:
Mẫu có thể phân phối vào các tổ theo các cách sau:
a) Phân phối số mẫu vào các tổ bằng nhau:
Trường hợp quy mô và phương sai của các tổ gần giống nhau, hoặc không biết quy mô cũng như phương sai của các tổ, mẫu sẽ được phân phối vào các tổ bằng nhau:
n n n n
L
L
1 = 2 = = = (1.18)
b) Phân phối theo tỷ lệ:
Khi quy mô giữa các tổ khác nhau nhưng phương sai tổ gần giống nhau, hoặc không biết phương sai tổ, mẫu sẽ được phân phối vào các tổ theo tỷ lệ chung n
N n
N
n N
n N
n N
L L
1 1
2 2
Từ (1.19) ta có: n
n
N N
Nên y
N N yh h h
c) Phân phối Neyman:
Theo phân phối Neyman, số mẫu phân phối vào từng tổ phụ thuộc vào phương