my, Foe et | ak i at HQC VIEN BÁO CHÍ VÀ TUYẾN TRUYÈN | Đ KHOA XÃ HỘI HỌC — ĐÈ TÀI NGHIÊN CỨU CÁP SƠ SỞ ' GIÁO TRINH:NOI BO
KY THUAT CHON MAU
Chủ nhiệm đề tài: Lưu Hồng Minh
Trang 3MUC LUC
Tr Noi dung 1 rang
Chương 1: Tổng quan về chọn mẫu ngẫu nhiên trong điều 7 tra xã hội học
1.1 | Khái niệm vẻ chọn mẫm ` |7
12 Những lí do cản điều Ira chọn mẫu trong điều tra xã hội học | 10 thực nghiệm
13 | Vài nét vẻ lịch sử của phưƠng Ƒ pháp điều tra chọn mẫu HN
la | Xác định dung lượng mẫu 1 17
1.5 | Sai số của phương pháp chọn mẫu 19
16 ~ _Mội sỏ số chỉ tiêu thong ke AM —_ 2)
Chương 2: Các phương pháp chon r mau ¡ ngẫu nhiên - 28
21 Phuong pháp › chọn mẫu ngấu nhiên đơn giản Số 38
2.2 Phương pháp chọn mẫu ngau nhiên hệ thống _30
2g Phương pháp e chon mau phân ‹ chùm SỐ 2
2.4 Phương pháp chọn mẫu phân tầng- SỐ M¬1
25 | Phương pháp chọn mẫu nhiều giai đoạn 1 49
C "hương 3: Lựa chọn kỹ thuật lấy mẫu - oT 61
3.1 | Tiêu chuẩn lựa chọn kỹ thuật lấy mẫu — a OL
3.2 | Hiệu quả của các phương pháp chọn mẫu 6
3.3 | Các cách thúc chọn mẫu chùm với số lượng các dơn vị chùm | 68
không bằng nhau
3.4 | Chọn mẫu với dụng lượng mẫu ước tính 74 Chương 4: Chọn mẫu bằng chương trình SPSS | 76
4.1 | Các lệnh áp dụng Irong chọn mau bang chương irinh SPSS 76
42 | Các chương tr ‘inh viet để chon mau bang phần mêm ÌmSPSS 77
Trang 5PHAN MO DAU
1 Tén dé tài: Gido trinh néi b6 hoc phan KY thudt chon mdu danh cho
chương trình đào tạo cử nhân Xã hội học
2 Thời gian thực hiện: 1 năm kể từ ngày kí hợp đồng
3 Thuộc chương trình: chương trình hoàn thiện giáo trình nội bộ 4 Cơ quan chủ quản:
Cơ quan chủ trì: Khoa xã hội học — Hoc viện Báo chí và Tuyên
truyền
Chủ nhiệm đề tài: TS Lưu Hồng Minh
Học vị: Tiến sĩ
Chức vụ: Trưởng khoa xã hội học
Địa chỉ: Khoa xã hội học- Học viện Báo chí và Tuyên truyền
5 Mục tiêu của đề tài: sau khi kết thúc học phần Kỹ thuật chọn mẫu,
sinh viên phải nắm được những kiến thức lý thuyết và kỹ năng chọn mâu 6 Phương pháp giảng dạy được áp dụng Phương pháp Tỷ lệ (%) 1 Thuyết trình 50 2 Tháo luận nhóm 10 3 Hỏi dap 10 4 Bài tập 20 5 Khác 10 7.Dự kiến sản phẩm
Giáo trình lưu hành nội bộ với độ dài nội dung hơn 80 trang đánh
máy cỡ chữ 14, dãn dòng 1.5, phông chữ Time New Roman
Trang 69, Nội dung và tiễn độ thực hiện Nội dung Két quả đạt được| Thời gian Người thực hiện các bước thực hiện Xây dựng để| Đề cương sơ bộ | 1 tháng Lưu Hồng Minh cương
Thu thập tài liệu 2 tháng Lưu Hồng Minh
Đọc tài liệu 1 tháng Lưu Hồng Minh
Tổng quan tài| Tong quan tài | 2 tháng Lưu Hồng Minh
liệu liệu
Viết bản thảo Dé cương chỉ | 4tháng Lưu Hồng Minh
tiết
Chỉnh sửa _ và | Bản thảo giáo | 2 tháng Lưu Hồng Minh
hoàn thiện trình đã hoàn
| thién
Nghiém thu |Giáo trình {I thang Hội đồng khoa học
| nghiém thu |
Trang 7NOI DUNG CHI TIET HOC PHAN KY THUAT CHON MAU ˆ Số đơn vị học trình 4- Số tiết 60 “Nội dụng — Số tiết lên lớp STT Sra fe eo rong [rong đó số |LTE[TL-TTH- BT | TN 1 Chương 1: Tống quan về chọn mẫu ngẫu | 15 [105 | —
nhiên trong điều tra xã hội học
LÌ Khái niệm về chọn mẫu 1 c3 |2 |1
I.I.1 | Phân loại điều tra xã hội học thựcnghệm © | † |
1.1.2 | Một số khái niệm có liên quan |
1.2 | Những lý do cần điều tra chọn mẫu trong điều | 1 | 1 | 0
tra xã hội học thực nghiệm
1.3 | Vài nét về lịch sử của phương pháp diéu tra Ị TT dy E0
chọn mẫu |
1/4 | Xác định dung lượng mẫu — 5 | 3 | 27
1.4.1 | Các yếu tổ ảnh hưởng đến cỡmẫu — - - :
I.4.2- Một số công thức xác định cỡ mẫu ngẫu nhiên đơn giản | | 1,5 | Sai số của phương pháp chọn mẫu 2 |1 | 1 15.1 |Kháinệm — — SỐ 1.5.2 | Sai số ngẫu nhiên | | 1.5.3 | Sai số hệ thống - 16 | Một số chỉ tiêu thống kê 3.12] 1
1.6.1 | Các chỉ tiêu thống kê về đặc trưng của tập hợp 1.6.2 | Các chỉ tiêu thống kê đặc trưng về phần tán của
Trang 8[OT T97 ty T9 to tO] Wi tel Ge Gà, tT! Bi Ww: ‡ t t9; 2c Độ, ho Ny Sy ID) bà: bo! JN! Se RR Độ too bo! i — bh! Go: +x: Công thức tính toán các biên thiên mẫu Ưu-nhược điểm
Phuong phap chon mau phan chim M6 ta cach tién hanh
Qui trinh chon mau
Phuong phap chon mau nhiéu giai doan tập hợp Chương 2: Các phương pháp chọn mẫu ngẫu nhiên 15 10 Phương pháp chọn mẫu ngâu nhiên đơn giản Mô ta cách tiên hành Qui trình chọn mẫu Xác định dung lượng mẫu Phương pháp chọn mẫu ngâu nhiên hệ thông Mô tả cách tiền hành - Qui trình chọn mẫu Công thức tính toán các biên thiên mẫu UU điểm và nhược điêm Qui trình chọn mầu Công thức tính toán các biên thiên mẫu
Ưu điểm và nhược điểm
Trang 9-Ä ÔL —>——- 2.5.4 | Xác định và phân bồ kích thước mẫu
2.5.5 | Uu điểm và nhược điểm — -
3 |Ch ương 3: Lựa chọn kỹ thuật lấy mẫu | 10 | 8 2
3.1 | Tiêu chuẩn lựa chọn kỹ thuật lấy mẫu a 3 43 | oO
3.2 | Hiệu quả của các phương pháp chon t mẫu - 2 | ory
3.2.1 Công thite tinh Deff - c
3.2.2 | Công thức tính Roh —_ ˆ :
3.2.3 | Dac diém vacachtinhRoh - fp
3.2.4 | Ung dung Roh trong tính toán cỡ mẫu ngẫu nhiên
phân chùm
3.3 | Các cách thức chọn mẫu chùm với số số lượng ‹ các | 3 | 2] là
đơn vị chùm không bằng nhau
34 Chọn mẫu với dung lượng mẫu uóc tính - 2 |2 0
3.4.1 Uoe tinh vé thoi gian op -
3.4.2 Ứơc tính về cơ cầu theo số liệu thống kê re
3.4.3 |Uoctinhtheotylédybi 7 oo]
4 Chuong 4: Chon mau bing chương trình SPSS 20 1s | IS
4.1 | Cac lénh áp dụng trong chọn mẫu u bing chương 5 | 3] 2
trinh SPSS
4.1.1 | Cách viết chương trình trong Syntax
Trang 11DIEU TRA XA HOI HOC
1.1 Khai niém vé chon mau
1.1.1 Phén loai diéu xd hội học thục nghiệm
CHƯƠNG |: TONG QUAN VE: CHON MAU NGAU NHIEN TRONG
- Khi nghiên cứu về xã hội có rất nhiều các dạng điều tra khác nhau
Điều tra xã hội học chỉ là một trong những dạng điều tra đó Có thể phân loại
các dạng điều tra như sau: CAC LOAL DIEU TRA v Ỷ r Vv Ỳ
Theo nội dung
Theo phạm vi Theo thời gian Theo cach tiếp cận | | | - 4 , | Diéu tra thông kê Điều tra xã hội học Điều tra khác Điều tra toàn bộ Điều tra Ỳ Điều tra khơng thường tồn bộ Xuyên Vv Điều tra không thường xuyên tra trực tiếp Điều tra chọn mẫu Điều tra điển hình Điều tra không trực tiếp
- Các cuộc điều tra nghiên cứu xã hội ban đầu chủ yếu là các cuộc điều tra toàn bộ (thế ký 19) rồi điều tra chuyên khảo (Monography) sau đó nhờ sự phát triển của toán xác suất thống kê các cuộc điều tra hiện nay trong xã hội học chủ yếu là điều tra chọn mẫu
Điều tra chọn mẫu là chỉ điều tra một bộ phận của tổng thể điều tra
song lại có khả năng suy rộng cho tổng thể điều tra phản ánh phù hợp những
Trang 12Trước tiên ta thấy điều tra chọn mẫu khác với điều tra tổng thế nó chỉ lấy một phần dơn vị của tổng thể điều tra không như điều tra tổng thể phải lấy
đầy đủ tất cả mọi thành viên của khối dân cư để nghiên cứu (việc khó nhất phải lập được đây đủ các đơn vị cơ bản cần điều tra)
- Thứ 2 cũng cần phân biệt với điều tra điển hình hay là điều tra theo
kinh nghiệm và xét đoán điều tra này nhiều khi mang tính đại diện rất cao
nhưng không cho người ta biết được những mẫu dược chọn như vậy có đúng
là đại diện cho tổng thể điều tra hay không, vì nó bị ảnh hưởng rất nhiều vào
sự lựa chọn chủ quan của nhà nghiên cứu
1.1.2 Một số khái niệm có liền qua:
- Đơn vị nghiên cứu (đơn vị điều tra, đơn vị cơ bản) Là đơn vị không phân chia nhỏ được mà từ đó phát sinh ra thông tin cần thu thập Tương tự như vậy ta gọi đơn vị lấy mẫu là những đơn vị không phân chia nhỏ được mà
từ đó ta xây dựng được khung lấy mâu (hay còn gọi la co sở chọn mẫu)
~ Khách thể điều tra (tổng thể điều tra - khối dân cư mục tiêu): Tập hợp (tổng thể) các dơn vị nghiên cứu mà chúng mang thông tin điều tra Hay còn nói dó là khối dân cư mà đối với nó ta cần có thông tin đại diện
- Khối dân cư: là toàn bộ một nhóm các thể loại hoặc cá nhân liên
quan cần nghiên cứu, do vậy nó bao gồm các đơn vị cơ bản Trong khảo sát theo mẫu có 2 loại: Khối dân cư mục tiêu và khối dân cư lấy mẫu
- Khối dân cư lấy mâu: Đó là khối dân cư mà từ đó một mẫu cụ thể được lấy ra căn cứ theo khung lấy mẫu Khung lấy mẫu chỉ là một danh sách các đơn vị lấy mẫu dại diện cho khối dân cư Trong nhiều trường hợp các đơn vị cơ bản và đơn vị lấy mẫu là một nhưng nhiều khi là khác nhau Để phân biệt rõ khối dân cư mục tiêu và khung lấy mẫu, giưã đơn vị cơ bản và don vi lấy mẫu cũng như để xác định rõ đơn vị lấy mẫu như thế nào ta xét những ví
Trang 13* Vi du J: Gia st muốn điều tra chất lượng học tập của sinh viên (hay nhận thức, thái độ của sinh viên đối với vấn để HIV/AIDS) trong các trường đại học ở Hà nội Người sinh viên là đơn vị cơ bản Tất cá sinh viên đang học
tại các trường đại học ở Hà nội là khối dân cư mục tiêu Nhưng thực tế chúng
ta không thể liệt kê được danh sách đầy đủ chính xác các sinh viên ở Hà nội mà ta chỉ có được danh sách các trường đại học ở Hà nội Như vậy mỗi trường đại học ở Hà nội được coi là một đơn vị lấy mẫu Danh sách các trường này
có thể coi là khung lấy mẫu
* Ví dụ 2: Giá sử ta muốn nghiên cứu những người đang cai nghiện ma
tuý (hay bệnh nhân HIV/AIDS, gái mại dâm ) tại một trại cái tạo nào đó
của sở lao động và thương binh xã hội Người bị cải tạo là đơn vị cơ bản Tất cả những người hiện đang bị cải tạo tại đó là khối dân cư mục tiêu Vì ta có danh sách những người hiện đang bị cải tạo tại đó cho nên người bị cải tạo tại đó được coi là đơn vị lấy mẫu Còn danh sách những người bị cải tạo như là khung lấy mẫu
* Ví dụ 3: Giả sử ta muốn điều tra phân tầng xã hội tại một thành phố nào đó có thể Hà nội hay thành phố Hồ Chí Minh Hộ gia đình là đơn vị cơ bản, tổng tất cá các hộ gia đình ở đó là khối dân cư mục tiêu Giả sử ta không có được danh sách các hộ gia đình ở đó nhưng có tấm bản đồ tại đó chỉ rõ
từng khu nhà cụ thể ở đó Khi đó mỗi khu nhà có thể được coi là đơn vị lấy
mẫu Danh sách các khu nhà như vậy được dùng như là khung lấy mẫu (hoặc chúng ta có thể theo diện tích trên bản đồ thì các đơn vị diện tích đó được coi
là đơn vị lấy mẫu và tập hợp các đơn vị này cho ta khung lấy mẫu)
- Vi du 4; Gia su ta muốn điều tra hiệu quả của công tác truyền thông dân số đốt với nông dân tại một tính nào đó Đơn vị cơ bản là người nông dân, Tổng tất cá những người nông dân trong tỉnh là khối dân cư mục tiêu Giả sử muốn có danh sách những người nông dân tại tính đó phái tốn rất nhiều thời
gian để tổng hợp hơn nữa những danh sách đó lại không thể liệt kê được đảy đủ chính xác những người nông dân tại thời điểm dó Trong trường hợp như vậy một đơn vị lớn hơn như huyện, xã hoặc một địa phận ở dó có thể được coi là đơn vị lấy mẫu Còn danh sách những đơn vị lớn hơn này được coi như
Trang 14là khung lấy mẫu Do đó, mẫu của các đơn vị lớn hơn này sẽ bao quát mẫu
của các đơn vị nhỏ hơn
1.2- Những lý do cần điều tra chon mau:
- Con người có những cái chung, có những cái ảnh hưởng với nhau Do vậy, có thể áp dụng một số công thức toán để tiến hành điều tra chọn mẫu
- Điều tra chọn mẫu cho ta thông tin nhanh và rẻ hơn Mẫu thường nhỏ
hơn nhiều so với khối dân cư mục tiêu Do đó việc thu thập và xử lý thông tin
nhanh hơn Mặt khác chỉ phí cho việc thu thập thông tin cũng sẽ thấp hơn nhiều Điều tra toàn bộ trên tổng thể quá lớn sẽ đòi hỏi chỉ phí nhiều về vật chất và thời gian còn điều tra chọn mẫu có thể tiết kiệm cả về thời gian và kinh phí Đây là một trong những yếu tố cơ bản nhất buộc chúng ta phải tiến hành điều tra chọn mẫu Bởi vì các thông tin mà điều tra xã hội học cần thu thập chủ yếu để giải quyết các vấn đề của thực tiễn xã hội đặt ra nhất là cung cấp thông tin cho các nhà quản lý xã hội Chẳng hạn thông tin để giúp họ ban hành những chính sách mới cho phù hợp thực tế hay cần biết dư luận xã hội
về một hiện tượng hay vấn đề xã hội nào đó mới xuất hiện như thế nào
- Điều tra chọn mẫu không chỉ cho thông tin nhanh mà có khi còn cặn kẽ hơn Vì mầu nhỏ cho nên ta có thể điều tra cặn kế hơn đối với từng đơn vị
chọn mẫu nhất là các thông tin định tính như phỏng vấn sâu hay thảo luận
nhóm tập trung Nếu làm đối với tất cả các đơn vị cơ bản của khối dân cư thì
rất đắt và nhiều khi không thể có đủ các chuyên gia để làm, cũng như không có thời gian
- Điều tra chọn mẫu cũng có khi cho ta thông tin chính xác hơn Vì với
mẫu nhỏ ta có thể huy động đựơc một nhóm chuyên gia trình độ cao tham gia
do vậy ít sai sót hơn Nhiều vấn đề xã hội học nghiên cứu rất phức tạp cần những người tham gia có hiểu biết sâu về nhiều lĩnh vực không thể điều tra trên tổng thể Khi điều tra trên qui mô lớn sẽ dẫn đến các sai sót trong quá trình tập huấn, thu thập thông tin hạn chế độ chính xác của kết quả phân tích Nếu chọn mẫu theo xác suất ta có thể tính được độ tin cậy của kết quả
Trang 15- Nhiều vấn đề trong thực tế xã hội chúng ta không thể tiến hành điều
tra trên tổng thể được vì các đơn vị cơ bản của tổng thể bị phá huỷ trong quá
trình nghiên cứu cần phải tiến hành điều tra chọn mẫu Vì ta điều tra để thu thập thông tin của những con người vừa là chủ thế và là khách thể của xã hội
họ luôn vận động biến đổi không ngừng
- Nhiều khi điều tra toàn bộ với qui mô tập hợp quá lớn nên có thể xảy ra trường hợp tính trùng hoặc bỏ sót các đơn vị cơ bản của nó
- Trong nhiều trường hợp không thể nắm dược toàn bộ các đơn vị cơ bản của tổng thể cần nghiên cứu, do đó không thể tiến hành nghiên cứu toàn
bộ được
Vì những lý do trên trong thực tế phương pháp nghiên cứu trên tổng thể
thường chỉ được áp dụng đối với tổng thể có qui mô nhỏ còn chủ yếu người ta áp dụng phương pháp nghiên cứu khơng tồn bộ, đặc biệt là nghiên cứu chọn mẫu
1.3- Vài nét về lịch sử của phương pháp điều tra chọn mẫu
Chúng ta đã biết đến vai trò của lý thuyết đối với phương pháp nghiên cứu Chủ yếu theo 2 cách:
- Từ lý thuyết đến phương pháp thực tế, ở đây sự ra đời của phương pháp thực tế không phải xuất phát từ thực tế mà do xuất phát từ trong nghiên cứu lý thuyết
- Cách 2 mở rộng từ thực tế đến một phương pháp nào đó Sự ra đời của
phương pháp điều tra chọn mẫu xuất phát từ cách thứ 2 này tức là từ nghiên
cứu thực tế,
Phương pháp chọn mẫu có thể nói có từ thế ký 19 chủ yếu có liên quan đến những nước có sử dụng nó Dau thé ky 19 những nước này là phong kiến do vua lãnh đạo do vậy họ không thấy nhu cầu cần thiết số liệu điều tra về xã
hội, nhưng khi chuyển sang tu bản lãnh đạo là những người quản lý lãnh đạo xã hội, quản lý nhà nước họ cần có những thông tin chính xác về tổng thể xã hội Vì vậy họ đã chú ý đến những phương pháp thu thập thông tin, Lúc đó có 2 phương pháp chính để thu thập thông tín:
Trang 16* Téng diéu tra dân số:Mỗi người đều được đếm, đều có thông tin về họ ==> phương pháp này rất tốn kém không chỉ về thời gian mà cả về tài
chính
* Điều tra chuyên khảo: chỉ xem xét một số đơn vị nhất định mà thôi thường họ lấy đơn vị địa lý để chọn nghiên cứu Phương pháp này có những
khó khăn chỉ chọn những xã, thành phố đại diện cho tổng thể, cơ sở thống kê
cho nó chưa được khẳng định một cách vững chắc Tất nhiên có thể sử dụng
kiến thức thống kê nhưng ở đó phải dựa trên những giả định để khái quát từ mẫu lên tổng thể Cuối thế kỷ 19 có nhiều tranh cãi 2 phương pháp trên
phương pháp nào tin cậy nhất: Về tổng điều tra có cái khó phải đến được
những thành viên cuối cùng (vì hữu hạn không phải vô hạn)-có nhiều nhóm xã hội rất khó xác định vì họ làm nghề di động hay ở những nơi heo lánh không thể đến được như ở ngoài đảo, núi cao Hơn nữa nó lại rất tốn kém
- tiến hành chậm
* Năm 1895 Kiaer (Na uy) ra luận điểm tổng điều tra rất tốn kém còn chuyên khảo khó khái quát, nhưng ông là người đầu tiên đặt ra 4 tiêu chuẩn
cho chọn mâu: I- Đại diện |
2- Khách quan ( không có ảnh hưởng chủ quan của ta vào chọn
mẫu )
3- Khả năng đo lường được (điều này rất thông dụng mang tính chất khoa học là phải đo lường được, khi nghiên cứu mâu được chọn ông chị
ra có những sai số trong quá trình lấy mẫu )
4- Xác định rõ: Phải cụ thể hoá những tổng thể định chọn mẫu,
các yếu tố điều tra có rõ không Qui mô chọn một số nhóm hay tổng thể quốc - gia Thời điểm cũng có liên quan ví dụ đân số Việt nam 1997 khác 2000
Ktaer là người đầu tiên xác định tiêu chuẩn chọn mẫu, phương pháp chọn của ông chủ yếu là chọn nhiều đơn vị mẫu khác nhau Mỗi đơn vị phải có đặc
_điểm giống như tổng thể Có rất nhiều bàn cãi ở đây đặc biệt những đồng
nghiệp của ông.cuối cùng họ thành lập một uỷ ban quốc gia điều tra làm 10
năm để xác định phương pháp này là đúng và đến năm 1905 uy ban nay ra
Trang 17học Bowley, giáo viên trường kinh tế Luân Đôn (Anh) có bổ sung thêm để có
khách quan cần phải:
- Phương pháp chọn ngâu nhiên - Phương pháp lựa chọn có mục đích
ung dung của phương pháp chọn mẫu khách quan này gần gũi với kỹ thuật chọn mẫu hiện nay của chúng ta Như ta lấy mẫu ngẫu nhiên, cụm, nhiều giai đoạn Như vậy có 2 nguyên tắc cơ bản được rút ra từ đây (ngay từ cuối thế kỷ 19 đầu 20) 2 nguyên tắc trên cho đến nay vẫn được chú trọng trong điều | tra chọn mẫu thực tế:
- Đại diện: Mẫu ta chọn ra giống tổng thể
- Chọn ngẫu nhiên
* Đến năm I934 người ta vẫn chưa tìm ra được cơ sở toán học của
phương pháp chọn mẫu Neyman (Ba lan) là người đầu tiên đưa ra cơ sở chọn
mẫu trong một bài báo dài I5 trang đăng trên báo ở Luân Đôn (rất khó tranh luận chỉ có I5 trang) Fisher nhà thống kê đưa ra làm thế nào để khái quát lên tổng thể bằng phương pháp chọn mẫu theo ông phải sử dụng đo lường theo khoảng chứ không theo điểm và không chính xác 100% bao gồm những giá trị có thể có ở những khoảng (khoảng xác định (fiducial intervals) trong
khoảng đó có những gid tri tin cay gan voi gia tri thực của tổng thể) Neyman không tán thành như vậy Với Fisher có phương pháp khoảng xác dịnh còn Ney man có phương pháp khoảng tin cậy (Confidence intervals chi ra khoang giá trị gần với giá trị thu được ở mẫu đây là những người đưa ra đầu tiên có liên hệ với toán xác suất mới liên quan đến phân bố mẫu chứ chưa phải phân
bố của tổng thể, ông là người đầu tiên đưa ra phân bố mẫu: xem xét tổng thể hữu hạn chứ không phải vô hạn, vì khi chọn mẫu ngẫu nhiên có rất nhiều
phương pháp chọn mâu ===> có nhiều phân bố, ví dụ xác định tuổi có thai
của phụ nữ thì ta có số liệu từ mẫu chứ không phải của tông thể Có 2 nhà: thống kê người Ý tranh luận đầu tiên về vấn để này là Gini và Galvani về
phương pháp tính ước lượng không dựa trên xác suất Hai ông có gặp những
Trang 18- Năm 1920 ở Ý có tổng điều tra đân số xuất bản sách nhưng có nhiều
phiếu điều tra để lưu giữ lại đến 1930 họ muốn điều tra lại nhưng không có chỗ chứa những phiếu diều tra này Họ nảy ra ý lấy những mẫu trong số phiếu điều tra cũ này để làm cơ sở so sánh sau này Để chọn được họ chia ra làm những nhóm đô thị, thị trấn, nông thôn thành phố chọn những mẫu đại diện
sao cho trung bình mẫu tương đương trung bình của tổng thể họ chọn nó gắn
- Với 7 tiêu thức quan trọng khác như tuổi, giới tính Trước khi bỏ đi các ông đối sánh những trung bình mẫu với tổng thể, ngoài 7 tiêu thức trên ông thấy
-những tiêu thức khác rất khác nhau như về tuổi thì tương ứng nhưng về số năm đi học rất khác nhau giữa mẫu và tổng thể ==> việc lựa chọn tinh va
thành phố làm 2 nhóm là không khách quan nhưng nó đảm bảo tính đại diện (đó là không đảm bảo tính ngẫu nhiên) Neyman đi kiểm nghiệm lại những
sai khác nhau của 2 ơng này Ơng chứng minh được phương pháp chọn mẫu
ngẫu nhiên đưa kết quá chính xác hơn nhưng không phải lúc nào cũng như vậy Ngay khi chọn mẫu ngẫu nhiên kết quả có thể rất khác tổng thể Vậy ta cần biết về sự khác nhau giữa các phương pháp chọn mẫu ngẫu nhiên:
- Theo Neyman khi chọn mẫu ngẫu nhiên và theo xác suất tức là chọn sao cho không thiên lệch cho dù cơ cấu của tổng thể như thế nào Sai lệch có nhiều nghĩa như khi nói với mẹ tôi lấy mẫu không sai lệch mẹ tôi nói những mẫu đó giống tống thể phải không, khi nói với đồng nghiệp thì là thủ tục hay không thủ tục của phương pháp chọn mẫu: phải chỉ rõ thủ tục chọn mẫu sao
cho không thiên lệch ( không đặt ra một giá dịnh nào cả, vì khi lấy mẫu xác suất ta phải lấy mẫu không thiên lệch ta không được giả định trước về phương
sai ) Khi lấy mẫu ngẫu nhiên thì nó đại diện cho tổng thể 2 ông Gini và Galvani thì lại dựa trên những giả định như tuổi của mẫu = tuổi của tổng thể
khó mà giả định được như vậy trên thực tế Vì vậy ta chỉ có thể dựa trên phương pháp xác suất khi không được nữa mới nghĩ đến phương pháp chọn có chủ định
* Nói đến phương pháp xác suất đầu tiên phải nói về tổng thể: Nó
Trang 19Việt Nam Có thể giới hạn theo tuổi giới tính như phụ nữ Việt Nam 15-49
năm 1997 chứ không phải trên thế giới dân số này có thể thay đôi dân số già đi có những đặc điểm khác đi theo thời gian Phải tính đến mẫu đại diện
cho tổng thể và có thể điều tra được Ví dụ: có những người khó đến được ở
những vùng sâu vùng xa đi lại khó khăn tốn kém do vậy ta phái tính những người nào điều tra được tức là ở đây ta phái có sự thoá hiệp như chí nghiên cứu những người phụ nữ ở đồng bằng (chú ý ngoài những cái ở trên như tuổi giới tính ==> như vậy ta đã không ngẫu nhiên Vậy những người phụ nữ miền núi có khác không nếu ta không nghĩ đến vấn đề này- thì sẽ rất thiên lệch về
phụ nữ Việt Nam phụ nữ miền núi sẽ có mức sinh khác miền xuôi và phương pháp tránh thai cũng khác (truyền thống) Nếu không tính đến như vậy võ hình chung ta đã xuyên tạc thực tế về người phụ nữ Việt Nam Vì vậy ta cần
nói rõ những gì ta loại bỏ khi chọn mẫu của mình
* Thứ 2 phải có danh sách lấy mẫu: Để biết họ như thế nào những danh sách này đôi khi không có trong thực tế Ví dụ: ở Nam Triều Tiên có thống kê hộ tịch ở cấp quốc gia (tức là có đăng ký dân số ở các địa phương sinh sống)
do vậy họ có danh sách khá đầy đủ về phụ nữ từ độ tuổi 19-45 cho nên ta có
thể lấy mẫu theo danh sách đó coi đó là khung lấy mẫu Còn ở Việt Nam hay
thậm trí Mỹ không có đăng ký dân số thường xuyên như vậy Ta phải quay lại phương pháp từ thế ký 19 với những người ta quan lâm như nhóm những
người theo địa lý nhỏ mà ta có thể tiếp cận được tức là ta đến những đơn vị đó lấy được danh sách ở khu vực đó Từ đó có ý tưởng chọn mầu khu vực Phương pháp chọn mẫu này đã giảm chỉ phí vì chỉ: cần,những dach sách khu vực nhất định Tuy vậy có những điểm cần lưu ý như đối tượng bị bỏ sót trùng
lắp Ví dụ: như về nông thôn ta có danh sách phụ nữ nhưng xu hướng bỏ sót nhiều người từ 19 45 cho nên những người thống kê gọi đó là những người không tiếp cận được hay những người không tính đến
- Trong những năm 30 do đòi hỏi rất lớn về số liệu kinh tế xã hội ở Mỹ
và Châu Âu các cuộc điều tra dược tổ chức ở nhiều nơi và thường xuyên hơn nhất là ở những nước như Ba lan, Bun ga rị, Thuy Điển, Tại Mỹ cục điều tra Mỹ và nhiều trường đại học sứ dụng phương pháp chọn mẫu đầu tiên để đánh
rn
Trang 20giá các đặc trưng của trang trại về công cụ sản lượng mùa màng và gia SÚC “Từ đó diện tích dóng một vai trò là đơn vị lấy mẫu và áp dụng rộng rãi cho “trang trại hộ gia đình Các nhà khoa học xã hội Mỹ đã thử nghiệm nhiều
phương pháp chọn mẫu và kỹ thuật hỏi đáp, trong đó có phương pháp chọn mẫu lô hay còn gọi là bộ phận (quota sampling) đã ra đời và được áp dụng
rộng rãi Tại châu Âu cũng áp dụng nhiều phương pháp chọn mẫu khác nhau
như lý thuyết chon mẫu con (subsampling) và mẫu kép (double sampling) da ra đời từ trại thí nghiệm Rothamster ở Anh cũng như có nhiều phương pháp ước lượng tỉnh vi khác ra dời Tại Ấn độ phương pháp chọn mẫu cũng rất phát
triển do đây là thuộc địa của Anh các phương pháp chon mâu ở đây được ứng
dụng nhiều trong dánh giá năng suất lúa
- Những năm 40 bắt đầu sự phát triển của lý thuyết chọn mẫu với xác suất không bằng nhau ở cục điều tra Mỹ sau đó được áp dụng cho nhiều nơi
khác làm phong phú không chỉ về mặt lý thuyết mà cả mặt thực tiễn của
phương pháp chọn mẫu Thời kỳ này người ta đã quan tâm nhiều đến sai SỐ chọn mẫu và tìm nhiều cách để tính toán nó:”
- Trong những năm 50 điều tra thống kê trở thành cộng cụ quan trọng
của một số cơ quan liên hợp, quốc để điều tra các nước nhằm nâng cao số lượng và chất lượng thông tin về các sự kiện họ quan tâm Phương pháp về điều tra chọn mẫu tiếp tục phát triển.và mở rộng ra nhiều lĩnh vực mới như
nghề cá, chim nguồn nước lrong những năm 60 các nước thành viên hội
đồng tương trợ kinh tế đã áp dụng lý thuyết mẫu trong thống kê rất mạnh mẽ,
các kinh nghiệm ứng dụng đa dạng của các nước này trong việc tổ chức điều
tra mẫu là rất quí báu, làm sáng tỏ nhiều vấn để về mặt lý thuyết chọn mau Đến những năm 70 xu thế tiếp tục phát triển giải quyết nhiều vấn để về
phương pháp chọn mâu đặt ra đặc biệt trong việc tính toán các ước lượng Việc ứng dụng chọn mẫu không chỉ được ứng dụng trong kinh tế mà nó đã
được ứng dụng nhiều vào nghiên cứu xã hội, đặc biệt nó được ứng dụng nhiều
Trang 21ng 5 da hiéu 16 da chon 16 mẫu và tính toán các ước lượng và sai số của việc chọn mẫu như chương trình SPSS, Wesvar, SAS,
1 4- Xác định dung lượng mẫu:
- Số lượng các đơn vị chọn mẫu được lấy ra để nghiên cứu được gọi là
dụng lượng mẫu hay còn gọi là cỡ mẫu Để xác định cỡ mẫu là bao nhiều
trong mỗi cuộc điều tra xã hội học thực nghiệm phụ thuộc vào rất nhiều yếu tố Có rất nhiều công thúc tính cỡ mẫu, các công thức này khác nhau tuy theo các phương pháp chọn mẫu Trong các phương pháp chọn mau trình bày sau
này chúng ta sẽ để cập đến các công thức cụ thể đó, Ở day chúng ta chỉ quan
tâm đến một số công thức ở dạng chung, tổng quát ít liên quan đến các phương pháp chọn mẫu cụ thể Nói một cách bao quát thì cỡ mẫu phụ thuộc 5
yếu tố cơ bản sau:
i- Kha nang vat chat (tài chính và số lượng điều tra viên)
Yêu cầu về độ chính xác
iii- Yêu cầu về số lượng tiêu thức điều tra
iv- Mức độ thuần nhất của tổng thể
v-_ Số lượng don vi trong tổng thể diều tra
- Để có một công thức tốt cần có 5 yếu tố trên trong công thức chọn mẫu nhưng thực tế người ta chưa thể xây dựng được một công thức như vậy, mà chỉ có thể đưa được các yếu tố như độ chính xác, SỐ lượng các đơn vị của tổng thể và mức độ thuần nhất của tổng thể Dưới đây là một số các công thức
tính cỡ mẫu như vậy: Công thức là
A - Sai so
| [- Tỷ lệ người tra lời
T .a.anana.nan - Độ tin cay
A | n - Cỡ mầu
a N- Số lượng các đơn vị
U (1- N - cla tong thé,
Công thức | hay được dung trong điều tra xã hội học Để đơn giản hơn có thế dùng công thức ngán gọn như sau:
Trang 22Ví dụ: Với độ chính xác 95% tức là ta có sai số 5 % hay ta thường ghi 0,05 khi đó thông qua hàm 2(t) ta cd t=1,96 va ta tinh duge mối tương quan giữa N và n như sau: ch “T6001 7720001 300đ 5000 [ 10000] 100000 `" _ 222| 286] 343 | 360] 370 385 | 400 n Cóng thức 2: 4A"
Công thức 2 hay được dùng trong quản lý kinh tế với số lượng đơn vị
của tổng thể điều tra cực lớn Công thức lúc này chỉ còn phụ thuộc t và À Ví
dụ: Với sai số A = 0,05 ta có t = 1,96 thay vào công thức 2 :
(1,96)
"` = - = 384
4A 4.0057 :
Cong thitc 3:
4p.q p- Mức chấp thuận qua điệu tra thử
TT q - Mức xác suất sai lầm qua điều tra thử
NM? A - Sai s6
Công thức 3 hay được dùng cho nghiên cứu dư luận xã hội với số đơn
vị của tổng thể điều tra cực lớn |
Trang 231.5- Sai số của phương pháp chọn mdu:
- Khác với kết cấu tổng thể của kinh tế hay của tự nhiên độ thuần nhất
rất cao, kết cấu trong xã hội thừơng rất đa dạng và phong phú Vậy khi chọn mẫu để điều tra xã hội học thường phải chọn rất nhiều mẫu mới đảm bảo được tính đại điện của mẫu đã chọn (thường ta hay phân ra làm các nhóm thuần nhất và trong các nhóm này ta tiến hành chọn mầu ngầu nhiên): Tính
đại diện của mẫu thể hiện những tiêu thức điều tra thu được trên mẫu có thể
suy rộng trên tổng thể, ngay cả sự phân bố của nó trên mẫu có thể suy rộng ra tổng thể với một độ tin cậy nào đó
- Đối với phương pháp chọn mẫu xác suất do không điều tra toàn bộ
trên tổng thể cho nên các giá trị ta tính toán được là các giá trị của mẫu không
phải của tổng thể Vậy giữa các giá trị ta thu được của mẫu và các giá trị thực tượng ứng của tổng thể có quan hệ với nhau như thế nào Người ta gọi độ lệch
giữa các giá trị thống kê thu được từ mẫu và giá trị của tập hợp tổng quát tương ứng là những sai số của mẫu Tuỳ theo các phương pháp chọn mẫu cụ
‘thé ta có thể.tính được các sai số của nó Thông thường có 2 loại sai sỐ: sai số
ngẫu nhiên và sai số có hệ thống
+ Sai số ngâu nhiên: Là những sai số thống kê vốn có một cách hữu cơ -
của phương pháp chọn mẫu và những sai số gây ra do vi phạm ngẫu nhiên
trong các thể thức thu thập thông tin Như vậy sai số ngẫu nhiên có thể chia
làm 2 loại
- Loại thứ nhất thường được gọi là sai số dại điện đây là độ lệch có tính
bản chất thống kê của các đặc trưng của mẫu so với các giá trị thực của các
đặc trưng đó trong tổng thể, nguyên nhân chính của nó là sự khác nhau về cỡ
giữa 2 tập hợp Nhiệm vụ của các nhà xã hội học nhất thiết phải tính đến những sai số đó khi tính tốn các chỉ tiêu thơng kê của mẫu
Trang 24- Loại thứ 2 của sai số ngẫu nhiên là do những độ lệch không thể kiểm tra được so với mẫu dự định, đây là những sai số khi quan sát và tiến hành thu thập thông tin Nguồn gốc của những sai số đó thường như sau:
+ Thay những đơn vị quan sát đã được qui định theo kế hoạch lấy mẫu bằng những đơn vị quan sát khác dễ thu thập thông tin hơn, nhưng không có giá trị đầy đủ theo quan diểm của kế hoạch lấy mẫu đề ra Những sat số loại
này thường xảy ra với những điều tra viên không có trình chuyên môn đầy đủ
hoặc coi thường qui trình lấy mẫu ngẫu nhiên Ví dụ trong chọn mẫu ngẫu nhiên có hệ thống những điều tra viên đến dúng nhà đó nhưng khong gap ho tự động sang nhà bên cạnh Kết quả dan đến có quá nhiều người về hưu, hay
những gia đình đông người Những sai số đó được gọi là sai số hoán trạng, có thể ngăn chặn những sai số này bằng cách kiểm tra mẫu điều tra cũng như
thông tin của các diểu tra viên chat che tại thực địa Những sai số này có khi dẫn đến những độ chệch nghiêm trong trong mẫu
+ Thu thập thông tin không nhận dược đầy đủ từ một bộ phận các đơn
vị của tập hợp mẫu như không nhận được đủ số các An két gửi qua bưu điện hay qua người trung gian, các bản An két không được điển đầy đủ Người ta có thể xác định được những sai số này bằng cách so sánh mẫu đã dược lập trong thực tế với những mẫu theo kế hoạch từ đó có thể giảm những sai số này bằng cách hiệu chỉnh mẫu tức là tổ chức thu thập bổ sung thông tin chưa đầy dt
jie Sui số có hệ thống: Việc tái tạo không tương đồng các phân bố tổng
quát của mẫu có thể do những nguyên nhân mang tính chất không theo cách chọn mẫu ngẫu nhiên theo xác suất Những sai số này làm méo mó tính chất
của phân chia tổng quát ở trong mẫu: hoặc quá nâng cao hoặc quá hạ thấp các
giá trị của các đặc trưng của tập hợp tổng quát Những sai số này nhiều khi làm mất giá trị kết quả của toàn bộ cuộc nghiên cứu Nguồn gốc cơ bản của những sai số này là:
+ Mẫu lập ra không thích ứng với các nhiệm vụ nghiên cứu
Trang 25bố đó (chẳng hạn, ví phạm tính chất tỷ lệ cân đối cần thiết đối với mẫu đại
diện trong việc lấy đại điện các phần tử kiểu khác nhau của tập hợp tổng quát (nếu như tập hợp tổng quát không thuần nhất về mặt thống kê) do thiếu thông tin cần thiết)
+ Cố ý lựa chọn những phần tử thuận tiện và có lợi nhất đối với việc giải quyết các nhiệm vụ nghiên cứu các phần tử của tập hợp tổng quát, song
những phần tử này không dại điện cho tập hợp tổng quát nói chung (chẳng
hạn chọn những cơ quan, xí nghiệp điển hình, tiên tiến )
- Mọi sai lệch của cơ cấu mẫu so với cơ cấu thực của tập hợp tổng thể trừ những sai số đại diện được gọi là độ chệch của mẫu Như vậy nguyên nhân chính thường là do những sai số hệ thống, nhưng những sai số quan sát
và thể thức thu thập cũng có thể dẫn đến những do chệch nghiêm trọng trong
các phân bố mẫu Ví dụ nổi tiếng về cuộc trưng cầu ý kiến về bầu cử tổng
thống giữa Ru-dơ-ven và Lan-đơn của tạp chí '° bình luận văn hoc “ nam 1936 qua danh bạ điện thoại (2 triệu người ) trong khi đó Gióoc-giơ Hen láp và En- mô Ro-u-pe đã tiến đoán đúng Ru-dơ-ven chỉ dựa trên 4 000 bản an két Độ
chệch này cũng hay gặp khi thu thập thông tin không ngẫu nhiên đại diện như diều tra an két qua bưu điện những người có học vấn cao hay trả lời, nam giới trả lời nhiều hơn nữ, người về hưu trả lời nhiều hơn những người đang đi
làm
l.6- Mội số chỉ tiêu thống kê cần tính toán:
- Phép thứ: Việc thực hiện một nhóm các điều kiện cơ bản để một hiện:
tượng nào đó có xảy ra hay không được gọi là thực hiện một phép thử, hiện tượng có thể xảy ra trong kết quả của phép thử được gọi là biến cố
- Biến cố ngằu nhiên: Là biến cố có khả năng xảy ra hoặc không xảy ra, không phụ thuộc vào ý muốn chủ quan của người nghiên cứu
- Tần suất: Tần suất xuất hiện biến cố A trong n phép thử là tỷ số giữa số phép thử trong đó biến cố A xuất hiện và tổng số phép thử dược thực hiện Ví dụ: Số phép thử là n ; số lần xuất hiện biến cố A trong n phép thử là k và
Trang 26k F(A) =
n
- Cần chú ý khi n tăng lên vô hạn (rất lớn) thì F(A) có thể được coi là xác suất P(A) của biến cố A
1.6.1- Các chỉ tiêu thống kê về đặc trưng của tập hợp:
d- SỐ trung Đình:
Khi số liệu thu được ở dang những chỉ số đo được ta có thể tính trung
bình của dãy số đó Nó được tính bằng công thức sau:
k Xi - trị số đo của tiêu thức cần tính
> fi.xi Ïï - tân suất xuất hiện biến cố Xi i=] k | XK scene > fien
n i=]
Ví dụ a.1: Điều tra về mức thu nhập trong 2 ngày qua của 20 người lao động ngoại tỉnh ở Hà nội Có kết quả như sau: 2 người có thu nhập 50 000 đ;
5 người có thu nhập 52 000 đ; 7 người có thu nhập 55 000 đ; 4 người có thu
nhập 58 000 d; 2 người có thu nhập 60 000 d Tính theo đơn vị 1 000 đ 50x2 + 52x5 + 55x7 + 58x4+60x2_ 1097
en meee ~ 54.85
20 20
* Đặc điểm của số trung bình:
- Dùng một con số nói lên đặc điểm điển hình ví dụ chiều cao của
thanh niên Hà nội I,64 m nói về độ cao trung bình của thanh niên ở Hà nội
- Số trung bình là số cụ thể đặc trưng cho từng loại cụ thể nhưng đồng thời nó lại số trìu tượng vì thực tế không có số đó Ví dụ: số con trung bình của Hà nội là 2,5 con
- Số trung bình san bằng mọi sự chênh lệch giữa các đơn vị trong nhóm Do vậy nó dễ che dấu những dấu hiệu nào đó trong nhóm hay nó làm
Trang 27ở cách giầu nghèo bên trone nó có uw Cc —
c
bình quân thu nhập như nhau nhưng khoản khi lại rất khác nhau
* Khi sử dụng các số trung bình nhiều khi người ta còn sử dụng các số
trung bình trượt hoặc trung bình nhóm để tìm ra qui luật tăng hay giảm của các giá trị đó
* J rung bình nhóm: Lấy 2 hoặc 3 giá trị trung bình kế cận chia 2 hoặc
3 thời kỳ đó, nhằm xác định giá trị trung bình trong những thời kỳ mở rộng hơn, từ đó có thể nhận thấy được xu hướng của biến X 1975 1976 1977 1978 1979 1980 San luong 11 98 12 12,8 12.5 13 10,4 124 1275_
* Trung bình trượt: Với trung bình trượt có thể san bằng những dao
động và lượng hoá của một xu hướng, vì ở đây trở về với mỗi thời kỳ cơ bản
không mở rộng như trung bình nhóm: 1975 1976 1977 1978 1979 1980 San luong oo 9,8 Ị2 12,8 12,5 13 - | 10,93 11.53 12,43 12,76 Cách tính với năm 76: (11 + 9,8 + 12)/3 = 10,93 77: (9,8 + 12 + 12,8)/3 = 11,53 78: (12 + 12,8 + 12,5)/3 = 12,43 79: (12,8 + 12,5 +13 )/3 = 12,76 b- SO trung vi, sO mot:
Trong thực tế số trung bình có thể khó tính người ta có thể lấy số trung
vị thay cho nó Số trung vi: Là số đo giá trị của một tiêu thức nào đó đứng ở vị _trí giữa trong đãy số các giá trị của tiêu thức đó được xắp sếp theo chiều tăng
Trang 28- Xk+ Xk+l
Trở lại ví dụ a.! me = 55 000 đ ở đây n = 5=2.2+1
* Mét: lA phuong an hay giá trị lượng biến của tiêu thức có tần số cao nhất
Ví dụ a.1 có số mốt là phương án 55 000 đd ứng với tần suất cao nhất = 7
1.6.2- Các chỉ tiên thống kê đặc trưng về phân tán của tập hợp:
d- Khoảng biến thiên: lŠ = Xmax - Xmin
Ví dụ a.l: R=60-50= 10 (nghìn đồng)
b- Phương sai: Được tính bởi công thức sau:
k x, - Giá trị của các lượng biến À3 ,(x- X'f, _ x- Số trung bình các giá trị X;
i=| [,- Tần suất xuất hiện x+i
Ga NS ằnằnẳ n - Số lượng các lượng biến n-Í Để đơn giản cho cách tính người ta hay dùng công thức sau: = c o o k k cv (* ) Dy Xi F » Xj [; _ _ =| I= 2 Sx? = xt - (Xx Yo ener =(T==e ======xr ) k k j= Te cong thie (*) ta có thể đễ đàng chuyên thành công thức (**): k k k kk Ox -2x%,x +x); > xe - 2 a xX x + xh xe,
i= i=] i=] i= | I=Ï
pee ee ee ee eee eee w= LL ene ee en ene ne Sr nan 2 XÃ + xX"
n- | n- | n- |
Đơn vị đo của phương sai là bình phương đơn vị đo của giá trị các
lượng biến Vì vậy khi cần phải đánh giá mức độ phân tán của các lượng biến
đó người ta thường dùng đô lệch chuẩn được tính bởi công thức sau:
Trang 29Nếu không tính độ lệch chuẩn người ta có thể tính độ lệch tuyệt đối bình quân theo công thức sau:
k i=]
Thực tế công thức này rất ít khi sử dụng vì phải tính giá trị tuyệt đối
phương sai và độ lệch chuẩn là những giá trị thường được tính
Ví dụ: Vẫn với ví dụ a.I ở trên ta có thể tính phương sai và độ lệch
chuẩn trên cơ sở lập bảng sau: x; f xf Ki 2, 50 2 100 2 500 5 000 52 5 260 2 704 13520 55 7 385 3025 | 21175 58 4 232 3364 | 13456 60 2 120 3 600 7200 1097 - có _60351 — 60 351 | 097 SO =X? - (XP a nwnnennnnee 2 ne ee eee = 9,03 20 20 S= 9/03 ~3
* Đặc điểm của phương sai và độ lệch chuẩn:
- Độ lệch chuẩn càng nhỏ thì tổng thể càng đồng đều và số trung bình càng đại diện cho tổng thể Ngược lại độ lệch chuẩn càng lớn thì tổng thể càng phân tán và số trung bình ít đại diện cho tổng thể Ví dụ: Tuổi kết hôn _
trung bình ở Hà nội và Hải Phòng đều là 25 như nếu độ lệch chuẩn Hà nội 12 còn Hải Phòng 2 thì có sự khác nhau rất lớn về số tuổi người kết hôn ở 2 nơi
Trang 30- Chúng ta thấy độ lệch chuẩn, độ lệch tuyệt đối bình quân đều là trị số
tuyệt đối có đơn vị tính Các trị số này không những phụ thuộc vào mức độ
dạo động của tiêu thức mà còn phụ thuộc vào trị số của lượng biến và số bình
quân Vì vậy, không thể dùng chỉ tiêu này để so sánh biến thiên tiêu thức của
các hiện tượng khác nhau, hoặc giữa các hiện tượng cùng loại nhưng có số
bình quân không bằng nhau Dé có thể so sánh dược người ta tính tỷ SỐ giữa
độ lệch chuẩn (độ lệch tuyệt đối bình quân) với số trung bình của các lượng
_ biến chỉ tiêu này và gọi là hệ số biến thiên:
- Hệ số biến thiên có thể dùng làm tiêu chuẩn để đo tính chất đại biểu
của số trung bình ‘Tri số này tính ra càng nhỏ thì tính chất đại biểu của số trung bình càng cao Nếu hệ số biến thiên vượt quá 40 % thì tính chất đại biểu của số trung bình quá thấp
* Ví dụi: Giả sử ta có số liệu thu được của một cuộc điều tra xã hội
học về thu nhập trong 2 ngày qua giữa 2 nhóm người lao động ngoại tỉnh À ở
(Giảng võ) và B (ở Bưởi) như sau: 10 Nhom A: Xà = 40 (nghin dong); S, = 10 khi do V, = - 100 = 25 % 40 Nhom B: x, = 30 (nghin déng); S;= 9 khi do: Vy, = - 100 = 30 % 30
Nếu so sánh theo độ lệch chuẩn thì ta có thể nói độ biến thiên về thu
nhập của nhóm A lớn hơn (10>9) Nhưng nếu tính kỹ theo hệ số biến thiên thì ta có kết quả ngược lại (25<30) Đó là do bình quân thu nhập giữa 2 nhóm
khác nhau
Vi du 2: Do chiéu cao va can nặng của một lớp học ta có: Chiéu cao
- rung bình của lớp học là: 152 cm; độ lệch chuẩn: 8 cm; Trọng lượng trung
Trang 31thức này ta không làm được vì đơn vị đo khác nhau, chỉ có cách phải tính hệ số biến thiên: 8 V ag = nn 100 = 5,9 % 152 4 Vang = 100 = 10 % 40
- Qua hệ số biến thiên này ta mới kết luận được trọng lượng của học sinh dao động nhiều hơn chiều cao
- Tro lại ví dụ a.I ta có thể tính được hệ số biến thiên V„
3
` ` 100 = 5.469 %
- Vy nhỏ hơn 40 % cho nên có thể coi bình quân thu nhập qua 2 ngày
54,85 nghìn đồng là đại diện cho nhóm
Câu hỏi ôn tập chương I:
| Anh (chị) hãy trình bày những lý do dẫn đến trong điều tra xã hội học thực nghiệm thường thu thập thông tin qua mẫu |
2 Nêu những yếu tổ thường anh hưởng dến xác định cỡ mẫu, công thức tính cỡ mẫu đối với phương pháp chọn mẫu ngẫu nhiên đơn giản (thường
được áp dụng trong điều tra xã hội học thực nghiệm), tính cỡ mẫu với tông
thể có 1000 đơn vị nghiền cứu, độ chính xác 95% (t=1,96)
3 Sai số trong chọn mẫu ngẫu nhiên là gi ? Có may loại sai số, với mỗi -
loại sai số cho ví dụ minh hoạ và cách khắc phục
4 Trình bày và nêu ý nghĩa của các chỉ tiêu thông kê đo lường về đặc
trưng của tập hợp
2 Trình bày và nêu ý nghĩa của các chị tiêu thống kê đo lường về mức độ phan tan cua tap hợp
Trang 32CHƯƠNG Il- CÁC PHƯƠNG PHÁP CHỌN MAU NGAU NHIÊN 2.1- Phuong pháp chọn mẫu ngẫu nhiên đơn giản
2.1.1- Mô tả cách tiến hành:
- Lấy mẫu ngẫu nhiên là quá trình lựa chọn một mẫu hoặc một tiểu bộ
phận từ tập hợp của tất cả các đơn vị lấy mẫu, sao cho mỗi đơn vị lấy mẫu
trong khung lấy mẫu một cơ hội được lựa chọn như nhau (tức là mỗi đơn vị được chọn vào mẫu một cách trực tiếp với xác suất đều)
- Cách chọn mẫu ngẫu nhiên có 2 loại: hoàn lại (lặp lại) và không hoàn lại Chọn có hoàn lại là trường hợp đơn vị đã được chọn vào mẫu tiếp tục
tham gia vào việc chọn mẫu tiếp theo, do vậy khi lấy mẫu có thể đụng phải
nhiều lần cùng một cá nhân cho nên thực tế người ta ít sử dụng cách này
Chọn khơng hồn lại là đơn vị đã chọn vào mâu không được tiếp tục tham gia
vào việc chọn mẫu tiếp theo, do vậy xác suất để chọn các đơn vị vào mẫu không giống nhau Khi tổng thể điều tra lớn và cỡ mẫu nhỏ thì xác suất này sai khác nhau không đáng kể vì vay có thể coi xác suất lựa chọn các đơn VỊ vào mẫu là như nhau và các công thức tính toán của mẫu có hoàn lại có thể
dùng cho chọn mẫu khơng hồn lại
- Minh hoa: Giả sử ta muốn nghiên cứu 4 sinh viên, cụ thé 1a A, B, C, D Giả sử ta quyết định chọn mẫu ngẫu nhiên khơng hồn lại 2 sinh viên để
nghiên cứu Khi đó khối dân cư: A, B, C, D
Khung lấy mẫu: Danh sách 4 sinh viên này
Có thể có 6 mâu chọn 2 sinh viên trong 4 sinh viên này:
(A, B) (B, C)
(A, C) (B, D)
(A, D) (C, D)
Khi lấy mẫu ngẫu nhiên đơn giản có hoàn lại mỗi sinh viên đều có cơ
hội được lựa chọn như nhau vào một mẫu bất kỳ nào trong 6 mẫu có thể Mỗi
mội trong số 6 mẫu có thể cũng có cơ hội được lựa chọn như nhau
Trang 33- Gia str tién hanh nghién cứu một lớp học có 15 sinh viên 15 vòng
tròn hinh 3.1 biểu thị I5 sinh viên trong lớp này Việc sử dụng biểu tượng (vòng tròn) cho thấy rằng các sinh viên ít nhiều đều có những đặc trưng đồng
nhất, chẳng hạn như cùng một lứa tuổi, cùng một trình độ hiểu biết Cần lưu
ý rằng họ không nhất thiết phải đồng nhất trong mọi điều - mà chỉ trong
những đặc trưng có liên quan đến việc nghiên cứu Những chữ cái trong vòng
tròn là chữ đầu của tên sinh viên: Hinh 3.1 O WO WO @& OO CO Œ) Œ) OO OY @ © - Đơn vị lấy mẫu : Người sinh viên là đơn vị lấy mẫu LỒ
- Khung lấy mẫu: Danh sách tên I5 sinh viên,danh sách này có thể lấy được qua giáo viên chủ nhiệm
Giá sử ta cần chọn mẫu ngẫu nhiên 6 sinh viên thì các bước tiến hành
như sau: | |
1- Lập danh sách các sinh viên và ghi số sê ri tương ứng từ 01 đến I5: c=
Trang 34J 10 K II L 12 M 13 N 14 O L5
¡i- Chọn 6 số ngẫu nhiên bằng cách dùng bảng các số ngẫu nhiên (bảng này được tạo nhờ một vòng bánh xe điện tử, phương pháp đơn giản tạo ra các số ngẫu nhiên được minh hoa trong trò chơi Bingo Có rất nhiều bảng ngẫu nhiên như bảng của Tippett gồm các số có 4 chữ số; Bảng của Fisher và Yates; Bảng của Kendall va Babington Smith gồm các số 5 chữ số; Bảng của
Burke Haton; Bảng của công ty Rand) Vì 15 là con số 2 chữ số cho nên hãy
dùng bất kỳ 2 cột nào của bảng Bỗ qua các số lớn hơn 15 và bỏ qua các số đã được chọn Giả sử các số ngẫu nhiên đã được chọn là các số từ cột 3 và 4 Các
số này như sau: II 14, 01, 02, 07 12 Nếu các cột 3 và 4 đã hết số mà vẫn
còn cần chọn thêm những số ngầu nhiên, thì 2 cột tiếp theo 5, 6, 7 và 8 sẽ | được sư dụng
i- Mẫu 6 sinh viên đã được chọn là:
Mẫu Sinh viên tương ứng 11 K 14 N 01 A 02 - B 07 G 12 : L 2.1.3- Tinh todn
Sau khi chọn được mẫu như trên người nghiên cứu có thể thu thập số liệu bằng các kỹ thuật mà họ đã chọn như phỏng vấn, An két Bước tiếp theo là tính toán Ví dụ: Ta thu được thông tin về chỉ phí cho mua sách của sinh viên hàng tháng Ta cần một số tính toán như số trung bình Gia su chi phí hàng tháng (gọi là biến số X) của 6 sinh viên trong mẫu như sau:
Sinh viên trong mâu Chi phi hang thang (Xi) (don vi 1 000 d)
Trang 35Sinh vién N 6 Sinh vién A 8 Sinh vién B 12 Sinh vién G 5 Sinh vién L 7
Tính giá trị trung bình Đối với cách chọn mâu ngẫu nhiên đơn giản các
phương pháp tính giá trị trung bình và giá trị biến thiên của mẫu được giới thiệu trong bất kỳ cuốn sách thống kê nao
2 1.3.1 - Tính giá trí trung bình khối dân cu (% ): (3.1) n d x, i=] Tổng các chi phí hàng tháng n Kích thước mẫu ID+6+ +5+7 48 XS een enn cere = = 8 (nghìn đồng) 60 | me)
X = 8 (nghin đồng) đó là giá trị trung bình tính được của giá trị chỉ phí mua
sách hàng tháng của cả lớp Lưu ý rằng thực tế đó là của 6 sinh viên trong
mẫu, nhưng đó là cách tính chi phi hàng tháng mua sách của 15 sinh viên trong khối dân cư hoặc khi các số liệu được sắp xếp trong bảng tần suất, thì
giá trị trung bình có thể được tính bằng các phương pháp thích hợp cho việc
tính toán giá trị trung bình của day phan bố liên tục
2.1.3.1.a - Tính tổng khối dân cư Giả sử vấn đề đặt ra là tinh tong chi phí hàng tháng của tất cả sinh viên trong lớp
A
Tinh tong khoi ddncu (x): (3.2)
A
x= Nx, Gday N: T6ng so sinh vién trong khéi dan cu
x: Chi phi binh quan hàng tháng đối với mẫu
A
x = 15x8 = 120 (nghin déng) Do là tính tong chi
phí hàng tháng của cả lớp LŠ sinh viên
Trang 36Các tình huống khác có thể áp dung phương pháp tính tổng là: Tính
tổng số héc ta đất canh tác của khối dân cư nông dân, tính tổng thu nhập
2.1.3.1.b - Tính giá trị biến thiên của giá fHỊ trung bình mẫu Khi chọn mẫu 6 sinh viên trong ví dụ trên chỉ có I mâu kích thước 6 sinh viên được
xem xét Tuy nhiên, cũng nhận thấy có thể có nhiều mẫu 6 sinh viên khác được thiết kế từ I5 sinh viên trên Giá trị trung bình của các mẫu có thể có này có đú gần gũi hay rất khác nhau ? Việc tính toán các giá trị biến thiên của giá trị mẫu bảo dám câu trả lời cho câu hỏi này Nó cho ta khoảng biến thiên của giá trị trung bình mẫu |
- Giá trị biến thiên tính toán của giá trị trung bình mẫu (phương sai mẫu) Hay còn gọi là sai số đại diện :
N - Tổng số các đơn vị lấy mẫu trong khối dân cư z + z ` CỞ 1^ “A tà ^ n - Kích thước mâu và S“ là biến thiên mâu f= n/N " n n >, ( Xj 7 x) nÐ,x¿-Ô, x)" i=! i=| =| S = we ee ee — Hue ee e+ eH n-| n(n -1) N-n
Ở day ~ - = ] - ƒ là sự điều chỉnh dân cư hữu hạn Nó có thể được bỏ N : qua nếu nó lớn hơn hoặc bằng 0,95 Nếu ta điều tra tất cả thì I - f= 0 khi đó
không có phương sai mâu chứ không phải không có phương sai tổng thể vì
các phương sai cụ thể của từng học sinh vẫn có Ở đây sai lệch giữa số trung
bình x của mẫu vơí tổng thể coi như bang 0 Ví dụ: điều tra 3 nước cùng |
mẫu I triệu giả sử với Trung quốc dân số Í,2 tỷ ta có f = | 000 000/ 12 000
000 = 1/1200 như vậy | - F ~ 1 Như vậy sự sai khác V(x) L/n Sˆ Tương tự
nếu điều tra ở Việt Nam ta cũng có f = 1/74 va | - f= | vi vay V(x) ® 1/n S”
Trang 371 - f = 0,75 né làm giảm đáng kể phương sai mẫu Ngược lại nếu muốn
phương sai mẫu như nhau với 3 nước trên như với Ixerlan l triệu thì ở Việt
Nam và Trung quốc cũng phải tăng cỡ mẫu lên tương ứng nhưng về thống kê chưa chắc có ý nghĩa vì có khi S của mỗi nơi một khác và có khi vẫn lấy đúng dung lượng mẫu đó Vấn đề ở đây là cần chọn nguGng cho | - f thong thường
người ta coi ƒ <= 1/100 là như nhau
- Từ công thức ta thấy nếu n - số lượng mầu càng lớn thì phương sai
càng nhỏ,
- S cho ta sự khác biệt giữa các yếu tố x, (học sinh với học sinh phụ nữ
với phụ nữ về điểm về tuổi ) Hay nói đó là do chính bản thân sự khác nhau
giữa các yếu tố mẫu, nó là thuộc tính của nó ta không thể làm khác được Nếu ta điều tra về điểm trung bình giữa Hà nội ; thành phố Hồ Chí Minh: hay Mi chi Gan thi ta sé cd cdc S khác nhau giữa 3 khu vực này là do bản thân cấu trúc của nó Ví dụ T: Vẫn ví dụ trên n n n 2,(x-x)” nỀx)-Qx} i=] i= | i=] S= ee eee n-| n(n -1) 6(102+6ˆ2+ +5°+77)-(0+6+ + 5+7} ÔÔÔÔÔÔÔÔÔÔÔÔÔÔ ,Ô | 6(6-1) 6(418) - (48)? 2508-2304 = anne naan nnn nan nae na = 6,8 6(5) 30 _ N-n [5-6 9 V(x) = ( - ).S = re ) 6,8 = ( -) 6,8 = 0,68 Nn 15.6 90 N-n 15-6 Sự điều chính dân cư ở đây không bỏ qua được vì - —= = ernrnnr =0,4 N I5
la rat nho Tt day ta co khoang tin cay (x -t.V 0, 68; x + LN 0, 68 ) Giả sử với độ chính xác 95% ta c61 = 1,96 khi do khoang tin cay sé la:
(x- 196 0,68: x + 1.96 V0, 68 )=(8 - 1.62: 84 1,62) = ( 6,38;9,62)
Trang 38Vidu 2: Tinh bién thiên của giá trị trung bình mâu nhỏ so với khốt dân cư Mẫu được coi là nhỏ so với khối dân cư nếu n/N bằng hoặc nhỏ hơn 0,05, và là lớn nếu nó lớn hơn 0,05 Khi mẫu lớn công thức 3.3 có thể sử dụng tính biến thiên của giá trị trung bình mâu Tuy nhiên, nếu mẫu nhỏ và sự điều chính dân cư có thể bỏ qua, thì công thức 3.3 sẽ là: S 0,68 V(X)= ———- a ~ O,11 (3.3*) n 6 | 000 - 30 Vi du: Néu N = ! 000 và n= 30 thì sự điều chỉnh dân cư la: - = 0,97 I 000
Điều này giả thiết rằng mẫu nhỏ so với khối dân cư Biến thiên của giá trị
trung bình có thể tính được bằng công thức 3.3” Sử dụng công thức này làm
cho cách tính được dễ dàng hơn
2.1.3.2 - Tính tý suất đân cư : Giả sử, thay vì tính chi phí hàng tháng - của sinh viên ở trên ta cần tính tỷ suất sinh viên tán thành một đề nghị nào đó
Van dé này là một vấn đề tính toán bao hàm những số liệu trìu tượng Các
trường hợp tính toán khác bao hàm những số liệu trìu tượng có thể là tính tỷ suất: Tính tỷ suất những người thuộc cùng một loại, một nhóm hoặc một giai tầng nào đó, tính tỷ suất những người tỏ thái độ đối với một quan điểm cụ thể
(tức là tán thành, do du, khong tan thành )
- Minh hoạ: Trở lại ví dụ 15 sinh viên trên giả sử bây giờ là tính tý suất
sinh viên tán thành bố sung thêm giờ học toán vào chương trình giảng dạy
Các câu trả lời của những người trả lời được đánh dấu như sau:
Trang 39n ‘2, Xi i=] Tổng s6 don vi lay mau thuoc | loai nhat dinh P= - ae ¬ ,ƠỎ | n Kích thước mẫu ở đây XI = Ì hoặc 0 tương ứng với những người "tán thành" hoặc 'không tán thành" 2 I Pp = - = - = 0,33 6 3
Như vậy, chỉ có một phần ba lớp học I5 sinh viên tán thành đề nghị này
2.1.3.2 - Tính tổng dân cư : Tương tự như trên ta có công thức tính
tong dan cu: | | SỐ
| Np = (Tổng số đơn vị lấy mẫu trong khối dân cư )x(tÿ suất tính được) Np=15.1/3=5
Nhu vay c6 khoang 5 sinh viên trong lớp (khối dân cư) tán thành đề
nghị bổ sung thêm giờ học toán vào chương trình giảng dạy Cần lưu ý giá trị của Đp có thể khơng là số nguyên, khi đó ta có thể làm tròn giá trị này bằng
số nguyên gần nhất
Trang 409 I 2 9 2 2 = | - |b + (=) |= be De | = - = 0, 02607 1545) 3 3 75 9 75 - "Ta có khoảng tin cậy được xác định như sau trước hét c6A=t JF (p) A = 1,96 [0.0267 = 1,96 0,16 = 0,314 (Với độ chính xác 95%; t = 1,96)
Khoảng tin cậy là( 0.331-0,314; 0,331 + 0.314) = ( 0,017; 0,645)
2.1.4- Xác định dung lượng mẫu:
Dung lượng mầu thường được xác định cho 3 trường hợp sau:
* Trường hợp T: (Khi biết trước giá trị biến thiên ơˆ hoặc tỷ suất p của
khối dân cư P ) Cần biết trước 4 gia tri sau:
I-N - Tổng số đơn vị của tổng thể điều tra cần lấy mẫu
2- A - Sai số tối đa cho phép (độ lệch cho phép so với giá trị trung
pin) | |
~t- Giá trị biến thiên chuẩn
4 - 6 hoac P o” hoặc P là giả định, nó được tính toán và biết được sau cuộc khảo sát Để xác định dược dung lượng mẫu ta cần giả thiết trước, có 4 cách để giá thiết trước:
¡- Sử dụng Ø ? hoặc P đã biết qua điều tra thử
ii- Lay mau theo 2 giai đoạn: Giai đoạn l: điều tra một mẫu n, để tính toán nạ ơˆ hoặc P Giai đoạn 2 xác định được cỡ mẫu n; đòi hỏi và lấy mẫu bổ
sung cần thiết (n; < nj)
ii- Sử dụng các G? hoặc P của các cuộc khảo sát trước đó với khối
dân cư này
- Phỏng đoán sau khi tham khảo những người am hiểu khối dân cư này
Công thức tính toán cỡ mâu: Từ cơng thức tính tốn sai số đại diện V(x) của phương pháp chọn mẫu hoàn lại: Ta có A=t V(x) do vậy ta có công thức tính cỡ mẫu rs? he - 2
Từ công thức tính toán sai số đại diện V(x) của phương pháp chọn mẫu