Chương I GIỚI THIỆU MÔN HỌC1.1 Khái niệm thống kê Khái niệm: Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính toán các đặc trưng của đối tượn
Trang 1Bài giảng Xác suất thống kê
Trang 2MỤC LỤC
Bài giảng 1Xác suất thống kê 1MỤC LỤC 2
Trang 3Chương I GIỚI THIỆU MÔN HỌC
1.1 Khái niệm thống kê
Khái niệm: Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp,
trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quátrình phân tích, dự đoán và ra quyết định
Thống kê thường được phân chia thành 2 lĩnh vực:
- Thống kê mô tả: là các phương pháp có liên quan đến việc thu thập số liệu, tóm tắt,trình bày, tính toán và mô tả các đặc trưng khác nhau để phản ánh một cách tổng quát đốitượng nghiên cứu
- Thống kê suy luận: là bao gồm các phương pháp ước lượng các đặc trưng của tổngthể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trên
cơ sở thông tin thu thập từ kết quả quan sát mẫu
1.2 Đối tượng nghiên cứu của thống kê
Các nhà thống kê học nổi tiếng trên thế giới đều thống nhất đưa ra nhận định sau đây
về đối tượng nghiên cứu của thống kê
Thống kê học là môn khoa học xã hội, nghiên cứu mặt lượng trong mối liên hệ chặt chẽ với mặt chất của các hiện tượng kinh tế- xã hội số lớn, trong điều kiện thời gian và địa điểm
cụ thể.
Từ nhận định này, chúng ta cần hiểu đúng đối tượng nghiên cứu của thống kê ở cácđiểm chính sau
1.2.1 Thống kê học là một môn khoa học xã hội
Thống kê học là một môn khoa học xã hội, bởi vì thống kê nghiên cứu các hiện tượngkinh tế - xã hội hay quá trình kinh tế xã hội Các hiện tượng và quá trình đó thường là:
* Các hiện tượng về quá trình tái sản xuất mở rộng như cung cấp nguyên liệu, quy trình
Trang 4* Các hiện tượng về đời sống chính trị, xã hội, bầu cử, biểu tình
* Ngoài ra thống kê còn nghiên cứu ảnh hưởng của các hiện tượng tự nhiên đến sự pháttriển của các hiện tượng kinh tế xã hội, như ảnh hưởng của khí hậu, thời tiết, của các biệnpháp kỹ thuật tới quá trình sản xuất nông nghiệp, kết quả sản xuất nông nghiệp và đời sốngnhân dân
1.2.2 Thống kê nghiên cứu mặt lượng trong mối liên hệ chặt chẽ với mặt chất của số lớn hiện tượng và quá trình kinh tế xã hội
a) Mặt lượng (những biểu hiện cụ thể, đo lường được)
* Quy mô của hiện tượng: Các mức độ to nhỏ, lớn bé, rộng hẹp
Ví dụ: Diện tích canh tác của 1 doanh nghiệp nông nghiệp A năm 2005 là 500 ha, dân
số trung bình của Việt Nam 2003 là 80,90 triệu người (Niên giám thống kê 2003), tổng sốsinh viên của 1 lớp năm học 2005 - 2006 là 80 người
* Kết cấu của hiện tượng: Hiện tượng tạo nên từ các bộ phận nào, mỗi bộ phận chiếmbao nhiêu %;
Ví dụ: Lớp có 50 học sinh, nam là 40 học sinh, chiếm 80%, nữ là 10, chiếm 20%
* Tốc độ phát triển của hiện tượng: So sánh mức độ của hiện tượng theo thời gian
để thấy mức độ tăng hay giảm của hiện tượng;
* Trình độ phổ biến của hiện tượng: Tính cụ thể phạm vi xảy ra hiện tượng, cá biệt hayphổ biến từ đó thấy được ảnh hưởng của nó tới hiện tượng lớn hơn
Ví dụ: Tỷ lệ tai nạn giao thông xe máy năm 2004 là 2%, có nghĩa là cứ 100 người
đi xe máy thì có 2 người tai nạn
Trang 5* Mối quan hệ tỷ lệ giữa các hiện tượng hoặc giữa các tiêu thức của cùng một hiệntượng.
b) Liên hệ chặt chẽ với mặt chất của số lớn hiện tượng
* Thông qua các mặt lượng của hiện tượng để đánh giá bản chất của hiện tượngnhư quy mô to nhỏ, bộ phận nào nhiều hay ít, xu hướng tiến lên hay giảm đi, mức độ phổbiến của hiện tượng thế nào nhưng để đánh giá một cách khách quan bản chất của hiệntượng thì mặt lượng của hiện tượng phải được thể hiện ở số lớn đơn vị chứ không phải ởtừng đơn vị cá biệt
Ví dụ, đánh giá kết quả học tập 2 sinh viên A, B cần dựa vào kết quả học tập nhiều học
kỳ, nhiều môn; dựa vào ý thức phấn đấu, sự tham gia các phong trào đoàn, quan hệ bạn bè Việc làm như vậy người ta gọi là nghiên cứu mặt lượng ở số lớn
Nhưng để hiểu sâu sắc hơn bản chất của hiện tượng, người ta cũng nghiên cứu nhữngđơn vị tiên tiến, hoặc lạc hậu là những biểu hiện cá biệt
* Thống kê không nghiên cứu bản chất và quy luật của hiện tượng, mà thông qua mặtlượng có thể đánh giá được bản chất và tính quy luật của hiện tượng
1.2.3 Thống kê nghiên cứu các hiện tượng và quá trình kinh tế xã hội trong điều kiện địa điểm và thời gian cụ thể
Mỗi hiện tượng, hay quá trình kinh tế xã hội ở thời gian, địa điểm khác nhau thìmặt lượng cũng khác nhau Do đó, đối tượng nghiên cứu của thống kê học cũng cần cụ thểhoá ở thời gian nào, địa điểm nào hay trả lời câu hỏi bao giờ ? và ở đâu ?
1.3 Phương pháp nghiên cứu
1.3.1 Phương pháp luận của thống kê
- Khái niệm: Tổng hợp về mặt lý luận các phương pháp chuyên môn của thống kê gọi
là phương pháp luận của thống kê học
- Cơ sở phương pháp luận: Dựa vào định luật số lớn trong lý thuyết xác suất đã xácđịnh
Định luật này được vận dụng và thể hiện là quan sát số lớn các đơn vị cá biệt đến mức
đủ lớn để có thể tổng hợp, phân tích, đánh giá bản chất khách quan và tính quy luật của hiện tượng Vì từ sự kiện cá biệt, ngẫu nhiên quan sát số lớn giúp chúng ta suy ra sự kiện
Trang 6chung Qua tổng hợp số lớn, sự kiện cá biệt sẽ bù trừ cho nhau.
- Mức độ lớn phụ thuộc vào hiện tượng và mục đích nghiên cứu
Phương pháp luận này của thống kê được thể hiện rất rõ trong các phương pháp chuyênmôn của thống kê
1.3.2 Các phương pháp chuyên môn của thống kê
- Điều tra thống kê: Điều tra toàn bộ, điều tra chọn mẫu, điều tra trực tiếp, điều tra giántiếp;
- Tổng hợp thống kê: Hệ thống hoá các tài liệu, phân tổ thống kê
- Phân tích thống kê: Phân tích mức độ, động thái, mối liên hệ
1.4 Các khái niệm thường dùng trong thống kê
1.4.1 Tổng thể thống kê
Tổng thể thống kê là một tập hợp các đơn vị cá biệt về sự vật, hiện tượng trên cơ sởmột đặc điểm chung nào đó cần được quan sát, phân tích mặt lượng của chúng Các đơn vị,phần tử tạo nên hiện tượng gọi là các đơn vị tổng thể
Như vậy để xác định được tổng thể thống kê cần phải xác định được tất cả các đơn vịtổng thể của nó Thực chất của việc xác định tổng thể thống kê là việc xác định các đơn vịtổng thể
Nếu các đơn vị của tổng thể được thể hiện một cách rõ ràng, dễ xác định thì tổng thể đóđược gọi là tổng thể bộc lộ Ngược lại đơn vị của tổng thể không được nhận biết một cáchtrực tiếp, ranh giới của tổng thể không rõ ràng được gọi là tổng thể tiềm ẩn Đối với tổng thểtiềm ẩn, việc tìm đầy đủ và chính xác gặp nhiều khó khăn Dó đó dễ bị nhầm lẫn, bỏ sót cácđơn vị trong tổng thể
1.4.2 Mẫu
Mẫu là một bộ phận của tổng thể, đảm bảo được tính đại diện và được chọn ra để quansát và dùng để suy diễn cho toàn bộ tổng thể Như vậy tất cả các phần tử của mẫu đều phảithuộc tổng thể, nhưng các phần tử của tổng thể chưa chắc đã thuộc mẫu Việc chọn mẫu đạidiện cho tổng thể không phải dễ dàng, trên thực tế chỉ cố gắng giảm sự sai biệt giữa mẫu vàtổng thể chứ không thể khắc phục hoàn toàn
1.4.3 Tiêu thức thống kê
Trang 7Các đơn vị tổng thể thường có nhiều đặc điểm khác nhau, song trong thống kê người tachỉ chọn một số đặc điểm để nghiên cứu, các đặc điểm này người ta gọi là tiêu thức thống
kê Như vậy, tiêu thức thống kê là các đặc điểm của đơn vị tổng thể Mỗi tiêu thức thống kêđều có giá trị biểu hiện của nó
Phân loại tiêu thức thông kê dựa vào sự biểu hiện :
+ Tiêu thức thuộc tính : là tiêu thức phản ánh loại hoặc tính chất của đơn vị
+ Tiêu thức số lượng : là đặc trưng của đơn vị tổng thể được biểu hiện bằng con số.Gồm 2 loại:
Loại rời rạc: là loại các giá trị có thể của nó là hữu hạn hay vô hạn và có thểđếm được
Loại liên tục: là loại mà giá trị của nó có thể nhận bất kỳ một trị số nào trongmột khoảng nào đó
1.4.4 Tham số thống kê
Là giá trị quan sát được của tổng thể và dùng để mô tả đặc trưng của hiện tượng nghiêncứu Ví dụ: trung bình tổng thể, tỷ lệ tổng thể…
1.4.5 Tham số mẫu
Là giá trị tính toán được của một mẫu và được dùng để suy rộng cho tham số tổng thể
Ví dụ: trung bình mẫu, tỷ lệ mẫu…
1.5.Các loại thang đo
1.5.2 Các loại thang đo
- Thang đo danh nghĩa: là loại thang đo sử dụng cho các dữ liệu thuộc tính mà các biểuhiện của dữ liệu không có sự hơn kém, khác biệt về thứ bậc Các con số không có quan hệhơn kém, không thực hiện được các phép tính đại số
- Thang đo thứ bậc: là loại thang đo dành cho các dữ liệu thuộc tính Trường hợp nàybiểu hiện dữ liệu có sự so sánh, không thực hiện được các phép tính đại số
Trang 8- Thang đo khoảng: là loại thang đo dành cho các dữ liệu số lượng Đây là loại thang
đo được dùng để xếp hạng các đối tượng nghiên cứu nhưng khoảng cách bằng nhau trênthang đo đại diện cho khoảng cách bằng nhau trong đặc điểm của đối tượng Thang đo này
có thể thực hiện phép tính đại số, trừ phép chia ( : ) không có ý nghĩa
- Thang đo tỷ lệ: là loại thang đo có thể dùng dữ liệu số lượng Ngoài đặc tính củathang đo khoảng, trong thang đo này phép chia có thể thực hiện
1.6 Thu thập thông tin thống kê
1.6.1 Các loại thông tin cần thu thập
Có nhiêu tiêu chí để phân loại thông tin Tuỳ thuộc vào mục đích, ý nghĩa và phạm viứng dụng mà người ta có thể lựa chọn những tiêu thức phù hợp ở đây trình bày một sốphân loại thông tin được sử dụng chủ yếu trong nghiên cứu thống kê
a) Căn cứ tính chất của thông tin
Có hai loại dữ liệu chủ yếu là dữ liệu định tính và dữ liệu định lượng
* Dữ liệu định tính là dữ liệu phản ánh tính chất và sự hơn kém về tính chất của đốitượng nghiên cứu Thí dụ như giới tính của sinh viên (nam, hay nữ); thời gian tự học ở nhàdài hay ngắn (dưới 2 giờ; từ 2 đến 4 giờ; trên 4 giờ)
Dữ liệu định tính được thu thập dễ hơn và thường dùng các thang đo định danh hay thứbậc để xác định
* Dữ liệu định lượng là dữ liệu phản ánh mức độ hay mức độ hơn, kém theo một tiêuthức số lượng nào đó của đối tượng nghiên cứu Thí dụ như độ tuổi của sinh viên, thời gian
tự học 1 ngày, 1 tuần
Dữ liệu định lượng trong nghiên cứu thống kê thường gặp nhiều hơn, dễ áp dụngnhững phương pháp tính toán, phân tích hơn Khi xác định các dữ liệu định tính, người tathường dùng thang đo khoảng cách hay thứ bậc
Mục đích của cách phân loại này nhằm giúp cho người nghiên cứu xác định trước cácphương pháp xử lý, tổng hợp và phân tích cần sử dụng cho từng loại dữ liệu sao cho phùhợp và đáp ứng mục tiêu nghiên cứu đặt ra.cấp
b) Căn cứ nguồn cung cấp
Theo nguồn cung cấp thông tin có hai loại dữ liệu: dữ liệu thứ cấp và dữ liệu sơ cấp
Trang 9* Dữ liệu thứ cấp là dữ liệu thu thập từ những nguồn có sẵn Những dữ liệu này đã
qua tổng hợp, xử lý công bố hay xuất bản
Thí dụ: Những dữ liệu về kết quả học tập của sinh viên có thể lấy ở phòng đào tạohay trợ lý đào tạo của từng khoa là dữ liệu thứ cấp
Dữ liệu thứ cấp có ưu điểm là thu thập nhanh, rẻ nhưng thiếu chi tiết và đôi khikhông đáp ứng đúng yêu cầu nghiên cứu
Nguồn dữ liệu thứ cấp khá phong phú thường gặp ở các nguồn chủ yếu sau:
- Nội bộ: Các số liệu báo cáo về tình hình sản xuất, tiêu thụ, tài chính, vật tư, nhân sự của các phòng ban, bộ phận; các số liệu báo cáo từ các cuộc điều tra khảo sát trước đây ởtừng đơn vị (doanh nghiệp, cơ quan, ban, ngành )
- Cơ quan thống kê nhà nước: Các số liệu do các cơ quan thống kê nhà nước (Tổng cụcThống kê, Cục Thống kê, Phòng Thống kê ) cung cấp trong các niên giám thống kê
- Cơ quan chính phủ: Số liệu do các cơ quan trực thuộc Chính phủ (Bộ, cơ quan ngang
bộ, Uỷ ban nhân dân các cấp) công bố hay cung cấp Các số liệu này thường chi tiết hơn,mang tính chất đặc thù của ngành hay địa phương
- Sách, báo, tạp chí đã xuất bản Các số liệu này thường mang tính thời sự và cập nhậtcao, mức độ tin cậy tuỳ thuộc vào nguồn số liệu của từng tờ báo hay tạp chí;
- Các tổ chức, hiệp hội, viện nghiên cứu, trường đại học;
- Các công ty nghiên cứu và cung cấp thông tin
* Dữ liệu sơ cấp (thông tin gốc) là dữ liệu không có sẵn, dữ liệu ban đầu thu thập trực
tiếp từ đối tượng nghiên cứu
Thí dụ: Các dữ liệu có liên quan đến việc tự học của sinh viên là các dữ liệu sơ cấp,không có sẵn mà chúng ta muốn có phải điều tra từ sinh viên
- Dữ liệu sơ cấp có ưu điểm là chi tiết, độ tin cậy cao đối với các tình huống cụ thể.Song hạn chế của nó là thu thập tốn kém, phụ thuộc vào trình độ chủ quan của người nghiêncứu (nhất là những tình huống dự báo)
- Dữ liệu sơ cấp được thu thập bằng các cuộc điều tra khảo sát khác nhau
Dựa vào tính chất liên tục hay không liên tục của thu thập dữ liệu sơ cấp, người ta chia
Trang 10thành 2 loại là điều tra thường xuyên và điều tra không thường xuyên.
+ Điều tra thường xuyên là loại điều tra nhằm thu thập các thông tin ban đầu về hiện
tượng cần nghiên cứu một cách có hệ thống theo sát với sự biến động của hiện tượng
Thí dụ: Ghi chép tình hình sinh, tử, chuyển đến, chuyển đi trong theo dõi và quản lýnhân khẩu của một địa phương Việc theo dõi, ghi chép hàng ngày về số lượng công nhân đilàm, số lượng sản phẩm bán ra, mua vào trong công ty thương mại (Bách hoá Trâu Quỳ)
Dữ liệu của điều tra thường xuyên làm cơ sở để lập báo cáo thống kê định kỳ
+ Điều tra không thường xuyên là loại điều tra thống kê nhằm thu thập các dữ liệu ban
đầu về hiện tượng nghiên cứu một cách không thường xuyên, không liên tục mà chỉ tiếnhành khi có nhu cầu cần nghiên cứu
Thí dụ: Điều tra dân số, điều tra thị trường, điều tra đất đai nông nghiệp, điều tra laođộng và việc làm
Dữ liệu của điều tra không thường xuyên phản ánh trạng thái của hiện tượng tạimột thời điểm nhất định Nó có thể được tiến hành định kỳ (3 tháng, 6 tháng, 2 năm, 5 năm,
10 năm) hoặc không theo định kỳ
Dựa theo phạm vi điều tra thống kê người ta chia thành 2 loại: Điều tra toàn bộ vàđiều tra không toàn bộ
+ Điều tra toàn bộ là điều tra thống kê nhằm thu thập dữ liệu ban đầu ở tất cả các đơn
vị tổng thể hiện tượng nghiên cứu (còn gọi là tổng điều tra, tổng kiểm kê) Ví dụ tổng điềutra dân số, tổng kiểm kê tài chính cuối năm, báo cáo kết quả học từng môn tất cả sinh viênhọc kỳ I, II
Ưu điểm của điều tra toàn bộ là cung cấp dữ liệu khá đầy đủ, phong phú và đảm bảotin cậy Các dữ liệu này giúp ta tính toán các chỉ tiêu thể hiện quy mô, cơ cấu, biến động và
dự đoán xu hướng biến động của hiện tượng
Nhược điểm của điều tra toàn bộ là chi phí tốn kém, thời gian kéo dài, không áp dụngcho mọi trường hợp được và mức độ chính xác không đồng đều
Điều tra không toàn bộ là điều tra thống kê nhằm thu thập dữ liệu ban đầu ở một số
đơn vị của tổng thể hiện tượng nghiên cứu Yêu cầu của điều tra không toàn bộ cần xác định
rõ 3 vấn đề:
Trang 11- Số đơn vị điều tra: Tuỳ theo yêu cầu và điều kiện nghiên cứu, người ta có thểchọn từ tổng thể hiện tượng nghiên cứu một số đơn vị để điều tra là nhiều hay ít.
- Phương pháp chọn số đơn vị mẫu điều tra: Chọn ngẫu nhiên hay phi ngẫu nhiên(lí thuyết xác suất)
- Các đơn vị được chọn ra phải đáp ứng được mục đích và yêu cầu nghiên cứu đểkết quả điều tra có thể suy rộng cho tổng thể chung
Ưu điểm của điều tra không toàn bộ là chi phí ít tốn kém, thời gian nhanh, khảnăng thu thập tài liệu cũng tỉ mỉ, đảm bảo chính xác, kịp thời và áp dụng cho những trườnghợp nghiên cứu mà hiện tượng đó không thể áp dụng điều tra toàn bộ
Nhược điểm chủ yếu là tài liệu nếu thu thập từ các đơn vị điều tra được chọn khôngđáp ứng yêu cầu, mục đích nghiên cứu thì phản ánh không đúng thực tế khách quan Vì vậykhâu chọn đơn vị điều tra rất quan trọng
Ví dụ: Điều tra năng suất, sản lượng cây trồng, gia súc, điều tra chi phí, giá thành sảnphẩm, điều tra mức sống, điều tra chất lượng sản phẩm
Tuỳ theo cách chọn đơn vị điều tra mà điều tra không toàn bộ được chia thành 3 loạisau:
- Điều tra chọn mẫu: Loại điều tra chỉ tiến hành thu thập dữ liệu ở một số đơn vị đượcchọn ra từ tổng thể hiện tượng nghiên cứu Các đơn vị này phải mang tính chất đại biểu chotổng thể Kết quả điều tra chọn mẫu có thể suy ra kết quả chung cho cả tổng thể
Hiện nay đây là loại điều tra không toàn bộ khoa học nhất được áp dụng nhiều nhấttrong nghiên cứu kinh tế - xã hội
Ví dụ: Điều tra mức sống dân cư, điều tra kinh tế hộ, điều tra năng suất cây trồng
- Điều tra trọng điểm: Loại điều tra chỉ tiến hành điều tra ở bộ phận tập trung lớn nhấtcủa tổng thể hiện tượng nghiên cứu Kết quả điều tra của bộ phận này không có ý nghĩa suyrộng mà chỉ dùng làm căn cứ để nhận định, đánh giá chung về các đặc điểm, nội dung chủyếu của tổng thể
Ví dụ: Điều tra tình hình sản xuất cây ăn quả đặc sản như nhãn lồng, vải thiều thì thựchiện chủ yếu ở vùng Hưng Yên, Lục Ngạn; cà phê, hạt tiêu chủ yếu ở Đắc Lắc
- Điều tra chuyên đề: Loại điều tra chỉ tiến hành điều tra ở một hoặc một số đơn vị tổng
Trang 12thể điển hình (thường là một đơn vị tiên tiến hay lạc hậu) về một đặc tính nào đó, nghiêncứu tỉ mỉ và nhiều khía cạnh Kết quả điều tra nhằm rút ra kinh nghiệm và phổ biến kinhnghiệm để có thể vận dụng chung cho các điều kiện tương tự.
Ví dụ: Điều tra báo cáo kết quả học tập, kinh nghiệm học tập, người tốt, việc tốt
1.6.2 Chất lượng thông tin
Thông tin có ích là những thông tin có độ chính xác cao, độ bất định thấp Thông tin
có ích là thông tin có chất lượng phải đảm bảo 3 yêu cầu: đầy đủ, chính xác và kịp thời.
* Đầy đủ: Đủ, đúng các nội dung, các đơn vị hoặc các hiện tượng thuộc phạm vinghiên cứu
* Chính xác: Phản ánh đúng thực tế tình hình các đơn vị, các nội dung mà conngười cần biết
* Kịp thời: Thông tin phản ảnh đúng lúc mà con người cần sử dụng
1.6.3.Các phương pháp thu thập thông tin
Phỏng vấn trực tiếp: Phương pháp này phù hợp cho những cuộc điều tra cần thuthập nhiều thông tin, nội dung thông tin cần thu thập tương đối phức tạp, cần chi tiết
Phương pháp này có 2 hình thức:
+ Phỏng vấn cá nhân: Nhân viên điều tra phỏng vấn đối tượng cung cấp thông tin tạinhà riêng hoặc nơi làm việc
+ Phỏng vấn nhóm: Nhân viên điều tra phỏng vấn từng nhóm để thảo luận về một vấn
đề nào đó Trường hợp này thường được sử dụng khi điều tra thử để kiểm tra lại nội dungcủa bảng câu hỏi được hoàn chỉnh chưa, hay để tìm hiểu một vấn đề phức tạp mà bản thânngười nghiên cứu chưa nắm được một cách đầy đủ cần phải có ý kiến cụ thể của những
Trang 13b) Phương pháp gián tiếp
Theo phương pháp này, người điều tra thu thập tài liệu theo các nội dung cầnnghiên cứu phải thông qua một phương tiện trung gian như điện thoại, thư tín, hoặc cácchứng từ sổ sách đã ghi chép ở thời gian trước Ví dụ điều tra thu chi trong doanhnghiệp, điều tra tình hình sinh tử, điều tra tài sản
Ưu điểm của phương pháp này là đỡ tốn kém, nhưng có nhược điểm là mức độ đầy đủ
và chính xác không cao, nên chỉ áp dụng trong những trường hợp khó khăn hoặc không cóđiều kiện thu thập trực tiếp
Gửi thư: Theo phương pháp này nhân viên điều tra gửi bảng câu hỏi đến đối tượngcung cấp thông tin qua đường bưu điện Phương pháp này có thể thu thập được khối lượngthông tin lớn, tiết kiệm chi phí Song nhược điểm lớn nhất của phương pháp này là tỷ lệ trảlời thấp
Phỏng vấn qua điện thoại: Phương pháp này thu thập thông tin bằng cách phỏng vấnqua điện thoại Phương pháp này cho phép thu thập thông tin một cách nhanh chóng Nhượcđiểm của phương pháp này là tốn kém, nội dung thu thập thông tin bị hạn chế
Trang 14Chương II TỔNG HỢP VÀ TRÌNH BÀY DỮ LIỆU 2.1 Khái niệm phân tổ thống kê và tiêu thức phân tổ
Phân tổ thống kê là căn cứ vào một (hay một số) tiêu thức nào đó để phân chia tổng thể
thống kê thành các tổ (tiểu tổ) có tính chất khác nhau Ví dụ, phân chia nhân khẩu trongnước thành các tổ nam và nữ (căn cứ vào giới tính), thành các tổ có độ tuổi khác nhau (căn
cứ vào độ tuổi), v.v Một ví dụ khác: Phân chia chỉ tiêu giá trị tăng thêm của sản xuất côngnghiệp thành các tổ là kinh tế nhà nước và kinh tế ngoài nhà nước (căn cứ vào hình thức sởhữu), thành các ngành công nghiệp riêng biệt (căn cứ vào hoạt động sản xuất công nghiệp),v.v
Phân tổ thống kê là phương pháp cơ bản của tổng hợp thống kê, là một trong nhữngphương pháp quan trọng của phân tích thống kê, đồng thời là cơ sở để vận dụng các phươngpháp phân tích thống kê khác như phương pháp chỉ số, phương pháp tương quan, phươngpháp cân đối,
Tiêu thức thống kê (đặc điểm của đơn vị tổng thể để nhận thức hiện tượng nghiên cứu)được chọn làm căn cứ để phân tổ thống kê gọi là tiêu thức phân tổ Tiêu thức phân tổ thống
kê được chia thành 2 loại: Tiêu thức số lượng và tiêu thức thuộc tính
Tiêu thức số lượng là tiêu thức có thể biểu diễn được bằng con số, ví dụ độ tuổi, thunhập bình quân của hộ gia đình, trình độ văn hoá, mức năng suất lao động, tiền lương bìnhquân,
Tiêu thức thuộc tính là tiêu thức không thể biểu hiện được bằng con số, ví dụ giới tính,nghề nghiệp, dân tộc, tôn giáo,
2.2 Các loại phân tổ và cách thức tiến hành phân tổ
Trong thống kê, có thể phân tổ theo một tiêu thức (gọi là phân tổ đơn) hoặc phân tổtheo hai hay nhiều tiêu thức (gọi là phân tổ kết hợp)
2.2.1 Phân tổ theo một tiêu thức
Phân tổ theo một tiêu thức là cách phân tổ đơn giản nhất và cũng thường được sử dụngnhất
Trang 15Cách tiến hành phân tổ, thường theo các bước sau:
+ Chọn tiêu thức phân tổ:
Chọn tiêu thức để phân tổ là vấn đề mang tính cốt lõi của phân tổ thống kê, vì phân tổtheo các tiêu thức khác nhau sẽ đáp ứng những mục đích nghiên cứu khác nhau, biểu hiệncác khía cạnh khác nhau của tập hợp thông tin Phải căn cứ vào mục đích nghiên cứu và bảnchất của hiện tượng để xác định tiêu thức phân tổ cho phù hợp, đồng thời cần phải xét đếnđiều kiện cụ thể của hiện tượng
+ Xác định số tổ và khoảng cách tổ:
Số lượng tổ phụ thuộc vào số lượng thông tin và phạm vi biến động của tiêu thứcnghiên cứu Lượng thông tin càng nhiều, phạm vi biến động của tiêu thức càng lớn thì càngphải phân làm nhiều tổ
- Phân tổ theo tiêu thức thuộc tính
Ở đây sự khác nhau giữa các tổ được biểu hiện bằng sự khác nhau giữa các loại hình.Nếu các loại hình tương đối ít, ta có thể coi mỗi loại hình là một tổ, tức là có bao nhiêu loạihình sẽ có bấy nhiêu tổ Trường hợp số loại hình thực tế có nhiều, nếu như coi mỗi loại hình làmột tổ thì số tổ sẽ quá nhiều, không thể khái quát chung được, cũng như không nêu được đặcđiểm khác nhau giữa các tổ, cho nên cần phải ghép những loại hình giống nhau hoặc gầngiống nhau vào cùng một tổ
- Phân tổ theo tiêu thức số lượng
Phân tổ theo tiêu thức số lượng là phân các đơn vị của tổng thể có lượng biến tươngứng với trị số khác nhau của tiêu thức phân tổ vào các tổ khác nhau
Trường hợp sự biến thiên về lượng giữa các đơn vị không chênh lệch nhau nhiều và ượng biến thiên của tiêu thức phân tổ chỉ thay đổi trong phạm vi hẹp và biến động rời rạcnhư số lượng người trong gia đình, số điểm kết quả học tập của học sinh, số máy do côngnhân phụ trách, v.v thì có thể mỗi lượng biến là cơ sở để hình thành một tổ, hoặc ghép một
l-số lượng biến vào một tổ tùy theo đặc tính của hiện tượng và mục đích nghiên cứu Ví dụ:
Phân tổ học sinh theo điểm kết quả học tập, ta có thể phân thành 10 tổ hoặc phân thành 5 tổ:Yếu, kém, trung bình, khá và giỏi
Trường hợp lượng biến của tiêu thức biến thiên lớn, nếu mỗi lượng biến hình thành một
Trang 16tổ thì số tổ sẽ quá nhiều, đồng thời không nói rõ sự khác nhau về chất giữa các tổ Trong ường hợp này cần chú ý tới mối liên hệ giữa lượng và chất trong phân tổ Nghĩa là phải xem
tr-sự thay đổi về lượng đến mức độ nào thì bản chất của hiện tượng mới thay đổi và làm nảysinh ra tổ khác Như vậy mỗi tổ sẽ bao gồm một phạm vi lượng biến, có hai giới hạn: Giớihạn dưới là lượng biến nhỏ nhất và giới hạn trên là lượng biến lớn nhất của tổ; nếu vượt quágiới hạn này thì chất lượng thay đổi và chuyển sang tổ khác Trị số chênh lệch giữa giới hạntrên và giới hạn dưới của mỗi tổ gọi là khoảng cách tổ (khoảng cách tổ có thể bằng nhauhoặc không bằng nhau)
Việc xác định khoảng cách tổ đều nhau hay không đều nhau là phải căn cứ vào đặcđiểm của hiện tượng nghiên cứu Phân tổ phải đảm bảo các đơn vị phân phối vào một tổ đều
có cùng một tính chất và sự khác nhau về lượng giữa các tổ phải nêu rõ sự khác nhau về chấtgiữa các tổ Trong thực tế, sự thay đổi về lượng của các bộ phận trong hiện tượng thườngkhông diễn ra một cách đều đặn Do đó trong rất nhiều trường hợp nghiên cứu phải phân tổtheo khoảng cách tổ không đều nhau Riêng đối với các hiện tượng tương đối đồng nhất vàlượng biến trên các đơn vị thay đổi một cách đều đặn, thì thường phân tổ với khoảng cách tổđều nhau Cách phân tổ này tạo điều kiện thuận lợi cho việc vận dụng các công thức toánhọc và dễ dàng trình bày số liệu trên các đồ thị thống kê Việc phân tổ với khoảng cách tổđều nhau tương đối đơn giản và trị số khoảng cách tổ được xác định như sau:
Khoảng cách tổ = Lượng biến lớn nhất – Lượng biến nhỏ nhất
Số tổ cần thiết
+ Phân các đơn vị vào các tổ tương ứng:
Căn cứ vào lượng biến của từng đơn vị để phân đơn vị đó vào tổ có trị số của tiêu thứctheo khoảng cách tổ phù hợp đã được xác định ở trên
+ Xác định tần số phân phối:
Trên cơ sở số liệu đã phân tổ dễ dàng xác định được số đơn vị (tần số) của từng tổ.Hiện nay máy tính có thể giúp ta xác định các đại lượng trong phân tổ một cách rất thuậntiện và nhanh chóng
Trang 172.2.2 Phân tổ theo nhiều tiêu thức
Phân tổ theo nhiều tiêu thức (còn gọi là phân tổ kết hợp) cũng được tiến hành giốngnhư phân tổ theo một tiêu thức Trước tiên phải xác định cần phân tổ theo những tiêu thứcnào Muốn chọn tiêu thức phân tổ phù hợp phải căn cứ vào mục đích nghiên cứu, vào bảnchất của hiện tượng, vào mối liên hệ giữa các tiêu thức Sau đó tiếp tục xác định xem tiêuthức nào phân trước, tiêu thức nào phân sau và theo mỗi tiêu thức sẽ phân làm bao nhiêu tổ
Có thể phân tổ theo 2, 3, 4 tiêu thức hoặc nhiều hơn nữa Song khi phân tổ phải căn cứvào mục đích nghiên cứu và điều kiện số liệu để chọn bao nhiêu tiêu thức phân tổ cho phùhợp và chọn những tiêu thức nào cho có ý nghĩa nhất
Trong thực tế công tác thống kê phân tổ theo hai hoặc ba tiêu thức là thường gặp nhất;
ví dụ dân số phân theo độ tuổi và giới tính, GDP phân theo khu vực và ngành kinh tế, (2tiêu thức); cán bộ khoa học công nghệ phân theo trình độ chuyên môn, giới tính và lĩnh vựchoạt động khoa học; khách du lịch phân theo quốc tịch, mục đích du lịch và giới tính, (theo
3 tiêu thức)
2.3 Bảng thống kê
2.3.1 Khái niệm, ý nghĩa
* Khái niệm:Bảng thống kê là một hình thức trình bày kết quả tổng hợp số liệuthống kê theo từng nội dung riêng biệt nhằm phục vụ cho yêu cầu của quá trình nghiên cứuthống kê
* Ý nghĩa:
- Phản ánh đặc trưng cơ bản của từng tổ và của cả tổng thể;
- Mô tả mối liên quan mật thiết giữa các số liệu thống kê;
- Làm cơ sở áp dụng các phương pháp phân tích thống kê khác nhau một cách dễdàng
2.3.2 Kết cấu của bảng thống kê
+ Về hình thức
- Bảng thống kê bao gồm các hàng ngang và cột dọc, các tiêu đề và các tài liệu con số
- Hàng ngang cột dọc phản ánh quy mô của bảng thống kê, thường được đánh sốthứ tự
Trang 18- Ô của bảng dùng để điền số liệu thống kê.
- Tiêu đề của bảng: Phản ánh nội dung của bảng và của từng chỉ tiêu trong bảng Có
* Về nội dung: chia thành 2 phần: Phần chủ để và phần giải thích
- Phần chủ để: Nội dung phần chủ đề nhằm nêu rõ tổng thể nghiên cứu được phânthành những bộ phận nào, hoặc mô tả đối tượng nghiên cứu là những đơn vị nào, loại hình
gì, tên địa phương hoặc các thời gian nghiên cứu khác nhau Hay nói cách khác, phân chủ đềthể hiện tiêu thức phân tổ các đơn vị tổng thể thành các tổ Vị trí của phần này thường để ởbên phải phía dưới của bảng (tên của các hàng- tiêu đề hàng)
- Phần giải thích: Nội dung phần này gồm các chỉ tiêu giải thích về các đặc điểm củađối tượng nghiên cứu (giải thích phần chủ đề của bảng) Vị trí của phần này thường để ở bêntrái phía trên của bảng (tên của các cột- tiêu đề cột)
Trang 192.3.3 Nguyên tắc lập bảng thống kê
Khi sử dụng bảng thống kê để trình bày các số liệu thống kê cần tôn trọng những vấn
đề mang tính nguyên tắc như sau:
- Quy mô của bảng thống kê không nên quá lớn Nếu bảng thống kê quá lớn (nhiềuhàng, cột) có thể tách thành 2 hoặc 3 bảng nhỏ hơn;
- Các tiêu đề, tiêu mục nên ngắn gọn, chính xác và dễ hiểu;
- Các hàng và các cột được ghi kí hiệu và đánh số;
- Các chỉ tiêu giải thích sắp xếp hợp lí;
- Cách ghi số liệu vào bảng thống kê theo quy ước sau: (-): Không có tài liệu;
( ): Biểu thị số liệu còn thiếu có thể bổ sung;
(x) Biểu thị hiện tượng không có liên quan đến chỉ tiêu đó;
Các đơn vị có cùng 1 đơn vị tính toán giống nhau phải ghi theo mức độ chính xác nhưnhau (0,1 hay 0,01 ) theo nguyên tắc làm tròn số
- Cuối bảng cần có ghi chú giải thích tài liệu trong bảng như nguồn tài liệu trích, cáchtính
2.3.4 Các loại bảng thống kê
* Bảng đơn giản: Bảng thống kê mà phần chủ đề không phân tổ, chỉ liệt kê các đơn vị
tổng thể, tên gọi các địa phương hoặc các thời gian khác nhau của quá trình nghiên cứu.Thí dụ:
Bảng 9.3 Hiện trạng đất đai và dân số trung bình của vùng Tây Nguyên năm 2002
Các tỉnh
Diện tíchđất(1000 ha)
Dân số trung bình(1000 người)
Bình quân đất/người(ha/người)
Nguồn: Niên giám thống kê 2003
Trang 20* Bảng tần số (bảng phân tổ): Là bảng thống kê mà tổng thể đối tượng nghiên cứu ghi
trong phần chủ để được chia thành các tổ theo 1 tiêu thức nào đó
Bảng phân tổ thường bao gồm 2 cột tính toán là tần số và tần suất Khi phân tổ theotiêu thức thuộc tính hay tiêu thức số lượng, người ta thường đếm xem có bao nhiêu đơn vị
có cùng một biểu hiện và so với tổng số quan sát thì số đơn vị có cùng biểu hiện này chiếmbao nhiêu phần trăm
Thí dụ:
Bảng 10.3 Dân số trung bình của Việt Nam phân theo giới tính năm 2003
Bảng phân tổ được dùng để:
- Nêu rõ kết cấu và biến động kết cấu của hiện tượng nghiên cứu;
- Phân tích mối liên hệ giữa các hiện tượng
* Bảng kết hợp: Là bảng trong đó tổng thể đối tượng nghiên cứu ghi ở phần chủ đềđược phân tổ theo 2 tiêu thức trở lên Bảng kết hợp giúp ta phân tích sâu hơn về đối tượngđang nghiên cứu Bảng kết hợp thường gặp ở các dạng sau:
- Bảng kết hợp 2 tiêu thức thuộc tính Thí dụ:
Trang 21Bảng 13.3 Số người đủ 15 tuổi trở lên hoạt động kinh tế thường xuyên
đã qua các trình độ đào tạo ở Việt Nam năm 2000
Nguồn: Thực trạng lao động - việc làm ở Việt Nam năm 2000
Bảng 13.3 cho biết người ta đã kết hợp 2 tiêu thức định tính là trình độ đào tạo và khuvực (thành thị, nông thôn)
- Bảng kết hợp 3 tiêu thức định tính
Thí dụ: Số người lao động phân theo tình trạng việc làm của Hà Nội năm 2000 người
ta đã kết hợp 3 tiêu thức định tính như tình trạng việc làm, tuổi quy định và giới tính ở bảng14.3
Trang 22Bảng 14.3 Số lượng lao động phân theo tình trạng việc làm của Hà Nội năm 2000
Diễn giải
Tổng số Đủ việc làm Thiếu việc và thất
nghiệp
Tần số(người)
Tỷ lệ(%)
Tần số(người)
Tỷ lệ(%)
Tần số(người) Tỷ ệ(%)
1 Trong độ tuổi lao động 1300704 100 894392 68,76 406312 31,24
Nguồn: Thực trạng lao động – việc làm ở Việt Nam năm 2000
- Bảng kết hợp giữa tiêu thức số lượng với tiêu thức thuộc tính
Thí dụ: Số người lao động phân theo tình trạng việc làm của Hà Nội năm 2000 người
ta đã kết hợp 3 tiêu thức, trong đó 2 tiêu thức định tính như tình trạng việc làm và giới tính,
1 tiêu thức số lượng là độ tuổi như sau (bảng 15.3)
Bảng 15.3 Số lượng lao động phân theo tình trạng việc làm của Hà Nội năm 2000
Nhóm tuổi
(tuổi)
Tổng số Đủ việc làm Thiếu việc và thất
nghiệpTần số
(người)
Tỷ lệ(%)
Tần số(người)
Tỷ lệ(%)
Tần số(người)
Tỷ lệ(%)
Trang 232.4 Phương pháp đồ thị thống kê
Phương pháp đồ thị thống kê là phương pháp trình bày và phân tích các thông tinthống kê bằng các biểu đồ, đồ thị và bản đồ thống kê Phương pháp đồ thị thống kê sửdụng con số kết hợp với các hình vẽ, đường nét và màu sắc để trình bày các đặc điểm sốlượng của hiện tượng Chính vì vậy, ngoài tác dụng phân tích giúp ta nhận thức đượcnhững đặc điểm cơ bản của hiện tượng bằng trực quan một cách dễ dàng và nhanh chóng,
đồ thị thống kê còn là một phương pháp trình bày các thông tin thống kê một cách kháiquát và sinh động, chứa đựng tính mỹ thuật; thu hút sự chú ý của người đọc, giúp ngườixem dễ hiểu, dễ nhớ nên có tác dụng tuyên truyền cổ động rất tốt Đồ thị thống kê có thểbiểu thị:
- Kết cấu của hiện tượng theo tiêu thức nào đó và sự biến đổi của kết cấu
- Sự phát triển của hiện tượng theo thời gian
- So sánh các mức độ của hiện tượng
- Mối liên hệ giữa các hiện tượng.
- Trình độ phổ biến của hiện tượng
Biểu đồ hình cột được dùng để biểu hiện quá trình phát triển, phản ánh cơ cấu và thayđổi cơ cấu hoặc so sánh cũng như biểu hiện mối liên hệ giữa các hiện tượng
Ví dụ: Biểu diễn số lượng cán bộ khoa học công nghệ chia theo nam nữ của 4 năm:
2000, 2001, 2002 và 2003 qua biểu đồ 3.2.1
Trang 24Biểu đồ 3.2.1: Hình cột phản ánh số lượng cán bộ khoa học công nghệ
Khi vẽ đồ thị ta tiến hành như sau:
- Lấy giá trị của từng bộ phận chia cho giá trị chung của chỉ tiêu nghiên cứu để xácđịnh tỷ trọng (%)của từng bộ phận đó Tiếp tục lấy 360 c (3600) chia cho 100 rồi nhân với tỷtrọng của từng bộ phận sẽ xác định được góc độ tương ứng với cơ cấu của từng bộ phận
- Xác định bán kính của mỗi hình tròn có diện tích tương ứng là S: R = S:π vì diện
Người
Năm
Trang 25tích hình tròn: S = π.R2 Khi có độ dài của bán kính mỗi hình tròn, ta sẽ dễ dàng vẽ được cáchình tròn đó.
Ví dụ: Có số lượng về học sinh phổ thông phân theo cấp học 3 năm 2001, 2002 và 2003
như bảng 3.2.1:
Bảng 3.2.1: Học sinh phổ thông phân theo cấp học
Số lượng(Người)
Cơ cấu(%)
Số lượng(Người)
Cơ cấu(%)
Số lượng(Người)
Cơ cấu(%)
Ta vẽ các hình tròn tương ứng với 3 năm (2001, 2002 và 2003) có bán kính là 1,00; 1,
067 và 1, 144 rồi mỗi hình tròn chia diện tích các hình tròn theo cơ cấu học sinh các cấptương ứng như số liệu ở bảng trên lên các biều đồ Kết quả 3 hình tròn được vẽ phản ánh cảquy mô học sinh phổ thông lẫn cơ cấu và biến động cơ cấu theo cấp học của học sinh quacác năm 2001, 2002 và 2003
Biều đồ 3.2.2: Biểu đồ diện tích hình tròn phản ánh số lượng
và cơ cấu học sinh phổ thông
Trang 26Tuy nhiên khi sử dụng loại biểu đồ này phải theo nguyên tắc: cùng một chỉ tiêu phảiđược biểu hiện bằng cùng một loại hình vẽ, còn chỉ tiêu đó ở các trường hợp nào có trị sốlớn nhỏ khác nhau thì sẽ biểu hiện bằng hình vẽ có kích thước lớn nhỏ khác nhau theo tỷ lệtương ứng.
Trở lại ví dụ trên số lượng học sinh phổ thông được biểu diễn bằng các cậu bé cắp sách,năm 2002 có số lượng lớn hơn năm 2001 và năm 2003 có số lượng lớn hơn năm 2002 thìcậu bé ứng với năm 2002 phải lớn hơn cậu bé ứng với năm 2001 và cậu bé ứng với năm
2003 phải lớn hơn cậu bé ứng với năm 2002 (xem biểu đồ 3.2.3)
Trang 27Biểu đồ 3.2.3: Biểu đồ tượng hình, phản ánh số lượng học sinh phổ thông
Trong một đồ thị đường gấp khúc, trục hoành thường được biểu thị thời gian, trục tungbiểu thị mức độ của chỉ tiêu nghiên cứu Cũng có khi các trục này biểu thị hai chỉ tiêu có liên
hệ với nhau, hoặc lượng biến và các tần số (hay tần suất) tương ứng Độ phân chia trên cáctrục cần được xác định cho thích hợp vì có ảnh hưởng trực tiếp đến độ dốc của đồ thị Mặtkhác, cần chú ý là trên mỗi trục toạ độ chiều dài của các khoảng phân chia tương ứng với sựthay đổi về lượng của chỉ tiêu nghiên cứu phải bằng nhau
Ví dụ: Sản lượng cà phê xuất khẩu của Việt Nam qua các năm từ 1996 đến 2003 (nghìn
tấn) có kết quả như sau: 283,3; 391,6; 382,0; 482,0; 733,9; 931,0; 722, 0 và 749,0
Số liệu trên được biểu diễn qua đồ thị đường gấp khúc 3.2.4
Người
Năm
Trang 28Đồ thị 3.2.4: Đường gấp khúc phản ánh biến động của sản lượng cà phê xuất khẩu
qua các năm của Việt Nam
kỳ nghiên cứu (ở đây là 12 tháng) bởi các đường thẳng đi qua tâm đường tròn Nối các giaođiểm của bán kính cắt đường tròn ta được đa giác đều nội tiếp đường tròn Đó là giới hạnphạm vi của đồ thị Độ dài đo từ tâm đường tròn đến các điểm xác định theo các đường phânchia đường tròn nói trên chính là các đại lượng cần biểu hiện của hiện tượng tương ứng vớimỗi thời kỳ Nối các điểm xác định sẽ được hình vẽ của đồ thị hình màng nhện
Ví dụ: Có số liệu về trị giá xuất, nhập khẩu hải sản của tỉnh "X" 2 năm (2002 và 2003)
như sau:
Nghìn tấn
Năm
Trang 29Bảng 3.2.2: Giá trị xuất khẩu hải sản trong 12 tháng của năm 2002 và 2003
Trang 30Đồ thị 3.2.5 Đồ thị hình màng nhện về kết quả xuất khẩu
0 5
8 9
Trang 31Chương III ĐIỀU TRA CHỌN MẪU VÀ SAI SỐ TRONG ĐIỀU TRA CHỌN MẪU
TRONG THỐNG KÊ 3.1 Điều tra chọn mẫu, ưu điểm, hạn chế và điều kiện vận dụng
3.1.1 Khái niệm điều tra chọn mẫu
Điều tra chọn mẫu (ĐTCM) là loại điều tra không toàn bộ, trong đó người ta chọn mộtcách ngẫu nhiên một số đủ lớn đơn vị đại diện trong toàn bộ các đơn vị của tổng thể chung
để điều tra rồi dùng kết quả thu thập được tính toán, suy rộng thành các đặc điểm của toàn
bộ tổng thể chung Ví dụ, để có năng suất và sản lượng lúa của một địa bàn điều tra nào đó(huyện A chẳng hạn) người ta chỉ tiến hành thu thập số liệu về năng suất và sản lượng lúathu trên diện tích của một số hộ gia đình được chọn vào mẫu của huyện để điều tra thực tế,sau đó dùng kết quả thu được tính toán và suy rộng cho năng suất và sản lượng lúa của toànhuyện A
ĐTCM được ứng dụng rất rộng rãi trong thống kê kinh tế - xã hội như: Điều tra năngsuất, sản lượng lúa; Điều tra lao động - việc làm; Điều tra thu nhập, chi tiêu của hộ gia đình;Điều tra biến động thường xuyên dân số; Điều tra chất lượng sản phẩm công nghiệp
Ngoài ra, trong tự nhiên, trong đời sống sinh hoạt của con người, trong y học, v.v chúng ta cũng đã gặp rất nhiều ví dụ thực tế đã áp dụng ĐTCM; chẳng hạn: Khi đo lượngnước mưa của một khu vực nào đó người ta chỉ chọn ra một số điểm trong khu vực và đặtcác ống nghiệm (các mẫu) để đo lượng nước mưa qua các trận mưa trong từng tháng và cảnăm, sau đó dựa vào kết quả nước mưa đo được từ mẫu là các ống nghiệm để tính toán suyrộng về lượng nước trung bình các tháng và cả năm cho cả khu vực; khi nghiên cứu ảnhhưởng của hút thuốc lá đối với sức khoẻ con người, người ta chọn ra một số lượng cầnthiết người hút thuốc lá để kiểm tra sức khoẻ và dùng kết quả kiểm tra từ một số người đó
để kết luận về ảnh hưởng của hút thuốc lá tới sức khoẻ cộng đồng, v.v
3.1.2 Ưu điểm của điều tra chọn mẫu
Do chỉ tiến hành điều tra trên một bộ phận đơn vị mẫu trong tổng thể chung nên ĐTCM
có những ưu điểm cơ bản sau:
Trang 32- Tiến hành điều tra nhanh gọn, bảo đảm tính kịp thời của số liệu thống kê.
- Tiết kiệm nhân lực và kinh phí trong quá trình điều tra
- Cho phép thu thập được nhiều chỉ tiêu thống kê, đặc biệt đối với các chỉ tiêu có nộidung phức tạp, không có điều kiện điều tra ở diện rộng Nhờ đó kết quả điều tra thu được sẽphản ánh được nhiều mặt, cho phép nghiên cứu các mối quan hệ cần thiết của hiện tượngnghiên cứu
- Làm giảm sai số phi chọn mẫu (sai số do cân, đong, đo, đếm, khai báo, ghi chép,v.v ) Trong thực tế công tác thống kê sai số phi chọn mẫu luôn luôn tồn tại và ảnh hưởngkhông nhỏ đến chất lượng số liệu thống kê, nhất là các chỉ tiêu có nội dung phức tạp, việctiếp cận để thu thập số liệu khó khăn, tốn nhiều thời gian trong quá trình phỏng vấn, ghichép và đặc biệt hơn là đối với các chỉ tiêu điều tra không có sẵn thông tin mà đòi hỏi phảihồi tưởng để nhớ lại Đối với những loại thông tin như trên, chỉ có tiến hành điều tra mẫumới có điều kiện tuyển chọn điều tra viên tốt hơn; hướng dẫn nghiệp vụ kỹ hơn, thời giandành cho một đơn vị điều tra nhiều hơn, tạo điều kiện cho các đối tượng cung cấp thông tintrả lời chính xác hơn, tức là làm cho sai số phi chọn mẫu ít hơn
- Cho phép nghiên cứu các hiện tượng kinh tế - xã hội, môi trường, không thể tiếnhành theo phương pháp điều tra toàn bộ: Ví dụ như nghiên cứu trữ lượng khoáng sản, thuỷsản,
3.1.3 Hạn chế của điều tra chọn mẫu
- Do ĐTCM chỉ tiến hành thu thập số liệu trên một số đơn vị, sau đó dùng kết quả đểsuy rộng cho toàn bộ tổng thể chung nên kết quả điều tra chọn mẫu luôn tồn tại cái gọi là
"Sai số chọn mẫu" - Sai số do tính đại diện Sai số chọn mẫu phụ thuộc vào độ đồng đều củachỉ tiêu nghiên cứu, vào cỡ mẫu và phương pháp tổ chức chọn mẫu Có thể làm giảm sai sốchọn mẫu bằng cách tăng cỡ mẫu ở phạm vi cho phép và lựa chọn phương pháp tổ chứcchọn mẫu thích hợp nhất
- Kết quả ĐTCM không thể tiến hành phân nhỏ theo mọi phạm vi và tiêu thức nghiêncứu như điều tra toàn bộ, mà chỉ thực hiện được ở mức độ nhất định tuỳ thuộc vào cỡ mẫu,phương pháp tổ chức chọn mẫu và độ đồng đều giữa các đơn vị theo các chỉ tiêu được điềutra
Trang 333.1.4 Điều kiện vận dụng của điều tra chọn mẫu
Điều tra chọn mẫu thường được vận dụng trong các trường hợp sau:
- Thay thế cho điều tra toàn bộ trong những trường hợp quy mô điều tra lớn, nội dungđiều tra cần thu thập nhiều chỉ tiêu, thực tế ta không đủ kinh phí và nhân lực để tiến hànhđiều tra toàn bộ, hơn nữa nếu điều tra toàn bộ sẽ mất quá nhiều thời gian, không đảm bảotính kịp thời của số liệu thống kê như điều tra thu nhập, chi tiêu hộ gia đình, điều tra năngsuất, sản lượng lúa, điều tra vốn đầu tư của các đơn vị ngoài quốc doanh ; hoặc không tiếnhành được điều tra toàn bộ vì không thể xác định được tổng thể chung như điều tra đánh giámức độ ô nhiễm môi trường nước của một số sông, hồ nào đó (tổng thể chung phải là toàn
bộ lượng nước có trong các sông, hồ được xác định là đã bị ô nhiễm),
- Quá trình điều tra gắn liền với việc phá huỷ sản phẩm như điều tra đánh giá chấtlượng thịt hộp, cá hộp, đánh giá chất lượng đạn dược, y tá lấy máu của bệnh nhân để xétnghiệm, v.v Các trường hợp trên đây nếu điều tra toàn bộ thì sau khi điều tra toàn bộ sảnphẩm sản xuất ra hoặc lượng máu có trong cơ thể của bệnh nhân sẽ bị phá huỷ hoàn toàn.Đây là điều không bao giờ cho phép thực hiện trong thực tế
- Để thu thập những thông tin tiên nghiệm trong những trường hợp cần thiết nhằm phục
vụ cho yêu cầu của điều tra toàn bộ Ví dụ, để thăm dò mức độ tín nhiệm của các ứng cửviên vào một chức vị nào đó thì chỉ có thể ĐTCM ở một lượng cử tri nhất định và phải đượctiến hành trước khi bầu cử chính thức thì mới có ý nghĩa (Bỏ phiếu bầu cử chính thức chính
là điều tra toàn bộ)
- Thu thập số liệu để kiểm tra, đánh giá và chỉnh lý số liệu của điều tra toàn bộ Trongthực tế có những cuộc điều tra toàn bộ có quy mô lớn hoặc điều tra rất phức tạp như TổngĐiều tra Dân số và Nhà ở, Tổng Điều tra Nông thôn, Nông nghiệp và Thuỷ sản, thì sai số
do khai báo, thu thập thông tin thường xuyên tồn tại và ảnh hưởng đáng kể đến chất lượng
số liệu Vì vậy cần có ĐTCM với quy mô nhỏ hơn để xác định mức độ sai số này, trên cơ sở
đó tiến hành đánh giá độ tin cậy của số liệu và nếu ở mức độ cần thiết có thể phải chỉnh lýlại số liệu thu được từ điều tra toàn bộ
Trang 343.2 Một số khái niệm và định nghĩa dùng trong điều tra chọn mẫu
3.2.1 Tổng thể chung và tổng thể mẫu (1)
a Các tham số của tổng thể chung
Tổng thể chung là toàn bộ các đơn vị thuộc đối tượng điều tra của một cuộc ĐTCM.Gọi Ui (i = 1, 2, N) là các đơn vị thuộc đối tượng điều tra với Xi là trị số tiêu thứcnghiên cứu của từng đơn vị tổng thể, thì toàn bộ các Ui là tổng thể chung Và khi đó sẽ cócông thức tính các tham số:
- Giá trị của tổng thể chung:
∑
=
= + + +
1
N 2
1 N
2 i
N
1
b Các tham số của tổng thể mẫu
Tổng thể mẫu là bộ phận của tổng thể chung gồm những đơn vị được lựa chọn để trựctiếp thu thập thông tin trong một cuộc điều tra chọn mẫu
Gọi ui (i = 1, 2, n) là các đơn vị thuộc đối tượng điều tra được chọn vào mẫu, với xi làtrị số tiêu thức nghiên cứu từng đơn vị mẫu, thì toàn bộ ui là tổng thể mẫu và n là số đơn vịtổng thể mẫu Tổng thể mẫu có các tham số tính theo phạm vi tổng thể mẫu như sau:
- Giá trị của tổng thể mẫu:
∑
=
= + + +
1
n 2
x
- Đại lượng bình quân mẫu:
(1) Ở đây chỉ đề cập trường hợp điều tra nghiên cứu chỉ tiêu bình quân làm ví dụ.
Trang 35x x n
2 i
1 n
1
3.2.2 Ước lượng
Nội dung cơ bản của phương pháp điều tra chọn mẫu là dựa vào sự hiểu biết về tham số
θ' nào đó của tổng thể mẫu đã điều tra để suy luận thành tham số θ của tổng thể chung Việcsuy luận đó gọi là ước lượng
a Tiêu chuẩn của ước lượng
Có ước lượng chệch và ước lượng không chệch Tham số θ' của tổng thể mẫu được gọi
là ước lượng không chệch của tham số θ của tổng thể chung nếu M (θ') = θ (kỳ vọng toáncủa θ' bằng θ) Nếu ước lượng không thoả mãn điều kiện trên được gọi là ước lượng chệch Thống kê toán đã chứng minh và rút ra một số kết luận sau:
+ Vì số bình quân mẫu x là ước lượng không chệch, hiệu quả và vững của số bìnhquân tổng thể chung x, do đó nếu chưa biết x có thể dùng x để ước lượng
+ Vì phương sai điều chỉnh mẫu s2 là ước lượng không chệch, hiệu quả và vững củaphương sai chung S2, do đó nếu chưa biết phương sai S2 có thể dùng s2 để ước lượng
b Các phương pháp ước lượng
Có 2 phương pháp sử dụng θ' để ước lượng θ: Phương pháp ước lượng điểm và phươngpháp ước lượng bằng khoảng tin cậy
- Phương pháp ước lượng điểm là dùng một tham số của mẫu để suy luận cho tham số
θ chưa biết của tổng thể chung vì bản thân θ là một số xác định
- Phương pháp ước lượng bằng khoảng tin cậy là từ một tham số θ' của tổng thể mẫu
(θ'1, θ'2) sao cho với một xác suất cho trước, tham số θ sẽ rơi vào khoảng (θ'1, θ'2) đó, haynói cách khác là khoảng (θ'1, θ'2) sẽ chứa đựng giá trị θ với một xác suất cho trước Khoảng(θ'1, θ'2) của tham số tổng thể mẫu được gọi là khoảng tin cậy của tham số tổng thể chung θ
Trang 36nếu với xác suất bằng (1 – α) cho trước thoả mãn điều kiện:
P (θ'2 < θ < θ'l) = 1 – α ;
(1 – α) được gọi là xác suất tin cậy của ước lượng, I = θ'2 – θ'l được gọi là khoảng tin cậy
3.2.3 Sai số chọn mẫu và phạm vi sai số chọn mẫu
a Sai số chọn mẫu
Sai số chọn mẫu (SSCM) là sự khác nhau giữa giá trị ước lượng của mẫu và giá trị củatổng thể chung Sai số chọn mẫu còn gọi là sai số do tính đại diện Sai số này chỉ xảy ratrong điều tra chọn mẫu do chỉ điều tra một số ít đơn vị mà kết quả lại suy cho cả tổng thể.Sai số chọn mẫu có hai loại:
- Sai số có hệ thống: Sai số xảy ra khi áp dụng phương pháp chọn có hệ thống, làm chokết quả điều tra luôn bị lệch so với số thực tế về một hướng
- Sai số ngẫu nhiên: Sai số chỉ xuất hiện trong trường hợp các đơn vị của tổng thể đượcchọn theo nguyên tắc ngẫu nhiên, không phụ thuộc vào ý định của người điều tra
x
Trang 37c Ý nghĩa của việc tính toán sai số chọn mẫu
- Sai số chọn mẫu dùng để ước lượng chỉ tiêu nghiên cứu theo khoảng tin cậy, điều nàythể hiện qua công thức 1.1.8
- Sai số chọn mẫu dùng để đánh giá tính đại diện của chỉ tiêu nghiên cứu qua tính toán
tỷ lệ SSCM (H) như sau:
100 x
H = µ× ; (1.1.9)
H càng nhỏ thì chỉ tiêu có tính đại diện càng cao và ngược lại
- Là cơ sở để xác định cỡ mẫu cho các cuộc điều tra được tiến hành về sau
3.2.4 Đơn vị chọn mẫu và dàn chọn mẫu
a Đơn vị chọn mẫu
Đơn vị chọn mẫu là các đơn vị cơ bản hoặc nhóm đơn vị cơ bản được xác định rõ ràng,tương đối đồng đều và có thể quan sát được, thích hợp cho mục đích chọn mẫu Ví dụ:Doanh nghiệp, hộ gia đình, đơn vị diện tích gieo trồng, xã, phường, xóm, bản
Nếu chọn mẫu một cấp thì có một loại đơn vị chọn mẫu, còn nếu chọn mẫu nhiều cấpthì sẽ có nhiều loại đơn vị chọn mẫu Tức là lược đồ chọn mẫu theo bao nhiêu cấp thì có bấynhiêu loại đơn vị chọn mẫu
b Dàn chọn mẫu
Dàn chọn mẫu có thể là danh sách các đơn vị chọn mẫu với những đặc điểm nhận dạngcủa chúng hoặc là bản đồ chỉ ra ranh giới của các đơn vị được dùng làm căn cứ để tiến hànhchọn mẫu Khi tổ chức điều tra thống kê
Trong tổng thể nghiên cứu, tùy thuộc vào lược đồ chọn mẫu mà sẽ có các loại dàn chọnmẫu khác nhau Nếu điều tra mẫu một cấp (giả định điều tra các hộ trên địa bàn huyện) thìdàn chọn mẫu là danh sách các hộ gia đình của tất cả các xã trong huyện Còn nếu điều tramẫu hai cấp, cấp I là xã và cấp II là hộ gia đình thì có hai loại dàn chọn mẫu: Dàn chọn mẫucấp I là danh sách tất cả các xã trong huyện, còn dàn chọn mẫu cấp II là danh sách các hộ giađình của những xã được chọn ở mẫu cấp I
Trang 383.2.5 Chọn mẫu ngẫu nhiên, chọn mẫu hệ thống và chọn theo phương pháp phân tích chuyên gia
- Chọn mẫu ngẫu nhiên là chọn các đơn vị từ tổng thể vào mẫu hoàn toàn hú hoạ Cáchđơn giản nhất của chọn mẫu ngẫu nhiên là rút thăm hoặc sử dụng bảng số ngẫu nhiên
- Chọn mẫu hệ thống là chọn các đơn vị từ tổng thể vào mẫu theo một khoảng cách cốđịnh sau khi đã chọn ngẫu nhiên một nhóm nào đó trên cơ sở các đơn vị điều tra được sắpxếp thứ tự theo một tiêu thức nhất định
Ví dụ: Trường đại học "X" có 2000 sinh viên (N = 2000) Cần chọn 100 sinh viên (n =
100) để điều tra mức sống của họ Nếu chọn hệ thống sẽ tiến hành như sau:
+ Lập danh sách 2000 sinh viên của trường theo thứ tự nào đó, chẳng hạn theo vần A,
B, C của tên gọi
+ Chia tổng số sinh viên của trường thành 100 nhóm đều nhau và sẽ có số sinh viên
Kết quả chọn được 100 sinh viên như vậy được gọi là chọn hệ thống
- Chọn mẫu theo phương pháp phân tích chuyên gia là chọn mẫu trên cơ sở phân tíchxem xét chủ quan của người điều tra Cách chọn này thường áp dụng cho tổng thể có ít đơn
vị mẫu hoặc trị số của chỉ tiêu nghiên cứu giữa các đơn vị mẫu chênh lệch nhau nhiều
3.2.6 Các phương pháp tổ chức chọn mẫu
Có nhiều phương pháp, tổ chức chọn mẫu khác nhau Mỗi phương pháp có những ưu,nhược điểm riêng và được áp dụng trong những điều kiện nhất định Tuy nhiên gọi làphương pháp này hay phương pháp kia là đứng trên những giác độ khác nhau và cũng chỉ có
ý nghĩa tương đối
- Xét theo cấp chọn mẫu có phương pháp tổ chức chọn mẫu một cấp và tổ chức chọn
Trang 39mẫu hai cấp hay nhiều cấp:
+ Chọn mẫu một cấp là từ một loại danh sách của tất cả các đơn vị thuộc tổng thểchung, tiến hành chọn mẫu một lần trực tiếp đến các đơn vị điều tra không qua một phânđoạn nào khác
Chọn mẫu một cấp chỉ có một loại đơn vị chọn mẫu và một dàn chọn mẫu Đối với mẫumột cấp có thể dùng cách chọn ngẫu nhiên, nhưng cũng có thể dùng cách chọn hệ thống hoặcchọn theo phương pháp chuyên gia Tuy nhiên, trong thực tế nếu là điều tra mẫu một cấp thìphổ biến là dùng cách chọn ngẫu nhiên và thường được gọi tắt là "chọn mẫu ngẫu nhiên đơngiản" Chọn mẫu ngẫu nhiên đơn giản đảm bảo số mẫu được rải trên toàn địa bàn điều tra nênSSCM sẽ nhỏ Song khó khăn là việc lập danh sách các đơn vị (dàn chọn mẫu) để tiến hànhchọn mẫu khá lớn, tốn nhiều thời gian và công sức Hơn nữa khi tổ chức điều tra phải thựchiện ở địa bàn rất rộng
+ Chọn mẫu nhiều cấp là tiến hành điều tra theo nhiều công đoạn, trong đó mỗi côngđoạn là một cấp chọn mẫu Có bao nhiêu cấp điều tra thì có bấy nhiêu loại đơn vị chọn mẫucũng như có bấy nhiêu loại dàn chọn mẫu
Phương pháp tổ chức chọn mẫu nhiều cấp thuận tiện cho việc lập dàn chọn mẫu và tổchức điều tra: Ở cấp sau chỉ phải lập dàn chọn mẫu cho cấp đó trong phạm vi mẫu cấp trướcđược chọn, phạm vi điều tra được thu hẹp sau mỗi cấp điều tra Tuy nhiên, với phương pháp
tổ chức chọn mẫu nhiều cấp số liệu thu thập được thường có độ tin cậy thấp hơn so với chọnmẫu ngẫu nhiên đơn giản
- Nếu trước khi chọn mẫu, tiến hành phân chia tổng thể thành những tổ khác nhau theomột hay một số tiêu thức nào đó liên quan đến tiêu thức điều tra, sau đó phân bổ cỡ mẫu chotừng tổ và trong mỗi tổ lập một danh sách riêng và chọn đủ số mẫu phân bổ cho tổ đó Cáchchọn như vậy gọi là chọn mẫu phân tổ
Với phương pháp chọn mẫu phân tổ, nếu việc phân tổ được tiến hành khoa học thì tổngthể mẫu sẽ có kết cấu gần tổng thể chung, do đó SSCM sẽ giảm đi, tính chất đại diện củatổng thể mẫu được nâng cao
Tuy nhiên, chọn mẫu phân tổ cũng khó khăn trong việc lập dàn chọn mẫu như chọnmẫu ngẫu nhiên đơn giản Hơn nữa tổ chức điều tra phải tiến hành trên địa bàn rộng, thậmchí còn phức tạp hơn cả chọn mẫu ngẫu nhiên đơn giản
Trang 40- Nếu điều tra chia thành nhiều cấp, các cấp tiến hành trước thì chọn từng đơn vị mẫu,nhưng ở cấp cuối cùng không chọn ra từng đơn vị, mà chọn cả nhóm các đơn vị để điều tra.Cách chọn như vậy gọi là chọn mẫu chùm (hay chọn mẫu cả khối)
Nếu cùng cỡ mẫu như nhau, chọn mẫu chùm so với các phương pháp tổ chức chọn mẫunêu trên sẽ thuận tiện nhất cho việc lập dàn chọn mẫu và tổ chức điều tra Tuy nhiên, độ tincậy của số liệu thu thập được sẽ thấp hơn; tức là có SSCM lớn nhất
3.3 Xác định cỡ mẫu, phân bổ mẫu và tính sai số chọn mẫu
3.3.1 Xác định cỡ mẫu (số đơn vị mẫu)
Xác định cỡ mẫu (số đơn vị mẫu) chính là xác định số lượng đơn vị điều tra trong tổngthể mẫu để tiến hành thu thập số liệu Yêu cầu của cỡ mẩu là vừa đủ để vừa đảm bảo độ tincậy cần thiết của số liệu điều tra vừa đảm bảo phù hợp với điều kiện về nhân lực và kinh phí
và có thể thực hiện được, tức là có tính khả thi
Dưới đây sẽ trình bày cách xác định cỡ mẫu đơn thuần theo lý thuyết và việc xác định
cỡ mẫu trong thực tế các cuộc điều tra thống kê ở Việt Nam
a Xác định cỡ mẫu theo các công thức lý thuyết Một tổng thể khi tiến hành điều tra
không chia thành các tổng thể nhỏ (các tổ) thì chỉ có một cách xác định cỡ mẫu trên cơ sởthông tin về quy mô và phương sai của tổng thể chung Đối với một tổng thể khi điều tra cóchia thành các tổng thể nhỏ có hai cách xác định cỡ mẫu: Cách thứ nhất xác định cỡ mẫunhư trường hợp không phân tổ, sau đó phân bổ số mẫu chung cho các tổ theo nguyên tắcphân bổ mẫu Cách thứ hai xác định cỡ mẫu trên cơ sở quy mô và phương sai của từng tổ Sau đây sẽ giới thiệu công thức xác định cỡ mẫu theo hai cách nói trên nhưng chỉ chotrường hợp tổ chức chọn mẫu ngẫu nhiên đơn giản hoặc có phân tổ và được áp dụng chonghiên cứu chỉ tiêu bình quân với cách chọn không lặp làm ví dụ
+ Cách thứ nhất xác định cỡ mẫu trên cơ sở các thông tin về quy mô và phương sai củatổng thể chung:
2 2 2
x
2 2
S t
N
S t N