*Phân loại: Có nhiều cách phân loại tổng thể tuỳ theo đặc điểm của đối tượng nghiên cứu : -Tổng thể hữu hạn khi ta xác định được số đơn vị của tổng thể, và tổng thể vô hạn khi ta không
Trang 1Cơ sở lý thuyết cho thống kê là lý thuyết xác suất và thống kê toán Hiện nay thống kê đã được ứng dụng rộng rãi trong rất nhiều lĩnh vực như: thống kê dân số, thống kê xã hội, thống
kê trong kinh doanh, thống kê bảo hiểm, thống kê trong giáo dục, thống kê trong sinh học, thống kê trong y học,…Trong lĩnh vực kinh tế và kinh doanh, thống kê đóng vai trò là công cụ
cơ bản để phân tích thực trạng tình hình thông qua dữ liệu thu thập và xử lý nhằm tìm hiểu bản chất và tính quy luật của hiện tượng trong những điều kiện không gian và thời gian cụ thể
2-Chức năng của thống kê: Thống kê có 2 chức năng cơ bản sau :
-Thống kê mô tả (Descriptive Statistics) : bao gồm các phương pháp dùng để mô tả các
đặc trưng cơ bản của khối dữ liệu về tổng thể chung hay tổng thể mẫu Đó là các phương pháp : thu thập dữ liệu, sắp xếp dữ liệu, trình bày tóm tắt dữ liệu, phân tích dữ liệu …
Trang 22
-Thống kê suy luận (Inferential Statistics) : bao gồm các phương pháp dùng để suy
rộng các đặc trưng của tổng thể chung dựa trên kết quả nghiên cứu trên tổng thể mẫu Đó là các phương pháp : ước lượng thống kê, kiểm định giả thuyết thống kê, phân tích phương sai, hồi quy và tương quan, dự báo thống kê…
II MỘT SỐ KHÁI NIỆM THƯỜNG DÙNG TRONG THỐNG KÊ :
1-Tổng thể chung (population) :
Tổng thể chung (gọi tắt là tổng thể) là một tập hợp các đơn vị cá biệt mà ta đang quan
tâm nghiên cứu về 1 hiện tượng nào đó trên chúng Từng đơn vị cá biệt tạo thành tổng thể chung được gọi là đơn vị tổng thể
*Phân loại: Có nhiều cách phân loại tổng thể tuỳ theo đặc điểm của đối tượng nghiên cứu :
-Tổng thể hữu hạn (khi ta xác định được số đơn vị của tổng thể, ) và tổng thể vô hạn
(khi ta không thể hoặc khó xác định được số đơn vị của tổng thể, như: tổng thể sản phẩm sản xuất của 1 cái máy, tổng thể ngày sản xuất của một nhà máy)
-Tổng thể bộc lộ (khi ta có thể trực tiếp quan sát hay nhận biết các đơn vị của tổng thể,
như tổng thể sinh viên của một trường đại học, tổng thể các doanh nghiệp nhà nước,…) và
tổng thể tiềm ẩn (khi ta không thể trực tiếp quan sát hay nhận biết các đơn vị của tổng thể,
như tổng thể những người nghiện thuốc lá…)
-Tổng thể đồng chất (khi các đơn vị của tổng thể giống nhau về đặc điểm liên quan đến mục đích nghiên cứu) và tổng thể không đồng chất (khi các đơn vị của tổng thể không giống
nhau về đặc điểm liên quan đến mục đích nghiên cứu) Việc phân loại này phụ thuộc vào mục đích nghiên cứu cụ thể Các nghiên cứu thống kê thường dựa trên tổng thể đồng chất
2-Tổng thể mẫu (sample):
Tổng thể mẫu (gọi tắt là mẫu) là một tập hợp con của tổng thể chung, bao gồm các đơn
vị cá biệt được ta chọn ra từ tổng thể chung theo một phương pháp lấy mẫu nào đó
3-Quan sát (observation):
Quan sát là đơn vị cơ sở để thu thập dữ liệu về hiện tượng nghiên cứu Người ta gọi 1
đơn vị của mẫu là 1 quan sát bởi vì trên từng đơn vị này ta sẽ tiến hành thu thập dữ liệu về nó
4-Tiêu thức thống kê: Tiêu thức thống kê là các đặc điểm của các đơn vị tổng thể được
-Tiêu thức định lượng (tiêu thức số lượng): Là tiêu thức có thể biểu hiện trực tiếp bằng
con số Các con số này được gọi là các lượng biến Lượng biến được chia ra 2 loại:
+Lượng biến rời rạc : Là lượng biến mà các giá trị có thể có của nó là những số hữu hạn
hay vô hạn, và có thể đếm được Ví dụ: số sinh viên trong 1 trường đại học, số nhân khẩu trong 1 hộ gia đình, số thành phẩm nhập kho trong 1 ngày tại một phân xưởng…
+Lượng biến liên tục : Là lượng biến mà các giá trị có thể có của nó có thể lấp kín một
khoảng trên trục số Ví dụ: trọng lượng chiều cao của 1 học sinh, năng suất lao động của một công nhân…
5-Chỉ tiêu thống kê : Chỉ tiêu thống kê là biểu hiện khái quát đặc điểm về mặt lượng
của toàn bộ tổng thể trong điều kiện không gian và thời gian nhất định Có thể chia ra 2 loại chỉ tiêu :
-Chỉ tiêu khối lượng: phản ánh khái quát đặc điểm về quy mô của tổng thể Ví dụ: Tổng
dân số của một quốc gia, tổng quỹ lương của một công ty, khối lượng sản phẩm nhập kho, số lao động của một doanh nghiệp…
Trang 33
-Chỉ tiêu chất lượng: phản ánh khái quát đặc điểm về tính chất, trình độ phổ biến,
quan hệ so sánh trong tổng thể Chỉ tiêu chất lượng thường mang ý nghĩa phân tích và là kết quả so sánh giữa các chỉ tiêu khối lượng Ví dụ: năng suất lao động trung bình của một công nhân, năng suất thu hoạch một loại cây trồng, tỷ lệ hộ nghèo tại một địa phương,…
6-Các loại thang đo :
Để lượng hoá các đặc trưng của các quan sát trên tổng thể nghiên cứu nhằm thuận tiện trong việc xử lý dữ liệu bằng các phương pháp thống kê, người ta tiến hành xây dựng thang đo khi thu thập dữ liệu Vậy thang đo là công cụ dùng để mã hóa các biểu hiện khác nhau của tiêu thức nghiên cứu Để có thể xử lý dữ liệu trên máy vi tính người ta thường mã hóa thang đo bằng các con số Có thể chia ra 4 loại thang đo (xếp theo sự tăng dần khả năng diễn đạt thông tin của thang đo) là :
-Thang đo định danh (Nominal scale) :
Là loại thang đo dùng để biểu hiện sự khác nhau về tên gọi, màu sắc, tính chất, đặc điểm,… giữa các đơn vị của 1 tiêu thức định tính Người ta thường quy ước dùng các con số 1,2,3,… hay dùng các ký tự A,B,C,…để biểu hiện thang đo định danh.Các con số của thang đo không nói lên quan hệ hơn kém, không thể tính toán trên những con số này
Ví dụ: Tên nhãn hiệu bột giặt mà gia đình bạn đang dùng: Tide □ Omo □ Viso □ Tên khác □
-Thang đo thứ bậc (Ordinal scale): Là loại thang đo dùng để biểu hiện sự khác nhau về
mặt thứ bậc… giữa các đơn vị của 1 tiêu thức định tính hay 1 tiêu thức định lượng
Người ta thường quy ước dùng các con số 1,2,3,… để biểu thị thứ bậc từ cao xuống thấp hay từ thấp lên cao Như vậy, các con số của thang đo nói lên quan hệ thứ bậc hơn kém, nhưng không nói lên được khoảng cách giữa các thứ bậc Có thể tính toán trên những con số này để biểu hiện đặc trưng chung của tổng thể một cách tương đối
Ví dụ: Bạn đánh giá năng lực quan trọng nhất mà người thầy cần có là gì ? (bạn hãy xếp thứ tự 1,2,3 cho năng lực từ quan trọng nhất trở xuống) :
-Có kiến thức uyên bác về môn học : là năng lực quan trọng số □
-Có năng lực sư phạm tốt, giảng dạy rõ ràng, dễ hiểu : số □
-Có khả năng tạo cảm hứng cho SV trong học tập (sự dí dỏm, sự tinh tế trong nhận định,
óc sáng tạo, năng khiếu diễn thuyết…) : số □
-Thang đo khoảng (Interval scale) : Là dạng đặc biệt của thang đo thứ bậc, trong đó
mỗi thứ bậc sẽ có khoảng cách đều nhau.Thường sử dụng thang đo khoảng cho tiêu thức định lượng hay tiêu thức định tính.Người ta thường dùng 1 dãy các con số liên tục và đều đặn từ 1 đến 5, hay từ 1 đến 7, hay từ 1 đến 10 để biểu hiện các khoảng cách đều nhau giữa các thứ bậc; 2 con số ở 2 đầu dãy số biểu hiện 2 trạng thái đối nghịch nhau Các con số của thang đo khoảng vừa nói lên quan hệ thứ bậc hơn kém, vừa nói lên khoảng cách giữa các thứ bậc Có thể tính toán (cộng, trừ) trên những con số này, tuy nhiên không thể thực hiện được phép chia
tỷ lệ giữa chúng bởi vì “giá trị 0” của thang đo không phải là 1 con số có ý nghĩa thật
Ví dụ: Bạn có hài lòng với mức lương hiện tại của mình không ? (hãy chọn một con số cho câu trả lời của bạn : 1: rất hài lòng, 2: khá hài lòng, 3:hài lòng, 4:khá không hài lòng, 5:rất không hài lòng)
-Thang đo tỷ lệ (Ratio scale) : Là một dạng đặc biệt của thang đo khoảng, trong đó trị
số 0 của thang đo là 1 con số có ý nghĩa thật Chỉ sử dụng thang đo này cho tiêu thức định lượng Người ta thường biểu thị thang đo tỷ lệ bằng 1 dãy các con số thực của chính tiêu thức Các con số của thang đo tỷ lệ vừa nói lên quan hệ thứ bậc hơn kém, vừa nói lên khoảng cách giữa các thứ bậc; vừa nói lên quan hệ so sánh về mặt tỷ lệ giữa chúng Thang đo tỷ lệ biểu hiện được nhiều thông tin nhất trong hệ thống thang đo thống kê
Ví dụ: Doanh số bán hàng ngày của 1 đại lý, tiền lương tháng của một công nhân, mức chi tiêu của 1 hộ gia đình,…
III- QUÁ TRÌNH NGHIÊN CỨU THỐNG KÊ:
Trang 44 Quá trình nghiên cứu thống kê bất cứ một hiện tượng nào đó, thường trải qua các bước
cơ bản sau:
-Xác định mục đích nghiên cứu, nội dung và đối tượng nghiên cứu
-Xây dựng hệ thống các khái niệm và các chỉ tiêu thống kê
-Thu thập dữ liệu thống kê
-Xử lý dữ liệu thống kê
-Phân tích và diễn giải kết quả thu được
-Trình bày và báo cáo kết quả nghiên cứu
CHƯƠNG II THU THẬP DỮ LIỆU THỐNG KÊ I-DỮ LIỆU CẦN THU THẬP:
1-Khái niệm:Dữ liệu cần thu thập là toàn bộ dữ liệu có liên quan đến hiện tượng nghiên
cứu Việc thu thập dữ liệu thường tốn nhiều thời gian, công sức và chi phí, do đó cần phải xác định rõ mục đích nghiên cứu để xác định cụ thể những dữ liệu cần thu thập, để không tốn thời gian và chi phí cho việc thu thập những dữ liệu ít quan trọng hoặc ít liên quan trực tiếp đến hiện tượng nghiên cứu
Ví dụ: Để nghiên cứu vấn đề ăn ở của sinh viên học xa nhà, có thể thu thập các dữ liệu sau:
-Bạn đang sống ở đâu ?
-Nơi ở cách trường bao xa ?
-Bạn đánh giá như thế nào về nơi ở của mình: sự yên tĩnh, mức độ an ninh, sự tiện nghi, mức độ thuận lợi cho việc học,chi phí thuê, …
-Hàng ngày bạn ăn ở đâu ?
-Nếu ăn tại quán, bạn đánh giá như thế nào về bữa ăn của mình: độ ngon, độ dinh dưỡng,
độ an toàn về mặt vệ sinh, mức độ phục vụ, chi phí bữa ăn,…
2-Phân loại:
*Căn cứ vào tính chất dữ liệu: Có thể chia ra 2 loại dữ liệu :
- Dữ liệu định tính: Là dữ liệu thu thập bằng thang đo định danh hay thang đo thứ bậc;
phản ánh các tính chất khác nhau hoặc các thứ bậc khác nhau của các đơn vị
- Dữ liệu định lượng: Là dữ liệu thu thập bằng thang đo khoảng hay thang đo tỷ lệ;
phản ánh các mức độ khác nhau của các đơn vị
Nhận xét: Ta có thể chuyển từ dữ liệu định lượng sang dữ liệu định tính, nhưng ta không thể chuyển theo chiều ngược lại Việc thu thập dữ liệu định tính đơn giản hơn dữ liệu định lượng, nhưng dữ liệu định lượng chứa đựng nhiều thông tin hơn và dễ áp dụng các phương pháp phân tích hơn
*Căn cứ vào nguồn cung cấp dữ liệu: Có thể chia ra 2 loại dữ liệu:
- Dữ liệu sơ cấp (dữ liệu ban đầu) : Là những dữ liệu chưa qua xử lý, được thu thập lần
đầu, và thu thập trực tiếp từ các đơn vị của tổng thể nghiên cứu, thông qua các cuộc điều tra thống kê Dữ liệu sơ cấp đáp ứng tốt yêu cầu nghiên cứu, tuy nhiên việc thu thập dữ liệu ban đầu thường phức tạp, tốn nhiều thời gian, công sức và chi phí Để khắc phục nhược điểm này, người ta không tiến hành điều tra hết toàn bộ các đơn vị của tổng thể, mà chỉ điều tra trên 1 số
đơn vị gọi là điều tra chọn mẫu, nhưng vấn đề quan trọng nhất là đảm bảo cho tổng thể mẫu
phải có khả năng đại diện được cho tổng thể chung
- Dữ liệu thứ cấp: Đây là những dữ liệu đã được tổng hợp, xử lý; và được thu thập từ
những nguồn có sẵn như : từ nội bộ doanh nghiệp; từ các cơ quan thống kê (Tổng cục thống
kê, Chi cục thống kê các tỉnh thành phố,…); từ các cơ quan chính phủ (Bộ, cơ quan ngang Bộ,
Ủy ban nhân dân các cấp,…); từ các tổ chức, hiệp hội nghề nghiệp (Viện nghiên cứu kinh tế, Phòng công nghiệp và thương mại,…); từ các báo, tạp chí… Hiện nay có khá nhiều dữ liệu thứ cấp đã được đưa lên mạng internet qua các trang web của các đơn vị cung cấp thông tin
Trang 55 Việc thu thập dữ liệu thứ cấp thường ít tốn thời gian và chi phí; nhưng dữ liệu thường không đầy đủ, ít chi tiết, không đáp ứng tốt yêu cầu nghiên cứu
II-CÁC LOẠI ĐIỀU TRA THỐNG KÊ :
Để có nguồn dữ liệu có chất lượng cao, đáp ứng được mục tiêu của cuộc nghiên cứu, nhất thiết phải tổ chức việc thu thập dữ liệu sơ cấp thông qua việc tổ chức điều tra thống kê
1-Căn cứ vào thời gian thu thập dữ liệu: Có thể chia ra 2 loại điều tra :
- Điều tra thường xuyên: là thu thập dữ liệu về hiện tượng nghiên cứu một cách liên
tục, theo sát với quá trình phát sinh và phát triển của hiện tượng Dữ liệu thu thập từ điều tra thường xuyên có thể phản ánh sự phát triển của hiện tượng trong 1 thời kỳ nhất định
Ví dụ: Trong doanh nghiệp, điều tra hàng ngày về số công nhân đi làm, số sản phẩm sản xuất, số sản phẩm tiêu thụ, số vật tư sử dụng vào sản xuất…
- Điều tra không thường xuyên: là thu thập dữ liệu về hiện tượng nghiên cứu một cách
không liên tục, không gắn liền với quá trình phát sinh và phát triển của hiện tượng; chỉ khi nào
có nhu cầu nghiên cứu thì mới tiến hành thu thập dữ liệu Dữ liệu thu thập từ điều tra không thường xuyên chỉ phản ánh trạng thái của hiện tượng tại 1 thời điểm nhất định
Ví dụ: Điều tra dân số, điều tra tình hình tai nạn giao thông, điều tra tình hình an toàn vệ sinh thực phẩm…
2-Căn cứ vào phạm vi thu thập dữ liệu: Có thể chia ra 2 loại điều tra :
- Điều tra toàn bộ: là thu thập dữ liệu về tất cả các đơn vị thuộc tổng thể nghiên cứu,
không bỏ sót bất kỳ một đơn vị nào Đây là nguồn dữ liệu đầy đủ nhất về hiện tượng nghiên cứu; tuy nhiên chỉ có thể nghiên cứu hiện tượng một cách bao quát; mặt khác, rất tốn kém thời gian, nhân lực và chi phí cho điều tra
Ví dụ: Tổng điều tra dân số, tổng kiểm kê đất đai,tổng kiểm kê hàng hoá tồn kho…
- Điều tra không toàn bộ: là thu thập dữ liệu về một số đơn vị thuộc tổng thể nghiên
cứu Điều tra không toàn bộ được chia thành 3 loại:
+Điều tra chọn mẫu : Có nghĩa là chọn ra một mẫu từ tổng thể chung để thu thập dữ
liệu; trên cơ sở dữ liệu thu thập được trên mẫu, ta sẽ tìm ra các đặc trưng của mẫu và từ đó suy rộng ra đặc trưng chung của toàn bộ tổng thể Để chọn mẫu, ta có thể dùng phương pháp chọn mẫu ngẫu nhiên hay chọn mẫu phi ngẫu nhiên Đây là loại điều tra được sử dụng nhiều nhất trong nghiên cứu thống kê vì tiết kiệm được thời gian, chi phí, và kết quả đáng tin cậy
Ví dụ: Điều tra chọn mẫu để nghiên cứu chất lượng sản phẩm trên các dây chuyền sản xuất hàng loạt, điều tra sự hài lòng của công nhân sau khi công ty áp dụng hình thức trả lương mới,…
+Điều tra trọng điểm: Có nghĩa là chỉ thu thập dữ liệu của những bộ phận chủ yếu nhất,
quan trọng nhất của tổng thể nghiên cứu Trên cơ sở dữ liệu thu thập được, ta sẽ nhận định nhanh về tình hình cơ bản của hiện tượng, chứ không suy rộng thành đặc trưng chung của toàn
bộ tổng thể
Ví dụ: Điều tra giá bán hàng ở các trung tâm thương mại để nắm nhanh tình hình biến động giá cả hàng tiêu dùng trên thị trường, điều tra năng suất cây trồng ở những vùng trồng chuyên canh…
+Điều tra chuyên đề: Có nghĩa là chỉ thu thập dữ liệu trên 1 hay 1 số rất ít đơn vị của
tổng thể nhưng lại đi sâu nghiên cứu nhiều khía cạnh khác nhau của đơn vị đó Trên cơ sở dữ liệu thu thập được, ta chỉ có thể nhận định về bản thân đơn vị được điều tra; chứ không thể nhận định về tình hình cơ bản của hiện tượng, cũng như không thể suy rộng thành đặc trưng chung của toàn bộ tổng thể Đơn vị được chọn để điều tra chuyên đề thường là đơn vị đặc biệt yếu kém hay đặc biệt xuất sắc; nhằm tìm ra những nhân tố ảnh hưởng đến các đơn vị này, từ
đó có biện pháp ngăn chặn các tiêu cực hay nhân rộng các điển hình
Ví dụ: Điều tra chuyên đề đối với một số ít sinh viên có năng lực vượt trội về học tập và nghiên cứu khoa học hoặc đối với một số sinh viên quá yếu kém trong học tập…
III SAI SỐ TRONG ĐIỀU TRA THỐNG KÊ:
Trang 66
1-Khái niệm:
Sai số trong điều tra thống kê là chênh lệch giữa giá trị thu thập trong điều tra với giá trị thực tế của đơn vị điều tra Rất khó xác định và khó loại bỏ được sai số trong điều tra; nhưng nếu ta nắm được các nguyên nhân phát sinh sai số thì có thể chủ động làm hạn chế sai số
2-Phân loại: Căn cứ vào nguyên nhân phát sinh, có thể chia làm 2 loại sai số sau:
2.1-Sai số do đăng ký:
Đây là loại sai số phát sinh do ghi chép số liệu không chính xác như:
-Do lập kế hoạch điều tra không tốt, không sát với thực tế hiện tượng
-Do nhân viên điều tra thiếu ý thức và tinh thần trách nhiệm (ghi sai, cân đong đo đếm sai…), do trình độ nhân viên điều tra yếu kém không hiểu được chính xác nội dung các câu hỏi, do nhân viên điều tra không trung thực nên cố tình ghi chép sai,…
-Do đơn vị được điều tra trả lời sai vì không hiểu rõ câu hỏi, hoặc do họ không được tuyên truyền vận động tốt nên trả lời qua loa chiếu lệ hay cố tình trả lời sai,…
-Do dụng cụ đo lường không chính xác
-Do lỗi trong in ấn phiếu điều tra, bảng hướng dẫn ghi chép…
2.2-Sai số do tính chất đại biểu:
Đây là loại sai số thường phát sinh trong các cuộc điều tra chọn mẫu Do các đơn vị được chọn vào mẫu để tiến hành điều tra không có khả năng đại diện cho toàn bộ tổng thể, nên khi suy rộng kết quả trên mẫu cho tổng thể sẽ phát sinh sai số có tính chất đại biểu
3-Biện pháp nhằm hạn chế sai số trong điều tra thống kê:
-Làm tốt công tác chuẩn bị điều tra : tuyến chọn và huấn luyện nhân viên điều tra, làm tốt công tác tuyên truyền phổ biến mục tiêu ý nghĩa của cuộc điều tra, in ấn chính xác phiếu điều tra và tài liệu hướng dẫn, tạo điều kiện làm việc tốt cho nhân viên điều tra với thời gian, thù lao, chế độ thưởng phạt hợp lý nhằm để nâng cao tinh thần trách nhiệm của họ…
-Cần phải chọn phương pháp lấy mẫu phù hợp với đối tượng nghiên cứu, nên dùng bảng câu hỏi đơn giản và giới hạn ở những câu hỏi cần thiết cho những vấn đề chính của cuộc điều tra nhằm để tạo ra sự tập trung và tránh gây mệt mỏi cho cả người hỏi và người trả lời
-Sau khi điều tra xong, tiến hành kiểm tra một cách hệ thống toàn bộ cuộc điều tra, bằng cách chọn ra 20% hay 30% số phiếu để kiểm tra có đúng đối tượng cần nghiên cứu không, có đảm bảo mặt logic của dữ liệu không, kiểm tra việc tính toán trong dữ liệu, kiểm tra khả năng đại diện của mẫu,…
IV-PHƯƠNG PHÁP THU THẬP DỮ LIỆU SƠ CẤP:
Có nhiều phương pháp để thu thập dữ liệu sơ cấp tuỳ theo đặc điểm của hiện tượng nghiên cứu và nguồn kinh phí có được Sau đây là các phương pháp thường dùng:
1-Phương pháp phỏng vấn bằng thư (mail interview):
*Nội dung phương pháp: Gởi bảng câu hỏi đã soạn sẵn, kèm phong bì đã dán tem đến người muốn điều tra qua đường bưu điện Nếu mọi việc trôi chảy, đối tượng điều tra sẽ trả lời
và gởi lại bảng câu hỏi cho cơ quan điều tra cũng qua đường bưu điện
*Ưu nhược điểm: Có thể điều tra với số lượng lớn đơn vị, có thể đề cập đến nhiều vấn đề riêng tư tế nhị, chi phí điều tra thấp…Tuy nhiên tỷ lệ trả lời thường thấp, mất nhiều thời gian chờ đợi thư đi và thư hồi âm, không kiểm soát được người trả lời , người trả lời thư có thể không đúng đối tượng mà ta nhắm tới…
*Trường hợp áp dụng: Khi người mà ta cần hỏi rất khó đối mặt, do họ ở quá xa, hay họ sống quá phân tán, hay họ sống ở khu dành riêng rất khó vào, hay họ thuộc giới kinh doanh muốn gặp phải qua bảo vệ thư ký…; khi vấn đề cần điều tra thuộc loại khó nói, riêng tư (chẳng hạn: kế hoạch hoá gia đình, thu nhập, chi tiêu,…); khi vấn đề cần điều tra cực kỳ hấp dẫn đối với người được phỏng vấn (chẳng hạn: phụ nữ với vấn đề mỹ phẩm, nhà quản trị với vấn đề quản lý,…); khi vấn đề cần điều tra cần thiết phải có sự tham khảo tra cứu nhất định nào đó…
2-Phương pháp phỏng vấn bằng điện thoại (telephone interview):
Trang 7*Trường hợp áp dụng: Khi mẫu nghiên cứu gồm nhiều đối tượng, phân bố phân tán trên nhiều địa bàn thì phỏng vấn bằng điện thoại có chi phí thấp hơn phỏng vấn bằng thư Nên sử dụng kết hợp phỏng vấn bằng điện thoại với phương pháp thu thập dữ liệu khác để tăng thêm hiệu quả của phương pháp
3-Phương pháp phỏng vấn cá nhân trực tiếp (personal interviews):
*Nội dung phương pháp: Nhân viên điều tra đến gặp trực tiếp đối tượng được điều tra để phỏng vấn theo một bảng câu hỏi đã soạn sẵn
*Ưu nhược điểm: Do gặp mặt trực tiếp nên nhân viên điều tra có thể thuyết phục đối tượng trả lời, có thể giải thích rõ cho đối tượng về các câu hỏi, có thể dùng hình ảnh kết hợp với lời nói để giải thích, có thể kiểm tra dữ liệu tại chỗ trước khi ghi vào phiếu điều tra Tuy nhiên phương pháp này đòi hỏi chi phí cao, mất nhiều thời gian và công sức
*Trường hợp áp dụng: Khi hiện tượng nghiên cứu phức tạp, cần phải thu thập nhiều dữ liệu; khi muốn thăm dò ý kiến đối tượng qua các câu hỏi ngắn gọn và có thể trả lời nhanh được,…
4-Phương pháp nhóm chuyên đề: (forcus groups)
*Nội dung phương pháp: Nhân viên điều tra tiến hành đặt câu hỏi phỏng vấn từng nhóm, thường từ 7 đến 12 người có am hiểu và kinh nghiệm về một vấn đề nào đó, để thông qua thảo luận tự do trong nhóm nhằm làm bật lên vấn đề ở nhiều khía cạnh sâu sắc, từ đó giúp cho nhà nghiên cứu có thể nhìn nhận vấn đề một cách thấu đáo và toàn diện
*Ưu nhược điểm: Thu thập dữ liệu đa dạng, khách quan và khoa học Tuy nhiên kết quả thu được không có tính đại diện cho tổng thể chung, chất lượng dữ liệu thu được hoàn toàn phụ thuộc vào kỹ năng của người điều khiển thảo luận, các câu hỏi thường không theo một cấu trúc có sẵn nên khó phân tích xử lý
*Trường hợp áp dụng: Phương pháp này có ý nghĩa trong việc xây dựng hay triển khai một bảng câu hỏi để sử dụng trong nghiên cứu định lượng về sau; làm cơ sở để tạo ra những giả thiết cần kiểm định trong nghiên cứu Chẳng hạn: Trắc nghiệm phản ứng của người tiêu dùng đối với các mẫu quảng cáo, đối với sản phẩm mới, tìm ra các nguyên nhân làm giảm
doanh số…
V-PHƯƠNG PHÁP CHỌN MẪU: Có 2 phương pháp chọn mẫu cơ bản :
1-Phương pháp chọn mẫu ngẫu nhiên (probability sampling methods):
*Khái niệm : Chọn mẫu ngẫu nhiên (hay chọn mẫu xác suất) là phương pháp chọn mẫu
mà khả năng được chọn vào tổng thể mẫu của tất cả các đơn vị của tổng thể đều như nhau Đây là phương pháp tốt nhất để ta có thể chọn ra một mẫu có khả năng đại biểu cho tổng thể
Vì có thể tính được sai số do chọn mẫu, nhờ đó ta có thể áp dụng được các phương pháp ước lượng thống kê, kiểm định giả thuyết thống kê trong xử lý dữ liệu để suy rộng kết quả trên mẫu cho tổng thể chung
Tuy nhiên ta khó áp dụng phương pháp này khi không xác định được danh sách cụ thể của tổng thể chung (ví dụ nghiên cứu trên tổng thể tiềm ẩn); tốn kém nhiều thời gian, chi phí, nhân lực cho việc thu thập dữ liệu khi đối tượng phân tán trên nhiều địa bàn cách xa nhau,…
*Các phương pháp chọn mẫu ngẫu nhiên:
-Chọn mẫu ngẫu nhiên đơn giản (simple random sampling):
Trước tiên lập danh sách các đơn vị của tổng thể chung theo một trật tự nào đó : lập theo vần của tên, hoặc theo quy mô, hoặc theo địa chỉ…, sau đó đánh số thứ tự các đơn vị trong danh sách; rồi rút thăm, quay số, dùng bảng số ngẫu nhiên, hoặc dùng máy tính để chọn ra từng đơn vị trong tổng thể chung vào mẫu
Trang 88 Thường vận dụng khi các đơn vị của tổng thể chung không phân bố quá rộng về mặt địa lý, các đơn vị khá đồng đều nhau về đặc điểm đang nghiên cứu Thường áp dụng trong kiểm tra chất lượng sản phẩm trong các dây chuyền sản xuất hàng loạt
-Chọn mẫu ngẫu nhiên hệ thống(systematic sampling):
Trước tiên lập danh sách các đơn vị của tổng thể chung theo một trật tự quy ước nào đó, sau đó đánh số thứ tự các đơn vị trong danh sách Đầu tiên chọn ngẫu nhiên 1 đơn vị trong danh sách ; sau đó cứ cách đều k đơn vị lại chọn ra 1 đơn vị vào mẫu,…cứ như thế cho đến khi chọn đủ số đơn vị của mẫu
Ví dụ : Dựa vào danh sách bầu cử tại 1 thành phố, ta có danh sách theo thứ tự vần của tên chủ hộ, bao gồm 240.000 hộ Ta muốn chọn ra một mẫu có 2000 hộ Vậy khoảng cách chọn là : k= 240000/2000 = 120, có nghĩa là cứ cách 120 hộ thì ta chọn một hộ vào mẫu
-Phương pháp chọn mẫu cả khối (cluster sampling):
Trước tiên lập danh sách tổng thể chung theo từng khối (như làng, xã, phường, lượng sản phẩm sản xuất trong 1 khoảng thời gian…) Sau đó, ta chọn ngẫu nhiên một số khối và điều tra tất cả các đơn vị trong khối đã chọn Thường dùng phương pháp này khi không có sẵn danh sách đầy đủ của các đơn vị trong tổng thể cần nghiên cứu
Ví dụ : Tổng thể chung là sinh viên của một trường đại học Khi đó ta sẽ lập danh sách các lớp chứ không lập danh sách sinh viên, sau đó chọn ra các lớp để điều tra
-Phương pháp chọn mẫu phân tầng (stratified sampling):
Trước tiên phân chia tổng thể thành các tổ theo 1 tiêu thức hay nhiều tiêu thức có liên quan đến mục đích nghiên cứu (như phân tổ các DN theo vùng, theo khu vực, theo loại hình, theo quy mô,…) Sau đó trong từng tổ, dùng cách chọn mẫu ngẫu nhiên đơn giản hay chọn mẫu hệ thống để chọn ra các đơn vị của mẫu
Đối với chọn mẫu phân tầng, số đơn vị chọn ra ở mỗi tổ có thể tuân theo tỷ lệ số đơn vị
tổ đó chiếm trong tổng thể, hoặc có thể không tuân theo tỷ lệ
Ví dụ : Ta muốn chọn ra một mẫu phân tầng theo giới tính và thu nhập Giả sử quy mô mẫu là 500 người, được chọn từ một địa bàn có nam chiếm 45%, nữ chiếm 55% ; người dân
có thu nhập cao chiếm 20%, thu nhập trung bình chiếm 30% và thu nhập thấp chiếm 50% Dựa vào các tỷ lệ trên ta có thể bố trí mẫu như sau :
Giới tính Thu nhập thấp Thu nhập trung
Toà soạn có thể căn cứ vào các tiêu thức : vùng địa lý (miền Bắc, miền Trung, miền Nam) ; hình thức sở hữu (quốc doanh, ngoài quốc doanh, công ty 100% vốn nước ngoài,…) để quyết định cơ cấu của mẫu nghiên cứu
-Chọn mẫu nhiều giai đoạn (multi-stage sampling):
Phương pháp này thường áp dụng đối với tổng thể chung có quy mô quá lớn và địa bàn nghiên cứu quá rộng Việc chọn mẫu phải trải qua nhiều giai đoạn (nhiều cấp) Trước tiên phân chia tổng thể chung thành các đơn vị cấp I, rồi chọn các đơn vị mẫu cấp I Tiếp đến phân chia mỗi đơn vị mẫu cấp I thành các đơn vị cấp II, rồi chọn các đơn vị mẫu cấp II…Trong mỗi cấp có thể áp dụng các cách chọn mẫu ngẫu nhiên đơn giản, chọn mẫu hệ thống, chọn mẫu phân tầng, chọn mẫu cả khối để chọn ra các đơn vị mẫu
Ví dụ :Muốn chọn ngẫu nhiên 50 hộ từ một thành phố có 10 khu phố, mỗi khu phố có 50
hộ Cách tiến hành như sau : Trước tiên đánh số thứ tự các khu phố từ 1 đến 10, chọn ngẫu
Trang 99 nhiên trong đó 5 khu phố Đánh số thứ tự các hộ trong từng khu phố được chọn Chọn ngẫu nhiên ra 10 hộ trong mỗi khu phố ta sẽ có đủ mẫu cần thiết
2-Phuơng pháp chọn mẫu phi ngẫu nhiên (non-probability sampling methods):
*Khái niệm : Chọn mẫu phi ngẫu nhiên (hay chọn mẫu phi xác suất) là phương pháp chọn mẫu mà các đơn vị trong tổng thể chung không có khả năng ngang nhau để được chọn vào mẫu nghiên cứu Chẳng hạn : Ta tiến hành phỏng vấn các bà nội trợ tới mua hàng tại siêu thị tại một thời điểm nào đó ; như vậy sẽ có rất nhiều bà nội trợ do không tới mua hàng tại thời điểm đó nên sẽ không có khả năng được chọn
Việc chọn mẫu phi ngẫu nhiên hoàn toàn phụ thuộc vào kinh nghiệm và sự hiểu biết về tổng thể của người nghiên cứu nên kết quả điều tra thường mang tính chủ quan của người nghiên cứu Mặt khác, ta không thể tính được sai số do chọn mẫu, do đó không thể áp dụng phương pháp ước lượng thống kê để suy rộng kết quả trên mẫu cho tổng thể chung
*Các phương pháp chọn mẫu phi ngẫu nhiên:
-Chọn mẫu thuận tiện (convenience sampling):
Có nghĩa là lấy mẫu dựa trên sự thuận lợi hay dựa trên tính dễ tiếp cận của đối tượng, ở những nơi mà nhân viên điều tra có nhiều khả năng gặp được đối tượng Chẳng hạn nhân viên điều tra có thể chặn bất cứ người nào mà họ gặp ở trung tâm thương mại, đường phố, cửa hàng, để xin thực hiện cuộc phỏng vấn Nếu người được phỏng vấn không đồng ý thì họ chuyển sang đối tượng khác Lấy mẫu thuận tiện thường được dùng trong nghiên cứu khám phá, để xác định ý nghĩa thực tiễn của vấn đề nghiên cứu; hoặc để kiểm tra trước bảng câu hỏi nhằm hoàn chỉnh bảng; hoặc khi muốn ước lượng sơ bộ về vấn đề đang quan tâm mà không muốn mất nhiều thời gian và chi phí
-Chọn mẫu phán đoán (judgement sampling):
Là phương pháp mà phỏng vấn viên là người tự đưa ra phán đoán về đối tượng cần chọn vào mẫu Như vậy tính đại diện của mẫu phụ thuộc nhiều vào kinh nghiệm và sự hiểu biết của người tổ chức việc điều tra và cả người đi thu thập dữ liệu Chẳng hạn, nhân viên phỏng vấn được yêu cầu đến các trung tâm thương mại chọn các phụ nữ ăn mặc sang trọng để phỏng vấn Như vậy không có tiêu chuẩn cụ thể “thế nào là sang trọng” mà hoàn toàn dựa vào phán đoán
để chọn ra người cần phỏng vấn
-Chọn mẫu định ngạch (quota sampling):
Đối với phương pháp chọn mẫu này, trước tiên ta tiến hành phân tổ tổng thể theo một tiêu thức nào đó mà ta đang quan tâm, cũng giống như chọn mẫu ngẫu nhiên phân tầng, tuy nhiên sau đó ta lại dùng phương pháp chọn mẫu thuận tiện hay chọn mẫu phán đoán để chọn các đơn vị trong từng tổ để tiến hành điều tra Sự phân bổ số đơn vị cần điều tra cho từng tổ được chia hoàn toàn theo kinh nghiệm chủ quan của người nghiên cứu Chẳng hạn nhà nghiên cứu yêu cầu các vấn viên đi phỏng vấn 800 người có tuổi trên 18 tại 1 thành phố Nếu áp dụng phương pháp chọn mẫu định ngạch, ta có thể phân tổ theo giới tính và tuổi như sau:chọn 400 người (200 nam và 200 nữ) có tuổi từ 18 đến 40, chọn 400 người (200 nam và 200 nữ) có tuổi
từ 40 trở lên Sau đó nhân viên điều tra có thể chọn những người gần nhà hay thuận lợi cho việc điều tra của họ để dễ nhanh chóng hoàn thành công việc
VI-PHƯƠNG PHÁP THIẾT KẾ BẢNG CÂU HỎI:
Bảng câu hỏi là một công cụ dùng để thu thập dữ liệu Bảng câu hỏi bao gồm một tập
hợp các câu hỏi và các câu trả lời được sắp xếp theo logic nhất định Bảng câu hỏi là phương tiện dùng để giao tiếp giữa người nghiên cứu và người trả lời trong tất cả các phương pháp phỏng vấn Thông thường có 8 bước cơ bản sau đây để thiết kế một bảng câu hỏi:
1- Xác định các dữ liệu cần tìm:
Dựa vào mục tiêu và nội dung nghiên cứu, để xác định cụ thể tổng thể nghiên cứu và nội dung các dữ liệu cần phải thu thập trên tổng thể đó
2-Xác định phương pháp phỏng vấn :
Trang 1010 Tuỳ theo phương pháp phỏng vấn (gởi thư, gọi điện thoại, phỏng vấn trực tiếp, phỏng vấn bằng thư điện tử…) sẽ thiết kế bảng câu hỏi khác nhau
-Phỏng vấn bằng thư: phải đặt câu hỏi hết sức đơn giản và có những chỉ dẫn về cách trả lời thật rõ ràng chi tiết
-Phỏng vấn qua điện thoại: vấn viên phải giải thích cặn kẽ rõ ràng để người trả lời hiểu
rõ câu hỏi và trả lời chính xác; bởi vì người trả lời không thấy được bảng câu hỏi và các hình ảnh minh hoạ
-Phỏng vấn trực tiếp: có thể dùng câu hỏi dài và phức tạp vì vấn viên có điều kiện để giải thích rõ câu hỏi, kèm theo có thể dùng hình ảnh minh hoạ
-Phỏng vấn bằng thư điện tử: có thể dùng các câu hỏi phức tạp và có thể gửi kèm hình ảnh minh hoạ
3-Phác thảo nội dung bảng câu hỏi:
Tương ứng với từng nội dung cần nghiên cứu, phác thảo các câu hỏi cần đặt ra Cần sắp xếp các câu hỏi theo từng chủ điểm một cách hợp lý
4-Chọn dạng cho câu hỏi: Có 2 dạng câu hỏi: câu hỏi đóng và câu hỏi mở
*Câu hỏi mở: Là dạng câu hỏi không cấu trúc sẵn phương án trả lời, do đó người trả lời
có thể trả lời hoàn toàn theo ý họ, và nhân viên điều tra có nhiệm vụ phải ghi chép lại đầy đủ các câu trả lời
*Câu hỏi đóng: Là dạng câu hỏi mà ta đã cấu trúc sẵn phương án trả lời Bao gồm 4
dạng sau :
-Câu hỏi phản đối: Là dạng câu hỏi mà câu trả lời có dạng: “ có hoặc không”
-Câu hỏi xếp hạng thứ tự: Là dạng câu hỏi mà ta đưa ra sẵn các phương án trả lời, và để
cho người trả lời lựa chọn, so sánh và xếp hạng chúng theo thứ tự
Ví dụ: Nhân tố tác động đến quyết định ghi danh học ngành quản trị kinh doanh của bạn
là gì ? (Xếp hạng từ 1 đến 5 theo thứ tự từ nhân tố có tác động lớn nhất đến nhân tố có tác động ít nhất :
Do ý thích của bản thân □, Do hướng dẫn, gợi ý của người thân □, Do ảnh hưởng của bạn bè □, Do ảnh hưởng của sinh viên các khoá trước □, Do uy tín của giảng viên □
-Câu hỏi đánh dấu tình huống trong danh sách: Là dạng câu hỏi mà ta đưa ra sẵn danh
sách các phương án trả lời, và người trả lời sẽ đánh dấu vào những đề mục phù hợp với họ
Ví dụ: Bạn hãy đánh dấu vào nhãn hiệu kem đánh răng mà bạn sử dụng nhiều nhất trong danh sách các nhãn hiệu liệt kê dưới đây (chỉ chọn 1 phương án trả lời):
Nhãn P/S □ , nhãn Colgate □, nhãn Close-up□, nhãn Fresh □, nhãn khác□ (ghi rõ tên)
-Câu hỏi dạng bậc thang: Là dạng câu hỏi dùng thang đo thứ tự hoặc thang đo khoảng
để hỏi về mức độ đồng ý hay phản đối, mức độ thích hay ghét…của người trả lời về một vấn
đề nào đó
Ví dụ: Đối với công dụng tạo mùi thơm cho quần áo của sản phẩm bột giặt OMO, mức
độ hài lòng của bạn về sản phẩm như thế nào (chỉ được chọn một trong những phương án trả lời sau):
rất thích □, thích vừa phải □, không thích không ghét □, ghét vừa phải □, rất ghét □
5 Xác định từ ngữ thích hợp cho bảng câu hỏi:
Nên tuân theo nguyên tắc chung sau đây khi xác định từ ngữ cho bảng câu hỏi:
-Nên dùng từ ngữ quen thuộc, tránh dùng tiếng lóng hoặc từ chuyên môn
-Nên dùng từ ngữ dễ hiểu, để mọi người ở bất cứ trình độ nào cũng có thể hiểu được -Tránh đưa ra câu hỏi dài quá
-Tránh đặt câu hỏi mơ hồ, không rõ ràng Ví dụ: Không nên hỏi : Bạn có thường xuyên
đi mua sắm tại siêu thị không? (người trả lời sẽ không biết “thường xuyên” là bao nhiêu lần?) -Tránh đưa ra câu hỏi quá cụ thể Ví dụ: Không nên hỏi: Khi đến một viện bảo tàng, bạn
đã đọc bao nhiêu lần các bảng ghi hướng dẫn về hiện vật được trưng bày (người trả lời khó nhớ cụ thể số lần đọc của mình)
Trang 1111 -Tránh hỏi trực tiếp những vấn đề riêng tư cá nhân Ví dụ: Không nên hỏi con số cụ thể về thu nhập của một người, mà chỉ nên hỏi theo từng nhóm : chẳng hạn dưới 1 triệu đ/tháng, từ 1 đến 3 triệu đ, từ 3 đến 5 triệu,…
-Tránh đưa ra câu hỏi quá cường điệu hay quá nhấn mạnh vào một khía cạnh nào đó Ví dụ: Bạn có ủng hộ việc tăng giá điện để đầu tư phát triển ngành điện trong điều kiện lạm phát giá cả hiện nay không ?
-Tránh đặt câu hỏi đã gợi ý sẵn câu trả lời Ví dụ: Bạn có tán thành việc không cho học sinh sử dụng xe máy đến trường nhằm làm giảm bớt tai nạn giao thông không?
-Tránh đặt câu hỏi dựa theo giá trị xã hội đã xác nhận Ví dụ: ông có kiếm nhiều tiền hơn
vợ không? (thông thường sẽ nhận được câu trả lời là “có” vì theo quan niệm xã hội thì chồng phải hơn vợ)
-Tránh dùng ngôn từ đã có sẵn sự đánh giá thiên kiến Ví dụ: Không nên dùng những từ như : sản phẩm hàng đầu, sản phẩm đại hạ giá,…
6 Xác định cấu trúc bảng câu hỏi:
*Yêu cầu : Nên sắp xếp các câu hỏi theo trình tự hợp lý Câu hỏi này phải dẫn đến câu hỏi kế tiếp theo một trình tự hợp lý, theo một dòng tư tưởng liên tục Một vấn đề lớn nên phân
ra nhiều vấn đề nhỏ Trong các câu trả lời lại tiếp tục đặt ra câu hỏi phân nhánh để tiếp tục sàng lọc thông tin
Nên tuân theo trình tự về tâm lý: Sau khi đã thiết lập mối quan hệ thân thiện tốt đẹp thì mới hỏi các câu hỏi riêng tư Nên theo trình tự là hỏi cái chung rồi mới đến cái riêng; những câu hỏi ít gây hứng thú nên hỏi cuối cùng, nên theo trình tự để khơi gợi trí nhớ về các sự việc
đã qua
*Cấu trúc bảng câu hỏi :thường bao gồm 5 phần :
-Phần mở đầu: Có tác dụng gây thiện cảm để tạo nên sự hợp tác của người trả lời lúc bắt đầu buổi phỏng vấn
-Câu hỏi định tính: Có tác dụng xác định rõ đối tượng được phỏng vấn
-Câu hỏi hâm nóng: Có tác dụng gợi nhớ để tập trung vào chủ đề mà bảng câu hỏi đang hướng tới
-Câu hỏi đặc thù: Có tác dụng làm rõ nội dung cần nghiên cứu
-Câu hỏi phụ: Có tác dụng thu thập thêm thông tin về đặc điểm nhân khẩu người trả lời (giới tính, tuổi tác, nghề nghiệp, )
7- Thiết kế việc trình bày bảng câu hỏi:
Cần quan tâm đến việc in ấn trình bày bảng câu hỏi để tạo thiện cảm và lôi cuốn người trả lời tham gia vào cuộc phỏng vấn Dùng giấy màu có tác dụng kích thích trả lời hơn In bảng câu hỏi thành tập có tác dụng hấp dẫn hơn so với trang rời
8-Điều tra thử để trắc nghiệm bảng câu hỏi:
Về nguyên tắc, một bảng câu hỏi cần phải được điều tra thử để trắc nghiệm trước khi phỏng vấn chính thức Việc điều tra được tiến hành trên một mẫu nhỏ được chọn ra từ tổng thể mẫu cần nghiên cứu, để xem người trả lời có hiểu và trả lời đúng không, để xem người phỏng vấn có làm tốt nhiệm vụ không, để xem thông tin được thu thập như thế nào, và xác định thời gian cho thực hiện phỏng vấn một người Sau khi điều tra thử sẽ xử lý và phân tích dữ liệu để qua đó chỉnh sửa, loại bỏ, bổ sung thêm câu hỏi…
CHƯƠNG III SẮP XẾP VÀ TRÌNH BÀY DỮ LIỆU THỐNG KÊ I-SẮP XẾP DỮ LIỆU THỐNG KÊ :
Trang 1212 Sau khi thu thập dữ liệu, nếu khối dữ liệu nhỏ ta có thể sắp xếp dữ liệu theo thứ tự tăng dần hay giảm dần đối với dữ liệu định lượng hay theo một trật tự quy định nào đó đối với dữ
liệu định tính; nếu khối dữ liệu lớn ta có thể sắp xếp dữ liệu theo phương pháp phân tổ
1 Khái niệm phân tổ thống kê :
Phân tổ thống kê có nghĩa là căn cứ vào 1 hay 1 số tiêu thức nào đó để sắp xếp các đơn
vị của tổng thể vào các tổ có tính chất khác nhau
Nguyên tắc phân tổ là : các đơn vị được xếp vào 1 tổ thì phải có tính chất giống nhau
(hoặc gần giống nhau); các đơn vị thuộc các tổ khác nhau thì phải có tính chất khác nhau một cách rõ rệt
2.Nội dung chủ yếu của phân tổ: Để thực hiện sắp xếp dữ liệu theo phương pháp phân
tổ, ta cần thực hiện các công việc chủ yếu sau :
2.1-Xác định mục đích phân tổ : Làm rõ thông tin cần tìm sau khi sắp xếp dữ liệu bằng
phương pháp phân tổ
2.2-Xác định tiêu thức phân tổ: Tiêu thức phân tổ là căn cứ để tiến hành phân tổ Cần
phải chọn tiêu thức bản chất nhất, đáp ứng cao nhất mục đích nghiên cứu làm tiêu thức phân
tổ
2.3-Xác định số tổ cần chia: Xét 2 trường hợp
*Nếu tiêu thức phân tổ là tiêu thức định tính: có 2 trường hợp:
-Tiêu thức có ít biểu hiện : cứ mỗi biểu hiện ta lập 1 tổ Ví dụ : Phân tổ sinh viên theo
giới tính : chia ra 2 tổ : nam và nữ
-Tiêu thức có nhiều biểu hiện: ta sẽ ghép nhiều biểu hiện khác nhau vào 1 tổ Ví dụ :
Phân tổ doanh nghiệp theo ngành kinh tế : có thể chia ra : doanh nghiệp công nghiệp, doanh nghiệp nông nghiệp, doanh nghiệp thuỷ sản, doanh nghiệp xây dựng, doanh nghiệp thương mại,…
*Nếu tiêu thức phân tổ là tiêu thức định lượng : có 2 trường hợp:
-Tiêu thức có ít lượng biến: cứ mỗi lượng biến ta lập 1 tổ Ví dụ : Phân tổ hộ gia đình
theo số nhân khẩu, phân tổ bài thi theo điểm thi, phân tổ nhân khẩu theo tuổi, phân tổ công nhân theo bậc thợ…
-Tiêu thức có nhiều lượng biến : ta sẽ ghép nhiều lượng biến vào 1 tổ, tạo nên khoảng
cách tổ, trong đó giới hạn dưới là lượng biến nhỏ nhất và giới hạn trên là lượng biến lớn nhất của mỗi tổ
+Nếu sự khác nhau về chất giữa các lượng biến không đều nhau, ta dùng khoảng cách
tổ không đều Ví dụ : Phân tổ nhân khẩu theo tuổi có khả năng lao động
+Nếu sự khác nhau về chất giữa các lượng biến tương đối đều nhau, ta dùng khoảng cách tổ đều Có 2 trường hợp :
> Đối với lượng biến liên tục: Công thức khoảng cách tổ :
k
X X
Giới hạn trên và giới hạn dưới của 2 tổ kề nhau sẽ trùng nhau Nếu lượng biến trùng với giới hạn trên của tổ đứng trước, và trùng với giới hạn dưới của tổ đứng sau, thì ta xếp nó vào tổ đứng sau
> Đối với lượng biến rời rạc: Công thức khoảng cách tổ :
k
k X
X
h( max min)( 1)Giới hạn trên và giới hạn dưới của 2 tổ kề nhau sẽ cách nhau 1 đơn vị
k là số tổ,có thể tính theo công thức thống kê kinh nghiệm sau: k (2n)1/3 (2n)0,3333
h là khoảng cách tổ (h và k được làm tròn số); n : số đơn vị của tổng thể
Xmax, Xmin là lượng biến lớn nhất và nhỏ nhất của tiêu thức phân tổ
2.4-Xác định tần số của mỗi tổ:Sau khi sắp xếp các đơn vị vào các tổ, ta xác định đặc
trưng phân phối các đơn vị của tổng thể vào mỗi tổ thông qua các chỉ tiêu : tần số, tần số tích lũy; tần suất, tần suất tích lũy
Trang 1313
-Tần số (hay tần số tuyệt đối) : Là số đơn vị tổng thể được sắp xếp vào 1 tổ Tần số
càng lớn biểu hiện số lần xuất hiện của các giá trị lượng biến thuộc tổ đó trong tổng thể càng lớn và ngược lại
-Tần số tích lũy (hay tần số cộng dồn): Tần số tích lũy của 1 tổ là số cộng dồn tần số
của tổ đó với các tần số của các tổ đứng trước tổ đó Như vậy tần số tích lũy của tổ thứ 1 là tần
số của tổ đó; tần số tích lũy của tổ thứ 2 bao gồm tần số của tổ thứ 2 và tần số của tổ thứ 1
-Tần suất (hay tần số tương đối) : Là tỷ lệ số đơn vị của từng tổ chiếm trong tổng thể -Tần suất tích lũy (hay tần suất cộng dồn) : Tần suất tích lũy của 1 tổ là số cộng dồn tần
suất của tổ đó với các tần suất của các tổ đứng trước tổ đó
2.5-Trình bày tài liệu sau khi phân tổ : Thường dùng hình thức bảng tần số hay biểu
đồ phân phối (xem mục II)
II TRÌNH BÀY DỮ LIỆU THỐNG KÊ: Thường trình bày dữ liệu dưới các dạng sau: 1-Trình bày dữ liệu dưới dạng biểu đồ nhánh và lá (stem and leaf):
*Khái niệm: Biểu đồ nhánh và lá là một hình thức trình bày dữ liệu bằng cách tách mỗi
con số trong dữ liệu ra làm 2 phần: phần lá tương ứng với các chữ số ở bên phải, phần nhánh
tương ứng với các chữ số bên trái Việc phân chia ra 2 phần nhánh và lá chỉ có tính quy ước và
có thể thay đổi linh hoạt theo đặc điểm của dữ liệu Nếu phần lá quá dài, ta có thể tách phần
nhánh ra làm 2 phần : nhánh trên và nhánh dưới để biểu đồ được cân đối hơn
Ví dụ: Với dữ liệu về mẫu là :
52,53,54,54,55,55,56,59,60,60,60,60,60,60,61,61,62,62,64,65,65,66,66,66,67,68,68,71,71,72,74,75, 77,78 Ta có thể trình bày dưới dạng biểu đồ nhánh và lá như sau:
2-Trình bày dữ liệu dưới dạng bảng:
2.1-Bảng thống kê:
*Khái niệm: Bảng thống kê là 1 hình thức trình bày các tài liệu thống kê một cách hệ thống, hợp lý và rõ ràng, nhằm nêu lên các đặc trưng về mặt lượng của hiện tượng nghiên cứu
*Cấu thành của bảng thống kê:
Tên bảng: nói lên nội dung chủ yếu của cả bảng, thời gian và địa điểm nghiên cứu Phần chủ đề (biểu hiện qua tên các hàng) : dùng để giới thiệu về tổng thể nghiên cứu
Chẳng hạn cho biết tổng thể bao gồm những đơn vị nào, hay tổng thể được hợp thành từ những bộ phận nào, hay tổng thể được nghiên cứu ở những địa điểm nào, ở những thời gian nào ?
Trang 1414
Phần giải thích (biểu hiện qua tên các cột) : dùng để nêu lên các đặc trưng của tổng
thể nghiên cứu Có 2 cách trình bày phần giải thích:
+Cách trình bày giản đơn: bố trí các chỉ tiêu giải thích theo kiểu song song với nhau, độc lập nhau
+Cách trình bày kết hợp: bố trí các chỉ tiêu giải thích theo kiểu phối hợp với nhau, đan xen vào nhau
*1 số quy tắc khi lập bảng:
-Có thể làm tròn số khi chỉ cần nêu lên bản chất chung nhất của hiện tượng; bằng cách nâng đơn vị tính lên: Từ kg làm tròn thành tạ, tấn, nghìn tấn, triệu tấn; từ đồng làm tròn thành nghìn đ, triệu đ, tỷ đ, nghìn tỷ đ; từ mét làm tròn thành nghìn m, triệu m…
-Nếu cả bảng có chung một đơn vị tính thì ghi đơn vị tính chung đó trên đầu bảng, ngay dưới tên bảng, bằng nét chữ nhỏ và để trong ngoặc đơn
-Nếu mỗi cột có đơn vị tính riêng thì ghi đơn vị tính ngay dưới tên cột và để trong ngoặc đơn
-Nếu mỗi hàng có đơn vị tính riêng thì lập thêm 1 cột ghi đơn vị tính sát ngay cột ghi tên hàng
Có thể biểu hiện khái quát bảng thống kê như sau:
Tên bảng Phần giải thích
Phần chủ đề
Các chỉ tiêu giải thích Tên cột
Tên hàng
Cộng
2.2-Bảng tần số:
*Khái niệm : Bảng tần số là 1 loại bảng thống kê biểu hiện tình hình phân phối các đơn
vị của tổng thể theo 1 hay 1 số tiêu thức nào đó
Trong bảng tần số, người ta thường dùng 2 chỉ tiêu cơ bản là tần số và tần suất Tùy theo yêu cầu nghiên cứu ta có thể tính thêm tần số tích lũy và tần suất tích lũy
-Bảng tần số kết hợp : Phản ánh tình hình phân phối các đơn vị của tổng thể theo 2 hay
3 tiêu thức kết hợp với nhau Chẳng hạn: Kết hợp giữa 2 tiêu thức định tính, kết hợp giữa 2 tiêu thức định lượng, kết hợp giữa 1 tiêu thức định tính và 1 tiêu thức định lượng, kết hợp giữa
3 tiêu thức định tính, kết hợp giữa 3 tiêu thức định lượng, kết hợp giữa 1 tiêu thức đinh tính và
2 tiêu thức định lượng, kết hợp giữa 2 tiêu thức định tính và 1 tiêu thức định lượng,…
Ví dụ: Bảng phân tổ công nhân một xí nghiệp theo mức thu nhập và tuổi nghề
Trang 1515 Mức thu nhập
(triệu đ/tháng) Số công
nhân
Tuổi nghề (năm) dưới 5 từ 5 đến
dưới 10
từ 10 đến dưới 15
từ 15 trở lên dưới 1
Tuổi nghề (năm) dưới 5 từ 5 đến
dưới 10
từ 10 đến dưới 15
từ 15 trở lên NAM
-Dạng biểu đồ hình thanh (Bar chart): Có 2 dạng : thanh dọc và thanh ngang Thường
dùng để biểu hiện : quy mô của hiện tượng và sự phát triển quy mô theo thời gian; sự phân phối các đơn vị theo 1 tiêu thức số lượng nào đó; kết cấu của tổng thể và sự biến động của kết cấu theo thời gian,…
-Dạng biểu đồ hình tròn (Pie chart): Có dạng 1 hình tròn chia thành nhiều hình quạt :
hình tròn biểu hiện cho tổng thể, hình quạt biểu hiện cho từng bộ phận trong tổng thể Dạng biểu đồ này thường dùng để biểu hiện kết cấu của tổng thể trong từng năm
-Dạng biểu đồ hình gấp khúc (Line chart): Thường dùng để biểu hiện quy mô của hiện
tượng, sự phân phối các đơn vị theo 1 tiêu thức số lượng nào đó, mối liên hệ giữa 2 tiêu thức
số lượng,…
2.2- Biểu đồ phân phối :
* Khái niệm: Biểu đồ phân phối (histogram) là dạng biểu đồ phản ánh tình hình phân phối các đơn vị tổng thể theo 1 hay 1 số tiêu thức nào đó
*Các dạng biểu đồ thường dùng:
Trang 1616 -Biểu đồ phân phối tần số (hoặc tần suất): Trên hệ trục toạ độ, trục hoành biểu thị tiêu
thức nghiên cứu (nhóm tuổi, năng suất lao động, tiền lương,…), trục tung biểu thị tần số (hoặc tần suất) của các tổ
-Biểu đồ phân phối tần số và tần số tích lũy (hoặc tần suất và tần suất tích lũy): Trên hệ trục toạ độ, trục hoành biểu thị tiêu thức nghiên cứu, trục tung biểu thị tần số và tần số tích lũy của các tổ
-Biểu đồ phân phối tần số và tần suất tích lũy: Trên hệ trục toạ độ, trục hoành biểu thị tiêu thức nghiên cứu, trục tung thứ nhất biểu thị tần số, trục tung thứ hai biểu thị tần suất tích
Trang 1717
CHƯƠNG IV PHÂN TÍCH DỮ LIỆU THỐNG KÊ
QUY MÔ SINH VIÊN PHÂN THEO NGÀNH KHOA KINH TẾ GIAI ĐOẠN 2003-2007
QUY MÔ SINH VIÊN PHÂN THEO NGÀNH NĂM 2007
KẾT CẤU SINH VIÊN PHÂN THEO NGÀNH KHOA KINH TẾ NĂM 2007
TẦN SỐ VÀ TẦN SỐ TÍCH LŨY CỦA NĂNG SUẤT LAO ĐỘNG
8
12
7
3 8
TẦN SUẤT VÀ TẦN SUẤT TÍCH LŨY CỦA NĂNG SUẤT LAO ĐỘNG
27
40
23
10 27
67
0 20 40 60 80 100 120
TẦN SỐ VÀ TẦN SUẤT TÍCH LŨY CỦA NĂNG SUẤT LAO ĐỘNG
tr Tần số
Tần suất tích lũy
Trang 1818
Để phân tích đặc trưng cơ bản của một khối dữ liệu, người ta thường phân tích dữ liệu theo 2 mặt : độ tập trung và độ phân tán của dữ liệu
I PHÂN TÍCH ĐỘ TẬP TRUNG CỦA DỮ LIỆU (measure of central tendency):
Để đo lường khuynh hướng tập trung của dữ liệu; người ta thường sử dụng các tham số :
số trung bình, số trung vị, số yếu vị
1-Số trung bình (mean, average):
*Khái niệm: Số trung bình là con số đại diện cho tổng thể về 1 tiêu thức định lượng nào
n
i i
1
Trong đó: x là lượng biến thứ i ; N là số đơn vị của tổng thể, n là số đơn vị của mẫu i
1.2.Đối với dữ liệu có phân tổ :
k
i i i
f
f x
k
i i i
f
f x x
1 1
Trong đó: f là tần số của tổ thứ i (i =1,2,…, k) i
*Ưu nhược điểm: Cách tính đơn giản, dễ hiểu Tuy nhiên tính đại diện của số trung bình cho toàn bộ khối dữ liệu sẽ không cao khi biểu đồ phân phối của tổng thể bị lệch về 1 bên quá lớn; hoặc khi khối dữ liệu có những lượng biến quá lớn hay quá nhỏ một cách bất thường so với các lượng biến khác
2.2 Nếu dữ liệu có khoảng cách tổ:
-Trước tiên ta tìm tổ có chứa M o (tổ có tần số lớn nhất)
-Sau đó ta tính trị số gần đúng của M o theo công thức:
)(
)
1 (min)
Mo
Mo Mo Mo
Mo
o
f f f
f
f f h
Trang 1919
*Ưu nhược điểm : Cách tính M orất đơn giản, dễ hiểu Trong thực tế, người ta thường dùng M otrong việc nghiên cứu kích cỡ để sản xuất quần áo, giày dép, nón mũ… để sản phẩm vừa cỡ với nhiều khách hàng nhất Tuy nhiên phạm vi ứng dụng của M orất hạn chế bởi vì có khi có đến 2 hay 3 M o, hoặc có khi không có M o; mặt khác,M okhông quan tâm đến toàn bộ lượng biến của khối dữ liệu
*Cách tính :
3.1-Nếu dữ liệu không phân tổ : Có 2 trường hợp:
-Nếu cỡ mẫu n là số lẻ: M e là lượng biến đứng ở vị trí thứ
21
3.2-Nếu dữ liệu có phân tổ: Có 2 trường hợp:
-Nếu không có khoảng cách tổ : M e là lượng biến có tần số tích lũy bằng
21
f i
-Nếu có khoảng cách tổ: Trước tiên ta tìm tổ có chứa M e,đó là tổ tương ứng với tần số tích
lũy bằng
21
f i
; sau đó ta tính M e theo công thức:
Me
Me i
Me Me
e
f
S f h x
M
1 (min) 2
-Khi số trung bình = số trung vị = số yếu vị, ta có dạng phân phối là đối xứng
-Khi số trung bình < số trung vị < số yếu vị, ta có dạng phân phối là lệch trái
-Khi số yếu vị < số trung vị < số trung bình, ta có dạng phân phối là lệch phải
Trang 2020 eo eo
o e
Phân phối đối xứng Phân phối lệch trái Phân phối lệch phải
II PHÂN TÍCH ĐỘ PHÂN TÁN CỦA DỮ LIỆU (measure of dispersion):
Để đo lường độ phân tán nhằm phản ánh khuynh hướng biến động của khối dữ liệu, người ta thường sử dụng các tham số : Khoảng biến thiên; khoảng tứ phân vị; độ lệch tuyệt đối trung bình, phương sai, độ lệch tiêu chuẩn,…
1-Khoảng biến thiên (Range)
*Khái niệm: Khoảng biến thiên – ký hiệu R - là hiệu số giữa lượng biến lớn nhất và lượng biến nhỏ nhất của khối dữ liệu
R càng lớn, độ phân tán của khối dữ liệu càng cao, tổng thể càng ít đồng đều, tính đại diện của số trung bình cho toàn bộ khối dữ liệu càng thấp và ngược lại
*Cách tính: R Xmax Xmin
Trong đó : Xmaxlà lượng biến lớn nhất, Xminlà lượng biến nhỏ nhất
*Ưu nhược điểm: Cách tính đơn giản, đo lường được một cách khái quát đặc trưng về độ phân tán của khối dữ liệu Tuy nhiên không đo lường được độ phân tán của các đơn vị bên trong tổng thể; do đó phạm vi ứng dụng của R rất hạn chế
2-Khoảng tứ phân vị (hay Khoảng trải giữa):
*Khái niệm:
Tứ phân vị (quartiles) : Là các lượng biến lần lượt chia khối dữ liệu đã được sắp xếp
theo thứ tự tăng dần thành 4 phần có tần số bằng nhau Như vậy tứ phân vị sẽ bao gồm 3 lượng biến ở các vị trí sau trong dãy số lượng biến: Tứ phân vị thứ nhất (ký hiệu Q1) ở vị trí thứ
*Ưu nhược điểm: Việc tính toán đơn giản, cho ta hình dung được độ phân tán của khối
dữ liệu Không chịu ảnh hưởng của sự biến động của các lượng biến trong khối dữ liệu vì nó chỉ xét tới vị trí tương đối của các lượng biến khi chúng được sắp xếp theo thứ tự tăng dần Tuy nhiên có nhược điểm là không xét tới toàn bộ các lượng biến của khối dữ liệu
3-Độ lệch tuyệt đối trung bình (mean absolute deviation) :
*Khái niệm: Độ lệch tuyệt đối trung bình – ký hiệu d - là số trung bình của các độ lệch
tuyệt đối giữa các lượng biến và số trung bình của các lượng biến đó
n
i i
N
i i
Trang 21i
i i
f
f x x d
k
i
i i
f
f x d
1 1
*Ưu nhược điểm: Xét tới toàn bộ các lượng biến để đo độ biến thiên của chúng trong khối dữ liệu, tuy nhiên sự ràng buộc trong dấu tuyệt đối làm hạn chế khả năng ứng dụng của tham số này
4-Phương sai (Variance):
*Khái niệm: Phương sai là số trung bình của bình phương các độ lệch giữa các lượng biến và số trung bình của các lượng biến đó
n
i i
)(
ˆ ; phương sai mẫu hiệu chỉnh:
1
)(1
2 2
n
i i
4.2.Nếu dữ liệu có phân tổ:
k
i
i i
f
f x
1
1
2 2
.)
k
i
i i
f
f x x s
1
1
2 2
.)(
1
.)(
1
1
2 2
k
i
i i
f
f x x s
Chú ý: Để phân tích độ phân tán của dữ liệu mẫu chỉ cần dùng phương sai mẫu hiệu chỉnh
*Ưu nhược điểm: Phương sai đo lường được sự biến thiên của tất cả các quan sát quanh giá trị trung bình; khắc phục được sự bù trừ nhau về dấu giữa các lượng biến Tuy nhiên có nhược điểm là không có đơn vị tính, nên khó hình dung được ý nghĩa thực tiễn của nó
5-Độ lệch tiêu chuẩn (Standard deviation):
*Khái niệm: Độ lệch tiêu chuẩn (gọi tắt là độ lệch chuẩn) là căn bậc 2 của phương sai
*Cách tính: Độ lệch chuẩn của tổng thể : 2 Độ lệch chuẩn của mẫu: s s2
*Ưu điểm: Độ lệch tiêu chuẩn có cùng đơn vị tính với các lượng biến, giúp ta hình dung
rõ hơn ý nghĩa thực tiễn của nó là phản ánh độ sai lệch trung bình giữa từng lượng biến so với
số trung bình của chúng; là cơ sở để tìm ra quy luật phân phối xác suất của khối dữ liệu Có thể nói đây là tham số tốt nhất để đo lường độ phân tán của tất cả các quan sát trong khối dữ liệu
6-Hệ số biến thiên (Coefficient of variation - CV):
*Khái niệm: Hệ số biến thiên là tỷ lệ giữa độ lệch chuẩn và số trung bình của khối dữ liệu
*Cách tính:
Trang 22Ví dụ: Cho dữ liệu về lương (nghìn đ/người) của 2 nhóm công nhân Nhóm thứ 1 có lương trung bình là 4500 và độ lệch chuẩn là 600, nhóm thứ 2 có lương trung bình là 3800 và
độ lệch chuẩn là 550 So sánh sự biến thiên về lương giữa 2 nhóm ?
số biến thiên thì kết quả hoàn toàn ngược lại
Chú ý: Hệ số biến thiên còn có tác dụng so sánh mức độ biến thiên giữa 2 khối dữ liệu
có đơn vị tính khác nhau Ví dụ: Một công ty dịch vụ vận tải muốn chọn lựa một trong hai phương án tính cước : tính theo trọng lượng hay tính theo thể tích các kiện hàng Công ty chọn ngẫu nhiên ra 100 kiện hàng và thu thập dữ liệu về trọng lượng và thể tích của chúng Kết qủa như sau:
-Trọng lượng: số trung bình là 25,84 kg và độ lệch chuẩn là 2,34 kg
-Thể tích: số trung bình là 9510 cm3 và độ lệch chuẩn là 578 cm3
Hệ số biến thiên theo trọng lượng: 100%
84,25
34,2
III-QUY LUẬT PHÂN PHỐI CỦA DỮ LIỆU
Dựa trên 2 tham số tối ưu đo lường độ tập trung và độ phân tán của khối dữ liệu là số trung bình và độ lệch chuẩn, ta có thể tìm ra tính quy luật phân phối của chúng dựa trên 2 quy tắc sau:
1- Quy tắc Tchebyshev:
Cho 1 tổng thể bất kỳ với số trung bình là và độ lệch chuẩn là , thì luôn luôn có ít nhất 100.(1 12)%
m
quan sát có giá trị rơi trong khoảng + m. , với m>1
Ví dụ: Nếu m=1,5 thì sẽ có ít nhất 55,56% quan sát có giá trị rơi vào khoảng ( + 1,5 )
Nếu m=2 thì sẽ có ít nhất 75% quan sát có giá trị rơi vào khoảng ( + 2 )
Nếu m=3 thì sẽ có ít nhất 88,89 % quan sát có giá trị rơi vào khoảng ( + 3)
Nhận xét: Quy tắc Tchebychev có khả năng ứng dụng cho bất kỳ một tổng thể nào để đưa ra nhận định về tính quy luật trong phân phối của chúng, tuy nhiên độ sai lệch so với thực
tế còn khá lớn
2- Quy tắc thực nghiệm:
Cho 1 tổng thể chung hay tổng thê mẫu có phân phối đối xứng hình chuông (phân phối chuẩn) thì :
Trang 23CHƯƠNG V XÁC SUẤT THỐNG KÊ
I CÁC KHÁI NIỆM :
1- Phép thử ngẫu nhiên : Việc thực hiện các điều kiện nhất định để quan sát 1 hiện
tượng nào đó có xảy ra hay không được gọi là thực hiện 1 phép thử ngẫu nhiên
Đặc điểm của phép thử ngẫu nhiên là có thể biết được các kết cục có thể xảy ra, nhưng không thể biết được kết cục nào sẽ xảy ra trong lần thử này
Ví dụ: Các phép thử ngẫu nhiên là : Tung một đồng xu và quan sát sự xuất hiện của mặt sấp; hoặc tung một con xúc xắc và quan sát sự xuất hiện của mặt có số chấm là 4…
2-Không gian mẫu: Là tập hợp các kết cục sơ đẳng nhất có thể xảy ra trong một phép
thử ngẫu nhiên
Ví dụ: Không gian mẫu của phép thử tung đồng xu là : {sấp, ngửa}
Không gian mẫu của phép thử tung con xúc xắc là: {1,2,3,4,5,6}
3-Biến cố sơ cấp: Là 1 kết cục sơ đẳng nhất có thể xảy ra trong một phép thử Biến cố
sơ cấp là một tập hợp chỉ chứa một phần tử duy nhất
Ví dụ: Các biến cố sơ cấp của phép thử tung con xúc xắc là : {1}, {2}, {3}, {4}, {5}, {6}
4-Biến cố ngẫu nhiên: Biến cố ngẫu nhiên là các kết cục có thể xảy ra, hoặc có thể
không xảy ra trong 1 phép thử ngẫu nhiên Biến cố ngẫu nhiên là một tập hợp các biến cố sơ cấp có chung một đặc tính Người ta thường ký hiệu biến cố ngẫu nhiên bằng các chữ cái in hoa : A,B,C,
Ví dụ: Trong phép thử tung con xúc xắc, ta có thể gọi các biến cố sau là biến cố ngẫu nhiên :
gọi A là biến cố “xuất hiện mặt có số chấm là 4”, ta có: A = {4}
gọi B là biến cố “xuất hiện mặt có số chấm chẵn”, ta có: B = {2,4,6}
*Phân biệt biến cố ngẫu nhiên với các biến cố sau:
- Biến cố chắc chắn : Là biến cố chắc chắn xảy ra trong 1 phép thử
- Biến cố không thể có: Là biến cố chắc chắn không xảy ra trong 1 phép thử
5-Quan hệ giữa các biến cố:
Biến cố là một tập hợp, do đó dựa trên nền tảng các phép tính về tập hợp ta có thể xây dựng mối quan hệ giữa các biến cố như sau:
-Biến cố đối lập : Cho biến cố A, khi đó biến cố “A không xảy ra” – ký hiệu là A- được gọi là biến cố đối lập của biến cố A
-Biến cố xung khắc :
+2 biến cố xung khắc : là 2 biến cố không đồng thời xảy ra trong 1 phép thử
+ n biến cố xung khắc từng đôi: có nghĩa là tất cả các cặp biến cố được tạo nên từ n biến
cố này đều xung khắc với nhau Các biến cố tạo nên hệ đầy đủ các biến cố thì đều xung khắc từng đôi
Trang 2424
-Biến cố độc lập:
+2 biến cố độc lập: là hai biến cố mà sự xuất hiện của biến cố này không ảnh hưởng đến
sự xuất hiện của biến cố kia
+ n biến cố độc lập trong toàn bộ: có nghĩa là mỗi biến cố trong n biến cố này đều độc lập với tổ hợp bất kỳ các biến cố còn lại
-Biến cố phụ thuộc: 2 biến cố được gọi là phụ thuộc nếu như sự xuất hiện của biến cố
này sẽ có ảnh hưởng đến sự xuất hiện của biến cố kia
-Biến cố tổng:
+Tổng của 2 biến cố A và B - ký hiệu là A+B - là biến cố xảy ra khi có ít nhất biến cố A hoặc biến cố B xảy ra
+Tổng của n biến cố Ai, (i1,n) - ký hiệu là A1A2 A n – là biến cố xảy ra khi có
ít nhất 1 biến cố Ai xảy ra
-Biến cố đồng khả năng: Hai biến cố được gọi là đồng khả năng khi khả năng xuất hiện
biến cố này hay biến cố kia là như nhau trong một phép thử
-Hệ đầy đủ các biến cố: Các biến cố A1,A2, ,A nđược gọi là hệ đầy đủ các biến cố khi kết cục xảy ra của phép thử là một và chỉ một biến cố nào đó trong số các biến cố trên Ví dụ: Trong phép thử tung con xúc xắc, gọi Ai là biến cố xuất hiện mặt có số chấm là i, (i1,6), ta nói các Ai là các biến cố tạo nên hệ đầy đủ các biến cố
II LÝ THUYẾT CƠ BẢN VỀ XÁC SUẤT (probability)
1.Các khái niệm về xác suất:
1.1 Xác suất theo quan niệm cổ điển
*Khái niệm: Cho một phép thử có n biến cố xung khắc và đồng khả năng xảy ra, khi đó xác suất xuất hiện biến cố A – ký hiệu P(A) - là con số biểu hiện khả năng xuất hiện biến cố A trong 1 phép thử
*Cách tính: P(A) = Số khả năng cho biến cố A xảy ra / Tổng số khả năng có thể xảy ra
*Ưu nhược điểm: Ta không cần thực hiện phép thử mà vẫn tính được xác suất xuất hiện biến cố A Tuy nhiên ta không thể áp dụng được cách tính này khi ta không biết được tổng số khả năng có thể xảy ra, hoặc khi các biến cố không có cùng khả năng xuất hiện như nhau trong
1 phép thử
1.2 Xác suất theo quan niệm thống kê:
*Khái niệm: Thực hiện lặp lại n phép thử ngẫu nhiên và quan sát thấy biến cố A xuất hiện f lần trong n phép thử đó; với điều kiện n đủ lớn thì tần suất f/n sẽ được gọi là xác suất xuất hiện biến cố A
*Cách tính :
n
f A
P
n
lim)( Suy ra : Nếu n đủ lớn: P(A) ≈ f/n Trong đó: n là số phép thử; f là số lần xuất hiện biến cố A trong n phép thử
*Ưu nhược điểm : Cách tính xác suất này không đòi hỏi phép thử phải có hữu hạn biến
cố và mỗi biến cố phải có đồng khả năng xảy ra trong 1 phép thử Tuy nhiên nó đòi hỏi phải lặp lại các phép thử rất nhiều lần, nghĩa là phải tiến hành thực nghiệm, trong khi đó thực tế
không cho phép do tốn kém chi phí, hoặc cũng có thể do không thể lặp lại nhiều lần phép thử
Để khắc phục nhược điểm này, người ta chỉ thực hiện lặp lại phép thử với n đủ lớn để tiết kiệm chi phí
2-Các tính chất của xác suất:
Trang 2525 -Xác suất xuất hiện 1 biến cố A bất kỳ là 1 số không âm và không vượt quá 1:
3-Các công thức tính xác suất:
3.1 Công thức tính xác suất có điều kiện :
*Khái niệm: Cho 2 biến cố bất kỳ A và B Xác suất để xuất hiện biến cố A với điều kiện biến cố B đã xảy ra được gọi là xác suất có điều kiện của A với điều kiện B, ký hiệu P(A|B)
*Cách tính: P(A|B) =
)(
).(
B P
B A P
*Ý nghĩa: Trong thực tế, khả năng xảy ra nhiều hay ít của 1 biến cố nào đó chịu sự tác động rất lớn của sự xuất hiện của 1 biến cố khác Xác suất có điều kiện cho phép ta dựa vào khả năng xuất hiện của biến cố này để dự báo khả năng xuất hiện của biến cố khác
3.2.Công thức tính xác suất của biến cố tổng :
*Khái niệm: Xác suất xảy ra biến cố tổng (A+B) là xác suất để cho có ít nhất biến cố A hoặc biến cố B xảy ra
*Cách tính:
Xác suất của tổng 2 biến cố bất kỳ : P(A+B) = P(A) + P(B) - P(A.B)
Xác suất của tổng 2 biến cố đối lập : P(A+ A) = 1
Xác suất của tổng 2 biến cố xung khắc : P(A+B) = P(A) + P(B)
Xác suất của tổng n biến cố xung khắc từng đôi A , i (i1,n): P (A1A2 A n) =
3.3.Công thức tính xác suất của biến cố tích:
*Khái niệm: Xác suất xảy ra biến cố tích (AB) là xác suất để cho biến cố A và biến cố B cùng xảy ra
*Cách tính:
Xác suất của tích 2 biến cố bất kỳ :P(AB) = P(A) P(B|A) = P(B) P(A|B)
Xác suất của tích 2 biến cố xung khắc: P(AB) = 0
Xác suất của tích 2 biến cố độc lập : P(AB) = P(A) P(B)
Xác suất của tích n biến cố độc lập trong toàn bộ: P( A1A2 A n) =P(A1).P(A2)…P(An)
3.4.Công thức tính xác suất toàn phần :
*Khái niệm: Cho biến cố A và cho B1,B2, ,B n là n biến cố xung khắc từng đôi, lập thành 1 hệ đầy đủ các biến cố; khi đó xác suất để xuất hiện biến cố A với điều kiện các biến cố
Bi đã xảy ra được gọi là xác suất toàn phần
*Cách tính : P(A) = P(A|B1).P(B1) + P(A|B2).P(B2) + … + P(A|Bn).P(Bn) =
3.5 Công thức tính xác suất các giả thiết (công thức Bayes)
*Khái niệm: Cho biến cố A và cho B1,B2, ,B n là n biến cố xung khắc từng đôi, lập thành 1 hệ đầy đủ các biến cố; khi đó xác suất để xuất hiện 1 biến cố Bi nào đó với điều kiện biến cố A đã xảy ra, được gọi là xác suất các giả thiết – ký hiệu là P(Bi/A)
Trang 26i i i
i i
B P B A P
B P B A P A
P
B P B A P A B P
1
)()
/(
)()
/()
(
)()
/()/(
3.6 Công thức tính xác suất nhị thức (công thức Bernoulli) :
*Khái niệm: Nếu tiến hành n phép thử độc lập, trong mỗi phép thử xác suất xuất hiện biến cố A đều bằng nhau và bằng p; thì khi đó xác suất để biến cố A xuất hiện đúng k lần trong n phép thử đó được gọi là xác suất nhị thức – ký hiệu là P n (k)
*Cách tính : k k n k
n
P( ) với k=0,1,2,…,n và q =1-p Trong đó: p : xác suất xuất hiện biến cố A trong 1 phép thử
q : xác suất không xuất hiện biến cố A trong 1 phép thử
n k
k n n
n k n k
n
C n k
2.1
)1) (
1(
!
)1) (
1()!
I CÁC KHÁI NIỆM :
1-Biến ngẫu nhiên :
*Khái niệm :Biến ngẫu nhiên là 1 đại lượng có thể nhận giá trị này hay giá trị khác một cách ngẫu nhiên
Biến ngẫu nhiên được ký hiệu bằng chữ in hoa : X,Y,Z…; các giá trị của biến ngẫu nhiên được ký hiệu bằng chữ thường : x, y, z…Biến ngẫu nhiên có 2 đặc điểm :
-Có thể biết được các giá trị có thể có của biến ngẫu nhiên
-Biến ngẫu nhiên sẽ nhận 1 giá trị nào đó trong tất cả các giá trị có thể có của nó tương ứng với một xác suất nào đó
*Phân loại: Có 2 loại :
-Biến ngẫu nhiên rời rạc: các giá trị có thể có của nó là những con số có thể đếm được
Ví dụ: Số nhân khẩu trong 1 hộ gia đình, số tai nạn giao thông trong 1 năm, số khách hàng đến mua sắm tại 1 cửa hàng trong 1 ngày,…
-Biến ngẫu nhiên liên tục: các giá trị có thể có của nó là những con số có thể lấp kín một
khoảng trên trục số Ví dụ: Thu nhập của 1 hộ gia đình, năng suất của 1 loại cây trồng, năng suất lao động của 1 công nhân, giá thành của 1 sản phẩm, trọng lượng của 1 sản phẩm…
2-Quy luật phân phối xác suất của biến ngẫu nhiên:
*Khái niệm :
-Quy luật phân phối xác suất của biến ngẫu nhiên rời rạc là quy luật biểu diễn mối quan
hệ giữa các giá trị có thể có của biến ngẫu nhiên và các xác suất tương ứng với các giá trị đó
Trang 2727 -Quy luật phân phối xác suất của biến ngẫu nhiên liên tục là quy luật biểu diễn mối quan hệ giữa các khoảng giá trị có thể có của biến ngẫu nhiên và các xác suất tương ứng với các khoảng giá trị đó
II QUY LUẬT PHÂN PHỐI XÁC SUẤT CỦA BIẾN NGẪU NHIÊN RỜI RẠC: 1-Biểu diễn quy luật phân phối xác suất của biến ngẫu nhiên rời rạc:
Đối với biến ngẫu nhiên rời rạc, quy luật phân phối xác suất được biểu diễn thông qua bảng phân phối xác suất và hàm phân phối xác suất
1.1.Bảng phân phối xác suất :
*Khái niệm: Bảng phân phối xác suất của biến ngẫu nhiên rời rạc X là bảng phản ánh xác suất để cho X nhận 1 giá trị nào đó trong những giá trị có thể có của nó Bảng phân phối xác suất có dạng:
p = P(X= x ): xác suất để biến ngẫu nhiên X nhận giá trị i x i
Ví dụ: Trong phép thử tung đồng xu, giả sử nếu nhận được mặt sấp thì được 1 điểm, nếu nhận được mặt ngửa thì được 2 điểm Ta có bảng phân phối xác suất của biến ngẫu nhiên X (số điểm thu được trong 1 lần tung đồng xu) như sau:
X P(X=x )
1.2.Hàm phân phối xác suất (hay hàm xác suất tích lũy):
*Khái niệm: Hàm phân phối xác suất của biến ngẫu nhiên rời rạc X – ký hiệu F(x) - là hàm biểu diễn xác suất để cho biến ngẫu nhiên X nhận các giá trị không vượt qua giá trị x nào
i i
x X
P( )
* Biểu đồ : Biểu đồ hàm phân phối xác suất (còn gọi là biểu đồ tần suất tích lũy) có dạng
bậc thang, bắt đầu từ 0 và tận cùng bằng 1
2-Một số quy luật phân phối thông dụng của biến ngẫu nhiên rời rạc:
2.1- Quy luật phân phối nhị thức (Binomial Distribution):
Quy luật phân phối nhị thức (còn gọi là phân phối xác suất nhị thức hay phân phối nhị thức) là 1 quy luật phân phối có nhiều ứng dụng trong thực tế Nó được áp dụng khi biến ngẫu nhiên rời rạc là “số lần thành công (hay thất bại) trong n phép thử độc lập” Khi đó ở mỗi phép thử độc lập chỉ xuất hiện 2 biến cố đối lập là “thành công” và “thất bại”, xác suất để xuất hiện biến cố “thành công” trong mỗi phép thử phải đều bằng nhau và bằng p và xác suất để xuất hiện biến cố “thất bại” sẽ là q = 1-p
Ví dụ: Số phế phẩm trong một lô hàng, số khách hàng chấp nhận mua hàng trong n lần chào hàng của một nhân viên tiếp thị… là các biến ngẫu nhiên có phân phối nhị thức