Bài giảng Lý thuyết thống kê gồm 7 chương. Nội dung bài giảng lần lượt trình bày các vấn đề về các khái niệm cơ bản về thống kê, tóm tắt và trình bày dữ liệu, thống kê mô tả, ước lượng tham số tổng thể, kiểm định giả thuyết về tham số tổng thể, phân tích phương sai một nhân tố, kiểm định phi tham số.
Trang 1Đoàn Hồng Chương1
Bộ môn Toán - TKKT, Đại học Kinh Tế - Luật
Trang 2GIỚI THIỆU MÔN HỌC
1 Giới thiệu đề cương
• Thống kê mô tả
• Hướng dẫn sử dụng SPSS
• Ước lượng
• Kiểm định tham số
• Kiểm định phi tham số
2 Kiểm tra đánh giá
• Kiểm tra cuối kì: Trắc nghiệm (20 câu hỏi - 60 phút) - Tỉ lệ 100%
• Đề mẫu sẽ gửi vào tuần học cuối
3 Thông tin liên lạc
• Email: chuongdh@uel.edu.vn
• Blog: www.chuongdh.wordpress.com
Trang 3Chương 1
CÁC KHÁI NIỆM CƠ BẢN VỀ THỐNG KÊ 1.1 Thống kê là gì?
Định nghĩa 1.1 (STATISTICS) Thống kê là khoa học về việc thu thập, tổ chức,
trình bày, phân tích và diễn giải các dữ liệu nhằm đưa ra những quyết định hiệu quả.
Về mặt lịch sử, khoa học thống kê ra đời và phát triển nhờ:
1 Nhu cầu của nhà nước về việc thu thập, xử lý và giải thích các dữ liệu
2 Sự phát triển của lý thuyết xác suất trong Toán học
Trang 41.2 Tổng thể và mẫu
Định nghĩa 1.2 (POPULATION) Tổng thể là tập hợp toàn bộ các cá thể hoặc sự
vật được nghiên cứu.
Định nghĩa 1.3 (SAMPLE) Mẫu là một phần của tổng thể Số lượng các phần
tử được gọi là kích thước mẫu Kí hiệu: n.
1.3 Các loại dữ liệu
Định nghĩa 1.4 (QUALITATIVE DATA) Dữ liệu định tính là loại dữ liệu chỉ
thể hiện tính chất của đối tượng được nghiên cứu.
Định nghĩa 1.5 (QUANTITATIVE DATA) Dữ liệu định lượng là loại dữ liệu
được thể hiện dưới dạng các con số.
Ví dụ 1.1 Dữ liệu định tính & Dữ liệu định lượng
• Giới tính (Nam, Nữ), xếp loại (Giỏi, Khá, Trung bình ), tỉ lệ khách hàng hài
lòng, xếp hạng (Rating).
• Số tiền trong tài khoản (Balance account), tuổi, khối lượng của một vật, khoảng
cách, nhiệt độ.
Trang 51.4 Cấp bậc dữ liệu
Định nghĩa 1.6 (NOMINAL LEVEL DATA) Dữ liệu định danh là loại dữ liệu
có các đặc tính sau:
• các giá trị được chia thành nhóm hoặc phạm trù.
• giữa các nhóm hoặc phạm trù không có sự phân biệt thứ tự.
Ví dụ 1.2 Lĩnh vực kinh doanh của công ty
1 Kinh doanh 2 Tài chính 3 Vận tải 4 Dịch vụ
Định nghĩa 1.7 (ORDINAL LEVEL DATA) Dữ liệu thứ bậc là loại dữ liệu có
Trang 6Rating Superior Good Average Poor Inferior
Định nghĩa 1.8 (INTERVAL LEVEL DATA) Dữ liệu khoảng là loại dữ liệu có
các đặc tính sau:
• các giá trị có thể so sánh và thực hiện được các phép tính số học.
• điểm gốc 0 của loại dữ liệu này chỉ mang tính tương đối.
Ví dụ 1.4 Nhiệt độ, cỡ giày, cỡ quần áo là các dữ liệu khoảng.
Định nghĩa 1.9 (RATIO LEVEL DATA) Dữ liệu tỉ lệ là loại dữ liệu có các đặc
tính sau:
• các giá trị có thể so sánh và thực hiện được các phép tính số học
• điểm gốc 0 và tỉ lệ giữa các giá trị của loại dữ liệu này thực sự có ý nghĩa.
Ví dụ 1.5 Father-son income combinations2
2Doughlas A Lind, William G Marchal, and Samuel A Wathen., "Basic Statistics for Business & Economics", McGraw Hill, Singapore, 2008.
Trang 7Name Father Son Lahey $80000 $40000 Nale $90000 $30000 Rho $60000 $120000 Steele $75000 $130000
1.5 Kỹ thuật chọn mẫu
1 Chọn mẫu ngẫu nhiên đơn giản (PROBABILITY SAMPLING): là cáchchọn ngẫu nhiên n phần tử bất kì từ N phần tử của tổng thể
Các bước tiến hành
• Lập danh sách sắp thứ tự các đơn vị của tổng thể
• Thực hiện lấy mẫu bằng cách bốc thăm, quay số hoặc sử dụng phầnmềm máy tính chọn ngẫu nhiên
2 Chọn mẫu ngẫu nhiên hệ thống (SYSTEMATIC SAMPLING): là cáchchọn ngẫu nhiên n phần tử từ N phần từ của tổng thể theo các bước sau
• Lập danh sách và đánh số thứ tự các phần tử của tổng thể
Trang 8Ví dụ 1.6 Giả sử tổng thể bao gồm N=13, kích thước mẫu n=4 Vì N
nên k = 3 Khi đó ta chọn mẫu theo tắc:
• Chọn ngẫu nhiên một phần tử trong 3 phần tử đầu tiên.
• Phần tử tiếp theo được chọn cách phần tử đầu tiên 3 vị trí.
Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử được chọn của mẫu)
Trang 9Ví dụ 1.7 Giả sử tổng thể bao gồm N=10, kích thước mẫu n=6 Vì N
nên k = 2 Khi đó ta chọn mẫu theo tắc:
• Chọn ngẫu nhiên một phần tử trong 2 phần tử đầu tiên.
• Phần tử tiếp theo được chọn cách phần tử đầu tiên 2 vị trí.
Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử được chọn của mẫu)
Lưu ý Trong trường hợp này, chúng ta chỉ chọn được mẫu có kích thước n = 5.
3 Lấy mẫu phân tầng (STRATIFIED SAMPLING) được sử dụng khi có sựkhác biệt lớn về tính chất giữa các phần tử của tổng thể Khi chọn mẫuphân tầng, chúng ta cần lưu ý 2 vấn đề:
• phân tầng theo đặc điểm gì?
• phân bố số lượng mẫu trong các tầng
Trang 10Chương 2
TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU 2.1 Bảng phân phối tần số, tần suất, tần số tích lũy và tần suất tích lũy
Định nghĩa 2.1 FREQUENCY-RELATIVE FREQUENCY
Ví dụ 2.1 Bảng tần số, tần suất về nhiệt độ trung bình của 18 ngày mùa đông
Trang 11Định nghĩa 2.2 (CUMULATIVE FREQUNECY) Tần số tích lũy Si được xác định bởi công thức
Định nghĩa 2.3 (CUMULATIVE RELATIVE FREQUENCY) Tần suất tích lũy
Fi được xác định bởi công thức
Ví dụ 2.2 Bảng tần số tích lũy, tần suất tích lũy của ví dụ (2.1) là
Nhiệt độ Xi (0F) Tần số ni Tần suất fi Tần số tích lũy Si Tần suất tích lũy Fi
Trang 12Ví dụ 2.3 Năng suất lúa (tạ/ha) của 50 hộ dân tại một địa phương được cho như
2.2 Biểu đồ cột
Trang 132.3 Histogram
Định nghĩa 2.4 Đồ thị phân phối tần số (Histogram) là một dạng biểu đồ cột
trong đó diện tích của mỗi cột tỉ lệ với tần số của các giá trị Xi.
Ví dụ 2.4 Cho bảng tần số về nhiệt độ của một vùng như sau:
Nhiệt độ Xi (0F) 12-15 15-18 18-24 24-27
Khi đó Histogram của dữ liệu này là
Trang 142.4 Biểu đồ hình tròn
2.5 Biểu đồ thân và lá
Biểu đồ thân và lá là công cụ hữu hiệu để tóm tắt và trình bày dữ liệu màvẫn giúp người xem thấy được cách thức phân tán dữ liệu gốc một cách chitiết
Qui tắc lập biểu đồ này là dữ liệu định lượng dưới dạng những con số sẽ
Trang 15Ví dụ 2.5 Xét dữ liệu về độ tuổi của một nhóm nhân viên trong công ty A như
sau
28 23 30 24 19 21 39 22 22 Biểu đồ thân và lá của dữ liệu trên là
1 9
2 1 2 2 3 4 8
3 0 9
2.6 Phân tổ/nhóm dữ liệu
Định nghĩa 2.5 Công thức phân tổ dữ liệu
• Cho một mẫu có kích thước là n Số tổ/nhóm dữ liệu được xác định bởi công
Trang 16Nhận xét 2.1 Các điều kiện phân tổ
• Các tổ phải rời nhau.
• Các tổ được phân chia phải đầy đủ (nghĩa là phủ hết toàn bộ các giá trị của dữ
Trang 17Chương 3
THỐNG KÊ MÔ TẢ 3.1 Số trung bình
Định nghĩa 3.1 (Trung bình tổng thể) Giả sử tổng thể Ω có N phần tử Khi đó
được gọi là trung bình tổng thể.
Định nghĩa 3.2 (Trung bình mẫu) Giả sử mẫu có kích thước là n Khi đó giá
được gọi là trung bình mẫu.
Ví dụ 3.1 Tính giá trị trung bình của mẫu số liệu được cho như sau
Trang 18Tuổi 19 23 25 30 45 Tần số 2 4 5 3 2
Giải.
Ví dụ 3.2 Tính giá trị trung bình của mẫu số liệu được cho như sau
Năng suất lúa (tấn/ha) 30-35 35-40 40-45 45-50 50-55
Trang 19Khi đó giá trị trung bình mẫu
3.2 Số yếu vị - Mode
Định nghĩa 3.3 (Trường hợp dữ liệu nhận giá trị rời rạc) Mode là giá trị
xuất hiện nhiều lần nhất trong dãy số liệu Kí hiệu là ModX hoặc X0.
Ví dụ 3.3 Cho bảng số liệu
Số nhân khẩu xi 1 2 3 4 5 6 ≥ 7
Số gia đình ni 10 30 75 45 20 15 5 Khi đó ModX = 3.
Định nghĩa 3.4 (Trường hợp dữ liệu dạng phân tổ đều nhau) Giá trị của
ModX được xác định gần đúng theo công thức
(fM o − fM o−1) + (fM o − fM o+1), (3.4)
Trang 20trong đó
L là giới hạn dưới của nhóm chứa Mode,
h là khoảng cách của nhóm chứa Mode,
fM o là tần số của nhóm chứa Mode,
fM o−1, fM o+1 là tần số của nhóm đứng trước và đứng sau nhóm chứa Mode.
Ví dụ 3.4 Cho bảng số liệu về nhiệt độ trung bình trong ngày ở một vùng trong
Trang 21Định nghĩa 3.5 Giả sử mẫu gồm n giá trị rời rạc, được sắp xếp theo thứ tự tăng
Định nghĩa 3.6 Giả sử mẫu số liệu gồm n phần tử được cho dưới dạng phân tổ
đều nhau Khi đó trung vị MedX được xác định gần đúng như sau
1 Tính tần số tích lũy.
Trang 222 Xác định nhóm chứa trung vị Med, là nhóm có tần số tích lũy ≥ n + 1
L là giới hạn dưới của nhóm chứa Med,
h là khoảng cách của nhóm chứa Med,
SM e−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Med,
fM e là tần số của nhóm chứa Med.
Ví dụ 3.7 Cho bảng số liệu sau
Trang 23Định nghĩa 3.7 (Tứ phân vị) Giả sử dãy dữ liệu có n phần tử.
• Q1 được gọi là tứ phân vị thứ nhất và là giá trị ở vị trí thứ n + 1
• Q2 được gọi là tứ phân vị thứ hai và chính là trung vị.
• Q3 được gọi là tứ phân vị thứ ba và là giá trị ở vị trí thứ 3(n + 1)
Trang 24L là giới hạn dưới của nhóm chứa Q1,
h là khoảng cách của nhóm chứa Q1,
SQ1−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Q1,
L là giới hạn dưới của nhóm chứa Q3,
h là khoảng cách của nhóm chứa Q3,
SQ3−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Q3,
fQ là tần số của nhóm chứa Q3
Trang 25Ví dụ 3.9 Tìm các tứ phân vị của dữ liệu
Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514
3.5 Khoảng biến thiên - Range
Định nghĩa 3.9 Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và giá trị nhỏ
nhất của các dữ liệu.
3.6 Độ trải giữa
Định nghĩa 3.10 Độ trải giữa là sai biệt giữa tứ phân vị thứ ba Q3 và thứ nhất
Q1 của dãy dữ liệu.
Ví dụ 3.10 Tìm độ trải giữa của dữ liệu trong ví dụ (3.9)
3.7 Phương sai & Độ lệch chuẩn
Trang 26Định nghĩa 3.11 (Độ lệch bình phương trung bình).
Định nghĩa 3.12 Phương sai mẫu là đại lượng đặc trưng cho mức độ phân tán
của các dữ liệu Kí hiệu: s2.
Trang 27Ví dụ 3.11 Cho số liệu về năng suất lao động của một mẫu gồm 50 công nhân
trong một xí nghiệp
Năng suất lao động (kg/h) <34 34-38 38-42 42-46 46-50 50-54 ≥ 54
• Hãy tính giá trị trung bình của mẫu số liệu trên.
• Tính phương sai và độ lệch chuẩn.
Giải.
Năng suất lao động (kg/h) <34 34-38 38-42 42-46 46-50 50-54 ≥ 54
Trang 28Ý nghĩa Hệ số biến thiên cho biết mức độ thay đổi của độ lệch chuẩn sovới giá trị trung bình.
Ví dụ 3.12 Một nhà kinh doanh đang xem xét đầu tư vào 2 danh mục A và B.
Đối với danh mục A: lợi nhuận trung bình là 16% và độ lệch chuẩn là 4% Đối với danh mục B: lợi nhuận trung bình là 11% và độ lệch chuẩn là 3% Hỏi nên chọn đầu tư vào danh mục nào? Vì sao?
Điều này có nghĩa là nếu tăng tỉ lệ lợi nhuận thêm 1% thì, đối với danh mục
A, mức độ rủi ro trong đầu tư sẽ tăng 25%, còn đối với danh mục B, rủi ro
sẽ tăng 27% Do đó, chọn đầu tư vào danh mục A ít rủi ro hơn danh mục B
Trang 29• Nếu γ1 = 0 thì ta nói các dữ liệu của mẫu có tính đối xứng.
Tính chất 3.2 Cho mẫu ngẫu nhiên X có giá trị trung bình là X Khi đó
• Nếu X = ModX = MedX thì các dữ liệu của mẫu có tính đối xứng.
• Nếu X > MedX > ModX thì các dữ liệu của mẫu lệch phải.
• Nếu X < MedX < ModX thì các dữ liệu của mẫu lệch trái.
Trang 30
Trang 31
Ví dụ 3.14 Giả sử ta có số liệu của VN-Index trong 30 ngày từ 2/8/2012 đến
13/9/2012, với trung bình là X = 413 điểm Độ lệch và độ nhọn được tính là
này sẽ lệch về bên trái, ít nhọn.
Trang 323.10 Quy tắc thực nghiệm
Giả sử một mẫu số liệu có đồ thị dạng hình chuông (phân phối chuẩn)
Khi đó ta có các tính chất sau
• Có khoảng 68% quan sát dao động trong khoảng (µ − σ, µ + σ)
• Có khoảng 95% quan sát dao động trong khoảng (µ − 2σ, µ + 2σ)
• Có khoảng 99,7% quan sát dao động trong khoảng (µ − 3σ, µ + 3σ)
Trang 334.2 Ước lượng trung bình tổng thể
4.2.1 Ước lượng trung bình của một tổng thể
cậy cho trung bình tổng thể µ, với mức ý nghĩa α, được xác định như sau:
a Trường hợp biết phương sai σ2
Trang 34Trong đó zα
• Khoảng tin cậy:
Ví dụ 4.1 Giả sử trọng lượng của sản phẩm X có phân phối chuẩn N (µ, σ2) và
độ lệch chuẩn σ = 1(g) Khảo sát mẫu gồm 50 sản phẩm, người ta tính được trung bình mẫu X = 19, 64(g) Với độ tin cậy 95%, hãy ước lượng trọng lượng trung bình µ của loại sản phẩm nói trên.
Giải.
trọng lượng trung bình µ của loại sản phẩm X có dạng
Trang 35b Trường hợp chưa biết phương sai σ2
Ví dụ 4.2 Giả sử mức xăng tiêu thụ của một loại xe máy là đại lượng có phân
phối chuẩn N (µ, σ2) Quan sát mức hao xăng của 25 xe máy này trên cùng một đoạn đường, người ta thu được kết quả sau
Mức xăng 1,9-2,1 2,1-2,3 2,3-2,5 2,5-2,7
Trang 36Hãy ước lượng mức hao phí xăng trung bình với độ tin cậy 95%.
X = 2, 272, s = 0, 19
cậy cho mức xăng tiêu thụ trung bình của loại xe máy trên có dạng
Ví dụ 4.3 Trong ví dụ (4.2), giả sử giữ nguyên độ tin cậy, nếu muốn độ chính xác
của ước lượng là = 5% thì cần điều tra mẫu có kích thước tối thiểu là bao nhiêu?
2 ,n−1.√s
n.
Trang 37Vậy kích thước mẫu tối thiểu n = 62, để có độ chính xác ước lượng là 5%.
4.2.2 Ước lượng sự khác biệt của hai trung bình tổng thể
1 Trường hợp 2 mẫu độc lập
Giả sử hai mẫu ngẫu nhiên độc lập X, Y , tương ứng, đều có phân phốichuẩn N (µ1, σ12) và N (µ2, σ22)
với mức ý nghĩa α, được xác định như sau:
a Trường hợp biết phương sai σ12, σ22
Trang 38• Khoảng tin cậy:
Ví dụ 4.4 Để so sánh tuổi thọ (đơn vị: giờ) của 2 loại đèn flash dùng cho máy ảnh
được sản xuất bởi hai công ty X và Y, người ta tiến hành chọn ngẫu nhiên từ mỗi công ty 80 sản phẩm Kết quả của các mẫu được tổng hợp trong bảng sau:
Công ty Kích thước mẫu Trung bình mẫu
Giả sử tuổi thọ đèn flash là có phân phối chuẩn và theo một nghiên cứu trước đó,
độ lệch chuẩn về tuổi thọ của 2 loại đèn flash trên là σ1 = 66(h), σ2 = 60(h) Hãy ước lượng sự khác biệt về tuổi thọ trung bình của đèn flash do công ty X và Y sản xuất, với mức ý nghĩa α = 1%.
Trang 39ước lượng cho hiệu của µ1 − µ2 có dạng
• Khoảng tin cậy:
Trang 40Ví dụ 4.5 Một nhà máy sản xuất bóng đèn muốn so sánh tuổi thọ trung bình của
2 loại bóng đèn khác nhau Họ tiến hành chọn mẫu ngẫu nhiên đối với 2 loại bóng đèn này Kết quả các mẫu được tổng hợp trong bảng sau:
Loại bóng đèn Kích thước mẫu Trung bình mẫu Độ lệch chuẩn mẫu
Hãy tìm khoảng tin cậy 95% cho µ2 − µ1, biết rằng tuổi thọ bóng đèn là đại lượng
có phân phối chuẩn.
ta có thể giả sử chúng bằng nhau vì chúng có cùng một điều kiện sản xuất
Trang 412 Trường hợp mẫu phối hợp từng cặp
Ví dụ 4.6 Một công ty sản xuất nhiên liệu muốn so sánh mức tiêu thụ nhiên
liệu (gallon) của các xe khi dùng xăng thường và xăng tổng hợp Công ty tiến hành chọn mẫu ngẫu nhiên 10 tài xế và xe của họ Cho các tài xế lần lượt dùng 2 loại nhiên liệu trên để chạy trên cùng một quãng đường 200km Sau mỗi lượt thử nghiệm, người ta ghi lại mức tiêu thụ nhiên liệu của mỗi xe Kết quả thu được như sau
Xăng tổng hợp X 10,10 6,94 9,80 10,70 8,55 7,38 7,04 9,35 7,58 10,05 Xăng thường Y 9,66 7,75 7,19 13,42 9,26 9,48 7,14 15,38 8,20 13,99 Dạng dữ liệu này được gọi là mẫu phối hợp từng cặp với số liệu ở cột thứ nhất tương ứng cho đại lượng X và số liệu ở cột thứ hai tương ứng cho đại lượng Y.
như sau:
Trang 43Ví dụ 4.7 Xét dữ liệu cho bởi ví dụ (4.6) Hãy ước lượng sự khác biệt về mức tiêu
thụ nhiên liệu với mức ý nghĩa α = 1%, biết rằng mức tiêu thụ nhiên liệu là đại lượng ngẫu nhiên có phân phối chuẩn.
Trang 45thấy có 20 phế phẩm Với mức ý nghĩa α = 2%, hãy ước lượng tỉ lệ phế phẩm do nhà máy sản xuất.
zα
p ∈ (0, 02; 0, 08)
4.3.2 Ước lượng sự khác biệt của hai tỉ lệ tổng thể
khoảng ước lượng, với mức ý nghĩa α, cho sự khác biệt của hai tỉ lệ tổng thể
Trang 46Ví dụ 4.9 Một doanh nghiệp tiến hành khảo sát thị trường để biết nhu cầu của
khách hàng đối với loại sản phẩm họ sắp tung ra thị trường Kết quả khảo sát thị trường cho biết, đối với vùng A, trong số 250 người được khảo sát, có 40 người trả lời sẽ mua sản phẩm này; đối với vùng B, trong số 180 người được khảo sát, có 30 người trả lời sẽ mua sản phẩm này Với mức ý nghĩa α = 2%, hãy ước lượng sự khác biệt tỉ lệ khách hàng sẽ mua sản phẩm mới ở 2 vùng nói trên.
Trang 47Ví dụ 5.1 Một công ty kinh doanh xăng dầu dự tính xây dựng trạm xăng tại địa
điểm A nếu trung bình mỗi ngày có hơn 2000 xe qua điểm này Hãy phát biểu bài toán kiểm định ứng với giá thiết trên.
Đối với bài toán trên, mô hình toán có thể như sau:
(
5.1.2 Miền bác bỏ và p-value
Trang 48Từ định nghĩa miền bác bỏ, ta suy ra xác suất mắc sai lầm loại I là α Giả sửxác suất mắc sai lầm loại II là β Khi đó chúng ta có bảng tóm tắt như sau
Kết luận
5.1.4 Kiểu bài toán kiểm định và miền bác bỏ
Căn cứ vào các giả thiết kiểm định, người ta phân các bài toán thành 3 loại