Tài liệu thống kê ứng dụng dành cho sinh viên; nội dung gồm các phần thống kê mô tả, ước lượng giá trị trung bình, tỷ lệ của tổng thể khi biết các tham số mẫu. Kiểm định một giả thiết thống kê về trung bình và tỷ lệ.
TÀI LIỆU LƯU HÀNH NỘI BỘ ƠN TẬP THỐNG KÊ NỘI DUNG 1. Phân phối nhị thức 1.1 Định nghĩa Phép thử xảy ra n lần, xác suất xảy ra biến cố A là p, khi đó biến ngẫu nhiên X có phân phối nhị thức. Ký hiệu: X~B(n,p) Ví dụ 1.1 Biết xác suất một người có thời gian sử dụng Interner trong ngày hơn 6 tiếng là 0,1587, gọi Y là biến ngẫu nhiên chỉ số người có thời gian sử dụng Internet trong ngày hơn 6 tiếng trong 20 người khảo sát ngẫu nhiên Biến cố A: thời gian sử dụng Interner trong ngày hơn 6 tiếng Xác suất xảy ra biến cố A: p=0,1587 Khảo sát 20 người: phép thử xảy ra n=20 lần Suy ra Y~B(20; 0,1587) Ví dụ 1.2 Một xạ thủ bắn 4 phát đạn vào tấm bia, xác suất bắn trúng là 0,7. Gọi X là biến ngẫu nhiên chỉ số phát đạn bắn trúng. X có phân phối gì Biến cố A: bắn trúng bia Xác suất xảy ra biến cố A: p=0,7 Xạ thủ bắn 4 lần: phép thử xảy ra n=4 lần Suy ra X~B(4; 0,7) 1.2 Các tham số của biến ngẫu nhiên phân phối nhị thức Khi X có phân phối nhị thức Xác suất X nhận giá trị k là: Xác suất X nhận giá trị nhiều nhất là k là Xác suất X nhận giá trị ÍT nhất là k là Kỳ vọng: Phương sai: Độ lệch chuẩn Ví dụ 1.4 Theo khảo sát tổng cục thống kê có 28% cá nhân người từ 1825 tuổi có đi học đại học. Khảo sát 6 người về vấn đề này a) Tính xác suất có hai người đã đi học đại học b) Tính xác suất có nhiều nhất 3 người đã đi học đại học c) Tính xác suất có ít nhất 2 người đã đi học đại học Giải Ta có a) b) c) 2. Phân phối chuẩn 2.1 Định nghĩa và ký hiệu Việc biến ngẫu nhiên X có phân phối chuẩn hay khơng được nói rõ (ghi rõ phân phối chuẩn). Khi đó ta ký hiệu: , : là kỳ vọng, là phương sai Ví dụ 1.5 Cho X là biến ngẫu nhiên có phân phối chuẩn, biết xác suất X lớn hơn 20 là 0,1056, xác suất X lớn hơn 18 là 0,2266 a) Tìm kỳ vọng và độ lệch chuẩn b) Tính xác suất X lớn hơn 10 Giải: a) Theo giả thiết ta có: b) 3. Các tham số mẫu dữ liệu Các cơng thức dưới đây áp dụng cho bảng dữ liệu phân tổ khoảng Lượng biến (X) Tần số (n) Để tính trung bình, phương sai ta vẽ thêm cột trung bình tổ: Giá trị Tần số Trung bình tổ Trung bình mẫu: Phương sai mẫu hiệu chỉnh: Độ lệch chuẩn mẫu hiệu chỉnh: Độ lệch tuyệt đối trung bình: Ví dụ: Cho bảng giá trị: Giá trị (X) 0100 100200 200400 400600 Tần số (n) 10 20 40 30 Trung bình tổ 50 (lấy (0+100):2) 150 (lấy (100+200):2) 300 500 Trung bình: Phương sai: Độ lệch chuẩn: Độ lệch tuyệt đối bình qn Trung vị: Med Giá trị Tần số Tần số tích lũy Tổng Xác định tổ chứa trung vị: là tổ có tần số tích lũy vừa lớn hơn n/2 Cơng thức trung vị: là cận dưới tổ chứa trung vị Trong đó: là tần số tổ chứa trung vị là độ dài khoảng của tổ chứa trung vị n là tổng tần số là tần số tích lũy của tổ trước tổ chứa trung vị Yếu vị: Mod Giá trị Tần số (n) Khoảng cách tổ (h) Mật độ (M=n/h) Tổng Xác định tổ chứa yếu vị: là tổ có mật độ lớn nhất Cơng thức trung vị: Trong đó: là cận dưới tổ chứa yếu vị là khoảng cách của tổ chứa trung vị là mật độ tổ chứa trung vị là mật độ tổ trước tổ chứa trung vị là mật độ tổ sau tổ chứa trung vị Hệ số biến thiên: Ví dụ: Cho mẫu số liệu sau Lượng biến 020 2060 60120 120160 Tần số 60 120 240 120 a) Tìm trung bình, độ lệch chuẩn, b) Tìm trung vị, yếu vị c) Độ lệch tuyệt đối trung bình, hệ số biến thiên Giải a) Dùng máy tính: b) Tìm trung vị Lượng biến 020 2060 60120 Tần số 60 120 240 Tần số cộng dồn 60 180 420 120160 120 540 Tổ chứa Me: 60120 , , , Tổ chứa trung vị Tổng 540 b) Tìm yếu vị Lượng biến 020 2060 60120 Tần số 60 120 240 Độ dài khoảng 20 40 60 120160 Tổng 120 560 40 Mật độ Tổ chứa Mod: 60120 , , , 3 4 (lớn nhất) c) Hệ số biến thiên: 4. Ước lượng khoảng Việc cần làm đầu tiên là xét xem bài tốn là ước lượng trung bình hay tỷ lệ của tổng thể bằng cách xem xét giá trị trung bình mẫu, tỷ lệ mẫu trong bài tốn 4.1 Ước lượng khoảng cho trung bình Chuẩn bị: Các bước: Nếu Độ tin cậy % suy ra Độ chính xác = Khoảng ước lượng = Nếu Độ tin cậy % suy ra Độ chính xác = Khoảng ước lượng = Tìm tìm là phân phối chuẩn, với độ tin cậy : 2 Có thể tìm trong bảng độ tin cậy sau hoặc: dùng máy tính CASIO Nhập: (độ tin cậy : 2) và SHIFT Solve Độ tin cậy 90% 91% 92% 93% 94% 95% 96% 97% 98% 99% 1,65 1,7 1,75 1,81 1,88 1,96 2,06 2,17 2,33 2,58 Tìm là phân vị là phân phối Student, với 1 độ tin cậy 4.2 Ước lượng khoảng cho tỷ lệ Chuẩn bị: Các bước thực hiện Xác định n = , m= (m là số phần tử thỏa mãn tính chất nào đó), tính f=m/n Độ tin cậy % suy ra Độ chính xác = Khoảng ước lượng = Ví dụ: Cho mẫu số liệu sau Lượng biến 020 2060 60120 120160 Tần số 80 120 240 120 a) Tìm trung bình, độ lệch chuẩn b) Tìm khoảng tin cậy cho trung bình với độ tin cậy 95% c) Tìm khoảng tin cậy cho tỷ lệ lượng biến lớn hơn 20 với độ tin cậy 95% Giải a) Dùng máy tính suy ra: Tính , n=560 b) Độ tin cậy 95% suy ra . Suy ra Khoảng tin cậy cho trung bình: c) Ta có: n=560,m=120+240+120, . , Khoảng tin cậy cho tỷ lệ: 5. Kiểm định Kiểm định giả thiết thống kê 5.1 Kiểm định giả thiết về trung bình với 1 số (mẫu n lớn) Tức là kiểm định xem trung bình có bằng 1 số cho trước hay khơng? Chuẩn bị: Bước 1: Xây dựng giả thiết H0: Bước 2: Tính trị thống kê Bước 3: Tính các phân vị từ độ tin cậy Bước 4: So sánh kết luận Nếu Nếu Nếu thì bác bỏ thì bác bỏ thì bác bỏ H0 H0 H0 MỨC Ý NGHĨA α=10% α=9% α=8% α=7% α=6% α=5% α=4% α=3% α=2% α=1% Zα/2 Zα 1,65 1,7 1,75 1,81 1,88 1,96 2,06 2,17 2,33 2,58 1,28 1,34 1,41 1,48 1,56 1,65 1,75 1,88 2,06 2,33 Chú ý: Ta tính thay cho ( thay cho) nếu 5.2 Kiểm định giả thiết về tỷ lệ với 1 số Tức là kiểm định xem tỷ lệ bình có bằng 1 số cho trước hay khơng? Chuẩn bị: Bước 1: Xây dựng giả thiết H0: Bước 2: Tính trị thống kê Bước 3: Tính các phân vị từ độ tin cậy Bước 4: So sánh kết luận Nếu thì bác bỏ H0 Nếu thì bác bỏ H0 Nếu thì bác bỏ H0 Ví dụ cho 5.1 và 5.2: Cho mẫu số liệu sau Lượng biến 120 200 240 300 Tần số 14 15 a) Tìm trung bình, độ lệch chuẩn b) Kiểm định trung bình tổng thể có bằng 200 với mức ý nghĩa 5% c) Kiểm định xem tỷ lệ lượng biến lớn hơn 200 có cao hơn 45% hay khơng với mức ý nghĩa 5% Giải a) Dùng máy tính suy ra: b) Giả thiết Suy ra . Mức ý nghĩa 5% suy ra Vì nên ta khơng thể bác bỏ H0 Như vậy giả thiết trung bình bằng 200 là c) Giả thiết Ta có, n=41, m=15+4, . , Vì nên ta khơng thể bác bỏ H0 Tức tỷ lệ lớn hơn 200 vẫn bằng 45% 5.3 Kiểm định giả thiết về hai giá trị trung bình (n lớn) Tức là kiểm định xem trung bình có bằng trung bình cho trước hay khơng? Chuẩn bị số liệu hai mẫu: Bước 1: Xây dựng giả thiết H0: Bước 2: Tính trị thống kê Bước 3: Tính các phân vị từ độ tin cậy Bước 4: So sánh kết luận Nếu thì bác bỏ H0 Chú ý: Ta tính thay cho ( thay cho) nếu Nếu thì bác bỏ H0 Nếu thì bác bỏ H0 5.4 Kiểm định giả thiết về hai tỷ lệ Tức là kiểm định xem tỷ lệ có bằng tỷ lệ ở hai tổng thể hay khơng? Chuẩn bị: Bước 1: Xây dựng giả thiết H0: Bước 2: Tính và trị thống kê Bước 3: Tính các phân vị từ độ tin cậy Bước 4: So sánh kết luận Nếu thì bác bỏ H0 Nếu thì bác bỏ H0 Nếu thì bác bỏ H0 6. Chuỗi thời gian, dự báo Lượng tăng giảm tuyệt đối liên hồn: thể hiện mức chênh lệch tuyệt đối của lượng biến quan sát ở hai mốc thời gian liên tiếp nhau Đối với chuỗi thời gian t Y Y1 Y2 Y3 … … n Yn Hàm xu thế là đường thẳng: đường thẳng đi qua các điểm trên chuỗi thời gian Tìm hàm xu thế tuyến tính bằng máy tính: VNX: MODE 6 2, nhập X: 1, 2, …, Y: các số liệu. OPTN 4 (Tính hồi quy) VNPLus: MODE 4 2, nhập X: 1, 2, …, Y: các số liệu. SHIFT+ 1+ (Tính hồi quy REG) Câu 1. Theo số liệu ước tính của Liên Hiệp Quốc, dân số Việt Nam các năm gần đây được cho dưới bảng sau: Năm Dân số (triệu người) 2011 89,3 2012 90,3 2013 91,4 2014 92,4 2015 93,4 2016 94,5 2017 95,5 2018 96,6 2019 97,7 a) Xây dựng hàm xu thế tuyến tính b) Dự đốn dân số Việt Nam năm 2020 c) Vào năm nào dân số Việt Nam đạt vượt qua 108 triệu dân Giải a) Hàm xu thế tuyến tính có dạng Năm bắt đầu tính từ 2011 Dân số (triệu người) 89,3 90,3 91,4 92,4 93,4 94,5 95,5 96,6 97,7 Ta có: suy ra b) Dân số Việt Nam vào năm 2020 ứng với là triệu người c) Dân số Việt Nam vượt 108 tr người khi . Suy ra tức năm 2029 Câu 2. Một cửa hàng A có doanh thu sản phẩm các tháng như sau Tháng/Năm Doanh thu (triệu đồng) 5/2019 80 6/2019 86 7/2019 90 8/2019 95 10/2019 102 a) Xây dựng hàm xu thế tuyến tính b) Dự đốn doanh thu vào tháng 11 và tháng 12 năm 2019 c) Vào tháng/năm nào doanh thu vượt qua 120 triệu đồng Câu 3. Một đại lý xe ơ tơ có doanh số các năm như sau Năm Doanh số 2013 80 2014 96 2015 109 2016 120 2017 132 2018 144 2019 158 8/2019 197 9/2019 215 6/2019 197 7/2019 215 a) Xây dựng hàm xu thế tuyến tính b) Tính tốc độ tăng giảm liên hồn năm 2020 c) Vào năm nào doanh số vượt qua 200 ơ tơ Câu 4. Một cửa hàng A có doanh thu sản phẩm các tháng như sau Tháng/Năm Doanh thu (triệu đồng) 3/2019 100 4/2019 120 5/2019 135 6/2019 155 7/2019 173 a) Xây dựng hàm dự báo bằng lượng tăng (giảm) tuyệt đối b) Tính tốc độ phát triển trung bình tháng 10/2019 c) Vào tháng/năm nào doanh thu vượt qua 300 triệu đồng Câu 5. Một cửa hàng A có doanh thu sản phẩm các tháng như sau Tháng/Năm Doanh thu (triệu đồng) 1/2019 100 2/2019 120 3/2019 135 4/2019 155 5/2019 173 a) Tính số trung bình doanh thu b) Lượng tăng giảm tuyệt đối trung bình, tốc độ phát triển trung bình c) Tính doanh thu cửa hàng vào tháng 11/2019 là bằng lượng tăng giảm tuyệt đối Câu 6. Một cửa hàng A có doanh thu sản phẩm các tháng như sau Tháng/Năm Doanh thu (triệu đồng) 1/2019 15 2/2019 20 3/2019 26 4/2019 30 5/2019 34 6/2019 40 7/2019 45 a) Tính số trung bình doanh thu b) Lượng tăng giảm tuyệt đối trung bình, tốc độ phát triển trung bình c) Tính doanh thu cửa hàng vào tháng 12/2019 là bằng lượng tăng giảm tuyệt đối 7. Bài tập Các luật phân phối thơng dụng Bài tập 1.1 Gọi biến ngẫu nhiên Y là tỷ lệ người trong 1000 người Mỹ xác nhận rằng có uống nhiều hơn 5 cốc bia mỗi ngày. Giả sử rằng tỉ lệ đúng là 10% trên tồn bộ dân số Mỹ. Tính EY, VarY Bài tập 1.2 Gieo hai con xúc sắc đồng chất 5 lần, gọi X là số lần xuất hiện hai mặt sáu. 1. Tính xác suất của sự kiện số lần xuất hiện hai mặt sáu ít nhất là 2 2. Tính EX, VX Bài tập 1.3 Giả sử X là biến ngẫu nhiên có phân phối chuẩn với trung bình 3 và phương sai 0,16 1. Hãy tính P(X > 3), P(X > 3.784) 2. Tìm c sao cho P(3 c