ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ BÀI TẬP LỚN SỐ 1 LỚP L01 NHÓM 6 HK 202 Bài toán kiểm định tỉ lệ ( kiểm định chi bình phương χ21. Đề bài:Trước 1 chiến dịch quảng cáo, tỉ lệ phòng có khách ở trong 1 khách sạn được theo dõi ngẫu nhiên trong 15 ngày và thu được kết quả là 86 92 83 88 79 81 90 76 80 91 85 89 77 91 và 83 phần trăm. Sau khi kết thúc chiến dịch quảng cáo người ta theo dõi đc tỉ lệ này trong 15 ngày và thu được kết quả là 88 94 97 99 89 93 92 98 89 90 97 91 87 80 và 96 phần trăm. Giả sử tỉ lệ phòng ở có khách là phân phối chuẩn. Với mức ý nghĩa 5% hãy cho ý kiến là chiến dịch quảng cáo có thành công hay không? Kiểm định giả thiết về giá trị trung bình ( so sánh trung bình hai mẫu 2 chưa biết , n=6 158 112 Có khác tỷ lệ thu nhập nhóm tuổi số cơng nhân lành nghề hay không? Mức ý nghĩa a= 5% Dạng bài: - Bài toán kiểm định tỉ lệ ( kiểm định chi bình phương 𝜒 Phương pháp giải: *Giả thiết: H0: P1=P1,0,…,Pk,0 “Các cặp Pi Pi,0 giống nhau” H1: “Ít có cặp Pi Pi,0 khác nhau” Giá trị thống kê 𝑘 (𝑂𝑖 − 𝐸𝑖 )2 ] 𝑥2 = ∑ [ 𝐸𝑖 𝑖=1 Oi: Các tần số thực nghiệm (Observed Frequency) Ei: Các tần số lý thuyết (Exoacted Frequency) *Biện luận: Nếu 𝑋 > 𝑋𝛼 => Bác bỏ giả thiết H0 (DF= k-1) Giá trị 𝑋 theo hàm CHITEST tính theo biểu thức: 𝑟 𝑐 𝑥 = ∑∑ 𝑗=1 𝑗=1 (𝑂𝑖𝑗 − 𝐸𝑖𝑗 )2 𝐸𝑖𝑗 Oij: tần số thực nghiệm ô thuộc hàng i cột j Eij: tần số lý thuyết ô thuộc hàng I cột j r: số hàng c: số cột Xác suất P(X>𝑋 ) với bậc tự DF=(r-1)(c-1), đó: r số hàng c số cột bảng ngẫu nhiên (contigency table) Nếu P(X>𝑋 ) > α => Chấp nhận giả thiết H0 ngược lại Công cụ giải: Áp dụng MS-EXEL +Hàm tính tổng SUM +Hàm CHITEST Bảng số liệu, cơng thức, kết quả: Giả thiết tỉ lệ nhóm tuổi a=5% -Số liệu nhập vào -Tính tổng số +Tổng hàng: chọn H9 nhập =SUM (B9:G9) Dùng trỏ kéo nút tự điền từ H9 đến H10 +Tổng cột: chọn B11 nhập = SUM( B9:B10) Dùng trỏ kéo nút tự điền từ B11 đến G11 +Tổng cộng: chọn H11 nhập =SUM(H9:H10) -Số liệu xuất ra, ta bảng tần số thực nghiệm -Tính tần số lý thuyết Tần số lý thuyết =(tổng hàng * tổng cột)/ tổng cột +Nhóm 40-50: Chọn B14 nhập =H9*B11/H11 Chọn C14 nhập =H9*C11/H11 Chọn D14 nhập =H9*D11/H11 Chọn E14 nhập =H9*E11/H11 Chọn F14 nhập =H9*F11/H11 Chọn G14 nhập =H9*G11/H11 +Nhóm 50-60: Chọn B15 nhập =H10*B11/H11 Chọn C15 nhập =H10*C11/H11 Chọn D15 nhập =H10*D11/H11 Chọn E15 nhập =H10*E11/H11 Chọn F15 nhập =H10*F11/H11 Chọn G15 nhập =H10*G11/H11 -Ta bảng tần số lý thuyết -Áp dụng hàm CHITEST Chọn B17 nhập =CHITEST(B9:G10,B14:G15) Ta kết P(X>X2) Biện luận: P(X>X2)=0,51158 >0,05=a => Chấp nhận H0 Kết luận: Khơng có khác tỷ lệ thu nhập nhóm tuổi số công nhân lành nghề Bài Đề bài: Trước chiến dịch quảng cáo, tỉ lệ phịng có khách khách sạn theo dõi ngẫu nhiên 15 ngày thu kết 86 92 83 88 79 81 90 76 80 91 85 89 77 91 83 phần trăm Sau kết thúc chiến dịch quảng cáo người ta theo dõi đc tỉ lệ 15 ngày thu kết 88 94 97 99 89 93 92 98 89 90 97 91 87 80 96 phần trăm Giả sử tỉ lệ phịng có khách phân phối chuẩn Với mức ý nghĩa 5% cho ý kiến chiến dịch quảng cáo có thành công hay không? Dạng bài: Kiểm định giả thiết giá trị trung bình ( so sánh trung bình hai mẫu nµ2 Giá trị thống kê Di=Xi-Yi(I= 1,2,…N) ̅= 𝐷 𝑆𝐷 = √ 𝑡= ∑𝑁 𝑖=1 𝐷𝑖 𝑁 ̅ ∑𝑁 𝑖=1(𝐷𝑖 − 𝐷 ) (𝑁 − 1) ̅ − 𝜇𝐷 𝐷 𝑆𝐷 /√𝑁 = ̅ 𝐷 𝑆𝐷 /√𝑁 Biện luận Nếu tµ2 “ Chiến dịch quảng cáo thành cơng” |t| = 3.5399 > tα =1.7613→ Chấp nhận giả thuyết Kết luận: Chiến dịch quảng bá thành công Bài 3: Đề bài: Tuổi X huyết áp Y bệnh nhân trẻ em 14 tuổi, chọn ngẫu nhiên cho bảng sau X 14 9 12 14 9 12 Y 100 83 112 152 104 90 92 85 110 73 132 122 134 98 82 65 Tính hệ số tương quan hệ số xác định Y X Với mức ý nghĩa 5%, có kết luận mối tương quan tuyến tính X Y Tìm đường hồi quy Y X, đường hồi quy hệ số hồi quy có ý nghĩa hay khơng? Tính sai số tiêu chuẩn đường hồi quy Dạng bài: Phân tích tương quan phân tích quy hồi Phương pháp giải: Công cụ giải cụ thể: Áp dụng MS-EXEL +Hàm: Correlation +Hàm: Regression Bảng số liệu, cơng thức, kết quả: Phân tích tương quan tuyến tính: Giả thiết H0: X Y khơng có tương quan tuyến tính Nhập số liệu vào bảng tính: - Mở Data Analysis chọn Correlation Hộp thoại Correlation xuất Input Range: phạm vi đầu vào liệu ( $A$3:$B$19 ) Grouped By: Nhóm liệu theo hàng cột (chọn hàng) Labels in first column: Nhãn cột (chọn) Output Range: Phạm vi liệu xuất ($A$22) Ta có bảng kết quả: 10 Biện luận: - Từ bảng kết ta tìm hệ số tương quan r = 0.466626707687722 Hệ số xác định r2 = 0.217740484327 n = 16 Giá trị T = 1.974050157.(Giá trị quan sát) Phân phối Student mức α = 0.05 với bậc tự n – = 14: C = T.INV.2T(0.05, 14) = 2.1448.(Giá trị ngưỡng) |T < c nên chấp nhận giả thuyết H0 => Vậy X Y khơng có tương quan tuyến tính Phân tích đường hồi quy: Giả thiết H: hệ số khơng thích hợp Mở Data Analysis chọn Regression Hộp thoại Regression xuất hiện: - Input Y Range: phạm vi đầu vào ( $B$3:$B$19 ) - Input X Range: phạm vi đầu vào ( $A$3:$A$19 ) - Labels: nhãn (chọn) - Line Fit Plots: vẽ đồ thị (chọn) - Output Range: phạm vi liệu xuất ( $A$22 ) - Ta nhận bảng kết quả: 11 - Hệ số góc = 2.33529411764706 Hệ số tự = 85.7779411764706 Giá trị P hệ số tự ( P_value ) = 5.44528855688808E-07 < α = 0.05 => Bác bỏ giả thiết H => Hệ số tự có ý nghĩa Giá trị P hệ số góc = 0.0684440115921883 > α = 0.05 => Chấp nhận giả thiết H => Hệ số góc khơng có ý nghĩa Giá trị F (Significance F) = 0.068444011592188 > α = 0.05 => Chấp nhận giả thiết H => Phương trình đường hồi quy khơng thích hợp Kết Luận: - Hệ số tương quan r = 0.466626707687722 - Hệ số xác định r2 = 0.217740484327 - X Y khơng có tương quan tuyến tính 12 - Phương trình đường hồi quy Y X: Y = 2.33529411764706x + 85.7779411764706 khơng thích hợp Sai số tiêu chuẩn đường hồi quy 21.8133747808021 Bài 4: Đề bài: Hãy phân tích tình hình kinh doanh số ngành nghề quận nội thành sở số liệu doanh thu trung bình sau: Ngành nghề kinh doanh Điện lạnh Vật liệu xây dựng Dịch vụ tin học Mức ý nghĩa 10% Khu vực kinh doanh Q1 5.7 5.0 3.8 Q2 3.1 15.0 1.8 Q3 4.4 9.5 1.3 Q4 5.0 17.5 4.8 Dạng bài: kiểm định trung bình Phương pháp: phân tích phương sai hai yếu tố không lặp Công cụ giải: Áp dụng MS-EXEL + Hàm: Anova: Two-Factor Without Replicatio Bảng số liệu, công thức, kết quả: Giả thiết H: giá trị trung bình Thực toán excel Nhập bảng số liệu: 13 Mở Data Analysis chọn Anova: Two-Factor- Without Replication Input Range: phạm vi đầu vào ( D70 đến H73 ) Label: nhãn ( chọn) Alpha: hệ số α = 0.1 Output Range: phạm vi liệu xuất ra( D76) Ta có bảng kết 14 Biện luận: Fr = 7.49526 > Fα = 3.46330407 : Bác bỏ giả thuyết H => doanh thu ngành nghề kinh doanh khác Fc = 0.973374 < Fα = 3.288761563 : Chấp nhận giả thuyết H => doanh thu quận Kết luận: Doanh thu phụ thuộc vào ngành nghề kinh doanh Doanh thu phụ không phụ thuộc vào khu vực kinh doanh 15 ... bài: - Bài toán kiểm định tỉ lệ ( kiểm định chi bình phương