Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
761,06 KB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM -oOo - BÀI TẬP LỚN XÁC XUẤT THỐNG KÊ Lớp A01 – N13 -TOPIC 05 GVHD: TS Hồng Văn Hà Thành viên nhóm N13: STT TÊN MSSV VAI TRÒ Nguyễn Anh Mỹ 1712223 Trưởng nhóm Trần Quang Linh 1711982 Thành viên PHÂN CƠNG CƠNG VIỆC TRONG NHĨM STT TÊN CƠNG VIỆC TỈ LỆ ĐÓNG GÓP Nguyễn Anh Mỹ Bài 100% Trần Quang Linh Bài 100% MỤC LỤC ĐỀ BÀI: BÀI GIẢI Bài 1: Bài 2: Bài 3: 17 Bài 4: 22 TÀI LIỆU THAM KHẢO 29 ĐỀ BÀI: Bài 1: Một nơng trường ni giống bị sữa A, B, C Lượng sữa bò thể bảng theo dõi sau: Lượng sữa Loại bị Ít Trung bình Nhiều A 92 37 46 B 53 15 19 C 75 19 12 Với mức ý nghĩa α = 5%, nhận định xem có phải giống bò phương diện sản lượng sữa hay không? Bài 2: Với mức ý nghĩa 5%, Hãy phân tích tình hình kinh doanh số ngành nghề quận nội thành sơ sở số liệu doanh thu số cửa hàng sau: Quận Ngành nghề kinh doanh Điện lạnh 2.5, 2.7, 2.0, 3.0 13.1, 3.5, 2.7 2.0, 2.4 5.0, 5.4 0.6, 10.4 15.0 9.5, 9.3, 9.1 19.5, 17.5 1.2, 1.0, 9.8, 1.8 2.0, 2.2, 1.8 1.2, 1.3, 1.2 5.0, 4.8, 5.2 Vật liệu xây dựng Dịch vụ tin học Bài 3: Một nhóm gồm 105 nhà doanh nghiệp Mỹ phân loại theo thu nhập năm tuổi thọ họ Kết thu hình sau: Thu nhập Tuổi Dưới 100.000 $ Từ 100.000 $ Trên 400.000 $ đến 399 599 $ Dưới 40 Từ 40 đến 54 18 19 Trên 54 11 12 17 Với mức ý nghĩa 1%, kiểm định giả thiết cho tuổi mức thu nhập có quan hệ với hay không? Bài 4: Sau số liệu loại báo ngày bán quận nội thành, số liệu lấy đại lý bán lẻ: Các quận nội thành Ngày khảo sát Quận Quận Quận Quận Quận Thứ hai 22 18 22 18 18 Thứ ba 21 18 22 18 19 Thứ tư 25 25 25 19 20 Thứ năm 24 24 18 20 22 Thứ sáu 28 19 15 22 25 Thứ bảy 30 22 28 25 25 Lượng báo thực bán quận có khác khơng? Lượng báo bán có chịu yếu tố tác động ngày tuần hay không? Kết luận với mức ý nghĩa 1% BÀI GIẢI Bài 1: • Đề bài: Một nơng trường ni giống bị sữa A, B, C Lượng sữa bò thể bảng theo dõi sau: Lượng sữa Loại bị Ít Trung bình Nhiều A 92 37 46 B 53 15 19 C 75 19 12 Với mức ý nghĩa α = 5%, nhận định xem có phải giống bị phương diện sản lượng sữa hay khơng? • Lý thuyết: Y y1 y2 yh ni x1 n11 n12 n1h n1 x2 n21 n22 n2h n2 xk nk1 nk2 nkh nk mj m1 m2 mh ∑ ni = n X Trong đó: xi (i = ̅̅̅̅̅ 1, k) – dấu hiệu mà X nhận ̅̅̅̅̅ yi (j = 1, h) – dấu hiệu mà Y nhận ni (i = ̅̅̅̅̅ 1, k) – số lần X nhận xi ̅̅̅̅̅ mj (i = 1, h) – số lần Y nhận yj ̅̅̅̅̅ ni,j (i = ̅̅̅̅̅ 1, k, j = 1, h) – số lần đồng thời X nhận xi Y nhận yj Phương pháp giải: - Tìm 𝐗 2α = 𝐗 2α [(k − 1)(h − 1)] từ bảng phân vị 𝐗 - Tính thống kê: k 𝐗 2α h (nij − γij ) ni mj = ∑∑ , γij = γij n i=1 j=1 Nếu 𝐗 20 ≤ 𝐗 2α chấp nhận H Nếu 𝐗 20 ≥ 𝐗 2α bác bỏ H • Bài giải: o Dạng bài: Kiểm định phân bố (kiểm định tính độc lập) - Giả thiết H0: Mức độ sản lượng sữa giống bò - Giả thiết H1: Có loại bị có sản lượng sữa khác Với mức ý nghĩa α = 5% = 0,05 Sử dụng hàm Chiinv (0.05,4) ta có được: χ20,05 [(3 − 1) (3 − 1)] = 9,49 Theo đề bài, ta có: n = 368 Tổng cột 1,2,3 có giá trị m1 = 220, m2 = 71 , m3 = 77 Tổng hàng 1,2,3 có giá trị n1 = 175 , n2 87 , n3 = 106 k h (nij − γij ) χ2 = ∑ ∑ γij i=1 j=1 (92 − 104.6)2 (37 − 33.8)2 (46 − 36.6)2 (53 − 52)2 = + + + 104.6 33.8 36.6 52 (15 − 16.8)2 (19 − 18.2)2 (75 − 63.4)2 (19 − 20.5)2 + + + + 16.8 18.2 63.4 20.5 (12 − 22.2)2 + = 11.39 22.2 Với γij = ni mj n Vì χ2 > χ20,05 => bác bỏ H0, chấp nhận H1 o Kết luận: giống bò khác phương diện sản lượng sữa • Sử dụng R: o Kết quả: Pearson's Chi-squared test data: data2 X-squared = 11.39, df = 4, p-value = 0.02252 Ít Trung bình Nhiều A 104.61957 33.76359 36.61685 B 52.01087 16.78533 18.20380 C 63.36957 20.45109 22.17935 o Code: > #Bai > data2 = matrix(c(92,37,46,53,15,19,75,19,12),ncol=3,byrow=T) > colnames(data2)=c("Ít","Trung bình","Nhiều") > rownames(data2)=c("A","B","C") > data2=as.data.frame(data2) > chisq.test(data2) > chisq.test(data2)$expected Kết p-value = 0.02252 < 0,05 => Bác bỏ H0, chấp nhận H1 Kết luận: giống bò khác phương diện sản lượng sữa Bài 2: • Đề bài: Với mức ý nghĩa 5%, Hãy phân tích tình hình kinh doanh số ngành nghề quận nội thành sơ sở số liệu doanh thu số cửa hàng sau: Quận Ngành nghề kinh doanh Điện lạnh 2.5, 2.7, 2.0, 3.0 13.1, 3.5, 2.7 2.0, 2.4 5.0, 5.4 0.6, 10.4 15.0 9.5, 9.3, 9.1 19.5, 17.5 1.2, 1.0, 9.8, 1.8 2.0, 2.2, 1.8 1.2, 1.3, 1.2 5.0, 4.8, 5.2 Vật liệu xây dựng Dịch vụ tin học • Lý thuyết: Giả sử quan tâm tới nhân tố A B Nhân tố A xem xét mức A1, A2, Ar, nhân tố B xem xét nước B1, B2, Bc Gọi Xjk ĐLNN đo lường hiệu việc tác động mức Aj Bk lên cá thể Giả sử x1jk, x2jk, , xnjk mẫu kích thước njk rút từ tập hợp giá trị Xjk Ta gọi mẫu (j, k) Ta đưa số ký hiệu sau: x jk : trung bình mẫu (j, k) n jo = c n jk k =1 n ok = r n jk j =1 n= n jo = n ok j k n jk x jk x i jk x jo = k n jo = i = trung bình mức Aj k n jo n jk x jk x i jk x ok = j n ok = i j = trung bình mức Bk n ok x = trung bình chung = x jk n x ok Ta có bảng sau ghi kết tính tốn trên: A Trung bình B1 B B2 Bk Bc dòng Aj A1 x11 x12 x1k x1c x10 A2 x21 x22 x2k x2c x20 Aj x j1 xj2 xjk xjc xj0 Yếu tố hàng (mẫu): F = 2.8929 < F–crit = 5.2479 → chấp nhận giả thiết HA Doanh thu cửa hàng không phụ thuộc vào ngành nghề Yếu tốc cột: F = 0.8189 < F–crit = 4.3771 → chấp nhận giả thiết HB Doanh thu cửa hàng không phụ thuộc vào khu vực kinh doanh Ảnh hưởng: F = 0.6498 < F–crit = 3.3507 → chấp nhận giả thiết HAB o Kết luận: Tình hình kinh doanh ngành nghề quận Khơng có tương tác (ảnh hưởng) khu vực kinh doanh (quận) ngành nghề kinh doanh • Sử dụng R: o Kết quả: 15 > anova(twoway) Analysis of Variance Table Response: score Df Sum Sq Mean Sq F value Pr(>F) Industries 408.98 204.489 17.1991 1.743e-05 *** Districts 151.46 50.488 4.2464 0.01438 * Residuals 26 309.13 11.889 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ > summary(twoway) Call: lm(formula = score ~ Industries + Districts) Residuals: Min 1Q Median 3Q Max -9.5652 -1.5707 -0.1428 0.3800 8.5572 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 2.4246 1.3407 1.809 0.08211 Industries2 7.7406 1.6396 4.721 7.02e-05 *** Industries3 -1.1818 1.4179 -0.834 0.41214 Districts2 2.7332 1.7012 1.607 0.12022 Districts3 -0.3841 1.6580 -0.232 0.81859 Districts4 5.0989 1.7071 2.987 0.00608 ** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 3.448 on 26 degrees of freedom Multiple R-squared: 0.6445, Adjusted R-squared: 0.5761 F-statistic: 9.428 on and 26 DF, p-value: 3.213e-05 16 o Code: #Bài Industries