TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH KHOA KHOA HỌC ỨNG DỤNG BỘ MÔN TOÁN ỨNG DỤNG BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ĐỀ TÀI 5 BÀI 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau: 1) Thực hiện phương pháp phân tổ dữ liệu (A). 2) Vẽ đồ thị phân phối tần số và đa giác tần số (A). 3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 95% (A). 4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị. BÀI LÀM: Dạng bài: Thống kê mô tả. Dữ liệu (A): Khảo sát chi phí hoàn thành một ngôi nhà cấp 4 của 40 nhà thầu ta có bảng số liệu: Chi phí ( triệu đồng )
TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH KHOA KHOA HỌC ỨNG DỤNG BỘ MƠN TỐN ỨNG DỤNG BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ĐỀ TÀI GVHD: NGUYỄN KIỀU DUNG THỰC HIỆN: NHÓM 05 – DT06 ST Họ tên SV MSSV T Nhóm_T Ngành học ổ Trần Phan Minh Quang 1512662 DT06-B Điện-Điện Tử Trần Phong Cầm 1610258 DT06-C Xây Dựng Đặng Minh Kha 1611485 DT06-C Xây Dựng Bạch Thanh Nguyên 1612269 DT06-C Xây Dựng Nguyễn Văn Tiền 1613550 DT06-D Xây Dựng Trần Quốc Tuấn 1613932 DT06-D Xây Dựng Phan Thanh Tùng 1613859 DT06-D Giao Thông Lê Tuấn Vĩ 1614137 DT06-D Xây Dựng Thành phố Hồ Chí Minh, tháng 07 năm 2017 Kí tên tham dự BÀI 1: Tìm liệu định lượng (A) liệu định tính (B) thích hợp, sử dụng liệu cho yêu cầu sau: 1) Thực phương pháp phân tổ liệu (A) 2) Vẽ đồ thị phân phối tần số đa giác tần số (A) 3) Tính đặc trưng mẫu ước lượng giá trị trung bình dấu hiệu quan sát với độ tin cậy 95% (A) 4) Trình bày liệu định tính (B) dạng phân loại đồ thị BÀI LÀM: Dạng bài: Thống kê mơ tả Dữ liệu (A): Khảo sát chi phí hồn thành ngơi nhà cấp 40 nhà thầu ta có bảng số liệu: Chi phí ( triệu đồng ) 550 548 557 564 549 550 552 559 552 553 553 551 547 550 559 558 554 557 548 551 555 553 550 548 560 563 558 551 564 552 549 553 562 555 553 557 549 563 551 551 Dữ liệu (B): Phân ngành sinh viên khoa Kỹ Thuật Xây Dựng khóa 2016 trường Đại học Bách Khoa thành phố Hồ Chí Minh Kỹ sư tài ngành Kỹ thuật Cơng trình Xây dựng Kỹ sư tài ngành KT Cơng trình Giao thơng Ngành Kỹ thuật Cơng trình Xây dựng Ngành KT Cơng trình Giao thơng 37 17 113 50 Ngành KT Cơng trình biển (KT cảng cơng trình biển) Ngành Kỹ thuật Cơng trình thủy 44 37 Ngành Kỹ thuật Cơ sở hạ tầng 40 Tổng cộng 338 1) Thực phương pháp phân tổ liệu A: Nhập liệu (A) vào Excel: GVHD: Nguyễn Kiều Dung Nhóm thực hiện: Nhóm 05 + Xác định số tổ cần chia: Chọn ô A6 nhập vào biểu thức =(2*Count(A1:J4))^(1/3) Kết 4.308869 Chọn k = + Xác định trị số khoảng cách h theo công thức: Chọn ô A7 nhập vào biểu thức =(max(A1:J4)-min(A1:J4))/4 Kết 4.25 Chọn h =4 + Ta xác định cận cận tổ là: Tổ 1: 547 - 551 Tổ 2: 551 – 555 Tổ 3: 555 – 559 Tổ 4: 559 – 564 Nhập vào ô từ A9 đến A13 giá trị: Chọn chức Data/ Data Analysis/Histogram + Input Range: địa tuyệt đối chứa dư liệu + Bin Range: địa chứa bảng phân nhóm + Output options: vị trí xuất kết + Confidence Level for Mean: độ tin cậy cho trung bình GVHD: Nguyễn Kiều Dung Nhóm thực hiện: Nhóm 05 + Chọn Cumulative Percentage để tính tần suất tích lũy khơng Excel tính tần số Kết quả: Có thể chỉnh sửa lại sau: 2) Vẽ đồ thị phân phối tần số đa giác tần số (A): Vẽ đồ thị phân phối tần số: + Quét chọn bảng tần số B2:B5 + Dùng chức Insert Column Chart menu Insert GVHD: Nguyễn Kiều Dung Nhóm thực hiện: Nhóm 05 Kết sau chỉnh sửa: Vẽ đa giác tần số: + Sử dụng bảng phân phối tần số liệu (A): + Thêm giá trị vào đầu cuối bảng phân phối tần số: + Quét chọn B2:B7, dùng chức Insert Line Chart menu Insert GVHD: Nguyễn Kiều Dung Nhóm thực hiện: Nhóm 05 Kết sau chỉnh sửa: 3) Tính đặc trưng mẫu ước lượng giá trị trung bình dấu hiệu quan sát với độ tin cậy 95% (A) Nhập liệu vào bảng tính: GVHD: Nguyễn Kiều Dung Nhóm thực hiện: Nhóm 05 Chọn chức Data/Data Analysis/Descriptive Statistics + Input Range: địa tuyệt đối chứa dư liệu + Output options: vị trí xuất kết + Confidence Level for Mean: độ tin cậy cho trung bình Kết nhận được: GVHD: Nguyễn Kiều Dung Nhóm thực hiện: Nhóm 05 4) Trình bày liệu định tính (B) dạng phân loại đồ thị Nhập liệu bảng tính: Tính tỉ lệ sinh viên cho ngành: Nhập vào C3: =B3/$B$10, copy cho cịn lại Vẽ biểu đồ đứng thể số lượng sinh viên chuyên ngành + Quét chọn cột Số sinh viên (B3:B9) + Dùng chức Insert /Insert Column Chart/2-D Column menu Insert GVHD: Nguyễn Kiều Dung Nhóm thực hiện: Nhóm 05 Kết thu được: Vẽ biểu đồ tròn thể tỉ lệ sinh viên chuyên ngành + Quét chọn cột Số sinh viên (C3:C9) + Dùng chức Insert/Insert Pie/2-D Pie menu Insert Kết thu được: GVHD: Nguyễn Kiều Dung Nhóm thực hiện: Nhóm 05 GVHD: Nguyễn Kiều Dung Nhóm thực hiện: Nhóm 05 Dùng chức Data/Data Analysis/Regression Kết quả: Biện luận: Phương trình hồi quy: 2.84217E-14 = 1.4x GVHD: Nguyễn Kiều Dung 27 Nhóm thực hiện: Nhóm 05 Y X Line Fit Plot 400 300 200 100 Y Linear (Y) Predicted Y 50 100 150 200 250 300 X 3) Tìm hệ số xác định R2: Dùng kết từ bảng SUMMARY OUTPUT từ câu ta xác định hệ số hồi quy: R2 = 4) Tìm sai số chuẩn ước lượng: Dùng kết từ bảng SUMMARY OUTPUT từ câu ta xác định sai số chuẩn ước lượng: GVHD: Nguyễn Kiều Dung 28 Nhóm thực hiện: Nhóm 05 - Đối với biến tự do: SE = 8.49812943352124E-15=0 Đối với biến X: SE = 5.27585316122003E-17=0 Dường khơng có sai số b) Ví dụ 4.2: Người ta dùng ba mức nhiệt độ gồm 105, 120 135 oC kết hợp với ba khoảng thời gian 15, 30 60 phút để thực phản ứng tổng hợp Các hiệu suất phản ứng (%) trình bày bảng sau đây: Thời gian (phút) Nhiệt độ (oC) Hiệu suất (%) X1 15 30 60 15 30 60 15 30 60 X2 105 105 105 120 120 120 135 135 135 Y 1.87 2.02 3.28 3.05 4.07 5.54 5.03 6.45 7.26 Hãy cho biết yếu tố nhiệt độ yếu tố thời gian có liên quan tính tuyến với hiệu suất phản ứng tổng hợp? Nếu có điều kiện nhiệt độ 115 oC vịng 50 phút hiệu suất phản ứng bao nhiêu? BÀI LÀM: Dạng bài: Hồi quy tuyến tính đa tham số Cơ sở lý thuyết: Phương trình tổng quát cho biến phụ thuộc Y có liên quan đến k biến số độc lập Xi (i=1,2, ,k): B0 + B1X1 + B2X2 + … + BkXk GVHD: Nguyễn Kiều Dung 29 Nhóm thực hiện: Nhóm 05 Nguồn Bảng ANOVA: Bậc tự Tổng số bình phương Bình phương trung bình Giá trị thống kê Hồi quy k SSR MSR = F= Sai số N-k-1 SSE MSE = N-1 SST = SSR + SSE sai số Tổng cộng Giá trị thống kê: Giá trị R-bình phương: Giá trị R2: (R3 ≤ 0.81 tốt) Giá trị R2 hiệu chỉnh (Adjusted R Square) ( trở nên âm hay không xác định R2 hay N nhỏ) o Độ lệch chuẩn: (S ≤ 0.30 tốt) Trắc nghiệm thống kê: Trắc nghiệm t: : = “Các hệ số hồi quy khơng có ý nghĩa” : ≠0 “Có vài hệ số hồi quy có ý nghĩa” Bậc tự t: = N - k - ; Trắc nghiệm F: GVHD: Nguyễn Kiều Dung 30 Nhóm thực hiện: Nhóm 05 : = “phương trình hồi quy khơng thích hợp” : ≠0 “phương trình hồi quy thích hợp” với vài Bậc tự giá trị F: v1 = 1, v2 = N -k – Thực Excel: Giả thiết H0: Phương trình hồi quy khơng thích hợp Ta tìm phương trình hồi quy tính tuyến đa tham số để phụ thuộc không phụ thuộc yếu tố thời gian (X1) nhiệt độ (X2) với hiệu suất phản ứng tổng hợp (Y) Nhập liệu theo cột: Chọn chức Data/ Data Analysis/Regression Hồi quy theo Thời gian (X1): Input Y Range: Phạm vi biến số Y Input X Range: Phạm vi biến số X Labels: Dữ liệu bao gồm nhãn Confidence Level: Mức tin cậy Output options: Nơi xuất kết GVHD: Nguyễn Kiều Dung 31 Nhóm thực hiện: Nhóm 05 Kết quả: Phương trình hồi quy: ŶX1 = f(X1) = 2.7267 + 0.0445X1 với R2 = 0.2139 S = 1.8112 t0 = 2.1290 < t0.05 = 2.365 (tra bảng VII với n = 7, α = 0.025) hay = 0.0708 > α = 0.05 Chấp nhận giả thiết H0 t1 = 1.3802 < t0.05 = 2.365 hay PV = 0.209 > α = 0.05 GVHD: Nguyễn Kiều Dung 32 Nhóm thực hiện: Nhóm 05 Chấp nhận giả thiết H0 F = 1.9049 < = 5.590 (tra bảng VIII với n1 = n2 = 7) hay = 0.209 > α = 0.05 Chấp nhận giả thiết H0 Vậy: Phương trình hồi quy khơng có ý nghĩa thống kê Nói cách khác, phương trình hồi quy khơng thích hợp Kết luận: Yếu tố thời gian khơng có liên quan tính tuyến với hiệu suất phản ứng tổng hợp Hồi quy theo Nhiệt độ (X2): Các thông số cửa sổ Nhiệt độ Hồi quy theo X1, trừ Input X Range $B$1:$B$10 Kết quả: Phương trình hồi quy: ŶX2 = f(X2) = -11.1411 + 0.1286X2 với R2 = 0.7638 S = 0.9929 t0 = 3.4179 > t0.05 = 2.365 hay = 0.0112 < α = 0.05 Bác bỏ giả thiết H0 t1 = 4.7572 > t0.05 = 2.365 hay PV = 0.0021 < α = 0.05 GVHD: Nguyễn Kiều Dung 33 Nhóm thực hiện: Nhóm 05 Bác bỏ giả thiết H0 F = 22.6309 > = 5.590 hay = 0.0021 < α = 0.05 Bác bỏ giả thiết H0 Vậy: Phương trình hồi quy có ý nghĩa thống kê Nói cách khác, phương trình hồi quy thích hợp Kết luận: Yếu tố nhiệt độ có liên quan tính tuyến với hiệu suất phản ứng tổng hợp Hồi quy theo Thời gian (X1) Nhiệt độ (X2): Các thông số cửa sổ Regression Hồi quy theo X1, trừ Input X Range $A$1:$B$10 Kết quả: Phương trình hồi quy: ŶX1, X2 = f(X1,X2) = -12.7000 + 0.0445X1 + 0.1286X2 với R2 = 0.9777 S = 0.3297 t0 = 11.5283 > t0.05 = 2.365 hay = 2.5607* < α = 0.05 GVHD: Nguyễn Kiều Dung 34 Nhóm thực hiện: Nhóm 05 Bác bỏ giả thiết H0 t1 = 7.5827 > t0.05 = 2.365 hay PV = 0.0003 < α = 0.05 Bác bỏ giả thiết H0 t2 = 14.3278 > t0.05 = 2.365 hay PV = 7.2338* < α = 0.05 Bác bỏ giả thiết H0 F = 131.3921 > F0.05 = 5.140 (tra bảng VII với n1 = n2 = 6) hay FS = 1,1123* < α = 0.05 Bác bỏ giả thiết H0 Vậy: Phương trình hồi quy có ý nghĩa thống kê Nói cách khác, phương trình hồi quy thích hợp Kết luận: Hiệu suất phản ứng có liên quan tính tuyến với hai yếu tố thời gian nhiệt độ Dữ liệu với hàm hồi quy = -12.7000 + 0.0445X1 + 0.1286X2: Vẽ biểu đồ: chọn ô C2, vào Insert -> Scatter -> Scatter with only Maker Sự tính tuyến phương trình hồi quy YX1, X2 = -12.7000 + 0.0445X1 + 0.1286X2 có ng dự đốn (Y’) thể trình bày biểu đồ phân tán: GVHD: Nguyễn Kiều Dung 35 Nhóm thực hiện: Nhóm 05 Dự đốn hiệu suất phản ứng phương trình hồi quy nhiệt thời gian (X1) 50 phút, nhiệt độ (X2) 115oC: Thực hiện: Công thức ô E3: =B1+B2*E1+B3*E2 Hàm lượng thực nghiệm (Y) Kết quả: 4.3109 Vậy hiệu suất phản ứng phương trình hồi quy nhiệt thời gian (X 1) 50 phút, nhiệt độ (X2) 115oC 4.3109 GVHD: Nguyễn Kiều Dung 36 Nhóm thực hiện: Nhóm 05 Bài 6: ( Khơng bắt buộc) Tìm ví dụ liên quan đến chuyên ngành học để minh họa cho tốn phân tích phương sai u cầu: + Dạng tốn PTPS: tùy chọn + Trình bày sở lý thuyết, nhớ lưu ý điều kiện để tốn thực + Trình bày lời giải theo cách: tính trực cơng thức ứng dụng Excel Bài làm Thời gian trung bình hồn thành nhà cấp 21 nhà thầu vào mùa ( Miền Nam ) – PTPS yếu tố Mùa Nắng 55 60 56 48 54 58 60 53 54 46 55 59 50 51 49 57 48 56 60 48 46 1123 Mùa Mưa 69 66 78 67 80 76 69 71 73 68 69 72 68 75 70 72 75 72 76 66 69 1501 Giao Mùa 71 61 53 60 64 67 57 52 71 69 75 51 55 68 56 71 75 58 73 57 63 1327 Giả thiết: Ho : Thời gian trung bình hồn thành nhà nhóm thời tiết khác H1 : Thời gian trung bình hồn thành nhà nhóm thời tiết khác khác GVHD: Nguyễn Kiều Dung 37 Nhóm thực hiện: Nhóm 05 Giải tay Bước 1: Tính trung bình nhóm & trung bình bình chung nhóm Thời gian trung bình nhà thầu nhóm thời tiết: Nhóm ( mùa nắng ): xtb1== 53.47619 Nhóm ( mùa mưa ): x tb2== 71.47619 Nhóm ( Giao mùa ): x tb3== 63.19048 Cả nhóm : xtb== 62.71429 Bước 2: Tính tổng chênh lệch bình phương SSW=SS1 + SS2 + SS3 ( có nhóm ) Trong SS1=∑n1j=1 (x1j – xtb1)2 với n1=21 =(53.47619-55) + (53.47619-60)2 + +(53.47619-48)2 + (53.47619-46)2 = 449.2381 Tương tự SS2=315.2381 SS3=1245.238 SSW=SS + SS2 + SS3 = 449.2381 + 315.2381 + 1245.238 = 2009.714 SSG=∑ki=1 ni(xtbi – xtb)2 ( với k=3 ) Ta có: SSG= 21(53.47619 – 62.71429)2 + 21(71.47619 – 62.71429)2 + 21(63.19048 – 62.71429)2 =3409.143 Bước 3: Tính phương sai Phương sai nội nhóm : MSW=== 33.49524 Phương sai nhóm : MSG===1704.571 Bước 4: Tính tỉ số F F===50.88996 Tra bảng phân phối hàm F với mức nghĩa α=0.05 bậc tử n-k k-1 , bảng khơng có nên ta tra excel sau: GVHD: Nguyễn Kiều Dung 38 Nhóm thực hiện: Nhóm 05 Kết F(k-1;n-k;α) = F(3-1;63-3;0.05)= 3.1504 Vì F=50.88996 > 3.1504 -> bác bỏ H0 , chấp nhận H1 Vậy với độ tin cậy 95% thời gian hồn thành nhà cấp 21 nhà thầu nhóm thời tiết khác khác Ta kết luận thời tiết ảnh hưởng đến thời gian xây nhà Sau cách giải excel , để đối chiếu kết với cách làm tay Giải Excel Bước 1: Nhập liệu: GVHD: Nguyễn Kiều Dung 39 Nhóm thực hiện: Nhóm 05 Chọn Data/Data Analysis/Anova Single Factor làm theo hướng dẫn Và kết quả, trùng khớp làm thủ công: GVHD: Nguyễn Kiều Dung 40 Nhóm thực hiện: Nhóm 05 GVHD: Nguyễn Kiều Dung 41 Nhóm thực hiện: Nhóm 05 ... phí ( triệu đồng ) 55 0 54 8 55 7 56 4 54 9 55 0 55 2 55 9 55 2 55 3 55 3 55 1 54 7 55 0 55 9 55 8 55 4 55 7 54 8 55 1 55 5 55 3 55 0 54 8 56 0 56 3 55 8 55 1 56 4 55 2 54 9 55 3 56 2 55 5 55 3 55 7 54 9 56 3 55 1 55 1 Dữ liệu (B):... biểu thức =(max(A1:J4)-min(A1:J4))/4 Kết 4. 25 Chọn h =4 + Ta xác định cận cận tổ là: Tổ 1: 54 7 - 55 1 Tổ 2: 55 1 – 55 5 Tổ 3: 55 5 – 55 9 Tổ 4: 55 9 – 56 4 Nhập vào ô từ A9 đến A13 giá trị: ... 30 60 15 30 60 15 30 60 X2 1 05 1 05 1 05 120 120 120 1 35 1 35 1 35 Y 1.87 2.02 3.28 3. 05 4.07 5. 54 5. 03 6. 45 7.26 Hãy cho biết yếu tố nhiệt độ yếu tố thời gian có liên quan tính tuyến với hiệu suất