Ví dụ 3.4/161 SGK Hiệu suất phần trăm % của một phản ứng hóa học ñược nghiên cứu theo ba yếu tố: pH A, nhiệt ñộ B và chất xúc tác C ñược trình bày trong bảng sau: Yếu tố B Yếu tố A Hãy ñ
Trang 1ðẠI HỌC QUỐC GIA THÀNH PHỒ HỒ CHÍ MINH
TRƯỜNG ðẠI HỌC BÁCH KHOA
*****¥*¥*****
BÁO CÁO: BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
TP.HỒ CHÍ MINH , THÁNG 11 NĂM 2010
GVHD: PGS.TS NGUYỄN ðÌNH HUY SV: NGUYỄN VĂN HỮU
MSSV: 20901139 NHÓM: 04
ðỀ SỐ 4
Trang 2BÀI 1
A Ví dụ 3.4/161 SGK
Hiệu suất phần trăm (%) của một phản ứng hóa học ñược nghiên cứu theo ba yếu tố: pH (A), nhiệt ñộ (B) và chất xúc tác (C) ñược trình bày trong bảng sau:
Yếu tố B Yếu tố A
Hãy ñánh giá về ảnh hưởng của các yếu tố trên ñến hiệu suất phản ứng?
Phương pháp: PHÂN TÍCH PHƯƠNG SAI BA NHÂN TỐ
Sự phân tích này ñược dùng ñể ñánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát
G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố B; k = 1, 2 r: yếu tố C)
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông
la tinh n×n Ví dụ như mô hình vuông la tinh 4×4:
Mô hình vuông la tinh ba yếu tố ñược trình bày như sau:
Yếu tố
Trang 3Bảng ANOVA:
phương
Bình phương trung
Yếu tố A
=
−
r i
i
r
T r
T
1
2
2
2 MSR=
) 1 ( −r
SSR
FR=
MSE MSR
Yếu tố B
=
−
r j
j
r
T r
T
1
2
2
2 MSC=
) 1 ( −r
SSC
FC=
MSE MSC
=
−
r k
k
r
T r
T
1
2
2
2 MSF=
) 1 ( −r
SSF
F=
MSE MSF
SSE
2
2
r
T
Yijk − ΣΣΣ
Trắc nghiệm
H0: µ1 = µ2 = = µk ↔ Các giá trị trung bình bằng nhau
H1: µi ≠ µj ↔ Có ít nhất hai giá trị trung bình khác nhau
Nếu FR < Fα(r-1)(r-2) → Chấp nhận H0 ñối với yếu tố A
Bài làm:
Nhập dữ liệu vào bảng tính
Trang 4Thiết lập các biểu thức và tính các giá trị thống kê
1 Tính các giá trị Ti , T.j., T k và T
Chọn ô B7 và chọn biểu thức =SUM(B2:E2)
Chọn ô C7 và nhập biểu thức =SUM(B3:E3)
Chọn ô D7 và nhập biểu thức =SUM(B4:E4)
Chọn ô E7 và nhập biểu thức =SUM(B4:E4)
Chọn ô B8 và nhập biểu thức =SUM(B2:B5)
Dùng con trỏ kéo ký hiệu tự ñiền từ ô B8 ñến ô E8
Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)
Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)
Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5)
Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)
Chọn ô B10 và nhập biểu thức=SUM(B2:E5)
2 Tính các giá trị G
Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo ký hiệu tự ñiền từ ô G7 ñến ô G9
Chọn ô G10 và nhập biểu thức =POWER(B10,2)
Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)
3 Tính các giá trị SSR, SSC, SSF, SST và SSE
• Các giá trị SSR, SSC, SSF
Chọn ô I7 và nhập biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo ký hiệu tự ñiền từ ô I7 ñến ô I9
• Giá trị SST
Chọn ô I11 và nhập biểu thức =G11-G10/POWER(4,2)
• Giá trị SSE
Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9)
4 Tính các giá trị MSR, MSC, MSF và MSE
• Giá trị MSR, MSC, MSF
Chọn ô K7 và nhập biểu thức =I7/(4-1)
Trang 5Giá trị MSE: Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))
Tính các giá trị F:
Chọn ô M7 và nhập biểu thức =K7/$K$10
Dùng con trỏ kéo ký hiệu tự ñiền từ ô M7 ñến M9
FR=3.11 < F0.05(3,6)=4.76 => chấp nhận H0 (pH)
FC=11.95 > F0.05(3,6)=4.76 => bác bỏ H0 (nhiệt ñộ)
F=30.05 > F0.05(3,6)=4.76 => bác bỏ H0 (chất xúc tác)
Vậy chỉ có nhiệt ñộ và chất xúc tác gây ảnh hưởng ñến hiệu suất phản ứng
B Ví dụ 4.2/170 SGK
30 và 60 phút ñể thực hiện một phản ứng tổng hợp Các hiệu suất của phản ứng (%) ñược trình bày trong bảng sau:
Trang 6Hãy cho biết yếu tố nhiệt ñộ và thời gian/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì ñiều kiện nhiệt ñộ 115°C trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
Phương pháp: HỒI QUY TUYẾN TÍNH ðA THAM SỐ
Trong phương trình hồi quy tuyến tính ña tham số, biến số phụ thuộc Y có liên quan ñến k biến
Phương trình tổng quát
Ŷx0,x1, ,xk = B0 + B1X1 + + BkXk
Bảng ANOVA
bình
Giá trị thống
kê
k
SSR
F=
MSE MSR
) 1 (N−k− SSE
Giá trị thống kê
Giá trị R-bình phương:
kF k
N
kF SST
SSR
R
+
−
−
=
=
) 1 (
2
(R2 ≥0.81 là khá tốt)
ðộ lệch chuẩn:
) 1
=
k N
SSE
Trắc nghiệm
F <
2
α
Trang 7H1: βi ≠ 0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi
Bài làm:
Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải ñược nhập theo cột
Áp dụng Regression
Nhấn lần lượt ñơn lệnh Tools và lệnh Data Analysis
Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK
Trang 8Trong hộp thoại Regression, lần lượt ấn ñịnh các chi tiết:
Trang 9Các giá trị ñầu ra cho bảng sau:
Trang 10t0=2.19 < t0.05 = 2.365 (hay Pv2=0.071>α=0.05) => Chấp nhận giả thiết H0
t1=1.38 < t0.05 = 2.365 (hay Pv=0.209>α=0.05) => Chấp nhận giả thiết H0
có ý nghĩa thống kê Nói cách khác phương trình hồi quy này không thích hợp
Trang 11t0 = 3.418 > t0.05 = 2.365 (hay Pv2=0.011 > α=0.05) =>Bác bỏ giả thiết H0
t1= 4.757 > t0.05 = 2.365(hay Pv=0.00206 < α=0.05) =>Bác bỏ giả thiết H0
Kết luận: yếu tố nhiệt ñộ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp
Phương trình hồi quy: Ŷx1,x2=f(X1,X2)
Ŷx1,x2 = -12.70 + 0.04X1 + 0.13X2 (R2=0.97; S=0.33)
Trang 12t0=11.528 > t0.05=2.365 (hay Pv2=2.260.10-5<α=0.05)=>Bác bỏ giả thiết H0
t1=7.583 > t0.05=2.365 (hay Pv=0.00027<α=0.05) =>Bác bỏ giả thiết H0
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt ñộ
biểu ñồ phân tán (scatter plots):
Trang 13Biểu đồ phân tán
0 1 2 3 4 5 6 7 8
Y
Y dự đốn
chỉ cần chọn một ơ, ví dụ như:B31, sau đĩ nhập hàm=B28+B29*50+EB30*115 và được kết quả như sau:
Vậy hiệu suất phản ứng theo
dự đốn ở 115°C trong vịng
50 phút là 4.3109%
Trang 14Bài 2: Hai máy cùng gia công một loại chi tiết Người ta muốn kiểm tra xem hai máy này có ñộ chính xác như nhau hay không? ðể làm ñiều ñó người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết, ñem ño và thu ñược kết quả sau:
Với mức ý nghĩa 0.05 có thể cho rằng hai máy này có ñộ chính xác như nhau hay không? Biết kích thước chi tiết có phân phối chuẩn
Phương pháp: so sánh phương sai
Nhập dữ liệu vào bảng tính:
Áp dụng “F-Test Two-Sample for Variances”
Trang 15Kết quả và biện luận:
2 2
0: A B
như nhau
2 2
t
cao hơn máy B”
781 0 233
Vậy ñộ chính xác của máy A cao hơn máy B
BÀI 3:
Một cửa hàng lớn có bán ba loại giày A,B,C Theo dõi số khách hàng mua các loại giày này trong 5 ngày, người quản lý thu ñược bảng số liệu sau:
Loại giày
Với mức ý nghĩa α=1% hãy so sánh lượng tiêu thụ trung bình của ba loại giày nói trên
Bài làm:
ðây là bài toán phân tích phương sai một yếu tố, mức tiêu thụ ảnh hưởng bởi loại giày Giả thiết H0: µ1 = µ2 = µ3; tức lượng tiêu thụ trung bình là bằng nhau
Nhấn lần lượt ñơn lệnh Tools và lệnh Data Analysis
Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
Trong hộp thoại Anova: single factor lần lượt ấn ñịnh
Trang 16− Cách xắp xếp theo hang hay cột(group by)
Sau khi nhấn OK xuất hiện bảng Anova:
Từ giá trị trong bảng Anova:
F = 7.5864 > F0.01 = 6.9266 => Bác bỏ H0
=> Lượng tiêu thụ của 3 loại giày trên là khác nhau
Lượng tiêu thụ trung bình của loại giày A là 22
Lượng tiêu thụ trung bình của loại giày B là 32.2
Lượng tiêu thụ trung bình của loại giày C là 34.6
=> Lượng tiêu thụ trung bình: Loại C > Loại B > loại A
Trang 17Câu 4: Với mức ý nghĩa 0.03 hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt ñộng kinh tế của các hộ gia ñình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập trung bình của một hộ tương ứng với các ngành nghề nói trên như sau:
1.Cơ sở lý thuyết: ðây là dạng toán phân tích phương sai hai yếu tố (không lặp):
Nhập dữ liệu vào máy tính:
Áp dụng: “Anova: Two – Factor without Replication”
a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”
b)Trong hộp thoại Anova:Two – Factor without Replication, lần lượt ấn ñịnh các giá trị:
- Phạm vi ñầu vào (input range): chọn bảng tính ta vừa tạo
-Nhãn dữ liệu (labels in first row/column)
-Ngưỡng tin cậy: Alpha = 3% = 0.03
-Phạm vi ñầu ra (output Range)
Nghề phụ Nghề chính
Trồng lúa (1)
Trồng cây ăn trái (2)
Chăn nuôi(3)
Dịch vụ (4)
3.5 5.6 4.1 7.2
7.4 4.1 2.5 3.2
8.0 6.1 1.8 2.2
3.5 9.6 2.1 1.5
Trang 18Saukhi click Ok thì kết quả thu ñược như sau:
FR = 1.9966 < F0.03 = 4.7407 => chấp nhận giả thiết H0 (nghề chính)
FC = 0.1106 < F0.03 = 4.7407 => chấp nhận giả thiết H0 (nghề phụ)
Vậy, thu nhập của gia ñình giống nhau xét cho nghề chính hay nghề phụ
Trang 19Bài 5: Với mức ý nghĩa 0.02 hãy phân tích sự biến ñộng của thu nhập ($/tháng/người) trên cơ sở số liệu ñiều tra về thu nhập trung bình của 4 loại ngành nghề ở 4 ku vực khác nhau sau ñây:
Nơi làm việc Loại ngành
1
2
3
4
212
222
241
240
200
205
250
228
230
222
245
230
220
225
235
240
Bài làm:
Phương pháp: phân tích phương sai hai yếu tố không lặp
Nhập dữ liệu vào bảng tính:
Áp dụng: “Anova: Two – Factor without Replication”
a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”
b)Trong hộp thoại Anova: Two – Factor without Replication, lần lượt ấn ñịnh các giá trị:
- Phạm vi ñầu vào (Input Range): chọn bảng tính ta vừa tạo
-Nhãn dữ liệu (labels in first row/column)
-Ngưỡng tin cậy: Alpha = 2% = 0.02
-Phạm vi ñầu ra (Output Range)
Trang 20Saukhi click Ok thì kết quả thu ñược như sau:
FR = 8.7831 > F0.02 = 5.5097 => bác bỏ giả thiết H0 (loại ngành nghề)
FC = 1.2328 < F0.02 = 5.5097 => chấp nhận giả thiết H0 (nơi làm việc)
Vậy chỉ có loại ngành nghề ảnh hưởng ñến thu nhập trung bình trên tháng của một người