Báo cáo xác suất thống kê
Trang 1Câu 1.Trình bày lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 Sách BT
XSTK 2012 (N.Đ.HUY).
Ví dụ 3.4: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3 yếu tố pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng ?
BÀI LÀM 1/ Cơ sở lí thuyết:
Nhận xét: Đây là bài toán Phân tích phương sai ba yếu tố:
- Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu tố
trên các giá trị quan sát G (yếu tố A:i=1,2 r, yếu tố B: j=1,2 r, yếu tố C:
Trang 2Giá trị thống kê Yếu tố A
H0: μ1 =μ2= …μk “Các giá trị trung bình bằng nhau”
H1: μi ≠μj “Có ít nhất 2 giá trị trung bình khác nhau”
Trang 32/ Áp dụng Excel:
Thiết lập bảng tính như sau :
Tính các giá trị Ti (tổng theo hàng từ B đến E)
Chọn ô B7 và nhập vào biểu thức =SUM(B2:E2)
Chọn ô C7 và nhập vào biểu thức =SUM(B3:E3)
Chọn ô D7 và nhập vào biểu thức =SUM(B4:E4)
Chọn ô E7 và nhập vào biểu thức =SUM(B5:E5)
Tính các giá trị T.j.(tổng theo cột từ hàng thứ 2 đến hàng thứ 5)
Chọn ô B8 và nhập vào biểu thức =SUM(B2:B5)
Dùng con trỏ kéo kí hiệu điền từ ô B8 đến ô E8
Tính các giá trịT k
Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)
Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)
Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5)
Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)
Tính giá trịT (tổng các phần tử trong bảng)
Chọn ô B10 và nhập biểu thức =SUM(B2:E5)
*Tính các giá trị và
- Các giá trị và
Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu điền từ ô G7 đến ô G9
Trang 4- Các giá trị SSR,SSC và SSF
Chọn ô I7 và nhập vào biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo kí hiệu điền từ ô I7 đên ô I9
Chọn ô K7 và nhập biểu thức =I7/(4-1)
Dùng con trỏ kéo kí hiệu điền từ ô M7 đến ô M9
- Giá trị MSE
Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))
*Tính các giá trị và F
Chọn ô M7 và nhập vào biểu thức =K7/0.3958
Dùng con trỏ kéo kí hiệu điền từ ô M7 đến ô M9
Kết quả và biện luận:
FR=3.10 <F0.05(3.6)= 4.76 =>chấp nhận H0(pH)
FC=11.95>F0.05(3.6) = 4.76 =>bác bỏ H0(nhiệt độ)
F =30.05 >F0.05(3.6) = 4.76 =>bác bỏ H0(chất xúc tác)
Vậy chỉ có nhiệt độ và chất xúc tác ảnh hưởng đến hiệu suất
Ví dụ 4.2 : Người ta dùng ba mức nhiệt độ gồm 105, 120, 135 o C kết hợp với
ba khoảng thời gian là 15, 30, 60 phút để thực hiện một phản ứng tổng hợp Các hiệu suất của các phản ứng (%) được trình bày trong bảng sau :
Thời gian (phút) Nhiệt độ ( o C) Hiệu suất (%)
Trang 5Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp?Nếu có thì với điều kiện nhiệt độ 115 o C trong vòng 50 phút, hiệu suất phản ứng sẽ là bao nhiêu?
BÀI LÀM 1/Cơ sở lí thuyết:
Nhận xét: Đây là dạng bài Hồi quy tuyến tính đa tham số.
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y cóliên quan đến k biến số độc lập Xi (i =1,2,…k) thay vì chỉ có một như trong hồiquy tuyến tính đơn giản
Phương trình tổng quát:
= B0 + B1X1 + B2X2 + … + BkXk
Phương trình hồi quy đa tham số có thể được trình bày dưới dạng ma trận:
Bảng ANOVA
Trang 6Nguồn sai
số
Bậc tự do
Tổng số bình phương
Bình phương trung
bình
Giá trị thống kê
R2
ii == R2 – (R2
ii sẽ trở nên âm hay không xác định nếu R2 hay N nhỏ)
H0 : βi = 0 “Các hệ số hồi quy không có ý nghĩa”
H0 : βi 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa”
Bậc tự do của giá trị t: γ = N – k – 1
Trang 7Nhập bảng dữ liệu vào bảng tính:
Dữ liệu bắt buộc phải được nhập theo cột
Sử dụng “Regression”:
Vào Data-> Data Analysis.Chọn mục Regression.Chọn OK.
a/Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
− Phạm vi của biến số Y (Input Y Range): $C$1:$C$10
− Phạm vi của biến số X (Input X Range): $A$1:$A$10
− Nhãn dữ liệu (Labels)
− Mức tin cậy (Confidence Level): chọn mức 95%
− Tọa độ đầu ra (Output Range): $A$14
− Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots)…
Trang 9Phương trình hồi quy: )
Vậy phương trình hồi quy này không thích hợp
Kết luận: Yếu tố thời gian không có liên quan tuyến tính với hiệu suất phản
ứng tổng hợp
Trang 10b/Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
− Phạm vi của biến số Y (Input Y Range): $C$1:$C$10
− Phạm vi của biến số X (Input X Range): $B$1:$B$10
− Nhãn dữ liệu (Labels)
− Mức tin cậy (Confidence Level): chọn mức 95%
− Tọa độ đầu ra (Output Range): $A$45
− Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots)…
Trang 11Phương trình hồi quy: )
= -11.1411 +0.12856X2 (R2=0.7638; S=0.9929);N=9; k=1
t0= t Stat(Intercept) =3.4178 > t0,05(7)=2.365 (hay P value=0.0112 <α=0.05)
Bác bỏ giả thiết H0
t2= t Stat(X1) =4.7572 >t0,05(7)=2.365 (hay P value=0.0021 < α=0.05)
Bác bỏ giả thiết H0
F=22.6309 > F0,05(1.7)=5.59 (hay FS=0.0021 <α=0.05)
Bác bỏ giả thiết H0
Vậy phương trình hồi quy này thích hợp
Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất phản ứng tổng
hợp
Trang 12c/Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
− Phạm vi của biến số Y (Input Y Range): $C$1:$C$10
− Pham vi của biến số X (Input X Range): $A$1:$B$10
− Nhãn dữ liệu (Labels)
− Mức tin cậy (Confidence Level): chọn mức 95%
− Tọa độ đầu ra (Output Range): $A$76
− Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots)…
Phương trình hồi quy: )
= -12.7 + 0.0445X1 + 0.1286X2 (R2=0.9777; S=0.3297); N=9; k=2
Trang 13t0= t Stat(Intercept) =1.1016 > t0,05(6)=2.447 (hay P value=0.000026 <α=0.05)
Bác bỏ giả thiết H0
t1= t Stat(X1) = 7.5827 >t0,05(6)=2.447 (hay P value=0.0002736 < α=0.05)
Bác bỏ giả thiết H0
t2= t Stat(X2) = 14.3278 >t0,05(6)=2.447 (hay P value=0.000007 < α=0.05)
Bác bỏ giả thiết H0
F=131.3921> F0,05(1.6)=5.99 (hay FS =0.0021 <α=0.05)
Bác bỏ giả thiết H0
Vậy các hệ số của phương trình hồi quy = -12.7 + 0.0445X1 + 0.1286X2đều có
ý nghĩa thống kê Nói cách khác, phương trình hồi quy này thích hợp
Kết luận: Hiệu suất phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố
là nhiệt độ và thời gian
Dự đoán hiệu suất phản ứng tại t =115oC và thời gian là 50phút
Trang 14Tại ô B94, nhập = B91 + B92*50 + B93*115
Kết quả dự đoán hiệu suất phản ứng là 4.310873016
Câu 2: Bảng sau đây cho ta một mẫu gồm 11 quan sát (xi, yi) từ tập hợp
chính các giá trị của cặp ĐLNN (X, Y):
Y -0,3 0,1 0,7 -0,28 -0,25 0,02
a) Tìm đường hồi quy của Y đối với X.
b) Tính sai số tiêu chuẩn của đường hồi quy.
c) Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y theo X.
Bài làm Nhận xét: Đây là bài toán phân tích hồi quy tuyến tính
Cơ sở lý thuyết:
Ŷ x = B0 + BX
B0 = Ȳ - BẊ
B =
X - biến số phụ thuộc (dependent / reponse variable)
Y – biến số độc lập (independent / predictor variable)
B0 và B – các hệ số hồi quy (regression coefficients)
Trang 15Giá trị R-bình phương (R-square):
R= (100R2: %của biến đổi trên Y được giải thích bởi X)
Độ lệch chuẩn (Standard Error):
S=
(Sự phân tán của dữ liệu càng ít thì giá trị của S càng gần zero)
Trắc nghiệm thống kê:
Đối với một phương trình hồi quy, Ŷ x = B0 + BX , ý nghĩa thống kê của các
hệ số Bi (B0 hay B) được đánh giá bằng trắc nghiệm t (phân phối Student) trongkhi tính chất thích hợp của phương trình Ŷ x = f(X) được đánh giá bằng trắc nghiệm F(phôi bố Fischer)
Trắc nghiệm t
- Giả thiết:
o H0 : βi = 0 “Hệ số hồi quy không có ý nghĩa”
o H0 : βi 0 “Hệ số hồi quy có ý nghĩa”
o H0 : βi = 0 “Phương trình hồi quy không thích hợp”
o H : β 0 “Phương trình hồi quy thích hợp”
Trang 17Nhấn OK, ta được kết quả:
a) Đường hồi quy của Y đối với X là: Y=1.5479X – 1.7395
b) Sai số tiêu chuẩn của đường hồi quy: 0.2896
c) Ta thấy F = 12.6367 > c = 5.12
(Tra bảng phân bố Fisher với bậc tự do n1 = 1, n2 = 9 ở mức 0.05)
=> Có hồi quy tuyến tính của Y theo X
Câu 3: Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ
40 – 50 tuổi và nhóm từ 50 – 60 tuổi trong số các công nhân lành nghề
Trang 18ở Thụy Điển năm 1930
Nhómtuổi
a Dạng bài toán: Kiểm định tính độc lập
b Khái niệm thống kê:
Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ
số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm)
Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) – thí
dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số Trắc nghiệm “khi” bình
phương (χ2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ
lệ hoặc xác suất) một cách tiện lợi χ2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0 Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi kết quả mang một
trong các xác suất thực nghiệm là Pi (i = 1, 2, … k) Nếu gọi Pi,0 là các giá trị
lý thuyết tương ứng với Pi thì các tần số lí thuyết sẽ là Ei = NPi,0 Điều kiện
để áp dụng trắc nghiệm χ2 một cách thành công là các tần số lí thuyết Ei ≥5
c Giả thuyết:
H0: P1 = P1,0; P2 = P2,0; … ; Pk = Pk,0⇔ “Các cặp Pi và Pi,0 giống nhau”
H1: “Ít nhất có một cặp Pi và Pi,0 khác nhau”
Giá trị thống kê:
Trang 19Trong chương trình MS-EXCEL có hàm CHITEST có thể tính:
- Giá trị χ2 theo biểu thức:
Oij: tần số thực nghiệm của ô thuộc hàng i và cột j;
Eij: tần số lý thuyết của ô thuộc hàng i với cột j;
r: số hàng;
c: số cột
- Xác suất P(X >χ2) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng
và c là số cột trong bảng ngẫu nhiên (contingency table)
• Nếu P(X >χ2) > α ⇒ Chấp nhận giả thuyết H0 và ngược lại
d Giải thuật:
- Tính các tổng số
- Tổng hàng (row totals)
- Tổng cột (column totals)
-Tổng cộng (grand total)
Trang 20Chọn ô B7 nhập biểu thức = B$5*$H3/$H$5
Chọn (B9:G10): ấn F2+Ctrl+Enter
• Bước 3: Tính giá trị, sử dụng hàm CHITEST và hàm CHIINV
Chọn ô B12: Chọn hàm =CHITEST(B3:G4,B9:G10)Chọn ô B13: Chọn hàm =CHIINV(0.02,5)
Chọn ô B14: Chọn hàm =CHIINV(B12,5)
Biện Luận:
P(X >χ2) =0.511582 > α=0.02 Chấp nhận giả thuyết H0.Hoặc χ2
Trang 21a Dạng bài toán: Kiểm định tính độc lập
b Khái niệm thống kê:
Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ
số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm)
Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) – thí
dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số Trắc nghiệm “khi” bình
phương (χ2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ
lệ hoặc xác suất) một cách tiện lợi χ2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0 Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi kết quả mang một
trong các xác suất thực nghiệm là Pi (i = 1, 2, … k) Nếu gọi Pi,0 là các giá trị
lý thuyết tương ứng với Pi thì các tần số lí thuyết sẽ là Ei = NPi,0 Điều kiện
để áp dụng trắc nghiệm χ2 một cách thành công là các tần số lí thuyết Ei ≥ 5
c Giả thuyết:
H0: P1 = P1,0; P2 = P2,0; … ; Pk = Pk,0⇔ “Các cặp Pi và Pi,0 giống nhau”
H1: “Ít nhất có một cặp Pi và Pi,0 khác nhau”
Giá trị thống kê:
Oi: các tần số thực nghiệm (observed frequency);
Ei: các tần số lý thuyết (expected frequency)
Biện luận:
• Nếu ⇒ Bác bỏ giả thuyết H0 (DF = k-1)
Trong chương trình MS-EXCEL có hàm CHITEST có thể tính:
- Giá trị χ2 theo biểu thức:
Oij: tần số thực nghiệm của ô thuộc hàng i và cột j;
Eij: tần số lý thuyết của ô thuộc hàng i với cột j;
r: số hàng;
c: số cột
- Xác suất P(X >χ2) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng
và c là số cột trong bảng ngẫu nhiên (contingency table)
• Nếu P(X >χ2) > α ⇒ Chấp nhận giả thuyết H và ngược lại
Trang 22d Giải thuật:
- Tính các tổng số
- Tổng hàng (row totals)
- Tổng cột (column totals)
-Tổng cộng (grand total)
Tính tổng hàng, tổng cột: chọn (B6:E7) ấn biểu tượng (AutoSum)
Chọn ô B10 nhập biểu thức =B$7*$E4/$E$7
Chọn vùng (B10:D12) ấn F2+Ctrl+Enter
Trang 23• Bước 3: Dùng hàm CHITEST
Tính giá trị “P”:
Chọn ô B14 và chọn hàm CHITEST Các thông số
Actual_range: B4:D6Expected_range: B10:D12Chọn OK, ta được bảng:
P(X >χ2) =0.14375984 > α=0.01 Chấp nhận giả thuyết H0
Kết luận: Tuổi và mức thu nhập không có mối quan hệ với nhau
Câu 5: Với mức ý nghĩa 1%, Hãy phân tích tình hình kinh doanh của một
số ngành nghề ở quận 4 quận nội thành trên cơ sở số liệu về doanh thu của một số cửa hàng như sau:
Trang 247 15.0 2.0:2.2:1.
8
9.5:9.3:9.
1 1.2:1.3:1.
2
19.5:17.5 5.0:4.8:5.
2
Bài làm
Dạng toán: Phân tích phương sai 2 yếu tố (có lặp)
I.Cơ sở lý thuyết:
Trên thực tế một biến lượng chịu tác động không chỉ một nhân tố mà có thể hai (hay nhiều nhân tố) Chẳng hạn năng suất cây trồng chịu ảnh hưởng của nhân tố giống và của nhân tố đất Kết quả học tập của một sinh viên chịu ảnh hưởng không những bởi nhân tố giảng viên mà còn bởi nhân tố sĩ số của lớp
học…
Phương pháp phân tích phương sai hai nhân tố nhằm phát hiện ảnh hưởng của mỗi nhân tố cũng như tác động qua lại của hai nhân tố đó đến biến lượng đang xét
Giả sử chúng ta quan tâm tới nhân tố A và B Nhân tố A được xem xét ở các mức A1, A2,…Ar và nhân tố B được xem xét ở các mức B1, B2,…Bc
+ Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau:
+ Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công
Trang 25+Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức
+ Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là
SSI, được tính theo công thức
+ Trung bình bình phương của nhân tố A, ký hiệu là MSFA, được tính theocông thức
r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1
+Trung bình bình phương của nhân tố B, ký hiệu là MSFB, được tính theocông thức
c – 1 gọi là bậc tự do của A bằng số mức của A trừ 1
+ Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi
n – crgọi là bậc tự do của sai số
+ Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi
(c – 1) (r – 1) gọi là bậc tự do của tương tác.
Trang 26Chú ý rằng:
(r – 1) + (c – 1) + (c – 1) (r – 1) + n – rc = n – 1 = bậc tự do tổng cộng
+ Tỷ số F cho nhân tố A, ký hiệu bởi FA được tính như sau,
Tương tự tỷ số F cho nhân tố B, FB được tính bởi
vàtỷ số F cho tương tác giữa A và B, ký hiệu là FAB được tính bởi:
Với mức ý nghĩa α đã cho ta ký hiệu f (u, v) là phân vị mức α của phân bốFisher với bậc tự do (u, v)
Ta có quy tắc quyết định như sau:
+ Nếu FA> f (r – 1, n – cr) thì ta bác bỏ giả thiết
“Các mức A1, Arcó hiệu quả trung bình như nhau”
+ Nếu FB> f (c – 1, n – cr) thì ta bác bỏ giả thiết
“Các mức B1, B2, Bccó hiệu quả trung bình như nhau”
+ Nếu FAB> f ((r – 1)(c – 1), n – rc)
Ta bác bỏ giả thiết:
“Có sự tương tác giữa A và B”