Báo cáo xác suất thống kê, thầy vũ đình huy, nhóm 6Dạng bài: PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐSự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B; k = 1, 2...r: yếu tố C).Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
Trang 1Mục Lục
Bài 1: 2
Ví dụ 3.4: 2
Ví dụ 4.2: 6
Bài 2: 16
Bài 3: 22
Bài 4: 31
Bài 5: 37
Trang 2Báo cáo Xác Suất Thống Kê
Bài 1a (vd 3.4)
Hiệu suất (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố: pH (A),nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố A
Dạng bài: PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐ
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các
giá trị quan sát G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố B; k = 1, 2 r: yếu
tố C).
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta
dùng mô hình vuông la tinh n×n Ví dụ như mô hình vuông la tinh 4×4:
Trang 3Báo cáo Xác Suất Thống Kê
Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố C (T k ví dụ: T 1 = Y111 + Y421 + Y331 + Y241)
Giá trịthống kêYếu tố A
Yếu tố B
j=1
r T2j
Trang 4Báo cáo Xác Suất Thống Kê
H1: μi ≠ μj ↔ Có ít nhất hai giá trị trung bình khác nhau
Nếu FR < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố B
Nếu F < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố C
Tính các giá trị Ti…(Tổng theo hàng từ B đến E)
Chọn ô B7 và nhập vào biểu thức = SUM(B2:E2)
Chọn ô C7 và nhập biểu thức =SUM(B3:E3)
Chọn ô D7 và nhập vào biểu thức =SUM(B4:E4)
Trang 5Báo cáo Xác Suất Thống Kê
Chọn ô E7 và nhập vào biểu thức =SUM(B5:E5)
Tính các giá trị T.j.
Chọn ô B8 và nhập vào biểu thức = SUM(B2:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 đến ô E8
-Giá trị SST
Trang 6Báo cáo Xác Suất Thống Kê
Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9)
Dùng con trỏ kéo kí hiệu tự điền từ ô M7 đến ô M9
Kết quả và biện luận:
Trang 7Báo cáo Xác Suất Thống Kê
Thời gian (phút) Nhiệt độ (°C) Hiệu suất (%)
Dạng bài: BÀI TOÁN HỒI QUY TUYẾN TÍNH ĐA THAM SỐ.
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến số độc lập Xi (i=1,2, ,k) thay vì chỉ có một như trong hồi quytuyến tính đơn giản
Phương trình tổng quát
Trang 8Báo cáo Xác Suất Thống Kê
Bảng ANOVA:
Nguồn sai số Bậc tự do Tổng số bình
phương
Bình phươngtrung bình
H0: βi = 0 ↔ “Các hệ số hồi quy không có ý nghĩa”
H1: βi ≠ 0 ↔ “Có ít nhất vài hệ số hồi quy có ý nghĩa”
H0: βi = 0 ↔ Phương trình hồi quy không thích hợp
H1: βi ≠ 0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi
F < Fα(1,N-k-1) → Chấp nhận H0.
Bậc tự do của giá trị F: v1 =1; v2 = N – k – 1
Trang 9Báo cáo Xác Suất Thống Kê
Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải được nhập theo cột
Sử dụng lệnh “ Regression” :
Data → Data Analysis → chọn Regression → OK, xuất hiện hộp thoại
Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
Phạm vi của biến số Y (input Y range)
Phạm vi của biến số X (input X range)
Nhãn dữ liệu (Labels)
Mức tin cậy (Confidence level)
Tọa độ đầu ra (Output range)
Đường hồi quy (Line Fit Plots),…
Trang 10Báo cáo Xác Suất Thống Kê
Phương trình hồi quy: Ŷx 1 = f(X 1 )
Ŷx1 = 2.73 + 0.04X1 (R2 = 0.21, S = 1.81)
Các giá trị đầu ra cho ở bảng sau:
Trang 11Báo cáo Xác Suất Thống Kê
t0 = 2.13 < t0.05 = 2.365 (hay Pv2 = 0.071 > α = 0.05) → Chấp nhận giảthiết H0
t1 = 1.38 < t0.05 = 2.365 (hay Pv = 0.209 > α = 0.05) → Chấp nhận giảthiết H0
F = 1.905 < F0.05 = 5.590 (hay F4
s = 0.209 > α = 0.05) → Chấp nhận giảthiết H0
Vậy cả hai hệ số 2.73 (B0) và 0.04 (B1) của phương trình hồi quy Ŷx1 = 2.73 +0.04X1 đều không có ý nghĩa thống kê Nói cách khác phương trình hồi quy nàykhông thích hợp
Kết luận: Yếu tố thời gian không có liêm quan tuyến tính với hiệu suất của phản
ứng tổng hợp.
Phương trình hồi quy: Ŷx2 = f(X 2 )
Ŷx 2 = -11.141 + 0.129X 2 (R 2 = 0.76, S = 0.99)
Trang 12Báo cáo Xác Suất Thống Kê
t0 = 3.418 > t0.05 = 2.365 (hay Pv2 = 0.011 > α = 0.05) → Bác bỏ giảthiết H0
t1 = 4.757 > t0.05 = 2.365(hay Pv = 0.00206 < α = 0.05) → Bác bỏ giả thiết
H0
F = 22.631 > F = 5.590(hay Fs = 0.00206 < α = 0.05) → Bác bỏ giảthiết H0
Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2 = 11.141 + 0.129X2 đều có ý nghĩa thống kê Nói cách khác phương trình hồi quynày thích hợp
-Kết luận: yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng
tổng hợp.
Phương trình hồi quy: Ŷx1 ,x 2 = f(X 1 ,X 2 )
Ŷx 1 ,x 2 = -12.70 + 0.04X 1 + 0.13X 2 (R 2 = 0.97; S = 0.33)
Trang 13Báo cáo Xác Suất Thống Kê
t0 = 11.528 > t0.05 = 2.365 (hay Pv2 = 2.260.10-5 < α = 0.05) → Bác bỏ giảthiết H0
t1 = 7.583 > t0.05 = 2.365 (hay Pv = 0.00027 < α = 0.05) → Bác bỏgiả thiết H0
t2=14.328>t0.05=2.365(Hay Pv=7.233.10-6<α=0.05) →Bác bỏ giả thiết H0
F = 131.392 > 5.14 (hay Fs = 1.112*10-5 < α = 0.05) → Bác bỏ giảthiết H0
Vậy cả hai hệ số -12.70 (B0), 0.04 (B1) và 0.13 (B2) của phương trình hồi quy
Ŷx1,x2 = -12.7 +0.04X1+0.13X2 đều có ý nghĩa thống kê Nói cách khác, phươngtrình hồi quy này thích hợp
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai
yếu tố là thời gian và nhiệt độ
Sự tuyến tính của phương trình Ŷx1,x2 = -12.70 + 0.04X1 + 0.13X2 Có thể được
trình bày trong biểu đồ phân tán (scatter plots):
Trang 14Báo cáo Xác Suất Thống Kê
Muốn dự đoán hiệu suất của phản ứng bằng phương trình hồi quy YX1,.X2 = 12,7 +0,04X1 +0,13X2 chỉ cần chọn một ô, ví dụ như B21, sau đó nhập hàm vàđược kết quả như sau:
Trang 15-Báo cáo Xác Suất Thống Kê
-Chọn ô B21 và nhập: = B17+B18*50+B19*115
Ghi chú: B17 là tọa độ của B0, B18 là tọa độ của B1, B19 là tọa độ của B2, 50
là giá trị của X1(thời gian) và 115 là giá trị cùa X2(nhiệt độ)
Vậy hiệu suất phản ứng theo dự đoán ở 115°C trong vòng 50 phút là 4.3109%.
Trang 16 Loại bài: Tương Quan Và Hồi Qui
KIỀM ĐỊNH GIẢ THUYẾT VỀ ρ
Cơ sở lý thuyết:
Giả sử X và Y là hai ĐLNN Chúng ta đã biết rằng X và Y gọi là độc lập nếuviệc ĐLNN này nhận một giá trị nào đó cũng không ảnh hưởng gì đến phân bốxác suất của ĐLNN kia.Tuy nhiên trong nhiều tình huống thực tế, X và Y không
Trang 17Báo cáo Xác Suất Thống Kê
độc lập với nhau Điều này thường gặp khi X và Y là hai phép đo nào đó tiếnhành trên cùng một cá thể
Vậy để đo mức độ phụ thuộc giữa hai ĐLNN X và Y, người ta đưa ra khái niệm
ρ = 0 : X , Y không tương quan tuyến tính
ρ=+1: X , Y tương quan tuyến tính dương tuyệt đối
ρ=−1: X , Y tương quan tuyến tính âm tuyệt đối
(X,Y) có phân bố chuẩn thì ρ = 0 khi và chỉ khi X và Y độc lập
Trang 18Báo cáo Xác Suất Thống Kê
hợp chính bao gồm tất cả các giá trị của cặp (X,Y) Vì thế chúng ta có bài
toán ước lượng và kiểm định hệ số tương quan ρ căn cứ trên một mẫu
quan sát (x1,y1), (x2,y2),…,(xn,yn) các giá trị của (X,Y)
o Và ước lượng cho ρ được thay thế bằng đại lượng r (r được gọi là hệ số tương quan):
o |r| =0,4−0,8 tương quant rung bình.
o |r|≤ 0,4 tương quan yếu
o |r| càng lớn thì tương quan giữa X và Y càng chặt
o 0<r ≤ 1:tương quan tuyến tính thuận ( X ↑ ,Y ↑¿
o −1<r ≤ 0: tương quan tuyến tính nghịch (X ↑ ,Y ↓)
r là ước lượng của ρ
r nằm ngoài đoạn [-1,1] nghĩa là ta đã tính toán sai
Chúng ta có bài toán kiểm định :
Trang 19Báo cáo Xác Suất Thống Kê
H o : ρ = 0 : X, Y không tương quan ( X, Y độc lập)
H 1 : ρ ≠ 0 : X , Y tương quan ( X,Y phụ thuộc tuyến tính)
có phân bố Student với n-2 bậc tự do
Nếu |T| < c : chấp nhận giả thiết H0
Trong đó c là phân vị mức α2 của phân bố Student với bậc n-2 bậc tự do
X , Y phụ thuộc tuyến tính
Trang 20Báo cáo Xác Suất Thống Kê
H 0: X,Y không tương quan với nhau (p = 0)
H 1: X,Y tương quan với nhau
Sư dụng lệnh Data Analysis
Chọn chương trình Correlation
o MS EXCEL suất hiện cho ta bảng sau:
Trang 21Báo cáo Xác Suất Thống Kê
Vâỵ hệ số tương quan r=0.971131
Trang 22Báo cáo Xác Suất Thống Kê
T= 0.971131√26
√1−(0.971131) 2=20.75829Với bậc tư do là 26, ∝=5%, ta tìm được hằng số c = 2.056 bằng cách tra bảng
Âm thanh Ánh sáng Xung
Nam
10,0 7,2 6,8 6,0 5,0
6,0 3,7 5,1 4,0 3,2
9,1 5,8 6,0 4,0 5,1
Nữ
10,5 8,8 9,2 8,1 13,4
6,6 4,9 2,5 4,2 1,8
7,3 6,1 5,2 2,5 3,9
Với mức = 5% Có sự tương tác giữa giới tính và tín hiệu hay không?
Dạng bài: Phân tích phương sai hai yếu tố cĩ lặp
Trang 23Báo cáo Xác Suất Thống Kê
Giả Thuyết:
H0: Giới tính không ảnh hưởng đến thời gian phản.
Tín hiệu không ảnh hường đến thời gian phản ứng.
Không có tương quan giữa giới tính và tín hiệu.
Tín hiệu ảnh hường đến thời gian phản ứng.
Có tương quan giữa giới tính và tín hiệu.
Cơ sở lý thuyết:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát
Trong đó có sự lập lại k lần thí nghiệm, mỗi hàng sẽ biểu thị một bản sao
của dữ liệu và trong đầu ra sẽ thêm một đại lượng tương tác (Interaction term )
F1giữa hai yếu tố A và B
Trang 24Báo cáo Xác Suất Thống Kê
Trang 25Báo cáo Xác Suất Thống Kê
o H0 : μ1 = μ2 = … μk ↔ “các giá trị trung bình bằng nhau”
o H1 : μi ≠ μj ↔ “Ít nhất có hai giá trị trung bình khác nhau”i ≠ μi ≠ μj ↔ “Ít nhất có hai giá trị trung bình khác nhau”j ↔ “Ít nhất có hai giá trị trung bình khác nhau”
Trang 26Báo cáo Xác Suất Thống Kê
Áp dụng: “Anova: Two Factor With Replication”
o Nhấp vào lệnh Data Analysis trong mục Data
o Chọn chương trình Anova: Two-Factor With Replication trong hộp thoại
Data Analysis rồi nhấp nút OK
Trang 27Báo cáo Xác Suất Thống Kê
o Trong hộp thoại Anova: Two-Factor With Replication, lần lượt ấn định
các chi tiết:
o Phạm vi đầu vào (Input Range)
o Nhãn dữ liệu (Labels)
o Ngưỡng tin cậy (Alpha)
o Lựa chọn đầu ra (Output Options)
Trang 28Báo cáo Xác Suất Thống Kê
Ta có bảng ANOVA
Trang 29Báo cáo Xác Suất Thống Kê
Kết quả và biện luận:
Tín hiệu thì ảnh hưởng đến thời gian khảo sát.
Và có sự tương tác giữa hai yếu tố giới tính và tín hiệu.
Trang 30Báo cáo Xác Suất Thống Kê
Bài 4:
Để nghiên cứu xem quy mô của một công ty có ảnh hưởng đén hiệu quả quảngcáo đối với khách hàng hay không người ta đã điều tra ý kiến của 356 kháchhàng và thu được kết quả:
Nhỏ
Vừa
Lớn
205367
524732
322825
Với mức ý nghĩa α = 0,1, có thể cho rằng quy mô của công ty có ảnh hưởng đến hiệu quả của quảng cáo đối với khách hàng hay không?
Dạng bài : Bài toán Kiểm định về tính độc lập
Trang 31Báo cáo Xác Suất Thống Kê
Nếu X> χ2 Bác bỏ giả thiết H0 (DF= k – 1)
Giá trị X² theo biểu thức:
O ij – các tần số thực nghiệm của ô thuộc hàng i và cột j;
E ij – các tần số lý thuyết của ô thuộc hàng i với cột j; r - số hàng; c - số cột.
o Trong MS-EXCEL có hàm CHITEST có thể tính được:
Xác suất P(X >χ2) với bậc tự do DF = (r – 1)(c – 1); trong đó, r là số hàng và c
là số cột trong bảng ngẫu nhiên
Nếu P(X > χ2) > α => Chấp nhận giả thiết H 0 và ngược lại .
III - Áp dụng MS-Excel:
Giả thuyết kiểm định:
H 0 : Quy mô công ty không ảnh hưởng đến hiệu quả của quảng cáo đối với
Trang 32Báo cáo Xác Suất Thống Kê
Trên bảng số liệu, ta dùng chuột quét một vùng B3:E6, sau đó trên thanh Menu
> chọn tab Formulas > Click vào AutoSum
Công thức: ij=tổnghàng × tổngcột
n
Trang 33Báo cáo Xác Suất Thống Kê
o Sau đó ta kéo vùng B10:E13
o Bấm F2 rồi bấm ctrl + Enter
Ta sẽ được kết quả như sau:
Trang 34Báo cáo Xác Suất Thống Kê
Tại ô B14, ta nhập biểu thức hàm CHITEST như sau:
Chọn Formulas / fx ….click chọn all / chọn hàm Chitest rồi Ok
o Actual_range : chọn B3:D5 (vùng chứa dữ liệu ban đầu của bảng số
liệu)
o Expexted_range : chọn B10:D12 (vùng chứa dữ liệu tần số lý thuyết)
Trang 35Báo cáo Xác Suất Thống Kê
Sau đó Enter ta sẽ có được kết quả giá trị P(X > χ2):
Trang 36Báo cáo Xác Suất Thống Kê
Bài 5:
Với mức ý nghĩa 1 % , theo dõi số học sinh đến lớp muộn của 4
trường THPT vào các ngày khác nhau trong tuần người ta thu được số liệu về số lượng học sinh trung bình đến lớp muộn của các trường đó vào một ngày tiêu biểu trong tuần như sau:
Bạn có nhận xét gì về số học sinh đến lớp muộn của các trường Có sự khác biệt
gì về số lượng học sinh đến lớp muộn vào các ngày khác nhau trong tuần ?
5 4 4 4
4 5 3 4
5 3 4 3
7 2 5 2
Trang 37Báo cáo Xác Suất Thống Kê
cộng
Trung bình
Tổng số bình phương
Bình phương trung bình
Giá trị thống kê
Trang 38Báo cáo Xác Suất Thống Kê
Trang 39Báo cáo Xác Suất Thống Kê
Trong hộp thoại Anova: Two-Factor Without Replication lần lượt ấn định:
o Phạm vi đầu vào: Input Range, quét chọn vùng giá trị
o Mức ý nghĩa α: Alpha (ấn định α=0,01).
o Phạm vi đầu ra: Output Range, chọn ô tùy ý
Nhấn OK, ta sẽ có bảng kết quả sau:
Trang 40Báo cáo Xác Suất Thống Kê
o FC = 0.107143 < F 0.01 ( 3, 9) = 6.991917 => chấp nhận giả thiết H 0 (trường)
Vậy số học sinh đến lớp muộn vào các ngày trong tuần và của các trường giống nhau