Trắc nghiệm thống kêĐối với một phương trình hồi quy ý nghĩa thống kê của các hệ số B i được đánh giá bằng trắc nghiệm t phân phối student trong khi tính chất thích hợp của phương trình
Trang 1Bài báo cáo Bài tập lớn
Xác suất thống kê
Trang 2MỤC LỤC
BÀI BÁO CÁO XSTK 1
BÀI 1: 1
Phần A:(ví du 3.4 trang 161sgk) 1
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu xuất phản ứng? 1
Bài làm: 1
I.Dạng toán: phân tích phương sai ba yếu tố 1
II.CƠ SỞ LÝ THUYẾT 1
T 1 = Y 111 + Y 421 + Y 334 + Y 241 2
III.Áp dụng MS-EXCEL: 3
Thiết lập các biểu thức và tính các giá trị thống kê 3
Dùng con trỏ kéo ký tự điền từ ô B8 đến ô E8 3
Dung con trỏ kéo ký hiệu tự điền từ G7 đến ô G9 4
Dung con trỏ kéo ký tự điền từ ô I7 đến ô I9 4
Dung con trỏ kéo ký tự điền từ ô K7 đến ô K9 4
Chọn ô M7 và nhập biểu thức=K7/0.3958 4
IV.KẾT QUẢ VÀ BIỆN LUẬN: 5
Phần B:(ví du 4.2 trang 171) 5
Giải: 6
I.Dạng toán: hồi quy tuyến tính đa tham số 6
II.Cơ sở lý thuyết: 6
HỒI QUY TUYẾN TÍNH ĐA THAM SỐ 6
Bảng ANOVA 6
Trắc nghiệm thống kê 6
H 2 :phương trình hồi quy không thích hợp 7
III.Áp dụng MS-EXCEL: 7
H 0 : Β i = 0 ó Các hệ số hồi quy không có ý nghĩa 7
Trang 3H 0 : Β i = 0 ĩ Phương trình hồi quy khơng thích hợp 7
Bước 1:nhập dử liệu vào bản tính 7
Bước 2:áp dụng Regression 7
Nhấn lần lượt đơn lệnh tools và lệnh data Analysis 7
Phương trình hồi quy: X1 =f(X 1 ) 10
Phương trình hồi quy: X2 =f(X 2 ) 10
BIỂU ĐỒ: 12
BÀI 2: 13
Giải: 13
I.Dạng tốn: phân tích phương sai một yếu tố : 13
II.Cơ sở lí thuyết: 13
Ta đưa ra một số kí hiệu sau 14
SST = SSF + SSE 15
Tỷ số F được tính bởi công thức 15
Bảng ANOVA 15
TÍNH CỤ THỂ: 16
SSF = (161 2 +122 2 +120 2 +152 2 )/5 – 555 2 /20=260,55 16
SST = (25 2 +29 2 +30 2 +42 2 +35 2 +… 24 2 )- 555 2 /20=855,75 16
SSE= 855,75-260,55=595,20 16
MSF = 260.55/3=86.85 16
MSE = 595.20/16=37.2 16
F = 86.85/37.20 = 2.33 17
Tra bảng ta cĩ F(3,16)=3.24 17
III.Thuật tốn: 17
IV.Quy trình giải thuật : 17
Khởi động Ms- EXCEL 17
Áp dụng “anova:single-factor” 17
Trang 4V.Kết luận 19
F=2.33 < Fcrit= 3.23 Chấp nhận Ho 19
BÀI 3: 19
Giải: 20
I.Dạng: Bài toán phân tích phương sai một nhân tố 20
II.Cơ sở lí thuyết: 20
Từ công thức trên ta thấy 21
SST = SSF + SSE 21
Tỷ số F được tính bởi công thức 21
Bảng ANOVA 22
Người ta chứng minh được rằng nếu giả thiết H o đúng thì tỷ số F 22
Tính tốn cụ thể 22
III.Thuật tốn: 23
IV.quy trình giải thuật: 23
Khởi động Ms- EXCEL 23
Nhập dử liệu vào bảng tính 23
Áp dụng “anova single factor” 23
Trong hộp thoại Anova: single factor lần lượt ấn định 24
V.Kết luận: 25
F=7.58641> F α =6.926608=> bác bỏ H 0 25
Loại C>Loại B>loại A 25
BÀI 4: 25
GIẢI: 25
II.Cơ sở lí thuyết: 26
Từ công thức trên ta thấy 27
SST = SSF + SSE 27
Tỷ số F được tính bởi công thức 28
Trang 5Bảng ANOVA 28
Người ta chứng minh được rằng nếu giả thiết H o đúng thì tỷ số F 28
III.Thuật tốn: 28
IV.quy trình giải thuật: 28
Khởi động Ms- EXCEL 28
Trong hộp thoại Anova: single factor lần lượt ấn định 29
V.Kết luận: 30
Bài 5: 30
Bài làm: 31
I.Dạng bài tập: phân tích phương sai 2 yếu tố 31
II.Cơ sở lý thuyết: 31
A KHÁI NIỆM THỐNG KÊ: 31
Mơ hình: 31
Bảng ANOVA: 32
III.Thuật tốn: 33
IV.quy trình giải thuật: 33
Khởi động Ms- EXCEL 33
Nhập dữ liệu vào bảng tính : 33
Nhấn ok ta cĩ bảng ANOVA: 34
V.Kết quả và biện luận: 35
Trang 6BÀI BÁO CÁO XSTK
NHÓM 4 BÀI 1:
Trang 7Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu tố trên các giá trị quan sát G(i=1,2…r:yếu tố A;j=1,2…r:yếu tố B;k=1,2…r:yếu tố C)
Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Bình phương trung
bình
Giá trị thốngkê
Trang 8Ta có giả thuyết sau :
H0 :Các giá trị trung bình bằng nhau
H1 :Có ít nhất hai giá trị trung bình bằng nhau
Nếu giá trị thống kê bé hơn Fα
Trang 10Dùng con trỏ kéo ký tự điền từ ô M7 đến M9.
IV.KẾT QUẢ VÀ BIỆN LUẬN:
Hiệu xuất (%) Y
Trang 11Giá trị thốngkê
Trang 12Trắc nghiệm thống kê
Đối với một phương trình hồi quy ý nghĩa thống kê của các hệ số B i được đánh giá bằng trắc nghiệm t (phân phối student) trong khi tính chất thích hợp của phương trình được đánh giá bằng trắc nghiệm F (phân phối Fisher)
-Trong trắc nghiệm t
H0:Các hệ số hồi quy không có ý nghĩa
H1:Có ít nhất vài hệ số hồi quy có ý nghĩa
Bậc tự do của giá trị t: =N-k-1
t=
-trong trắc nghiệm F:
H2:phương trình hồi quy không thích hợp
H3:phương trình hồi quy thích hợp với ít nhất vài βi
Bậc tự do của giá trị F:v1=1;vv=N-k-1
III.Áp dụng MS-EXCEL:
-Trong trắc nghiệm t:
H0 : Βi = 0 ó Các hệ số hồi quy không có ý nghĩa
H1 : Βi ≠ 0 ó Các hệ số hồi quy có ý nghĩa
-Trong trắc nghiệm F:
H0 : Βi = 0 ó Phương trình hồi quy không thích hợp
H1 : Βi ≠ 0 ó Phương trình hồi quy thích hợp với ít nhất vài Bi
Bước 1:nhập dử liệu vào bản tính
Dử liệu nhất thiết phải được nhập theo cột
Trang 13Bước 2:áp dụng Regression
Nhấn lần lượt đơn lệnh tools và lệnh data Analysis
Chọn chương trình Regression trong hộp thoại data Analysis rồi nhấp OK
Trong hộp thoại Regression ,làn lượt ấn các chi tiết:
Phạm vi của biến số Y (input Y range)
Phạm vi của biến số X (input X range)
Nhãn dử liệu(Labels)
Trang 14Mức tin cậy(Confidence level)Tọa độ đầu ra(Output range)Đường hồi quy(line Fit Plots),…
Các giá trị đầu ra cho bảng sau:
Trang 15Phương trình hồi quy: X1 =f(X 1 )
Vậy cả hai hệ số 2.73(B0) và 0.04(B1) của phương trình hồi quy
X1=2.73+0.04X1 đều không có ý nghĩa thống kê.nói cách khác phương trình hồi quy này không thich hợp
Phương trình hồi quy: X2 =f(X 2 )
Y X2 =2.73+0.04X 2 (R 2 =0.76,S=0.99)
Trang 16Vậy cả hai hệ số -11.14(B0) và 0.13(B1) của phương trình hồi quy
X2=2.73+0.04X2 đều có ý nghĩa thống kê.Nói cách khác phương trình hồi quy này thích hợp
IV.Kết luận: yếu tố nhiệt độ có liên quan tuyến tính với hiệu xuất của phản ứng
tổng hợp.
Phương trình hồi quy: X1,X2=f(X1,X2)
X1,X2=-12.70+0.04X1+0.13X2 (R2=0.97; S=0.33)
Trang 17Vậy cả hai hệ số -12.70(B0),0.04(B1)và 0.13(B1)của phương trình hồi quy
=-12.80+0.04X1+0.13X2 đều có ý nghĩa thống kê Nói cách khác,phương trinh hồi quy này thích hợp
Kết luận: hiệu xuất của phản ứng tổng hợp có liên quan tuyến tính với cả hai
yếu tố là thời gian và nhiệt độ.
Sự tuyến tính của phương trình X1,X2=-12.70+0.04X1+0.13X2 có thể được
trình bày trong biểu đồ phân tán(scatterplots):
BIỂU ĐỒ:
Trang 18Kết luận: hiệu xuất của phản ứng tổng hợp có liên quan tuyến tính với cả hai
yếu tố là thời gian và nhiệt độ.
Nếu muốn dự đoán hiệu xuất bằng phương trình hồi quy
Y=-12.70+0.04X1+0.13X2,chỉ cần chọn một ô,ví dụ như
E20,sau đó nhập hàm=E17+E18*50+E19*115 và được kết quả như sau:
Ghi chú: E17 tọa độ của B0 ,E18 tọa độ của B1,E19 tọa độ của B2,50 là giá trị của
X1(thời gian) và 115 là giá trị của X2 (nhiệt độ)
BÀI 2:
Có 4 báo cáo viên A,B,C,D nói về cùng một chủ đề.sau đây là thời gian(tính bằng phút)mà mỗi báo báo cáo viên đó sử dụng trong 5 buổi báo ở các địa điểm khác nhau:
A: 25 29 30 42 35B: 35 20 20 17 30C: 30 27 18 19 26D: 28 32 33 35 24
Trang 19Hãy thiết lập bảng ANOVA cho các số liệu trên.Gỉa thiết H0là gì?giả thiết H0
cĩ bị bác bỏ mứ ý nghĩa 5% hay khơng
Giải:
I.Dạng tốn: phân tích phương sai một yếu tố :
II.Cơ sở lí thuyết:
Giảng thời sử {x , x , x } 11 21 n 1 1 là một mẫu có kích thước n1 rút ra từ tập hợpchính các giá trị của X1; {x , x , x } 12 22 n 2 2 là một mẫu kích thước rút ra từ tậphợp chính các giá trị của X2, , {x , x , x } 1k 2k n k k là một mẫu kích thước nk rút
ra từ tập hợp chính các giá trị của Xk Các số liệu thu được trình bày thànhbảng ở dạng sau đây:
j 1 i i
i i
x T
ij i 1 j 1
x x
T x
k i
T T
Trung
T x n
Trang 20i j
T
n T
x n
Tổng bình phương do nhân tố ký hiệu là SSF (viết tắt của chữSum of Squares for Factor) được tính theo công thức sau:
Tổng bình phương do sai số ký hiệu là SSE (viết tắt của chữ Sum
of Squares for the Error) được tính theo công thức:
k 1
k – 1 được gọi là bậc tự do của nhân tố
Trung bình bình phương của sai số, ký hiệu là MSE (viết tắt củachữ Mean Square for Error) được tính bởi công thức:
SSE MSE
n k
n – k được gọi là bậc tự do của sai số
Tỷ số F được tính bởi công thức
Trang 21MSF F
Bậc tự do
Trung bình bình phương
MSE
sẽ có phân bố Fisher với bậc tự do là (k – 1, n – k)
Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fishervới bậc tự do là (k – 1, n – k), k – 1 được gọi là bậc tự do ở mẫu số
Giả thiết H 0 : H0:µ1= µ2= µ3= µ4 ĩ”thời gian nĩi trung bình của 4 người là bằng thời gian nĩi trung bình của 4 người là bằng nhau”thời gian nĩi trung bình của 4 người là bằng
Trang 22từ bảng ANOVA thu được FR,FC
nếu FR<Fα=> chấp nhận H0 ( báo cáo viên)
IV.Quy trình giải thuật :
Khởi động Ms- EXCEL
Nhập dử liệu vào bảng:
Trang 23Áp dụng “anova:single-factor”
Nhấn lần lượt lệnh tools và lệnh data analysis
Từ hộp thoại data analysis ta chọn” single-factor” rồi nhấp nút OK
Trong hộp thoại anova:single factor, lần lượt ấn định các chi tiết:
Phạm vi đầu vào(input range)
Nhãn dử liệu (labels in fisrt row/column)
Ngưởng tin cậy (alpha)
Phạm vi đầu ra(output range)
Trang 24Sau khi nhấn OK ta thu được kết quả được thể hiện qua bảng anova sau:
V.Kết luận
F=2.33 < Fcrit= 3.23 Chấp nhận Ho
Thời gian trung bình mà các báo cáo viên cần cho các bài báo cáo của mình làbằng nhau
Trang 253338314229
Với mức ý nghĩa α=1% hãy so sánh lượng tiêu thụ trung bình của ba loại giầy nĩi trên
Giải:
I.Dạng: Bài toán phân tích phương sai một nhân tố
II.Cơ sở lí thuyết:
Giả sử {x , x , x } 11 21 n 1 1 là một mẫu có kích thước n1 rút ra từ tập hợpchính các giá trị của X1; {x , x , x } 12 22 n 2 2 là một mẫu kích thước rút ra từ tậphợp chính các giá trị của X2, , {x , x , x } 1k 2k n k k là một mẫu kích thước nk rút
ra từ tập hợp chính các giá trị của Xk Các số liệu thu được trình bày thànhbảng ở dạng sau đây:
Các mức nhân tố
1 1
k i
T T
Loại giầy
Trang 26T x n
Ta đưa ra một số kí hiệu sau
Trung bình của mẫu thứ i (tức là mẫu ở cột thứ i trong bảngtrên):
i
n ji
j 1 i i
i i
x T
ij i 1 j 1
x x
T x
i j
T
n T
x n
Tổng bình phương do nhân tố ký hiệu là SSF (viết tắt của chữSum of Squares for Factor) được tính theo công thức sau:
Tổng bình phương do sai số ký hiệu là SSE (viết tắt của chữ Sum
of Squares for the Error) được tính theo công thức:
Trang 27k 1
k – 1 được gọi là bậc tự do của nhân tố
Trung bình bình phương của sai số, ký hiệu là MSE (viết tắt củachữ Mean Square for Error) được tính bởi công thức:
SSE MSE
n k
n – k được gọi là bậc tự do của sai số
Tỷ số F được tính bởi công thức
MSF F
Bậc tự do
Trung bình bình phương
MSE
Trang 28sẽ có phân bố Fisher với bậc tự do là (k – 1, n – k)
Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fishervới bậc tự do là (k – 1, n – k), k – 1 được gọi là bậc tự do ở mẫu số
MSF
F
MSE
Ta trình bày các kết quả tính toán trên trong bảng ANOVA
Nguồn Tổng bình phương Bậc tự do bình phương Trung bình Tỷ số F
nếu F<Fα=>chấp nhận giả thiết H0
ngược lại thì bác bỏ giả thiết H0
IV.quy trình giải thuật:
Khởi động Ms- EXCEL
Trang 29Nhập dử liệu vào bảng tính
Áp dụng “anova single factor”
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis.
Chọn trương trình Anova:single factor trong hộp thoại Data Analysis rồi nhấn nút
OK
Trong hộp thoại Anova: single factor lần lượt ấn định
Phạm vi đầu vào(input range)
Cách xắp xếp theo hang hay cột(group by)
Nhấn dử liệu(labels in fisrt row/column)
Phạm vi đầu ra(output range)
Trang 30Sau khi nhấn OK xuất hiện bảng Anova:
Trang 31V.Kết luận:
Từ giá trị trong bảng Anova:
F=7.58641> F α=6.926608=> bác bỏ H0
=>lượng tiêu thụ của 3 loại giầy trên là khác nhau
Lượng tiêu thụ trung bình của loại giầy A là 22
Lượng tiêu thụ trung bình của loại giầy B là 32.2
Lượng thụ trung bình của loại giầy C là 34.6
=>lượng tiêu thụ trung bình:
Loại C>Loại B>loại A
BÀI 4:
Lượp với 3 khoảng thời ng s a v t đ c b i 16 con bị cái khi cho nghe các lo i nh c khác nhau(nh c ử ượp với 3 khoảng thời ởi 16 con bị cái khi cho nghe các loại nhạc khác nhau(nhạc ại nhạc khác nhau(nhạc ại nhạc khác nhau(nhạc ại nhạc khác nhau(nhạc
nh ,nh c r c,nh c c đi n,khơng cĩ nh c)đ c th ng kê trong b ng sau đây: ại nhạc khác nhau(nhạc ốc,nhạc cổ điển,khơng cĩ nhạc)được thống kê trong bảng sau đây: ại nhạc khác nhau(nhạc ổng hợp.các hiệu xuất của phản ứng(%) ại nhạc khác nhau(nhạc ượp với 3 khoảng thời ốc,nhạc cổ điển,khơng cĩ nhạc)được thống kê trong bảng sau đây: ảng thời
II.Cơ sở lí thuyết:
Giả sử {x , x , x } 11 21 n 1 1 là một mẫu có kích thước n1 rút ra từ tập hợpchính các giá trị của X1; {x , x , x } 12 22 n 2 2 là một mẫu kích thước rút ra từ tậphợp chính các giá trị của X2, , {x , x , x } 1k 2k n k k là một mẫu kích thước nk rút
ra từ tập hợp chính các giá trị của Xk Các số liệu thu được trình bày thànhbảng ở dạng sau đây:
Các mức nhân tố
1 1
k i
n n
Trang 32x21 x22 x2k
1 1 n
T T
Trung
T x n
Ta đưa ra một số kí hiệu sau
Trung bình của mẫu thứ i (tức là mẫu ở cột thứ i trong bảngtrên):
i
n ji
j 1 i i
i i
x T
ij i 1 j 1
x x
T x
i j
T
n T
x n
Tổng bình phương do nhân tố ký hiệu là SSF (viết tắt của chữSum of Squares for Factor) được tính theo công thức sau:
Trang 33 Tổng bình phương do sai số ký hiệu là SSE (viết tắt của chữ Sum
of Squares for the Error) được tính theo công thức:
k 1
k – 1 được gọi là bậc tự do của nhân tố
Trung bình bình phương của sai số, ký hiệu là MSE (viết tắt củachữ Mean Square for Error) được tính bởi công thức:
SSE MSE
n k
n – k được gọi là bậc tự do của sai số
Tỷ số F được tính bởi công thức
MSF F
Bậc tự do
Trung bình bình phương
Trang 34Tổng số SST n – 1
Người ta chứng minh được rằng nếu giả thiết Ho đúng thì tỷ số F
MSF F
MSE
sẽ có phân bố Fisher với bậc tự do là (k – 1, n – k)
Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fishervới bậc tự do là (k – 1, n – k), k – 1 được gọi là bậc tự do ở mẫu số
=>thu được bảng Anova ta thu được F
nếu F<Fα=>chấp nhận giả thiết H0
ngược lại thì bác bỏ giả thiết H0
IV.quy trình giải thuật:
Khởi động Ms- EXCEL
Nhập dử liệu vào bảng:
Áp dụng “anova single factor”:
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis.
Chọn trương trình Anova:single factor trong hộp thoại Data Analysis rồi nhấn nút
OK
Trang 35Trong hộp thoại Anova: single factor lần lượt ấn địnhPhạm vi đầu vào(input range)
Cách xắp xếp theo hang hay cột(group by)
Nhấn dử liệu(labels in fisrt row/column)
Phạm vi đầu ra(output range)
Sau khi nhấn OK xuất hiện bảng Anova:
Trang 36V.Kết luận:
Từ giá trị trong bảng Anova:
F=1.35468<Fα=3.490295=> chấp nhận H0(loại nhạc)
=>lượng sữa trung bình của mỗi nhóm trên là giống nhau
=>vậy âm nhạc không ảnh hưởng đến lượng sửa của các con bò
Bài 5:
Hãy phân tích sự biến động của thu nhập ($/tháng/người) trên cơ sở số liệu điều tra vềt thu nhập trung bình của 4 loại ngành nghề ở 4 khu vực khác nhau sau đây:
I.Dạng bài tập: phân tích phương sai 2 yếu tố
Giả thiết Ho: “lượng thu nhập trung bình là như nhau theo ngành và nơi làm việc”thời gian nói trung bình của 4 người là bằng
Ta áp dụng phương pháp phân tích phương sai 2 yếu tố ( không lặp ):
Trang 37II.Cơ sở lý thuyết:
A KHÁI NIỆM THỐNG KÊ:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij (I = 1 2… r: yếu tố A; j = 1 2… c: yếu tố B)
trung bình
Giá trị thống kê
Trang 38Yếu tố B
(cột)
Sai số
(c-1)(r-1)(c-1)
H 0 : µ 1 = µ 2 = … = µ k ó “ Các giá trị trung bình bằng nhau”thời gian nói trung bình của 4 người là bằng
H 1 : µ i ≠ µ j ó “Ít nhất có hai giá trị trung bình khác nhau”thời gian nói trung bình của 4 người là bằng
Giá trị thống kê : FR =
MSB MSE và FC = MSF MSE
Biện luận :
Nếu: FR < Fα [b-1,(k-1)(b-1)} => chấp nhận Hb-1,(k-1)(b-1)} => chấp nhận Ho (yếu tố A)Nếu: Fc < Fα [b-1,(k-1)(b-1)} => chấp nhận Hk-1,(k-1)(b-1)} => chấp nhận Ho (yếu tố B)
=>thu được bảng Anova ta thu được F
nếu F<Fα=>chấp nhận giả thiết H0
ngược lại thì bác bỏ giả thiết H0
IV.quy trình giải thuật:
Khởi động Ms- EXCEL
Nhập dử liệu vào bảng: