bài tập lớn môn xác suất thống kê

PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐSự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G i = 1, 2..... Phương pháp: HỒI QUY TUYẾN TÍNH ĐA THAM SỐ T

Trang 1

PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐ

Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan

sát G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố Bảo: k = 1, 2 r: yếu tố C).

Trang 2

2

2 MSR=( r SSR1) FR=

MSE MSR

T

2

2 MSC=( SSC r 1) FC=

MSE MSC

T

2

2 MSF=( r SSF1) F=

MSE MSF

Sai số (r-1)(r-2) SSE=SST –

(SSF+SSR+SSC)

MSE=

) 2 )(

1 (r r

H0: μ1 = μ2 = = μk ↔ Các giá trị trung bình bằng nhau

H1: μi  μj ↔ Có ít nhất hai giá trị trung bình khác nhau

 Giá trị thống kê: FR, FC, F

 Biện luận

Nếu FR < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố A

Nếu FC < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố B

Nếu F < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố C

Bài làm:

 Nhập dữ liệu vào bảng tính

Trang 3

 Thiết lập các biểu thức và tính các giá trị thống kê

Trang 4

Dùng con trỏ kéo ký hiệu tự điền từ ô M7 đến M9.

 Kết quả và biện luận

Trang 5

Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan tuyến tính với

hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115°C trong vòng 50 phút thì

hiệu suất phản ứng sẽ là bao nhiêu?

Phương pháp:

HỒI QUY TUYẾN TÍNH ĐA THAM SỐ

Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k

biến số độc lập Xi (i=1,2, ,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản



k N SSE

Giá trị thống kê

Giá trị R-bình phương:

kF k

N

kF SST



k N

SSE

S (S  0 30là khá tốt)

Trắc nghiệm

Trang 6

 Giá trị thống kê: F

 Trắc nghiệm t:

H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa

H1: βi  0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa

H0: βi = 0 ↔ Phương trình hồi quy không thích hợp

H1: βi  0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi

Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis

Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK

Trang 7

Trong hộp thoại Regression, lần lượt ấn định các chi tiết:

 Phạm vi của biến số Y (input Y range)

 Phạm vi của biến số X (input X range)

 Nhãn dữ liệu (Labels)

 Mức tin cậy (Confidence level)

 Tọa độ đầu ra (Output range)

 Đường hồi quy (Line Fit Plots),…

Các giá trị đầu ra cho bảng sau:

Phương trình hồi quy: Ŷx1=f(X1)

Ŷx1=2.73 + 0.04X1 (R2=0.21, S=1.81)

Trang 8

t0=2.19 < t0.05 = 2.365 (hay Pv =0.071>α=0.05) => Chấp nhận giả thiết H0

t1=1.38 < t0.05 = 2.365 (hay Pv=0.209>α=0.05) => Chấp nhận giả thiết H0

F=1.95 < F0.05 = 5.590 (hay Fs=0.209>α=0.05) => Chấp nhận giả thiết H0

Vậy cả hai hệ số 2.73 (B0) và 0.04 (B1) của phương trình hồi quy Ŷx1 = 2.73 + 0.04X1 đều không có ý nghĩa thống kê Nói cách khác phương trình hồi quy này không thích hợp

Phương trình hồi quy: Ŷx2 = f(X2)

Ŷx2 = -11.141 + 0.129X2 (R2=0.76,S=0.99)

Trang 9

t0 = 3.418 > t0.05 = 2.365 (hay Pv =0.011 > α=0.05) =>Bác bỏ giả thiết H0

t1= 4.757 > t0.05 = 2.365(hay Pv=0.00206 < α=0.05) =>Bác bỏ giả thiết H0

F= 22.631 > F=5.590(hay Fs=0.00206 < α=0.05) =>Bác bỏ giả thiết H0

Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2= -11.141 + 0.129X2 đều có ý nghĩa thống kê Nói cách khác phương trình hồi quynày thích hợp

Kết luận: yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.

Phương trình hồi quy: Ŷx1,x2=f(X1,X2)

Ŷx1,x2 = -12.70 + 0.04X1 + 0.13X2 (R2=0.97; S=0.33)

t0=11.528 > t0.05=2.365 (hay Pv =2.260.10-5<α=0.05)=>Bác bỏ giả thiết H0

Trang 10

t1=7.583 > t0.05=2.365 (hay Pv=0.00027<α=0.05) =>Bác bỏ giả thiết H0

F=131.392 > 5.14 (hay Fs=1.112*10-5<α=0.05) =>Bác bỏ giả thiết H0

Vậy cả hai hệ số -12.70 (B0), 0.04 (B1) và 0.13 (B1) của phương trình hồi quy Ŷx1,x2 =-12.7 + 0.04X1 + 0.13X2 đều có ý nghĩa thống kê Nói cách khác, phương trình hồi quy này thích hợp

Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời

gian và nhiệt độ.

Sự tuyến tính của phương trình Ŷx1,x2 = -12.70 + 0.04X1 + 0.13X2 Có thể được trình bày

trong biểu đồ phân tán (scatter plots):

Biểu đồ phân tán

0 1 2 3 4 5 6 7 8

Y

Y dự đoán

Nếu muốn dự đoán hiệu suất bằng phương trình hồi quy

Y= -12.70 + 0.04X1 + 0.13X2

chỉ cần chọn một ô, ví dụ như:

E20, sau đó nhập hàm=E17+E18*50+E19*115 và được kết quả như sau:

Trang 11

Ghi chú: E17 tọa độ của B0 ,E18 tọa độ của B1,E19 tọa độ của B2, 50 là giá trị của X1(thời gian) và 115 là giá trị của X2 (nhiệt độ)

Vậy hiệu suất phản ứng theo dự đoán ở 115°C trong vòng 50 phút là 4.3109%.

Trang 12

BÀI 2:

Một nhà nông học tiến hành việc kiểm định hiệu quả của ba loại phân này trên các cây cà

chua và theo dõi số quả cà chua mọc trên mỗi cây Kết quả thu được như sau:

Loại phân

24182728

21263225

16221917Với mức ý nghĩa  = 15%, hay so sánh số quả cà chua mọc trung bình khi bón ba loại phân

A, B, C nói trên

Phương pháp

PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ

Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình

của hai hay nhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở rộng các

trắc nghiệm t hay z (so sánh hai giá trị trung bình)

Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố

(nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k)

Trang 13

MSE=

k N

k i

n j n

H 0 :1  2   k  “Các giá trị trung bình bằng nhau”

 Giá trị thống kê: F=

MSE MSF

 Biện luận: Nếu F < Fα(k-1;N-k) => chấp nhận giả thiết H0

Bài làm

Đây là bài toán phân tích phương sai một yếu tố, số quả cà chua mọc trung bình chịu ảnh

hưởng bởi loại phân bón

Giả thiết H 0 : µ 1 = µ 2 = µ 3 ; tức số quả cà chua mọc trung bình là bằng nhau

 Nhập dữ liệu vào bảng:

 Áp dụng Anova: Single Factor

Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis.

Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK Trong hộp thoại Anova: Single Factor lần lượt ấn định

 Phạm vi đầu vào (Input range)

 Cách xắp xếp theo hàng hay cột (Group by)

 Nhấn dử liệu (Labels in fisrt row/column)

 Phạm vi đầu ra (Output range)

Trang 14

Bảng Anova:

 Kết luận:

Từ giá trị trong bảng Anova:

F= 3.8557 > Fα= 2.3597 => Bác bỏ H0

=> Lượng quả cà chua mọc trung bình khi sử dụng các loại phân khác nhau là khác nhau

=> Số lượng quả cà chua mọc trung bình khi sử dụng 3 loại phân:

Loại A là : 24,2 Loại B là : 26 Loại C là : 21

=> Loại B > Loại A > Loại C

Trang 15

Đây là bài toán phân tích phương sai một yếu tố, mức tiêu thụ ảnh hưởng bởi loại giày

Giả thiết H 0 : µ 1 = µ 2 = µ 3 ; tức lượng tiêu thụ trung bình là bằng nhau

 Nhập dữ liệu vào bảng tính

Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK

Trong hộp thoại Anova: single factor lần lượt ấn định

 Phạm vi đầu vào(input range)

 Cách xắp xếp theo hang hay cột(group by)

 Nhấn dữ liệu(labels in fisrt row/column)

 Phạm vi đầu ra(output range)

Trang 16

Sau khi nhấn OK xuất hiện bảng Anova:

 Kết luận:

Từ giá trị trong bảng Anova:

F = 7.5864 > Fα = 6.9266 => Bác bỏ H0

=> Lượng tiêu thụ của 3 loại giày trên là khác nhau

Lượng tiêu thụ trung bình của loại giày A là 22

Lượng tiêu thụ trung bình của loại giày B là 32.2

Lượng tiêu thụ trung bình của loại giày C là 34.6

=> Lượng tiêu thụ trung bình: Loại C > Loại B > loại A

Trang 17

BÀI 4:

Bảng sau đây cho ta số liệu về màu tóc của 422 người:

Đen Hung NâuVàng

56378419

32669038Với mức ý nghĩa 1%, nhận định xem liệu có mối quan hệ giữa màu tóc và giới tính hay không

Phương pháp:

KIỂM ĐỊNH TÍNH ĐỘC LẬP

Khái niệm thống kê và giả thuyết bài toán:

- Mục đích: Xét một tổng thể gồm 2 dấu hiện X, Y Các dấu hiệu này có thể là dấu hiệu định tính hoặc định lượng Trong trường hợp bài toán nêu trên là cả 2 dấu hiệu đều là dấu hiệu định tính

- Lấy mẫu kích thước n ta có bảng số liệu như sau:

Kiểm định giả thiết: H0: X và Y độc lập, với mức ý nghĩa α

 Tìm 2  2[( k  1)( h  1)] từ bảng phân vị χ2 “khi bình phương”khi bình phương”

Cách 1: Tính thống kê dựa vào các công thức sau:

Trang 18

2 ij

Giả thiết: H 0 : Màu tóc độc lập với giới tính

– Từ bảng phân vị χ2 “khi bình phương”khi bình phương”, ta có 2 (2 - 1)(4 - 1) 11 34

Sau khi sử dụng với Excel ta có bảng số liệu ij như sau:

Trang 19

2 2 2 2

Hoặc γij = 0.0002468 < α = 0.01 → Bác bỏ giả thiết H0

Vậy: Màu tóc và giới tính có mối liên hệ với nhau

Trang 20

0,220,250,240,280,310,210,22

0,250,260,280,250,220,280,31

0,310,330,300,290,25

0,220,280,280,250,30

So sánh mức độ nhiễm chì đối với công nhân ở các phân xưởng của nhà máy nói trên

Bài làm

Đây là bài toán phân tích phương sai một yếu tố.

Giả thiết: H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 ; tức mức độ nhiễm chì của các công nhân ở 5 phân xưởng là bằng nhau.

 Nhập dữ liệu vào bảng:

Trang 21

Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK Trong hộp thoại Anova: Single Factor lần lượt ấn định

 Phạm vi đầu vào (Input range)

 Cách xắp xếp theo hàng hay cột (Group by)

 Nhấn dử liệu (Labels in fisrt row/column)

 Phạm vi đầu ra (Output range)

 Chọn α = 0.05

Bảng Anova:

Trang 22

 Kết luận:

Từ giá trị trong bảng Anova: F=1.5828 < Fα=2.7763 => Chấp nhận H0

Vậy mức độ nhiễm chì của các công nhân ở 5 phân xưởng là bằng nhau

Định dạng
Số trang	22
Dung lượng	498 KB