1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo xác suất thống kê

30 534 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 769,14 KB

Nội dung

Báo cáo xác suất thống kê

Trang 1

Câu 1.Trình bày lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 Sách BT

XSTK 2012 (N.Đ.HUY).

Ví dụ 3.4: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3 yếu tố pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:

Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng ?

BÀI LÀM 1/ Cơ sở lí thuyết:

Nhận xét: Đây là bài toán Phân tích phương sai ba yếu tố:

- Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu tố

trên các giá trị quan sát G (yếu tố A:i=1,2 r, yếu tố B: j=1,2 r, yếu tố C:

Trang 2

Giá trị thống kê Yếu tố A

H0: μ1 =μ2= …μk “Các giá trị trung bình bằng nhau”

H1: μi ≠μj “Có ít nhất 2 giá trị trung bình khác nhau”

Trang 3

2/ Áp dụng Excel:

Thiết lập bảng tính như sau :

Tính các giá trị Ti (tổng theo hàng từ B đến E)

Chọn ô B7 và nhập vào biểu thức =SUM(B2:E2)

Chọn ô C7 và nhập vào biểu thức =SUM(B3:E3)

Chọn ô D7 và nhập vào biểu thức =SUM(B4:E4)

Chọn ô E7 và nhập vào biểu thức =SUM(B5:E5)

Tính các giá trị T.j.(tổng theo cột từ hàng thứ 2 đến hàng thứ 5)

Chọn ô B8 và nhập vào biểu thức =SUM(B2:B5)

Dùng con trỏ kéo kí hiệu điền từ ô B8 đến ô E8

Tính các giá trịT k

Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)

Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)

Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5)

Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)

Tính giá trịT (tổng các phần tử trong bảng)

Chọn ô B10 và nhập biểu thức =SUM(B2:E5)

*Tính các giá trị và

- Các giá trị và

Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)

Dùng con trỏ kéo kí hiệu điền từ ô G7 đến ô G9

Trang 4

- Các giá trị SSR,SSC và SSF

Chọn ô I7 và nhập vào biểu thức =G7/4-39601/POWER(4,2)

Dùng con trỏ kéo kí hiệu điền từ ô I7 đên ô I9

Chọn ô K7 và nhập biểu thức =I7/(4-1)

Dùng con trỏ kéo kí hiệu điền từ ô M7 đến ô M9

- Giá trị MSE

Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))

*Tính các giá trị và F

Chọn ô M7 và nhập vào biểu thức =K7/0.3958

Dùng con trỏ kéo kí hiệu điền từ ô M7 đến ô M9

Kết quả và biện luận:

FR=3.10 <F0.05(3.6)= 4.76 =>chấp nhận H0(pH)

FC=11.95>F0.05(3.6) = 4.76 =>bác bỏ H0(nhiệt độ)

F =30.05 >F0.05(3.6) = 4.76 =>bác bỏ H0(chất xúc tác)

Vậy chỉ có nhiệt độ và chất xúc tác ảnh hưởng đến hiệu suất

Ví dụ 4.2 : Người ta dùng ba mức nhiệt độ gồm 105, 120, 135 o C kết hợp với

ba khoảng thời gian là 15, 30, 60 phút để thực hiện một phản ứng tổng hợp Các hiệu suất của các phản ứng (%) được trình bày trong bảng sau :

Thời gian (phút) Nhiệt độ ( o C) Hiệu suất (%)

Trang 5

Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp?Nếu có thì với điều kiện nhiệt độ 115 o C trong vòng 50 phút, hiệu suất phản ứng sẽ là bao nhiêu?

BÀI LÀM 1/Cơ sở lí thuyết:

Nhận xét: Đây là dạng bài Hồi quy tuyến tính đa tham số.

Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y cóliên quan đến k biến số độc lập Xi (i =1,2,…k) thay vì chỉ có một như trong hồiquy tuyến tính đơn giản

Phương trình tổng quát:

= B0 + B1X1 + B2X2 + … + BkXk

Phương trình hồi quy đa tham số có thể được trình bày dưới dạng ma trận:

Bảng ANOVA

Trang 6

Nguồn sai

số

Bậc tự do

Tổng số bình phương

Bình phương trung

bình

Giá trị thống kê

R2

ii == R2 – (R2

ii sẽ trở nên âm hay không xác định nếu R2 hay N nhỏ)

H0 : βi = 0 “Các hệ số hồi quy không có ý nghĩa”

H0 : βi 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa”

Bậc tự do của giá trị t: γ = N – k – 1

Trang 7

Nhập bảng dữ liệu vào bảng tính:

Dữ liệu bắt buộc phải được nhập theo cột

Sử dụng “Regression”:

Vào Data-> Data Analysis.Chọn mục Regression.Chọn OK.

a/Trong hộp thoại Regression, lần lượt ấn định các chi tiết:

Phạm vi của biến số Y (Input Y Range): $C$1:$C$10

Phạm vi của biến số X (Input X Range): $A$1:$A$10

Nhãn dữ liệu (Labels)

Mức tin cậy (Confidence Level): chọn mức 95%

Tọa độ đầu ra (Output Range): $A$14

Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots)…

Trang 9

Phương trình hồi quy: )

Vậy phương trình hồi quy này không thích hợp

Kết luận: Yếu tố thời gian không có liên quan tuyến tính với hiệu suất phản

ứng tổng hợp

Trang 10

b/Trong hộp thoại Regression, lần lượt ấn định các chi tiết:

Phạm vi của biến số Y (Input Y Range): $C$1:$C$10

Phạm vi của biến số X (Input X Range): $B$1:$B$10

Nhãn dữ liệu (Labels)

Mức tin cậy (Confidence Level): chọn mức 95%

Tọa độ đầu ra (Output Range): $A$45

Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots)…

Trang 11

Phương trình hồi quy: )

= -11.1411 +0.12856X2 (R2=0.7638; S=0.9929);N=9; k=1

t0= t Stat(Intercept) =3.4178 > t0,05(7)=2.365 (hay P value=0.0112 <α=0.05)

 Bác bỏ giả thiết H0

t2= t Stat(X1) =4.7572 >t0,05(7)=2.365 (hay P value=0.0021 < α=0.05)

 Bác bỏ giả thiết H0

F=22.6309 > F0,05(1.7)=5.59 (hay FS=0.0021 <α=0.05)

 Bác bỏ giả thiết H0

Vậy phương trình hồi quy này thích hợp

Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất phản ứng tổng

hợp

Trang 12

c/Trong hộp thoại Regression, lần lượt ấn định các chi tiết:

Phạm vi của biến số Y (Input Y Range): $C$1:$C$10

Pham vi của biến số X (Input X Range): $A$1:$B$10

Nhãn dữ liệu (Labels)

Mức tin cậy (Confidence Level): chọn mức 95%

Tọa độ đầu ra (Output Range): $A$76

Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots)…

Phương trình hồi quy: )

= -12.7 + 0.0445X1 + 0.1286X2 (R2=0.9777; S=0.3297); N=9; k=2

Trang 13

t0= t Stat(Intercept) =1.1016 > t0,05(6)=2.447 (hay P value=0.000026 <α=0.05)

 Bác bỏ giả thiết H0

t1= t Stat(X1) = 7.5827 >t0,05(6)=2.447 (hay P value=0.0002736 < α=0.05)

 Bác bỏ giả thiết H0

t2= t Stat(X2) = 14.3278 >t0,05(6)=2.447 (hay P value=0.000007 < α=0.05)

 Bác bỏ giả thiết H0

F=131.3921> F0,05(1.6)=5.99 (hay FS =0.0021 <α=0.05)

 Bác bỏ giả thiết H0

Vậy các hệ số của phương trình hồi quy = -12.7 + 0.0445X1 + 0.1286X2đều có

ý nghĩa thống kê Nói cách khác, phương trình hồi quy này thích hợp

Kết luận: Hiệu suất phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố

là nhiệt độ và thời gian

Dự đoán hiệu suất phản ứng tại t =115oC và thời gian là 50phút

Trang 14

Tại ô B94, nhập = B91 + B92*50 + B93*115

Kết quả dự đoán hiệu suất phản ứng là 4.310873016

Câu 2: Bảng sau đây cho ta một mẫu gồm 11 quan sát (xi, yi) từ tập hợp

chính các giá trị của cặp ĐLNN (X, Y):

Y -0,3 0,1 0,7 -0,28 -0,25 0,02

a) Tìm đường hồi quy của Y đối với X.

b) Tính sai số tiêu chuẩn của đường hồi quy.

c) Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y theo X.

Bài làm Nhận xét: Đây là bài toán phân tích hồi quy tuyến tính

Cơ sở lý thuyết:

Ŷ x = B0 + BX

B0 = Ȳ - BẊ

B =

X - biến số phụ thuộc (dependent / reponse variable)

Y – biến số độc lập (independent / predictor variable)

B0 và B – các hệ số hồi quy (regression coefficients)

Trang 15

Giá trị R-bình phương (R-square):

R= (100R2: %của biến đổi trên Y được giải thích bởi X)

Độ lệch chuẩn (Standard Error):

S=

(Sự phân tán của dữ liệu càng ít thì giá trị của S càng gần zero)

Trắc nghiệm thống kê:

Đối với một phương trình hồi quy, Ŷ x = B0 + BX , ý nghĩa thống kê của các

hệ số Bi (B0 hay B) được đánh giá bằng trắc nghiệm t (phân phối Student) trongkhi tính chất thích hợp của phương trình Ŷ x = f(X) được đánh giá bằng trắc nghiệm F(phôi bố Fischer)

Trắc nghiệm t

- Giả thiết:

o H0 : βi = 0 “Hệ số hồi quy không có ý nghĩa”

o H0 : βi 0 “Hệ số hồi quy có ý nghĩa”

o H0 : βi = 0 “Phương trình hồi quy không thích hợp”

o H : β 0 “Phương trình hồi quy thích hợp”

Trang 17

Nhấn OK, ta được kết quả:

a) Đường hồi quy của Y đối với X là: Y=1.5479X – 1.7395

b) Sai số tiêu chuẩn của đường hồi quy: 0.2896

c) Ta thấy F = 12.6367 > c = 5.12

(Tra bảng phân bố Fisher với bậc tự do n1 = 1, n2 = 9 ở mức 0.05)

=> Có hồi quy tuyến tính của Y theo X

Câu 3: Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ

40 – 50 tuổi và nhóm từ 50 – 60 tuổi trong số các công nhân lành nghề

Trang 18

ở Thụy Điển năm 1930

Nhómtuổi

a Dạng bài toán: Kiểm định tính độc lập

b Khái niệm thống kê:

Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ

số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm)

Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) – thí

dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số Trắc nghiệm “khi” bình

phương (χ2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ

lệ hoặc xác suất) một cách tiện lợi χ2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0 Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi kết quả mang một

trong các xác suất thực nghiệm là Pi (i = 1, 2, … k) Nếu gọi Pi,0 là các giá trị

lý thuyết tương ứng với Pi thì các tần số lí thuyết sẽ là Ei = NPi,0 Điều kiện

để áp dụng trắc nghiệm χ2 một cách thành công là các tần số lí thuyết Ei ≥5

c Giả thuyết:

H0: P1 = P1,0; P2 = P2,0; … ; Pk = Pk,0⇔ “Các cặp Pi và Pi,0 giống nhau”

H1: “Ít nhất có một cặp Pi và Pi,0 khác nhau”

Giá trị thống kê:

Trang 19

Trong chương trình MS-EXCEL có hàm CHITEST có thể tính:

- Giá trị χ2 theo biểu thức:

Oij: tần số thực nghiệm của ô thuộc hàng i và cột j;

Eij: tần số lý thuyết của ô thuộc hàng i với cột j;

r: số hàng;

c: số cột

- Xác suất P(X >χ2) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng

và c là số cột trong bảng ngẫu nhiên (contingency table)

• Nếu P(X >χ2) > α ⇒ Chấp nhận giả thuyết H0 và ngược lại

d Giải thuật:

- Tính các tổng số

- Tổng hàng (row totals)

- Tổng cột (column totals)

-Tổng cộng (grand total)

Trang 20

Chọn ô B7 nhập biểu thức = B$5*$H3/$H$5

Chọn (B9:G10): ấn F2+Ctrl+Enter

• Bước 3: Tính giá trị, sử dụng hàm CHITEST và hàm CHIINV

Chọn ô B12: Chọn hàm =CHITEST(B3:G4,B9:G10)Chọn ô B13: Chọn hàm =CHIINV(0.02,5)

Chọn ô B14: Chọn hàm =CHIINV(B12,5)

 Biện Luận:

P(X >χ2) =0.511582 > α=0.02  Chấp nhận giả thuyết H0.Hoặc χ2

Trang 21

a Dạng bài toán: Kiểm định tính độc lập

b Khái niệm thống kê:

Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ

số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm)

Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) – thí

dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số Trắc nghiệm “khi” bình

phương (χ2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ

lệ hoặc xác suất) một cách tiện lợi χ2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0 Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi kết quả mang một

trong các xác suất thực nghiệm là Pi (i = 1, 2, … k) Nếu gọi Pi,0 là các giá trị

lý thuyết tương ứng với Pi thì các tần số lí thuyết sẽ là Ei = NPi,0 Điều kiện

để áp dụng trắc nghiệm χ2 một cách thành công là các tần số lí thuyết Ei ≥ 5

c Giả thuyết:

H0: P1 = P1,0; P2 = P2,0; … ; Pk = Pk,0⇔ “Các cặp Pi và Pi,0 giống nhau”

H1: “Ít nhất có một cặp Pi và Pi,0 khác nhau”

Giá trị thống kê:

Oi: các tần số thực nghiệm (observed frequency);

Ei: các tần số lý thuyết (expected frequency)

Biện luận:

• Nếu ⇒ Bác bỏ giả thuyết H0 (DF = k-1)

Trong chương trình MS-EXCEL có hàm CHITEST có thể tính:

- Giá trị χ2 theo biểu thức:

Oij: tần số thực nghiệm của ô thuộc hàng i và cột j;

Eij: tần số lý thuyết của ô thuộc hàng i với cột j;

r: số hàng;

c: số cột

- Xác suất P(X >χ2) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng

và c là số cột trong bảng ngẫu nhiên (contingency table)

• Nếu P(X >χ2) > α ⇒ Chấp nhận giả thuyết H và ngược lại

Trang 22

d Giải thuật:

- Tính các tổng số

- Tổng hàng (row totals)

- Tổng cột (column totals)

-Tổng cộng (grand total)

Tính tổng hàng, tổng cột: chọn (B6:E7) ấn biểu tượng (AutoSum)

Chọn ô B10 nhập biểu thức =B$7*$E4/$E$7

Chọn vùng (B10:D12) ấn F2+Ctrl+Enter

Trang 23

• Bước 3: Dùng hàm CHITEST

Tính giá trị “P”:

Chọn ô B14 và chọn hàm CHITEST Các thông số

Actual_range: B4:D6Expected_range: B10:D12Chọn OK, ta được bảng:

P(X >χ2) =0.14375984 > α=0.01  Chấp nhận giả thuyết H0

Kết luận: Tuổi và mức thu nhập không có mối quan hệ với nhau

Câu 5: Với mức ý nghĩa 1%, Hãy phân tích tình hình kinh doanh của một

số ngành nghề ở quận 4 quận nội thành trên cơ sở số liệu về doanh thu của một số cửa hàng như sau:

Trang 24

7 15.0 2.0:2.2:1.

8

9.5:9.3:9.

1 1.2:1.3:1.

2

19.5:17.5 5.0:4.8:5.

2

Bài làm

Dạng toán: Phân tích phương sai 2 yếu tố (có lặp)

I.Cơ sở lý thuyết:

Trên thực tế một biến lượng chịu tác động không chỉ một nhân tố mà có thể hai (hay nhiều nhân tố) Chẳng hạn năng suất cây trồng chịu ảnh hưởng của nhân tố giống và của nhân tố đất Kết quả học tập của một sinh viên chịu ảnh hưởng không những bởi nhân tố giảng viên mà còn bởi nhân tố sĩ số của lớp

học…

Phương pháp phân tích phương sai hai nhân tố nhằm phát hiện ảnh hưởng của mỗi nhân tố cũng như tác động qua lại của hai nhân tố đó đến biến lượng đang xét

Giả sử chúng ta quan tâm tới nhân tố A và B Nhân tố A được xem xét ở các mức A1, A2,…Ar và nhân tố B được xem xét ở các mức B1, B2,…Bc

+ Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau:

+ Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công

Trang 25

+Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức

+ Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là

SSI, được tính theo công thức

+ Trung bình bình phương của nhân tố A, ký hiệu là MSFA, được tính theocông thức

r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1

+Trung bình bình phương của nhân tố B, ký hiệu là MSFB, được tính theocông thức

c – 1 gọi là bậc tự do của A bằng số mức của A trừ 1

+ Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi

n – crgọi là bậc tự do của sai số

+ Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi

(c – 1) (r – 1) gọi là bậc tự do của tương tác.

Trang 26

Chú ý rằng:

(r – 1) + (c – 1) + (c – 1) (r – 1) + n – rc = n – 1 = bậc tự do tổng cộng

+ Tỷ số F cho nhân tố A, ký hiệu bởi FA được tính như sau,

Tương tự tỷ số F cho nhân tố B, FB được tính bởi

vàtỷ số F cho tương tác giữa A và B, ký hiệu là FAB được tính bởi:

Với mức ý nghĩa α đã cho ta ký hiệu f (u, v) là phân vị mức α của phân bốFisher với bậc tự do (u, v)

Ta có quy tắc quyết định như sau:

+ Nếu FA> f (r – 1, n – cr) thì ta bác bỏ giả thiết

“Các mức A1, Arcó hiệu quả trung bình như nhau”

+ Nếu FB> f (c – 1, n – cr) thì ta bác bỏ giả thiết

“Các mức B1, B2, Bccó hiệu quả trung bình như nhau”

+ Nếu FAB> f ((r – 1)(c – 1), n – rc)

Ta bác bỏ giả thiết:

“Có sự tương tác giữa A và B”

Ngày đăng: 29/08/2015, 12:59

TỪ KHÓA LIÊN QUAN

w