Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012N.Đ.Huy Hiệu suất phần trăm % của một phản ứng hóa học được nghiên cứu theo ba yếutố: pH A, nhiệt độ B và chất xúc tác C được trình bày tro
Trang 1Bài 1.
a) Đề bài.
Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012(N.Đ.Huy)
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếutố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Trang 2Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tốA
Tổng số bình phương
Bình phương trung bình
Giá trị thống kê
Yếu tố A
T
2
2
) 1 (r
SSR
MSE MSR
Trang 3H0: μ1 = μ2 = = μk ↔ Các giá trị trung bình bằng nhau
H1: μi§ μj ↔ Có ít nhất hai giá trị trung bình khác nhau
Giá trị thống kê: FR, FC, F
Biện luận:
Nếu FR< Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα(r-1)(r-2)→ Chấp nhận H0 đối với yếu tố B
Nếu F < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố C
T
2
2
) 1 (r
SSC
MSE MSC
T
2
2
) 1 (r
SSF
MSE MSF
) 2 )(
1 (r r
SSE
2
2
Trang 4+ Tính cácgiá trị Ti
Trang 5Thời gian (phút) Nhiệt độ (°C) Hiệu suất (%)
Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan tuyến
tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115°C
trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
Trang 6 Dạng bài:
Hồi quy tuyến tính đa tham số
Cơ sở lý thuyết.
HỒI QUY TUYẾN TÍNH ĐA THAM SỐ
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến số độc lập Xi (i=1,2, ,k) thay vì chỉ có một như trong hồi quytuyến tính đơn giản
Bình phương trung bình
Giá trị thống kê Hồi
)1 (N k
SSE
kF k
N
kF SST
SSR R
) 1 (
k N SSE
Trang 7H1: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.i§ 0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.
F <§(r-1)(r-2) → Chấp nhận H0
Trắc nghiệm F
H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.i = 0 ↔ Phương trình hồi quy không thích hợp.
H1: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.i§ 0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.
Regression, lần lượt ấn định các chi tiết:
Trang 8 Phạm vi của biến số X (input X range)
Nhãn dữ liệu(Labels)
Mức tin cậy(Confidence level)
Tọa độ đầu ra(Output range)
Đường hồi quy (Line Fit Plots),…
Các giá trị đầu ra cho bảng sau:
Trang 9Phương trình hồi quy:
Ŷx1=f(X1)
Ŷx1=2.73+0.04X1(R2=0.21, S=1.81)
t0=2.129< t0.05=2.365(hay Pv2=0.071>α=0.05)=>Chấp nhận giả thiết H0
t1=1.38<t0.05=2.365(hay Pv =0.209>α=0.05) =>Chấp nhận giả thiết H0
F=1.95<F0.05=5.590(hay Fs=0.209>α=0.05) =>Chấp nhận giả thiết H0
Vậy cả hai hệ số 2.73(B0) và 0.04(B1) củaphươngtrình hồi quyŶx1=2.73+0.04X1đềukhông có ý nghĩa thống kê Nói cách khác phương trình hồi quy này không thích hợp
Phương trình hồi quy: Ŷx2=f(X2)
Ŷx2= -11.141 +0.129X2 (R2=0.76, S=0.99)
t0=3.418> t0.05=2.365(hay Pv2=0.011>α=0.05) =>Bác bỏ giả thiết H0
t1= 4.757>t0.05=2.365(hay Pv =0.00206<α=0.05) =>Bác bỏ giả thiết H0
F=22.631>F=5.590(hay Fs=0.00206<α=0.05) =>Bác bỏ giả thiết H0
Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2=-11.141 +0.129X2 đều có ý nghĩa thống kê Nói cách khác phương trình hồi quynày thích hợp
Trang 10Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
Phương trình hồi quy: Ŷx1, x2=f(X1, X2)
=-Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là
thời gian và nhiệt độ.
Sự tuyến tính của phương trình Ŷx1, x2 =-12.70+0.04X1+0.13X2 Có thể được trình bày
trong biểu đồ phân tán (scatterplots):
Trang 11Y dự đoán
Trang 12X 0,9 1,22 1,32 0,77 1,3 1,2
a) Tìm đường hồi quy của Y đối với X
b) Tính sai số tiêu chuẩn của đường hồi quy
c) Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Ytheo X
Giả thuyết Ho: Hệ số quy hồi không có ý nghĩa (= 0)
H1: Hệ số hồi quy có ý nghĩa (≠ 0)
Trắc nghiệm t < tα, n-2: chấp nhận Ho
Kiểm định phương trình hồi quy:
Giả thuyết Ho: “Phương trình hồi quy tuyến tính không phù hợp”
H1: “Phương trình hồi quy tuyến tính phù hợp”
b y ax
Trang 13B2: Chọn Data/Data
Analysis/ Regression như trong hình:
Nhập dữ liệu vào như trong hình:
Input Y Range : khoảng dữ liệu của Y
Input X Range : khoảng dữ liệu của X
Confidence Level : mức ý nghĩa
Labels : Nhãn dữ liệu
Output Range : Khoảng dữ liệu xuất ra
Trang 14B3: Sau khi nhập đủ các thông số, ta có được bảng sau:
B4: Kết luận:
Trang 15Đường quy hồi tuyến tính của Y đối với X là:
Y= 1.547892 X- 1.73948
a) Sai số tiêu chuẩn của đường hồi quy.
Sai số tiêu chuẩn của đường hồi quy là:
= 0.28965 b) Tỷ số F = 0.289645
Trang 16Ta thấy F=0.249645 > c=4.41 (bảng Fisher [1, 18])
Vậy có hồi quy tuyến tính giữa Y và X
c) Tỷ số F = 0.006169
Với mức ý nghĩa a=0.05, ta thấy F=0.006169 < 0.05
Vậy có hồi quy tuyến tính này không thích hợp.
Bài 3:
Đề bài.
Bảng sau đây cho ta phân bố thu nhập của 2 nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ
50 – 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930
Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân
lành nghề hay không? Mức ý nghĩa = 2%
Ta chia dấu hiệu A ra làm r mức độ A1, A2, , Ar, và chia đặc tính B làm k mức độ
B1, B2, , Bk Xét một mẫu ngẫu nhiên gồm n cá thể Mỗi cá thể sẽ mang dấu hiệu A ởmức Ai nào đó và mang dấu hiệu B ở mức Bj nào đó Giả sử nij là số cá thể có các dấuhiệu Ai và Bj Các số liệu nij được ghi trong bảng sau đây gọi là bảng liên hợp các dấuhiệu (Contingency Table)
Trang 17Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu Ai và Bj ;
pjo và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj
Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST(nij,γij), với lưu ý số lượng các giátrị của nij và γij phải bằng nhau
Kết luận
Nếu → Chấp nhận giả thiết H0
Hoặc kết quả hàm CHITEST > α =0.02 → Chấp nhận giả thiết H0
io io
oj oj
n
ˆp , n n ˆp n
2
k r
ij ij ij
j 1 i 1
ˆ (n n )
Trang 18Đặt con trỏ tại ô B11 rồi giữ chuột kéo đến ô H13.
Sau đó nhấn nút trong Tab
Home
Trang 21Rồi nhập các giá trị tần số quan sát vào mục Expected_range Nhấn OK
Ta được P = 0.511582
Vì giá trị P > α = 2% => Chấp nhận giả thuyết H0
Trang 22Ta chia dấu hiệu A ra làm r mức độ A1, A2, , Ar, và chia đặc tính B làm k mức độ
B1, B2, , Bk Xét một mẫu ngẫu nhiên gồm n cá thể Mỗi cá thể sẽ mang dấu hiệu A
ở mức Ai nào đó và mang dấu hiệu B ở mức Bj nào đó Giả sử nij là số cá thể có cácdấu hiệu Ai và Bj Các số liệu nij được ghi trong bảng sau đây gọi là bảng liên hợpcác dấu hiệu (Contingency Table)
Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu Ai và
Bj ; pjo và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj
Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
oj oj
n
ˆp , n n ˆp n
Trang 23Các số được gọi là các tần số
lý thuyết (TSLT), còn các số nij được gọi là các tần số quan sát (TSQS) Khoảng
cách giữa các TSLT và TSQS được đo bằng đại lượng sau:
Người ta đã chứng minhđược rằng nếu n lớn và cácTSLT không nhỏ hơn 5 thì T sẽ có phân bố xấp xỉ phân bố 2 với bậc tự do là (k–
1).(r–1) Thành thử Ho sẽ bị bác bỏ ở mức ý nghĩa nếu T > c, trong đó c là phân
vị mức của phân bố 2 với (k–1).(r–1) bậc tự do
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST (nij,γij), với lưu ý số lượng
các giá trị của nij và γij phải bằng nhau
Kết luận
Nếu → Chấp nhận giả thiết H0
Hoặc kết quả hàm CHITEST > α =0.01 → Chấp nhận giả thiết H0
j 1 i 1
ˆ (n n )
Trang 24Nhập bảng số liệu
Bước 2: Tính tổng hàng và tổng cột.
Đặt con trỏ tại ô B14 rồi giữ chuột kéo đến ô E17
Sau đó nhấn nút trong Tab
Home
Trang 26Bước 3: Tính tần số lý thuyết.
Tần số = (tổng hàng * tổng cột) / tổng cộng
Ô B23 nhập lệnh = B$17*$E14/$E$17 rồi enter
Sau đó ta kéo chọn từ B23:D25 , sau đó ta ấn tổ hợp phím F2+ctrl+enter
Ta có bảng tần số lý thuyết
Trang 28Rồi nhập các giá trị tần số quan sát vào mục Expected_range Nhấn OK
Với mức ý nghĩa 1%, Hãy phân tích tình hình kinh doanh của một số ngành nghề ở
4 quận nội thành trên sơ sở số liệu về doanh thu của một số cửa hàng như sau:
Trang 293.1:3.5:2.7 15.0
2.0:2.2:1.8
2.0:2.4 9.5:9.3:9.1 1.2:1.3:1.2
5.0:5.4 19.5:17.5 5.0:4.8:5.2
Trong mục này ta sẽ trình bày một cách vắn tắt kỹ thuật phân tích phương saihai nhân tố nhằm phát hiện ảnh hưởng của mỗi nhân tố cũng như tác động qua lạicủa hai nhân tố đó đến biến lượng đang xét
Giả sử chúng ta quan tâm tới nhân tố A và B Nhân tố A được xem xét ở cácmức
A1, A2, Ar, và nhân tố B được xem xét ở các nước B1, B2, Bc
Gọi Xjk là ĐLNN đo lường hiệu quả việc tác động của mức Aj và Bk lên cá thể
Giả sử x1jk, x2jk, , xnjk là mẫu kích thước njk rút ra từ tập hợp chính các giá trịcủa Xjk Ta gọi đó là mẫu (j, k) Ta đưa ra một số ký hiệu sau:
: trung bình của mẫu (j, k) x jk
Trang 30+ Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau:
+ Tổng bình phương chonhân tố A, ký hiệu là SSFA được tính theo công thức sau:
Trang 31+ Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI,được tính theo công thức.
+ Trung bình bìnhphương của nhân tố A, ký hiệu là MSFA’ được tính bởi công thức:
r – 1 gọi là bậc tự do của Abằng số mức của A trừ 1
+ Trung bình bình phương của nhân tố B, ký hiệu là MSFB’ được tính bởi công thức
c – 1 gọi là bậc tự do của Bbằng số mức của B trừ 1
+ Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi
n – cr gọi là bậc tự do củasai số
+ Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi
c 1
SSE MSE
c 1 r 1
Trang 32(r – 1) + (c – 1) + (c – 1) (r – 1) + n – rc = n – 1 = bậc tự do tổng cộng.
+ Tỷ số F cho nhân tố A, ký hiệu bởi FA được tính như sau
Tương tự tỷ số F cho nhân tố B,
FB được tính bởi
và tỷ số F cho tương tác giữa A và
B, ký hiệu là FAB được tính bởi:
Với mức ý nghĩa đã cho ta kýhiệu f (u, v) là phân vị mức của phân bố Fisher với bậc tự do (u, v)
Ta có quy tắc quyết định như sau:
+ Nếu FA> f (r – 1, n – cr) thì ta bác bỏ giả thiết
“Các mức A1, Ar có hiệu quả trung bình như nhau”
+ Nếu FB> f (c – 1, n – cr) thì ta bác bỏ giả thiết:
“Các mức B1, B2, Bc có hiệu quả trung bình như nhau”
Nếu FAB> f ((r – 1)(c – 1), n – rc)
Ta bác bỏ giả thiết:
“Có sự tương tác giữa A và B”
Trên thực hành tính toán chúng ta thực hiện như sau:
Giả sử Tjk là tổng các giá trị trong mẫu (j, k) Ký hiệu
MSE
B
B MSF F
MSE
AB MSI F
MSE
:
A o
H
:
B o
H
:
AB o
H
, ,
jo
j 1
T TSSF
Trang 33-HA (yếu tố ngành nghề): doanh thu không phụ thuộc vào ngành nghề.
-HB (yếu tố quận): doanh thu không phụ thuộc vào quận
-HAB(sự tương tác giữa 2 yếu tố): doanh thu giữ các ngành nghề và các quận không
có liên quan tới nhau
jo 2
j 1 A
T T SSF
ok 2
k 1 B
T T SSF
rm n
2
k j T SSE A m
Trang 34Áp dụng: “Anova: Two-Factor With Replication”
Vào Data -> Data Analysis Chọn mục Anova: Two-Factor With Replication Chọn OK.
Trong hộpthoại
Anova: Two- Factor With
Replication lần lượt ấn định các chi tiết:
Phạm vi đầu vào (Input Range): $A$9:$E$21
Số hàng mỗi mẫu (Rows per sample): 4
Ngưỡng tin cậy (Alpha): 0.01 (mức ý nghĩa = 1%)
Phạm vi đầu ra (Output Range): $A$23
Trang 35Nhấn OK Ta được bảng sau:
Kết quả và biện luận:
Yếu tố hàng (mẫu): FR = 2.8929 < F0.01 = 5.2479 => Chấp nhận giả thiết H0
→ Tình hình kinh doanh giữa các ngành nghề là như nhau
Yếu tốc cột: FC = 0.8189 < F0.01 = 4,3771 => Chấp nhận giả thiết H0
→Tình hình kinh doanh giữa các quận là như nhau
Ảnh hưởng: F = 0.6498 < F0.01 = 3.3507 => Chấp nhận giả thiết H0
→ Không có sự tương tác giữa khu vực kinh doanh (quận) và ngành nghề
Trang 36Kết luận: Vậy tình hình kinh doanh là như nhau không những giữa các ngành nghề mà
còn giữa các quận Ngoài ra, không có sự tương tác giữa hai yếu tố ngành nghề kinhdoanh và địa điểm kinh doanh (quận)