a) Thống kê nhiệt độ và lượng mưa năm 2016 được thể hiện trong bảng dưới đây: Lượng mưa năm
1)Tìm hệ số tương quan giữa X,Y Công cụ thực hiện: Áp dụng
Chọn chức năng Data/Data Analysis/Correlation
Phần “Input” (phạm vi đầu vào) có mục “Input Range” là địa chỉ tuyệt đối chứa dữ liệu tương ứng của mẫu: quét khối dữ liệu để chọn hoặc nhập $A$1:$B$16 Phần “Grouped By” chọn “Columns”
Chọn mục Labels in first row (nhãn dữ liệu) để hiển thị nhãn
Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ơ tính mà bạn muốn xuất bảng ra: $D$1
Nhấn chọn OK và phần mềm Excel sẽ cho ta kết quả:
=> Ta có hệ số tương quan là R = 0.8126 chứng tỏ giữa lượng mưa năm 2016 và độ ẩm năm 2016 thu được có quan hệ khá chặt chẽ và có tương quan thuận. 2) Kiểm định quan hệ tuyến tính và ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
+ Cơng cụ thực hiện: Tính trực tiếp bằng hàm
Tính T : chọn ơ E4 và nhập biểu thức =E3*SQRT(16-2)/SQRT(1-E3^2) Tính c: chọn ơ B6 và nhập biểu thức =TINV(0.05,14) (c là phân vị mức α/2=0.025 của phân bố Student với n-2=14 bậc tự do).
Ta được kết quả:
Vì |t| > c nên bác bỏ giả thiết H0
Vậy: X và Y có tương quan tuyến tính
Ước lượng đường hồi quy tuyến tính y theo x và biểu thị bằng hình vẽ Cơng cụ thực hiện: áp dụng “regression”
Chọn chức năng Data/Data Analysis/ Regression.
- Input Y Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của : quét khối chọn dữ liệu hoặc nhập $B$1:$B$16
- Input X Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của Nhiệt độ: quét khối chọn dữ liệu hoặc nhập $A$1:$A$16
Confidence Level: độ tin cậy ( để ở dạng phần trăm, ở bài này nhập độ tin cậy bằng 95%)
Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề
Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ơ tính mà bạn muốn xuất bảng ra: $D$8
Line Fit Plots: Xuất ra đồ thị
+ Xử lí đồ thị: vào Chart Tools/Quick Layout/Layout 3: + 20 16 nă m m ư a Lư ợn g
Lượng mưa năm 2016 Linear (Lượng mưa năm 2016)
Predicted Lượng mưa năm 2016
Linear (Predicted Lượng mưa năm 2016)
Phương trình hồi quy: yx = -1528.1791 + 23.4612x y´
x=−1898347+17.3974 x
Hệ số hồi quy: 0.0029<0.05 Hệ số tự do có ý nghĩa. 0.0013 < 0.05 Hệ số của x có ý nghĩa.
3) Tìm sai số chuẩn của ước lượng: - Đối với biến tự do: SE = 391.5688 - Đối với biến X: SE = 5.3207
b) Khảo sát đường dài 10m ta thấy được mối quan hệ giữa tốc độ pha với tần số của sóng và độ thẩm điện của môi trường. Khảo sát với các mốc tần số 5, 10, 15, 20 MHz và trong các mơi trường khơng khí ( r =1), dầu hỏa ( r =2.1), ebonite ( r
=2.7), thạch anh ( r =4.5) Độ thẩm điện 1 1 1 1 2.1 2.1
2.1 2.1 2.7 2.7 2.7 2.7 4.5 4.5 4.5 4.5
Dạng bài: Hồi quy tuyến tính đa tham số Cơng cụ: Sử dụng “Regression” Thực hiện bài tập trên excel Nhập dữ liệu vào trang tính:
Phần “Input” (phạm vi đầu vào) gồm hai mục:
-Input Y Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của : quét khối chọn dữ
liệu hoặc nhập $C$1:$C$17
-Input X Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của Nhiệt độ: quét khối chọn
dữ liệu hoặc nhập $A$1:$B$17
Confidence Level: độ tin cậy ( để ở dạng phần trăm, ở bài này nhập độ tin cậy bằng 95%)
Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề
Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ơ tính mà bạn muốn xuất bảng ra: $E$1
Line Fit Plots: Xuất ra đồ thị Nhấn chọn OK ta được kết quả:
Tìm các hệ số hồi quy tuyến tính mẫu:
Phương trình hồi quy tuyến tính mẫu:
Y|X1X2 21.11895833 8.158333333X1 3.26665X2
Biện luận sự thích hợp:
*PV 0 0.00032080.05
*PV 1 4.204 E 060.05
Hệ số của X1 có ý nghĩa. * PV 2 5.88E 09 0.05 Hệ số của X2 có ý nghĩa.
FS 4.80154 E 09 0.05
Phương trình hồi quy thích hợp. Kết luận:
Vận tốc pha có liên quan tuyến tính với cả hai yếu tố là tần số sóng và độ thẩm điện của môi trường.
Bài 6 : Phân tích phương sai A. Phân tích phương sai 1 yếu tố
KN: Dùng trong so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy ra từ các phân số. Đây có thể xem như phần mở rộng của trắc nghiệm t hay z (so sánh 2 giá trị trung bình). Tuy nhiên khi so sánh nhiều thì tổng quát hơn nên sử dụng phân tích phương sai.
Mục đích: Là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) lên các giá trị quan sát Xi
Mơ hình:
Tổng cộng
Trung bình
Bảng ANOVA
Nguồn sai Tổng bình phương
số SS Yếu tố Sai số Tổng cộng Trắc nghiệm Giả thiết:
H0: a1=a2=… ak “Các giá trị trung bình bằng nhau” H0: a1≠ ak “Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê: F= MSF MSE
Biện luận:
Nếu Fα (k −1; N −1)=¿ Chấp nhận giả thiết
H0 Ví dụ phân tích phương sai một yếu tố
Bảng thống kê dưới đây so sánh độ galactose trong 3 nhóm bệnh nhân: Nhóm 1: gồm 9 bệnh nhân bệnh Crohn
Nhóm 2: gồm 11 bệnh nhân viêm ruột kết
Nhóm 3: gồm 20 đối tượng khơng có bệnh, gọi là nhóm đối chứng
Nhóm 1: Crohn 1343 1393 1420 1641 1897 2160 2169 2279 2890
Câu hỏi đặt ra là độ galatose giữa 3 nhóm bệnh nhân có khác nhau hay khơng?
Đây là bài tốn phân tích phương sai, dạng bài kiểm định giá trị trung bình một yếu tố.
Giải bài tốn bằng MS-EXCEL
Nhập dữ liệu vào bảng tính A Nhóm 1: Crohn 1343 1393 1420 1641 1897 2160 2169 2279 2890
2895 3011
2769 3657
Chạy Data Analysis : Single factor Chọn các mục + Input Range: địa chỉ tuyệt đối chứa dư liệu, (quét các ô) + Output options: vị trí xuất kết quả (quét ô định trả kết quả) + Apha: mức ý nghĩa , cho = 0.05
Kết quả sau khi chạy Data Analysis/Single factor
Giả thiết:
H0: a1=a2=… ak “Lượng galactose trong các nhóm là như nhau” H0: a1≠ ak “Ít nhất có hai nhóm có lượng galactose khác nhau”
P-value = 0.0008 =>> Có ý nghĩa thống kê Giá trị thống kê: F=8.6655
F = 8.6655 > Fα (k −1 ,N −k )=F0.05 (3−1,30−3)=3.2519
Vậy bác bỏ giả thiết H0. Lượng galactose khác nhau theo nhóm.
Giải bài tốn bằng Cơng thức
Với số liệu nghiên cứu trên, chúng ta có những tóm tắt thống kê như sau Nhóm
1—Crohn 2—Viêm ruột 3—Đối chứng Tồn bộ mẫu
Với mức ý nghĩa ta kiểm định giả thiết
Giả thiết:
H0: a1=a2=… ak “Các giá trị trung bình bằng nhau” H0: a1≠ ak “Ít nhất có hai giá trị trung bình khác nhau”
Bảng Anova Nguồn sai số
Yếu tố Sai số Tổng cộng Đặt: Tổng quan sát: k n=∑ n j=9+11 +20=40 j=1 Trung bình nhóm j (j=1, …, k): ´x j= 1 n j j=1 x´1=1910 x´2=2226 x´3=2804
Trung bình mẫu chung:
1 k nj
´x= ∑ ∑ xij= T v ới T
n j=1 i=1 x´=2444
Phương sai hiệu chỉnh nhóm j:
S2j= n 1
−1 ∑nj ( xij−x´j )2
j i=1
S21=265944
S23=277500
Tổng bình phương các độ lệch (cho tồn bộ mẫu):
k n j
STT=∑∑ ( xij−x´)2
j=1 i=1
STT=(1343−2444)2+(1393−2444)2+….(3657−2444)2=17815090
Tổng bình phương độ lệch riêng của các nhóm (phản ánh độ khác nhau giữa các nhóm):
SSF=∑ ∑ (xi−´x )2=∑ nj (x´j−x´ )2
SSF=9(1910−2444)2+11(2226−2444)2 +20 (2804−2444)2=5681168
Tổng bình phương độ lệch phản ánh độ lệch trong mỗi nhóm (phản ánh độ khác nhau giữa các nhóm):
SSE=∑ ∑ (xij−x´ j )2=∑(nj −1)S2
j
SSE=(9−1) 265944+(11−1) 473387+(20−1)277500=12133922
Hoặc có thể tính SSW theo quan hệ sau:
SSE=STT −SSF
SSE được tính từ mỗi bệnh nhân trong 3 nhóm, cho nên trung bình bình phương (độ lệch) cho từng nhóm (Mean square – MSE):
MSE= SSE
=12133922
=327944
n−k 40−3
Trung bình bình phương (độ lệch) giữa các nhóm là:
MSF= SSF
=5681168
=2840584
Giá trị thống kê F F= MSF MSE = 2840584 327944 =8.6618 Giá trị Fα Fα (k −1 ,N −k )=F0.05 (3−1,30−3)=3.2519 F = 8.6618 > Fα (k −1 ,N −k )=3.2519
Vậy bác bỏ giả thiết H0. Lượng galactose khác nhau theo nhóm.