Giả thuyết của bài toán phân tích phương sai 1 nhân tố: - Giả thuyết: Trung bình tất cả các phương thức xử lý bằng nhau, hay nói cách khác, không có sự khác biệt về trung bình giữa các n
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-š›&š› - BÁO CÁO BÀI TẬP LỚN MÔN HỌC: XÁC SUẤT THỐNG KÊ
GVHD:Phan Thị Hường Nhóm: 7 Lớp: L17
Trang 2MỤC LỤC
PHẦN CHUNG 3
1 CƠ SỞ LÝ THUYẾT 3
Phần 1: Phân tích phương sai một nhân tố: 3
Phần 2: Phân tích phương sai 2 nhân tố: 7
2 XỬ LÝ SỐ LIỆU 9
PHẦN RIÊNG 19
1 Nhập dữ liệu 19
2 Làm sạch dữ liệu 19
3 Làm rõ dữ liệu: 19
3 Data visualization 20
4 Xây dựng mô hình hồi quy tuyến tính 26
Trang 3PHẦN CHUNG
1 CƠ SỞ LÝ THUYẾT
Phần 1: Phân tích phương sai một nhân tố:
I Giả thuyết của bài toán phân tích phương sai 1 nhân tố:
II Sự biến thiên:
Sự biến thiên trong dữ liệu là chìa khóa kiểm tra sự bằng nhau của trung bình giữa các nhóm
III Phân chia sự biến thiên:
1) Sự biến thiên toàn phần trong dữ liệu có thể chia làm 2 thành phần như sau:
SST= SSW + SSB
Trong đó:
SST = Tổng bình phương toàn phần (Total Sum of Squares)
SSW =Tổng bình phương bên trong các nhóm (Sum of Squares Within groups)
SSB =Tổng bình phương giữa các nhóm (Sum of Squares Between groups)
2) Công thức rút gọn:
Tổng các bình phương của ANOVA với cỡ mẫu bằng nhau trong mỗi phương thức xử lí thường được tính bởi các công thức rút gọn sau:
Trang 4
3) Trung bình bình phương:
- Trung bình bình phương toàn phần :
Trang 5- Bậc tự do:
Trong đó:
4) ANOVA với cỡ mẫu không bằng nhau:
Khi cỡ mẫu của các phương thức không bằng nhau, các công thức tính tổng bình phương cần phải hiệu chỉnh lại Xét bài toán ANOVA vói k phương thức xử lý, với phương thức thứ i (i= 1, 2, …, k), chọn mẫu phần tử Tổng số phần tử là
Trang 6
Công thức tính SST, SSB, SSW được hiệu chỉnh lại như sau:
5) So sánh bội sau ANOVA:
- Khi giả thuyết 𝐻0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘được bác trong ANOVA, ta biết có sự khác biệt giữa các nhóm (các phương thức thí nghiệm khác nhau); nhưng ANOVA không chỉ rõ nhóm nào gây ra sự khác biệt
- Để xác định trung bình nhóm nào gây ra sự khác biệt, ta sử dụng phương pháp
so sánh bội (multiple comparison method) Một phương pháp so sánh bội đơn giản là phương pháp ý nghĩa độ lệch nhỏ nhất (least significant difference- LSD) của Fisher
- Nội dung của phương pháp LSD là so sánh tất cả các cặp giá trị trung bình với giả thuyết 𝜇𝑖 = 𝜇𝑗(với mọi 𝑖 ≠ ) , sử dụng thống kê t: 𝑡 = 𝑦̅𝑖 −𝑦̅ 𝑗.
k: là số nhóm
𝑛𝑖 𝑣à 𝑛𝑗 lần lượt là số phần tử của phương thức thí nghiệm thứ i và j
Trang 7Phần 2: Phân tích phương sai 2 nhân tố:
I Giả thuyết ANOVA 2 nhân tố:
1) Đối với các nhóm (nhân tố A):
{ 𝐻0: 𝜏1= 𝜏2 = ⋯ = 𝜏𝑘 = 0
𝐻0: 𝜏𝑖 ≠ 0 𝑣ớ𝑖 í𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 𝑖Thống kê kiểm định F: 𝐹 =𝑀𝑆𝐺
𝑀𝑆𝐸2) Đối với các nhóm (nhân tố B):
{ 𝐻0: 𝜏1= 𝜏2 = ⋯ = 𝜏𝑘 = 0
𝐻1: 𝜏𝑖 ≠ 0 𝑣ớ𝑖 í𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 𝑗
I Phân chia sự biến thiên:
Sự biến thiên toàn phần trong dữ liệu có thể chia làm 2 thành phần như sau:
𝑆𝑆𝑇 = 𝑆𝑆𝐺 + 𝑆𝑆𝑏 + 𝑆𝑆𝐸 Trong đó: SST là tổn bình phương toàn phần
SSG là sự biến thiên gây ra bởi sự khác nhau giữa các nhóm
SSB là sự biến thiên gây ra bởi sự khác nhau giữa các khối
SSE là sự biến thiên do chọn mẫu ngẫu nhiên (sai số không giải thích được)
𝑆𝑆𝐺 = 𝑏 ∑(𝑦̅ − 𝑦𝑖 ̅ ) 2
𝑎
𝑖=1Giữa các khối:
Trang 8𝑆𝑆𝐵 = 𝑎 ∑(𝑦̅̅̅ − 𝑦𝑗. ̅ ) 2
𝑏
𝑖=1Sai số:
III Trung bình bình phương:
nhóm
𝐹𝑏 =𝑀𝑆𝐵𝑀𝑆𝐸
Trang 9- "cylinders": (multi-valued discrete) số xy lanh,
- "displacement" : (continuous) kích thước động cơ,
- "horsepower" : (continuous) công suất động cơ,
- "weight" : (continuous) khối lượng,
- "acceleration" : (continuous) gia tốc xe,
- "model year": (multi-valued discrete) năm sản xuất model (2 số cuối)
- "origin": (multi-valued discrete) nơi sản xuất: 1 - North American, 2 - Europe, 3 - Asia
- "car name": (multi-valued discrete) tên xe
1 Nhập và “làm sạch” dữ liệu
Lưu ý biến “horsepower” có 6 quan trắc thiếu dữ liệu; xét xem có dữ liệu ngoại lai không?, thực hiện các thống kê mô tả (Chú ý các cột của file “auto-mpg.csv” được phân tách bởi dấu “,”, khi đọc file dữ liệu dùng lệnh “read.csv” cần thêm sep = “,”)
A Đọc dữ liệu
> setwd("C:/New folder")
> auto_mpg = read.csv("C:/New folder/auto_mpg.csv",sep = ",")
> attach (auto_mpg)
Trang 11auto_mpg2
3 Chọn mô hình tốt nhất giải thích cho biến phụ thuộc “mpg” thông qua việc chọn lựa các biến độc lập phù hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện “auto_mpg1” Cần trình bày từng bước phương pháp chọn, tiêu chuẩn chọn mô hình, lý do chọn phương pháp đó
Trang 12Bảng summary M1
Trang 13Bảng summary M2
*Giả thuyết H0: các hệ số hồi quy đều không có ý nghĩa thống kê
Với mức ý nghĩa 5%: các biến horsepower, weight, model_year77, model_year78, model_year80, model_year81, model_year82, car_namebuick electra 225 custom,
car_namedodge monaco (sw), car_nameford granada l , car_namepontiac catalina,
car_namepontiac grand prix, car_namesubaru có Pr(>|t|) < 0,05 nên ta giữ lại các biến này
Vậy các biến còn lại nên bị loại bỏ khỏi mô hình với mức tin cậy 5%
Trang 14Xét mô hình tuyến tính cùng bao gồm biến “mpg” là biến phụ thuộc nhưng: Mô hình M2 là loại bỏ biến, car_name từ M1
> M2 = lm(auto_mpg1$mpg ~ auto_mpg1$cylinders + auto_mpg1$displacement + auto_mpg1$horsepower + auto_mpg1$weight + auto_mpg1$acceleration +
Kết luận: Sự tương tác giữa biến “car_name” và biến “mpg” là không đáng kể Vậy ta chọn phân tích mô hình hồi quy M2
Trang 154 Kiểm tra các giả định (giả thiết) của mô hình.
> par(mfrow=c(2,2))
> plot(M2)
Giải thích:
Phân tích phần dư để kiểm tra các giả định trong phân tích hồi qui tuyến tính
Biểu đồ 1: Vẽ tương quan giữa phần dư và kết quả dự báo, giá trị phần dư càng ở quanh
mức 0 kết quả dự báo càng tốt Kết quả: phần dư của M2 dao dộng xung quanh đường
tung độ 0 và không phân tán đi quá xa, nên giả định quan hệ tuyến tính được thỏa mãn
Biểu đồ 2: Kiểm tra xem phần dư có phân phối chuẩn N(0,1) hay không Kết quả:
những giá trị quan sát đa phần nằm trên đường thẳng kì vọng của phân phối chuẩn do đó
mô hình hồi quy M2 tuân theo phân bố chuẩn
Biểu đồ 3: Đánh giá phương sai của phần dư có đồng nhất hay không Kết quả: Đồng
nhất
Biều đồ 4: Cho phép phát hiện ra các outliers trong phần dư Kết quả: Biểu đồ cho thấy
không có giá trị nào nằm ngoài đường gạch nối màu đỏ của Cook’s distance Vậy chấp
nhận rằng không có outliers nào ảnh hưởng lớn đến mô hình hồi quy
*Nhận xét: Qua phân tích phần dư, chúng ta có thểm1 kết luận rằng mô hình hồi qui
tuyến tính mô tả mối liên hệ giữa mpg và các biến cylinders, displacement, horsepower,
weight, acceleration, model_year, origin một cách khá đầy đủ và hợp lí
Trang 165 Nêu ý nghĩa của mô hình đã chọn
Ý nghĩa:
Biến “mpg” mức tiêu thụ nhiên liệu tính theo dặm trên gallon (miles/gallon) phụ thuộc vào các biến:
• “cylinders”: số xy lanh,
• “displacement”: kích thước động cơ,
• “horsepower”: công suất động cơ,
• “weight”: khối lượng,
• “acceleration”: gia tốc xe,
• “model year”: năm sản xuất model
• “origin”: nơi sản xuất
Và không phụ thuộc vào biến “car name”: tên xe
6 Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset)
“auto_mpg2” và dựa vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biến phụ thuộc “mpg” Gọi kết quả dự báo này là biến
Trang 17Bảng kết quả dự báo thu được
7 So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của
“mpg” Rút ra nhận xét?
> par(mfrow=c(1,1))
> plot(as.vector(data$auto_mpg2.mpg), type = 'l', ylab = 'Value')
> lines((data$predict_mpg), lty = 'dotted')
Trang 18*Nhận xét: Dựa vào biểu đồ ta nhận thấy rằng giá trị dự báo cho mức tiêu thụ nhiên liệu tính theo dặm trên gallon sai lệch không quá nhiều so với giá trị quan sát được Vì vậy mô hình hồi quy tuyến tính M2 tương đối tốt
Trang 19head(new_df)# Lấy những giá trị của dữ liệu my_data gán vào những
biến tương ứng, sau đó lưu lại tập dữ liệu mới new_df
which(is.na())#Output: Vị trí dữ liệu bị khuyết hoặc integer(0)(dữ liệu
không bị khuyết)
Trang 20CA=new_DF$CA, FA=new_DF$FA)#Tạo list biến liên tục
func=function(x) {list(mean(x), median(x), sd(x), min(x), max(x))}
#Tạo hàm tính toán các giá trị thống kế mô tả.
head(new_DF)head(new_df)# Lấy những giá trị của dữ liệu my_data gán vào
những biến tương ứng, sau đó lưu lại tập dữ liệu mới new_df
Trang 21B.Đối với các biến phân loại, hãy lập ra số lượng thống kê từng nhóm.
Trong dữ liệu new_df: ta thấy các đại lượng phân loại bao gồm: Age
Bảng thống kê số lượng theo từng chủng loại
Hãy dùng hàm hist() để vẽ đồ thị phân phối của CCS
hist(new_DF$CCS, main="Phan phoi CCS",col=5,xlab = "CCS")#Vẽ
đồ thị Phan phoi CCS từ new_df, tên đồ thị là "Phân phối CCS"
Trang 22+Hãy dùng hàm boxplot() vẽ phân phối CCS cho từng nhóm phân loại của
biến : Age
• Phân phối biến của CCS theo biến Age
*Nhận xét: Với Age(ngày) = 1, khả năng chịu cường độ nén của bê tông đạt 10Mpa tập trung ở khoảng 50% khối lượng bê tông
Với Age(ngày) = 3 khả năng chịu cường độ nén của bê tông đạt 15Mpa tập trung ở khoảng 25% khối lượng bê tông
Age(ngày) = 120 khả năng chịu cường độ nén của bê tông đạt 40Mpa tập trung gần như toàn bộ khối lượng bê tông
Dùng lệnh pairs() vẽ các phân phối của biến CCS theo các biến: Cement, BFS, Fa, Water, Sp, CA, FA
• Phân phối biến CSS theo biến Cement
boxplot(CCS~Age, data=new_DF, main=c("Phan phoi CCS theo Age"))
pairs(CCS~Cement, data = new_DF, col=c(4),main=c("Phan phoi cua
CCS theo Cement"))
Trang 23*Nhận xét: Số xỉ lò cao tập trung chủ yếu ở 4.5->5.5 0->5 rồi tăng chậm 5->10 rồi lại tăng nhanh.
• Phân phối của biến CCS theo biến Fa:
Trang 24• Phân phối của biến CCS theo biến BFS
pairs(CCS~BFS, data = new_DF, col=c(4),main=c(han phoi cua CCS theo BFS"))
pairs(CCS~Water, data = new_DF, col=c(4),main=c("Phan phoi cua CCS theo Water"))
Trang 25• Phân phối của biến CCS theo biến Sp:
pairs(CCS~Sp, data = new_DF, col=c(4),main=c("Phan phoi cua CCS theo Sp"))
pairs(CCS~CA, data = new_DF, col=c(4),main=c("Phan phoi cua CCS theo CA"))
Trang 26• Phân phối của biến CCS theo biến FA:
Code:
4 Xây dựng mô hình hồi quy tuyến tính
a Xét mô hình hồi quy tuyến tính bao gồm biến showness là một biến phụ thuộc và tất cả các biến còn lại đều là biến độc lập.Hãy dung lệnh lm() để thực thi mô hình hồi quy tuyến tính bội
Code:
pairs(CCS~FA, data = new_DF, col=c(4),main=c("Phan phoi cua CCS theo FA"))
Trang 27b Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn bị loại khỏi mô hình sẽ tương ứng với mức tin cậy 5%?
Giải thuyết độ tin cậy là 𝛼 =0.05
Ta bác bỏ những yếu tố không có ý nghĩa với Pvalue > α = 0.05
=>Loại biến Water
c Xét 2 mô hình tuyến tính với biến CCS là biến phụ thuộc, các biến còn lại là biến độc lập khi :
• M1:Mô hình có biến Cement ,BFS,Water,Sp,CA,FA,Age
• M2:Mô hình không có các biến Age
Code:
summary(M1) # thống kê các trường dữ liệu cơ bản
M1=lm(CCS ~ Cement + BFS + Fa + Water + Sp CA+ FA+Age)
M1
summary(M1)
M2=lm(CCS ~ Cement + BFS + Fa + Water + Sp + CA + FA)
anova(M1,M2)
Trang 28=>giá trị thống kê của F là 441.85 và giá trị p-value rất lớn nên ta chọn mô hình M1 hợp lý hơn vì có ít biến hơn làm cho mô hình đơn giản hơn và không ảnh hưởng tới kết quả
Mô hình M1: