Mô hình phân tích phương sai một yếu tô ảnh hưởng được mô tả dưới dạng kiêm định giả thuyết như sau: H1: Tén tai it nhất 1 cap co pi AW LF J Phan tich ANOVA su dung trong dé tai: kiém t
Trang 1
DAI HQC QUOC GIA THANH PHO HO CHI MINH
TRUONG DAI HQC BACH KHOA KHOA CONG NGHE VAT LIEU
BAO CAO BAI TAP LON
Mon hoe: XAC SUAT THONG KE GVHD: Nguyén Dinh Huy
Trang 22 | Nguyén Kién Nhat 2212396
43_ | Võ Lê Kim Ngân 2114160
Trang 31 Đề tài:
Bộ dữ liệu siêu dẫn - tệp dữ liệu này được lay từ Bộ đữ liệu siêu dẫn kagale
Tệp chứa 82 đặc điểm được trích xuất từ 21263 chất siêu dẫn trong đó nhiệt độ
tới hạn ở cột thứ §2 Mục tiêu của nhóm chúng em là tạo ra một mô hỉnh dé du
đoán nhiệt độ tới hạn của 21263 chất siêu dẫn này Nhiệt độ tới hạn của chất
siêu dẫn là nhiệt độ tại đó điện trở suất của kim loại giảm xuống bằng không
2 Danh sách các biến chính
-Number_of elements: số nguyên tử
- Mass: khối lượng nguyên tử
- Fle: năng lượng 1on hóa
- Radius: bán kính nguyên tử
- Density: mật độ
- Electron Affnity: năng lượng liên két electron
- Fusion Heat: nhiệt độ nóng chảy
- Thermal Conductivity: d6 dan dién
- Valence: Valence
- Critical Temp: Nhiét d6 toi han
nguyên tử hoặc Ion
(g/cm?)
Nhiệt độ nóng chảy là lượng năng lượng cần thiết dé chuyên một chât từ trạng thái rắn sang trạng thái lỏng _ Độc lập tại điểm nóng chảy
Nhiệt độ nóng _kiloJoules trên
Trang 4Nhiệt độ tới Kelvin (K ) Nhiệt độ tới hạn là nhiệt độ mà tại đó một vật liệu mất tính chât siêu dân của nó, tức là không còn dân
H Kiến thức nền
1 Anova:
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm
(tổng thể) dựa trên các số trung bình của các mẫu quan sát từ các nhóm này và
thông qua kiểm định giả thuyết để kết luận về sự bằng nhau của các số trung
bình này
Trong nghiên cứu, phân tích phương sai được dùng như là một công cụ dé
xem xét ảnh hưởng của một hay một sô yếu tô nguyên nhân (định tính) đến một
yếu tô kết quả (định lượng) Fa có các mô hình phân tích phương sai: phân tích
phương sai một yếu tố và phân tích phương sai hai yếu tố
Mô hình phân tích phương sai một yếu tô ảnh hưởng được mô tả dưới dạng
kiêm định giả thuyết như sau:
H1: Tén tai it nhất 1 cap co pi AW LF J
Phan tich ANOVA su dung trong dé tai: kiém tra sự khác biệt đáng kế về
nhiệt độ tới hạn của các vật liệu siêu dẫn có số lượng nguyên tố khác nhau
2 Hồi quy tuyến tính:
Hồi quy tuyến tính là một kỹ thuật phân tích dữ liệu dự đoán giá trị của dữ
liệu không xác định băng cách sử dụng một giá trị dữ liệu liên quan và đã
biết khác Nó mô hình toán học biên không xác định hoặc phụ thuộc vả
biên đã biết hoặc độc lập như một phương trình tuyên tính
Khái niệm: Đường hồi quy tuyến tính mẫu Y theo X là đường thắng có hàm
tuyên tính:
y=Bxt+A
Ý nghĩa: Nếu X và Y có tương quan xấp xỉ tuyến tính thì đường hồi quy cho
ta khả năng dự báo một cách đơn giản:
Phương pháp hỏi quy tuyến tính sử dụng trong dé tai: dự đoán giá trị của
bién critical temp dia trén cac biên độc lập và đánh giá môi quan hệ tuyên tính
giữa các biên
Phụ thuộc
Độc lập
Trang 5data_cor <- cor(train_data| , colnames(train_data) != "critical_temp"],
train_dataS$critical_temp) #Ldy tat ca cua cét train data trv c6t critical temp
Output:
Trang 6Phan con lai xem trong code
% Nhận xét: Các biến có R > 0.5 có mối tương quan mạnh nên ta sẽ giữ các biến nảy lại dé phan tich
Tạo một tệp con chưa các biến phân tích:
Trang 7Phần còn lại xem trong code
3 Kiem tra cac dir liéu bị khuyết
Trang 8%$ Nhận xét: Tệp tin mới không có đữ liệu khuyết
IV Thống kê mô tả
1 Làm rõ đữ liệu Tính các thông kê mô tả cho các biến
Input:
trung_binh<-apply(new_data,2,mean) # Tinh giá trị trung bình của new'_ data
do_lech_chuan<-apply(new_ data,2,sd) # 7ính độ lệch chuẩn của new data
gtnn<-apply(new_data,2,min) # Gdn ginn bang két quả của hàm apply cho giá trị nhỏ nhất gtIn<-apply(new_data,2,max) # Gdn gtln bang két qua ctia ham apply cho gid tri nho nhat trung_vi<-apply(new_data,2,median) # Tinh trung vi cua ham new data
ql<-apply(new_data,2,quantile,probs=0.25) # Gdn O1 bang kết quả của ham apply cho giá trị tứ phân vị thứ nhất
q3<-apply(new_data,2,quantile,probs=0.75) # Gdn Q3 bằng kết quả của hàm apply cho giá trị tứ phán vị thư ba
t(data.frame(trung_binh,do_lech_chuan,gtnn,gtIn,trung_vi,ql,q3)) #Chuyén vi mot data frame được tạo bằng cách kết hợp các biến trung bình, do lech chuan, trung vì, O1 và Ó3 Output:
Trang 92 Vẽ đồ thị phân phối tần số cho biến critical temp Input:
#Vé m6t biéu dé phan tan (scatter plot) cua bién critical temp theo biến
Trang 10Input:
plot(new_data$wtd_entropy_atomic_mass,new_data$critical_temp,col
="blue",xlab="wtd_entropy_atomic_mass",ylab
entropy_atomic_mass") tWẽ một biểu đồ phân tán (scatter plot) cia bién critical temp theo biển wid entropy atomic mass trong tap dir liéu new data
plot(new_data$entropy_fie,new_dataS$critical_ temp,col="black",
xlab="entropy_fie" ,ylab="critical_ temp",
#Vé m6t biéu dé phan tan (scatter plot) cua bién critical temp theo biến
Trang 11p
Input:
plot(new_data$range_fieynew_data$critical_temp,col="brown4",
main="critical_temp & range_fie")
#Vé mot biéu dé phan tan (scatter plot) trong ngôn ngữ lập trình R, sw dung bién range fie lam truc x va bién critical temp lam truc y, tr tap div liéu new data
plot(new_data$wtd_std_fienew_data$critical_temp,col="darkorange",
xlab="Wwtd_std_fie",ylab="critical_temp", main="critical_ temp & wtd_std_fie"')
#Vé mot biéu dé phan tan (scatter plot) trong ngôn ngữ lập trình R, sử dụng biển wid sid fie làm trục x và biến critical temp lam truc y, tie tap die liéu new data
Output:
critical_temp & wtd_std_fie
Trang 12wtd entropy atomic radius lam truc x và biển critical temp lam truc y, tir tập dữ liệu new data
"
’
—"
xlab="range_atomic_radius",ylab="critical_temp",
#Vé mot biéu do phan tan (scatter plot), sie dung bién range atomic radius lam truc x va bién critical temp lam truc y, tir tap dit liéu new data
Output:
critical_temp & range_atomic_radius
Trang 13Input:
plot(new_data$gmean_Density,new_data$critical_temp,col="brown",
xlab="gmean_Density",ylab="critical_temp", main="critical_temp & gmean_Density")
#&V⁄ẽ một biếu đô phân tán (scatter plot) trong ngôn ngữ lập trình Ñ, sử dụng bién gmean Density lam truc x và biến critical temp làm trục y, từ tập đữ liéu new data
wtd entropy FusionHeat lam truc x va bién critical temp làm trục y, từ tập dit liéu new data
Trang 14Input:
plot(new_data$wtd_std_ThermalConductivity,new_data$critical_temp, col="red" ,xlab="wtd_std_ThermalConductivity" ,ylab="'critical_temp",
wtd_std ThermalConductivity lam trục x và biến critical temp làm trục y, từ tập dữ liệu new da1a
#Vé mét biéu do phan tan (scatter plot) , ste dung bién wtd_ mean Valence lam truc x va bién critical temp làm trục y, từ tập đữ liệu new_ daia
Trang 15Input:
HƯẽ một biểu đô phân tán , ste dung bién entropy Valence lam truc x va bién critical temp lam truc y, tir tap dit liéu new data
So sánh nhiệt độ tới hạn ở các nhóm số lượng nguyên tử trong hợp chất
Các giả định cần kiểm tra:
nguyên tử khác nhau tuân theo phân phối chuẩn
của các nhóm số lượng nguyên tử bằng nhau
Kiểm tra các giả định
Đối với giả định 1:
Input:
element_1 <-subset(new_data,new_data$number_of_elements==1)
Trang 16$ Nhận xét: Đa số các quan trắc năm lệch khỏi đường thắng kỳ vọng phân
phối chuân nên nhiệt độ tới hạn 6 nhom element 1 không tuân theo
phân phối chuẩn
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_1 không tuân theo phân phối chuẩn
Trang 17$ Nhận xét: Đa số các quan trắc năm lệch khỏi đường thắng kỳ vọng phân phối chuẩn nên nhiệt độ tới hạn ở nhóm element 2 không tuân theo phân phối chuẩn
Input:
Output:
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_2 không tuân theo phân phối chuẩn
Output:
17
Trang 18$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_3 không tuân theo phân phối chuẩn
Trang 19Output:
Normal Q-Q Plot
$ Nhận xét: Đa số các quan trắc nằm lệch khỏi đường thăng kỳ vọng phân
phân phôi chuân
Giả thuyết HI: Nhiệt độ tới hạn ở nhóm element_4 không tuân theo phân phối chuẩn
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_4 không tuân theo phân phối chuẩn
19
Trang 20$ Nhận xét: Đa số các quan trắc nằm lệch khỏi đường thăng kỳ vọng phân
phân phôi chuân
Input:
| ad.test(element_5$critical_temp)
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_5 không tuân theo phân phối chuẩn
Trang 21$ Nhận xét: Đa số các quan trắc nằm lệch khỏi đường thăng kỳ vọng phân
phân phôi chuân
Input:
| shapiro.test(element_6S$critical_ temp)
Giả thuyết HI: Nhiệt độ tới hạn ở nhóm element_6 không tuân theo phân phối chuẩn
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_6 không tuân theo phân phối chuẩn
Trang 22Normal Q-Q Plot
$ Nhận xét: Đa số các quan trắc nằm lệch khỏi đường thăng kỳ vọng phân
phân phôi chuân
Gia thuyét HO: Nhiét d6 téi han 6 nhom element_7 tudn theo phan phéi chuan Giả thuyết HI: Nhiệt độ tới hạn ở nhóm element_7 không tuân theo phân phối chuẩn
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_7 không tuân theo phân phối chuẩn
Trang 23$ Nhận xét: Đa số các quan trắc nằm lệch khỏi đường thăng kỳ vọng phân
phân phôi chuân
Input:
| shapiro.test(element 8Scritical temp)
Giả thuyết HI: Nhiệt độ tới hạn ở nhóm element_8 không tuân theo phân phối chuẩn
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_8 không tuân theo phân phối chuẩn
Trang 24% Nhén xét: Da sé cac quan trac nam trén khoi duong thang ky vong phân
chuân
Input:
| shapiro.test(element_9$critical_temp)
Giả thuyết HI: Nhiệt độ tới hạn ở nhóm element_8 không tuân theo phân phối chuẩn
% Nhận xét: Vì pvalue > mức ý nghĩa 5%, nên chấp nhận H0 Vậy nhiệt
độ tới hạn ở nhóm element_9 tuân theo phân phối chuẩn
Đối với giả định 2
Trang 25Giả thuyết HI: Có ít nhất 2 nhóm có phương sai nhiệt độ tới hạn khác nhau
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên bác bỏ H0 Vậy Có ít nhất
2 nhóm có phương sai nhiệt độ tới hạn khác nhau
1.2 Thực hiện ANOVA
Giả thuyết HI: Có ít nhất 2 nhóm có trung bình nhiệt độ tới hạn khác nhau
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên bác bỏ H0 Vậy có sự khác biệt nhiệt độ tới hạn trung bình ở các nhóm số lượng nguyên tử
1.3 Thực hiện so sánh bội sau anova:
Input:
| TukeyHSD(model_anova)
25
Trang 26Output:
- 8800000 9999990 9000117 99000990 9999990
Giả thuyết H0: Trung bình nhiệt độ tới hạn 6 2 nhom bang nhau
Giả thuyết HI: Trung bình nhiệt độ tới hạn ở 2 nhóm khác nhau
& Nhận xét: Vì pvalue ở các cặp nhóm 2-1,3-1,9-6,9-7,9-8 lén hơn mức ý nghĩa 5% nên ta chấp nhận H0 Vậy không có sự khác biệt về trung bình nhiệt độ tới hạn ở các cặp nhóm này
Đối với các cặp còn lại có pvalue bé hơn mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận HI Tức có sự khác biệt về nhiệt độ tới hạn trung bình ở các cặp này
Mặt khác thì diff đều nhận giả trị dương, nên chứng tỏ trung bình nhiệt độ tới hạn ở các nhóm I đều lớn hơn các nhóm 2
Từ việc so sánh bội, ta rút ra kết luận nhiệt độ tới hạn ở các nhóm 1-2-3 nguyên
tử thấp hơn so với nhóm 4 nguyên tử, thấp hơn so với nhóm 5 nguyên tử, và
thấp hơn nhóm 6-7-8-9 nguyên tử Điều đó cho thấy, càng nhiều nguyên tử
trong hợp chất thì nhiệt độ tới hạn cảng cao
26
Trang 272 Mô hình hồi quy
Xét mô hình hôi quy tuyến tỉnh bao gôm biến Crifical_ temp là một biến
phụ thuộc, và tất cả các biến còn lại đều là biến độc lập Dùng lệnh lm\()
đề thực thì mô hình hôi quy tuyến tính bội
Estimate Std Error t value Pr(>|t])
Signif codes: 0 ‘***' 0.001 ‘**' 0.01 #' 0.0501“ '1
Residual standard error: 17.59 on 21181 degrees of freedom
F-statistic: 733.8 on 81 and 21181 DF, p-value: < 2.2e-16
Xem phần còn lại trong code Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ
loại khỏi mô hình tương ứng với mức tin cậy 5%?
Đặt giả thiết kiêm định:
Ho: Cac hé sé héi quy không có ý nghĩa thống kê
H¡: Các hệ số hồi quy có ý nghĩa thông kê
% Nhận xét: Dựa vào kết quả của mô hình tuyến tính, vì các Pr(=|t|)
của các biển hầu như đều bé hơn 0,05 tức là điều kiện bác bỏ Hạ thỏa mãn nên ta chấp nhận H¡ nghĩa là các biến này sẽ có hệ số hồi
27
Trang 28quy đem lại ý nghĩa thống kế Trái lại, có một số biến có giá trị
Pr(|tl) > 0.05 tức là điều kiện bác bỏ Hạ không thỏa mãn nên ta van phải chấp nhận Hạ tức là các biến này sẽ có hệ số hồi quy
không đem lại nhiều ý nghĩa về mặt thống kê Do đó, ta cần loại bỏ
các biến đó ra khỏi mô hình
Xét 2 mô hình tuyễn tính cùng bao gồm biến Criticadl_ temp là biến phụ thuộc
nhưng:
+ ÄMô hình mị chứa tất cả các biến còn lại là biến độc lập
Estimate Std_ Error t value Prc>/|t!)
Residual standard error: 21.56 on 21249 degrees of freedom
VỊ Thảo luận và mở rộng
1 Dùng lệnhh anova() để đề xuất mô hình hồi quy hợp lý hơn
Qua đó, đưa ra nhận xét sẽ chọn mô hình hợp lý hơn và vẽ đồ thì mô
hình đã chọn
Đặt giả thuyết kiểm định:
H›: Hai mô hình mị và m; hiệu quả giống nhau
H¡: Hai mô hình mị và mạ hiệu quả khác nhau
Input:
28