Danh sách các biến chính -Number_of_elements: số nguyên tử - Mass: khói lượng nguyên tử - Fie: năng lượng ion hóa - Radius: bán kính nguyên t tr - Density: mat dé - Electron Affinity:
Trang 1
DAI HQC QUOC GIA THANH PHO HO CHI MINH
TRUONG DAI HOC BACH KHOA KHOA CONG NGHE VAT LIEU
Lớp: P02
Nhóm: 3
Dé tai: DU DOAN NHIỆT ĐỘ TỚI HẠN CỦA CÁC
CHAT SIEU DAN
Thành phố Hà Chí Minh 27/11/2023
Trang 23_ | Võ Lê Kim Ngân 2114160
Trang 3
2 Danh sách các biến chính
-Number_of_elements: số nguyên tử
- Mass: khói lượng nguyên tử
- Fie: năng lượng ion hóa
- Radius: bán kính nguyên t tr
- Density: mat dé
- Electron Affinity: năng lượng liên kết electron
- Fusion Heat: nhiệt độ nóng chảy
- Thermal Conductivity: độ dẫn điện
- Valence: Valence
- Critical Temp: Nhiệt độ tới hạn
Biến chính Đơn vị
Số lượng, Không có đơn vị
nguyễn tô (Số nguyên)
Khóilượng gram/mole
nguyên tử (g/mol)
Bán kính ;
nguyên tử picometer (pm)
Nông nề, ˆ 9 electron volt (eV)
grams per cubic Mật độ centimeter
(g/cm*)
2 dẫn nhiê watts per meter-
Độ dân nhiệt kelvin (Wi(m:K))
Valence Không có đơn vị
Y nghĩa biến
trong hop chat
Cung cáp thông tin về bán kính nguyên tử của các Độc lA
Năng lượng ion hóa là một thuộc tính quan trọng
tả năng lượng cân thiết đề loại bỏ một electron từ Độc lập một nguyên tử hoặc ion
Mật độ là khối lượng của một chát trong một đơn vị
Sự chuyền động của các ion mang điện này sẽ tạo ra một dòng điện từ được gọi là sự dẫn truyền ion Độc lập Valence la sé lién két ma một nguyên tử có thẻ tạo
trong một hợp chát Độc lập
Trang 4Nhiệt độ nóng kilojoules trên Nhiệt độ nóng chảy là lượng năng lượng cần thiết để
chuyên một chát từ trạng thái rắn sang trạng thái lỏ Độc lập chảy một mol (kJ/mol) tại điểm nóng chảy
Nhiệt đô tới Nhiệt độ tới hạn là nhiệt độ mà tại đó một vật liệu -
han Kelvin ( K ) mat tính chát siêu dan cua nó, tức là không còn dãi Phụ thuộc
electron (9V) tỏa ra tương ứng với độ hụt khói của hạt nhân peree
II Kiến thức nền
1 Anova:
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm (tông thê) dựa trên các sô trung bình của các mẫu quan sát từ các nhóm này và thông qua kiêm định giả thuyết đê kết luận vê sự băng nhau của các sô trung bình này Trong nghiễn cứu, phân tích phương, sai được dùng như là một công cụ đê
xem xét ảnh hưởng của một hay một sô yêu tô nguyên nhân (định tính) đến một yếu tố kết quả (định lượng) Ta có các mô hình phân tích phương sai: phân tích
phương sai một yếu tô và phân tích phương sai hai yeu to
Mo hinh phan tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng
kiêm định giả thuyết như sau:
Ho: 1 = H2 = = bk
H1: Tôn tại ít nhật 1 cặp có tị #hj; if j có
Phân tích ANOVA sử dụng trong đê tài: kiêm tra sự khác biệt đáng kê ve
nhiệt độ tới hạn của các vật liệu siêu dân có sô lượng nguyên tô khác nhau
2 Hài quy tuyến tính:
Hỏi quy tuyến tính là một kỹ thuật phân tích dữ liệu dự đoán giá trị của dữ liệu không xác định băng cách sử dụng một giá trị dữ liệu liên quan và đã biệt khác Nó mô hình toán học biên không xác định hoặc phụ thuộc và biên
đã biết hoặc độc lập như một phương trình tuyên tinh
Khái niệm: Đường hồi quy tuyến tính mẫu Y theo X là đường thăng có hàm tuyên tính:
y=Bx+A
Ý nghĩa: Nếu X và Y có tương quan xáp xỉ tuyến tính thì đường hỏi quy cho
ta khả năng dự báo một cách đơn giản:
X=xX0>Y2y0 =Bx0+A
Phuong phap hồi quy tuyến tính sử dụng trong dé tài: dự đoán giá trị Của
biến critical_temp dựa trên các biến độc lập và đánh giá mối quan hệ tuyến tính giữa các biến
Trang 5III Tiền xử lý số liệu
1 Đọc dữ liệu
Dùng lệnh read.csv() đề đọc tập tin
Input:
train_data <- read.csv("C:/Users/Admin/Desktop/train.csv") #Doc di liéu
head(train_data,10) # Xudr 10 dong dau tién cia file dữ liều
Phan con lai xem trong code
2 Tạo mật bộ dữ liệu mới bao gồm các biên ảnh hưởng tới nhiệt độ tới hạn
Tính hệ sô tương quan của các biên theo critical_temp đề lựa chịn các biên
Input:
data_cor <- cor(train_data[ , colnames(train_data) != "critical_temp’],
train_ data$critical_temp) #Láy tất cd cua cét train_ data trừ cót critical_temp
data_cor
Trang 6
@.10226805
@.39879637 -9.02510325 90.34374657 90.56781694 09.38835905 90.69079038 9.30045245 90.54180381 90.58201326 09.19527269 -9.29727212 -9.14377022 -9.49517561 09.55893744
@.60349398
@.65375904 -9.34409981 09.55962857 90.59919866 -9.36826182 -9.43393963
gmean_Density
wtd_gmean_Density entropy_Density wtd_entropy_Density range Density wtd_range Density std_Density wtd_std_Density mean_ElectronAffinity wtd_mean_ElectronAffinity gmean_ElectronAffinity wtd_gmean_ElectronAffinity entropy_ElectronAffinity wtd_entropy_ElectronAffinity range_ElectronAffinity wtd_range_ElectronAffinity std_ElectronAffinity wtd_std_ElectronAffinity mean_FusionHeat wtd_mean_FusionHeat gmean_FusionHeat wtd_gmean_FusionHeat entropy_FusionHeat wtd_entropy_FusionHeat range_FusionHeat wtd_range_FusionHeat std_FusionHeat wtd_std_FusionHeat mean_ThermalConductivity wtd_mean_ThermalConductivity gmean_ThermalConductivity wtd_gmean_ThermalConductivity entropy_ThermalConductivity wtd_entropy_ThermalConductivity
-8.54168441 -9.54004559 90.45716939 09.49019011 9.26053562 -9.28472937 90.11524263 90.29766315 -8.19355049
@.11151585 -9.38956775 -8.19735929 90.43720681 09.23764782 09.27970455 09.18534849 90.26210348 90.31514734 -9 38550926 -9.39411694 -9.43179461 -9.43236451 90.55270871 9.56324427 -@.14071369 -9.31417848 -9.29131006 -@.19557117
@.37581286 9.37933606 -8.38719231 -9.37160145 9.08586207 -8.11672759
Phan con lai xem trong code
$ Nhận xét: Các biên có R > 0.5 có môi tương quan mạnh nên ta sẽ giữ các biến này lại để phân tích
Tạo một tệp con chưa các biến phân tích:
Trang 7
Phan con lai xem trong code
3 Kiếm tra các dữ liệu bị khuyết
Input:
| colSums(is.na(new_ data)) #Kiểm tra dữ liệu b; khuyết ca biến new _ dat] Output:
Trang 8$ Nhận xét: Tệp tin mới không có dữ liệu khuyét
VI Thống kê mô tả
1 Làm rõ dữ liệu Tính các thống kê mô tả cho các biến
Input:
trung_binh<-apply(new_ data,2,mean) # Tính giá tr trung bình ca new_ data
do_lech_chuan<-apply(new_ data,2,sd) # 77ah độ lệch chuđn ca new_ data
gtnn<-apply(new_data,2,min) # Gan gtnn bằng kết qu¿ ca hàm apply cho giá tr; nhỏ gtln<-apply(new_ data,2,max) # Gán gtin bằng kết qu¿ ca hàm apply cho giá tr/ nho | trung_ vi<-apply(new_ data,2,median) # Tính trung v¿ cza hàm new_ data
q1<-apply(new_data,2,quantile, probs=0.25) # Gan Q1 bang két qud cua ham apply ch tri te phan vi thi nhát
q3<-apply(new_data,2,quantile, probs=0.75) # Gan Q3 bang két qud cua ham apply ch
Trang 92 Vẽ đồ thị phân phối tần số cho biến critical_ temp
Input:
hist(new_data$critical_temp,main="Histogram of critical_temp",col=heat.colors(9),labels=T, ylim=c(0,9000))
#Vẽ một biểu đô tần số (histogram) cøa biến critical_temp trong tép dữ |
#Vẽ một biểu đô phan tan (scatter plot) cva bién critical_temp theo |
number_of_elements trong tdép dé liéu new_data
Trang 10#Vẽ mot biéw do phan tan (scatter plot) cua biến critical_temp theo |
wtd_entropy_atomic_mass trong tép dZ liệu new_ data
#Vẽ một biểu đô phan tan (scatter plot) cva bién critical_temp theo |
entropy _fie trong tdép di liéu new_data
Trang 11#Vé mét biéu dé phan tan (scatter plot) trong ngén ngie lap trinh R, ste dung bién range_fie lam trục x va bién critical temp lam truc y, tie tap dit liéu new data
#Vé mét biéu dé phan tan (scatter plot) trong ngôn ngữ lập trinh R, sie dung bién wtd_std fie lam truc x va bién critical temp lam truc y, tie tập đữ liệu new_data
Trang 12#W/ð một biéu dé phan tan (scatter plot), swe dung bién range atomic radius lam truc x va bién critical temp lam truc y, te tap dir liéu new data
Trang 13Input:
plot(new_data$gmean_Density,new_data$critical_temp,col="brown",
xlab="gmean_Density",ylab="critical_temp", main="critical_temp & gmean_Density")
#Vé mét biéu dé phan tan (scatter plot) trong ngôn ngữ lập trình Ñ, sử dụng bién gmean Density lam truc x va bién critical_ temp làm trục y, từ tập đữ liệu new_ data
p
main="critical_temp & wtd_entropy_FusionHeat")
HH một biểu dé phân tan (scatter plot), sử dụng biến wid entropy FusionHeat lam truc x va bién critical temp làm trục y, từ tập dir liéu new data
Trang 14Input:
plot(new_data$wtd_std_ThermalConductivity,new_dataS$critical_temp, col="red" xlab="wtd_std_ThermalConductivity" ylab="critical_temp",
main="critical_temp & wtd_std_ThermalConductivity")
#VE một biểu đồ phân tán (scatter plot), sử dụng biến wid_ std_ ThermalConductivity làm trục x và biến critical_temp lam truc y, tit tập đữ liệu new da1a
Trang 15Input:
plot(new_data$entropy_Valence,new_data$critical_temp,col="brown",
xlab="entropy_ Valence", ylab="critical_temp", main="critical_temp & entropy_Valence")
#Vẽ một biểu đô phân tán , str dung bién entropy Valence lam truc x va bié
critical temp làm trục y, từ tập đữ liệu new data
nguyên tử khác nhau tuân theo phân phôi chuẩn
Gia định về tính đông nhất của phương sai: Phương sai nhiệt độ tới hạn
của các nhóm só lượng nguyên tử bằng nhau
Kiểm tra các giả định
Đối với giả định 1:
Input:
element_1 <-subset(new_data,new_data$number_of_elements==1) qqnorm(element_1$critical_temp)
qqline(element_ 1$critical_ temp)
15
Trang 16Input:
% Nhan xét: Vi pvalue < muc y nghia 5%, nén ta bac bo HO Vay nhiét độ tới hạn ở nhóm element_ 1 không tuân theo phân phôi chuẩn
Trang 17Input:
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_2 không tuân theo phân phôi chuẩn
Trang 19$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ
tới hạn ở nhóm element_4 không tuân theo phân phối chuân
Trang 20Output:
Normal Q-Q Plot
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_5 không tuân theo phân phôi chuẩn
Trang 21Output:
Normal Q-Q Plot
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_6 không tuân theo phân phôi chuẩn
Trang 22Output:
Normal Q-Q Plot
## data: element_7$critical_temp
## W = 0.97338, p-value = 1.146e-10
Giả thuyết H0: Nhiệt độ tới hạn ở nhóm element_7 tuân theo phân phối chuẩn Gia thuyệt H1: Nhiệt độ tới hạn ở nhóm element_7 không tuân theo phân phôi chuan
% Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_7 không tuân theo phân phôi chuẩn
Trang 23Output:
Normal Q-Q Plot
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên ta bác bỏ H0 Vậy nhiệt độ tới hạn ở nhóm element_8 không tuân theo phân phôi chuẩn
23
Trang 24Input:
| shapiro.test(element_ 9$critical_ temp)
Trang 25
Giá thuyết H1: Có ít nhất 2 nhóm có phương sai nhiệt độ tới hạn khác nhau
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên bác bỏ H0 Vậy Có ít nhất 2
nhóm có phương sai nhiệt độ tới hạn khác nhau
Giá thuyết H1: Có ít nhất 2 nhóm có trung bình nhiệt độ tới hạn khác nhau
$ Nhận xét: Vì pvalue < mức ý nghĩa 5%, nên bác bỏ H0 Vậy có sự khác
biệt nhiệt độ tới hạn trung bình ở các nhóm số lượng nguyên tử
1.3 Thực hiện so sánh bội sau anova:
Input:
25
Trang 26Output:
hạn ở các nhóm L đều lớn hơn các nhóm 2
Từ việc so sánh bội, ta rút ra kết luận nhiệt độ tới hạn ở các nhóm 1-2-3 nguyên
tử thấp hơn so với nhóm 4 nguyên tử, thấp hơn so với nhóm 5 nguyên tử, và tháp hơn nhóm 6-7-8-9 nguyên tử Điều đó cho thấy, càng nhiều nguyên tử trong hợp chát thì nhiệt độ tới hạn càng cao
26
Trang 272 Mô hình hài quy
Xét mô hình hồi quy tuyển tính bao gom bién Critical_temp la mét bién phụ thuộc, và tất cá các biến còn lại đều là biến độc láp Dùng lệnh m() để thực thì mô hình hồi quy tuyến tính bội
Estimate Std Error t value Pr@|t
Cantercept) -2.081e+01 4.991e+00 -4.169 3.07e- umber_of elements -3.496e+00 7.480e-01 -4.674 2.97e-
wed gmean_fie 1.984e-01 7.637e-02 2.598 0.0093
std_fie -1.986e-01 2.240e-02 -8.866 < 2e-
Residual standard error: 17.59 on 21181 degrees of Freedom
Xem phản còn lại trong code
27
Trang 28Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mô hình tương ứng với mức tin cậy 5%2
Đặt giá thiết kiêm định:
Họ: Các hệ só hồi quy không có ý nghĩa thống kê
H:: Các hệ só hồi quy có ý nghĩa thống kê
$ Nhận xét: Dựa vào kết quả của mô hình tuyến tính, vì các Pr(|t|) của các biền hầu như đều bé hơn 0,05 tức là điều kiện bác bỏ Họ thỏa mãn nên ta chấp nhận H: nghĩa là các biến này sẽ có hệ số hài quy đem lại ý nghĩa thống ké Trái lại, có một số biến có giá trị Pr(>|t|) > 0.05 tức là điều kiện bác bỏ Họ không thỏa mãn nên ta vẫn phải chấp nhận Họ tức là các biến này sẽ có hệ số hồi quy không
đem lại nhiều ý nghĩa về mặt thống kê Do đó, ta cần loại bỏ các biến đó ra khỏi mô hình
Xét 2 mô hình tuyến tính cùng bao gôm biến Critical_temp là biến ph thuộc
nhưng:
+ Mô hình m¡ chứa tát cá các biến còn lại là biến độc lập
+ Mô hình mạ /à loại bó biến không có ý nghĩa thống kê từ mô hình M1
Estimate Std Error t value PrC>lt|3
range_fie 2.661e-02 2.263e-03 11.760 <« 2e-16 *** wtd_std_fie -9.922e-O02 5.958e-03 -16.653 < 2e-16 *** wtd_entropy_atomic_radius -1.444e+01 2.037e+00 -7.090 1.39e-12 ***
wtd_entropy_FusionHeat 1.001e+01 1.112¢e+00 9.001 ~< 2e-16 *** wtd_std_ThermalConductivity 2.207e-OL 4.233e-03 52.124 ~< 2e-16 ***
Residual standard error: 21.56 on 21249 degrees of freedom
Multiple R-squared: 0.6042, Adjusted R-squared: 0.6039
28