Trong hồi quy tuyến tính bội, ma trận tương quan xác định hệ số tương quan giữa các biến độc lập của mô hình.. Hầu hết các nhà khoa học dữ liệu đều coi đây là bước chính trước khi xây dự
Trang 1DAI HOC QUOC GIA THANH PHO HO CHI MINH RUONG DAI HOC BACH KHOA
BK
TP.HCM
ÁO CÁO BÀI TẬP LỚN
IC PHAN: XAC SUAT THONG KE — MT2009 — P02
ẢNG VIÊN HƯỚNG DÂN: PGS.TS NGUYÊN ĐÌNH HUY NHÓM 12
OA CÔNG NGHỆ VẬT LIỆU
NAM HOC: 2023-2024
Thông tin sinh viên:
Trang 2
CO SO LY THUYET
1/Lÿ thuyết về ma trận tương quan (correlation matrix)
Ma trận tương quan là một kỹ thuật thống kê được sử dụng đề đánh giá mối quan hệ giữa hai biến trong tập dữ liệu Ma trận là một bảng trong đó môi ô chứa một hệ sô tương quan, trong đó l được coi là mối quan hệ chặt chẽ giữa các biến, 0 được coi là mối quan hệ trung lập vả -l được coi là môi quan hệ không chặt chẽ Nó được sử dụng phố biến nhất trong việc xây đựng các mô hình hồi quy
Trong hồi quy tuyến tính bội, ma trận tương quan xác định hệ số tương quan giữa các biến độc lập của mô hình Băng cách sử dụng ma trận tương quan, bạn có thế hiểu rõ hơn về tập dữ liệu của mình, phân tích nó và trực quan hóa kết quả
Hầu hết các nhà khoa học dữ liệu đều coi đây là bước chính trước khi xây dựng bat ky m6 hinh hoc may nao vi nếu bạn biết biến nào có mối tương quan với nhau, bạn có thể hiểu rõ hơn về điều gì quan trọng nhất đối với mô hình của mình
Ma trận tương quan là một kỹ thuật thống kê cung cấp cho bạn các giá tri tir -1 dén 1
ma ban co thé xac dinh mỗi quan hệ giữa các biến
Cách tính hệ số tương quan Pearson
Có nhiều loại hệ số tương quan, nhưng loại phô biến nhất là tương quan Pearson Chỉ 36 nay do lường sức mạnh và môi quan hệ tuyến tính giữa hai biến Nó không thê đo lường các mối quan hệ phi tuyến giữa hai biến và không thê phân biệt giữa các biến phụ thuộc và biến độc lập
Cov, „: Hiệp phương sai của biến x và y
Độ lệch chuẩn thê hiện độ phân tán dữ liệu từ so với mức trung bình Hiệp phương sai thé hiện mối quan hệ tuyến tính giữa hai biến
2/ Hồi quy tuyến tính
-Hỗi quy là phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến)
-Giới thiệu mô hình hồi quy tuyến tính bội
-Mô hình hồi quy tuyến tính bội có dạng tông quát như sau:
Trang 3các biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong mo hình không đi, giá trị kỳ vọng của Y sẽ tăng Bi đơn vị nếu tang | don vi u: sai số ngẫu nhiên
chính xác của hàm hồi quy
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y
và các giá trị nhận được từ hàm hỗi quy
Ý nghĩa:
-R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc
-Nếu R2 = I, nghĩa là đường hồi quy giải thích 100% thay đối của y
-Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y
3/Kiém dinh gia thuyét đối với
biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ
số hồi quy có ý nghĩa thống kê hay không với mức ý nghĩa
e Giả thuyết Hạ: Bị có ý nghĩa thống kê trong mô hình (B; = 0)
e Giả thuyết H¡: Bị không có ý nghĩa thống kê trong mô hình (B; # 0)
-Néu Pr (> |t|) > ơ thì không thê bác bỏ Hụ
-Nếu Pr (> |t) < œ thì bác bỏ Hạ
Ro
Trang 4BAI TAP LON XAC SUAT THONG KE NHOM: 12 1.Dé bai
Có hai tệp: (L) train.csv chứa 8L đặc điểm được trích xuất từ 21263 chất siêu dẫn cùng với nhiệt độ tới hạn ở cột thứ 82 (2) Unique_m.csv chứa công thức hóa học được chia nhỏ cho tất cả 21263 chất siêu dẫn từ tài liệu train.csv với hai cột cuối cùng có nhiệt độ tới hạn
và công thức hóa học Mục tiêu ở đây là dự đoán nhiệt độ tới hạn dựa trên các đặc điểm được trích xuất
Dữ liệu gốc được cung cấp tại:
https://arehrve.1cs.uei.edu/ml/datasets/Superconductivty+Data
* Các biến chính trong bộ dữ liệu:
1) number of elements ( gồm 86 biến độc lập là các nguyên tổ từ H(1) đến Rn(2))
2) atomic mass gồm 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)
3) ñe gồm 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)
4) atomic radius gdm 10 biến độc lập lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)
5) Density g6m 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)
6) Electron Affinity g6m 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)
7) Fusion Heat gém 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)
8) Thermal Conductivity gồm l0 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)
9) Valence gdm I0 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)
10) critical temp
Bién 1 dén 9: bién phụ thuộc
Biến 10: biến được ước lượng bằng mô hình hồi quy
* Yêu cầu: Làm rõ đữ liệu (Data Visualization) và Mô hình đữ liệu (Model Fitting)
Trang 5BAI TAP LON XAC SUAT THONG KE NHOM: 12 2.Thực hiện
2.1 Đọc dữ liệu (Import Data)
Đọc dữ liệu từ file train.csv và hiến thị nó trong bảng View
train <- read.csv("D:/BKU/XSTK/train.csv")
Đọc dữ liệu từ file unque_m.csv và loại bỏ các cột 'critieal_temp' và 'material'
other <- read.csv('unique_m.csv') %>%
Kết hợp hai bảng df1 và other theo cùng một hàng
df <- cbind(df1, other)
Tao DataFrame X bang cách loại bỏ cột 'critical_temp' từ df
Trang 62.2 Lam sach dir liém(Data cleaning)
> Tim dir liéu NA (Missing Value)
Trang 7BAI TAP LON XAC SUAT THONG KE NHOM: 12 + apply(): dé trả ra đữ liệu ban đầu theo cột
+ is.na(): dé tìm ra vị trí của những giá trị NA (MISSING VALUE) trong tập dữ liệu df
+ sum: đếm dữ liệu khuyết
+ which: để đưa ra vị trí hàng của những đữ liệu đó trong từng cột
+ mean: tính tỉ lệ dữ liệu khuyết
Source
Console Terminal Background Jobs
RR 4.3.2 - ~/BTL XSTK/
mean_atomic_mass wtd_mean_atomic_mass
0 gmean_atomic_mass wtd_gmean_atomic_mass
0 entropy_atomic_mass
0 wtd_entropy_atomic_mass
range_atomic_mass
0 wtd_range_atomic_mass
0 std_atomic_mass
0 wtd_std_atomic_mass
0 mean_fie wtd_mean_fie
0 gmean_fie
0 wtd_gmean_fie
0 entropy_fie
0 wtd_entropy_fie
M
Bảng 2: Kết quả khi kiểm tra đữ liệu khuyết bảng df
2.3 Làm rõ dữ liệu
2.3.1 Tinh ma tran twong quan
Đảm bảo đã cài đặt gói dplyr
Tính ma trận tương quan
Tao dataframe corr
Trang 8
BAI TAP LON XAC SUAT THONG KE NHOM: 12 Sắp xếp đataframe theo giá trị tuyệt đối giảm đần
Loại bỏ cột abs_ corr và cac gia tri NA
| corr <- corr[complete.cases(corr), ] corr <- corr[-1, ]
Dat lai index
| rownames(corr) <- NULL
Hién thi dataframe corr
print(corr)
Trang 9BAI TAP LON XAC SUAT THONG KE NHOM: 12
ggplot(hist_data, aes(x = Correlation)) + geom_histogram(binwidth = 0.1, fill = "blue",
‘critical_temp'", x = "Correlation") + theme_minimal()
Hình 4: Biếu đồ cột thể hiện mức phân bố của giá trị tương quan của các yếu tô ảnh
9
Trang 10BAI TAP LON XAC SUAT THONG KE NHOM: 12
hướng nhiệt độ tới hạn
Hinh 5: bang thong ké gid tri vuot qua timg ngưỡng
> Loc các cột kieu dir lieu integer va numeric
ints <- names(X)[sapply(X, is.integer)]
floats <- names(X)[sapply(X, is.numeric) & sapply(X, function(x) !is.integer(x))]
Trang 11BAI TAP LON XAC SUAT THONG KE NHOM: 12
Vẽ từng biểu để
for (index in seq_along(floats)) {
Vé histogram cho c6t numeric thir index
= "black") }
Điều chỉnh khoảng trắng đề tránh ghi đè lên các biểu đồ tiếp theo
par(mfrow = c(num_rows, num_cols), mar = c(4, 4, 2, 1), oma = c(0, O, 4, 0))
Trang 12BAI TAP LON XAC SUAT THONG KE NHOM: 12 Nhận xét: Hầu hết các nguyên tô đều chỉ góp mặt ít hơn 5 nguyên tử trong các chất siêu
for (index1 in seq_along(data)) {
for (index2 in seq_along(data)) {
if (index < index2) { # Điều chỉnh ở đây
if (abs(data[index1, index2]) > threshold) {
Trang 13BAI TAP LON XAC SUAT THONG KE NHOM: 12
CorrelationCoefficient)) + geom_bar(stat = "identity", position = "identity", fill = "blue", color = "black", width = 0.8 + coord_flip() + labs(title = "Correlation between each
theme_minimal()
Trang 14
BAI TAP LON XAC SUAT THONG KE NHOM: 12
Correlation between each feature and temperature
wtd_std fie wtd_std | atomic_ : radius
vtd i range; atomic mass
std_FusionHeat
wtd Lenoy)
lge_fie range_atomic _I radius
range _ mass
Valence range "Thermalcoriductivity
Trang 15BAI TAP LON XAC SUAT THONG KE NHOM: 12
Vẽ biểu đồ scatter plot giữa cột "en(ropy_atomic_mass” và cột "temperature"
plot(X$entropy_atomic_mass, y, col = "blue", main = "entropy_atomic_mass vs Temp,
Entropy atomic mass
Hình 10: Biểu đồ thể hiện sự phân phối của yếu tô entropy atomic mass toi nhiét dé
Vẽ biểu đồ scatter plot giira cot "wtd_entropy_atomic_mass" va cot "temperature"
plot(X$wtd_entropy_atomic_mass, y, col = "blue", main = "wtd_entropy_atomic_mass
15
Trang 16BAI TAP LON XAC SUAT THONG KE NHOM: 12
wtd_entropy_atomic_mass vs Temp, corr=0,6269
Hình 11: Biếu đồ thể hiện sự phân phối của yéu to wtd entropy atomic _mass téi nhiét độ
"entropy_ fie", ylab = "temperature")
entropy_fie vs Temp, corr=0,5678
Hình 12: Biểu đồ thể hiện su phan phoi cua yéu t6 entropy fie toi nhiét độ
Vé biéu do scatter plot giira ct "range_fie va cot "temperature"
Trang 17
BAI TAP LON XAC SUAT THONG KE NHOM: 12
Hình 13: Biếu đồ thể hiện sự phân phối của yếu tổ range ƒie tới nhiệt độ
Hình 14: Biếu đồ thể hiện sự phán phối của yếu 16 std | fie toi nhiét dé
Vé biéu do scatter plot giira cot "wtd_std_fie va cot "temperature"
plot(X$wtd_std_fie, y, col = "blue", main = "wtd_std_fie vs Temp, corr=0,5820 ", xlab =
Trang 18
BAI TAP LON XAC SUAT THONG KE NHOM: 12
wtd_std_fie vs Temp, corr=0,5820
Hình 15: Biểu đồ thể hiện sự phán phối của yếu tổ wid std fie toi nhiét dé
Vẽ biểu đồ scatter plot giira cot "entropy_atomic_radius va cot "temperature"
plot(X$entropy_atomic_radius, y, col = "blue", main = "entropy atomic radius vs Temp,
corr=0,5589 ", xlab = "entropy atomic radius", ylab = "temperature")
entropy atomic radius vs Temp, corr=0,5589
entropy atomic radius
Hình 16: Biểu đồ thể hiện sự phân phối của yếu tô entropy atomic radius t6i nhiệt độ
Vé biéu do scatter plot gitra cot "range_atomic_radius va cot "temperature"
plot(X$range_atomic_radius, y, col = "blue", main = "range atomic radius vs Temp,
18
Trang 19BAI TAP LON XAC SUAT THONG KE NHOM: 12
range atomic radius vs Temp, corr=0,6538
Hình 17: Biểu đô thê hiện sự phân phối của yếu tô range atomie radius tới nhiệt độ
Vẽ biểu đồ scatter plot giira cot "std_atomic_radius va cot "temperature"
plot(X$std_atomic_radius, y, col = "blue", main = "std atomic radius vs Temp,
std atomic radius vs Temp, corr=0,5596
Hình 18: Biểu đồ thể hiện sự phán phối của yếu 16 std atomie radius tới nhiệt độ
Vẽ biểu đồ scatter plot gitra cot "wtd_std_atomic_radius va cot "temperature"
plot(X$wtd_std_atomic_radius, y, col = "blue", main = "wtd std atomic radius vs Temp,
Trang 20
BAI TAP LON XAC SUAT THONG KE NHOM: 12
wtd std atomic radius vs Temp, corr=0,5991
Hình 19: Biểu đồ thể hiện sự phán phối của yếu tô wtd std atomic radius tới nhiệt độ
Vẽ biểu đồ scatter plot giira cot "gmean_density va cot "temperature"
plot(X$gmean_Density, y, col = "blue", main = "gmean density vs Temp, corr=-0,5416 ",
xlab = "gmean density", ylab = temperature")
gmean density vs Temp, corr=-0,5416
Hình 20: Biểu đồ thê hiện sự phân phối của yếu tô gimean density tới nhiệt độ
Vẽ biểu đồ scatter plot gitra cot "wtd_gmean_density va cot "temperature"
plot(X$wtd_gmean_Density, y, col = "blue", main = "wtd gmean density vs Temp,
20
Trang 21BAI TAP LON XAC SUAT THONG KE NHOM: 12
wtd gmean density vs Temp, corr=-0,5400
Hình 21: Biểu đồ thể hiện sự phân phối của yếu tố wtd gmean density tới nhiệt độ
Vẽ biểu đồ scatter plot giữa cột "entropy_ FusionHeat và cột "temperature" plot(X$entropy_FusionHeat, y, col = "blue", main = "entropy FusionHeat vs Temp,
entropy FusionHeat vs Temp, corr=0,5527
Hình 22: Biểu đồ thê hiện sự phân phối của yếu tô entropy Fusionheat téi nhiét độ
2.4 Xây dựng các mô hình hồi quy tuyến tinh(Linear regresstion)
Ta xây dựng mô hình hỏi quy tuyến tính để đánh giá những các nhân tổ tác động đến tốc
độ dòng chảy của polymer Mô hình hồi quy với với biến phụ thuộc là cridcal_temp, và
21
Trang 22BAI TAP LON XAC SUAT THONG KE NHOM: 12
range fiemean Valence,wtd std atomic radius,entropy valence,wtd entropy valence
Cu
mean Valence + B8 < wtd_ std atomic radius + 9 x entropy valence + B10 x
std atomic radius + l7 x — entropy atomic radius + B18 x Ba + B19 x entropy _FusionHeat + B20 x entropy atomic mass + B21 x std fie + 22 x gmean_ Density + B23 x wtd_gmean density + B24 x Cu
Ta thực hiện ước lượng các hệ số BI,!=0, , 24
* Lọc các đặc trưng có hệ số tương quan lớn hơn 0.5 tir dataframe "corr"