1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo bài tập lớn xác suất thống kê – mt2009 – p02

33 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo bài tập lớn xác suất thống kê – mt2009 – p02
Tác giả Lê Đổng Hải, Trương Minh Lạc, Đỗ Quang Huy, Huỳnh Nhật Hoài Trung, Lê Trần Thiên Trường
Người hướng dẫn PGS.TS. Nguyễn Đình Huy
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh, Trường Đại Học Bách Khoa
Chuyên ngành Xác Suất Thống Kê
Thể loại bài tập lớn
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 33
Dung lượng 9,28 MB

Nội dung

Trong hồi quy tuyến tính bội, ma trận tương quan xác định hệ số tương quan giữa các biến độc lập của mô hình.. Hầu hết các nhà khoa học dữ liệu đều coi đây là bước chính trước khi xây dự

Trang 1

DAI HOC QUOC GIA THANH PHO HO CHI MINH RUONG DAI HOC BACH KHOA

BK

TP.HCM

ÁO CÁO BÀI TẬP LỚN

IC PHAN: XAC SUAT THONG KE — MT2009 — P02

ẢNG VIÊN HƯỚNG DÂN: PGS.TS NGUYÊN ĐÌNH HUY NHÓM 12

OA CÔNG NGHỆ VẬT LIỆU

NAM HOC: 2023-2024

Thông tin sinh viên:

Trang 2

CO SO LY THUYET

1/Lÿ thuyết về ma trận tương quan (correlation matrix)

Ma trận tương quan là một kỹ thuật thống kê được sử dụng đề đánh giá mối quan hệ giữa hai biến trong tập dữ liệu Ma trận là một bảng trong đó môi ô chứa một hệ sô tương quan, trong đó l được coi là mối quan hệ chặt chẽ giữa các biến, 0 được coi là mối quan hệ trung lập vả -l được coi là môi quan hệ không chặt chẽ Nó được sử dụng phố biến nhất trong việc xây đựng các mô hình hồi quy

Trong hồi quy tuyến tính bội, ma trận tương quan xác định hệ số tương quan giữa các biến độc lập của mô hình Băng cách sử dụng ma trận tương quan, bạn có thế hiểu rõ hơn về tập dữ liệu của mình, phân tích nó và trực quan hóa kết quả

Hầu hết các nhà khoa học dữ liệu đều coi đây là bước chính trước khi xây dựng bat ky m6 hinh hoc may nao vi nếu bạn biết biến nào có mối tương quan với nhau, bạn có thể hiểu rõ hơn về điều gì quan trọng nhất đối với mô hình của mình

Ma trận tương quan là một kỹ thuật thống kê cung cấp cho bạn các giá tri tir -1 dén 1

ma ban co thé xac dinh mỗi quan hệ giữa các biến

Cách tính hệ số tương quan Pearson

Có nhiều loại hệ số tương quan, nhưng loại phô biến nhất là tương quan Pearson Chỉ 36 nay do lường sức mạnh và môi quan hệ tuyến tính giữa hai biến Nó không thê đo lường các mối quan hệ phi tuyến giữa hai biến và không thê phân biệt giữa các biến phụ thuộc và biến độc lập

Cov, „: Hiệp phương sai của biến x và y

Độ lệch chuẩn thê hiện độ phân tán dữ liệu từ so với mức trung bình Hiệp phương sai thé hiện mối quan hệ tuyến tính giữa hai biến

2/ Hồi quy tuyến tính

-Hỗi quy là phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến)

-Giới thiệu mô hình hồi quy tuyến tính bội

-Mô hình hồi quy tuyến tính bội có dạng tông quát như sau:

Trang 3

các biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong mo hình không đi, giá trị kỳ vọng của Y sẽ tăng Bi đơn vị nếu tang | don vi u: sai số ngẫu nhiên

chính xác của hàm hồi quy

RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y

và các giá trị nhận được từ hàm hỗi quy

Ý nghĩa:

-R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc

-Nếu R2 = I, nghĩa là đường hồi quy giải thích 100% thay đối của y

-Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y

3/Kiém dinh gia thuyét đối với

biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ

số hồi quy có ý nghĩa thống kê hay không với mức ý nghĩa

e Giả thuyết Hạ: Bị có ý nghĩa thống kê trong mô hình (B; = 0)

e Giả thuyết H¡: Bị không có ý nghĩa thống kê trong mô hình (B; # 0)

-Néu Pr (> |t|) > ơ thì không thê bác bỏ Hụ

-Nếu Pr (> |t) < œ thì bác bỏ Hạ

Ro

Trang 4

BAI TAP LON XAC SUAT THONG KE NHOM: 12 1.Dé bai

Có hai tệp: (L) train.csv chứa 8L đặc điểm được trích xuất từ 21263 chất siêu dẫn cùng với nhiệt độ tới hạn ở cột thứ 82 (2) Unique_m.csv chứa công thức hóa học được chia nhỏ cho tất cả 21263 chất siêu dẫn từ tài liệu train.csv với hai cột cuối cùng có nhiệt độ tới hạn

và công thức hóa học Mục tiêu ở đây là dự đoán nhiệt độ tới hạn dựa trên các đặc điểm được trích xuất

Dữ liệu gốc được cung cấp tại:

https://arehrve.1cs.uei.edu/ml/datasets/Superconductivty+Data

* Các biến chính trong bộ dữ liệu:

1) number of elements ( gồm 86 biến độc lập là các nguyên tổ từ H(1) đến Rn(2))

2) atomic mass gồm 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)

3) ñe gồm 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)

4) atomic radius gdm 10 biến độc lập lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)

5) Density g6m 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)

6) Electron Affinity g6m 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)

7) Fusion Heat gém 10 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)

8) Thermal Conductivity gồm l0 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)

9) Valence gdm I0 biến độc lập lần lượt là (mean,wtd, gmean, wtd gmean, entropy, wtd entropy, range, wtd range, std, wtd std)

10) critical temp

Bién 1 dén 9: bién phụ thuộc

Biến 10: biến được ước lượng bằng mô hình hồi quy

* Yêu cầu: Làm rõ đữ liệu (Data Visualization) và Mô hình đữ liệu (Model Fitting)

Trang 5

BAI TAP LON XAC SUAT THONG KE NHOM: 12 2.Thực hiện

2.1 Đọc dữ liệu (Import Data)

Đọc dữ liệu từ file train.csv và hiến thị nó trong bảng View

train <- read.csv("D:/BKU/XSTK/train.csv")

Đọc dữ liệu từ file unque_m.csv và loại bỏ các cột 'critieal_temp' và 'material'

other <- read.csv('unique_m.csv') %>%

Kết hợp hai bảng df1 và other theo cùng một hàng

df <- cbind(df1, other)

Tao DataFrame X bang cách loại bỏ cột 'critical_temp' từ df

Trang 6

2.2 Lam sach dir liém(Data cleaning)

> Tim dir liéu NA (Missing Value)

Trang 7

BAI TAP LON XAC SUAT THONG KE NHOM: 12 + apply(): dé trả ra đữ liệu ban đầu theo cột

+ is.na(): dé tìm ra vị trí của những giá trị NA (MISSING VALUE) trong tập dữ liệu df

+ sum: đếm dữ liệu khuyết

+ which: để đưa ra vị trí hàng của những đữ liệu đó trong từng cột

+ mean: tính tỉ lệ dữ liệu khuyết

Source

Console Terminal Background Jobs

RR 4.3.2 - ~/BTL XSTK/

mean_atomic_mass wtd_mean_atomic_mass

0 gmean_atomic_mass wtd_gmean_atomic_mass

0 entropy_atomic_mass

0 wtd_entropy_atomic_mass

range_atomic_mass

0 wtd_range_atomic_mass

0 std_atomic_mass

0 wtd_std_atomic_mass

0 mean_fie wtd_mean_fie

0 gmean_fie

0 wtd_gmean_fie

0 entropy_fie

0 wtd_entropy_fie

M

Bảng 2: Kết quả khi kiểm tra đữ liệu khuyết bảng df

2.3 Làm rõ dữ liệu

2.3.1 Tinh ma tran twong quan

Đảm bảo đã cài đặt gói dplyr

Tính ma trận tương quan

Tao dataframe corr

Trang 8

BAI TAP LON XAC SUAT THONG KE NHOM: 12 Sắp xếp đataframe theo giá trị tuyệt đối giảm đần

Loại bỏ cột abs_ corr và cac gia tri NA

| corr <- corr[complete.cases(corr), ] corr <- corr[-1, ]

Dat lai index

| rownames(corr) <- NULL

Hién thi dataframe corr

print(corr)

Trang 9

BAI TAP LON XAC SUAT THONG KE NHOM: 12

ggplot(hist_data, aes(x = Correlation)) + geom_histogram(binwidth = 0.1, fill = "blue",

‘critical_temp'", x = "Correlation") + theme_minimal()

Hình 4: Biếu đồ cột thể hiện mức phân bố của giá trị tương quan của các yếu tô ảnh

9

Trang 10

BAI TAP LON XAC SUAT THONG KE NHOM: 12

hướng nhiệt độ tới hạn

Hinh 5: bang thong ké gid tri vuot qua timg ngưỡng

> Loc các cột kieu dir lieu integer va numeric

ints <- names(X)[sapply(X, is.integer)]

floats <- names(X)[sapply(X, is.numeric) & sapply(X, function(x) !is.integer(x))]

Trang 11

BAI TAP LON XAC SUAT THONG KE NHOM: 12

Vẽ từng biểu để

for (index in seq_along(floats)) {

Vé histogram cho c6t numeric thir index

= "black") }

Điều chỉnh khoảng trắng đề tránh ghi đè lên các biểu đồ tiếp theo

par(mfrow = c(num_rows, num_cols), mar = c(4, 4, 2, 1), oma = c(0, O, 4, 0))

Trang 12

BAI TAP LON XAC SUAT THONG KE NHOM: 12 Nhận xét: Hầu hết các nguyên tô đều chỉ góp mặt ít hơn 5 nguyên tử trong các chất siêu

for (index1 in seq_along(data)) {

for (index2 in seq_along(data)) {

if (index < index2) { # Điều chỉnh ở đây

if (abs(data[index1, index2]) > threshold) {

Trang 13

BAI TAP LON XAC SUAT THONG KE NHOM: 12

CorrelationCoefficient)) + geom_bar(stat = "identity", position = "identity", fill = "blue", color = "black", width = 0.8 + coord_flip() + labs(title = "Correlation between each

theme_minimal()

Trang 14

BAI TAP LON XAC SUAT THONG KE NHOM: 12

Correlation between each feature and temperature

wtd_std fie wtd_std | atomic_ : radius

vtd i range; atomic mass

std_FusionHeat

wtd Lenoy)

lge_fie range_atomic _I radius

range _ mass

Valence range "Thermalcoriductivity

Trang 15

BAI TAP LON XAC SUAT THONG KE NHOM: 12

Vẽ biểu đồ scatter plot giữa cột "en(ropy_atomic_mass” và cột "temperature"

plot(X$entropy_atomic_mass, y, col = "blue", main = "entropy_atomic_mass vs Temp,

Entropy atomic mass

Hình 10: Biểu đồ thể hiện sự phân phối của yếu tô entropy atomic mass toi nhiét dé

Vẽ biểu đồ scatter plot giira cot "wtd_entropy_atomic_mass" va cot "temperature"

plot(X$wtd_entropy_atomic_mass, y, col = "blue", main = "wtd_entropy_atomic_mass

15

Trang 16

BAI TAP LON XAC SUAT THONG KE NHOM: 12

wtd_entropy_atomic_mass vs Temp, corr=0,6269

Hình 11: Biếu đồ thể hiện sự phân phối của yéu to wtd entropy atomic _mass téi nhiét độ

"entropy_ fie", ylab = "temperature")

entropy_fie vs Temp, corr=0,5678

Hình 12: Biểu đồ thể hiện su phan phoi cua yéu t6 entropy fie toi nhiét độ

Vé biéu do scatter plot giira ct "range_fie va cot "temperature"

Trang 17

BAI TAP LON XAC SUAT THONG KE NHOM: 12

Hình 13: Biếu đồ thể hiện sự phân phối của yếu tổ range ƒie tới nhiệt độ

Hình 14: Biếu đồ thể hiện sự phán phối của yếu 16 std | fie toi nhiét dé

Vé biéu do scatter plot giira cot "wtd_std_fie va cot "temperature"

plot(X$wtd_std_fie, y, col = "blue", main = "wtd_std_fie vs Temp, corr=0,5820 ", xlab =

Trang 18

BAI TAP LON XAC SUAT THONG KE NHOM: 12

wtd_std_fie vs Temp, corr=0,5820

Hình 15: Biểu đồ thể hiện sự phán phối của yếu tổ wid std fie toi nhiét dé

Vẽ biểu đồ scatter plot giira cot "entropy_atomic_radius va cot "temperature"

plot(X$entropy_atomic_radius, y, col = "blue", main = "entropy atomic radius vs Temp,

corr=0,5589 ", xlab = "entropy atomic radius", ylab = "temperature")

entropy atomic radius vs Temp, corr=0,5589

entropy atomic radius

Hình 16: Biểu đồ thể hiện sự phân phối của yếu tô entropy atomic radius t6i nhiệt độ

Vé biéu do scatter plot gitra cot "range_atomic_radius va cot "temperature"

plot(X$range_atomic_radius, y, col = "blue", main = "range atomic radius vs Temp,

18

Trang 19

BAI TAP LON XAC SUAT THONG KE NHOM: 12

range atomic radius vs Temp, corr=0,6538

Hình 17: Biểu đô thê hiện sự phân phối của yếu tô range atomie radius tới nhiệt độ

Vẽ biểu đồ scatter plot giira cot "std_atomic_radius va cot "temperature"

plot(X$std_atomic_radius, y, col = "blue", main = "std atomic radius vs Temp,

std atomic radius vs Temp, corr=0,5596

Hình 18: Biểu đồ thể hiện sự phán phối của yếu 16 std atomie radius tới nhiệt độ

Vẽ biểu đồ scatter plot gitra cot "wtd_std_atomic_radius va cot "temperature"

plot(X$wtd_std_atomic_radius, y, col = "blue", main = "wtd std atomic radius vs Temp,

Trang 20

BAI TAP LON XAC SUAT THONG KE NHOM: 12

wtd std atomic radius vs Temp, corr=0,5991

Hình 19: Biểu đồ thể hiện sự phán phối của yếu tô wtd std atomic radius tới nhiệt độ

Vẽ biểu đồ scatter plot giira cot "gmean_density va cot "temperature"

plot(X$gmean_Density, y, col = "blue", main = "gmean density vs Temp, corr=-0,5416 ",

xlab = "gmean density", ylab = temperature")

gmean density vs Temp, corr=-0,5416

Hình 20: Biểu đồ thê hiện sự phân phối của yếu tô gimean density tới nhiệt độ

Vẽ biểu đồ scatter plot gitra cot "wtd_gmean_density va cot "temperature"

plot(X$wtd_gmean_Density, y, col = "blue", main = "wtd gmean density vs Temp,

20

Trang 21

BAI TAP LON XAC SUAT THONG KE NHOM: 12

wtd gmean density vs Temp, corr=-0,5400

Hình 21: Biểu đồ thể hiện sự phân phối của yếu tố wtd gmean density tới nhiệt độ

Vẽ biểu đồ scatter plot giữa cột "entropy_ FusionHeat và cột "temperature" plot(X$entropy_FusionHeat, y, col = "blue", main = "entropy FusionHeat vs Temp,

entropy FusionHeat vs Temp, corr=0,5527

Hình 22: Biểu đồ thê hiện sự phân phối của yếu tô entropy Fusionheat téi nhiét độ

2.4 Xây dựng các mô hình hồi quy tuyến tinh(Linear regresstion)

Ta xây dựng mô hình hỏi quy tuyến tính để đánh giá những các nhân tổ tác động đến tốc

độ dòng chảy của polymer Mô hình hồi quy với với biến phụ thuộc là cridcal_temp, và

21

Trang 22

BAI TAP LON XAC SUAT THONG KE NHOM: 12

range fiemean Valence,wtd std atomic radius,entropy valence,wtd entropy valence

Cu

mean Valence + B8 < wtd_ std atomic radius + 9 x entropy valence + B10 x

std atomic radius + l7 x — entropy atomic radius + B18 x Ba + B19 x entropy _FusionHeat + B20 x entropy atomic mass + B21 x std fie + 22 x gmean_ Density + B23 x wtd_gmean density + B24 x Cu

Ta thực hiện ước lượng các hệ số BI,!=0, , 24

* Lọc các đặc trưng có hệ số tương quan lớn hơn 0.5 tir dataframe "corr"

Ngày đăng: 13/11/2024, 13:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w