Làm ạch ữ liệu Data cleaning .... Làm ạch ữ liệu Data cleaning ..... số hàm phân ph i xác su t thông d ng, kiố ấ ụ ểm định giả thuyết, ước lượng kho ng tin c y, ả ậv.v…Thông qua thống kê
Trang 1
Mã th t báo cáo nhóm: B42ứ ự
Trang 21
MỤC L C Ụ
Lời mở u đầ 2
Phầ đền bài 3
A Phần chung 3
B Phầ rin êng 4
Phần l i gi i 6 ờ ả A Ph n chung ầ 6
1 Đọc d ữ liệu 6
2 Làm ạch ữ liệu (Data cleaning) 6 s d 3 Làm rõ d ữ liệu (Data visualization) 7
4 X dây ựng ác c mô hình ồ h i quy tuy n tính (Fitting linear regression models) ế 12
5 D b (Predictions) ự áo 15
B Ph n êng ầ ri 1 Đọc d ữ liệu 17
2 Làm ạch ữ liệu (Data cleaning) 17 s d 3 Làm rõ d ữ liệu (Data visualization) 17
4 X dây ựng ác c mô hình ồ h i quy tuy n tính (Fitting linear regression models) ế 27
5 D b (Predictions) ự áo 32
Trang 3số hàm phân ph i xác su t thông d ng, kiố ấ ụ ểm định giả thuyết, ước lượng kho ng tin c y, ả ậv.v…Thông qua thống kê, các dữ liệu thu thập được phân tích theo nhi u tiêu chí khác ềnhau giúp người sử dụng có cái nhìn t ng quan v d ổ ề ữ liệu của họ, đưa ra được ước lượng
về t ng th lổ ể ớn hơn hay dự đoán mô hình và kiểm định lại giả thuy t theo các mế ức ý nghĩa khác nhau
Trong riêng lĩnh vực Kỹ thuật Hóa h c, r t nhi u nghiên c u cọ ấ ề ứ ần có các d liữ ệ ừu t ực thnghiệm để nghiên cứu như tính chất của h p ch t, tính hi u qu c a s n ph m, hi u suợ ấ ệ ả ủ ả ẩ ệ ất phản ứng ở các điều ki n phệ ản ứng khác nhau, v.v Vì v y tính ậ ứng d ng của Xác su t & ụ ấthống kê trong K thu t Hóa h c r t cao, là n n t ng, là tiỹ ậ ọ ấ ề ả ền đề cho vi c nghiên c u ệ ứ Báo cáo c a nhóm t p trung vào vi c tìm hiủ ậ ệ ểu hai phương pháp được sử dụng phổ biến trong Thống kê là Phân tích phương sai và Hồi quy tuy n tính b i T ế ộ ừ đó vận dụng chúng vào vi c x lý tệ ử ệp d u cho sữ liệ ẵn, đưa ra những giá trị thống kê mô tả, đánh giá đặc điểm, tính ch t cấ ủa đối tượng th ng kê, v ố ẽ các đồ thị để có cái nhìn tr c quan,.v.v.b ng phự ằ ần mềm R/Rstudio
Trang 4• studytime: Thời gian t h c trên tuự ọ ần (1 – ít hơn 2 giờ, 2 – từ 2 đến 5 gi , 3 t ờ – ừ 5 đến
10 giờ, or 4 l– ớn hơn 10 giờ)
• failures: ố lần không qua môn (1,2,3, ho c 4 ch s ặ ỉ nhiều hơn hoặc b ng 4 l n) ằ ầ
• absences: số lần nghỉ học
• higher: Có mu n hố ọc cao hơn hay không (yes: có, no: không)
• age: Tuổi của h c sinh ọ
Câu h ỏi:
1 Đọc d ữ liệu: ãy ùng ệnh H d l read.csv() để đọ ệc t p tin
2 Làm s ch d ạ ữ liệu (Data cleaning):
(a) Hãy trích ra một d ữ liệu con đặt tên là new_DF chỉ bao g m các bi n chính mà ta ồ ếquan tâm như đã trình bày trong phần giới thiệu d u T câu h i này v sau, m i yêu ữ liệ ừ ỏ ề ọcầu x ử lý đều d a trên t p d ự ậ ữ liệu con new_DF này
(b) Kiểm tra các d u b khuyữ liệ ị ết trong tập tin (Các câu lênh tham kh o: is.na(), ảwhich(), apply()) N u có d u b khuyế ữ liệ ị ết, hãy đề xuất phương pháp thay thế cho những
dữ liệu b khuy t này ị ế
3 Làm rõ d ữ liệu (Data visualization):
(a) Đối v i các bi n liên t c, hãy tính các giá tr th ng kê mô t bao g m: trung bình, ớ ế ụ ị ố ả ồtrung vị, độ ệ l ch chu n, giá tr l n nh t và giá tr ẩ ị ớ ấ ị nhỏ nhất Xu t k t qu ấ ế ả dưới dạng bảng (Hàm g i ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()) ợ (b) Đố ới v i các bi n phân lo i, hãy l p m t b ng th ng kê s ế ạ ậ ộ ả ố ố lượng cho t ng chừ ủng
lo i.ạ
(c) Hãy dùng hàm hist() để vẽ đồ thị phân ph i c a biố ủ ến G3
(d) Hãy dùng hàm boxplot() v phân phẽ ối c a biủ ến G3 cho t ng nhóm phân lo i cừ ạ ủa biến studytime, failures, và bi n higher ế
(e) Dùng l nh pairs() v các phân ph i c a biệ ẽ ố ủ ến G3 lần lượt theo các biến G1, G2, age và absences
4 Xây d ng các mô hình h i quy tuy n tính (Fitting linear regression models):ự ồ ế
Trang 5(b) D a vào k t qu c a mô hình h i quy tuyự ế ả ủ ồ ến tính trên, nh ng bi n nào b n s ữ ế ạ ẽ loại khỏi mô hình tương ứng với các mức tin c y 5% và 1%? ậ
(c) Xét 3 mô hình tuy n tính cùng bao g m biế ồ ến G3 là bi n ph thuế ụ ộc nhưng:
• Mô hình M1 ch a t t c các bi n còn l i là biứ ấ ả ế ạ ến độ ập c l
• Mô hình M2 là lo i b ạ ỏ biến higher từ M1
• Mô hình M3 là lo i b ạ ỏ biến failure t M2 ừ
Hãy dùng lệnh anova() để đề xuất mô hình h i quy h p lý hồ ợ ơn
(d) T mô hình hừ ồi quy h p lý nh t t câu (c) hãy suy lu n s ợ ấ ừ ậ ự tác động c a các biủ ến lên điểm thi cuối kì
(e) ừ T mô hình h i quy h p lý nh t t câu (c) hãy dùng lồ ợ ấ ừ ệnh plot() để ẽ đồ thị biểu v thị sai s h i quy và giá tr d ố ồ ị ự báo Nêu ý nghĩa và nhận xét
5 Dự báo (Predictions):
(a) Trong d ữ liệu của bạn, hãy t o thêm biạ ến đặt tên là evaluate, biến này biểu diễn
tỷ l t (G3 >= 10) hoệ đạ ặc không đạt (G3 < 10) của sinh viên trong điểm thi cu i kì Hãy ốthống kê t l ỷ ệ đạt/không đạt (Hàm g i ý: cbind()) ợ
(b) Xét mô hình h i quy h p lý nh t mà bồ ợ ấ ạn đã chọn trong câu 4(c) Hãy l p mậ ột bảng số liệu mới đặt tên là new_X bao g m toàn b các biồ ộ ến độ ậc l p trong mô hình này,
và dùng lênh predict() để đưa ra số liệu dự báo cho biến G3 phụ thu c vào ộ new_X Gọi
kết qu d báo này là biả ự ến pred_G3
(c) Khảo sát độ chính xác trong k t qu d báo c a câu trên b ng cách l p m t b ng ế ả ự ủ ằ ậ ộ ả
so sánh k t qu d báo ế ả ự pred_G3 vớ ếi k t qu ả thự ế ủc t c a biến G3
Đạt Không t đạQuan s át
Dự b áo
B PH N ÊNG Ầ RI
Tập tin “PRSA_Data_Wanshouxigong_20130301 20170228.csv” Bộ- dữ liệu này bao g m ồ
dữ liệu v các ch t ô nhi m không khí hàng gi t ề ấ ễ ờ ừ 12 địa điểm giám sát chất lượng không khí được ki m soát trên toàn qu c D ể ố ữ liệu chất lượng không khí được lấy từ Trung tâm Giám sát Môi trường Thành ph B c Kinh D ố ắ ữ liệu khí tượng tại mỗi địa điểm chất lượng không khí được khớp v i tr m th i ti t gớ ạ ờ ế ần nhấ ủa Cục Khí tượng Trung Qu c Khot c ố ảng thời gian t ừ ngày 1 tháng 3 năm 2013 đến ngày 28 tháng 2 năm 2017 Dữ liệu b thiị ếu được ký hi u là NA Dệ ữ liệu gốc được cung c p t i ấ ạ
https://archive.ics.uci.edu/ml/datasets/student+performance
Trang 6• PRES: áp suất (hPa)
• DEWP: nhiệt độ ểm sương ( đi oC)
• RAIN: lượng mưa (mm)
• wd: hướng gió
• WSPM: tốc độ gió (m/s)
Trang 7→ Đọ ệc t p tin và l u d ư ữ liệu v i tên là: "diem_so" ớ
2 Làm s ch d ạ ữ liệu (Data cleaning):
→ Khai báo biến chính mà ta quan tâm, và để dữ liệu v ề sau đượ ửc s lí b ng new_DF ằ
b Kiểm tra các d ữ liệu b khuy t trong t p tin N u có d ị ế ậ ế ữ liệu bị khuy ết, hãy đề xuất phương pháp thay thế cho những dữ liệu bị khuy t này ế
Trang 87
– Phương pháp 01: Deletion(xoá): phương pháp này được dùng khi khi xác su t thi u biấ ế ến
là như nhau cho tất cả các quan sát
– Phương pháp 02: Mean/ Mode/ Median Imputation: là một phương pháp để điền vào các giá tr còn thi u v i các giá tr ị ế ớ ị ước tính
Ta s ẽ chọn thay phương pháp xóa các quan sát mà bất kỳ biến nào b thiị ếu
Input:
new_DF=na.omit(new_DF)
→ X c óa ác giá trị ị b khuy t, mà g l i new_DF mế án ạ ới
3 Làm rõ d ữ liệu ( Data visualization):
a Đối v i các bi n liên t c, hãy tính các giá tr ớ ế ụ ị thố ng kê mô t bao g m: trung binh, ả ồ
trung v l ch chuị độ ệ n, giá trị lớn nhấ á t v gi trị nh nh t Xu t kỏ ấ ấ ết quả dưới d ng ạ
bảng
Input :
mean = apply(new_DF[,c(1,2,3,8)],2, mean)
→ Tính trung bình c a các bi n liên t c (G1, G2, G3, ageủ ế ụ ) và lưu vào biến có tên là mean
median = apply(new_DF[,c(1,2,3,8)],2, median)
→ Tính trung vị của các bi n liên t c (G1, G2, G3, ageế ụ ) và lưu vào biến có tên là median
sd = apply(new_DF[,c(1,2,3,8)],2, sd)
→ Tính độ lệch chu n c a các bi n liên t c (G1, G2, G3, age) ẩ ủ ế ụ và lưu vào biến có tên là
sd
max = apply(new_DF[,c(1,2,3,8)],2, max)
→ Tính giá trị l n nh t c a các bi n liên t c (G1, G2, G3, ageớ ấ ủ ế ụ ) và lưu vào biến có tên là max
min = apply(new_DF[,c(1,2,3,8)],2, min)
→ Tính giá tr ị nhỏ nhấ ủt c a các bi n liên t c (G1, G2, G3, ageế ụ ) và lưu vào biến có tên
Trang 134 Xây d ng các mô hình h i quy (Fitting linear regression models): ụ ồ
a Xét mô hình h i quy tuy n tính bao g m bi n G3 là m t bi n ph thu c, và tồ ế ồ ế ộ ế ụ ộ ấ ảt c các bi n còn lế ại đều l độc lập Dùng l ệnh lm() để thự c thi mô hình h i quy tuy n tính ồ ế
Trang 1413
• studytime: bi n phân lo ế ại
• failures: biến phân lo ại
• absences: biế ờn r i r c ạ
• higher: biến phân lo i ạ
• age: biến liên t c ụ
→ Thay biến higher thành bi n nhân t ế ố
m1 = lm(G3 ~ G1 + G2 + studytime + failures + absences + higher+ age)
So sánh Pr(>|t|) với mức α cần xét, khi đó các biến bị loại khỏi mô hình ở
– M c 5%: studytime2, studytime3, failures2, failures3, higheryes, age ứ
Trang 1514
– M c 1%: studytime2, studytime3, studytime4, failures2, failures3, higheryes, age ứ
c Xét 3 mô hình tuy n tính cùng bao g m bi n G3 là bi n ph thuế ồ ế ế ụ ộc:
• Mô hình M1 chưa tất cả các biến còn l i là biạ ến độ ập c l
→ Mô hình M1 là đáp án của câu (a)
• Mô hình M2 là lo i b ạ ỏ biến higher t M1 ừ
Input:
m2 = lm(G3 ~ G1 + G2 + studytime + failures + absences + age)
• Mô hình M3 là loại bỏ biến failures t ừ M2
Input:
m3 = lm(G3 ~ G1 + G2 + studytime + absences + age)
• Dùng anova() để đề xuất mô hình h i quy h p lý : ồ ợ
– Xét hai mô hình h i quy M1 và M2 : ồ
Đặt gi thi t H : hai mô hình bả ế 0 ằng nhau
Đặt gi thi t H : hai mô hình khác nhau ả ế 1
Nhìn vào k t qu ta th y : 0.5386 > 0.05 nên ta k t luế ả ấ ế ận r ng ch p nh n gi thi t H ằ ấ ậ ả ế 0 Vậy 2 mô hình M1 và M2 là bằng nhau
Trang 1615
Đặt gi thi t H : hai mô hình bả ế 0 ằng nhau
Đặt gi thi t H : hai mô hình khác nhau ả ế 1
Nhìn vào k t qu ta th y : 0.03194 < 0.05 nên ta k t lu n r ng bác b ế ả ấ ế ậ ằ ỏ giả thiết H , ch0 ấp nhận gi thi t H ả ế 1
Vậy hai mô hình M1 và M3 là khác nhau
Kết luận: Chọn M2 vì M2 ch a nhi u bi n tin c y, ít biứ ề ế ậ ến không tin c y ậ
d T mô hình h i quy h p lí nh t c a câu c, suy lu n s ừ ồ ợ ấ ủ ậ ự tác động c ủa các biến điểm thi cu i kì ố
V i m c alpha 5% các biớ ứ ến G1, G2, studytime4, failures1, absences tác động mạnh đến điểm thi cu i k G3 ố ỳ
e T mô hình h i quy h p lí nh t cừ ồ ợ ấ ủa câu c, dung l nh plot() v ệ ẽ đồ thị biể u th sai s ị ố
hồi quy và giá tr d ị ự báo Nêu ý nghĩa v nhận xét
a Trong d u c a b n, hãy t o thêm bi ữ liệ ủ ạ ạ ến đặt tên là evaluate, bi n này bi u diế ể ễn tỷ
lệ t (G3 >= 10) hođạ ặc không đạt (G3 < 10) của sinh viên trong điểm thi cu i kì Hãy ố
Trang 1716
→ Hiển thị kết qu c a biả ủ ến evaluate
Output:
b Xét mô hình h i quy h p lý nh t mà bồ ợ ấ ạn đã chọn trong câu 4c Hãy l p mậ ột bảng
số liệu mới đặt tên là new_X bao g m toàn b các biồ ộ ến độ ậc l p trong mô hình này, và dùng lênh predict() để đưa ra số liệu dự báo cho bi n G3 ph thu c vào new_X Gế ụ ộ ọi kết qu d ả ự báo này là bi n pred_G3 ế
→ Tính tỉ lệ dự báo và lưu vào biến evaluate_2
c Khảo sát độ chính xác trong kết quả d báo c a câu trên b ng cách l p mự ủ ằ ậ ột b ng ả
so sánh kết quả d báo pred_G3 v i k t qu ự ớ ế ả thự ế ủa bi n G3 c t c ế
Đạt Không t đạQuan s át
Trang 183 Làm rõ d ữ liệu ( Data visualization):
a Đối v i các bi n liên t c, hãy tính các giá tr ớ ế ụ ị thố ng kê mô t bao g m: trung binh, ả ồ
trung v l ch chuị độ ệ n, giá trị lớn nhấ á t v gi trị nh nh t Xu t kỏ ấ ấ ết quả dưới d ng ạ
bảng
Input :
mean = apply(new_DF[,c(1,2,3,4,5,6,7)],2, mean)
median = apply(new_DF[,c(1,2,3,4,5,6,7)],2, median)
sd = apply(new_DF[,c(1,2,3,4,5,6,7)],2, sd)
max = apply(new_DF[,c(1,2,3,4,5,6,7)],2, max)
min = apply(new_DF[,c(1,2,3,4,5,6,7)],2, min)
des = cbind(mean,median,sd,max,min)
as.data.frame(des)
Output:
Trang 2827
4 Xây d ng các mô hình h i quy (Fitting linear regression models): ự ồ
a Xét mô hình h i quy tuy n tính bao g m biồ ế ồ ến PM2.5, PM10, O3 ầ ượ l n l t là c ác biến ph thu c, và t t c các bi n còn lụ ộ ấ ả ế ại đều l độc lập Dùng lệnh lm() để thực thi
mô hình h i quy tuy n tính bồ ế ội
Xét mô hình :
• PM2.5: biến liên t c ụ
• PM10: biến liên tục
• O3 biến liên tục :
• TEMP: biến liên t c ụ
• PRES: biến ên tli ục
• DEWP: biến ên tli ục
Trang 3130
b D a vào kự ết quả c a mô hình tuy n tính trên, nh ng bi n nào b n s ủ ế ữ ế ạ ẽ loạ i kh i mô ỏ
hình tương ứng với các m c tin c y 5%? ứ ậ
So sánh Pr(>|t|) với mức α cần xét, khi đó các biến bị loại khỏi mô hình:
Trang 3433
evaluate = cbind(evaluate_PM2.5_2, evaluate_PM10_2, evaluate_O3_2)
evaluate_2
Output:
c Khảo sát độ chính xác trong kết quả d báo c a câu trên b ng cách l p mự ủ ằ ậ ột b ng ả
so sánh kết quả d báo v i kự ớ ết quả thự ế của các c t biế n PM2.5, PM10, O3