1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo Cáo Bài Tập Lớn 2 Xác Suất Thống Kê.pdf

34 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích phương sai và Hồi quy tuyến tính bội
Tác giả Trần Đức Hoàng Huy, Thới Lê Nhật Bình, Đặng Ngọc Tân, Lê Tiến Anh, Ngô Thị Phương Thùy, Trần Song Khôi, Lâm Thanh Ngân, Phan Nguyên Minh, Đinh Trung Hiếu
Người hướng dẫn Nguyễn Kiều Dung
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh, Trường Đại học Bách khoa
Chuyên ngành Xác suất Thống kê
Thể loại Báo cáo bài tập lớn
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 34
Dung lượng 1,78 MB

Nội dung

Làm ạch ữ liệu Data cleaning .... Làm ạch ữ liệu Data cleaning ..... số hàm phân ph i xác su t thông d ng, kiố ấ ụ ểm định giả thuyết, ước lượng kho ng tin c y, ả ậv.v…Thông qua thống kê

Trang 1

Mã th t báo cáo nhóm: B42ứ ự

Trang 2

1

MỤC L C

Lời mở u đầ 2

Phầ đền bài 3

A Phần chung 3

B Phầ rin êng 4

Phần l i gi i 6 ờ ả A Ph n chung ầ 6

1 Đọc d ữ liệu 6

2 Làm ạch ữ liệu (Data cleaning) 6 s d 3 Làm rõ d ữ liệu (Data visualization) 7

4 X dây ựng ác c mô hình ồ h i quy tuy n tính (Fitting linear regression models) ế 12

5 D b (Predictions) ự áo 15

B Ph n êng ầ ri 1 Đọc d ữ liệu 17

2 Làm ạch ữ liệu (Data cleaning) 17 s d 3 Làm rõ d ữ liệu (Data visualization) 17

4 X dây ựng ác c mô hình ồ h i quy tuy n tính (Fitting linear regression models) ế 27

5 D b (Predictions) ự áo 32

Trang 3

số hàm phân ph i xác su t thông d ng, kiố ấ ụ ểm định giả thuyết, ước lượng kho ng tin c y, ả ậv.v…Thông qua thống kê, các dữ liệu thu thập được phân tích theo nhi u tiêu chí khác ềnhau giúp người sử dụng có cái nhìn t ng quan v d ổ ề ữ liệu của họ, đưa ra được ước lượng

về t ng th lổ ể ớn hơn hay dự đoán mô hình và kiểm định lại giả thuy t theo các mế ức ý nghĩa khác nhau

Trong riêng lĩnh vực Kỹ thuật Hóa h c, r t nhi u nghiên c u cọ ấ ề ứ ần có các d liữ ệ ừu t ực thnghiệm để nghiên cứu như tính chất của h p ch t, tính hi u qu c a s n ph m, hi u suợ ấ ệ ả ủ ả ẩ ệ ất phản ứng ở các điều ki n phệ ản ứng khác nhau, v.v Vì v y tính ậ ứng d ng của Xác su t & ụ ấthống kê trong K thu t Hóa h c r t cao, là n n t ng, là tiỹ ậ ọ ấ ề ả ền đề cho vi c nghiên c u ệ ứ Báo cáo c a nhóm t p trung vào vi c tìm hiủ ậ ệ ểu hai phương pháp được sử dụng phổ biến trong Thống kê là Phân tích phương sai và Hồi quy tuy n tính b i T ế ộ ừ đó vận dụng chúng vào vi c x lý tệ ử ệp d u cho sữ liệ ẵn, đưa ra những giá trị thống kê mô tả, đánh giá đặc điểm, tính ch t cấ ủa đối tượng th ng kê, v ố ẽ các đồ thị để có cái nhìn tr c quan,.v.v.b ng phự ằ ần mềm R/Rstudio

Trang 4

• studytime: Thời gian t h c trên tuự ọ ần (1 – ít hơn 2 giờ, 2 – từ 2 đến 5 gi , 3 t ờ – ừ 5 đến

10 giờ, or 4 l– ớn hơn 10 giờ)

failures: ố lần không qua môn (1,2,3, ho c 4 ch s ặ ỉ nhiều hơn hoặc b ng 4 l n) ằ ầ

• absences: số lần nghỉ học

• higher: Có mu n hố ọc cao hơn hay không (yes: có, no: không)

age: Tuổi của h c sinh

Câu h ỏi:

1 Đọc d ữ liệu: ãy ùng ệnh H d l read.csv() để đọ ệc t p tin

2 Làm s ch d ữ liệu (Data cleaning):

(a) Hãy trích ra một d ữ liệu con đặt tên là new_DF chỉ bao g m các bi n chính mà ta ồ ếquan tâm như đã trình bày trong phần giới thiệu d u T câu h i này v sau, m i yêu ữ liệ ừ ỏ ề ọcầu x ử lý đều d a trên t p d ự ậ ữ liệu con new_DF này

(b) Kiểm tra các d u b khuyữ liệ ị ết trong tập tin (Các câu lênh tham kh o: is.na(), ảwhich(), apply()) N u có d u b khuyế ữ liệ ị ết, hãy đề xuất phương pháp thay thế cho những

dữ liệu b khuy t này ị ế

3 Làm rõ d ữ liệu (Data visualization):

(a) Đối v i các bi n liên t c, hãy tính các giá tr th ng kê mô t bao g m: trung bình, ớ ế ụ ị ố ả ồtrung vị, độ ệ l ch chu n, giá tr l n nh t và giá tr ẩ ị ớ ấ ị nhỏ nhất Xu t k t qu ấ ế ả dưới dạng bảng (Hàm g i ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()) ợ (b) Đố ới v i các bi n phân lo i, hãy l p m t b ng th ng kê s ế ạ ậ ộ ả ố ố lượng cho t ng chừ ủng

lo i.ạ

(c) Hãy dùng hàm hist() để vẽ đồ thị phân ph i c a biố ủ ến G3

(d) Hãy dùng hàm boxplot() v phân phẽ ối c a biủ ến G3 cho t ng nhóm phân lo i cừ ạ ủa biến studytime, failures, và bi n higher ế

(e) Dùng l nh pairs() v các phân ph i c a biệ ẽ ố ủ ến G3 lần lượt theo các biến G1, G2, ageabsences

4 Xây d ng các mô hình h i quy tuy n tính (Fitting linear regression models):ự ồ ế

Trang 5

(b) D a vào k t qu c a mô hình h i quy tuyự ế ả ủ ồ ến tính trên, nh ng bi n nào b n s ữ ế ạ ẽ loại khỏi mô hình tương ứng với các mức tin c y 5% và 1%? ậ

(c) Xét 3 mô hình tuy n tính cùng bao g m biế ồ ến G3 là bi n ph thuế ụ ộc nhưng:

• Mô hình M1 ch a t t c các bi n còn l i là biứ ấ ả ế ạ ến độ ập c l

• Mô hình M2 là lo i b ạ ỏ biến higher từ M1

• Mô hình M3 là lo i b ạ ỏ biến failure t M2 ừ

Hãy dùng lệnh anova() để đề xuất mô hình h i quy h p lý hồ ợ ơn

(d) T mô hình hừ ồi quy h p lý nh t t câu (c) hãy suy lu n s ợ ấ ừ ậ ự tác động c a các biủ ến lên điểm thi cuối kì

(e) ừ T mô hình h i quy h p lý nh t t câu (c) hãy dùng lồ ợ ấ ừ ệnh plot() để ẽ đồ thị biểu v thị sai s h i quy và giá tr d ố ồ ị ự báo Nêu ý nghĩa và nhận xét

5 Dự báo (Predictions):

(a) Trong d ữ liệu của bạn, hãy t o thêm biạ ến đặt tên là evaluate, biến này biểu diễn

tỷ l t (G3 >= 10) hoệ đạ ặc không đạt (G3 < 10) của sinh viên trong điểm thi cu i kì Hãy ốthống kê t l ỷ ệ đạt/không đạt (Hàm g i ý: cbind()) ợ

(b) Xét mô hình h i quy h p lý nh t mà bồ ợ ấ ạn đã chọn trong câu 4(c) Hãy l p mậ ột bảng số liệu mới đặt tên là new_X bao g m toàn b các biồ ộ ến độ ậc l p trong mô hình này,

và dùng lênh predict() để đưa ra số liệu dự báo cho biến G3 phụ thu c vào ộ new_X Gọi

kết qu d báo này là biả ự ến pred_G3

(c) Khảo sát độ chính xác trong k t qu d báo c a câu trên b ng cách l p m t b ng ế ả ự ủ ằ ậ ộ ả

so sánh k t qu d báo ế ả ự pred_G3 vớ ếi k t qu ả thự ế ủc t c a biến G3

Đạt Không t đạQuan s át

Dự b áo

B PH N ÊNG Ầ RI

Tập tin “PRSA_Data_Wanshouxigong_20130301 20170228.csv” Bộ- dữ liệu này bao g m ồ

dữ liệu v các ch t ô nhi m không khí hàng gi t ề ấ ễ ờ ừ 12 địa điểm giám sát chất lượng không khí được ki m soát trên toàn qu c D ể ố ữ liệu chất lượng không khí được lấy từ Trung tâm Giám sát Môi trường Thành ph B c Kinh D ố ắ ữ liệu khí tượng tại mỗi địa điểm chất lượng không khí được khớp v i tr m th i ti t gớ ạ ờ ế ần nhấ ủa Cục Khí tượng Trung Qu c Khot c ố ảng thời gian t ừ ngày 1 tháng 3 năm 2013 đến ngày 28 tháng 2 năm 2017 Dữ liệu b thiị ếu được ký hi u là NA Dệ ữ liệu gốc được cung c p t i ấ ạ

https://archive.ics.uci.edu/ml/datasets/student+performance

Trang 6

• PRES: áp suất (hPa)

• DEWP: nhiệt độ ểm sương ( đi oC)

• RAIN: lượng mưa (mm)

• wd: hướng gió

• WSPM: tốc độ gió (m/s)

Trang 7

→ Đọ ệc t p tin và l u d ư ữ liệu v i tên là: "diem_so" ớ

2 Làm s ch d ữ liệu (Data cleaning):

→ Khai báo biến chính mà ta quan tâm, và để dữ liệu v ề sau đượ ửc s lí b ng new_DF ằ

b Kiểm tra các d ữ liệu b khuy t trong t p tin N u có d ị ế ậ ế ữ liệu bị khuy ết, hãy đề xuất phương pháp thay thế cho những dữ liệu bị khuy t này ế

Trang 8

7

– Phương pháp 01: Deletion(xoá): phương pháp này được dùng khi khi xác su t thi u biấ ế ến

là như nhau cho tất cả các quan sát

– Phương pháp 02: Mean/ Mode/ Median Imputation: là một phương pháp để điền vào các giá tr còn thi u v i các giá tr ị ế ớ ị ước tính

Ta s ẽ chọn thay phương pháp xóa các quan sát mà bất kỳ biến nào b thiị ếu

Input:

new_DF=na.omit(new_DF)

→ X c óa ác giá trị ị b khuy t, mà g l i new_DF mế án ạ ới

3 Làm rõ d ữ liệu ( Data visualization):

a Đối v i các bi n liên t c, hãy tính các giá tr ớ ế ụ ị thố ng kê mô t bao g m: trung binh, ả ồ

trung v l ch chuị độ ệ n, giá trị lớn nhấ  á t v gi trị nh nh t Xu t kỏ ấ ấ ết quả dưới d ng

bảng

Input :

mean = apply(new_DF[,c(1,2,3,8)],2, mean)

→ Tính trung bình c a các bi n liên t c (G1, G2, G3, ageủ ế ụ ) và lưu vào biến có tên là mean

median = apply(new_DF[,c(1,2,3,8)],2, median)

→ Tính trung vị của các bi n liên t c (G1, G2, G3, ageế ụ ) và lưu vào biến có tên là median

sd = apply(new_DF[,c(1,2,3,8)],2, sd)

→ Tính độ lệch chu n c a các bi n liên t c (G1, G2, G3, age) ẩ ủ ế ụ và lưu vào biến có tên là

sd

max = apply(new_DF[,c(1,2,3,8)],2, max)

→ Tính giá trị l n nh t c a các bi n liên t c (G1, G2, G3, ageớ ấ ủ ế ụ ) và lưu vào biến có tên là max

min = apply(new_DF[,c(1,2,3,8)],2, min)

→ Tính giá tr ị nhỏ nhấ ủt c a các bi n liên t c (G1, G2, G3, ageế ụ ) và lưu vào biến có tên

Trang 13

4 Xây d ng các mô hình h i quy (Fitting linear regression models): ụ ồ

a Xét mô hình h i quy tuy n tính bao g m bi n G3 là m t bi n ph thu c, và tồ ế ồ ế ộ ế ụ ộ ấ ảt c các bi n còn lế ại đều l độc lập Dùng l ệnh lm() để thự c thi mô hình h i quy tuy n tính ồ ế

Trang 14

13

• studytime: bi n phân lo ế ại

• failures: biến phân lo ại

• absences: biế ờn r i r c ạ

• higher: biến phân lo i ạ

• age: biến liên t c ụ

→ Thay biến higher thành bi n nhân t ế ố

m1 = lm(G3 ~ G1 + G2 + studytime + failures + absences + higher+ age)

So sánh Pr(>|t|) với mức α cần xét, khi đó các biến bị loại khỏi mô hình ở

– M c 5%: studytime2, studytime3, failures2, failures3, higheryes, age ứ

Trang 15

14

– M c 1%: studytime2, studytime3, studytime4, failures2, failures3, higheryes, age ứ

c Xét 3 mô hình tuy n tính cùng bao g m bi n G3 là bi n ph thuế ồ ế ế ụ ộc:

• Mô hình M1 chưa tất cả các biến còn l i là biạ ến độ ập c l

→ Mô hình M1 là đáp án của câu (a)

• Mô hình M2 là lo i b ạ ỏ biến higher t M1 ừ

Input:

m2 = lm(G3 ~ G1 + G2 + studytime + failures + absences + age)

• Mô hình M3 là loại bỏ biến failures t ừ M2

Input:

m3 = lm(G3 ~ G1 + G2 + studytime + absences + age)

• Dùng anova() để đề xuất mô hình h i quy h p lý : ồ ợ

– Xét hai mô hình h i quy M1 và M2 : ồ

Đặt gi thi t H : hai mô hình bả ế 0 ằng nhau

Đặt gi thi t H : hai mô hình khác nhau ả ế 1

Nhìn vào k t qu ta th y : 0.5386 > 0.05 nên ta k t luế ả ấ ế ận r ng ch p nh n gi thi t H ằ ấ ậ ả ế 0 Vậy 2 mô hình M1 và M2 là bằng nhau

Trang 16

15

Đặt gi thi t H : hai mô hình bả ế 0 ằng nhau

Đặt gi thi t H : hai mô hình khác nhau ả ế 1

Nhìn vào k t qu ta th y : 0.03194 < 0.05 nên ta k t lu n r ng bác b ế ả ấ ế ậ ằ ỏ giả thiết H , ch0 ấp nhận gi thi t H ả ế 1

Vậy hai mô hình M1 và M3 là khác nhau

Kết luận: Chọn M2 vì M2 ch a nhi u bi n tin c y, ít biứ ề ế ậ ến không tin c y ậ

d T mô hình h i quy h p lí nh t c a câu c, suy lu n s ừ ồ ợ ấ ủ ậ ự tác động c ủa các biến điểm thi cu i kì

V i m c alpha 5% các biớ ứ ến G1, G2, studytime4, failures1, absences tác động mạnh đến điểm thi cu i k G3 ố ỳ

e T mô hình h i quy h p lí nh t cừ ồ ợ ấ ủa câu c, dung l nh plot() v ẽ đồ thị biể u th sai s ị ố

hồi quy và giá tr d ị ự báo Nêu ý nghĩa v nhận xét

a Trong d u c a b n, hãy t o thêm bi ữ liệ ủ ạ ạ ến đặt tên là evaluate, bi n này bi u diế ể ễn tỷ

lệ t (G3 >= 10) hođạ ặc không đạt (G3 < 10) của sinh viên trong điểm thi cu i kì Hãy

Trang 17

16

→ Hiển thị kết qu c a biả ủ ến evaluate

Output:

b Xét mô hình h i quy h p lý nh t mà bồ ợ ấ ạn đã chọn trong câu 4c Hãy l p một bảng

số liệu mới đặt tên là new_X bao g m toàn b các biồ ộ ến độ ậc l p trong mô hình này, và dùng lênh predict() để đưa ra số liệu dự báo cho bi n G3 ph thu c vào new_X Gế ụ ộ ọi kết qu d ả ự báo này là bi n pred_G3 ế

→ Tính tỉ lệ dự báo và lưu vào biến evaluate_2

c Khảo sát độ chính xác trong kết quả d báo c a câu trên b ng cách l p mự ủ ằ ậ ột b ng

so sánh kết quả d báo pred_G3 v i k t qu ự ớ ế ả thự ế ủa bi n G3 c t c ế

Đạt Không t đạQuan s át

Trang 18

3 Làm rõ d ữ liệu ( Data visualization):

a Đối v i các bi n liên t c, hãy tính các giá tr ớ ế ụ ị thố ng kê mô t bao g m: trung binh, ả ồ

trung v l ch chuị độ ệ n, giá trị lớn nhấ  á t v gi trị nh nh t Xu t kỏ ấ ấ ết quả dưới d ng

bảng

Input :

mean = apply(new_DF[,c(1,2,3,4,5,6,7)],2, mean)

median = apply(new_DF[,c(1,2,3,4,5,6,7)],2, median)

sd = apply(new_DF[,c(1,2,3,4,5,6,7)],2, sd)

max = apply(new_DF[,c(1,2,3,4,5,6,7)],2, max)

min = apply(new_DF[,c(1,2,3,4,5,6,7)],2, min)

des = cbind(mean,median,sd,max,min)

as.data.frame(des)

Output:

Trang 28

27

4 Xây d ng các mô hình h i quy (Fitting linear regression models): ự ồ

a Xét mô hình h i quy tuy n tính bao g m biồ ế ồ ến PM2.5, PM10, O3 ầ ượ l n l t là c ác biến ph thu c, và t t c các bi n còn lụ ộ ấ ả ế ại đều l độc lập Dùng lệnh lm() để thực thi

mô hình h i quy tuy n tính bồ ế ội

Xét mô hình :

• PM2.5: biến liên t c ụ

• PM10: biến liên tục

• O3 biến liên tục :

• TEMP: biến liên t c ụ

• PRES: biến ên tli ục

• DEWP: biến ên tli ục

Trang 31

30

b D a vào kết quả c a mô hình tuy n tính trên, nh ng bi n nào b n s ủ ế ữ ế ạ ẽ loạ i kh i mô

hình tương ứng với các m c tin c y 5%? ứ ậ

So sánh Pr(>|t|) với mức α cần xét, khi đó các biến bị loại khỏi mô hình:

Trang 34

33

evaluate = cbind(evaluate_PM2.5_2, evaluate_PM10_2, evaluate_O3_2)

evaluate_2

Output:

c Khảo sát độ chính xác trong kết quả d báo c a câu trên b ng cách l p mự ủ ằ ậ ột b ng

so sánh kết quả d báo v i kớ ết quả thự ế của các c t biế n PM2.5, PM10, O3

Ngày đăng: 28/10/2024, 12:26

w