Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyên tính bội Trong khi xây dựng mô hình hồi quy đa biến cần kiêm tra các giả thiết như sau: a Hàm hồi quy là tuyế
Trang 1
ĐẠI HỌC QUỐC GIA THÀNH PHỎ HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2MỤC LỤC
A _ CƠ SỞ LÝ THUYÉT HÒI QUY TUYẾN TÍNH BỘI - 17 1.1 Ham hoi quy tong thé (PRF- Population Regression Function) 17 1.2 Ham hoi quy mau (SRF - Sample Regression Function) 18 1.3 Cac gia thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi
2) Bài làm: 43
2.1 Đọc file dữ liệu, thực hiện thống kê mô tả và kiếm định - 43 2.2 Phân tích phương sai một nhân tổ (one way ANOVA) -5cscse 50 2.3 Phân tích phương sai hai nhân tổ (two way ANOVA) sccccsccscee 60
Trang 32.2 Làm sạch dữ liệu (Data Cleaning)
2.3 Làm rõ dữ liệu (Data Visualization)
2.4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression
models):
63
64 74
Trang 4A CƠ SỞ LÝ THUYÉT HỎI QUY TUYẾN TÍNH BỘI
Hồi quy tuyến tính bội là phần mở rộng của hồi quy tuyến tính đơn Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của hai hoặc nhiều biến giải thích Biến chúng ta muốn dự đoán gọi là biến phản hỏi (hoặc biến phụ thuộc) Các biến mà chúng ta đang sử dụng đề dự đoán giá trị của biến phản hồi được gọi là các bié giai thich (hoac biến dự báo, biến phụ thuộc)
Mô hình hỏi quy tuyến tính bội có dạng tông quát như sau:
Y =Bi ~B;X¿: + B:X: + + Xu
Trong đó:
+ Bị: Hệ số hồi quy riêng
+Y: Biến phụ thuộc
+ Xj: Biến độc lập
+ ¡: Hệ số tự đo (hệ số chặn)
Như vậy, "Hỗi quy tuyến tính" là một phương pháp đề dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X)
1.1 Ham hoi quy tong thé (PRF- Population Regression Function)
Voi Y 1a bién phụ thuéc X:, X3, ., X; la bién déc lap, Y la ngẫu nhiên và có một phân phối xác suất nào đó Suy ra:
Tén tai E(Y | X2, X3, ,.Xx) = giá trị xác định
Do vay, F(X2, X3, Xx) = E(Y | Xo, X3, Xx) la ham héi quy tong thé cua Y theo
X, X3, Xt
Với một cá thé i, ton tai (X2, X3, ., Xk) Ta cd:
Yi 4 F(X, X3, Xk) =u¡=Y¡—F
Do vay: Y; =E(Y | X2, X3, Xx)Hi
Hồi quy tổng thê PRE:
+Y=E(Y| X)+U
+E(Y | X)=F(X)
1.2 Ham hoi quy mau (SRF - Sample Regression Function)
17
Trang 5Do không biết tông thế, nên chúng ta không biết giá trị trung bình tổng thê của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu đề ước lượng Trên một mẫu có n cá thê, gọi = (X›, X: ,X.) là hồi quy mẫu Với một cá thé mau [Ji 4 Xoi, Xai Xxi) sinh ra[i— (X2, X3 Xi); [ID] goi la phan du SRF Ta co hàm hồi quy mẫu tông quát được viết đưới dạng như sau:
Phan du sinh ra: [] =[li— Ký hiệu: là ước lượng của []m Chúng ta trông đợi là ước lượng không chệch cúa [][], hơn nữa phải là một ước lượng hiệu quả Ước lượng SRF: chọn một phương pháp nào đó đề ước lượng các tham số của F qua việc tìm các tham số của và lấy giá trị quan sát của các tham số này làm giá trị xấp xi cho tham số của F
1.3 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyên tính bội
Trong khi xây dựng mô hình hồi quy đa biến cần kiêm tra các giả thiết như sau: a) Hàm hồi quy là tuyến tính theo các tham số
Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng:
y = Bi + Boxe + Bsx3 + Baxyt + Bex tu
hoặc mỗi quan hệ thực tế có thể được viết lại ví đụ như dưới dạng lay log, ca hai về b) Kỳ vọng của các yếu tố ngẫu nhiên u; băng 0
Trung bình tông thê sai sô là bắng 0 Điêu này có nghĩa là có một số giả trị sai số mang dâu dương và một sô sai số mang dâu âm Do hàm xem như là đường trung bình nên có thê giả định rắng các sai sô ngầu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tông thé
c) Các sai số độc lập với nhau
đ) Các sai số có phương sai bằng nhau
Tất cả giá trị u được phân phối giống nhau với cùng phương sai , sao cho: LILLIL1 )=LC) =LÝ
e) Các sai số có phân phôi chuẩn
18
Trang 6Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng
1.4 Độ phù hợp của mô hình
Đề có thê biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng [] 2
Ta co:
+ : TSS — Total Sum of Squares
+ : ESS — Explained Sum of Squares
+:RSS — Residual Sum of Squares
Ta có thê viét: TSS = ESS + RSS
Ý nghĩa của các thành phần:
+ TSS là tổng bình phương của tất cả các sai lệch giữa các giá tri quan sat Yi va giá trị trung bình
+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc
Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy
+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy
+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra
LÝ được xác định theo công thức:
Tỷ số giữa tông biến thiên được giải thích bởi mô hình cho tông bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of ft” Từ định nghĩa [] 2 chúng ta thấy [] 2 đo tý lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng []2 để đo sự phù hợp của hàm hỗi quy:
+0 <[ƒ<t
19
Trang 7+ LƑ cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc
+ Nếu [Ƒ= I nghĩa là đường hồi quy giải thích 100% thay đổi của y
+ Nếu [Ƒ =0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y
1.5 Khoảng tin cậy và kiếm định các hệ số hồi quy
a) Ước lượng khoảng tin cậy đối với các hệ số hồi quy:
Mục đích của phân tích hồi quy không phải chỉ suy đoán về []¡ []›- [mà còn
phải kiêm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của Lh.Lb
Lk Các phân bố này phụ thuộc vào phân bố của các []
Với các giả thiết OLS, [][] có phân phối [](0 [Ƒ )
Các hệ số ước lượng tuân theo phân phối chuân:
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu
Trong đó k là số hệ số có trong phương trình hồi quy đa biến:
+ Ước lượng 2 phía, ta tìm được L[] 2 ([I— L) thỏa mãn:
+ Khoảng tin cậy I— [] của [ [] là:
L— ŒI-LĐLHO: ~ - LH LLO:)]
b)Kiêm định giả thiết đối với ;
Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiếm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩa thông kê hay không Có thê đưa ra giả thiết nào đó đối voi , chang han = % Nếu giả thiết nay dung thi:
~U - 0)
20
Trang 821
Trang 9P-value < mức ý nghĩa thì bác bỏ giả thiết
H0 Kiểm định Bị: Giả thuyết H0 :
a) Khái quát về kiêm định WALD
Giả sử chúng ta có 2 mô hình dưới đây:
(U):Y =Bi + Bazx: + Bx: + B„x«+ + Bix, +O
Đặt các mô hình giới hạn và không giới hạn là:
(U): Y = Bi + Box2 + + BX + BiiiXmut + Bex, + u
(R): Y = Bi + Box2 + + BaXntv
Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình (U), đó là:
22
Trang 10Giả thiết H0 : B„.¡= = ¿=0
Giả thuyết H: : “Không phải đồng thời các tham số bằng 0”
Lưu ý rằng (U) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết
Do đó, mô hình R có ít hơn (km) thông số so với U Câu hỏi chúng ta nêu ra là
(km) biến bị loại ra có ảnh hưởng liên kết có ý nghĩa đối với Y hay không Trị thống
kê kiểm định đối với giả thiết này là:
Với LƑ là số đo độ thích hợp không hiệu chỉnh Với giả thuyết không, có phân phối F với (km) bậc tự do đối với tử số và (n—k) bậc tự đo đối với mẫu số
Bác bỏ giả thuyết H0 khi:
>LIIH.LI=H.H-LU
Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước
b) Kiểm định ý nghĩa của mô hình
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0
Ung dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:
Bước I: Giả thuyết H0 : [] =[b = =[k= 0 Giả thuyết H: : “có ít nhất một trong nhitng gia tri khác không”
Bước 2: Trước tiên hồi quy Y theo một số hạng không đôi va Xo, X3, Xx, sau đó tính tông bình phương sai số [][ILILI LIHL Phân phối F là tý số của hai biến ngẫu nhiên phân phối khi bình phương độc lập Điều này cho ta tri thống kê:
Vi Ho : Fh =[h= -=[k = 0, nhận thấy rằng trị thông kê kiêm định đối với giả thuyết này sẽ là:
23
Trang 11Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k—L) cho tử số và (n—k) cho mẫu số, và với mức ý nghĩa ơ cho trước
Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa œ nếu >[[1.[]— 1.—[U Đối với phương pháp giá trị p-value, tính giá trị p = P (F > [Ho ) va bac bo giả thuyết H0 nếu p bé hơn mức ý nghĩa ơ
G1: Diém thi hoc ki L
G2: Diém thi hoc ki 2
G3: Điểm thi cuối khóa
Studytime: Thời gian tự học trên tuần (I-ít hơn 2 giờ,2-từ 2 đến 5 giờ, 3-từ 5 đến I0 giờ, or 4- lớn hon 10 g1ờ)
Failuress: số lần không qua môn (1,2,3,4 hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần) Absences: số lần nghỉ học
Higher: có muốn học cao hơn hay không (yes: có „no: không)
Age: Tuổi của học sinh
Câu hỏi
Đọc dữ liệu:
Hãy dùng lệnh read.csv() để đọc tệp tin
Làm sạch đữ liệu (data cleaning):
Hãy trích ra một đữ liệu con đặt tên là new DF chỉ bao gồm các biến chính mà ta quan
tâm như đã trình bày trong phần giới thiệu đữ liệu từ câu hỏi này về sau, mọi yêu cầu
xử lý đều dựa trên tập dữ liệu con new_DF nay
24
Trang 12Làm rõ đữ liệu (Data visualization):
Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình , trung
vị, độ lệch chuẩn, giá trị lớn nhất, và giá trị nhỏ nhất xuất kết quả dưới dạng bảng Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại Hãy dung ham hist() dé vẽ đỗ thị phân phối cho biến G3
Hãy dùng hàm boxplot() vẽ phân phối của biến G3 cho từng nhóm phân loại của biến studytime, failures, va bién higher
Dùng lệnh pairs() vẽ các phân phối của biến G3 lần lượt theo các biến G2, GI, age, và absences
Xây dựng các mô hình hỏi quy tuyến tính (Fitting linear regression models): Chung ta muốn khám phá rằng có những nhân tổ nào và tác động như thế nào đến điểm cuối khóa môn toán của các em học sinh
Xét mô hình hồi quy tuyến tính bao gồm biến G3 là một biến phụ thuộc, và tất cả các biến còn lại đều là độc lập Hãy dùng lệnh lm() đề thực thí mô hình hỗi quy tuyến tính bội
Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi
mô hình tương ứng với các mức tin cậy 5% và L4?
Xét mô hình hỏi quy hợp lý nhất từ câu (c) hãy suy luận từ tác động của các biến điểm thí cuối kì
Từ mô hình hỏi quy hợp lý nhất từ câu (c) hãy suy luận sự tác động của các biễn điểm thí cuối kì
Từ mô hình hồi quy hợp lý nhất từ câu (c) hãy dùng lệnh plot() đề vẽ đồ thị biếu thị sai
số hồi quy và giá trị dự báo Nêu ý nghĩa và nhận xét
Trang 13b) Xét mô hình hồi quy hợp lý nhất mà bạn đã chọn trong câu 4( c ) Hãy lập một bảng số liệu mới đặt tên là new_ X bao gồm toàn bộ các biến độc lập trong mô hình này, và dùng lên predict() đề đưa ra số liệu dự báo cho biến G3 phụ thuộc vào new_X Gọi kết quả
dự báo này là biến pred_G3
c) Khảo sát độ cính xác trong kết quả dự báo của câu trên bằng cách lập một bảng so sánh kết quả dự báo pred_G3 với kết quả thực tế của biến G3
+ 1 GP F 18 U GT3 a + 4 at cher course mother
Trang 14Hình 2 Code và kết quả khi tạo ra tệp tin mới chỉ bao gồm các biến chính
tên chính đề tài đưa ra, lưu với tên là new_ DE
b) Kiếm tra đữ liệu khuyết trong tệp tin Đề xuất phương án thay thế
- Y tưởng:
27
Trang 15Kiểm tra và phát hiện các cột dữ liệu bị N/A Sử dụng lệnh 1s na và which dé tiễn hành thay thế các giá trị N/A Phương án thay thế là chuyền các biến có đạng N/A về 0
miss naniar: :miss_var_summary (new_DF
Hình 3 Code và kết quả kiêm tra dữ liệu khuyết trong tệp tin
Nhận xét: Dựa vào kết quả thu được ở bảng thống kê tỉ lệ đánh giá khuyết đối với từng biến, ta nhận thấy có nhiều giá trị khuyết tại biến G2 Vì lượng khuyết trong dit liệu chỉ chiếm tối đa 2% lượng quan sát (đưới 100%) do đó ta lựa chọn phương pháp đổi các quan sát của biến nào có giá trị khuyết trong tép tin new DF thanh 0
28
Trang 16Hình 4 Code và kết quả khi thay đổi đữ liệu khuyết
Nhận xét: Ta nhận thấy số lượng quan sát sau khi xóa là 5 quan sát, chiếm tỉ lệ 1.26%
so với đữ liệu ban dau, có thế thấy việc xóa các quan sát của biến có giá trị khuyết trong tệp tin new_ DF không ảnh hướng nhiều đến kết quả của đữ liệu
3) Làm rõ dữ liệu
a) Tính các giá trị thống kê mô tả (trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất, và giá trị nhỏ nhất) của cân nặng theo từng loại thức ăn Xuất kết quả dưới dạng bảng
29
Trang 17mean <- lapply(mean, round, 2)
median <- lapply(new_DF[, c("G1", "G2", "G3", “studytime", “failures","absences", “age")], median) stddev <- lapply(new_DF[, c("G1", "G2", "G3", “studytime", “failures","absences", "“age")], sd stddev <- lapply(stddev, round, 2
min <- lapply(nmew_DF[, c("G1", "G2", "G3", “studytime", "failures", “absences","age")], min)
output <- cbind(mean, median, stddev, min, max)
Hình 5 Code R và kết quả khi tính các giá trị thống kê
b) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại
Hình 6 Code R và bảng thông kê từng chúng loại
c) Dé thị phân phối cho biến G3
Dùng hàm hist() đề vẽ phân phối của biến
- - Hiện thực bằng R
hist(new_DF$G3,xlab = "Diam",ylab = "S4 lucong",main = "D4 thi phan ph4i bién G3", col = "yellow",breaks = 20)
30
Trang 18d) Biéu đồ boxplot vẽ phân phối của biến G3 theo nhóm studytime, failures,hipher
31
Trang 19ylab = "Mac diém t4ng ket",
main = "Mac diém t4ng két tuong ung véi thei gian ty hoc",
Thoi gian tu hoc
Hình 8 Code R và kết quả khi vẽ biểu đồ boxplot thực hiện phân phối của biến G3 theo nhóm studytime
32
Trang 20x]ab = "Sá Tân thi trượt",
Trang 22Hình II Code R và biêu đồ phân phối của biến G3 lần lượt theo biến G2
pairs(G3~G1, main="Pairs of G3 for G1",col=c(1,4) ,data
Trang 23
Hình 12 Code R và biêu đồ phân phối của biến G3 lần lượt theo biến GI
pairs(G3~age, main="Pairs of G3 for age",col=c(1,4),data = new_DF)
Trang 24Pairs of G3 for absences
Trang 25Residual standard error: 2.198 on 387 degrees of freedom
Multiple R-squared: 0.7739, Adjusted R-squared: 0.7698
F-statistic: 189.2 on 7 and 387 DF, p-value: < 2.2e-16
Hình 15 Code R và kết quả thông kê về biến G3
b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mô hình tương ứng với các mức tin cay 5% va 1%?
- Y tưởng:
Dựa vào cột số liệu P rŒ |t|) trong kết quả của câu a) ta chọn ra những biến phù hợp với yêu câu bài toán
- Giải quyết bài toán:
Mức tin cậy 5%: Ta sẽ loại các biến có giá trị Pr( |t|) > 0.05, bao gồm:
Studytime, Failures, Higher
Mức tin cậy 1%: Ta sẽ loại các biến có giá trị P r(> |t|) > 0.01, bao gdm:
Studytime, Failures, Higher
c)Xét 3 mô hình tuyến tính cùng bao gồm biến G3 là biến phụ thuộc nhưng:
« Mô hình MI chứa tất cả các biến còn lại là biến độc lập
« Mô hình M2 loại bỏ biến Higher từ mô hình MI
38
Trang 26« Mô hình M3 loại bỏ biến Failures từ mô hình M2
Hãy dùng lệnh anova() đề đề xuất mô hình hợp lí hơn?
- Y tưởng:
Dùng lệnh lm(Q) đề tạo các mô hình M1, M2, M3
Ta dùng lệnh anova() với cặp mô hình Sau đó dùng đữ liệu ở cột P r( F) để đánh giá
mô hình nào hợp lí hơn
Analysis of Variance Table
Model 1: new_DF$G3 ~ new_DF$G1 + new_DF$G2 + new_DF$studytime + new_DF$failures +
new_DF$absences + new_DF$age + new_DF$higher
Model 2: new_DF$G3 ~ new_DF$G1 + new_DF$G2 + new_DF$studytime + new_DF$failures +
Mô hình M2 loại bỏ I biến Higher từ mô hình MI Ta thấy P r(> F) lớn hơn 0,05 nên
việc thêm l biến này không cải thiện hơn mô hình Khi đó, do mô hình M2 ít biến hơn
nên hợp lí hơn mô hình MI
Xét 2 mô hình M2, M3, dùng lệnh anova(M2, M3) thu được kết quả:
> anova(M2,M3)
Analysis of Variance Table
Model 1: new_DF$G3 ~ new_DF$G1 + new_DF$G2 + new_DF$studytime + new_DF$failures +
Trang 27Nhận xét:
Mô hình M2 thêm biến Failures vào mô hình M3 Ta thấy P r( F) <0, 05 nên việc thêm biến Failures là khác nhau
Nên ta phải sử dụng R? để so sánh mô hình nào hiệu quả hơn
Thông số R? của mô hình M2
Residual standard error: 2.196 on 388 degrees of freedom
Multiple R-squared: 0.7738, Adjusted R-squared: 0.7703
F-statistic: 221.2 on 6 and 388 DF, p-value: < 2.2e-16
Thông sô R7 của mô hình M3
Residual standard error: 2.203 on 389 degrees of freedom
Multiple R-squared: 0.7718, Adjusted R-squared: 0.7688
F-statistic: 263.1 on 5 and 389 DF, p-value: < 2.2e-16
Ta thấy R? của M2 lớn hơn R2 của M3 nên ta kết luân mô hình của M2 hiệu quả hơn mô hình M3
d) Từ mô hình hợp lí nhất ở cau (c) hãy suy luận sự tác động của các biến tới điểm thi cuối kì?
Residual standard error: 2.203 on 389 degrees of freedom
Multiple R-squared: 0.7718, Adjusted R-squared: 0.7688
F-statistic: 263.1 on 5 and 389 DF, p-value: < 2.2e-16
Từ bảng trên, ta có mô hình M3 là:
40
Trang 28CK = 0.47098*G1+0.66792*G2-0.13169*studytime+0.04185*absences-0.3 1671 *age
Do đó, khi thay đôi một thông số và giữ nguyên các thông số còn lại thì:
Với GI: khi tăng thêm | thi CK tang thém 0.47098
Với G2: khi tăng thêm | thi CK tang thém 0.66792
Với Studytime: khi tang thém | thi CK giam 0.13169
Voi Absences: khi tang thém 1 thi CK tang 0.04185
Voi Age: khi tang thêm | thi CK giảm 0.31671
e) Từ mô hình hợp lí nhất ở câu (c) hãy dùng lệnh plot() để vẽ đồ thì biểu thi sai
số hồi quy và giá trị dự báo Nêu ý nghĩa và nhận xét
- Y tưởng:
Từ mô hình nhận được ở câu (c), dùng lệnh plot(M3) đề vẽ đồ thị
4I
Trang 29° ®m 0° Og8 oO Sey 2 GP ©, pee BD on, Qe, ¬— © On? ° — og
Dựa vào đồ thị trên, ta thây, các sai sô hâu hết nắm tập trung quanh đường sai s6 băng 0, có một sô điểm nắm rât xa đường sai số băng 0
Ý nghĩa: Từ đó, ta thấy răng có một số giá trị ngoại biên làm ảnh hưởng đến mô hình 5) Dự báo
a) Trong dữ liệu của bạn, hãy tạo thêm biến đặt tên là evaluate, biến này biéu diễn tý lệ đạt (CK >= 10) hoặc không đạt (CK < 10) của sinh viên trong điểm thi cuối
kì Hãy thống kê tý lệ Đạt / Không đạt
Y tưởng:
42
Trang 30Dùng hàm prop.table trong file new DF dé tim gia tri G3>=10
Từ số liệu đã có ta được bảng tỉ lệ Đạt/ không đạt
- - Thực hiện R
Dat <- nrow(as.data.frame(new_DF$G3[which(new_DF$G3 >= 10)] nrow(new_DF ) Khong_Dat <- nrow(as.data.frame(new_DF$G3[which(new_DF$G3 < 10) Ì nrow(new_DF
Dat <- round(Dat, digit
Khong_Dat <- round(Khong_Dat, digit = 2
evaluate <- cbind(Dat, Khong Dat
- Y tưởng:
Theo câu 4(c), ta chọn được mô hình M3
Sau đó tạo mô hình new_ X Dùng lệnh predict() dé tạo ra dự đoán cho biến CK
- - Hiện thực bằng R:
Tạo mô hình new_X:
new_X <- new _DF[, c("Gi", "G2", "G3", "studytime", "absences”, “age
Dùng lệnh predict() dé tạo dự đoán cho biến CK:
pred_G3 <- predict(lm(new X$G3 ~., new X), newdata = new_DF
Bảng dự đoán của biến CK:
43
Trang 31rownames (So_sanh)<-cC"Quan sat","Du bao")
colnames (So_sanh) <-cC"Khéng dat", Dat")
44
Trang 32trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng Chi tiết về bộ dữ liệu như sau:
« Tông số người tham gia: 78
- Tổng số biến 7
« Mô tả các biến:
1 Person = số thứ tự của người tham gia thử nghiệm
2 gender = giới tính của người tham gia (1 = nam, 0 = nữ)
3 Age = tuôi (năm)
4 Heipht = chiều cao (cm)
5 pre.weipht = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)
6 Diet = chế độ ăn kiêng (3 chế độ khác nhau)
7 weipht6weeks = cân nặng sau 6 tuần ăn kiêng
Câu hỏi:
1.1 Đọc file dữ liệu, thực hiện thống kê mô tả và kiếm định
(a) Đọc đữ liệu vào R và tính toán các giá trị thong ké mé ta cho cac bién gender, Age, Height, pre.weight va weight6weeks theo ttrng nhom che d6 ăn kiêng tương ứng (b) Biến gender có chứa hai giá trị khuyết (NA = Not Available) của người tham gia thứ
25 và 26 Hãy đề xuất một phương pháp đề thay thê hai giá trị khuyết này
(c) Tạo biến weipht.loss = pre.weipht — weipht6weeks Hãy vẽ biếu đỗ boxplot cho biến weipht.loss tương ứng theo 3 chê độ ăn kiêng Dựa trên các biêu đồ boxplot vừa vẽ, đưa
ra nhận xét về 3 chê độ ăn kiêng
(d) Dựa trên hai biến pre.weight và weight6weeks, hãy thực hiện một kiêm định t theo cặp (paired t-test) đê đánh giá xem liệu chế độ ăn kiêng (nói chung) có làm giảm cân
nặng?
1.7 Phân tích phương sai một nhân tố (one way ANOVA)
(a) Trình bày mô hình phân tích phương sai một nhân tố, phát biểu các giả thuyết và đối thuyết và nêu các g1ả định của mô hình cần kiểm tra
(b) Thực hiện kiểm tra các giả định của mô hình (giả định về phân phối chuẩn, tinh đồng nhất của các phương sai) Gợi ý: ta có thé str đụng phân tích thặng dư kết hợp với việc sử dụng đỗ thị QQ-plot, kiêm định Shapiro-Wilk đề kiểm tra giả định về phân phối chuân, kiém dinh Levene hay Bartlett dé kiém tra giả định về tính đồng nhất của các phương sai
(e) Thực hiện phân tích ANOVA một nhân tố Trình bày bảng phân tích phương sai trong báo cáo Cho kết luận về hiệu quả của các phương pháp ăn kiêng đối với việc giảm cân 4
45
Trang 331.8 Phân tích phương sai hai nhân tổ (two way ANOVA)
(a) Thực hiện phân tích phương sai hai nhân tố đề xét xem liệu chế độ ăn kiêng và giới tính ảnh hưởng như thê nào đên sự giảm cân?
(b) Phân tích sự tương tác giữa chế độ ăn kiêng và giới tính đến sự giảm cân
6) Bài làm:
2.1 Doc file dữ liệu, thực hiện thống kê mô tả và kiểm định
a) Đọc dữ liệu vào R và tính toán các giá trị thông kê mô tả cho các biên gender, Age, Heipht, pre.weipht và weight6weeks theo từng nhóm chế độ ăn kiêng tương ứng
Trước tiên ta phải chuẩn bị trước khi bắt đầu làm:
Gọi ra các thư viện cần thiết
Trang 34
Person |gender |Age Height |pre.weight| Diet weightéweeks
Đề tính toán các giá trị thông kê của từng biến trong mỗi nhóm, trước hết ta trích xuất
dữ liệu của nhóm đó, ta làm như sau:
Chedol= subset (datafix, Diet==1)
Chedo2= subset (datafix, Diet==2)
Chedo3= subset (datafix, Diet==3)
¢ Dé tim gia tri trung binh, ta dùng lệnh mean(Tên biến)