Báo Cáo Bài Tập Lớn Xác Suất Thống Kê.pdf

Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyên tính bội Trong khi xây dựng mô hình hồi quy đa biến cần kiêm tra các giả thiết như sau: a Hàm hồi quy là tuyế

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỎ HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

MỤC LỤC

A _ CƠ SỞ LÝ THUYÉT HÒI QUY TUYẾN TÍNH BỘI - 17 1.1 Ham hoi quy tong thé (PRF- Population Regression Function) 17 1.2 Ham hoi quy mau (SRF - Sample Regression Function) 18 1.3 Cac gia thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi

2) Bài làm: 43

2.1 Đọc file dữ liệu, thực hiện thống kê mô tả và kiếm định - 43 2.2 Phân tích phương sai một nhân tổ (one way ANOVA) -5cscse 50 2.3 Phân tích phương sai hai nhân tổ (two way ANOVA) sccccsccscee 60

Trang 3

2.2 Làm sạch dữ liệu (Data Cleaning)

2.3 Làm rõ dữ liệu (Data Visualization)

2.4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression

models):

63

64 74

Trang 4

A CƠ SỞ LÝ THUYÉT HỎI QUY TUYẾN TÍNH BỘI

Hồi quy tuyến tính bội là phần mở rộng của hồi quy tuyến tính đơn Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của hai hoặc nhiều biến giải thích Biến chúng ta muốn dự đoán gọi là biến phản hỏi (hoặc biến phụ thuộc) Các biến mà chúng ta đang sử dụng đề dự đoán giá trị của biến phản hồi được gọi là các bié giai thich (hoac biến dự báo, biến phụ thuộc)

Mô hình hỏi quy tuyến tính bội có dạng tông quát như sau:

Y =Bi ~B;X¿: + B:X: + + Xu

Trong đó:

+ Bị: Hệ số hồi quy riêng

+Y: Biến phụ thuộc

+ Xj: Biến độc lập

+ ¡: Hệ số tự đo (hệ số chặn)

Như vậy, "Hỗi quy tuyến tính" là một phương pháp đề dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X)

1.1 Ham hoi quy tong thé (PRF- Population Regression Function)

Voi Y 1a bién phụ thuéc X:, X3, ., X; la bién déc lap, Y la ngẫu nhiên và có một phân phối xác suất nào đó Suy ra:

Tén tai E(Y | X2, X3, ,.Xx) = giá trị xác định

Do vay, F(X2, X3, Xx) = E(Y | Xo, X3, Xx) la ham héi quy tong thé cua Y theo

X, X3, Xt

Với một cá thé i, ton tai (X2, X3, ., Xk) Ta cd:

Yi 4 F(X, X3, Xk) =u¡=Y¡—F

Do vay: Y; =E(Y | X2, X3, Xx)Hi

Hồi quy tổng thê PRE:

+Y=E(Y| X)+U

+E(Y | X)=F(X)

1.2 Ham hoi quy mau (SRF - Sample Regression Function)

17

Trang 5

Do không biết tông thế, nên chúng ta không biết giá trị trung bình tổng thê của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu đề ước lượng Trên một mẫu có n cá thê, gọi = (X›, X: ,X.) là hồi quy mẫu Với một cá thé mau [Ji 4 Xoi, Xai Xxi) sinh ra[i— (X2, X3 Xi); [ID] goi la phan du SRF Ta co hàm hồi quy mẫu tông quát được viết đưới dạng như sau:

Phan du sinh ra: [] =[li— Ký hiệu: là ước lượng của []m Chúng ta trông đợi là ước lượng không chệch cúa [][], hơn nữa phải là một ước lượng hiệu quả Ước lượng SRF: chọn một phương pháp nào đó đề ước lượng các tham số của F qua việc tìm các tham số của và lấy giá trị quan sát của các tham số này làm giá trị xấp xi cho tham số của F

1.3 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyên tính bội

Trong khi xây dựng mô hình hồi quy đa biến cần kiêm tra các giả thiết như sau: a) Hàm hồi quy là tuyến tính theo các tham số

Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng:

y = Bi + Boxe + Bsx3 + Baxyt + Bex tu

hoặc mỗi quan hệ thực tế có thể được viết lại ví đụ như dưới dạng lay log, ca hai về b) Kỳ vọng của các yếu tố ngẫu nhiên u; băng 0

Trung bình tông thê sai sô là bắng 0 Điêu này có nghĩa là có một số giả trị sai số mang dâu dương và một sô sai số mang dâu âm Do hàm xem như là đường trung bình nên có thê giả định rắng các sai sô ngầu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tông thé

c) Các sai số độc lập với nhau

đ) Các sai số có phương sai bằng nhau

Tất cả giá trị u được phân phối giống nhau với cùng phương sai , sao cho: LILLIL1 )=LC) =LÝ

e) Các sai số có phân phôi chuẩn

18

Trang 6

Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng

1.4 Độ phù hợp của mô hình

Đề có thê biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng [] 2

Ta co:

+ : TSS — Total Sum of Squares

+ : ESS — Explained Sum of Squares

+:RSS — Residual Sum of Squares

Ta có thê viét: TSS = ESS + RSS

Ý nghĩa của các thành phần:

+ TSS là tổng bình phương của tất cả các sai lệch giữa các giá tri quan sat Yi va giá trị trung bình

+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc

Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy

+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy

+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra

LÝ được xác định theo công thức:

Tỷ số giữa tông biến thiên được giải thích bởi mô hình cho tông bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of ft” Từ định nghĩa [] 2 chúng ta thấy [] 2 đo tý lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng []2 để đo sự phù hợp của hàm hỗi quy:

+0 <[ƒ<t

19

Trang 7

+ LƑ cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc

+ Nếu [Ƒ= I nghĩa là đường hồi quy giải thích 100% thay đổi của y

+ Nếu [Ƒ =0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y

1.5 Khoảng tin cậy và kiếm định các hệ số hồi quy

a) Ước lượng khoảng tin cậy đối với các hệ số hồi quy:

Mục đích của phân tích hồi quy không phải chỉ suy đoán về []¡ []›- [mà còn

phải kiêm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của Lh.Lb

Lk Các phân bố này phụ thuộc vào phân bố của các []

Với các giả thiết OLS, [][] có phân phối [](0 [Ƒ )

Các hệ số ước lượng tuân theo phân phối chuân:

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu

Trong đó k là số hệ số có trong phương trình hồi quy đa biến:

+ Ước lượng 2 phía, ta tìm được L[] 2 ([I— L) thỏa mãn:

+ Khoảng tin cậy I— [] của [ [] là:

L— ŒI-LĐLHO: ~ - LH LLO:)]

b)Kiêm định giả thiết đối với ;

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiếm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩa thông kê hay không Có thê đưa ra giả thiết nào đó đối voi , chang han = % Nếu giả thiết nay dung thi:

~U - 0)

20

Trang 8

21

Trang 9

P-value < mức ý nghĩa thì bác bỏ giả thiết

H0 Kiểm định Bị: Giả thuyết H0 :

a) Khái quát về kiêm định WALD

Giả sử chúng ta có 2 mô hình dưới đây:

(U):Y =Bi + Bazx: + Bx: + B„x«+ + Bix, +O

Đặt các mô hình giới hạn và không giới hạn là:

(U): Y = Bi + Box2 + + BX + BiiiXmut + Bex, + u

(R): Y = Bi + Box2 + + BaXntv

Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình (U), đó là:

22

Trang 10

Giả thiết H0 : B„.¡= = ¿=0

Giả thuyết H: : “Không phải đồng thời các tham số bằng 0”

Lưu ý rằng (U) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết

Do đó, mô hình R có ít hơn (km) thông số so với U Câu hỏi chúng ta nêu ra là

(km) biến bị loại ra có ảnh hưởng liên kết có ý nghĩa đối với Y hay không Trị thống

kê kiểm định đối với giả thiết này là:

Với LƑ là số đo độ thích hợp không hiệu chỉnh Với giả thuyết không, có phân phối F với (km) bậc tự do đối với tử số và (n—k) bậc tự đo đối với mẫu số

Bác bỏ giả thuyết H0 khi:

>LIIH.LI=H.H-LU

Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước

b) Kiểm định ý nghĩa của mô hình

Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0

Ung dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:

Bước I: Giả thuyết H0 : [] =[b = =[k= 0 Giả thuyết H: : “có ít nhất một trong nhitng gia tri khác không”

Bước 2: Trước tiên hồi quy Y theo một số hạng không đôi va Xo, X3, Xx, sau đó tính tông bình phương sai số [][ILILI LIHL Phân phối F là tý số của hai biến ngẫu nhiên phân phối khi bình phương độc lập Điều này cho ta tri thống kê:

Vi Ho : Fh =[h= -=[k = 0, nhận thấy rằng trị thông kê kiêm định đối với giả thuyết này sẽ là:

23

Trang 11

Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k—L) cho tử số và (n—k) cho mẫu số, và với mức ý nghĩa ơ cho trước

Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa œ nếu >[[1.[]— 1.—[U Đối với phương pháp giá trị p-value, tính giá trị p = P (F > [Ho ) va bac bo giả thuyết H0 nếu p bé hơn mức ý nghĩa ơ

G1: Diém thi hoc ki L

G2: Diém thi hoc ki 2

G3: Điểm thi cuối khóa

Studytime: Thời gian tự học trên tuần (I-ít hơn 2 giờ,2-từ 2 đến 5 giờ, 3-từ 5 đến I0 giờ, or 4- lớn hon 10 g1ờ)

Failuress: số lần không qua môn (1,2,3,4 hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần) Absences: số lần nghỉ học

Higher: có muốn học cao hơn hay không (yes: có „no: không)

Age: Tuổi của học sinh

Câu hỏi

Đọc dữ liệu:

Hãy dùng lệnh read.csv() để đọc tệp tin

Làm sạch đữ liệu (data cleaning):

Hãy trích ra một đữ liệu con đặt tên là new DF chỉ bao gồm các biến chính mà ta quan

tâm như đã trình bày trong phần giới thiệu đữ liệu từ câu hỏi này về sau, mọi yêu cầu

xử lý đều dựa trên tập dữ liệu con new_DF nay

24

Trang 12

Làm rõ đữ liệu (Data visualization):

Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình , trung

vị, độ lệch chuẩn, giá trị lớn nhất, và giá trị nhỏ nhất xuất kết quả dưới dạng bảng Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại Hãy dung ham hist() dé vẽ đỗ thị phân phối cho biến G3

Hãy dùng hàm boxplot() vẽ phân phối của biến G3 cho từng nhóm phân loại của biến studytime, failures, va bién higher

Dùng lệnh pairs() vẽ các phân phối của biến G3 lần lượt theo các biến G2, GI, age, và absences

Xây dựng các mô hình hỏi quy tuyến tính (Fitting linear regression models): Chung ta muốn khám phá rằng có những nhân tổ nào và tác động như thế nào đến điểm cuối khóa môn toán của các em học sinh

Xét mô hình hồi quy tuyến tính bao gồm biến G3 là một biến phụ thuộc, và tất cả các biến còn lại đều là độc lập Hãy dùng lệnh lm() đề thực thí mô hình hỗi quy tuyến tính bội

Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi

mô hình tương ứng với các mức tin cậy 5% và L4?

Xét mô hình hỏi quy hợp lý nhất từ câu (c) hãy suy luận từ tác động của các biến điểm thí cuối kì

Từ mô hình hỏi quy hợp lý nhất từ câu (c) hãy suy luận sự tác động của các biễn điểm thí cuối kì

Từ mô hình hồi quy hợp lý nhất từ câu (c) hãy dùng lệnh plot() đề vẽ đồ thị biếu thị sai

số hồi quy và giá trị dự báo Nêu ý nghĩa và nhận xét

Trang 13

b) Xét mô hình hồi quy hợp lý nhất mà bạn đã chọn trong câu 4( c ) Hãy lập một bảng số liệu mới đặt tên là new_ X bao gồm toàn bộ các biến độc lập trong mô hình này, và dùng lên predict() đề đưa ra số liệu dự báo cho biến G3 phụ thuộc vào new_X Gọi kết quả

dự báo này là biến pred_G3

c) Khảo sát độ cính xác trong kết quả dự báo của câu trên bằng cách lập một bảng so sánh kết quả dự báo pred_G3 với kết quả thực tế của biến G3

+ 1 GP F 18 U GT3 a + 4 at cher course mother

Trang 14

Hình 2 Code và kết quả khi tạo ra tệp tin mới chỉ bao gồm các biến chính

tên chính đề tài đưa ra, lưu với tên là new_ DE

b) Kiếm tra đữ liệu khuyết trong tệp tin Đề xuất phương án thay thế

- Y tưởng:

27

Trang 15

Kiểm tra và phát hiện các cột dữ liệu bị N/A Sử dụng lệnh 1s na và which dé tiễn hành thay thế các giá trị N/A Phương án thay thế là chuyền các biến có đạng N/A về 0

miss naniar: :miss_var_summary (new_DF

Hình 3 Code và kết quả kiêm tra dữ liệu khuyết trong tệp tin

Nhận xét: Dựa vào kết quả thu được ở bảng thống kê tỉ lệ đánh giá khuyết đối với từng biến, ta nhận thấy có nhiều giá trị khuyết tại biến G2 Vì lượng khuyết trong dit liệu chỉ chiếm tối đa 2% lượng quan sát (đưới 100%) do đó ta lựa chọn phương pháp đổi các quan sát của biến nào có giá trị khuyết trong tép tin new DF thanh 0

28

Trang 16

Hình 4 Code và kết quả khi thay đổi đữ liệu khuyết

Nhận xét: Ta nhận thấy số lượng quan sát sau khi xóa là 5 quan sát, chiếm tỉ lệ 1.26%

so với đữ liệu ban dau, có thế thấy việc xóa các quan sát của biến có giá trị khuyết trong tệp tin new_ DF không ảnh hướng nhiều đến kết quả của đữ liệu

3) Làm rõ dữ liệu

a) Tính các giá trị thống kê mô tả (trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất, và giá trị nhỏ nhất) của cân nặng theo từng loại thức ăn Xuất kết quả dưới dạng bảng

29

Trang 17

mean <- lapply(mean, round, 2)

median <- lapply(new_DF[, c("G1", "G2", "G3", “studytime", “failures","absences", “age")], median) stddev <- lapply(new_DF[, c("G1", "G2", "G3", “studytime", “failures","absences", "“age")], sd stddev <- lapply(stddev, round, 2

min <- lapply(nmew_DF[, c("G1", "G2", "G3", “studytime", "failures", “absences","age")], min)

output <- cbind(mean, median, stddev, min, max)

Hình 5 Code R và kết quả khi tính các giá trị thống kê

b) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại

Hình 6 Code R và bảng thông kê từng chúng loại

c) Dé thị phân phối cho biến G3

Dùng hàm hist() đề vẽ phân phối của biến

- - Hiện thực bằng R

hist(new_DF$G3,xlab = "Diam",ylab = "S4 lucong",main = "D4 thi phan ph4i bién G3", col = "yellow",breaks = 20)

30

Trang 18

d) Biéu đồ boxplot vẽ phân phối của biến G3 theo nhóm studytime, failures,hipher

31

Trang 19

ylab = "Mac diém t4ng ket",

main = "Mac diém t4ng két tuong ung véi thei gian ty hoc",

Thoi gian tu hoc

Hình 8 Code R và kết quả khi vẽ biểu đồ boxplot thực hiện phân phối của biến G3 theo nhóm studytime

32

Trang 20

x]ab = "Sá Tân thi trượt",

Trang 22

Hình II Code R và biêu đồ phân phối của biến G3 lần lượt theo biến G2

pairs(G3~G1, main="Pairs of G3 for G1",col=c(1,4) ,data

Trang 23

Hình 12 Code R và biêu đồ phân phối của biến G3 lần lượt theo biến GI

pairs(G3~age, main="Pairs of G3 for age",col=c(1,4),data = new_DF)

Trang 24

Pairs of G3 for absences

Trang 25

Residual standard error: 2.198 on 387 degrees of freedom

Multiple R-squared: 0.7739, Adjusted R-squared: 0.7698

F-statistic: 189.2 on 7 and 387 DF, p-value: < 2.2e-16

Hình 15 Code R và kết quả thông kê về biến G3

b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mô hình tương ứng với các mức tin cay 5% va 1%?

- Y tưởng:

Dựa vào cột số liệu P rŒ |t|) trong kết quả của câu a) ta chọn ra những biến phù hợp với yêu câu bài toán

- Giải quyết bài toán:

Mức tin cậy 5%: Ta sẽ loại các biến có giá trị Pr( |t|) > 0.05, bao gồm:

Studytime, Failures, Higher

Mức tin cậy 1%: Ta sẽ loại các biến có giá trị P r(> |t|) > 0.01, bao gdm:

Studytime, Failures, Higher

c)Xét 3 mô hình tuyến tính cùng bao gồm biến G3 là biến phụ thuộc nhưng:

« Mô hình MI chứa tất cả các biến còn lại là biến độc lập

« Mô hình M2 loại bỏ biến Higher từ mô hình MI

38

Trang 26

« Mô hình M3 loại bỏ biến Failures từ mô hình M2

Hãy dùng lệnh anova() đề đề xuất mô hình hợp lí hơn?

- Y tưởng:

Dùng lệnh lm(Q) đề tạo các mô hình M1, M2, M3

Ta dùng lệnh anova() với cặp mô hình Sau đó dùng đữ liệu ở cột P r( F) để đánh giá

mô hình nào hợp lí hơn

Analysis of Variance Table

Model 1: new_DF$G3 ~ new_DF$G1 + new_DF$G2 + new_DF$studytime + new_DF$failures +

new_DF$absences + new_DF$age + new_DF$higher

Mô hình M2 loại bỏ I biến Higher từ mô hình MI Ta thấy P r(> F) lớn hơn 0,05 nên

việc thêm l biến này không cải thiện hơn mô hình Khi đó, do mô hình M2 ít biến hơn

nên hợp lí hơn mô hình MI

Xét 2 mô hình M2, M3, dùng lệnh anova(M2, M3) thu được kết quả:

> anova(M2,M3)

Analysis of Variance Table

Trang 27

Nhận xét:

Mô hình M2 thêm biến Failures vào mô hình M3 Ta thấy P r( F) <0, 05 nên việc thêm biến Failures là khác nhau

Nên ta phải sử dụng R? để so sánh mô hình nào hiệu quả hơn

Thông số R? của mô hình M2

Thông sô R7 của mô hình M3

Ta thấy R? của M2 lớn hơn R2 của M3 nên ta kết luân mô hình của M2 hiệu quả hơn mô hình M3

d) Từ mô hình hợp lí nhất ở cau (c) hãy suy luận sự tác động của các biến tới điểm thi cuối kì?

Từ bảng trên, ta có mô hình M3 là:

40

Trang 28

CK = 0.47098*G1+0.66792*G2-0.13169*studytime+0.04185*absences-0.3 1671 *age

Do đó, khi thay đôi một thông số và giữ nguyên các thông số còn lại thì:

Với GI: khi tăng thêm | thi CK tang thém 0.47098

Với G2: khi tăng thêm | thi CK tang thém 0.66792

Với Studytime: khi tang thém | thi CK giam 0.13169

Voi Absences: khi tang thém 1 thi CK tang 0.04185

Voi Age: khi tang thêm | thi CK giảm 0.31671

e) Từ mô hình hợp lí nhất ở câu (c) hãy dùng lệnh plot() để vẽ đồ thì biểu thi sai

số hồi quy và giá trị dự báo Nêu ý nghĩa và nhận xét

- Y tưởng:

Từ mô hình nhận được ở câu (c), dùng lệnh plot(M3) đề vẽ đồ thị

4I

Trang 29

Dựa vào đồ thị trên, ta thây, các sai sô hâu hết nắm tập trung quanh đường sai s6 băng 0, có một sô điểm nắm rât xa đường sai số băng 0

Ý nghĩa: Từ đó, ta thấy răng có một số giá trị ngoại biên làm ảnh hưởng đến mô hình 5) Dự báo

a) Trong dữ liệu của bạn, hãy tạo thêm biến đặt tên là evaluate, biến này biéu diễn tý lệ đạt (CK >= 10) hoặc không đạt (CK < 10) của sinh viên trong điểm thi cuối

kì Hãy thống kê tý lệ Đạt / Không đạt

Y tưởng:

42

Trang 30

Dùng hàm prop.table trong file new DF dé tim gia tri G3>=10

Từ số liệu đã có ta được bảng tỉ lệ Đạt/ không đạt

- - Thực hiện R

Dat <- nrow(as.data.frame(new_DF$G3[which(new_DF$G3 >= 10)] nrow(new_DF ) Khong_Dat <- nrow(as.data.frame(new_DF$G3[which(new_DF$G3 < 10) Ì nrow(new_DF

Dat <- round(Dat, digit

Khong_Dat <- round(Khong_Dat, digit = 2

evaluate <- cbind(Dat, Khong Dat

- Y tưởng:

Theo câu 4(c), ta chọn được mô hình M3

Sau đó tạo mô hình new_ X Dùng lệnh predict() dé tạo ra dự đoán cho biến CK

- - Hiện thực bằng R:

Tạo mô hình new_X:

new_X <- new _DF[, c("Gi", "G2", "G3", "studytime", "absences”, “age

Dùng lệnh predict() dé tạo dự đoán cho biến CK:

pred_G3 <- predict(lm(new X$G3 ~., new X), newdata = new_DF

Bảng dự đoán của biến CK:

43

Trang 31

rownames (So_sanh)<-cC"Quan sat","Du bao")

colnames (So_sanh) <-cC"Khéng dat", Dat")

44

Trang 32

trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng Chi tiết về bộ dữ liệu như sau:

« Tông số người tham gia: 78

- Tổng số biến 7

« Mô tả các biến:

1 Person = số thứ tự của người tham gia thử nghiệm

2 gender = giới tính của người tham gia (1 = nam, 0 = nữ)

3 Age = tuôi (năm)

4 Heipht = chiều cao (cm)

5 pre.weipht = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)

6 Diet = chế độ ăn kiêng (3 chế độ khác nhau)

7 weipht6weeks = cân nặng sau 6 tuần ăn kiêng

Câu hỏi:

1.1 Đọc file dữ liệu, thực hiện thống kê mô tả và kiếm định

(a) Đọc đữ liệu vào R và tính toán các giá trị thong ké mé ta cho cac bién gender, Age, Height, pre.weight va weight6weeks theo ttrng nhom che d6 ăn kiêng tương ứng (b) Biến gender có chứa hai giá trị khuyết (NA = Not Available) của người tham gia thứ

25 và 26 Hãy đề xuất một phương pháp đề thay thê hai giá trị khuyết này

(c) Tạo biến weipht.loss = pre.weipht — weipht6weeks Hãy vẽ biếu đỗ boxplot cho biến weipht.loss tương ứng theo 3 chê độ ăn kiêng Dựa trên các biêu đồ boxplot vừa vẽ, đưa

ra nhận xét về 3 chê độ ăn kiêng

(d) Dựa trên hai biến pre.weight và weight6weeks, hãy thực hiện một kiêm định t theo cặp (paired t-test) đê đánh giá xem liệu chế độ ăn kiêng (nói chung) có làm giảm cân

nặng?

1.7 Phân tích phương sai một nhân tố (one way ANOVA)

(a) Trình bày mô hình phân tích phương sai một nhân tố, phát biểu các giả thuyết và đối thuyết và nêu các g1ả định của mô hình cần kiểm tra

(b) Thực hiện kiểm tra các giả định của mô hình (giả định về phân phối chuẩn, tinh đồng nhất của các phương sai) Gợi ý: ta có thé str đụng phân tích thặng dư kết hợp với việc sử dụng đỗ thị QQ-plot, kiêm định Shapiro-Wilk đề kiểm tra giả định về phân phối chuân, kiém dinh Levene hay Bartlett dé kiém tra giả định về tính đồng nhất của các phương sai

(e) Thực hiện phân tích ANOVA một nhân tố Trình bày bảng phân tích phương sai trong báo cáo Cho kết luận về hiệu quả của các phương pháp ăn kiêng đối với việc giảm cân 4

45

Trang 33

1.8 Phân tích phương sai hai nhân tổ (two way ANOVA)

(a) Thực hiện phân tích phương sai hai nhân tố đề xét xem liệu chế độ ăn kiêng và giới tính ảnh hưởng như thê nào đên sự giảm cân?

(b) Phân tích sự tương tác giữa chế độ ăn kiêng và giới tính đến sự giảm cân

6) Bài làm:

2.1 Doc file dữ liệu, thực hiện thống kê mô tả và kiểm định

a) Đọc dữ liệu vào R và tính toán các giá trị thông kê mô tả cho các biên gender, Age, Heipht, pre.weipht và weight6weeks theo từng nhóm chế độ ăn kiêng tương ứng

Trước tiên ta phải chuẩn bị trước khi bắt đầu làm:

Gọi ra các thư viện cần thiết

Trang 34

Person |gender |Age Height |pre.weight| Diet weightéweeks

Đề tính toán các giá trị thông kê của từng biến trong mỗi nhóm, trước hết ta trích xuất

dữ liệu của nhóm đó, ta làm như sau:

Chedol= subset (datafix, Diet==1)

Chedo2= subset (datafix, Diet==2)

Chedo3= subset (datafix, Diet==3)

¢ Dé tim gia tri trung binh, ta dùng lệnh mean(Tên biến)

Tiêu đề	Báo Cáo Bài Tập Lớn Xác Suất Thống Kê
Tác giả	Nguyễn Thành Tài
Người hướng dẫn	Đinh Bá Thi
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh, Trường Đại học Bách Khoa
Chuyên ngành	Xác suất Thống kê
Thể loại	bài tập lớn
Năm xuất bản	2022
Thành phố	Tp. HCM

Định dạng
Số trang	69
Dung lượng	8,2 MB