Ở bài tập lớn này, nhóm chúng em sẽ tìm các đặc trưng mẫu với biến định lượng, mô ta dữ liệu hoặc I phan dữ liệu bởi các loại biêu đồ và đồ thị từ đó xây dựng mô hình bài toán cho phù
Trang 1i=
TRUONG DAI HOC BACH KHOA TP HO CHI MINH
KHOA KHOA HOC UNG DUNG
BO MON TOAN UNG DUNG
BAI TAP LON MON XAC SUAT VA THONG KE
CHU DE 6 LỚP L08 - NHÓM CK06 - HK 222 NGAY NOP: 08/05/2023
Giảng viên hướng dẫn: ThS Nguyễn Kiều Dung
Sinh viên thực hiện Mã số sinh viên Điểm số
Bui Dinh Gia Bao 2110035
Lé Van Duy 1912888
Ngô Lê Hoang Long 2111665
Đoản Lâm Sinh 2114649
Trang 2
BANG PHAN CONG NHIEM VU
STT Họ và tên MSSV Nhiệm vụ Mức độ hoàn thành
Code + Báo cáo hoạt
Trang 3
MUC LUC
1.1 Phan tích phương sai (ANOVA) 2
1.1.1 Phân tích phương sai một yêu tổ (ANOVA một yếu tô) 2 1.1.2 Phân tích phương sai hai yếu tổ (ANOVA hai yếu tô) .-. -e 5
1.2 Mô hình hồi quy tuyến tính 8
1.2.3 Hệ số lạm phát phương sai (Variance Inflation Factor — VIF) 9 1.3 Tiêu chí thông tin Akaile (Akaile Information Criterion — AIC) 10
Trang 4LOI MO DAU
Thống kê có vai trò quan trọng trong hầu hết các lĩnh vực trong cuộc sống, từ việc
nghiên cứu toán học, vật lý cho đến hỗ trợ giải quyết các bài toán kinh tế, môi trường
Thống kê giúp đưa ra những con số có ý nghĩa phân tích giúp cho các nhà phân tích thống
kê có được những kết quả xác thực nhất đề cải thiện các vấn đề liên quan đến đời sống xã hội Từ những vấn đề thực tiễn, thông qua việc thống kê và phân tích, các nhà nghiên cứu
có thê đưa những bảng biểu bao gồm số lượng, sô liệu, biêu đô thê hiện rõ các thông tin
quan trọng và dễ hiểu đối với mọi người Kết quả từ việc thông kê là căn cứ đề các nhà lãnh
đạo nhà nước, doanh nghiệp đưa ra những quyết định, hướng giải quyết đúng đắn cho vấn
đề thực tiễn đó
Ở bài tập lớn này, nhóm chúng em sẽ tìm các đặc trưng mẫu (với biến định lượng),
mô ta dữ liệu (hoặc I phan dữ liệu) bởi các loại biêu đồ và đồ thị từ đó xây dựng mô hình
bài toán cho phù hợp và đưa ra kết luận chính xác dựa theo dữ liệu cho sẵn
Trong suốt quá trình thực hiện bài tập lớn trên, nhóm chúng em đã nhận được rất
nhiều sự quan tâm và giúp đỡ của Cô Nguyễn Kiều Dung — giảng viên hướng dẫn cho đề
tài này Nhờ có những bài giáng tâm huyết và sự hết lòng chỉ bảo của cô mà nhóm chúng
em đã hoàn thành bài tập lớn đúng tiễn độ và giải quyết tốt những vướng mắc gặp phải Từ
đó tạo cơ sở đề hiểu hơn về phần Thống kê cũng như có kỹ năng sử dụng phần mềm Rstudio
Chúng em xin gửi lời biết ơn chân thành nhất đến Cô vì đã dành thời gian chỉ dẫn cho nhóm Đây chính là niềm tin, là nguồn động lực to lớn để nhóm có thê đạt được kết quả
`
này
Qua quá trình làm việc nhóm đã dần hiểu rõ nhau hơn, đoàn kết hết trong học tập
lẫn công việc Do chưa có nhiều kinh nghiệm làm RStudio cũng như những hạn chế về kiến
thức môn học, bài báo cáo của chúng em sẽ không tránh khỏi nhiều thiếu sót Chúng em rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình đề bài tập lớn của nhóm được hoàn
thiện hơn
Trang 5CHUONG 1 CO SO LY THUYET
1.1 Phân tích phương sai (ANOVA)
Phân tích phương sai là một mô hình dùng để xem xét sự biến động của một biến ngẫu nhiên định lượng X chịu tác động trực tiếp của một hay nhiều yếu tô nguyên nhân (định tính)
1.1.1 Phân tích phương sai một yếu tổ (ANOVA một yếu tổ)
Phân tích phương sai một yếu tổ là phân tích ảnh hưởng của một yếu tô nguyên nhân (dạng biến định tính) đến một yếu tố kết quả (dạng biến định lượng) đang nghiên cứu
1.1.1.1 Giả thiết bài toán của bài toán phân tích phương sai một yếu tổ:
- Giả thiết mô hình (Điều kiện bài toán)
+ Các tông thẻ phải c6 phan phéi chuan N(y;; 67), trong đó í = 1;2; ; k với k
là số tong thé (thông thường k > 3)
+ Phương sai cac tong thé bang nhau: o7 = 07 = -~ = of
+ Các mẫu quan sát (từ các tổng thể) được lấy độc lập
- Giả thiết vô hiệu (null hypothesis):
Ho: by = be = + = Hy
Trung bình tất cả các phương thức xử lý bằng nhau, hay có thê hiểu là không có sự
khác biệt về giá trị trung bình giữa các nhóm
- Giả thiết dao (alternative hypothesis):
Hị:3H; # Hị với L # j Nghĩa là có sự khác biệt tôn tại giữa các nhóm, không đồng nghĩa tất cả các giá trị
trung bình đều khác nhau (có thể một hoặc một vài cặp có giá trị trung bình khác nhau)
1.1.1.2 Tinh giá trị kiểm định thống kê
Dé tinh gid tri kiểm định thống kê, ta thực hiện các bước sau:
Bước 1: Tính các trung bình mẫu và trung bình chung của k mẫu
2
Trang 6
Nhóm 1 Nhóm 2 Nhóm k
Kích thước từng mẫu N, N, Ny
Trung binh ting mau xy Xp Xe
Kích thước mẫu gộp NE=N+N;+ +ẢN,
Trung bình mẫu gộp x=) he xụ —_ (MXWT†N;fz+ a + Mee)
Bước 3: Tính các phương sai (phương sai của nội bộ nhóm va phương sai giữa
các nhóm) và tiêu chuẩn kiểm định F
Trang 8ngau nhién X xung quanh giá trị trung bình của nó R càng lớn thì mô hình càng gọi là thích hợp
1.1.2 Phân tích phương sai hai yếu tổ (ANOVA hai yếu tổ)
Phân tích phương sai hai yếu tố nhằm xem xét cùng lúc hai yếu tố nguyên nhân (dưới
dang dữ liệu định tính) ảnh hưởng đến yếu tổ kết quả (dưới dạng dữ liệu định lượng) đang
nghiên cứu
Phân tích phương sai hai yêu tố giúp chúng ta đưa thêm yêu tố nguyên nhân vào phân tích làm cho kết quá nghiên cứu càng có giá trị
1.1.2.1 Giả thiết của bài toán phân tích phương sai hai yếu tổ
Tổng quát: Giả sử ta nghiên cứu ảnh hưởng của 2 yếu tố nguyên nhân định tính đến
một yếu tổ kết quả định lượng nào đó Ta lay mẫu không lặp lại, sau đó các đơn vị mẫu của
yêu tố nguyên nhân thứ nhất sắp xếp thành K nhóm (cột), các đơn vị mẫu của yếu tổ nguyên nhân thứ hai sắp xếp thành H khối (hàng) Như vậy, ta có bảng kết hợp 2 yếu tô nguyên nhân gôm K cột và H hàng và (K x H) ô đữ liệu Tông số mẫu quan sát là n = (K x H)
- Giả thiết mô hình (Điều kiện bài toán)
+ Mỗi mẫu tuân theo phân phối chuẩn N{u; ø?)
+ Ta lây K mẫu độc lập từ K tổng thể, H mẫu độc lập từ H tổng thể Mỗi mẫu được
quan sát 1 lần không lặp
- Giả thiết vô hiệu (null hypothesis):
Ao? Maa = xa = = Ueki da = Hụa = = Ba
Nghĩa là: Trung bình theo hàng (cột) của các mẫu là bằng nhau
- Giả thiết dao (alternative hypothesis):
Ay 3 Hự¡ # tựụj với Í # j; 3 Hụi # tụ; với Ì # j
Nghĩa là: Trung bình theo hang (cột) của các mẫu có sự khác biệt
Trang 91.1.2.2 Tinh giá trị kiểm định thống kê
Dé tinh gid tri kiểm định thống kê, ta thực hiện các bước sau:
1 Tổng các độ lệch bình phương chung (SST): K oH
, Cty 2 Phản ánh biển động của yêu tô kêt quả do ảnh SST = bXC” — x)
hưởng của tất cả các yếu tố _
2 Tổng các độ lệch bình phương giữa các nhóm
K
(SSK): Phan ánh biến động của yếu tô kết quả
do ảnh hưởng của yếu tÔ nguyên nhân thứ nhất
( xếp theo cột)
SSK =H x ¥(x; — x}?
i=1
3 Tong các độ lệch bình phương giữa các nhóm
(SSH): Phản ánh biến động của yếu tô kết quả
do ảnh hưởng cua yếu tổ nguyên nhân thứ hai
Trang 10
4 Tổng các độ lệch bình phương phần dư (SSE):
Phan ánh biến động của yếu tô kết quả do ảnh
hưởng của yếu tố nguyên nhân khác không
1 Phương sai giữa các nhóm (cột (MSK) MSK = SSK
- MSH: Phương sai giữa các khối (hàng)
MSH - MSE: Phương sai phần dư
Trang 11+ Cho yếu tố nguyên nhân thir hai: RR, = (f,(H — 1; (K — 1)(H - 1)); +0)
Nếu F¡ nằm trong miền bác bỏ RR: thì ta bác bỏ giả thiết Họ, nghĩa là các số trung bình của K tông thê nhóm (cột) không bằng nhau
Nếu F2 nằm trong miền bác bỏ RR: thì ta bác bỏ giả thiết Ho, nghĩa là các số trung bình của H tông thê khối (hàng) không bằng nhau
1.1.2.3 Bảng ANOVA hai yếu tổ
Hỗi quy tuyến tính là một phương pháp thống kê đề hôi quy dữ liệu với biến phụ
thuộc có giá trị liên tục trong khi các biến độc lập có thể có một trong hai giá trị liên tục
hoặc là giá trị phân loại Nói cách khác, “Hồi quy tuyến tính” là một phương pháp đề dự
đoán biến phụ thuộc (biến đáp ứng) dựa trên giá trị của biến độc lập (hay còn gọi là biến giải thích) Nó có thể sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng
liên tục Ví dụ, dự đoán hàng hóa ở một cửa hàng bán lẻ, độ giãn nở của một vật liệu theo nhiệt độ môi trường
Mô hình với một biến phụ thuộc với hai hay nhiều biến độc lập được gọi là hồi quy
đa biến (hồi quy tuyến tính bội) Ví dụ: Mức chỉ tiêu của hộ gia đình phụ thuộc vào thu
Trang 12nhập, vị trí địa lý; Tuôi thọ trung bình của một quốc gia phụ thuộc vào GDP, trình độ phát
triển
1.2.2 Mô hình tuyến tính bội
Hồi quy tuyến tính bội là phần mở rộng của hồi quy tuyến tính đơn Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hôi dựa trên giá trị của hai hoặc nhiều biến giải thích Biến chúng ta muốn dự đoán gọi là biến phản hồi (hoặc biến phụ thuộc)
Các biến mà chúng ta đang sử dụng đề dự đoán giá trị của biến phản hồi được gọi là các
bié giải thích (hoặc biến dự báo, biến phụ thuộc)
Mô hình hồi quy tuyến tính bội có dạng tổng quát sau:
Trong do:
- Äị; X;; ; X„: biến độc lập, là biến tác động lên biến khác
- Y: biến phụ thuộc, là biến chịu tác động bởi biến khác
- Bo: hang số hồi quy, hay còn gọi là hằng số chặn Đây là chỉ số nói lên gia tri cua Y
là bao nhiêu khi toàn bộ giá trị X đều bằng 0 Nói cách khác, chỉ số này cho ta biết giá trị
của Y là bao nhiêu khi không chịu ảnh hưởng của các giá trị X
đôi giá trị Y được gây ra bởi X Nói cách khác, ta có thể biết Y thay đối một lượng là bao
nhiêu khi X tăng hoặc giảm | don vị
- e: sai số Chỉ số này càng lớn càng khiến cho khả năng dự đoán của hồi quy trở nên
kém chính xác hơn hoặc sai lệch nhiều hơn so với thực tế Sai số trong hồi quy tông thê
hay phần dư trong hồi quy mẫu đại diện cho hai giá trị, một là các biến độc lập ngoài mô hình, hai là các sai số ngẫu nhiên
1.2.3 Hệ số lạm phát phương sai (Variance Infldtion Factfor — VIF)
Hệ số lạm phát phương sai (VIF) đo lường mức độ nghiêm trọng của đa cộng tuyến
trong Phân tích hồi quy (Phân tích hồi quy là một tập hợp các phương pháp thông kê được
Trang 13lập) Nó có thê được sử dụng đê đánh giá sức mạnh của môi quan hệ giữa các biên và đê
mô hình hóa mỗi quan hệ trong tương lai giữa chúng
VIF có thể được tính theo công thức dưới đây:
N= Te
t
Trong do:
- R? dai diện cho hệ số xác định chưa điều chỉnh để hôi quy biến độc lập thứ ¡ trên
các biến còn lại Tương hỗ của VIF được gọi là dung sai
- Nếu RỂ = 0 thì không thể dự đoán phương sai của các biến độc lập còn lại từ biến độc lập thứ ¡ Do đó, khi VIE hoặc dung sai bằng 1, biến độc lập thứ ¡ không tương quan
đến các biến còn lại, nghĩa là không tôn tại đa cộng tuyến trong mô hình hôi quy này 1.3 Tiêu chí thông tin Akaile (Akaile Information Criterion — AIC)
Tiéu chi thong tin Akaile (Akaile Information Criterion) hay AIC là một phương pháp
toán học đề đánh giá mức độ phù hợp của một mô hình với dữ liệu mà nó được tạo ra
Trong thông kê, AIC được sử dụng để so sánh các mô hình có thê có sự khác nhau
và xác định được mô hình nào phù hợp nhất với dữ liệu Mô hình có chỉ số AIC càng nhỏ
thì mô hình đó càng phù hợp, sát với thực tế
AIC được tính từ số lượng các biến độc lập được sử dụng để xây dựng mô hình và ước tính khả năng xảy ra tôi đa của mô hình (mô hình tái tạo dữ liệu tốt như thế nào) Mô hình phù hợp nhất theo AIC là mô hình giải thích lượng biến động lớn nhất bằng cách sử dụng ít biến độc lập nhất có thẻ
10
Trang 14CHUONG 2 THUC HIEN BAI TAP LON 2.1 HOAT DONG 1
2.1.1 Dé tai
Dữ liệu được cho trong file “auto-mpg.esv” là bộ dữ liệu tiêu thụ nhiên liệu của xe trong thành phố Dữ liệu được lấy từ UCI Machine Learning Repository (https://archive.ies.uci.edu/ml/datasets/Auto+MPG) Bộ đữ liệu gồm 398 quan trắc trên 9 biến sau:
- “mpg”: (continuous) mirc tiéu thu nhién ligu tinh theo dam trén gallon (miles/gallon)
- “cylinders”: (multi-valued discrete) số xy lanh
- “displacement”: (continuous) kich thước động cơ
- “horsepower”: (continuous) céng suat dong co
- “weight”: (continuous) khéi lvong
- “acceleration”: (continuous) gia tốc xe
- “model year”: (multi-valued discrete) nam san xuat model (2 số cudi)
- “origin”: (multi-valued discrete) noi san xuat 1 — North American, 2 — Europe, 3 — Asia
- “car name” (multi-valued discrete): tén xe
Yéu cau
1 Nhập và "làm sạch" đữ liệu (lưu ý, bién "horsepower" ¢6 6 quan trac thiêu đữ liệu;
xét xem có đữ liệu ngoại lai không?), thực hiện các thông kê mô tả (Chú ý các cột của file
"auto-mpg.csv" được phân tách bởi dấu ":", khi đọc file đữ liệu dùng lệnh "read.csv" cần thém sep = ";")
2 Chia bộ đữ liệu làm 2 phần: mẫu huan luyén (training dataset) g6m 200 quan trac
đặt tên "auto_mpg1" và mẫu kiêm tra (validation dataset) g6m cde quan trac con lai trong
bộ đữ liệu ban đầu đã "làm sạch", đặt tên "auto_mpg2”
Trang 153 Chọn mô hình tốt nhất giải thích cho biến phụ thuộc "mpg" thông qua việc chọn lựa các biến độc lập phù hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện " "auto_mpg1” Cần trình bày từng bước phương pháp chọn, tiêu chuẩn chọn mô hình, lý do chọn phương
pháp đó
4 Kiểm tra các gia định (giả thiết) của mô hình
3 Nêu ý nghĩa của mô hình đã chọn
6 Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset) "auto_mpg2" và
dựa vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biên phụ thuộc "mpg" Gọi kết quả dự báo nay 1a bién "predict_mpg"
7 So sánh kết quả dự báo "prediet_mpg” với giá trị thực tế cia "mpg" Rút ra nhận xét?
2.1.2 Thực hiện
1 Nhập và "làm sạch"' dữ liệu (lưu ý, biến "horsepower"" có 6 quan trắc thiếu
dữ liệu; xét xem có dữ liệu ngoại lai không?), thực hiện các thống kê mô tả (Chú ý các cột của file "auto-mpg.csv" được phân tách bởi dấu ";", khi đọc file dữ liệu dùng lệnh
"'read.esv"' cần thêm sep = ";"')
Trang 161 18.0 § 307.0 1300 3504 12.0 70 1 chevrolet chevelle malibu
xoá các quan sát có đữ liệu bị khuyết
- Ta tiến hành loại bỏ dòng chứa dữ liệu bị khuyết và kiêm tra bằng lệnh sum
INPUT
auto.mpg = auto.mpg[auto.mpgShorsepower != "?", ]
Trang 17plymouth fur
pontiac cata! amc ambassz dodge challe
- Kiểm tra giá trị ngoại lai (Outlier) cho các biên bằng cách vẽ biêu đồ hộp (boxplot) cho từng biến (trừ biến car name vì đây là biến có đữ liệu kiều kí tự)
INPUT
par(mfrow = c(2,4))
boxplot(auto.mpg$mgp, main = "boxplot of MPG", ylab = "MPG")
boxplot(auto.mpg$cylinders, main = "boxplot of Cylinders", ylab = "Cylinders")
14
Trang 18boxplot(auto.mpg$displacement, main = "boxplot of displacement", ylab
"displacement")
boxplot(auto.mpg$horsepower,
“horsepower")
main “boxplot of horsepower", ylab
boxplot(auto.mpg$weight, main = "boxplot of weight", ylab = "weight")
Các dâu châm bên ngoài khu vực là trị ngoại lai
Hình chữ nhật được dùng để chỉ vị trí tập trung chủ yếu của các giá trị
Hiên thị các giá trị ngoại lai của biên horsepower và acceleration:
Trang 19A = quantile(auto.mpg$horsepower, probs=c(0.25, 0.75), na.rm = FALSE)
B = quantile(auto.mpg Sacceleration, probs=c(0.25, 0.75), na.rm = FALSE) iqrA = A[2] - A[1]
igraA Named num 51
igqrB Named num 3.25
16
Trang 20Thực hiện thống kê mô tả
acceleration model_year origin car_name
Min : 9.50 Min :70.00 Min 21.000 Length:372
Median :15.50 Median :76.00 Median :1.000 Mode :character
3
- Đối với các biến liên tuc (mpg, displacement, horsepower, weight, accleration): INPUT
Mean = apply(auto.mpg[,cC'mgp”, "displacement”,"horsepower”,"welght”,"accelerat
Trang 21- Đối với các biến rời rac (car_name, cylinders, model year, origin), ta tao bang tan suat
các giá trị của mỗi biến:
Trang 23Vệ đô thị phân tan cua bién “mpg” theo cac bién “horsepower”, “displacement”,
“weight” va “acceleration”:
INPUT
plot(mgp~horsepower, data = auto.mpg, type = "p", col=4, pch=16,
main = "Colleraton between Miles/gallon and Horsepower", cex.main=1) plot(mgp~displacement, data = auto.mpg, type = "p", col=2, pch=16,
main = "Colleraton between Miles/gallon and Displacement", cex.main=1) plot(mgp~weight, data = auto.mpg, type = "p", col=6, pch=16,
main = "Colleraton between Miles/gallon and Weight", cex.main=1)
plot(mgp~acceleration, data = auto.mpg, type = "p", col=3, pch=16,
main = "Colleraton between Miles/gallon and Acceleration", cex.main=1) OUTPUT
20