Bài tập lớn môn xác suất và thống kê

Ở bài tập lớn này, nhóm chúng em sẽ tìm các đặc trưng mẫu với biến định lượng, mô ta dữ liệu hoặc I phan dữ liệu bởi các loại biêu đồ và đồ thị từ đó xây dựng mô hình bài toán cho phù

Trang 1

i=

TRUONG DAI HOC BACH KHOA TP HO CHI MINH

KHOA KHOA HOC UNG DUNG

BO MON TOAN UNG DUNG

BAI TAP LON MON XAC SUAT VA THONG KE

CHU DE 6 LỚP L08 - NHÓM CK06 - HK 222 NGAY NOP: 08/05/2023

Giảng viên hướng dẫn: ThS Nguyễn Kiều Dung

Sinh viên thực hiện Mã số sinh viên Điểm số

Bui Dinh Gia Bao 2110035

Lé Van Duy 1912888

Ngô Lê Hoang Long 2111665

Đoản Lâm Sinh 2114649

Trang 2

BANG PHAN CONG NHIEM VU

STT Họ và tên MSSV Nhiệm vụ Mức độ hoàn thành

Code + Báo cáo hoạt

Trang 3

MUC LUC

1.1 Phan tích phương sai (ANOVA) 2

1.1.1 Phân tích phương sai một yêu tổ (ANOVA một yếu tô) 2 1.1.2 Phân tích phương sai hai yếu tổ (ANOVA hai yếu tô) .-. -e 5

1.2 Mô hình hồi quy tuyến tính 8

1.2.3 Hệ số lạm phát phương sai (Variance Inflation Factor — VIF) 9 1.3 Tiêu chí thông tin Akaile (Akaile Information Criterion — AIC) 10

Trang 4

LOI MO DAU

Thống kê có vai trò quan trọng trong hầu hết các lĩnh vực trong cuộc sống, từ việc

nghiên cứu toán học, vật lý cho đến hỗ trợ giải quyết các bài toán kinh tế, môi trường

Thống kê giúp đưa ra những con số có ý nghĩa phân tích giúp cho các nhà phân tích thống

kê có được những kết quả xác thực nhất đề cải thiện các vấn đề liên quan đến đời sống xã hội Từ những vấn đề thực tiễn, thông qua việc thống kê và phân tích, các nhà nghiên cứu

có thê đưa những bảng biểu bao gồm số lượng, sô liệu, biêu đô thê hiện rõ các thông tin

quan trọng và dễ hiểu đối với mọi người Kết quả từ việc thông kê là căn cứ đề các nhà lãnh

đạo nhà nước, doanh nghiệp đưa ra những quyết định, hướng giải quyết đúng đắn cho vấn

đề thực tiễn đó

Ở bài tập lớn này, nhóm chúng em sẽ tìm các đặc trưng mẫu (với biến định lượng),

mô ta dữ liệu (hoặc I phan dữ liệu) bởi các loại biêu đồ và đồ thị từ đó xây dựng mô hình

bài toán cho phù hợp và đưa ra kết luận chính xác dựa theo dữ liệu cho sẵn

Trong suốt quá trình thực hiện bài tập lớn trên, nhóm chúng em đã nhận được rất

nhiều sự quan tâm và giúp đỡ của Cô Nguyễn Kiều Dung — giảng viên hướng dẫn cho đề

tài này Nhờ có những bài giáng tâm huyết và sự hết lòng chỉ bảo của cô mà nhóm chúng

em đã hoàn thành bài tập lớn đúng tiễn độ và giải quyết tốt những vướng mắc gặp phải Từ

đó tạo cơ sở đề hiểu hơn về phần Thống kê cũng như có kỹ năng sử dụng phần mềm Rstudio

Chúng em xin gửi lời biết ơn chân thành nhất đến Cô vì đã dành thời gian chỉ dẫn cho nhóm Đây chính là niềm tin, là nguồn động lực to lớn để nhóm có thê đạt được kết quả

`

này

Qua quá trình làm việc nhóm đã dần hiểu rõ nhau hơn, đoàn kết hết trong học tập

lẫn công việc Do chưa có nhiều kinh nghiệm làm RStudio cũng như những hạn chế về kiến

thức môn học, bài báo cáo của chúng em sẽ không tránh khỏi nhiều thiếu sót Chúng em rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình đề bài tập lớn của nhóm được hoàn

thiện hơn

Trang 5

CHUONG 1 CO SO LY THUYET

1.1 Phân tích phương sai (ANOVA)

Phân tích phương sai là một mô hình dùng để xem xét sự biến động của một biến ngẫu nhiên định lượng X chịu tác động trực tiếp của một hay nhiều yếu tô nguyên nhân (định tính)

1.1.1 Phân tích phương sai một yếu tổ (ANOVA một yếu tổ)

Phân tích phương sai một yếu tổ là phân tích ảnh hưởng của một yếu tô nguyên nhân (dạng biến định tính) đến một yếu tố kết quả (dạng biến định lượng) đang nghiên cứu

1.1.1.1 Giả thiết bài toán của bài toán phân tích phương sai một yếu tổ:

- Giả thiết mô hình (Điều kiện bài toán)

+ Các tông thẻ phải c6 phan phéi chuan N(y;; 67), trong đó í = 1;2; ; k với k

là số tong thé (thông thường k > 3)

+ Phương sai cac tong thé bang nhau: o7 = 07 = -~ = of

+ Các mẫu quan sát (từ các tổng thể) được lấy độc lập

- Giả thiết vô hiệu (null hypothesis):

Ho: by = be = + = Hy

Trung bình tất cả các phương thức xử lý bằng nhau, hay có thê hiểu là không có sự

khác biệt về giá trị trung bình giữa các nhóm

- Giả thiết dao (alternative hypothesis):

Hị:3H; # Hị với L # j Nghĩa là có sự khác biệt tôn tại giữa các nhóm, không đồng nghĩa tất cả các giá trị

trung bình đều khác nhau (có thể một hoặc một vài cặp có giá trị trung bình khác nhau)

1.1.1.2 Tinh giá trị kiểm định thống kê

Dé tinh gid tri kiểm định thống kê, ta thực hiện các bước sau:

Bước 1: Tính các trung bình mẫu và trung bình chung của k mẫu

2

Trang 6

Nhóm 1 Nhóm 2 Nhóm k

Kích thước từng mẫu N, N, Ny

Trung binh ting mau xy Xp Xe

Kích thước mẫu gộp NE=N+N;+ +ẢN,

Trung bình mẫu gộp x=) he xụ —_ (MXWT†N;fz+ a + Mee)

Bước 3: Tính các phương sai (phương sai của nội bộ nhóm va phương sai giữa

các nhóm) và tiêu chuẩn kiểm định F

Trang 8

ngau nhién X xung quanh giá trị trung bình của nó R càng lớn thì mô hình càng gọi là thích hợp

1.1.2 Phân tích phương sai hai yếu tổ (ANOVA hai yếu tổ)

Phân tích phương sai hai yếu tố nhằm xem xét cùng lúc hai yếu tố nguyên nhân (dưới

dang dữ liệu định tính) ảnh hưởng đến yếu tổ kết quả (dưới dạng dữ liệu định lượng) đang

nghiên cứu

Phân tích phương sai hai yêu tố giúp chúng ta đưa thêm yêu tố nguyên nhân vào phân tích làm cho kết quá nghiên cứu càng có giá trị

1.1.2.1 Giả thiết của bài toán phân tích phương sai hai yếu tổ

Tổng quát: Giả sử ta nghiên cứu ảnh hưởng của 2 yếu tố nguyên nhân định tính đến

một yếu tổ kết quả định lượng nào đó Ta lay mẫu không lặp lại, sau đó các đơn vị mẫu của

yêu tố nguyên nhân thứ nhất sắp xếp thành K nhóm (cột), các đơn vị mẫu của yếu tổ nguyên nhân thứ hai sắp xếp thành H khối (hàng) Như vậy, ta có bảng kết hợp 2 yếu tô nguyên nhân gôm K cột và H hàng và (K x H) ô đữ liệu Tông số mẫu quan sát là n = (K x H)

- Giả thiết mô hình (Điều kiện bài toán)

+ Mỗi mẫu tuân theo phân phối chuẩn N{u; ø?)

+ Ta lây K mẫu độc lập từ K tổng thể, H mẫu độc lập từ H tổng thể Mỗi mẫu được

quan sát 1 lần không lặp

- Giả thiết vô hiệu (null hypothesis):

Ao? Maa = xa = = Ueki da = Hụa = = Ba

Nghĩa là: Trung bình theo hàng (cột) của các mẫu là bằng nhau

- Giả thiết dao (alternative hypothesis):

Ay 3 Hự¡ # tựụj với Í # j; 3 Hụi # tụ; với Ì # j

Nghĩa là: Trung bình theo hang (cột) của các mẫu có sự khác biệt

Trang 9

1.1.2.2 Tinh giá trị kiểm định thống kê

Dé tinh gid tri kiểm định thống kê, ta thực hiện các bước sau:

1 Tổng các độ lệch bình phương chung (SST): K oH

, Cty 2 Phản ánh biển động của yêu tô kêt quả do ảnh SST = bXC” — x)

hưởng của tất cả các yếu tố _

2 Tổng các độ lệch bình phương giữa các nhóm

K

(SSK): Phan ánh biến động của yếu tô kết quả

do ảnh hưởng của yếu tÔ nguyên nhân thứ nhất

( xếp theo cột)

SSK =H x ¥(x; — x}?

i=1

3 Tong các độ lệch bình phương giữa các nhóm

(SSH): Phản ánh biến động của yếu tô kết quả

do ảnh hưởng cua yếu tổ nguyên nhân thứ hai

Trang 10

4 Tổng các độ lệch bình phương phần dư (SSE):

Phan ánh biến động của yếu tô kết quả do ảnh

hưởng của yếu tố nguyên nhân khác không

1 Phương sai giữa các nhóm (cột (MSK) MSK = SSK

- MSH: Phương sai giữa các khối (hàng)

MSH - MSE: Phương sai phần dư

Trang 11

+ Cho yếu tố nguyên nhân thir hai: RR, = (f,(H — 1; (K — 1)(H - 1)); +0)

Nếu F¡ nằm trong miền bác bỏ RR: thì ta bác bỏ giả thiết Họ, nghĩa là các số trung bình của K tông thê nhóm (cột) không bằng nhau

Nếu F2 nằm trong miền bác bỏ RR: thì ta bác bỏ giả thiết Ho, nghĩa là các số trung bình của H tông thê khối (hàng) không bằng nhau

1.1.2.3 Bảng ANOVA hai yếu tổ

Hỗi quy tuyến tính là một phương pháp thống kê đề hôi quy dữ liệu với biến phụ

thuộc có giá trị liên tục trong khi các biến độc lập có thể có một trong hai giá trị liên tục

hoặc là giá trị phân loại Nói cách khác, “Hồi quy tuyến tính” là một phương pháp đề dự

đoán biến phụ thuộc (biến đáp ứng) dựa trên giá trị của biến độc lập (hay còn gọi là biến giải thích) Nó có thể sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng

liên tục Ví dụ, dự đoán hàng hóa ở một cửa hàng bán lẻ, độ giãn nở của một vật liệu theo nhiệt độ môi trường

Mô hình với một biến phụ thuộc với hai hay nhiều biến độc lập được gọi là hồi quy

đa biến (hồi quy tuyến tính bội) Ví dụ: Mức chỉ tiêu của hộ gia đình phụ thuộc vào thu

Trang 12

nhập, vị trí địa lý; Tuôi thọ trung bình của một quốc gia phụ thuộc vào GDP, trình độ phát

triển

1.2.2 Mô hình tuyến tính bội

Hồi quy tuyến tính bội là phần mở rộng của hồi quy tuyến tính đơn Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hôi dựa trên giá trị của hai hoặc nhiều biến giải thích Biến chúng ta muốn dự đoán gọi là biến phản hồi (hoặc biến phụ thuộc)

Các biến mà chúng ta đang sử dụng đề dự đoán giá trị của biến phản hồi được gọi là các

bié giải thích (hoặc biến dự báo, biến phụ thuộc)

Mô hình hồi quy tuyến tính bội có dạng tổng quát sau:

Trong do:

- Äị; X;; ; X„: biến độc lập, là biến tác động lên biến khác

- Y: biến phụ thuộc, là biến chịu tác động bởi biến khác

- Bo: hang số hồi quy, hay còn gọi là hằng số chặn Đây là chỉ số nói lên gia tri cua Y

là bao nhiêu khi toàn bộ giá trị X đều bằng 0 Nói cách khác, chỉ số này cho ta biết giá trị

của Y là bao nhiêu khi không chịu ảnh hưởng của các giá trị X

đôi giá trị Y được gây ra bởi X Nói cách khác, ta có thể biết Y thay đối một lượng là bao

nhiêu khi X tăng hoặc giảm | don vị

- e: sai số Chỉ số này càng lớn càng khiến cho khả năng dự đoán của hồi quy trở nên

kém chính xác hơn hoặc sai lệch nhiều hơn so với thực tế Sai số trong hồi quy tông thê

hay phần dư trong hồi quy mẫu đại diện cho hai giá trị, một là các biến độc lập ngoài mô hình, hai là các sai số ngẫu nhiên

1.2.3 Hệ số lạm phát phương sai (Variance Infldtion Factfor — VIF)

Hệ số lạm phát phương sai (VIF) đo lường mức độ nghiêm trọng của đa cộng tuyến

trong Phân tích hồi quy (Phân tích hồi quy là một tập hợp các phương pháp thông kê được

Trang 13

lập) Nó có thê được sử dụng đê đánh giá sức mạnh của môi quan hệ giữa các biên và đê

mô hình hóa mỗi quan hệ trong tương lai giữa chúng

VIF có thể được tính theo công thức dưới đây:

N= Te

t

Trong do:

- R? dai diện cho hệ số xác định chưa điều chỉnh để hôi quy biến độc lập thứ ¡ trên

các biến còn lại Tương hỗ của VIF được gọi là dung sai

- Nếu RỂ = 0 thì không thể dự đoán phương sai của các biến độc lập còn lại từ biến độc lập thứ ¡ Do đó, khi VIE hoặc dung sai bằng 1, biến độc lập thứ ¡ không tương quan

đến các biến còn lại, nghĩa là không tôn tại đa cộng tuyến trong mô hình hôi quy này 1.3 Tiêu chí thông tin Akaile (Akaile Information Criterion — AIC)

Tiéu chi thong tin Akaile (Akaile Information Criterion) hay AIC là một phương pháp

toán học đề đánh giá mức độ phù hợp của một mô hình với dữ liệu mà nó được tạo ra

Trong thông kê, AIC được sử dụng để so sánh các mô hình có thê có sự khác nhau

và xác định được mô hình nào phù hợp nhất với dữ liệu Mô hình có chỉ số AIC càng nhỏ

thì mô hình đó càng phù hợp, sát với thực tế

AIC được tính từ số lượng các biến độc lập được sử dụng để xây dựng mô hình và ước tính khả năng xảy ra tôi đa của mô hình (mô hình tái tạo dữ liệu tốt như thế nào) Mô hình phù hợp nhất theo AIC là mô hình giải thích lượng biến động lớn nhất bằng cách sử dụng ít biến độc lập nhất có thẻ

10

Trang 14

CHUONG 2 THUC HIEN BAI TAP LON 2.1 HOAT DONG 1

2.1.1 Dé tai

Dữ liệu được cho trong file “auto-mpg.esv” là bộ dữ liệu tiêu thụ nhiên liệu của xe trong thành phố Dữ liệu được lấy từ UCI Machine Learning Repository (https://archive.ies.uci.edu/ml/datasets/Auto+MPG) Bộ đữ liệu gồm 398 quan trắc trên 9 biến sau:

- “mpg”: (continuous) mirc tiéu thu nhién ligu tinh theo dam trén gallon (miles/gallon)

- “cylinders”: (multi-valued discrete) số xy lanh

- “displacement”: (continuous) kich thước động cơ

- “horsepower”: (continuous) céng suat dong co

- “weight”: (continuous) khéi lvong

- “acceleration”: (continuous) gia tốc xe

- “model year”: (multi-valued discrete) nam san xuat model (2 số cudi)

- “origin”: (multi-valued discrete) noi san xuat 1 — North American, 2 — Europe, 3 — Asia

- “car name” (multi-valued discrete): tén xe

Yéu cau

1 Nhập và "làm sạch" đữ liệu (lưu ý, bién "horsepower" ¢6 6 quan trac thiêu đữ liệu;

xét xem có đữ liệu ngoại lai không?), thực hiện các thông kê mô tả (Chú ý các cột của file

"auto-mpg.csv" được phân tách bởi dấu ":", khi đọc file đữ liệu dùng lệnh "read.csv" cần thém sep = ";")

2 Chia bộ đữ liệu làm 2 phần: mẫu huan luyén (training dataset) g6m 200 quan trac

đặt tên "auto_mpg1" và mẫu kiêm tra (validation dataset) g6m cde quan trac con lai trong

bộ đữ liệu ban đầu đã "làm sạch", đặt tên "auto_mpg2”

Trang 15

3 Chọn mô hình tốt nhất giải thích cho biến phụ thuộc "mpg" thông qua việc chọn lựa các biến độc lập phù hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện " "auto_mpg1” Cần trình bày từng bước phương pháp chọn, tiêu chuẩn chọn mô hình, lý do chọn phương

pháp đó

4 Kiểm tra các gia định (giả thiết) của mô hình

3 Nêu ý nghĩa của mô hình đã chọn

6 Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset) "auto_mpg2" và

dựa vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biên phụ thuộc "mpg" Gọi kết quả dự báo nay 1a bién "predict_mpg"

7 So sánh kết quả dự báo "prediet_mpg” với giá trị thực tế cia "mpg" Rút ra nhận xét?

2.1.2 Thực hiện

1 Nhập và "làm sạch"' dữ liệu (lưu ý, biến "horsepower"" có 6 quan trắc thiếu

dữ liệu; xét xem có dữ liệu ngoại lai không?), thực hiện các thống kê mô tả (Chú ý các cột của file "auto-mpg.csv" được phân tách bởi dấu ";", khi đọc file dữ liệu dùng lệnh

"'read.esv"' cần thêm sep = ";"')

Trang 16

1 18.0 § 307.0 1300 3504 12.0 70 1 chevrolet chevelle malibu

xoá các quan sát có đữ liệu bị khuyết

- Ta tiến hành loại bỏ dòng chứa dữ liệu bị khuyết và kiêm tra bằng lệnh sum

INPUT

auto.mpg = auto.mpg[auto.mpgShorsepower != "?", ]

Trang 17

plymouth fur

pontiac cata! amc ambassz dodge challe

- Kiểm tra giá trị ngoại lai (Outlier) cho các biên bằng cách vẽ biêu đồ hộp (boxplot) cho từng biến (trừ biến car name vì đây là biến có đữ liệu kiều kí tự)

INPUT

par(mfrow = c(2,4))

boxplot(auto.mpg$mgp, main = "boxplot of MPG", ylab = "MPG")

boxplot(auto.mpg$cylinders, main = "boxplot of Cylinders", ylab = "Cylinders")

14

Trang 18

boxplot(auto.mpg$displacement, main = "boxplot of displacement", ylab

"displacement")

boxplot(auto.mpg$horsepower,

“horsepower")

main “boxplot of horsepower", ylab

boxplot(auto.mpg$weight, main = "boxplot of weight", ylab = "weight")

Các dâu châm bên ngoài khu vực là trị ngoại lai

Hình chữ nhật được dùng để chỉ vị trí tập trung chủ yếu của các giá trị

Hiên thị các giá trị ngoại lai của biên horsepower và acceleration:

Trang 19

A = quantile(auto.mpg$horsepower, probs=c(0.25, 0.75), na.rm = FALSE)

B = quantile(auto.mpg Sacceleration, probs=c(0.25, 0.75), na.rm = FALSE) iqrA = A[2] - A[1]

igraA Named num 51

igqrB Named num 3.25

16

Trang 20

Thực hiện thống kê mô tả

acceleration model_year origin car_name

Min : 9.50 Min :70.00 Min 21.000 Length:372

Median :15.50 Median :76.00 Median :1.000 Mode :character

3

- Đối với các biến liên tuc (mpg, displacement, horsepower, weight, accleration): INPUT

Mean = apply(auto.mpg[,cC'mgp”, "displacement”,"horsepower”,"welght”,"accelerat

Trang 21

- Đối với các biến rời rac (car_name, cylinders, model year, origin), ta tao bang tan suat

các giá trị của mỗi biến:

Trang 23

Vệ đô thị phân tan cua bién “mpg” theo cac bién “horsepower”, “displacement”,

“weight” va “acceleration”:

INPUT

plot(mgp~horsepower, data = auto.mpg, type = "p", col=4, pch=16,

main = "Colleraton between Miles/gallon and Horsepower", cex.main=1) plot(mgp~displacement, data = auto.mpg, type = "p", col=2, pch=16,

main = "Colleraton between Miles/gallon and Displacement", cex.main=1) plot(mgp~weight, data = auto.mpg, type = "p", col=6, pch=16,

main = "Colleraton between Miles/gallon and Weight", cex.main=1)

plot(mgp~acceleration, data = auto.mpg, type = "p", col=3, pch=16,

main = "Colleraton between Miles/gallon and Acceleration", cex.main=1) OUTPUT

20

Tiêu đề	Bài Tập Lớn Môn Xác Suất Và Thống Kê
Tác giả	Hồ Kiến An, Bùi Đinh Gia Bảo, Lé Văn Duy, Ngô Lê Hoàng Long, Đoàn Lâm Sinh
Người hướng dẫn	ThS. Nguyễn Kiều Dung
Trường học	Trường Đại Học Bách Khoa TP Hồ Chí Minh
Chuyên ngành	Toán Ứng Dụng
Thể loại	bài tập lớn
Năm xuất bản	2023
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	47
Dung lượng	6,26 MB