Báo Cáo Bài Tập Lớn Môn Học Xác Suất Thống Kê Đề Tài 6.Pdf

Bao gồm: Gia trị nhỏ nhất, Điểm tứ phân vị dưới, Trung vị, Điểm tứ phân vị trên, Gia trị lớn nhất.. Không có điểm outliers nào, miền phân bố dữ liệu không quá rộng, giá trị lớn nhất và g

Trang 1

DAI HOC QUOC GIA THANH PHO HO CHi MINH

TRUONG DAI HOC BACH KHOA

* 8 já BAO CAO BAI TAP LON MON HOC XAC SUAT THONG KE

c2

ĐÈ TÀI 6

LỚP: LI1 - NHÓM: 6, HK211 GVHD: TS PHAN THỊ HƯỜNG

Sinh viên thực hiện

5 2011553 | Nguyễn Ngô Hoàng Long Khoa học và kỹ thuật máy tính

TPHCM, ngày 23 tháng 11 năm 2021

Trang 2

1.2.1 Kiểm tra dữ liệu bị khuyết và xử Ïí: 5 c c SEEc HE gH rr Hgre 5

1.2.2 Xem xét các dữ liệu ngoại Ìa1 (L1 22 2221222111 11115115115 1118112 rkcey 5

1.3 Thống kê mô tả 5 S1 SE 1 E1E 211011212111 ng H1 He ra 6

1.3.1 Làm rõ đữ liệu ( Data visual1zafion)) - ác c2 1221221122 2112 6

1.4 Chia bộ dữ liệu làm 2 phần 2 2 E1 ESEE 112112121111 1.7.1 tre ll

1.5 Chọn mô hình tốt nhất để giải thích cho biến phụ thuộc mgp 12 1.5.1 - Trích dữ liệu từ tệp auto _mgpl theo như yêu cầu của đề bài 12

1.5.2 Tiêu chuẩn chọn các mô hìỉnh SE 1151155111155 111 55151515551 EEeesre 12 1.5.3 Phuong phap co thé str dung đề lựa chọn ra mô hình tốt nhất: Phân tích tat ca

các biến và chọn ra những biến có ý nghĩa thống kê 2S S SE SE EExtrsre 12

1.5.4 Thực hiện các mô hình ccccvE2253 51111119 1 8111515551111 11kg 1119555552 13

1.6 Kiểm tra các giả định (giả thiết) của mô hình - 5 2S SE srere set 15

1.6.1 ĐỒ hị 2222 212212222212 122122112211221211212112re 15 1.6.2 Kiểm định ANOVA S221 2 2221121221212 17 1.7 Ý nghĩa của mô hình - E21 E1 1121 111 2211 121111 ng grerrey 17

1.9 So sdnh két qua va mhan xt ccc cccsceceseescsessvsevevsvsseevevevsecevevseseveees 18

Trang 3

HOẠT ĐỘNG 2 22555 22211 1122211 t2 c2 reo 20

2.1 Mô tả dữ liệu 552 22222222 2222 22 2 21k 20 2.2 Đọc dữ liệu L 20 221122111 12211211111 1101501111511 1H HH ke 20

2.3.1 Tạo dữ liệu mẫu để kiểm tra tính thiểu sot ca dif LGU 21

2.3.2 Kiểm tra các biến liên tục is s21 S311 11 121515151555 He Hee 21 2.3.3 Kiểm tra các biến phân loại c1 22212221112 211112511112 11cm rà 21

2.4 Trực quan hóa dữ liệu (Data Visualization) 0.00.0000000000 ccc ccccccccceeceteeees 22

2.4.1 Xử lý nhóm các biến liên tục tk HE HE tk HH net 22

2.4.3 Làm rõ biến cần quan tâm bằng biêu đỒ 2S nh tgrrưyn 24

2.4.4 Phân tích tương quan phụ thuộc của biến PRP với các biến liên tục khác 26

2.5 Xây dựng mô hình dữ liệu L2 1221122221111 1 1511211101118 2 81 key 27 2.7 Laiya chọn mô hình - 00 2111211112111 10111181 118112211 1112111201111 x1 kea 32

2.8 Kiểm tra tính hợp lệ (Validity) của mô hình 22 2 SE xe tri 32 2.9 Nhận xét và kết luận - - 2+ 2 1E E11211 21211 11 t2 11 tt re 34

2.10 Dự đoán Q00 21 nH HT 11011110111 11 111g xkkkku 34

TÀI LIỆU THAM KHÁO (5c 1 22121 E11E1121111 1.2111 1g te Heo 35

Trang 4

¢ "cylinders": (multi-valued discrete) số xy lanh,

e "displacement" : (continuous) kich thước động cơ,

¢ "horsepower" : (continuous) công suất động cơ,

¢ "weight" : (continuous) khéi lượng,

* "acceleration" : (continuous) gia toc xe,

¢ "model year": (multi-valued discrete) nam san xuat model (2 s6 cuối)

¢ "origin": (multi-valued discrete) noi san xuat: 1 - North American, 2 - Europe, 3 - Asia

e "car name": (multi-valued discrete) tén xe

1 Nhập và "làm sạch" dữ liệu (luu y, bién "horsepower" có 6 quan trắc thiếu dữ liệu; xét xem có dữ liệu ngoại lai không?), thực hiện các thông kê mô tả (Chú ý các cột của file

"auto-mpg.csv” được phân tách bởi dau ":", khi doc file dữ liệu dùng lệnh "read.csv"

cần thêm sep = ";"),

2 Chia bộ dữ liệu làm 2 phần: mẫu huấn luyện (training dataset) gồm 200 quan trắc đặt tên "auto mpgl" và mẫu kiểm tra (validation dataset) gồm các quan trắc còn lại trong

bộ đữ liệu ban đầu đã "làm sạch", đặt tên "auto_mpg2"

3 Chọn mô hình tốt nhất giải thích cho biến phụ thuộc "mpg" thông qua việc chọn lựa

các biến độc lập phụ hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện "

"auto mpgl" Can trình bày từng bước phương pháp chọn, tiêu chuẩn chọn mô hình,

lý do chọn phương pháp đó

4 Kiém tra các giả định (giả thiết) của mô hình.

Trang 5

5 Nêu ý nghĩa của mô hình da chon

6 Du bao (Prediction): Str dung mau kiém tra (validation dataset) "auto _mpg2" và dựa

vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biến phụ thuộc "mpg”

Gọi kết quả dự báo này là biến "predict mpg"

7 So sánh kết quả dự báo "predict mpg” với giá trị thực tế của "mpg" Rút ra nhận xét?

Trang 6

HOẠT ĐỘNG 1

Sử dụng lệnh read.CSV hoặc lệnh read_xÌsx Vì ñle auto_mqgp la file csv nên dùng lệnh read.CSV, tuy nhiên chúng ta cần sử dụng thêm thuộc tính sep = “;” để

phân tách các dữ liệu đã cho trong file

Cú pháp : read.csv(< Đường dẫn tới file / tên file được lưu dưới dạng đuôi Csv>, sep = ";”)

Gián lệnh cho tên auto_mpg bằng cú pháp : auto_rnpg<-read.csv

Data frame auto mpg co 9 bién va mdi bién cd 398 mau chua loai mau xuat hién NA 1.2 Lam sach di ligu (Data cleaning)

1.2.1 Kiểm tra dữ liệu bị khuyết và xử lí:

Vì kiểu đữ liệu của horsepower là character: kí tự nên khi trích biến phái chuyển về kiêu

dữ liệu numeric Trich bién horsepower ttr data.frame auto mpg vao bién horsepower kt

đề tiễn hành kiểm tra số lượng giá trị NA

horsepower_kt<-as.numeric auto_mpg $hor sepower Khi chuyên đôi từ kiêu dữ liệu char sang num thì sẽ xuât hiện lỗi sau:

> sum(is.na(horsepower_kt)) [1] 6

Tương tự với các biến còn lại, ta cũng đếm số lượng giá trị khuyết cho 8 biến còn lại

Trang 7

Ta thay chi có 6 dữ liệu bi khuyết tại biến “horsepower” trong khi dữ liệu có tận 398

dòng (chiếm tỉ lệ 1,5%) nên cách xử lý tối ưu nhất là xóa đi các dòng dữ liệu bị khuyết

filter(data,horsepower != "NA")

library(dplyr new_autompg<-filter(auto_mpg,horsepower !="2"

với nhiệm vụ xóa những dòng có giá trị bị khuyết Và gán tên cho tập mới là new _autompg (dữ liệu đã làm sạch) có 392 quan trắc

1.2.2 Xem xét các lữ liệu ngoại lai

Đề nhận xét có dữ liệu ngoại lai hay không ta sử dụng đồ thị boxplot để quan sát: par(mfrow = c(3,3 ))

Trang 8

cylinders displacement horsepower

- _ Đường màu đen đậm là các trung vị của đồ thị

- _ Đường nằm trên cùng là các giá trị lớn nhất của các biến tương ứng

- _ Đường nằm dưới cùng là các giá trị nhỏ nhất của biến tương ứng

-_ Đối với đồ thị boxplot, đường nằm trên đường trung vị là đường biểu diễn vị trí tứ

phan vi thir ba

- _ Đường nằm ngay phía dưới đường trung vị là đường biêu diễn vị trí tứ phân vị thứ nhất

- Khoang trai gitra IQR= Q3 — Qi

Ham summary () cho chung ta biét thong tin thống kê về một biến số Bao gồm: Gia

trị nhỏ nhất, Điểm tứ phân vị dưới, Trung vị, Điểm tứ phân vị trên, Gia trị lớn nhất Quan sát đồ thị ta thấy dữ liệu của “cylinders” và “origin” thì điểm tứ phân vị thứ nhất

Trang 9

ngoại lai (outliers) Là một outliers trong tập dữ liệu Trong đó, điểm dữ liệu này giả định rằng đã được quan sát đúng (thu thập và ghi chép số liệu chính xác) và các phần tử tương

tự nó có thê tìm thấy trong tập dữ liệu Nghĩa là, đây là một đại diện cho các outliers cùng

thê loại khác và thường được giữ lại để phân tích Nếu chúng ta quyết định loại bỏ điểm

dị biệt dé giảm ảnh hưởng của chúng, sau đó kiểm tra lại dữ liệu đã loại bỏ hết chưa Điều

này đôi khi làm xuất hiện những điểm đị biệt mới vì chúng có thể bị che lấp bới những

điểm dị biệt cũ Vì vậy nên ta không nên bỏ đi những điểm dị biệt

Đối với đồ thị của biến cylinders:

1.3 Thống kê mô tả

131, Lam ré dit liéu ( Data visualization)

Trích các biến từ tập new_autompg để tiến hành các tính toán làm rõ đữ liệu Kí hiệu new_autompg$ là trích lay biến thuộc tập new_autompdg

¢ Doi voi các biên liên tục (continuous), ta tinh các giá trị thông kê mô ta bao gom:

trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhật, giá trị nhỏ nhật

- Ham mean: Gia tri trung bình

- Ham median: Gia tri trung vi

- Ham sd: Phuong sai mau hiéu chỉnh

- Ham max, min: Gia tri lon nhat, gia tr nho nhat

mear<-c(mean(mgp) mean(horsepower) ,mean(cylinders) ,mean(displacenent) ymean(weight) ,mean(acceleration) ,mean(mode]_year

median<-c(median(mgp) m horsepower) ,median(cylinders) ,median(cisplacement) ,median(weight) median (acceleration) ,nedian(model_year sd<-c(Sd(mgp) ,sd (horse linders isplacenent) ,sd(weight) ,sd(acceleration) ,sd(model_year

ming-c(min(mgp) ,min(hor : h acceleration) ,min(mode

max<-C(max(mgp) max(horsepower), wlax (cylinders), max(d?splacement) max (weight) ,max(acceleration) ,max(mode

- Tao 5 Vecto tuong img voi Gia tri trung binh, Gia trị trung vị, Phương sai mẫu hiệu chính, Gía trị lớn nhất, Gía trị nhỏ nhất

data_thongke<- data fr ame (mean, med an, sd, max ,min

Field<-c("mgp", "displacement", “horsepower”, "weight", “acceleration”

data_thongkel<-data frame(field,data_thongke

www oom

Ta thu duoc két qua:

Trang 10

¢ Poi voi cac bien

Sử dụng lệnh table (<tên biến>)

248

46

1613

8

Ta được màn hình kết quả (bởi vì biến car_ name là dãy các kí tự không trùng lặp nên

không thê tiễn hành thông

2 11 1

30 30.5 30.7

7 2 1 34.7 35 35.1

Trang 11

Trang 12

o_ Trục x là số liệu của biến mpg

o Truc y la tan so

o Lwong tiêu thụ nhiên liệu thấp nhất là ở hai đầu đồ thị 0-10 và 45—50 (miles/gallon) o_ Đồ thị thể hiện rằng phân khúc giá ở giữa 15 - 20 được nhiều người ưa chuộng nhất

và giảm dân ra hai đầu Thể hiện được xu hướng của khách hàng

« Dùng hàm boxplot() vẽ phân phối của biến mgp cho từng nhóm phân loại của biến

cylinders, biến origin, biến car_name, và biến model_year:

Bước 1: Đưa các tập đã chuyên sang log vào một tập data_use

new_autompq_use -dat a frame| map, cy] inders origi n,model_year ,car_name

Budéc 2: Dung câu lệnh boxplot()

Màn hình kết quả hiện ở khung “Plot” Đồ thị boxplot thể hiện sự phân bồ dữ liệu, thể

hiện giới hạn dữ liệu và phân bố dữ liệu tập trung trong “box”

Đồ thị biểu diễn sự phân bố dữ liệu của mgp phụ thuộc vào cylinders

Trang 13

Dựa vào mức trung vị, ta có thể kết luận dữ liệu phân bố không đồng đều Chưa thê kết luận được mgp và cylinders có quan hệ gì với nhau

Khi cylinders = 3, trung vị nằm xấp xi 20 miles/gallon Không có điểm outliers nào,

miền phân bố dữ liệu không quá rộng, giá trị lớn nhất và giá trị nhỏ nhất không quá

xa nhau mà nằm xung quanh mức 20 miles/gallon

Khi cylinders=4, trung vị nằm gần 30 miles/gallon hơn 20 miles/gallon Có I điểm

outlier nằm phía trên giá trị cực đại Miền phân bố dữ liệu rộng khi giá trị lớn nhất

cách giá trị nhỏ nhất hơn 20 đơn vị Gia trị lớn nhất là cao hơn 40 miles/gallon nhưng

có thể xấp xỉ 45 miles/gallon vì chưa nằm quá xa 40 miles/gallon Giía trị nhỏ nhất thấp hơn 20 miles/gallon nhưng nằm không quá xa 20 miles/gallon nên có thể xấp xi

27 miles/gallon

Khi cylinders = 5, trung vi nam gần 30 miles/gallon hơn 20 miles/gallon nhưng nhỏ hơn trung vị khi cylinders = 4 vì nằm thấp hơn Không có điểm outliers nào, miền phân bố dữ liệu rộng Giía trị lớn nhất nằm trong khoảng 40 miles/gallon đến 30 miles/gallon nhung gan 40 miles/gallon hon Gia trị nhỏ nhất nằm gần 20 miles/gallon

Khi cylinders = 6, trung vị nam gần 20 miles/gallon nhưng nhỏ hơn trung vị khi

cylinders = 3 vi nam thap hơn Trực quan ta đếm được có 5 điểm outliers nằm phía

trên giá trị lớn nhất, miền phân bố dữ liệu không quá rộng Gia trị lớn nhất nằm trong khoảng giữa 30 miles/gallon đến 20 miles/gallon Gia trị nhỏ nhất nằm trong khoảng giữa 20 miles/gallon đến 10 miles/gallon nhưng gần 20 miles/gallon hơn

Khi cylinders = 8, trung vị nằm giữa 20 miles/gallon và 10 miles/gallon nhưng xấp xi

15 miles/gallon Trực quan ta đếm được có 3 điểm outliers nằm phía trên giá trị lớn nhất, miền phân bố dữ liệu không qua rộng Gía trị lớn nhất nam xap xi 20 miles/gallon Gia tri nhỏ nhất nằm xấp xi I0 miles⁄gallon nhưng thấp hơn 10 miles/gallon

Đồ thị biểu diễn sự phân bố dữ liệu của mgp phụ thuộc vào cylinders

12

Trang 14

o_ Trung vị xấp xi 20 miles/gallon từ model year có giá trị từ 70 đến 79 Trung vị xấp xi

30 miles/gallon từ model_ year có giá trị từ 80 đến 82

o Ở mức model year có giá trị 78 có dữ liệu nằm ngoài vùng giới hạn, thê hiện rằng ở đây có khá nhiều biến động, nhìn chung mgp sẽ không ôn định

Đồ thị biểu diễn sự phân bố dữ liệu của mgp phụ thuộc vào origin

13

Trang 15

o Khi origin = l, trung vị xấp xi 20 miles/gallon Trực quan ta thấy có 2 điểm

outliers, miền phân bố dữ liệu rộng Gía trị lớn nhất nằm xấp xỉ 40 miles/gallon

Gia trị nhỏ nhất xấp xỉ 10 miles/gallon

o_ Khi origin = 2, trung vị nằm giữa 20 miles/gallon và 30 miles/gallon Trực quan ta thấy có 5 điểm outliers, miền phân bố dữ liệu rộng Gía trị lớn nhất nằm xấp xỉ 40 miles/gallon nhưng lớn hơn giá trị lớn nhất của mgp khi cylinders=l Gía trị nhỏ nhất xấp xi 20 miles/gallon

o Khi origin = 8, trung vị xấp xỉ 30 miles/gallon Trực quan ta đếm được có l điểm outliers nằm phía trên giá trị lớn nhất, miền phân bố dữ liệu rộng Gía trị lớn nhất nằm xấp xi 40 miles/gallon nhưng cao hơn 40 miles/gallon Gía trị nhỏ nhất nằm xấp xi 20 miles/gallon nhưng thấp hơn 20 miles/gallon

14

Tiêu đề	Đề Tài 6
Tác giả	Lê Hồng Thu Anh, Lê Trương Ngọc Hân, Nguyễn Chế Thiện, Thái Nguyễn Đức, Nguyễn Ngô Hồng Long
Người hướng dẫn	TS. Phan Thị Hương
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh, Trường Đại học Bách khoa
Chuyên ngành	Xác suất Thống kê
Thể loại	Bài tập lớn
Năm xuất bản	2021
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	28
Dung lượng	3,19 MB