Bao gồm: Gia trị nhỏ nhất, Điểm tứ phân vị dưới, Trung vị, Điểm tứ phân vị trên, Gia trị lớn nhất.. Không có điểm outliers nào, miền phân bố dữ liệu không quá rộng, giá trị lớn nhất và g
Trang 1DAI HOC QUOC GIA THANH PHO HO CHi MINH
TRUONG DAI HOC BACH KHOA
* 8 já BAO CAO BAI TAP LON MON HOC XAC SUAT THONG KE
c2
ĐÈ TÀI 6
LỚP: LI1 - NHÓM: 6, HK211 GVHD: TS PHAN THỊ HƯỜNG
Sinh viên thực hiện
5 2011553 | Nguyễn Ngô Hoàng Long Khoa học và kỹ thuật máy tính
TPHCM, ngày 23 tháng 11 năm 2021
Trang 21.2.1 Kiểm tra dữ liệu bị khuyết và xử Ïí: 5 c c SEEc HE gH rr Hgre 5
1.2.2 Xem xét các dữ liệu ngoại Ìa1 (L1 22 2221222111 11115115115 1118112 rkcey 5
1.3 Thống kê mô tả 5 S1 SE 1 E1E 211011212111 ng H1 He ra 6
1.3.1 Làm rõ đữ liệu ( Data visual1zafion)) - ác c2 1221221122 2112 6
1.4 Chia bộ dữ liệu làm 2 phần 2 2 E1 ESEE 112112121111 1.7.1 tre ll
1.5 Chọn mô hình tốt nhất để giải thích cho biến phụ thuộc mgp 12 1.5.1 - Trích dữ liệu từ tệp auto _mgpl theo như yêu cầu của đề bài 12
1.5.2 Tiêu chuẩn chọn các mô hìỉnh SE 1151155111155 111 55151515551 EEeesre 12 1.5.3 Phuong phap co thé str dung đề lựa chọn ra mô hình tốt nhất: Phân tích tat ca
các biến và chọn ra những biến có ý nghĩa thống kê 2S S SE SE EExtrsre 12
1.5.4 Thực hiện các mô hình ccccvE2253 51111119 1 8111515551111 11kg 1119555552 13
1.6 Kiểm tra các giả định (giả thiết) của mô hình - 5 2S SE srere set 15
1.6.1 ĐỒ hị 2222 212212222212 122122112211221211212112re 15 1.6.2 Kiểm định ANOVA S221 2 2221121221212 17 1.7 Ý nghĩa của mô hình - E21 E1 1121 111 2211 121111 ng grerrey 17
1.9 So sdnh két qua va mhan xt ccc cccsceceseescsessvsevevsvsseevevevsecevevseseveees 18
Trang 3HOẠT ĐỘNG 2 22555 22211 1122211 t2 c2 reo 20
2.1 Mô tả dữ liệu 552 22222222 2222 22 2 21k 20 2.2 Đọc dữ liệu L 20 221122111 12211211111 1101501111511 1H HH ke 20
2.3.1 Tạo dữ liệu mẫu để kiểm tra tính thiểu sot ca dif LGU 21
2.3.2 Kiểm tra các biến liên tục is s21 S311 11 121515151555 He Hee 21 2.3.3 Kiểm tra các biến phân loại c1 22212221112 211112511112 11cm rà 21
2.4 Trực quan hóa dữ liệu (Data Visualization) 0.00.0000000000 ccc ccccccccceeceteeees 22
2.4.1 Xử lý nhóm các biến liên tục tk HE HE tk HH net 22
2.4.3 Làm rõ biến cần quan tâm bằng biêu đỒ 2S nh tgrrưyn 24
2.4.4 Phân tích tương quan phụ thuộc của biến PRP với các biến liên tục khác 26
2.5 Xây dựng mô hình dữ liệu L2 1221122221111 1 1511211101118 2 81 key 27 2.7 Laiya chọn mô hình - 00 2111211112111 10111181 118112211 1112111201111 x1 kea 32
2.8 Kiểm tra tính hợp lệ (Validity) của mô hình 22 2 SE xe tri 32 2.9 Nhận xét và kết luận - - 2+ 2 1E E11211 21211 11 t2 11 tt re 34
2.10 Dự đoán Q00 21 nH HT 11011110111 11 111g xkkkku 34
TÀI LIỆU THAM KHÁO (5c 1 22121 E11E1121111 1.2111 1g te Heo 35
Trang 4¢ "cylinders": (multi-valued discrete) số xy lanh,
e "displacement" : (continuous) kich thước động cơ,
¢ "horsepower" : (continuous) công suất động cơ,
¢ "weight" : (continuous) khéi lượng,
* "acceleration" : (continuous) gia toc xe,
¢ "model year": (multi-valued discrete) nam san xuat model (2 s6 cuối)
¢ "origin": (multi-valued discrete) noi san xuat: 1 - North American, 2 - Europe, 3 - Asia
e "car name": (multi-valued discrete) tén xe
1 Nhập và "làm sạch" dữ liệu (luu y, bién "horsepower" có 6 quan trắc thiếu dữ liệu; xét xem có dữ liệu ngoại lai không?), thực hiện các thông kê mô tả (Chú ý các cột của file
"auto-mpg.csv” được phân tách bởi dau ":", khi doc file dữ liệu dùng lệnh "read.csv"
cần thêm sep = ";"),
2 Chia bộ dữ liệu làm 2 phần: mẫu huấn luyện (training dataset) gồm 200 quan trắc đặt tên "auto mpgl" và mẫu kiểm tra (validation dataset) gồm các quan trắc còn lại trong
bộ đữ liệu ban đầu đã "làm sạch", đặt tên "auto_mpg2"
3 Chọn mô hình tốt nhất giải thích cho biến phụ thuộc "mpg" thông qua việc chọn lựa
các biến độc lập phụ hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện "
"auto mpgl" Can trình bày từng bước phương pháp chọn, tiêu chuẩn chọn mô hình,
lý do chọn phương pháp đó
4 Kiém tra các giả định (giả thiết) của mô hình.
Trang 55 Nêu ý nghĩa của mô hình da chon
6 Du bao (Prediction): Str dung mau kiém tra (validation dataset) "auto _mpg2" và dựa
vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biến phụ thuộc "mpg”
Gọi kết quả dự báo này là biến "predict mpg"
7 So sánh kết quả dự báo "predict mpg” với giá trị thực tế của "mpg" Rút ra nhận xét?
Trang 6HOẠT ĐỘNG 1
Sử dụng lệnh read.CSV hoặc lệnh read_xÌsx Vì ñle auto_mqgp la file csv nên dùng lệnh read.CSV, tuy nhiên chúng ta cần sử dụng thêm thuộc tính sep = “;” để
phân tách các dữ liệu đã cho trong file
Cú pháp : read.csv(< Đường dẫn tới file / tên file được lưu dưới dạng đuôi Csv>, sep = ";”)
Gián lệnh cho tên auto_mpg bằng cú pháp : auto_rnpg<-read.csv
Data frame auto mpg co 9 bién va mdi bién cd 398 mau chua loai mau xuat hién NA 1.2 Lam sach di ligu (Data cleaning)
1.2.1 Kiểm tra dữ liệu bị khuyết và xử lí:
Vì kiểu đữ liệu của horsepower là character: kí tự nên khi trích biến phái chuyển về kiêu
dữ liệu numeric Trich bién horsepower ttr data.frame auto mpg vao bién horsepower kt
đề tiễn hành kiểm tra số lượng giá trị NA
horsepower_kt<-as.numeric auto_mpg $hor sepower Khi chuyên đôi từ kiêu dữ liệu char sang num thì sẽ xuât hiện lỗi sau:
> sum(is.na(horsepower_kt)) [1] 6
Tương tự với các biến còn lại, ta cũng đếm số lượng giá trị khuyết cho 8 biến còn lại
Trang 7Ta thay chi có 6 dữ liệu bi khuyết tại biến “horsepower” trong khi dữ liệu có tận 398
dòng (chiếm tỉ lệ 1,5%) nên cách xử lý tối ưu nhất là xóa đi các dòng dữ liệu bị khuyết
filter(data,horsepower != "NA")
library(dplyr new_autompg<-filter(auto_mpg,horsepower !="2"
với nhiệm vụ xóa những dòng có giá trị bị khuyết Và gán tên cho tập mới là new _autompg (dữ liệu đã làm sạch) có 392 quan trắc
1.2.2 Xem xét các lữ liệu ngoại lai
Đề nhận xét có dữ liệu ngoại lai hay không ta sử dụng đồ thị boxplot để quan sát: par(mfrow = c(3,3 ))
Trang 8cylinders displacement horsepower
- _ Đường màu đen đậm là các trung vị của đồ thị
- _ Đường nằm trên cùng là các giá trị lớn nhất của các biến tương ứng
- _ Đường nằm dưới cùng là các giá trị nhỏ nhất của biến tương ứng
-_ Đối với đồ thị boxplot, đường nằm trên đường trung vị là đường biểu diễn vị trí tứ
phan vi thir ba
- _ Đường nằm ngay phía dưới đường trung vị là đường biêu diễn vị trí tứ phân vị thứ nhất
- Khoang trai gitra IQR= Q3 — Qi
Ham summary () cho chung ta biét thong tin thống kê về một biến số Bao gồm: Gia
trị nhỏ nhất, Điểm tứ phân vị dưới, Trung vị, Điểm tứ phân vị trên, Gia trị lớn nhất Quan sát đồ thị ta thấy dữ liệu của “cylinders” và “origin” thì điểm tứ phân vị thứ nhất
Trang 9ngoại lai (outliers) Là một outliers trong tập dữ liệu Trong đó, điểm dữ liệu này giả định rằng đã được quan sát đúng (thu thập và ghi chép số liệu chính xác) và các phần tử tương
tự nó có thê tìm thấy trong tập dữ liệu Nghĩa là, đây là một đại diện cho các outliers cùng
thê loại khác và thường được giữ lại để phân tích Nếu chúng ta quyết định loại bỏ điểm
dị biệt dé giảm ảnh hưởng của chúng, sau đó kiểm tra lại dữ liệu đã loại bỏ hết chưa Điều
này đôi khi làm xuất hiện những điểm đị biệt mới vì chúng có thể bị che lấp bới những
điểm dị biệt cũ Vì vậy nên ta không nên bỏ đi những điểm dị biệt
Đối với đồ thị của biến cylinders:
1.3 Thống kê mô tả
131, Lam ré dit liéu ( Data visualization)
Trích các biến từ tập new_autompg để tiến hành các tính toán làm rõ đữ liệu Kí hiệu new_autompg$ là trích lay biến thuộc tập new_autompdg
¢ Doi voi các biên liên tục (continuous), ta tinh các giá trị thông kê mô ta bao gom:
trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhật, giá trị nhỏ nhật
- Ham mean: Gia tri trung bình
- Ham median: Gia tri trung vi
- Ham sd: Phuong sai mau hiéu chỉnh
- Ham max, min: Gia tri lon nhat, gia tr nho nhat
mear<-c(mean(mgp) mean(horsepower) ,mean(cylinders) ,mean(displacenent) ymean(weight) ,mean(acceleration) ,mean(mode]_year
median<-c(median(mgp) m horsepower) ,median(cylinders) ,median(cisplacement) ,median(weight) median (acceleration) ,nedian(model_year sd<-c(Sd(mgp) ,sd (horse linders isplacenent) ,sd(weight) ,sd(acceleration) ,sd(model_year
ming-c(min(mgp) ,min(hor : h acceleration) ,min(mode
max<-C(max(mgp) max(horsepower), wlax (cylinders), max(d?splacement) max (weight) ,max(acceleration) ,max(mode
- Tao 5 Vecto tuong img voi Gia tri trung binh, Gia trị trung vị, Phương sai mẫu hiệu chính, Gía trị lớn nhất, Gía trị nhỏ nhất
data_thongke<- data fr ame (mean, med an, sd, max ,min
Field<-c("mgp", "displacement", “horsepower”, "weight", “acceleration”
data_thongkel<-data frame(field,data_thongke
www oom
Ta thu duoc két qua:
Trang 10¢ Poi voi cac bien
Sử dụng lệnh table (<tên biến>)
248
46
1613
8
Ta được màn hình kết quả (bởi vì biến car_ name là dãy các kí tự không trùng lặp nên
không thê tiễn hành thông
2 11 1
30 30.5 30.7
7 2 1 34.7 35 35.1
Trang 11© Dung ham hist() dé vé dé thi phan phéi (histogram) cua bién mgp
Trang 12o_ Trục x là số liệu của biến mpg
o Truc y la tan so
©_ Lượng tiêu thụ nhiên liệu cao nhất la: 15-20 (miles/gallon)
o Lwong tiêu thụ nhiên liệu thấp nhất là ở hai đầu đồ thị 0-10 và 45—50 (miles/gallon) o_ Đồ thị thể hiện rằng phân khúc giá ở giữa 15 - 20 được nhiều người ưa chuộng nhất
và giảm dân ra hai đầu Thể hiện được xu hướng của khách hàng
« Dùng hàm boxplot() vẽ phân phối của biến mgp cho từng nhóm phân loại của biến
cylinders, biến origin, biến car_name, và biến model_year:
Bước 1: Đưa các tập đã chuyên sang log vào một tập data_use
new_autompq_use -dat a frame| map, cy] inders origi n,model_year ,car_name
Budéc 2: Dung câu lệnh boxplot()
Màn hình kết quả hiện ở khung “Plot” Đồ thị boxplot thể hiện sự phân bồ dữ liệu, thể
hiện giới hạn dữ liệu và phân bố dữ liệu tập trung trong “box”
Đồ thị biểu diễn sự phân bố dữ liệu của mgp phụ thuộc vào cylinders
Trang 13Dựa vào mức trung vị, ta có thể kết luận dữ liệu phân bố không đồng đều Chưa thê kết luận được mgp và cylinders có quan hệ gì với nhau
Khi cylinders = 3, trung vị nằm xấp xi 20 miles/gallon Không có điểm outliers nào,
miền phân bố dữ liệu không quá rộng, giá trị lớn nhất và giá trị nhỏ nhất không quá
xa nhau mà nằm xung quanh mức 20 miles/gallon
Khi cylinders=4, trung vị nằm gần 30 miles/gallon hơn 20 miles/gallon Có I điểm
outlier nằm phía trên giá trị cực đại Miền phân bố dữ liệu rộng khi giá trị lớn nhất
cách giá trị nhỏ nhất hơn 20 đơn vị Gia trị lớn nhất là cao hơn 40 miles/gallon nhưng
có thể xấp xỉ 45 miles/gallon vì chưa nằm quá xa 40 miles/gallon Giía trị nhỏ nhất thấp hơn 20 miles/gallon nhưng nằm không quá xa 20 miles/gallon nên có thể xấp xi
27 miles/gallon
Khi cylinders = 5, trung vi nam gần 30 miles/gallon hơn 20 miles/gallon nhưng nhỏ hơn trung vị khi cylinders = 4 vì nằm thấp hơn Không có điểm outliers nào, miền phân bố dữ liệu rộng Giía trị lớn nhất nằm trong khoảng 40 miles/gallon đến 30 miles/gallon nhung gan 40 miles/gallon hon Gia trị nhỏ nhất nằm gần 20 miles/gallon
Khi cylinders = 6, trung vị nam gần 20 miles/gallon nhưng nhỏ hơn trung vị khi
cylinders = 3 vi nam thap hơn Trực quan ta đếm được có 5 điểm outliers nằm phía
trên giá trị lớn nhất, miền phân bố dữ liệu không quá rộng Gia trị lớn nhất nằm trong khoảng giữa 30 miles/gallon đến 20 miles/gallon Gia trị nhỏ nhất nằm trong khoảng giữa 20 miles/gallon đến 10 miles/gallon nhưng gần 20 miles/gallon hơn
Khi cylinders = 8, trung vị nằm giữa 20 miles/gallon và 10 miles/gallon nhưng xấp xi
15 miles/gallon Trực quan ta đếm được có 3 điểm outliers nằm phía trên giá trị lớn nhất, miền phân bố dữ liệu không qua rộng Gía trị lớn nhất nam xap xi 20 miles/gallon Gia tri nhỏ nhất nằm xấp xi I0 miles⁄gallon nhưng thấp hơn 10 miles/gallon
Đồ thị biểu diễn sự phân bố dữ liệu của mgp phụ thuộc vào cylinders
12
Trang 14o_ Trung vị xấp xi 20 miles/gallon từ model year có giá trị từ 70 đến 79 Trung vị xấp xi
30 miles/gallon từ model_ year có giá trị từ 80 đến 82
o Ở mức model year có giá trị 78 có dữ liệu nằm ngoài vùng giới hạn, thê hiện rằng ở đây có khá nhiều biến động, nhìn chung mgp sẽ không ôn định
Đồ thị biểu diễn sự phân bố dữ liệu của mgp phụ thuộc vào origin
13
Trang 15o Khi origin = l, trung vị xấp xi 20 miles/gallon Trực quan ta thấy có 2 điểm
outliers, miền phân bố dữ liệu rộng Gía trị lớn nhất nằm xấp xỉ 40 miles/gallon
Gia trị nhỏ nhất xấp xỉ 10 miles/gallon
o_ Khi origin = 2, trung vị nằm giữa 20 miles/gallon và 30 miles/gallon Trực quan ta thấy có 5 điểm outliers, miền phân bố dữ liệu rộng Gía trị lớn nhất nằm xấp xỉ 40 miles/gallon nhưng lớn hơn giá trị lớn nhất của mgp khi cylinders=l Gía trị nhỏ nhất xấp xi 20 miles/gallon
o Khi origin = 8, trung vị xấp xỉ 30 miles/gallon Trực quan ta đếm được có l điểm outliers nằm phía trên giá trị lớn nhất, miền phân bố dữ liệu rộng Gía trị lớn nhất nằm xấp xi 40 miles/gallon nhưng cao hơn 40 miles/gallon Gía trị nhỏ nhất nằm xấp xi 20 miles/gallon nhưng thấp hơn 20 miles/gallon
14