1. Trang chủ
  2. » Tất cả

Báo cáo bài tập lớn môn học xác suất thống kê học kỳ 211 tập tin flights rda

35 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 35
Dung lượng 1,17 MB

Nội dung

I HC QUăC GIA TH NH PHă H CH MINH TR×˝NG I H¯C B CH KHOA KHOA CÌ KH B OC OB IT PL˛N M˘N H¯C X C SU T THăNG K NHM: CK04 - GI NG VI N HìNG D N: DANH S CH NH´M: STT Hå v t¶n Ho ng Ph⁄m Minh Vơ Nguyn Ngồc Quc Viằt LƠm HÊi ông Nguyn H Anh Minh Lả TĐn PhĂt HC Kí 211 T I: 04 ThS NGUY N KI U DUNG MSSV 2010796 2015048 2011081 2010796 1911822 Lợp/T L01/A L04/C L10/A L14/A L14/A Tp Hỗ Ch‰ Minh, Th¡ng 01/11/2021 Ng nh håc Cì Kh‰ Cì Kh‰ Cì Kh‰ Cì Kh‰ Cì Kh‰ K‰ t¶n B IT PLNX CSU TTHăNGK Nhõm CK04 PH NCNGL MVI C STT Hå v t¶n Ho ng Ph⁄m Minh Vơ Nguy„n Ngåc QuŁc Vi»t L¥m H£i ông Nguyn H Anh Minh Lả TĐn PhĂt Ni dung Nhiằm vử GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang B I T P L˛N X C SU T THăNG K Nhõm CK04 Mửc lửc HO T áNG 1: 1.1 ã b i 1.2 Cỡ s lỵ thuyt 1.3 Thüc hi»n 1.3.1 åc dœ li»u (Import data) 1.3.2 L m s⁄ch dœ li»u (Data cleaning) 1.3.3 L m rª dœ li»u: (Data visualization) 1.3.4 ANOVA mºt nh¥n tŁ: ¡nh gi¡ sü kh¡c bi»t vi»c l»ch gií bay (dep_delay) giœa c¡c h¢ng bay 14 1.3.5 Mæ hnh hỗi quy tuyn tnh: Sò dửng mt mổ hnh hỗi quy phũ hổp phƠn tch cĂc yu t £nh h÷ðng ‚n vi»c l»ch gií ‚n (arr_delay) cıa c¡c chuy‚n bay 27 Ho⁄t ºng 2.1 • b i GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG 30 30 Trang B I T P LN X C SU T THăNG K Nhõm CK04 Danh sĂch bÊng GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang B I T P LN X C SU T THăNG K Nhõm CK04 Danh s¡ch h…nh v‡ code R v k‚t qu£ åc t»p t¶n v xem dặng u tiản ca tằp tin code R v k‚t quÊ to mt tằp tin mợi ch bao gỗm c¡c bi‚n ch‰nh code R v k‚t qu£ ki”m tra dœ li»u khuy‚t t»p tin code R xo¡ c¡c quan s¡t chøa dœ li»u khuy‚t code R v k‚t qu£ ki”m tra l⁄i sŁ l÷ỉng v t¿ l» quan s¡t chøa dœ li»u khuy‚t ¢ xo¡ 7 code R v k‚t qu£ t‰nh c¡c gi¡ trà thŁng k¶ mỉ t£ cho bi‚n dep_delay cıa tłng h¢ng h ng khỉng (carrier) code R v k‚t qu£ v biu ỗ boxplot th hiằn phƠn phi ca bin dep_delay theo tłng h¢ng h ng khỉng (carrier) code R t⁄o function x¡c ành outliers, chuy”n c¡c outliers th nh d⁄ng NA 10 code R v k‚t qu£ låc c¡c outliers t÷ìng ứng vợi tng hÂng v chuyn th nh NA 10 10 code R gh†p c¡c dœ li»u l⁄i vỵi 10 11 code R v k‚t qu£ Ki”m tra tŒng NA v t l» NA t»p tin new_DF3 11 12 code R thay th‚ c¡c NA b‹ng c¡c giĂ tr trung bnh tữỡng ứng vợi tng hÂng h ng khæng 11 13 code R gh†p c¡c dœ li»u l⁄i vỵi v l÷u l⁄i v o new_DF3 11 14 code R ki”m tra l⁄i NA data new_DF2 sau xò lỵ NA 11 15 code R v k‚t qu£ t‰nh l⁄i c¡c gi¡ trà thŁng k¶ mỉ t£ cho bi‚n dep_delay cıa tłng h¢ng h ng khỉng (carrier) 12 16 code R v kt quÊ li v biu ỗ boxplot th hiằn phƠn phi ca bin dep_delay theo tng hÂng h ng khæng (carrier) 12 17 code R v k‚t qu£ låc c¡c chuy‚n bay c¡c chuy‚n bay khði h nh tł Portland n«m 2014 14 18 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng AA 19 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng AS 16 20 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng B6 17 21 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng DL 18 22 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng F9 GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang 9 15 19 B I T P L˛N X C SU T THăNG K Nhõm CK04 23 code R v kt qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng HA 20 24 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng AA 21 25 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng UA 26 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng US 23 27 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng VX 24 28 code R v k‚t qu£ ki”m ành gi£ ành phƠn phi chu'n cho bin dep_delay hÂng h ng khæng WN 25 29 code R v k‚t qu£ ki”m ành gi£ nh vã tnh ỗng nhĐt ca phữỡng sai 26 30 code R v k‚t qu£ thüc hi»n ANOVA mºt nh¥n tŁ 26 31 code R v kt quÊ xƠy dỹng mổ hnh hỗi quy tuy‚n t‰nh lm_model_1 27 32 code R v k‚t qu£ x¥y dỹng mổ hnh hỗi quy tuyn tnh lm_model_2 28 33 code R v k‚t qu£ so s¡nh mæ h…nh lm_model_1 v lm_model_2 28 34 code R v kt quÊ v ỗ th phƠn t‰ch th°ng d÷ ” ki”m tra c¡c gi£ ành cıa mæ h…nh Gi£ng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang 22 29 B I T P L˛N X C SU T THăNG K Nhõm CK04 TI4 1.1 HO T áNG 1: ãbi Tp tin flights.rda cung cĐp thổng tin vã 162049 chuyn bay  h nh t hai sƠn bay lợn ca vũng TƠy bc ThĂi Bnh D÷ìng cıa Mÿ, SEA ð Seattle v PDX ð Portland nôm 2014 D liằu cung cĐp bi Vôn phặng ThŁng k¶ V“n t£i, Mÿ Dœ li»u n y ữổc dũng phƠn tch cĂc nguyản nhƠn gƠy sü khði h nh tr„ ho°c ho¢n c¡c chuy‚n bay Chi tit vã b d liằu nhữ sau: CĂc bin ch‰nh bº dœ li»u: • year, month, day: ng y khði h nh cıa mØi chuy‚n bay • carrier: tản ca hÂng h ng khổng, ữổc m hõa bng chœ c¡i in hoa V‰ dö: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v ã origin v dest: tản sƠn bay i v n i vợi sƠn bay i, ta ch cõ hai gi¡ trà SEA (Seattle) v PDX (Portland) • dep_time v arr_time: thíi gian c§t c¡nh v h⁄ c¡nh (theo làch dỹ kin) ã dep_delay v arr_delay: chảnh lằch (phút) gia thới gian cĐt cĂnh/h cĂnh thỹc t vợi thới gian cĐt cĂnh/h cĂnh in v ã distance: khoÊng cĂch gia hai sƠn bay (dm) CĂc bữợc thỹc hiằn: åc dœ li»u (Import data): "flights.rda" L m s⁄ch dœ li»u (Data cleaning): NA (dœ li»u khuy‚t) L m rª dœ li»u: (Data visualization) (a) Chuy”n Œi bi‚n (n‚u cƒn thi‚t) (b) ThŁng k¶ mỉ t£: dịng thŁng kả mÔu v dũng ỗ th ANOVA mt nhƠn tŁ: ¡nh gi¡ sü kh¡c bi»t vi»c l»ch gií bay (dep_delay) gia cĂc hÂng bay Mổ hnh hỗi quy tuyn tnh: Sò dửng mt mổ hnh hỗi quy phũ hổp phƠn tch cĂc yu t Ênh hững ‚n vi»c l»ch gií ‚n (arr_delay) cıa c¡c chuy‚n bay 1.2 Cỡ s lỵ thuyt GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang B I T P LN X C SU T THăNG K 1.3 1.3.1 Nhâm CK04 Thüc hi»n åc dœ li»u (Import data) åc t»p tin "flights.rda" H…nh 1: code R v k‚t qu£ 1.3.2 ồc tằp tản v xem dặng u ti¶n cıa t»p tin L m s⁄ch dœ li»u (Data cleaning) To mt tằp tin mợi ch bao gỗm cĂc bin chnh m ãbi ữa ra, lữu vợi tản l new_DF H…nh 2: code R v k‚t qu£ t⁄o mt tằp tin mợi ch bao gỗm cĂc bin chnh Ki”m tra dœ li»u khuy‚t t»p tin H…nh 3: code R v k‚t qu£ ki”m tra dœ li»u khuy‚t t»p tin Nh“n x†t: Düa v o k‚t quÊ thu ữổc bÊng thng kả t lằ giĂ tr khuyt i vợi tng bin, ta nhn thĐy cõ nhi•u gi¡ trà khuy‚t t⁄i bi‚n arr_delay, arr_time, dep_time, dep_delay V… l÷ỉng khuy‚t dœ li»u ch¿ chi‚m tŁi a 4% lữổng quan sĂt (dữợi 10%), õ ta lỹa chån ph÷ìng ph¡p xo¡ c¡c quan s¡t cıa bi‚n n o câ gi¡ trà khuy‚t t»p tin new_DF Gi£ng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang B I T P L˛N X C SU T THăNG K Nhõm CK04 Hnh 4: code R xoĂ c¡c quan s¡t chøa dœ li»u khuy‚t Ki”m tra l⁄i sŁ l÷ỉng v t¿ l» quan s¡t chøa dœ li»u khuy‚t ¢ xo¡ H…nh 5: code R v k‚t qu£ ki”m tra l⁄i sŁ l÷ỉng v t¿ l» quan s¡t chøa dœ li»u khuy‚t ¢ xo¡ Nh“n x†t: Ta nhn thĐy s lữổng quan sĂt sau xoĂ l 1301 quan s¡t, chi‚m t l» 0.8% so vỵi dœ li»u ban ƒu, câ th” th§y vi»c xo¡ c¡c quan s¡t cıa bi‚n câ gi¡ trà khuy‚t t»p tin new DF khổng Ênh hững nhiãu n kt quÊ ca dœ li»u 1.3.3 L m rª dœ li»u: (Data visualization) Tnh cĂc giĂ tr thng kả mổ tÊ (cù mÔu, trung b…nh, º l»ch chu'n, min, max, c¡c i”m tø phƠn v) ca chảnh lằch gia thới gian cĐt cĂnh thüc t‚ v thíi gian c§t c¡nh/h⁄ c¡nh in v† (bi‚n dep_delay) cıa tłng h¢ng h ng khỉng (carrier) XuĐt kt quÊ dữợi dng bÊng V biu ỗ boxplot th hiằn phƠn phi ca bin dep_delay theo tng hÂng h ng khổng (carrier) GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang

Ngày đăng: 04/04/2023, 09:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w