Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 35 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
35
Dung lượng
1,17 MB
Nội dung
I HC QUăC GIA TH NH PHă H CH MINH TR×˝NG I H¯C B CH KHOA KHOA CÌ KH B OC OB IT PL˛N M˘N H¯C X C SU T THăNG K NHM: CK04 - GI NG VI N HìNG D N: DANH S CH NH´M: STT Hå v t¶n Ho ng Ph⁄m Minh Vơ Nguyn Ngồc Quc Viằt LƠm HÊi ông Nguyn H Anh Minh Lả TĐn PhĂt HC Kí 211 T I: 04 ThS NGUY N KI U DUNG MSSV 2010796 2015048 2011081 2010796 1911822 Lợp/T L01/A L04/C L10/A L14/A L14/A Tp Hỗ Ch‰ Minh, Th¡ng 01/11/2021 Ng nh håc Cì Kh‰ Cì Kh‰ Cì Kh‰ Cì Kh‰ Cì Kh‰ K‰ t¶n B IT PLNX CSU TTHăNGK Nhõm CK04 PH NCNGL MVI C STT Hå v t¶n Ho ng Ph⁄m Minh Vơ Nguy„n Ngåc QuŁc Vi»t L¥m H£i ông Nguyn H Anh Minh Lả TĐn PhĂt Ni dung Nhiằm vử GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang B I T P L˛N X C SU T THăNG K Nhõm CK04 Mửc lửc HO T áNG 1: 1.1 ã b i 1.2 Cỡ s lỵ thuyt 1.3 Thüc hi»n 1.3.1 åc dœ li»u (Import data) 1.3.2 L m s⁄ch dœ li»u (Data cleaning) 1.3.3 L m rª dœ li»u: (Data visualization) 1.3.4 ANOVA mºt nh¥n tŁ: ¡nh gi¡ sü kh¡c bi»t vi»c l»ch gií bay (dep_delay) giœa c¡c h¢ng bay 14 1.3.5 Mæ hnh hỗi quy tuyn tnh: Sò dửng mt mổ hnh hỗi quy phũ hổp phƠn tch cĂc yu t £nh h÷ðng ‚n vi»c l»ch gií ‚n (arr_delay) cıa c¡c chuy‚n bay 27 Ho⁄t ºng 2.1 • b i GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG 30 30 Trang B I T P LN X C SU T THăNG K Nhõm CK04 Danh sĂch bÊng GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang B I T P LN X C SU T THăNG K Nhõm CK04 Danh s¡ch h…nh v‡ code R v k‚t qu£ åc t»p t¶n v xem dặng u tiản ca tằp tin code R v k‚t quÊ to mt tằp tin mợi ch bao gỗm c¡c bi‚n ch‰nh code R v k‚t qu£ ki”m tra dœ li»u khuy‚t t»p tin code R xo¡ c¡c quan s¡t chøa dœ li»u khuy‚t code R v k‚t qu£ ki”m tra l⁄i sŁ l÷ỉng v t¿ l» quan s¡t chøa dœ li»u khuy‚t ¢ xo¡ 7 code R v k‚t qu£ t‰nh c¡c gi¡ trà thŁng k¶ mỉ t£ cho bi‚n dep_delay cıa tłng h¢ng h ng khỉng (carrier) code R v k‚t qu£ v biu ỗ boxplot th hiằn phƠn phi ca bin dep_delay theo tłng h¢ng h ng khỉng (carrier) code R t⁄o function x¡c ành outliers, chuy”n c¡c outliers th nh d⁄ng NA 10 code R v k‚t qu£ låc c¡c outliers t÷ìng ứng vợi tng hÂng v chuyn th nh NA 10 10 code R gh†p c¡c dœ li»u l⁄i vỵi 10 11 code R v k‚t qu£ Ki”m tra tŒng NA v t l» NA t»p tin new_DF3 11 12 code R thay th‚ c¡c NA b‹ng c¡c giĂ tr trung bnh tữỡng ứng vợi tng hÂng h ng khæng 11 13 code R gh†p c¡c dœ li»u l⁄i vỵi v l÷u l⁄i v o new_DF3 11 14 code R ki”m tra l⁄i NA data new_DF2 sau xò lỵ NA 11 15 code R v k‚t qu£ t‰nh l⁄i c¡c gi¡ trà thŁng k¶ mỉ t£ cho bi‚n dep_delay cıa tłng h¢ng h ng khỉng (carrier) 12 16 code R v kt quÊ li v biu ỗ boxplot th hiằn phƠn phi ca bin dep_delay theo tng hÂng h ng khæng (carrier) 12 17 code R v k‚t qu£ låc c¡c chuy‚n bay c¡c chuy‚n bay khði h nh tł Portland n«m 2014 14 18 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng AA 19 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng AS 16 20 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng B6 17 21 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng DL 18 22 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng F9 GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang 9 15 19 B I T P L˛N X C SU T THăNG K Nhõm CK04 23 code R v kt qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng HA 20 24 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng AA 21 25 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng UA 26 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng US 23 27 code R v k‚t qu£ ki”m ành gi£ ành ph¥n phŁi chu'n cho bi‚n dep_delay ð h¢ng h ng khỉng VX 24 28 code R v k‚t qu£ ki”m ành gi£ ành phƠn phi chu'n cho bin dep_delay hÂng h ng khæng WN 25 29 code R v k‚t qu£ ki”m ành gi£ nh vã tnh ỗng nhĐt ca phữỡng sai 26 30 code R v k‚t qu£ thüc hi»n ANOVA mºt nh¥n tŁ 26 31 code R v kt quÊ xƠy dỹng mổ hnh hỗi quy tuy‚n t‰nh lm_model_1 27 32 code R v k‚t qu£ x¥y dỹng mổ hnh hỗi quy tuyn tnh lm_model_2 28 33 code R v k‚t qu£ so s¡nh mæ h…nh lm_model_1 v lm_model_2 28 34 code R v kt quÊ v ỗ th phƠn t‰ch th°ng d÷ ” ki”m tra c¡c gi£ ành cıa mæ h…nh Gi£ng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang 22 29 B I T P L˛N X C SU T THăNG K Nhõm CK04 TI4 1.1 HO T áNG 1: ãbi Tp tin flights.rda cung cĐp thổng tin vã 162049 chuyn bay  h nh t hai sƠn bay lợn ca vũng TƠy bc ThĂi Bnh D÷ìng cıa Mÿ, SEA ð Seattle v PDX ð Portland nôm 2014 D liằu cung cĐp bi Vôn phặng ThŁng k¶ V“n t£i, Mÿ Dœ li»u n y ữổc dũng phƠn tch cĂc nguyản nhƠn gƠy sü khði h nh tr„ ho°c ho¢n c¡c chuy‚n bay Chi tit vã b d liằu nhữ sau: CĂc bin ch‰nh bº dœ li»u: • year, month, day: ng y khði h nh cıa mØi chuy‚n bay • carrier: tản ca hÂng h ng khổng, ữổc m hõa bng chœ c¡i in hoa V‰ dö: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v ã origin v dest: tản sƠn bay i v n i vợi sƠn bay i, ta ch cõ hai gi¡ trà SEA (Seattle) v PDX (Portland) • dep_time v arr_time: thíi gian c§t c¡nh v h⁄ c¡nh (theo làch dỹ kin) ã dep_delay v arr_delay: chảnh lằch (phút) gia thới gian cĐt cĂnh/h cĂnh thỹc t vợi thới gian cĐt cĂnh/h cĂnh in v ã distance: khoÊng cĂch gia hai sƠn bay (dm) CĂc bữợc thỹc hiằn: åc dœ li»u (Import data): "flights.rda" L m s⁄ch dœ li»u (Data cleaning): NA (dœ li»u khuy‚t) L m rª dœ li»u: (Data visualization) (a) Chuy”n Œi bi‚n (n‚u cƒn thi‚t) (b) ThŁng k¶ mỉ t£: dịng thŁng kả mÔu v dũng ỗ th ANOVA mt nhƠn tŁ: ¡nh gi¡ sü kh¡c bi»t vi»c l»ch gií bay (dep_delay) gia cĂc hÂng bay Mổ hnh hỗi quy tuyn tnh: Sò dửng mt mổ hnh hỗi quy phũ hổp phƠn tch cĂc yu t Ênh hững ‚n vi»c l»ch gií ‚n (arr_delay) cıa c¡c chuy‚n bay 1.2 Cỡ s lỵ thuyt GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang B I T P LN X C SU T THăNG K 1.3 1.3.1 Nhâm CK04 Thüc hi»n åc dœ li»u (Import data) åc t»p tin "flights.rda" H…nh 1: code R v k‚t qu£ 1.3.2 ồc tằp tản v xem dặng u ti¶n cıa t»p tin L m s⁄ch dœ li»u (Data cleaning) To mt tằp tin mợi ch bao gỗm cĂc bin chnh m ãbi ữa ra, lữu vợi tản l new_DF H…nh 2: code R v k‚t qu£ t⁄o mt tằp tin mợi ch bao gỗm cĂc bin chnh Ki”m tra dœ li»u khuy‚t t»p tin H…nh 3: code R v k‚t qu£ ki”m tra dœ li»u khuy‚t t»p tin Nh“n x†t: Düa v o k‚t quÊ thu ữổc bÊng thng kả t lằ giĂ tr khuyt i vợi tng bin, ta nhn thĐy cõ nhi•u gi¡ trà khuy‚t t⁄i bi‚n arr_delay, arr_time, dep_time, dep_delay V… l÷ỉng khuy‚t dœ li»u ch¿ chi‚m tŁi a 4% lữổng quan sĂt (dữợi 10%), õ ta lỹa chån ph÷ìng ph¡p xo¡ c¡c quan s¡t cıa bi‚n n o câ gi¡ trà khuy‚t t»p tin new_DF Gi£ng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang B I T P L˛N X C SU T THăNG K Nhõm CK04 Hnh 4: code R xoĂ c¡c quan s¡t chøa dœ li»u khuy‚t Ki”m tra l⁄i sŁ l÷ỉng v t¿ l» quan s¡t chøa dœ li»u khuy‚t ¢ xo¡ H…nh 5: code R v k‚t qu£ ki”m tra l⁄i sŁ l÷ỉng v t¿ l» quan s¡t chøa dœ li»u khuy‚t ¢ xo¡ Nh“n x†t: Ta nhn thĐy s lữổng quan sĂt sau xoĂ l 1301 quan s¡t, chi‚m t l» 0.8% so vỵi dœ li»u ban ƒu, câ th” th§y vi»c xo¡ c¡c quan s¡t cıa bi‚n câ gi¡ trà khuy‚t t»p tin new DF khổng Ênh hững nhiãu n kt quÊ ca dœ li»u 1.3.3 L m rª dœ li»u: (Data visualization) Tnh cĂc giĂ tr thng kả mổ tÊ (cù mÔu, trung b…nh, º l»ch chu'n, min, max, c¡c i”m tø phƠn v) ca chảnh lằch gia thới gian cĐt cĂnh thüc t‚ v thíi gian c§t c¡nh/h⁄ c¡nh in v† (bi‚n dep_delay) cıa tłng h¢ng h ng khỉng (carrier) XuĐt kt quÊ dữợi dng bÊng V biu ỗ boxplot th hiằn phƠn phi ca bin dep_delay theo tng hÂng h ng khổng (carrier) GiÊng viản hữợng dÔn: Th.S NGUY N KI U DUNG Trang