I HC QUăC GIA TH NH PHă H CH MINH TR×˝NG I H¯C B CH KHOA X C SU T V THăNG K (MT2013) B OC OB IT PLNSă2 GVHD: Nguy„n …nh Huy Sinh vi¶n thüc hi»n: 1912190 Nguy„n Mai Thy (Nhâm - Khoa Khoa håc v Kÿ thu“t M¡y t‰nh) Th nh vi¶n nhâm 4: 1910597 - Huýnh Ngåc Anh Th÷ 1912190 - Nguy„n Mai Thy (nhâm tr÷ðng) 1910610 - Ki•u Trung T‰n 1912205 - Nguy„n Ngåc T‰n 1912216 - Bịi Kh¡nh To n 1912408 - L¶ Nguy„n Ho ng Uyản 1910699 - ng Trữớng Vụ 1912457 - Mai Ho ng Anh Vô 1912463 - Ph⁄m Ho ng Vụ 1912479 - Nguyn Th Thuỵ Vy Tp Hỗ Ch Minh, ThĂng 04/2021 Trữớng i Hồc BĂch Khoa Tp.Hỗ Ch Minh Mưc lưc A PH N CHUNG ( • sŁ 2) åc dœ li»u (Import data): 1.1 Y¶u cƒu 1.2 Líi gi£i R 1.3 K‚t qu£ thüc nghi»m 5 5 L m s⁄ch dœ li»u (Data cleaning): 2.1 C¥u a 2.1.1 Y¶u cƒu 2.1.2 Líi gi£i R 2.1.3 K‚t qu£ thüc nghi»m 2.2 C¥u b 2.2.1 Y¶u cƒu 2.2.2 Líi gi£i R 2.2.3 K‚t qu£ thüc nghi»m 6 6 6 6 L m rê d liằu (Data visualization): 3.1 CƠu a 3.1.1 Y¶u cƒu 3.1.2 Líi gi£i R 3.1.3 K‚t qu£ thüc nghi»m 3.2 C¥u b 3.2.1 Y¶u cƒu 3.2.2 Líi gi£i R 3.2.3 K‚t qu£ thüc nghi»m 3.3 C¥u c 3.3.1 Y¶u cƒu 3.3.2 Líi gi£i R 3.3.3 K‚t qu£ thüc nghi»m 3.4 C¥u d 3.4.1 Y¶u cƒu 3.4.2 Líi gi£i R 3.4.3 K‚t qu£ thüc nghi»m 3.5 C¥u e 3.5.1 Y¶u cƒu 3.5.2 Líi gi£i R 3.5.3 K‚t qu£ thüc nghi»m 7 8 8 8 9 9 10 10 10 10 11 11 11 11 XƠy dỹng cĂc mổ hnh hỗi quy tuy‚n t‰nh (Fitting linear regression models): 4.1 C¥u a 4.1.1 Y¶u cƒu 4.1.2 Líi gi£i R 4.1.3 K‚t qu£ thüc nghi»m 4.2 C¥u b 4.2.1 Y¶u cƒu 4.2.2 Líi gi£i 4.3 C¥u c 4.3.1 Y¶u cƒu 4.3.2 Líi gi£i R 4.3.3 K‚t qu£ thüc nghi»m 4.4 C¥u d 4.4.1 Y¶u cƒu 4.4.2 Líi gi£i R 13 13 13 13 13 13 13 13 14 14 14 15 15 15 15 B¡o c¡o B i lợn mổn XĂc suĐt v thng kả Trang 1/41 Trữớng i Hồc BĂch Khoa Tp.Hỗ Ch Minh 4.4.3 4.5 C¥u e 4.5.1 4.5.2 4.5.3 K‚t qu£ thüc nghi»m Y¶u cƒu Líi gi£i R K‚t qu£ thüc nghi»m 15 16 16 16 16 Dü b¡o (Predictions): 5.1 C¥u a 5.1.1 5.1.2 5.1.3 5.2 C¥u b 5.2.1 5.2.2 5.2.3 5.3 C¥u c 5.3.1 5.3.2 5.3.3 Y¶u cƒu Líi gi£i R K‚t qu£ thüc nghi»m Y¶u cƒu Líi gi£i R K‚t qu£ thüc nghi»m Y¶u cƒu Líi gi£i R K‚t qu£ thüc nghi»m 17 17 17 17 17 18 18 18 18 19 19 19 19 B PH N CHUNG ( • sŁ 4) 19 Nh“p, l m s⁄ch dœ li»u, thüc hi»n c¡c thŁng kả mổ tÊ 1.1 CƠu a 1.1.1 Y¶u cƒu 1.1.2 Líi gi£i R 1.1.3 K‚t qu£ thüc nghi»m 1.2 C¥u b 1.2.1 Y¶u cƒu 1.2.2 Líi gi£i R 1.2.3 K‚t qu£ thüc nghi»m 1.3 C¥u c 1.3.1 Y¶u cƒu 1.3.2 Líi gi£i R 1.3.3 K‚t qu£ thüc nghi»m 1.3.4 ã xuĐt phữỡng phĂp 1.4 CƠu d 1.4.1 Yảu cƒu 1.4.2 Líi gi£i R 1.4.3 K‚t qu£ thüc nghi»m 1.5 C¥u e 1.5.1 Y¶u cƒu 1.5.2 Líi gi£i R 1.5.3 K‚t qu£ thüc nghi»m 1.6 C¥u f 1.6.1 Y¶u cƒu 1.6.2 Líi gi£i R 1.6.3 K‚t qu£ thüc nghi»m 20 20 20 20 20 20 20 20 21 21 21 21 21 21 22 22 22 23 23 23 23 23 24 24 24 25 PhƠn tch phữỡng sai mt nhƠn tŁ 2.1 C¥u a 2.1.1 2.1.2 2.2 C¥u b 2.2.1 2.2.2 26 26 26 26 26 26 27 B¡o c¡o B i lợn mổn XĂc suĐt v thng k¶ Y¶u cƒu Líi gi£i Y¶u cƒu Líi gi£i Trang 2/41 Trữớng i Hồc BĂch Khoa Tp.Hỗ Ch Minh 2.3 C¥u c 2.3.1 2.3.2 2.3.3 2.4 C¥u d 2.4.1 2.4.2 2.4.3 C Y¶u cƒu GiÊ nh vã phƠn phi chu'n Tnh ỗng nhĐt ca cĂc phữỡng sai Y¶u cƒu Líi gi£i R K‚t qu£ thüc nghi»m PH NRI NG (Khoa Khoa håc v Kÿ thu“t M¡y t‰nh) 30 åc dœ li»u 1.1 Líi gi£i R 1.2 K‚t qu£ thüc nghi»m 30 30 30 L m s⁄ch dœ li»u 2.1 Låc dœ li»u 2.1.1 Líi gi£i R 2.1.2 K‚t qu£ thüc nghi»m 2.2 Thay th‚ dœ li»u bà khuy‚t 2.2.1 Ph÷ìng ph¡p thay th‚ 2.2.2 Líi gi£i R 2.2.3 K‚t qu£ thüc nghi»m 31 31 31 31 31 31 31 32 L m rª dœ li»u 3.1 T‰nh c¡c gi¡ trà thŁng k¶ mỉ t£ cıa bi‚n li¶n töc 3.1.1 Líi gi£i R 3.1.2 K‚t qu£ thüc nghi»m 3.2 Lp bÊng thng kả s lữổng cho bin phƠn loi 3.2.1 Líi gi£i R 3.2.2 K‚t qu£ thüc nghi»m 3.3 ç ph¥n phŁi cıa bi‚n Views 3.3.1 Líi gi£i R 3.3.2 K‚t qu£ thüc nghi»m 3.4 ỗ th phƠn phi ca bi‚n Views cho tłng nhâm ph¥n lo⁄i cıa bi‚n Genre, Sequel 3.4.1 Líi gi£i R 3.4.2 K‚t qu£ thüc nghi»m 3.5 ỗ th phƠn phi ca bin Views theo cĂc bi‚n li¶n tưc Budget, Screens, Aggregate_Followers 3.5.1 Líi gi£i R 3.5.2 K‚t qu£ thüc nghi»m 32 32 32 32 32 32 33 33 33 33 33 33 34 34 34 35 X¥y düng cĂc mổ hnh hỗi quy tuyn tnh 4.1 Mổ hnh gỗm Views l bin phử thuc, tĐt cÊ cĂc bin cỈn l⁄i l ºc l“p 4.1.1 Líi gi£i R 4.1.2 K‚t qu£ thüc nghi»m 4.2 Lo⁄i bä mºt sŁ bi‚n düa tr¶n møc tin c“y 4.3 • xuĐt mổ hnh hỗi quy tuyn tnh hổp lỵ 4.3.1 Líi gi£i R 4.3.2 K‚t qu£ thüc nghi»m 4.4 Suy lu“n sü t¡c ºng cıa c¡c bi‚n ‚n sŁ l÷ỉt xem 4.4.1 Líi gi£i R 4.4.2 K‚t qu£ thüc nghi»m 4.5 ỗ th biu th sai s hỗi quy v gi¡ trà dü b¡o 4.5.1 Líi gi£i R 4.5.2 K‚t qu£ thüc nghi»m 36 36 36 36 36 37 37 37 37 37 38 38 38 38 B¡o c¡o B i lợn mổn XĂc suĐt v thng kả Trang 3/41 27 27 27 28 29 29 29 29 Trữớng i Hồc BĂch Khoa Tp.Hỗ Ch Minh Dỹ b¡o 5.1 ¡nh gi¡ l÷ỉt xem cıa mØi bº phim 5.1.1 Líi gi£i R 5.1.2 K‚t qu£ thüc nghi»m 5.2 ÷a l÷ỉt xem dỹ bĂo cho cĂc bin ca mổ hnh hỗi quy hổp lỵ nhĐt 5.2.1 Líi gi£i R 5.2.2 K‚t qu£ thüc nghi»m 5.3 Kh£o s¡t º ch‰nh x¡c k‚t qu£ dü b¡o 5.3.1 Líi gi£i R 5.3.2 K‚t qu£ thüc nghi»m B¡o c¡o B i t“p lỵn mỉn X¡c suĐt v thng kả 39 39 39 39 39 40 40 40 40 40 Trang 4/41 Tr÷íng ⁄i Håc B¡ch Khoa Tp.Hỗ Ch Minh Phn A PH N CHUNG ( • sŁ 2) T“p tin diem_so.csv chøa thæng tin v• i”m to¡n cıa c¡c em håc sinh trung håc thuºc hai trữớng hồc Bỗ o Nha CĂc thuc tnh d liằu bao gỗm im hồc sinh, nỡi cữ trú, v mºt sŁ ho⁄t ºng x¢ hºi kh¡c Dœ li»u ÷ỉc thu th“p b‹ng c¡ch sß dưng b¡o c¡o cıa cĂc trữớng v cĂc kt quÊ khÊo sĂt sinh viản D liằu gc ữổc cung cĐp ti: https://archive.ics.uci.edu/ml/datasets/student+performance CĂc bin ch‰nh bº dœ li»u: G1: i”m thi håc k… G2: i”m thi håc k… G3: i”m cuŁi kho¡ studytime: Thíi gian tü håc tr¶n tuƒn failures: sŁ lƒn khæng qua mæn absences: sŁ lƒn ngh¿ håc higher: Câ muŁn håc cao hìn hay khỉng age: TuŒi cıa håc sinh åc dœ li»u (Import data): 1.1 Y¶u cu HÂy dũng lảnh read.csv() ồc tằp tin 1.2 Líi gi£i R diem_so % select(G1, G2, G3, studytime, failures, absences, higher, age) View(new_DF) 2.1.3 K‚t qu£ thüc nghi»m Sau ch⁄y c¥u l»nh R, ta 2.2 2.2.1 ữổc bÊng new_DF ch gỗm nhng bin ta quan tƠm: CƠu b Yảu cu Kim tra cĂc d li»u bà khuy‚t t“p tin N‚u câ dœ li»u b khuyt, hÂy ã xuĐt phữỡng phĂp thay th cho nhœng dœ li»u bà khuy‚t n y 2.2.2 Líi gi£i R Ki”m tra dœ li»u bà khuy‚t t“p tin b‹ng c¥u l»nh sau: apply(is.na(new_DF), 2, which) B¡o c¡o B i lợn mổn XĂc suĐt v thng kả Trang 6/41 Trữớng 2.2.3 i Hồc BĂch Khoa Tp.Hỗ Ch Minh K‚t qu£ thüc nghi»m Sau ch⁄y c¥u l»nh R, ta ÷ỉc k‚t qu£ ki”m tra: Nh“n x†t Trong bÊng d liằu trch lồc new_DF vÔn cặn nhng giĂ trà bà khuy‚t (NA) Nh“n th§y nhœng gi¡ trà khuy‚t n y n‹m ð cºt G2, tr‰ ð c¡c h ng thø 2, 6, 9, 80, 100 Do sŁ lữổng NA l (chim t lằ < 10%) nản ta s xò lỵ bng cĂch xõa cĂc quan sĂt bà khuy‚t cıa G2 Líi gi£i R: new_DF