BÁO CÁO BÀI TẬP LỚN - XÁC XUẤT THỐNG KÊ... dep_time và arr_time: th ời gian cấất cánh và hạ c ánh theo lịch dự kiềấn 5.. dep_delay và a rr_time: chềnh l ệch phút giữa thời gian cấất cánh
Trang 1BÁO CÁO BÀI TẬP LỚN - XÁC XUẤT THỐNG KÊ
Trang 2Mục lục
1 Đề bài
1.1 Ho t ạ đ ng ộ 1 3 3
1.2 Ho t ạ đ ng ộ 2 3
2 Cơ Sở Lý Thuyết 2.1 Thốấng kề 4 4 2.1.1 Đ nhị Nghĩa 4
2.1.2 Phấn lo i ạ 4
2.1.3 Ứng d ngụ 4
2.2 ANOVA M t ộ Nhấn Tốấ 4
2.2.1 Đ nhị Nghĩa 4
2.2.2 Các b ướ phấn tích ANOVA m t c ộ nhấn tốấ 5
2.3 Hốềi Quy Tuyềấn Tính 5
2.3.1 Lý thuyềất hốềi quy tuyềấn tính đ n ơ 5
3 Thực Hiện 3.1 Cài đ t ặ th vi n ư ệ 8 8 3.2 Đ c ọ dữ li u ệ (Import Data) 8
3.3 Làm s ch ạ dữ li u ệ ( Data Cleaning) 8
3.3.1 Ki m ể tra cấấu trúc d li u ữ ệ 8
3.3.2 Ki m ể tra d li u ữ ệ khuyềất NA 9
3.3.3 X ử lí d li u ữ ệ NA 10
3.4 Làm rõ dữ li u ệ (Data Visualization) 11
3.5 Anova m tộ nhấn tốấ: đánh giá sự khác bi tệ trong vi cệ l chệ giờ bay gi aữ các hãng bay 15
3.6 Mố hình hốềi quy tuyềấn tính 31
4 Kết Luận 36
5 HĐ riêng 37
5.1 Dấễn Nh pậ 37
5.1.1 T ng ổ quan vềề t p ậ dữ li u ệ 37
5.1.2 H ướ xử lí dữ li u ng ệ 37
5.2 Th cự Hi nệ 37
5.2.1 Đ c ọ vào dữ li u ệ 37
5.2.2 Làm s ch ạ dữ li u ệ 37
5.2.3 Mố t d li u ả ữ ệ 39
5.2.4 Xấy d ng ự mố hình hốềi quy tuyềấn tính 40
Trang 31 Đề bài
1.1 Hoạt động 1
T p ậ tin flights.rda cung cấấp thống tin vềề 162049 chuyềấn bay đã kh i ở hành từ hai sấn bay l n ớ c a ủ vùng Tấy
băấc Thái Bình D ươ c a ng ủ Myễ, SEA Seattle và PDX Portland trong năm 2014 D li uở ở ữ ệ cung cấấp b i ở Văn
phòng Thốấng kề V n ậ t i, ả Myễ (https://www.transtats.bts.gov/) D ữ li u ệ này đ ượ dùng để phấn tích các nguyền nhấn c gấy ra s kh iự ở hành trềễ ho c ặ hoãn các chuyềấn bay Chi tiềất vềề b d li u ộ ữ ệ như sau:
Các biềấn chính trong b d li u:ộ ữ ệ
1 year month day , , : ngày kh i ở hành c a ủ mốễi chuyềấn bay
AA = American Airlines, DL = Delta Airlines, v.v.
(Portland)
4 dep_time và arr_time: th ời gian cấất cánh và hạ c ánh (theo lịch dự kiềấn)
5 dep_delay và a rr_time: chềnh l ệch (phút) giữa thời gian cấất cánh/hạ cánh thực tềấ với thời gi an
6 distance: kho ng ả cách gi a ữ hai sấn bay (d m)ặ
Các b ướ th c c ự hi n:ệ
1 Đ c ọ dữ li u ệ (Import data): flight.rda
2 Làm s ch ạ dữ li u ệ (Data cleaning): NA (d li u ữ ệ khuyềất)
3 Làm rõ d li u: ữ ệ (Data visualization)
(a) Chuy n ể đ i ổ biềấn (nềấu cấền thiềất).
4 ANOVA m t ộ nhấn tốấ: đánh giá sự khác bi t ệ trong vi c ệ l ch ệ giờ bay (dep_delay ) gi a ữ các hãng bay.
5 Mố hình hốềi quy tuyềấn tính: S d ng ử ụ m t ộ mố hình hốềi quy phù h p ợ đ phấn tích các yềấu tốấ nhể ả hưởng đềấn vi c ệ l ch ệ giờ đềấ ( arr_time ) c a ủ các chuyềấn bay.
1.2 Hoạt động 2
• Sinh viền t tìm m t b d li u ự ộ ộ ữ ệ thuộc về chuyên ngành c a mình Khuyềấn khích sinh viền sủ ử
d ng ụ d li u th c tềấữ ệ ự săễn có t các thí nghi m, ừ ệ kh o sát, d án, trong chuyền ngành c a mình Ngoài raả ự ủ
sinh viền có th t ể ự tìm kiềấm d li u ữ ệ từ nh ng nguốềnữ khác ho c ặ tham kh o ả trong kho d li u ữ ệ cung cấấp
trong t ập tin "kho_du_ lieu_B TL _xstk.xlsx".
• Sinh viền đượ ực t do ch n phọ ương pháp lý thuyềất phù h p đ áp d ng phấn tích d li u c a mình, nh ngợ ể ụ ữ ệ ủ ư
ph i ả đ m ả b o ả 2 phấền: Làm rõ dữ li u ệ (data visualization) và mố hình d li u ữ ệ (model fitting).
Trang 42 Cơ Sở Lý Thuyết
2.1 Thống kê
2.1.1 Định Nghĩa
Thốấng kề là h thốấng các phệ ương pháp dùng đ thu th p, x lý và phấn tích các con sốấ (m t lể ậ ử ặ ượng) c a nh ngủ ữ
hi n ệ t ượ sốấ l n ng ớ đ tìm hi uể ể b n ả chấất và tính quy lu t ậ vốấn có c a ủ chúng (m t ặ chấất) trong điềều ki n ệ th i ờ gian
và khống gian c th ụ ể
2.1.2 Phân loại
Thốấng kề đ ượ chia thành hai lĩnh v c: c ự
• Thốấng kề mố t : ả bao gốềm các ph ươ pháp thu th p ng ậ sốấ li u, ệ tính toán các đ c ặ tr ng ư đo lường, mố t ả và
trình bày sốấ li u.ệ
• Thốấng kề suy diềễn: bao gốềm các ph ươ pháp nh ng ư ướ ược l ng, ki m ể đ nh,ị phấn tích mốấi liền h , d ệ ự đoán
trền c s các thống tin thu th pơ ở ậ từ mấễu giúp ta có nh ng ữ hi u ể biềất vềề t ng ổ th ể
2.1.3 Ứng dụng
Thốấng kề hi n ệ nay đã đ ượ ng c ứ d ng ụ vào m i ọ lĩnh v c:ự
• Lĩnh v c ự kinh tềấ - xã h i ộ tự nhiền, kyễ thu t, ậ thốấng kề th ườ quan tấm nghiền c u ng ứ các hi n ệ tượng
ANOVA m t ộ nhấn tốấ hay one-way ANOVA là ph ươ pháp so sánh trung bình c a ng ủ hai hay nhiềều mấễu đ c ộ
l p ậ đ xác đ nhể ị xem các mấễu có đ t ộ ươ quan v i ng ớ nhau hay khống v i ớ kh năng sai lấềm là 5%.ả
Ví d : ụ Phấn tích sự khác bi t ệ gi a ữ các thu c ộ tính khách hàng (gi i ớ tính, tu i, ổ nghềề nghi p, ệ thu nh p ậ ) đốấi
v i ớ 1 vấấn đềề nào đó (th ườ ch n ng ọ là nhấn tốấ phụ thu c, ộ vd: sự hài lòng).
M t ộ sốấ giả đ nh ị khi phấn tích ANOVA:
– Các nhóm so sánh ph i ả đ c ộ l p ậ và đ ượ ch n c ọ m t ộ cách ngấễu nhiền.
– Các nhóm so sánh ph i ả có phấn phốấi chu n ẩ ho c ặ cỡ mấễu ph i ả đủ l n ớ đ đ ể ượ xem như ti m c ệ c n ậ phấn phốấi
chu n.ẩ
– Ph ươ sai c a ng ủ các nhóm so sánh ph i ả đốềng nhấất.
L u ư ý: nềấu giả đ nh ị t ng ổ thể có phấn phốấi chu n ẩ v i ớ ph ươ sai băềng nhau khống đáp ng ng ứ đ ượ thì b n c ạ có th ể
dùng ki m ể đ nh ị phi tham sốấ Kruskal-Wallis seễ đ thay thềấ cho ANOVA.ể
Trang 52.2.2 Các bước phân tích ANOVA một
nhân tố Bước 1 Kiểm định phương sai :
đồng nhất
Levene test: dùng ki m đ nh phể ị ươ sai băềng nhau hay khống gi a ng ữ các nhóm Giả
thiềất Ho: “Ph ươ sai băềng nhau” ng
Sig <= 0.05: bác b Hoỏ
Sig >0.05: chấấp nh n Ho -> ậ đủ điều kiện để phân tích tiếp
ANOVA Bước 2 Kiểm định ANOVA:
Gi ả thiềất Ho: “Trung bình băềng nhau”
Sig <=0.05: bác b Ho -> đ điềều ki n đ kh ng đ nh có s khác bi t gi a các nhóm đốấi v i biềấn phỏ ủ ệ ể ẳ ị ự ệ ữ ớ ụ
thu c ộ Sig >0.05: chấấp nh n ậ Ho -> ch a ư đủ điềều ki n ệ đ kh ngể ẳ đ nh ị có sự khác bi t ệ gi a ữ các nhóm đốấi v iớ
biềấn ph thu cụ ộ
Khi có s khác bi tự ệ thì có th phấn tích sấu h nể ơ đ tìm ra sể ự khác bi t ệ như thềấ nào gi a ữ các nhóm quan sát
băềng các ki m đ nh Tukey, LSD, Bonferroni, Duncan nh hình dể ị ư ưới Ki m đ nh sấu anova g i là ki m đ nhể ị ọ ể ị
Post-Hoc
2.3 Hồi Quy Tuyến Tính
2.3.1 Lý thuyết hồi quy tuyến tính đơn
Định nghĩa hồi quy: Hàm hốềi quy c a Y theo X là kỳ v ng có điềều ki n c a Y đốấi v i X, t c là ủ ọ ệ ủ ớ ứ E(Y X).
Gi i ả b i ả toán c c ự tr t ị ự do c a ủ hàm Q(a, b) = [y i − (a bx+ i)]2 ta tìm đ ượ nghi m: c ệ
Trang 6Đánh giá các sai số của ước lượng và tính phù hợp (hay đúng đắn) của hàm hồi quy
i=1
SST đo m c ứ biềấn đ ng ộ các giá tr c a ị ủ Y xung quanh giá trị trung bình c a ủ nó.
SSR là sai sốấ do khác bi t ệ gi a ữ đ ườ hốềi quy mấễu và trung bình c a ng ủ Y S ự khác bi t ệ này đ ượ gi i c ả thích b i ở
s ự biềấn đ ng ộ c a ủ X.
Kiểm định sự phù hợp của hàm hồi quy tuyến tính đơn:
Trong mố hình hốềi quy tuyềấn tính đ n, ơ R2 = r2 (r xy : h sốấ tệ ươ quan) ng
Sai số chuẩn của ước lượng:
N ềấ u σ2 chưa biềất thì ta dùng ướ c lượng khống chệch của nó là σˆ2
Sa i sốấ chu ẩn của ước lượng là σ ˆ = SSE
n − 2
Tìm khoảng tin cậy cho các hệ số a, b của hàm hồi quy tuyến tính đơn Các h sốấ a, b ệ
trong mố hình lý thuyềất f (x) = + a bX có a, b là nh ng ữ ướ l c ượ t ng ươ ng ngứ Kho ng ả tin c y ậ c a ủ a, b lấền lượt
đ ượ xác đ nh c ị như sau:
Khoả ng ước lượng cho hệ sốấ góc b là (ˆb − ε b; ˆ b + ε b) v ới
Trang 7(x0 x)2
n
ut n (x i i=1
— x)
−
α/2
Trang 83 Thực Hiện
M t ộ thư vi n ệ muốấn đ ượ khai báo đ s d ng c ể ử ụ trong R tr ướ hềất ph i c ả đ ượ cài đ t c ặ
Cú pháp :
install.packages("ten_thu_vien")
Đ ể s d ng ử ụ thư vi n ệ đã cài đ t ặ ta dùng cấu l nh ệ :
library("ten_thu_vien")
M t ộ sốấ thư vi n ệ đ ượ sử d ng c ụ trong bài lấền này :
Tidyverse : th vi n ư ệ t ng ổ h p ợ m t ộ sốấ thư vi n ệ ggplot2, tibble, stringr, readr, dplyr, tidyr, purrr, forcats
3.2 Đọc dữ liệu (Import Data)
Tr ướ khi đ c c ọ dữ li u ệ ta cấền t i ả file vềề và l u ư vào th m c ư ụ rốềi lấấy đ ườ dấễn đềấn th m c ng ư ụ đó đ chu nể ẩ bị cho
b ướ tiềấp theo c
S ử d ng ụ l nh ệ load()
Th c ự hi n ệ đ c ọ dữ li u ệ : load("C:/Program Files/R/R-4.1.1/my doc/flights.rda")
Ở phấền Environment hi n ệ ra file bền dưới
3.3.1 Kiểm tra cấu trúc dữ liệu
D ữ li u ệ có th ch aể ứ nh ng ữ thống tin lốễi ví dụ ở c t ộ "year" có th ch aể ứ các kí tự ch khống phù h p.ữ ợ V y ậ nền
chúng ta cấền ki m ể tra thống tin ki u ể dữ li u ệ c a ủ t ng ừ c t ộ băềng l nh ệ :
str("ten du lieu")
Th c ự hi n ệ :
str(flights)
Kềất qu :ả
Trang 93.3.2 Kiểm tra dữ liệu khuyết NA
Chúng ta khống th làm vi cể ệ v i ớ dữ li u ệ Na vì chúng khống ch a ứ thống tin gì vì v y ậ ph i ả tìm đ ượ các giá tr ị c
Trang 103.3.3 Xử lí dữ liệu NA
Vì d li u ữ ệ Na khá nhiềều nền ta seễ thay thềấ các giá tr NA này thành giá tr trung v ị ị ị
Ở đấy ta seễ thềấ các giá t rị NA của dep_ti me làm mấễu cá c cột khác làm tương tự
S ử d ng ụ cấu l nh:ệ
flights$de p_t im e[is na( fligh ts$dep _tim e)] < - median(fli gh ts$dep_ti me , n a.r m = TR UE)
Lúc nà y cái giá trị Na của cột dep _tim e đ ã bị th ay thềấ bởi giá t rị trung v ị Kiểm tra lại băền g lệnh summa ry th ấấ y c ột dep_tim e khống còn chứ a giá tr ị Na.
Làm t ươ tự cho các c t ng ộ còn l i.ạ
flights$d ep_d elay [is na(flights$dep_d elay)] <- median(flig hts$d ep_delay , na rm = TR UE) flights$a rr_t im e[is n a(f lights$arr_t ime)] < - median( fli ght s$arr_t i me, na rm = TRU E) flights$a rr_d el ay [is na(flights$arr_ delay)] <- median(flig hts$a rr_delay , na rm = TRUE) flights$a ir_t im e[i s.n a(f light s$air_t ime)] < - median( fli ght s$air_t i me, na rm = TRU E) flights$h ou r[is na(fligh ts$ho ur)] < - m edi an(flights$hour, na rm = TRUE)
flights$m inut e[is na( flights$minute )] <- median(flig hts$minute , n a.rm = TRU E)
Lúc này toàn b Na đã độ ượ xử lí xong c
Trang 113.4 Làm rõ dữ liệu (Data Visualization)
Tính các giá tr thốấng kề mố t ( kích thị ả ước mấễu, trung bình, đ l ch chu n, min, max, các đi m t phấn v ,ộ ệ ẩ ể ứ ị
trung v ) c aị ủ chềnh l ch gi a th i gian cấất cánh/h cánh th c tềấ và th i gian cấất cánh/ h cánh đ t trệ ữ ờ ạ ự ờ ạ ặ ước ( biềấ n dep_delay ) c ủa từng hãng hàng khống ( carrier ).
length = tapply(fli ghts$dep_d ela y,f ligh ts$c arri er,len gth )
mean = ta pply(fligh ts$d ep _del ay, fli ghts$c arr ier ,mean)
sd = ta pply(flights$dep _d elay ,fligh ts$c arri er,s d)
min = t apply(fligh ts$de p_dela y,f lig hts$ca rrier, min)
max = t apply(fligh ts$de p_dela y,f lig hts$ca rrier, max)
Q1 = ta pply(flights$dep _d elay ,fligh ts$c arri er,q uantile,p ro bs=25)
median = tapply(fli gh ts$dep_d ela y,f ligh ts$c arri er,med ian )
Q3 = ta pply(flights$dep _d elay ,fligh ts$c arri er,q uantile,p ro bs=75)
data fram e(le ng th, mea n,s d,min ,ma x,Q 1,me di an ,Q3)
Ta có kềất qu nh sau:ả ư
S au đó, veễ bi ể u đốề b oxplot để thể hiện phấn phốấi của biềấn dep_delay cho từn g hãng hàng kh ống.
boxplot(d ep_d elay~carr ier,data = fli ghts,xla b=" Carrier",yl ab="D ep_de lay ",
main = "Boxplot o f de p_d elay for a c ategory of carrier ")
Trang 12Nhận xét : Qua biểu đốề trền ta có thể thấấy đư ợc có rấất nhiềều điểm ngoạ i lai ( outliers ) ở biềấn
de p_de lay, chúng gấy nh hả ưởng đềấn kềất qu ả phấn tích sau này Do đó, ta s d ng kho ng t phấn v đ lo i bử ụ ả ứ ị ể ạ ỏ
nh ng ữ đi m ể đó đi.
Ý tưởng: Ta seễ chuy n ể các outliers thành d ng ạ NA và sau đó seễ thay thềấ các outliers thành giá tr trungị
Sau đó, ta seễ th c ự hi n ệ thay thềấ và s a ử đ i ổ cho t ng ừ hãng hàng khống.
AA=subset(fli gh ts,f li ght s$carri er==" AA")
#Tách các giá trị thuộc hãng AA và l ưu vào AA.
AA$d ep_delay=rm(AA$d ep_delay)
#Thay thế các outliers thành dạng N A
AA$d ep_delay[is.n a(AA$dep_delay)]<-mean(AA$d ep_de lay, na.r m=
#Thay thế các giá trị NA thành g iá t rị trung b ình.
Ta seễ th c ự hi n ệ t ươ tự cho 10 hãng hàng khống còn l i: ng ạ
AS=subset(fli gh ts,f li ght s$carri er==" AS")
AS$d ep_delay=rm(AS$d ep_delay)
AS$d ep_deylay [is na( AS$dep_delay )]<-mean(AS$dep_delay ,na rm= )
DL=subset(fli gh ts, fli ght s$carri er==" DL")
DL$dep_delay=rm(DL$d ep_delay)
DL$dep_delay[is.n a(D L$dep_delay)]<-mea n(DL$d ep_d el a y, na.rm= )
B6=subset(fli gh ts,f li ght s$carri er==" B6")
B6$d ep_delay=rm(B6$d ep_delay)
B6$d ep_delay[is.n a(B 6$dep_delay)]<-mean(B6$d ep_delay, na.r m=)
F9=subset(fli gh ts, fli ght s$carri er==" F9")
F9$d ep_delay=rm(F9$d ep_delay)
F9$d ep_delay[is.n a(F 9$dep_delay)]<-mean(F9$d ep_d elay, na.rm= )
HA=subset(fli gh ts,f li ght s$carri er==" HA")
HA$d ep_delay=rm(HA$d ep_delay)
HA$d ep_delay[is.n a(H A$dep_delay)]<-mean(HA$d ep_delay, na.r m=)
OO=s ubset(fli gh ts,flights$carri er==" OO")
OO$d ep_delay=rm(OO$de p_delay)
OO$d ep_delay[is.n a(OO$de p_delay)]<-mean(OO$dep _delay,n a.rm=)
UA=subset(f ligh ts, fli ght s$carri er=="UA")
UA$dep_de lay=rm(UA$de p_delay)
UA$dep_de lay[is.n a(U A$dep_delay )]<-m ean(UA$dep_d ela y,na.rm= )
US=subset(f ligh ts, fli ght s$carri er=="US")
US$dep_de lay=rm(US$de p_delay)
Trang 13US$dep_de lay[is.n a(U S$dep_delay )]
<-mean(US$dep _d el ay,n a rm= )
VX=subset(fli gh ts,f li ght s$carri er==" VX")
VX$d ep_delay=rm(VX$d ep_delay)
VX$d ep_delay[is.n a(V X$dep_delay)]<-mean(VX$d ep_delay, na r m=
WN=subset(f ligh ts, fli ght s$carri er=="WN")
WN$dep_de lay=rm(WN$de p_delay)
WN$dep_de lay[is.n a(W N$dep_delay )]<-mea n(WN$dep_d ela y,na.rm= )
Sau khi đã thay thềấ xong, ta seễ g p ộ các hãng l i ạ v i ớ nhau t o ạ thành 1 mấễu hoàn ch nh.ỉ
new_fligh t s<-rb ind(AA ,AS ,B6,DL, F9,HA ,OO,UA,US,VX ,WN )
length = tapply(new _flights$dep _del ay, new _f lights$ca rrie r,le ngth)
new_mean = tapp ly( new _flig ht s$dep_d ela y,n ew _flights$carrie r,mean )
new_sd = tapply(n ew_flight s$de p_del ay, new _flights$ca rri er, sd)
new_min = tappl y( new_ fligh ts$dep_de lay ,ne w_flights$c arrier ,min)
new_max = tappl y( new_ fligh ts$dep_de lay ,ne w_flights$c arrier ,max)
new_Q1 = tapply(n ew_flight s$de p_del ay, new _flights$ca rri er, quantile ,pro bs=25)
new_medi an = ta ppl y(new _flig hts$dep _de lay ,n ew_flight s$c arrier,med i an )
new_Q3 = tapply(n ew_flight s$de p_del ay, new _flights$ca rri er, quantile ,pro bs=75)
data fram e(le ng th, new _m ean ,ne w_s d,n ew_ min ,n ew_max,ne w_Q1,new_m edia n,n ew_ Q3)
boxplot(d ep_d elay~carr ier,data = ne w_flight s,xl ab="Ca rri er ",yla b="Dep_d elay",
main = "Boxplot o f de p_d elay for a ca tegory of carrier ",c ol="o range")
Và sau khi đã chuy n ể đ i, ổ ta có các kềất quả sau:
Trang 14Nhận xét: C ác giá t rị của biềấn dep_delay của từng hãn g hàng khống lúc này đã gấền nhau hơn và biểu
đốề đã th ể hi n rõệ h n vềềơ các thống sốấ min, max, đi m phấn v , .ể ị T đóừ ta có th có nh ngể ữ nh n xét chính xácậ
Q1 = 5: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 5 phút
Med = -2: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút
Q3 = 0: 75% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ th i ờ gian dự kiềấn bay
Đối với hãng hàng không AS:
Min = -15: Th i ờ gian kh i ở hành s m ớ nhấất là: 15 phút
Max = 12: Th i ờ gian kh i ở hành trềễ nhấất là: 12 phút
Q1 = 5: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 5 phút
Med = -2.5554: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2.5554 phút
Q3 = 1: 75% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 1 phút
Đối với hãng hàng không B6:
Min = -20: Th i ờ gian kh i ở hành s m ớ nhấất là: 20 phút
Max = 29: Th i ờ gian kh i ở hành trềễ nhấất là: 29 phút
Q1 = 6: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 6 phút
Med = -2: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút
Q3 = 1: 75% chuyềấn bay có th iờ gian kh i ở hành trềễ h n ơ 1 phút Đối
với hãng hàng không DL:
Min = -15: Th i ờ gian kh i ở hành s m ớ nhấất là: 15 phút
Max = 16: Th i ờ gian kh i ở hành trềễ nhấất là: 16 phút
Q1 = 4: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 4 phút
Med = -2: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút
Q3 = 0: 75% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ th i ờ gian dự kiềấn bay
Đối với hãng hàng không F9:
Trang 15Q1 = 6: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 6 phút
Med = -2: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút
Q3 = 4: 75% chuyềấn bay có th iờ gian kh i ở hành trềễ h n ơ 4 phút Đối
với hãng hàng không HA:
Min = -16: Th i ờ gian kh i ở hành s m ớ nhấất là: 16 phút
Max = 8: Th i ờ gian kh i ở hành trềễ nhấất là: 8 phút
Q1 = 7: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 7 phút
Med = -4.4990: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 4.4990 phút
Q3 = 2: 75% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 2 phút
Đối với hãng hàng không OO:
Min = -15: Th i ờ gian kh i ở hành s m ớ nhấất là: 15 phút
Max = 9: Th i ờ gian kh i ở hành trềễ nhấất là: 9 phút
Q1 = 6: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 6 phút
Med = -4.1570: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 4.1570 phút
Q3 = 2: 75% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút
Đối với hãng hàng không UA: Min = -19: Th i ờ gian kh i ở hành s m ớ nhấất là: 19 phút
Max = 27: Th i ờ gian kh i ở hành trềễ nhấất là: 27 phút
Q1 = 5: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 5 phút
Med = -1: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 1 phút
Q3 = 2: 75% chuyềấn bay có th iờ gian kh i ở hành trềễ h n ơ 2 phút Đối
với hãng hàng không US:
Min = -15: Th i ờ gian kh i ở hành s m ớ nhấất là: 15 phút
Max = 11: Th i ờ gian kh i ở hành trềễ nhấất là: 11 phút
Q1 = 6: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 6 phút
Med = -3: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 3 phút
Q3 = 1: 75% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 1 phút
Đối với hãng hàng không VX:
Min = -17: Th i ờ gian kh i ở hành s m ớ nhấất là: 17 phút
Max = 15: Th i ờ gian kh i ở hành trềễ nhấất là: 15 phút
Q1 = 5: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 5 phút
Med = -2.6258: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2.6258 phút
Q3 = 1: 75% chuyềấn bay có th iờ gian kh i ở hành s m ớ 1 phút
Đối với hãng hàng không WN:
Min = -11: Th i ờ gian kh i ở hành s m ớ nhấất là: 11 phút
Max = 45: Th i ờ gian kh i ở hành trềễ nhấất là: 45 phút
Q1 = 2: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút
Med = 2: 50% chuyềấn bay có th i ờ gian kh i ở hành trềễ h n ơ 2 phút Q3
= 11: 75% chuyềấn bay có th i ờ gian kh i ở hành trềễ h n ơ 11 phút
3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay giữa các hãng bay
Ta seễ s d ng ử ụ anova để ki m ể đ nh ị răềng li u ệ có sự khác bi t ệ vềề vi c ệ l ch ệ giờ bay trung bình gi a ữ các hãng hàng
SEA = s ubset(new _flight s,new _f ligh ts$o rig in =="SEA")
#loc cac chuyen bay k hoi hanh tu Portland
Trang 16Gi i ả thích t i ạ cho vi c ệ sử d ng ụ ANOVA m t ộ nhấn tốấ:
Đ ể th c ự hi n ệ so sánh trung bình c a ủ nhiềều nhóm, ph ươ pháp tốấi u ng ư nhấất là dùng phấn tích ph ươ sai Do ng
ta có 11 hãng hàng khống có chuyềấn bay kh i ở hành từ Seattle trong năm 2014 Nềấu ch so sánh 2 trung bìnhỉ
c a ủ 2 nhóm, ta có th dùng t-test Vì v yể ậ nềấu dùng t-test cho bài toán này, ta ph i ả th c ự hi n ệ ki m ể đ nh ị rấất
Đặt giả thuyết:
- Gi ả thuyềất H0: µ1 = µ2 = = µ11 , Vi c ệ l ch ệ giờ bay trung bình gi a ữ các hãng hàng khống băềng nhau.
- Đốấi thuyềất H1: mu i = mu j v i ớ (i j) , Có ít nhấất 2 hãng hàng khống có vi c ệ l ch ệ giờ bay trung bình khác
nhau.
Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Gi ả đ nh ị phấn phốấi chu n: ẩ Vi c ệ l ch ệ giờ bay các hãng hàng khống đốấi v iở ớ các chuyềấn bay kh i ở hành từ
Seattle tuấn theo phấn phốấi chu n.ẩ
+ Tính đốềng nhấất c a ủ các ph ươ sai: Ph ng ươ sai vi c ng ệ l ch ệ giờ bay các hãng hàng khống đốấi v iở ớ các chuyềấn
Ki m ể tra giả đ nh ị phấn phốấi chu n:ẩ
Gi ả thuyềất H0: Vi c ệ l ch ệ giờ bay các hãng hàng khống đốấi v iở ớ các chuyềấn bay kh i ở hành từ Seattle tuấn theo
phấn phốấi chu n.ẩ
Gi ả thuyềất H1: Vi c ệ l ch ệ giờ bay các hãng hàng khống đốấi v iở ớ các chuyềấn bay kh i ở hành từ Seattle khống
tuấn theo phấn phốấi chu n.ẩ
C ode R và kềấ t qu ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng hàng khống AA:
AA_SE A = s ub set(SEA,SEA$carri er
=="AA") qqnor m( AA_SE A$dep_delay )
qqline(AA_ SEA$d ep_d el ay)
library(n orte st )
ad.t est(AA_SE A$de p_de lay)
k−1 n−
∃
F =
Trang 17Code R và kềất q u ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống AS:
AS_SE A = s ub set(SEA,SEA$carri er
=="AS") qqnor m( AS_SE A$dep_delay )
qqline(A S_ SEA$d ep_d el ay)
library(n orte st )
ad.t est(A S_SE A$de p_de lay)
Trang 18Code R và kềất q uả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống B6:
B6_SE A = s ub set(SEA,SEA$carri er
=="B6") qqnor m( B6_SE A$dep_delay )
qqline(B 6_SEA$d ep_d el ay)
library(n orte st )
ad.t est(B 6_SE A$de p_de lay)
Trang 19Code R và kềất q u ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống DL :
DL_SEA = sub set(SEA,SEA$ca rri er
=="DL") qqnor m( DL_ SEA$dep_delay )
qqline(D L_ SEA$d ep_ del ay)
library(n orte st )
ad.t est(D L_SE A$de p_de lay)
Trang 20Code R và kềất q u ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống F9:
F9_SE A = sub set(SEA,SEA$carri er
=="F9") qqnor m( F9_SEA$dep_delay )
qqline(F 9_SEA$d ep_ del ay)
library(n orte st )
ad.t est(F 9_SE A$de p_de lay)
Trang 21Code R và kềất q u ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống HA:
HA_SE A = s ub set(SEA,SEA$carri er
=="HA") qqnor m( HA_SE A$dep_delay )
qqline(H A_ SEA$d ep_d el ay)
library(n orte st )
ad.t est(H A_SE A$de p_de lay)