1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo Cáo Bài Tập Lớn - Xác Xuất Thống Kê Dề 4.Pdf

43 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Bài Tập Lớn - Xác Xuất Thống Kê
Tác giả Lê Minh, Nguyễn Hoàng Thanh Minh, Dương Đức Nghĩa, Nguyễn Trọng Phong, Đinh Ngọc Phúc, Mai Tấn Minh Quấn
Trường học Trường Đại Học Bách Khoa Đại học quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Xác Suất Thống Kê
Thể loại bài tập lớn
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 43
Dung lượng 12,93 MB

Nội dung

BÁO CÁO BÀI TẬP LỚN - XÁC XUẤT THỐNG KÊ... dep_time và arr_time: th ời gian cấất cánh và hạ c ánh theo lịch dự kiềấn 5.. dep_delay và a rr_time: chềnh l ệch phút giữa thời gian cấất cánh

Trang 1

BÁO CÁO BÀI TẬP LỚN - XÁC XUẤT THỐNG KÊ

Trang 2

Mục lục

1 Đề bài

1.1 Ho t ạ đ ng ộ 1 3 3

1.2 Ho t ạ đ ng ộ 2 3

2 Cơ Sở Lý Thuyết 2.1 Thốấng kề 4 4 2.1.1 Đ nh Nghĩa 4

2.1.2 Phấn lo i ạ 4

2.1.3ng d ng 4

2.2 ANOVA M t ộ Nhấn Tốấ 4

2.2.1 Đ nh Nghĩa 4

2.2.2 Các b ướ phấn tích ANOVA m t c ộ nhấn tốấ 5

2.3 Hốềi Quy Tuyềấn Tính 5

2.3.1 Lý thuyềất hốềi quy tuyềấn tính đ n ơ 5

3 Thực Hiện 3.1 Cài đ t ặ th vi n ư ệ 8 8 3.2 Đ c ọ dữ li u ệ (Import Data) 8

3.3 Làm s ch ạ dữ li u ệ ( Data Cleaning) 8

3.3.1 Ki m ể tra cấấu trúc d li u ữ ệ 8

3.3.2 Ki m ể tra d li u ữ ệ khuyềất NA 9

3.3.3 X ử lí d li u ữ ệ NA 10

3.4 Làm rõ dữ li u ệ (Data Visualization) 11

3.5 Anova m t nhấn tốấ: đánh giá sự khác bi t trong vi c l ch giờ bay gi a các hãng bay 15

3.6 Mố hình hốềi quy tuyềấn tính 31

4 Kết Luận 36

5 HĐ riêng 37

5.1 Dấễn Nh p 37

5.1.1 T ng ổ quan vềề t p ậ dữ li u ệ 37

5.1.2 H ướ xử lí dữ li u ng ệ 37

5.2 Th c Hi n 37

5.2.1 Đ c ọ vào dữ li u ệ 37

5.2.2 Làm s ch ạ dữ li u ệ 37

5.2.3 Mố t d li u ả ữ ệ 39

5.2.4 Xấy d ng ự mố hình hốềi quy tuyềấn tính 40

Trang 3

1 Đề bài

1.1 Hoạt động 1

T p ậ tin flights.rda cung cấấp thống tin vềề 162049 chuyềấn bay đã kh i ở hành từ hai sấn bay l n ớ c a ủ vùng Tấy

băấc Thái Bình D ươ c a ng ủ Myễ, SEA Seattle và PDX Portland trong năm 2014 D li uở ở ữ ệ cung cấấp b i ở Văn

phòng Thốấng kề V n ậ t i, ả Myễ (https://www.transtats.bts.gov/) D ữ li u ệ này đ ượ dùng để phấn tích các nguyền nhấn c gấy ra s kh iở hành trềễ ho c ặ hoãn các chuyềấn bay Chi tiềất vềề b d li u ộ ữ ệ như sau:

Các biềấn chính trong b d li u:ộ ữ ệ

1 year month day , , : ngày kh i ở hành c a ủ mốễi chuyềấn bay

AA = American Airlines, DL = Delta Airlines, v.v.

(Portland)

4 dep_time và arr_time: th ời gian cấất cánh và hạ c ánh (theo lịch dự kiềấn)

5 dep_delay và a rr_time: chềnh l ệch (phút) giữa thời gian cấất cánh/hạ cánh thực tềấ với thời gi an

6 distance: kho ng ả cách gi a ữ hai sấn bay (d m)

Các b ướ th c c ự hi n:

1 Đ c ọ dữ li u ệ (Import data): flight.rda

2 Làm s ch ạ dữ li u ệ (Data cleaning): NA (d li u ữ ệ khuyềất)

3 Làm rõ d li u: ữ ệ (Data visualization)

(a) Chuy n ể đ i ổ biềấn (nềấu cấền thiềất).

4 ANOVA m t ộ nhấn tốấ: đánh giá sự khác bi t ệ trong vi c ệ l ch ệ giờ bay (dep_delay ) gi a ữ các hãng bay.

5 Mố hình hốềi quy tuyềấn tính: S d ng ử ụ m t ộ mố hình hốềi quy phù h p ợ đ phấn tích các yềấu tốấ nhả hưởng đềấn vi c ệ l ch ệ giờ đềấ ( arr_time ) c a ủ các chuyềấn bay.

1.2 Hoạt động 2

• Sinh viền t tìm m t b d li u ự ộ ộ ữ ệ thuộc về chuyên ngành c a mình Khuyềấn khích sinh viền sủ ử

d ng ụ d li u th c tềấữ ệ ự săễn có t các thí nghi m, ừ ệ kh o sát, d án, trong chuyền ngành c a mình Ngoài raả ự ủ

sinh viền có th t ể ự tìm kiềấm d li u ữ ệ từ nh ng nguốền khác ho c ặ tham kh o ả trong kho d li u ữ ệ cung cấấp

trong t ập tin "kho_du_ lieu_B TL _xstk.xlsx".

• Sinh viền đượ ực t do ch n phọ ương pháp lý thuyềất phù h p đ áp d ng phấn tích d li u c a mình, nh ngợ ể ụ ữ ệ ủ ư

ph i ả đ m ả b o ả 2 phấền: Làm rõ dữ li u ệ (data visualization) và mố hình d li u ữ ệ (model fitting).

Trang 4

2 Cơ Sở Lý Thuyết

2.1 Thống kê

2.1.1 Định Nghĩa

Thốấng kề là h thốấng các phệ ương pháp dùng đ thu th p, x lý và phấn tích các con sốấ (m t lể ậ ử ặ ượng) c a nh ngủ ữ

hi n ệ t ượ sốấ l n ng ớ đ tìm hi uể b n ả chấất và tính quy lu t ậ vốấn có c a ủ chúng (m t ặ chấất) trong điềều ki n ệ th i ờ gian

và khống gian c th ụ ể

2.1.2 Phân loại

Thốấng kề đ ượ chia thành hai lĩnh v c: c

• Thốấng kề mố t : ả bao gốềm các ph ươ pháp thu th p ng ậ sốấ li u, ệ tính toán các đ c ặ tr ng ư đo lường, mố t ả và

trình bày sốấ li u.

• Thốấng kề suy diềễn: bao gốềm các ph ươ pháp nh ng ư ướ ược l ng, ki m ể đ nh, phấn tích mốấi liền h , d ệ ự đoán

trền c s các thống tin thu th pơ ở ậ từ mấễu giúp ta có nh ng ữ hi u ể biềất vềề t ng ổ th

2.1.3 Ứng dụng

Thốấng kề hi n ệ nay đã đ ượ ng c ứ d ng ụ vào m i ọ lĩnh v c:

• Lĩnh v c ự kinh tềấ - xã h i ộ tự nhiền, kyễ thu t, ậ thốấng kề th ườ quan tấm nghiền c u ng ứ các hi n ệ tượng

ANOVA m t ộ nhấn tốấ hay one-way ANOVA là ph ươ pháp so sánh trung bình c a ng ủ hai hay nhiềều mấễu đ c ộ

l p ậ đ xác đ nhị xem các mấễu có đ t ộ ươ quan v i ng ớ nhau hay khống v i ớ kh năng sai lấềm là 5%.

Ví d : ụ Phấn tích sự khác bi t ệ gi a ữ các thu c ộ tính khách hàng (gi i ớ tính, tu i, ổ nghềề nghi p, ệ thu nh p ậ ) đốấi

v i ớ 1 vấấn đềề nào đó (th ườ ch n ng ọ là nhấn tốấ phụ thu c, ộ vd: sự hài lòng).

M t ộ sốấ giả đ nh ị khi phấn tích ANOVA:

– Các nhóm so sánh ph i ả đ c ộ l p ậ và đ ượ ch n c ọ m t ộ cách ngấễu nhiền.

– Các nhóm so sánh ph i ả có phấn phốấi chu n ẩ ho c ặ cỡ mấễu ph i ả đủ l n ớ đ đ ể ượ xem như ti m c ệ c n ậ phấn phốấi

chu n.

– Ph ươ sai c a ng ủ các nhóm so sánh ph i ả đốềng nhấất.

L u ư ý: nềấu giả đ nh ị t ng ổ thể có phấn phốấi chu n ẩ v i ớ ph ươ sai băềng nhau khống đáp ng ng ứ đ ượ thì b n c ạ có th

dùng ki m ể đ nh ị phi tham sốấ Kruskal-Wallis seễ đ thay thềấ cho ANOVA.

Trang 5

2.2.2 Các bước phân tích ANOVA một

nhân tố Bước 1 Kiểm định phương sai :

đồng nhất

Levene test: dùng ki m đ nh phể ị ươ sai băềng nhau hay khống gi a ng ữ các nhóm Giả

thiềất Ho: “Ph ươ sai băềng nhau” ng

Sig <= 0.05: bác b Ho

Sig >0.05: chấấp nh n Ho -> ậ đủ điều kiện để phân tích tiếp

ANOVA Bước 2 Kiểm định ANOVA:

Gi ả thiềất Ho: “Trung bình băềng nhau”

Sig <=0.05: bác b Ho -> đ điềều ki n đ kh ng đ nh có s khác bi t gi a các nhóm đốấi v i biềấn phỏ ủ ệ ể ẳ ị ự ệ ữ ớ ụ

thu c ộ Sig >0.05: chấấp nh n ậ Ho -> ch a ư đủ điềều ki n ệ đ kh ngẳ đ nh ị có sự khác bi t ệ gi a ữ các nhóm đốấi v i

biềấn ph thu cụ ộ

Khi có s khác bi tệ thì có th phấn tích sấu h nơ đ tìm ra sự khác bi t ệ như thềấ nào gi a ữ các nhóm quan sát

băềng các ki m đ nh Tukey, LSD, Bonferroni, Duncan nh hình dể ị ư ưới Ki m đ nh sấu anova g i là ki m đ nhể ị ọ ể

Post-Hoc

2.3 Hồi Quy Tuyến Tính

2.3.1 Lý thuyết hồi quy tuyến tính đơn

Định nghĩa hồi quy: Hàm hốềi quy c a Y theo X là kỳ v ng có điềều ki n c a Y đốấi v i X, t c là ủ ọ ệ ủ ớ ứ E(Y X).

Gi i ả b i ả toán c c ự tr t ị ự do c a ủ hàm Q(a, b) = [y i − (a bx+ i)]2 ta tìm đ ượ nghi m: c

Trang 6

Đánh giá các sai số của ước lượng và tính phù hợp (hay đúng đắn) của hàm hồi quy

i=1

SST đo m c ứ biềấn đ ng ộ các giá tr c a ị ủ Y xung quanh giá trị trung bình c a ủ nó.

SSR là sai sốấ do khác bi t ệ gi a ữ đ ườ hốềi quy mấễu và trung bình c a ng ủ Y S ự khác bi t ệ này đ ượ gi i c ả thích b i ở

s ự biềấn đ ng ộ c a ủ X.

Kiểm định sự phù hợp của hàm hồi quy tuyến tính đơn:

Trong mố hình hốềi quy tuyềấn tính đ n, ơ R2 = r2 (r xy : h sốấ tươ quan) ng

Sai số chuẩn của ước lượng:

N ềấ u σ2 chưa biềất thì ta dùng ướ c lượng khống chệch của nó là σˆ2

Sa i sốấ chu ẩn của ước lượng là σ ˆ = SSE

n − 2

Tìm khoảng tin cậy cho các hệ số a, b của hàm hồi quy tuyến tính đơn Các h sốấ a, b

trong mố hình lý thuyềất f (x) = + a bX có a, b là nh ng ữ ướ l c ượ t ng ươ ng ng Kho ng ả tin c y ậ c a ủ a, b lấền lượt

đ ượ xác đ nh c ị như sau:

Khoả ng ước lượng cho hệ sốấ góc b là (ˆb − ε b; ˆ b + ε b) v ới

Trang 7

(x0 x)2

n

ut n (x i i=1

— x)

α/2

Trang 8

3 Thực Hiện

M t ộ thư vi n ệ muốấn đ ượ khai báo đ s d ng c ể ử ụ trong R tr ướ hềất ph i c ả đ ượ cài đ t c ặ

Cú pháp :

install.packages("ten_thu_vien")

Đ ể s d ng ử ụ thư vi n ệ đã cài đ t ặ ta dùng cấu l nh ệ :

library("ten_thu_vien")

M t ộ sốấ thư vi n ệ đ ượ sử d ng c ụ trong bài lấền này :

Tidyverse : th vi n ư ệ t ng ổ h p ợ m t ộ sốấ thư vi n ệ ggplot2, tibble, stringr, readr, dplyr, tidyr, purrr, forcats

3.2 Đọc dữ liệu (Import Data)

Tr ướ khi đ c c ọ dữ li u ệ ta cấền t i ả file vềề và l u ư vào th m c ư ụ rốềi lấấy đ ườ dấễn đềấn th m c ng ư ụ đó đ chu nẩ bị cho

b ướ tiềấp theo c

S ử d ng ụ l nh ệ load()

Th c ự hi n ệ đ c ọ dữ li u ệ : load("C:/Program Files/R/R-4.1.1/my doc/flights.rda")

Ở phấền Environment hi n ệ ra file bền dưới

3.3.1 Kiểm tra cấu trúc dữ liệu

D ữ li u ệ có th ch aứ nh ng ữ thống tin lốễi ví dụ ở c t ộ "year" có th ch aứ các kí tự ch khống phù h p.ợ V y ậ nền

chúng ta cấền ki m ể tra thống tin ki u ể dữ li u ệ c a ủ t ng ừ c t ộ băềng l nh ệ :

str("ten du lieu")

Th c ự hi n ệ :

str(flights)

Kềất qu :

Trang 9

3.3.2 Kiểm tra dữ liệu khuyết NA

Chúng ta khống th làm vi cệ v i ớ dữ li u ệ Na vì chúng khống ch a ứ thống tin gì vì v y ậ ph i ả tìm đ ượ các giá tr ị c

Trang 10

3.3.3 Xử lí dữ liệu NA

Vì d li u ữ ệ Na khá nhiềều nền ta seễ thay thềấ các giá tr NA này thành giá tr trung v ị ị ị

Ở đấy ta seễ thềấ các giá t rị NA của dep_ti me làm mấễu cá c cột khác làm tương tự

S ử d ng ụ cấu l nh:

flights$de p_t im e[is na( fligh ts$dep _tim e)] < - median(fli gh ts$dep_ti me , n a.r m = TR UE)

Lúc nà y cái giá trị Na của cột dep _tim e đ ã bị th ay thềấ bởi giá t rị trung v ị Kiểm tra lại băền g lệnh summa ry th ấấ y c ột dep_tim e khống còn chứ a giá tr ị Na.

Làm t ươ tự cho các c t ng ộ còn l i.

flights$d ep_d elay [is na(flights$dep_d elay)] <- median(flig hts$d ep_delay , na rm = TR UE) flights$a rr_t im e[is n a(f lights$arr_t ime)] < - median( fli ght s$arr_t i me, na rm = TRU E) flights$a rr_d el ay [is na(flights$arr_ delay)] <- median(flig hts$a rr_delay , na rm = TRUE) flights$a ir_t im e[i s.n a(f light s$air_t ime)] < - median( fli ght s$air_t i me, na rm = TRU E) flights$h ou r[is na(fligh ts$ho ur)] < - m edi an(flights$hour, na rm = TRUE)

flights$m inut e[is na( flights$minute )] <- median(flig hts$minute , n a.rm = TRU E)

Lúc này toàn b Na đã đượ xử lí xong c

Trang 11

3.4 Làm rõ dữ liệu (Data Visualization)

Tính các giá tr thốấng kề mố t ( kích thị ả ước mấễu, trung bình, đ l ch chu n, min, max, các đi m t phấn v ,ộ ệ ẩ ể ứ ị

trung v ) c aủ chềnh l ch gi a th i gian cấất cánh/h cánh th c tềấ và th i gian cấất cánh/ h cánh đ t trệ ữ ờ ạ ự ờ ạ ặ ước ( biềấ n dep_delay ) c ủa từng hãng hàng khống ( carrier ).

length = tapply(fli ghts$dep_d ela y,f ligh ts$c arri er,len gth )

mean = ta pply(fligh ts$d ep _del ay, fli ghts$c arr ier ,mean)

sd = ta pply(flights$dep _d elay ,fligh ts$c arri er,s d)

min = t apply(fligh ts$de p_dela y,f lig hts$ca rrier, min)

max = t apply(fligh ts$de p_dela y,f lig hts$ca rrier, max)

Q1 = ta pply(flights$dep _d elay ,fligh ts$c arri er,q uantile,p ro bs=25)

median = tapply(fli gh ts$dep_d ela y,f ligh ts$c arri er,med ian )

Q3 = ta pply(flights$dep _d elay ,fligh ts$c arri er,q uantile,p ro bs=75)

data fram e(le ng th, mea n,s d,min ,ma x,Q 1,me di an ,Q3)

Ta có kềất qu nh sau:ả ư

S au đó, veễ bi ể u đốề b oxplot để thể hiện phấn phốấi của biềấn dep_delay cho từn g hãng hàng kh ống.

boxplot(d ep_d elay~carr ier,data = fli ghts,xla b=" Carrier",yl ab="D ep_de lay ",

main = "Boxplot o f de p_d elay for a c ategory of carrier ")

Trang 12

Nhận xét : Qua biểu đốề trền ta có thể thấấy đư ợc có rấất nhiềều điểm ngoạ i lai ( outliers ) ở biềấn

de p_de lay, chúng gấy nh hả ưởng đềấn kềất qu ả phấn tích sau này Do đó, ta s d ng kho ng t phấn v đ lo i bử ụ ả ứ ị ể ạ ỏ

nh ng ữ đi m ể đó đi.

Ý tưởng: Ta seễ chuy n ể các outliers thành d ng ạ NA và sau đó seễ thay thềấ các outliers thành giá tr trung

Sau đó, ta seễ th c ự hi n ệ thay thềấ và s a ử đ i ổ cho t ng ừ hãng hàng khống.

AA=subset(fli gh ts,f li ght s$carri er==" AA")

#Tách các giá trị thuộc hãng AA và l ưu vào AA.

AA$d ep_delay=rm(AA$d ep_delay)

#Thay thế các outliers thành dạng N A

AA$d ep_delay[is.n a(AA$dep_delay)]<-mean(AA$d ep_de lay, na.r m=

#Thay thế các giá trị NA thành g iá t rị trung b ình.

Ta seễ th c ự hi n ệ t ươ tự cho 10 hãng hàng khống còn l i: ng

AS=subset(fli gh ts,f li ght s$carri er==" AS")

AS$d ep_delay=rm(AS$d ep_delay)

AS$d ep_deylay [is na( AS$dep_delay )]<-mean(AS$dep_delay ,na rm= )

DL=subset(fli gh ts, fli ght s$carri er==" DL")

DL$dep_delay=rm(DL$d ep_delay)

DL$dep_delay[is.n a(D L$dep_delay)]<-mea n(DL$d ep_d el a y, na.rm= )

B6=subset(fli gh ts,f li ght s$carri er==" B6")

B6$d ep_delay=rm(B6$d ep_delay)

B6$d ep_delay[is.n a(B 6$dep_delay)]<-mean(B6$d ep_delay, na.r m=)

F9=subset(fli gh ts, fli ght s$carri er==" F9")

F9$d ep_delay=rm(F9$d ep_delay)

F9$d ep_delay[is.n a(F 9$dep_delay)]<-mean(F9$d ep_d elay, na.rm= )

HA=subset(fli gh ts,f li ght s$carri er==" HA")

HA$d ep_delay=rm(HA$d ep_delay)

HA$d ep_delay[is.n a(H A$dep_delay)]<-mean(HA$d ep_delay, na.r m=)

OO=s ubset(fli gh ts,flights$carri er==" OO")

OO$d ep_delay=rm(OO$de p_delay)

OO$d ep_delay[is.n a(OO$de p_delay)]<-mean(OO$dep _delay,n a.rm=)

UA=subset(f ligh ts, fli ght s$carri er=="UA")

UA$dep_de lay=rm(UA$de p_delay)

UA$dep_de lay[is.n a(U A$dep_delay )]<-m ean(UA$dep_d ela y,na.rm= )

US=subset(f ligh ts, fli ght s$carri er=="US")

US$dep_de lay=rm(US$de p_delay)

Trang 13

US$dep_de lay[is.n a(U S$dep_delay )]

<-mean(US$dep _d el ay,n a rm= )

VX=subset(fli gh ts,f li ght s$carri er==" VX")

VX$d ep_delay=rm(VX$d ep_delay)

VX$d ep_delay[is.n a(V X$dep_delay)]<-mean(VX$d ep_delay, na r m=

WN=subset(f ligh ts, fli ght s$carri er=="WN")

WN$dep_de lay=rm(WN$de p_delay)

WN$dep_de lay[is.n a(W N$dep_delay )]<-mea n(WN$dep_d ela y,na.rm= )

Sau khi đã thay thềấ xong, ta seễ g p ộ các hãng l i ạ v i ớ nhau t o ạ thành 1 mấễu hoàn ch nh.

new_fligh t s<-rb ind(AA ,AS ,B6,DL, F9,HA ,OO,UA,US,VX ,WN )

length = tapply(new _flights$dep _del ay, new _f lights$ca rrie r,le ngth)

new_mean = tapp ly( new _flig ht s$dep_d ela y,n ew _flights$carrie r,mean )

new_sd = tapply(n ew_flight s$de p_del ay, new _flights$ca rri er, sd)

new_min = tappl y( new_ fligh ts$dep_de lay ,ne w_flights$c arrier ,min)

new_max = tappl y( new_ fligh ts$dep_de lay ,ne w_flights$c arrier ,max)

new_Q1 = tapply(n ew_flight s$de p_del ay, new _flights$ca rri er, quantile ,pro bs=25)

new_medi an = ta ppl y(new _flig hts$dep _de lay ,n ew_flight s$c arrier,med i an )

new_Q3 = tapply(n ew_flight s$de p_del ay, new _flights$ca rri er, quantile ,pro bs=75)

data fram e(le ng th, new _m ean ,ne w_s d,n ew_ min ,n ew_max,ne w_Q1,new_m edia n,n ew_ Q3)

boxplot(d ep_d elay~carr ier,data = ne w_flight s,xl ab="Ca rri er ",yla b="Dep_d elay",

main = "Boxplot o f de p_d elay for a ca tegory of carrier ",c ol="o range")

Và sau khi đã chuy n ể đ i, ổ ta có các kềất quả sau:

Trang 14

Nhận xét: C ác giá t rị của biềấn dep_delay của từng hãn g hàng khống lúc này đã gấền nhau hơn và biểu

đốề đã th ể hi n rõ h n vềềơ các thống sốấ min, max, đi m phấn v , .ể ị T đó ta có th có nh ngữ nh n xét chính xác

Q1 = 5: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 5 phút

Med = -2: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút

Q3 = 0: 75% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ th i ờ gian dự kiềấn bay

Đối với hãng hàng không AS:

Min = -15: Th i ờ gian kh i ở hành s m ớ nhấất là: 15 phút

Max = 12: Th i ờ gian kh i ở hành trềễ nhấất là: 12 phút

Q1 = 5: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 5 phút

Med = -2.5554: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2.5554 phút

Q3 = 1: 75% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 1 phút

Đối với hãng hàng không B6:

Min = -20: Th i ờ gian kh i ở hành s m ớ nhấất là: 20 phút

Max = 29: Th i ờ gian kh i ở hành trềễ nhấất là: 29 phút

Q1 = 6: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 6 phút

Med = -2: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút

Q3 = 1: 75% chuyềấn bay có th iờ gian kh i ở hành trềễ h n ơ 1 phút Đối

với hãng hàng không DL:

Min = -15: Th i ờ gian kh i ở hành s m ớ nhấất là: 15 phút

Max = 16: Th i ờ gian kh i ở hành trềễ nhấất là: 16 phút

Q1 = 4: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 4 phút

Med = -2: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút

Q3 = 0: 75% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ th i ờ gian dự kiềấn bay

Đối với hãng hàng không F9:

Trang 15

Q1 = 6: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 6 phút

Med = -2: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút

Q3 = 4: 75% chuyềấn bay có th iờ gian kh i ở hành trềễ h n ơ 4 phút Đối

với hãng hàng không HA:

Min = -16: Th i ờ gian kh i ở hành s m ớ nhấất là: 16 phút

Max = 8: Th i ờ gian kh i ở hành trềễ nhấất là: 8 phút

Q1 = 7: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 7 phút

Med = -4.4990: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 4.4990 phút

Q3 = 2: 75% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 2 phút

Đối với hãng hàng không OO:

Min = -15: Th i ờ gian kh i ở hành s m ớ nhấất là: 15 phút

Max = 9: Th i ờ gian kh i ở hành trềễ nhấất là: 9 phút

Q1 = 6: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 6 phút

Med = -4.1570: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 4.1570 phút

Q3 = 2: 75% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút

Đối với hãng hàng không UA: Min = -19: Th i ờ gian kh i ở hành s m ớ nhấất là: 19 phút

Max = 27: Th i ờ gian kh i ở hành trềễ nhấất là: 27 phút

Q1 = 5: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 5 phút

Med = -1: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 1 phút

Q3 = 2: 75% chuyềấn bay có th iờ gian kh i ở hành trềễ h n ơ 2 phút Đối

với hãng hàng không US:

Min = -15: Th i ờ gian kh i ở hành s m ớ nhấất là: 15 phút

Max = 11: Th i ờ gian kh i ở hành trềễ nhấất là: 11 phút

Q1 = 6: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 6 phút

Med = -3: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 3 phút

Q3 = 1: 75% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 1 phút

Đối với hãng hàng không VX:

Min = -17: Th i ờ gian kh i ở hành s m ớ nhấất là: 17 phút

Max = 15: Th i ờ gian kh i ở hành trềễ nhấất là: 15 phút

Q1 = 5: 25% chuyềấn bay có th iờ gian kh i ở hành s m ớ h n ơ 5 phút

Med = -2.6258: 50% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2.6258 phút

Q3 = 1: 75% chuyềấn bay có th iờ gian kh i ở hành s m ớ 1 phút

Đối với hãng hàng không WN:

Min = -11: Th i ờ gian kh i ở hành s m ớ nhấất là: 11 phút

Max = 45: Th i ờ gian kh i ở hành trềễ nhấất là: 45 phút

Q1 = 2: 25% chuyềấn bay có th i ờ gian kh i ở hành s m ớ h n ơ 2 phút

Med = 2: 50% chuyềấn bay có th i ờ gian kh i ở hành trềễ h n ơ 2 phút Q3

= 11: 75% chuyềấn bay có th i ờ gian kh i ở hành trềễ h n ơ 11 phút

3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay giữa các hãng bay

Ta seễ s d ng ử ụ anova để ki m ể đ nh ị răềng li u ệ có sự khác bi t ệ vềề vi c ệ l ch ệ giờ bay trung bình gi a ữ các hãng hàng

SEA = s ubset(new _flight s,new _f ligh ts$o rig in =="SEA")

#loc cac chuyen bay k hoi hanh tu Portland

Trang 16

Gi i ả thích t i ạ cho vi c ệ sử d ng ụ ANOVA m t ộ nhấn tốấ:

Đ ể th c ự hi n ệ so sánh trung bình c a ủ nhiềều nhóm, ph ươ pháp tốấi u ng ư nhấất là dùng phấn tích ph ươ sai Do ng

ta có 11 hãng hàng khống có chuyềấn bay kh i ở hành từ Seattle trong năm 2014 Nềấu ch so sánh 2 trung bình

c a ủ 2 nhóm, ta có th dùng t-test Vì v yậ nềấu dùng t-test cho bài toán này, ta ph i ả th c ự hi n ệ ki m ể đ nh ị rấất

Đặt giả thuyết:

- Gi ả thuyềất H0: µ1 = µ2 = = µ11 , Vi c ệ l ch ệ giờ bay trung bình gi a ữ các hãng hàng khống băềng nhau.

- Đốấi thuyềất H1: mu i = mu j v i ớ (i j) , Có ít nhấất 2 hãng hàng khống có vi c ệ l ch ệ giờ bay trung bình khác

nhau.

Các giả định cần kiểm tra trong ANOVA một nhân tố:

+ Gi ả đ nh ị phấn phốấi chu n: ẩ Vi c ệ l ch ệ giờ bay các hãng hàng khống đốấi v iớ các chuyềấn bay kh i ở hành từ

Seattle tuấn theo phấn phốấi chu n.

+ Tính đốềng nhấất c a ủ các ph ươ sai: Ph ng ươ sai vi c ng ệ l ch ệ giờ bay các hãng hàng khống đốấi v iớ các chuyềấn

Ki m ể tra giả đ nh ị phấn phốấi chu n:

Gi ả thuyềất H0: Vi c ệ l ch ệ giờ bay các hãng hàng khống đốấi v iớ các chuyềấn bay kh i ở hành từ Seattle tuấn theo

phấn phốấi chu n.

Gi ả thuyềất H1: Vi c ệ l ch ệ giờ bay các hãng hàng khống đốấi v iớ các chuyềấn bay kh i ở hành từ Seattle khống

tuấn theo phấn phốấi chu n.

C ode R và kềấ t qu ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng hàng khống AA:

AA_SE A = s ub set(SEA,SEA$carri er

=="AA") qqnor m( AA_SE A$dep_delay )

qqline(AA_ SEA$d ep_d el ay)

library(n orte st )

ad.t est(AA_SE A$de p_de lay)

k−1 n−

F =

Trang 17

Code R và kềất q u ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống AS:

AS_SE A = s ub set(SEA,SEA$carri er

=="AS") qqnor m( AS_SE A$dep_delay )

qqline(A S_ SEA$d ep_d el ay)

library(n orte st )

ad.t est(A S_SE A$de p_de lay)

Trang 18

Code R và kềất q uả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống B6:

B6_SE A = s ub set(SEA,SEA$carri er

=="B6") qqnor m( B6_SE A$dep_delay )

qqline(B 6_SEA$d ep_d el ay)

library(n orte st )

ad.t est(B 6_SE A$de p_de lay)

Trang 19

Code R và kềất q u ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống DL :

DL_SEA = sub set(SEA,SEA$ca rri er

=="DL") qqnor m( DL_ SEA$dep_delay )

qqline(D L_ SEA$d ep_ del ay)

library(n orte st )

ad.t est(D L_SE A$de p_de lay)

Trang 20

Code R và kềất q u ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống F9:

F9_SE A = sub set(SEA,SEA$carri er

=="F9") qqnor m( F9_SEA$dep_delay )

qqline(F 9_SEA$d ep_ del ay)

library(n orte st )

ad.t est(F 9_SE A$de p_de lay)

Trang 21

Code R và kềất q u ả khi kiểm đ n ị h giả đ n ị h phấn phốấi chuẩn cho biềấn dep_dela y ở hãng h àng khống HA:

HA_SE A = s ub set(SEA,SEA$carri er

=="HA") qqnor m( HA_SE A$dep_delay )

qqline(H A_ SEA$d ep_d el ay)

library(n orte st )

ad.t est(H A_SE A$de p_de lay)

Ngày đăng: 14/11/2024, 20:23

w