1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo Cáo Bài Tập Lớn - Xác Xuất Thống 5.Pdf

43 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xác định nguyên nhân gây ra sự khởi hành trễ hoặc hỏng các chuyến bay
Tác giả Lộ Minh, Nguyễn Hoàng Thanh Minh, Dương Đức Nghĩa, Nguyễn Trọng Phong, Đinh Ngọc Phúc, Mai Trần Minh Quân
Trường học Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Xác Suất Thống Kê
Thể loại Bài Tập Lớn
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 43
Dung lượng 8,03 MB

Nội dung

e Về sinh hoạt chính trị, xã hội Ví dụ: Phân tích sự khác biệt giữa các thuộc tính khách hàng giới tính, tuổi, nghề nghiệp, thu nhập.... Lưu ý: nếu giả định tổng thể có phân phối chuẩn v

Trang 1

ĐẠI HỌC QUOC GIA THANH PHO HO CHi MINH

BK TP.HCM

BÁO CÁO BÀI TẬP LỚN - XÁC XUẤT THỐNG KÊ

Trang 2

21 Thống kê Q Q OQ HQ HQ HH ng ng vn vn v v v van vi v k v va va 4

2117 Dinh Nghĩa Quà gà kg kg kg kg kg Ta 4 PB» a4 (HT 4

213 Ứng dụng ee 4 2.2 ANOVA Một Nhãn TỐ QQ QQ QQ Q nu gà và và kg V 4 2.21 Dinh Nehia 2 gi kg kg Ta 4

2.2.2 Các bước phân tích ANOVA mot nhéant6 2 0.0.000000 00.0000 020022 5

3 Thuc Hién 8 3.1 Cai dat thu vién 2 ee 8

3.3.1 Kiểm tra cấu trúc dữ lệU ee 8

E ‹ô 28 ha ee 10

3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay giữa các hãng bay 15

5 HD riéng 37 5.1 Dẫn Nhập ee 37 5.11 Tổng quan về tập đữ liệu eee 37 5.12 Hướng xử lí dữ lệu ee en 37 5.2 Thuc Hién 2 Q0 Quà gà gà g g g kg kg xxx xa 37 2) ^ 6 an áắáẶN aăa a -.HHAa dd 37 5.2.2 Làm sạch dữ liệu Quà kg kg gà kg và 37 5.23 Mô tả dữ lệU ee 39

5.24 Xây dựng mô hình hồi quy tuyến tính ee 40

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 2/ 43

Trang 3

nhân gây ra sự khởi hành trễ hoặc hoãn các chuyến bay Chi tiết về bộ dữ liệu như sau:

Các biến chính trong bộ dữ liệu:

1 year, month, day: ngay khởi hành của mỗi chuyến bay

2 carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa Ví dụ: UA = United Air Lines,

AA = American Airlines, DL = Delta Airlines, v.v

3 origin va dest: tén san bay đi và đến Dối với sân bay di, ta chỉ có hai giá trị SEA (Seattle) va PDX

(Portland)

4 dep_time wa arr_time: thdi gian cat cénh va hạ cánh (theo lịch dự kiến)

5 dep_delay va arr_ time: chẽnh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé

6 distanece: khoảng cách giữa hai sân bay (dặm)

Các bước thực hiện:

1 Doc dit liéu (Import data): flight.rda

2 Lam sach dit liéu (Data cleaning): NA (dit liéu khuyét)

w Làm ré dit liu: (Data visualization)

(a) Chuyển đổi biến (nếu cần thiết)

(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_ dela) giữa các hãng bay

ot M6 hinh héi quy tuyén tinh: Stt dung mét m6 hinh hồi quy phù hợp để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đề (amr_ tzme) của các chuyên bay

1.2 Hoạt động 2

Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng

dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_ du lieu BTL_ xstk.xlsx"

Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phãn tích dữ liệu của mình, nhưng

phải đảm bảo 2 phần: Lam ré dif liéu (data visualization) va mo hinh di liéu (model fitting)

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 3/ 43

Trang 4

Thống kê là hệ thống các phương pháp dùng để thu thập, xử lý và phân tích các con số (mặt lượng) của những

hiện tượng số lớn để tìm hiểu bản chất và tính quy luật vốn có của chúng (mặt chất) trong điều kiện thời gian

và không gian cụ thể

2.1.2 Phân loại

Thống kê được chia thành hai lĩnh vực:

e Thống kê mô tả: bao gồm các phương pháp thu thập số liệu, tính toán các đặc trưng đo lường, mô tả và

trình bày số liệu

e Thống kê suy diễn: bao gồm các phương pháp như ước lượng, kiểm định, phân tích mối liên hệ, dự đoán trên cơ sở các thông tin thu thập từ mẫu giúp ta có những hiểu biết về tổng thể

2.1.3 Ung dung

Thống kê hiện nay đã được ứng dụng vào mọi lĩnh vực:

e Lĩnh vực kinh tế - xã hội tự nhiên, kỹ thuật, thống kê thường quan tâm nghiên cứu các hiện tượng

e Về dân số, nguỗn lao động

e Về tâm lý, giáo dục, thể thao, y tế

e Về sinh hoạt chính trị, xã hội

Ví dụ: Phân tích sự khác biệt giữa các thuộc tính khách hàng (giới tính, tuổi, nghề nghiệp, thu nhập ) đối

với 1 vẫn đề nào đó (thường chọn là nhân tố phụ thuộc, vd: sự hài lòng)

Một số giả định khi phân tích ANOVA:

— Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên

— Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn

— Phương sai của các nhóm so sánh phải đồng nhất

Lưu ý: nếu giả định tổng thể có phân phối chuẩn với phương sai bằng nhau không đáp ứng được thì bạn có thể

dùng kiểm định phi tham sé Kruskal-Wallis sé dé thay thé cho ANOVA

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 4/ 43

Trang 5

3» Đại học quốc gia tp Hồ Chí Minh

2.2.2 Các bước phân tích ANOVA một nhân tố

Bước 1 : Kiểm định phương sai đồng nhất

Levene test: dùng kiểm định phương sai bằng nhau hay khơng giữa các nhĩm

Giả thiết Ho: “Phương sai bằng nhau”

Sig <= 0.05: bác bỏ Ho

Sig >0.05: chấp nhận Ho -> đủ điều kiện để phân tích tiếp ANOVA

Bước 2 : Kiểm định ANOVA

Giả thiết Ho: “Trung bình bằng nhau”

Sig < 0.05: bác bỏ Ho -> đủ điều kiện để khẳng định cĩ sự khác biệt giữa các nhĩm đối với biến phụ thuộc Sig >0.05: chấp nhận Ho - > chưa đủ điều kiện để khẳng định cĩ sự khác biệt giữa các nhĩm đối với biễn phụ thuộc

Khi cĩ sự khác biệt thì cĩ thể phân tích sâu hơn để tìm ra sự khác biệt như thế nào giữa các nhĩm quan sát bằng các kiểm định Tukey, LSD, Bonferroni, Duncan như hình dưới Kiểm định sâu anova gọi là kiểm định Post-Hoc

2.3 Hdi Quy Tuyén Tinh

2.3.1 Lý thuyết hồi quy tuyến tính đơn

Định nghĩa hồi quy: Hàm hồi quy của Y theo X là kỳ vọng cĩ điều kiện của Y đối với X, tức là E(Y|X) Xét hàm hồi quy tuyến tính đơn cĩ dạng:

ƒy(X) =aX+b Giả sử ta cĩ một mẫu ngẫu nhiên kích thước n thu được khi quan sát (Y, X) là:

(Yi, Xi) = (M1, X1), (Yo, Xa), +: (Vn: Xn)

Khi đĩ chúng ta cĩ thể viết: fyi(X;) = EƠ@;/X;) =aÄ;¡ +b

Hay:

Y, =aX;+04+0; i=in

(m6 hinh héi quy tuyến tính đơn)

Trong đĩ Ù; là các sai số ngẫu nhiên và giả thiết rằng chúng độc lập với nhau, cùng tuân theo quy luật phân

Trang 6

BK: £ x

63 Đại học quốc gia tp Hỗ Chí Minh

Đánh giá các sai số của ước lượng và tính phù hợp (hay đúng đắn) của hàm hồi quy

SST =x (u—0)°=SSE+ SSR i=l

SSE = SSW = Q(a,b)= x (us — 9)"

i=l

SSh=SSB=x (0,—9)?

=1

SST đo mức biến động các giá trị của Y xung quanh giá trị trung bình của nó

SSR 1a sai s6 do khác biệt giữa đường hồi quy mẫu và trung bình của Y Sự khác biệt này được giải thích bới

sự biến động của X

SSE được xem như sai số do những yếu tố khác ngoài X hoặc do lấy mẫu ngẫu nhiên

Kiểm định sự phù hợp của hàm hồi quy tuyến tính đơn:

Giả thết Ho: R?=0; A,: R240 hoặc Hạ:b=0; HI:b#0

Trong mô hình hồi quy tuyến tính đơn, R2 = ry (r„„: hệ số tương quan)

Sai sỗô chuẩn của ước lượng:

Nếu ø2 chưa biết thì ta dùng ước lượng không chệch của nó là 22

` ggErs

Sai số chuẩn của ước lượng là = ~* 2

Tìm khoảng tin cậy cho các hệ số a, b của hàm hồi quy tuyến tính đơn Các hệ số a, b trong mô hình lý thuyết ƒ(+) = a+ bX có a, b là những ước lượng tương ứng Khoảng tin cậy của a, b lần lượt được xác định như sau:

Khoảng ước lượng cho hệ số góc b là (b — e;; b + eạ) với

e« Giả thiết Hạ:b=bạ; Hị:b# bạ

Trang 7

BK: £ x

63 Đại học quốc gia tp Hỗ Chí Minh

e Giả thiết Hạ:à=ag; Hị:aœ#ao

Tiêu chuẩn kiểm định: 7= ——" —

Pp SSx?

Pp

Mién bac bd: = Wa, = (—00; Panay 2)œ„(n — 2); +o©))

Dự đốn các giá trị của Y theoX Dự báo giá trị trung bình của Y khi X = zo

Trang 8

EK £ x

s3» Đại học quốc gia tp Hỗ Chí Minh

3.1 Cài đặt thư viện

Một thư viện muốn được khai báo để sử dụng trong R trước hết phải được cài đặt

Cũ pháp :

install.packages("ten_ thu_ vien")

Dé sti dụng thư viện đã cài đặt ta dùng câu lệnh :

lbrary("ten_ thu_ vien")

Một số thư viện được sử dụng trong bài lần này :

Tidyverse : thư viện tổng hợp một số thư viện ggplot2, tibble, stringr, readr, dplyr, tidyr, purrr, forcats

3.2 Doc dit liéu (Import Data)

Trước khi đọc dữ liệu ta cần tải file về và lưu vào thư mục rồi lấy đường dẫn đến thư mục đó để chuẩn bị cho

bước tiếp theo

Sử dụng lệnh load()

Cũ pháp : load("Dia_ Chỉ Duong Dan Den_ File")

Thực hiện doc dit liéu : load("C:/Program Files/R/R-4.1.1/my doc/flights.rda")

6 phan Environment hién ra file bén dudi

Environment History Connections Tutorial

= i # import > t%È 352MiBx & list >

R 3 Global Environment + Data

D flights 162049 obs of 16 variables

3.3 Lam sach dit liéu ( Data Cleaning)

3.3.1 Kiểm tra cấu trúc dữ liệu

Dữ liệu có thể chứa những thông tin lỗi ví dụ ở cột "year" có thể chứa các kí tự chữ không phù hợp Vậy nên chúng ta cần kiểm tra thông tin kiểu dữ liệu của từng cột bằng lệnh :

Trang 9

5s Đại học quốc gia tp Hồ Ghí Minh

$ carrier : chr [1:162049] "as" "us" "UA" "US"

$ tailnum : chr [1:162049] "N50O8AS” "N195UW” ”N37422” ”"N547UW”

3.3.2 Kiểm tra dữ liệu khuyết NA

Chúng ta không thể làm việc với dữ liệu Na vì chúng không chứa thông tin gì vì vậy phải tìm được các giá trị

Na để xử lí

Dùng lénh summary()

Thực hiện:

summary (flights)

Ist Qu.: 831 lst Qu.: -5.000 ist Qu.:1127 Median :1217 Median : -2.000 Median :1517

Q's 1857)

Ist Qu.: -12.000 Class :character Class :character

3rd Qu.: 7.000

WA's 21305

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 9/ 43

Trang 10

3» Đại học quốc gia tp Hồ Chí Minh

3.3.3 Xử lí dữ liệu NA

Vì dữ liệu Na khá nhiều nên ta sẽ thay thế các giá trị NA này thành giá trị trung vị

Ỏ day ta sẽ thế các giá trị NA của dep_ time làm mẫu các cột khác làm tương tự

Sử dụng câu lệnh:

flights$dep_time[is.na(flights$dep_time)] <- median(flights$dep_time, na.rm = TRUE) Lúc này cái giá trị Na của cột dep_ time đã bị thay thế bởi giá trị trung vị Kiểm tra lại bằng lệnh summary thấy cột dep_ time không còn chứa giá trị Na

1st Qu.: 832 Ist Qu.: -5.000 Ist Qu :1127 Median :1217 Median : -2.000 Median :1517

Mean :1278 Mean : 6.134 Mean 21483

3rd Qu.:1718 3rd qu.: 5.000 3rd Qu :1918

flights$minute[is.na(flights$minute)] <- median(flights$minute, na.rm = TRUE)

Lúc này toàn bộ Na đã được xử lí xong

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 10/ 43

Trang 11

BK: £ x

s3» Đại học quốc gia tp Hỗ Chí Minh

3.4 Làm rõ dữ liệu (Data Visualization)

Tính các giá trị thống kẽ mô tả ( kích thước mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ phân vị, trung vị ) của chênh lệch giữa thời gian cất cánh/hạ cánh thực tế và thời gian cất cánh/ hạ cánh đặt trước ( biến dep_ delay ) của từng hãng hang khong ( carrier )

Q1 = tapply(flightstdep_delay,flights$carrier ,quantile, probs=.25)

median = tapply(flights$dep_delay,flights$carrier ,median)

Q3 = tapply(flightstdep_delay,flights$carrier,quantile, probs=.75)

data frame(length,mean,sd,min,max,Q1,median,Q3)

Ta có kết quả như sau:

length mean sd min max Q1 median q3

AA 7586 10.484709 51.76057 -18 1553 -5 -2 7

AS 62460 2.776273 20.43251 -25 866 -5 -2 2 B6 3540 8.344633 31.44839 -20 365 -6 -2 8

DL 16716 4.805695 29.34197 -19 886 -4 -2 4 r9 2698 10.111935 40.92726 -20 815 -6 -2 11

HA 1095 2.576256 47.17587 -17 878 -7 -4 -1 0O 18710 4.336237 28.55544 -37 677 -6 -4 0

Sam đó, vẽ biểu đồ boxplot để thể hiện phân phối của biến dep _ delay cho từng hãng hàng không

boxplot (dep_delay~carrier,data = flights,xlab="Carrier",ylab="Dep_delay",

main = "Boxplot of dep_delay for a category of carrier")

Boxplot of dep_delay for a category of carrier

Trang 12

BK: £ x

s3» Đại học quốc gia tp Hỗ Chí Minh

Nhận xét: Qua biểu đồ trên ta có thể thấy được có rất nhiều điểm ngoại lai ( outliers ) ở biến dep_ delay,

chúng gây ảnh hướng đến kết quả phân tích sau này Do đó, ta sử dụng khoảng tứ phân vị để loại bỏ những điểm đó đi

Ý tưởng: Th sẽ chuyển các outliers thành dạng ÑA và sau đó sẽ thay thế các outliers thành giá trị trung bình của hãng hàng không tương ứng Trước tiên, ta sẽ tạo hàm nhận biết các outliers và biến chúng thành dạng

#Thay thé cdc outliers thanh dang NA

AA$dep_delay [is.na(AA$dep_delay) ]<-mean(AAtdep_delay ,na.rm=T)

#Thay thé cac gid tri NA thành giá trị trung bình

Ta sé thực hiện tương tự cho 10 hãng hàng không còn lại:

AS=subset (flights,flights$carrier=="AS")

AS$dep_delay=rm (AS$dep_delay)

AS$dep_deylay [is.na(AS$dep_delay) ]<-mean (AS$dep_delay ,na.rm=T)

DL=subset (flights ,flights$carrier=="DL")

DL$dep_delay=rm (DL$dep_delay)

DL$dep_delay[is.na(DL$dep_delay) ]<-mean (DL$dep_delay ,na.rm=T)

B6é=subset (flights ,flights$carrier=="B6")

HA$dep_delay[is.na(HA$dep_delay) ]<-mean (HA$dep_delay ,na.rm=T)

00=subset (flights, flights$carrier=="00")

O0$dep_delay=rm (OO$dep_delay)

00ÿdep_de1ay [is na (00ÿ$đep_delay) ]<-=mean (00ÿ$dep_delay,na rm=T)

UA=subset (flights ,flights$carrier=="UA")

UA$dep_delay=rm (UA$dep_delay)

UAtdep_delay [is.na(UA$dep_delay) ]<-mean (UA$dep_delay ,na.rm=T)

US=subset (flights ,flights$carrier=="US")

US$dep_delay=rm (US$dep_delay)

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 12/ 43

Trang 13

s3» Đại học quốc gia tp Hỗ Chí Minh

US$dep_deLay [is na (US$dep_delay) ]<-mean (US$dep_delay ,na.rm=T)

VX=subset (flights,flights$carrier=="VX")

VX$dep_delay=rm (VX$dep_delay)

VX$dep_delay[is.na(VX$dep_delay) ]<-mean (VX$dep_delay ,na.rm=T)

WN=subset (flights, flights$carrier=="WN")

length = tapply(new_flights$dep_delay,new_f1ights$carrier, length)

new_mean = tapply (new_flights$dep_delay,new_f1ights$carrier ,mean)

new_sd = tapply(new_flights$dep_delay ,new_flights$carrier ,sd)

new_min = tapply(new_flightstdep_delay ,new_flights$carrier,min)

new_max = tapply(new_flights$dep_delay,new_flights$carrier,max)

new_Qi = tapply (new_flightstdep_delay ,new_flights$carrier,quantile,probs=.25)

new_median = tapply(new_flightstdep_delay ,new_flights$carrier ,median)

new_Q3 = tapply (new_flights$dep_delay ,new_flights$carrier,quantile,probs=.75)

data.frame(length,new_mean,new_sd,new_min,new_max ,new_Q1,new_median, new_Q3)

boxplot (dep_delay~ carrier ,data = new_flights,xlab="Carrier" ,ylab="Dep_delay",

main = "Boxplot of dep_delay for a category of carrier",col="orange")

Trang 13/ 43

Trang 14

EK £ x

s3» Đại học quốc gia tp Hỗ Chí Minh

Boxplot of dep_delay for a category of carrier

Camer

a Z ⁄ se : "2 sh » ` ~ ^ = “ ` ¬ x ` +2 os ¬ Nhận xét: Các giá trị của biên dep_ delay của từng hãng hàng không lúc này đã gần nhau hơn và biểu đồ đã

2 ¬ ~ x ⁄ = A : A x : ` Z Z 2 Z ~ x F ⁄ ⁄ thể hiện rõ hơn về các thông số min, max, điểm phãn vị, Từ đó ta có thể có những nhận xét chính xác hơn

về sự khác nhau giữa các hãng hàng không

Cụ thể:

Đối với hãng hàng không AA:

Min = -18: Thời gian khới hành sớm nhất là: 18 phút

Max = 2ð: Thời gian khởi hành trễ nhất là: 25 phút

Q)ì = —ỗ: 25% chuyến bay có thời gian khới hành sớm hơn 5 phút

Med = -2: 50% chuyến bay có thời gian khới hành sớm hơn 2 phút

Q3 = 0: 75% chuyến bay có thời gian khới hành sớm hơn thời gian dự kiến bay

Đối với hãng hàng không AS:

Min = -15: Thời gian khới hành sớm nhất là: 15 phút

Max = 12: Thời gian khới hành trễ nhất là: 12 phút

Q, = —5: 25% chuyén bay có thời gian khới hành sớm hơn 5 phút

Med = -2.5554: 50% chuyến bay có thời gian khởi hành sớm hơn 2.5554 phút

Q3 = —1: 75% chuyến bay có thời gian khới hành sớm hơn 1 phút

Đối với hãng hàng không B6:

Mim = -20: Thời gian khới hành sớm nhất là: 20 phút

Max = 29: Thời gian khởi hành trễ nhất là: 29 phút

Q, = —6: 25% chuyến bay có thời gian khới hành sớm hơn 6 phút

Med = -2: 50% chuyến bay có thời gian khới hành sớm hơn 2 phút

Qs = 1: 75% chuyến bay có thời gian khới hành trễ hơn 1 phút

Doi v6i hang hang khéng DL:

Min = -15: Thời gian khới hành sớm nhất là: 15 phút

Max = 16: Thời gian khởi hành trễ nhất là: 16 phút

Q = —4: 25% chuyến bay có thời gian khới hành sớm hơn 4 phút

Med = -2: 50% chuyến bay có thời gian khới hành sớm hơn 2 phút

Q3 = 0: 75% chuyén bay có thời gian khới hành sớm hơn thời gian dự kiến bay

Đối với hãng hàng không E9:

Mim = -20: Thời gian khới hành sớm nhất là: 20 phút

Max = 36: Thời gian khởi hành trễ nhất là: 36 phút

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 14/ 43

Trang 15

BK: £ x

63 Đại học quốc gia tp Hỗ Chí Minh

Qì = —6: 25% chuyến bay có thời gian khới hành sớm hơn 6 phút

Med = -2: 50% chuyến bay có thời gian khới hành sớm hơn 2 phút

Q3 = 4: 75% chuyến bay có thời gian khới hành trễ hơn 4 phút

Đối với hãng hàng không HA:

Mim = -16: Thời gian khới hành sớm nhất là: 16 phút

Max = 8: Thời gian khới hành trễ nhất là: 8 phút

Qì = —7: 25% chuyến bay có thời gian khới hành sớm hơn 7 phút

Med = -4.4990: 50% chuyến bay có thời gian khởi hành sớm hơn 4.4990 phút

Q3 = —2: 75% chuyén bay có thời gian khới hành sớm hơn 2 phút

Đối với hãng hàng không OO:

Min = -15: Thời gian khới hành sớm nhất là: 15 phút

Max = 9: Thời gian khới hành trễ nhất là: 9 phút

Q, = —6: 25% chuyến bay có thời gian khới hành sớm hơn 6 phút

Med = -4.1570: 50% chuyến bay có thời gian khởi hành sớm hơn 4.1570 phút

Q3 = —2: 75% chuyến bay có thời gian khới hành sớm hơn 2 phút

Đối với hãng hàng không UA: Min = -19: Thời gian khới hành sớm nhất là: 19 phút

Max = 27: Thời gian khởi hành trễ nhất là: 27 phút

Q, = —5: 25% chuyén bay có thời gian khới hành sớm hơn 5 phút

Med = -1: 50% chuyến bay có thời gian khới hành sớm hơn 1 phút

Qs = 2: 75% chuyến bay có thời gian khới hành trễ hơn 3 phút

Đi với hãng hàng không US:

Min = -15: Thời gian khới hành sớm nhất là: 15 phút

Max = 11: Thời gian khới hành trễ nhất là: 11 phút

Q, = —6: 25% chuyến bay có thời gian khới hành sớm hơn 6 phút

Med = -3: 50% chuyến bay có thời gian khởi hành sớm hơn 3 phút

Q3 = —1: 75% chuyến bay có thời gian khới hành sớm hơn 1 phút

Đối với hãng hàng không VX:

Min = -17: Thời gian khới hành sớm nhất là: 17 phút

Max = 15: Thời gian khởi hành trễ nhất là: 15 phút

Q, = —5: 25% chuyén bay có thời gian khới hành sớm hơn 5 phút

Med = -2.6258: 50% chuyến bay có thời gian khởi hành sớm hơn 2.6258 phút

Q3 = —1: 75% chuyến bay có thời gian khởi hành sớm 1 phút

Đối với hãng hàng không WN:

Min = -11: Thời gian khởi hành sớm nhất là: 11 phút

Max = 4õ: Thời gian khởi hành trễ nhất là: 45 phút

Q = —2: 25% chuyến bay có thời gian khởi hành sớm hơn 2 phút

Med = 2: 50% chuyến bay có thời gian khới hành trễ hơn 2 phút

Q3 = 11: 75% chuyến bay có thời gian khới hành trễ hơn 11 phút

3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay giữa các hãng bay

Ta sẽ sử dụng anova để kiểm định rằng liệu có sự khác biệt về việc lệch giờ bay trung bình giữa các hãng hàng không đối với các chuyến bay khởi hành từ Seattle trong năm 2014 hay không

Code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Seattle trong năm 2014:

SEA = subset(new_flights,new_flights$origin =="5EA")

#loc cac chuyen bay khoi hanh tu Portland

head(SEA, 3)

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 15/ 43

Trang 16

EK £ x

s3» Đại học quốc gia tp Hỗ Chí Minh

year month day carrier origin dest dep_ti

Giải thích tại cho việc sử dụng ANOVA một nhãn tố:

Dể thực hiện so sánh trung bình của nhiều nhóm, phương pháp tối ưa nhất là dùng phan tích phương sai Do

ta có 11 hãng hàng không có chuyến bay khới hành từ Seattle trong năm 2014 Nếu chỉ so sánh 2 trung bình của 2 nhóm, ta có thể dùng t-test Vì vậy nếu dùng t-test cho bài toán này, ta phải thực hiện kiểm định rất nhiều lần Phương pháp phân tích phương sai cho ta kết luận sự bằng nhau hoặc khác nhau giữa các nhóm so sánh thông qua một phép kiểm định duy nhất

Total SST n-1

Dat gia thuyét:

- Giả thuyết Hạ: po, = fo = = pr , Viéc lệch giờ bay trung bình giữa các hãng hàng không bằng nhau

- Dối thuyết H1: Ima; = Sima; với (¡ # j), Có ít nhất 2 hãng hàng không có việc lệch giờ bay trung bình khác nhau ` - -

Các giả định cần kiêm tra trong ANOVA một nhân tô:

+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ

Seattle tuân theo phãn phối chuẩn

+ Tính đồng nhất của các phương sai: Phương sai việc lệch giờ bay ở các hãng hàng không đối với các chuyền

bay khới hành từ Seattle bằng nhau

Kiểm tra giả định phân phối chuẩn:

Giả thuyết Hạ: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khới hành từ Seattle tuân theo

phân phối chuẩn

Giả thuyết HH: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khới hành từ Seattle không

tuân theo phân phối chuẩn

Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_ delay ở hãng hàng không AA:

Trang 17

* Đại học quốc gia tp Hồ Ghí Minh

Trang 19

ws) Đại học quốc gia tp Hồ Ghí Minh

Trang 20

Trang 20/ 43

Trang 21

5 Đại học quốc gia tp Hồ Ghí Minh

Code R va két qua khi kiểm định giả định phãn phối chuẩn cho biến dep_ delay ở hãng hàng không HÀ:

HA_SEA = subset (SEA,SEA$carrier =="HA")

Ngày đăng: 14/11/2024, 20:23