e Về sinh hoạt chính trị, xã hội Ví dụ: Phân tích sự khác biệt giữa các thuộc tính khách hàng giới tính, tuổi, nghề nghiệp, thu nhập.... Lưu ý: nếu giả định tổng thể có phân phối chuẩn v
Trang 1ĐẠI HỌC QUOC GIA THANH PHO HO CHi MINH
BK TP.HCM
BÁO CÁO BÀI TẬP LỚN - XÁC XUẤT THỐNG KÊ
Trang 221 Thống kê Q Q OQ HQ HQ HH ng ng vn vn v v v van vi v k v va va 4
2117 Dinh Nghĩa Quà gà kg kg kg kg kg Ta 4 PB» a4 (HT 4
213 Ứng dụng ee 4 2.2 ANOVA Một Nhãn TỐ QQ QQ QQ Q nu gà và và kg V 4 2.21 Dinh Nehia 2 gi kg kg Ta 4
2.2.2 Các bước phân tích ANOVA mot nhéant6 2 0.0.000000 00.0000 020022 5
3 Thuc Hién 8 3.1 Cai dat thu vién 2 ee 8
3.3.1 Kiểm tra cấu trúc dữ lệU ee 8
E ‹ô 28 ha ee 10
3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay giữa các hãng bay 15
5 HD riéng 37 5.1 Dẫn Nhập ee 37 5.11 Tổng quan về tập đữ liệu eee 37 5.12 Hướng xử lí dữ lệu ee en 37 5.2 Thuc Hién 2 Q0 Quà gà gà g g g kg kg xxx xa 37 2) ^ 6 an áắáẶN aăa a -.HHAa dd 37 5.2.2 Làm sạch dữ liệu Quà kg kg gà kg và 37 5.23 Mô tả dữ lệU ee 39
5.24 Xây dựng mô hình hồi quy tuyến tính ee 40
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 2/ 43
Trang 3nhân gây ra sự khởi hành trễ hoặc hoãn các chuyến bay Chi tiết về bộ dữ liệu như sau:
Các biến chính trong bộ dữ liệu:
1 year, month, day: ngay khởi hành của mỗi chuyến bay
2 carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa Ví dụ: UA = United Air Lines,
AA = American Airlines, DL = Delta Airlines, v.v
3 origin va dest: tén san bay đi và đến Dối với sân bay di, ta chỉ có hai giá trị SEA (Seattle) va PDX
(Portland)
4 dep_time wa arr_time: thdi gian cat cénh va hạ cánh (theo lịch dự kiến)
5 dep_delay va arr_ time: chẽnh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé
6 distanece: khoảng cách giữa hai sân bay (dặm)
Các bước thực hiện:
1 Doc dit liéu (Import data): flight.rda
2 Lam sach dit liéu (Data cleaning): NA (dit liéu khuyét)
w Làm ré dit liu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_ dela) giữa các hãng bay
ot M6 hinh héi quy tuyén tinh: Stt dung mét m6 hinh hồi quy phù hợp để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đề (amr_ tzme) của các chuyên bay
1.2 Hoạt động 2
Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng
dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_ du lieu BTL_ xstk.xlsx"
Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phãn tích dữ liệu của mình, nhưng
phải đảm bảo 2 phần: Lam ré dif liéu (data visualization) va mo hinh di liéu (model fitting)
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 3/ 43
Trang 4Thống kê là hệ thống các phương pháp dùng để thu thập, xử lý và phân tích các con số (mặt lượng) của những
hiện tượng số lớn để tìm hiểu bản chất và tính quy luật vốn có của chúng (mặt chất) trong điều kiện thời gian
và không gian cụ thể
2.1.2 Phân loại
Thống kê được chia thành hai lĩnh vực:
e Thống kê mô tả: bao gồm các phương pháp thu thập số liệu, tính toán các đặc trưng đo lường, mô tả và
trình bày số liệu
e Thống kê suy diễn: bao gồm các phương pháp như ước lượng, kiểm định, phân tích mối liên hệ, dự đoán trên cơ sở các thông tin thu thập từ mẫu giúp ta có những hiểu biết về tổng thể
2.1.3 Ung dung
Thống kê hiện nay đã được ứng dụng vào mọi lĩnh vực:
e Lĩnh vực kinh tế - xã hội tự nhiên, kỹ thuật, thống kê thường quan tâm nghiên cứu các hiện tượng
e Về dân số, nguỗn lao động
e Về tâm lý, giáo dục, thể thao, y tế
e Về sinh hoạt chính trị, xã hội
Ví dụ: Phân tích sự khác biệt giữa các thuộc tính khách hàng (giới tính, tuổi, nghề nghiệp, thu nhập ) đối
với 1 vẫn đề nào đó (thường chọn là nhân tố phụ thuộc, vd: sự hài lòng)
Một số giả định khi phân tích ANOVA:
— Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên
— Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn
— Phương sai của các nhóm so sánh phải đồng nhất
Lưu ý: nếu giả định tổng thể có phân phối chuẩn với phương sai bằng nhau không đáp ứng được thì bạn có thể
dùng kiểm định phi tham sé Kruskal-Wallis sé dé thay thé cho ANOVA
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 4/ 43
Trang 53» Đại học quốc gia tp Hồ Chí Minh
2.2.2 Các bước phân tích ANOVA một nhân tố
Bước 1 : Kiểm định phương sai đồng nhất
Levene test: dùng kiểm định phương sai bằng nhau hay khơng giữa các nhĩm
Giả thiết Ho: “Phương sai bằng nhau”
Sig <= 0.05: bác bỏ Ho
Sig >0.05: chấp nhận Ho -> đủ điều kiện để phân tích tiếp ANOVA
Bước 2 : Kiểm định ANOVA
Giả thiết Ho: “Trung bình bằng nhau”
Sig < 0.05: bác bỏ Ho -> đủ điều kiện để khẳng định cĩ sự khác biệt giữa các nhĩm đối với biến phụ thuộc Sig >0.05: chấp nhận Ho - > chưa đủ điều kiện để khẳng định cĩ sự khác biệt giữa các nhĩm đối với biễn phụ thuộc
Khi cĩ sự khác biệt thì cĩ thể phân tích sâu hơn để tìm ra sự khác biệt như thế nào giữa các nhĩm quan sát bằng các kiểm định Tukey, LSD, Bonferroni, Duncan như hình dưới Kiểm định sâu anova gọi là kiểm định Post-Hoc
2.3 Hdi Quy Tuyén Tinh
2.3.1 Lý thuyết hồi quy tuyến tính đơn
Định nghĩa hồi quy: Hàm hồi quy của Y theo X là kỳ vọng cĩ điều kiện của Y đối với X, tức là E(Y|X) Xét hàm hồi quy tuyến tính đơn cĩ dạng:
ƒy(X) =aX+b Giả sử ta cĩ một mẫu ngẫu nhiên kích thước n thu được khi quan sát (Y, X) là:
(Yi, Xi) = (M1, X1), (Yo, Xa), +: (Vn: Xn)
Khi đĩ chúng ta cĩ thể viết: fyi(X;) = EƠ@;/X;) =aÄ;¡ +b
Hay:
Y, =aX;+04+0; i=in
(m6 hinh héi quy tuyến tính đơn)
Trong đĩ Ù; là các sai số ngẫu nhiên và giả thiết rằng chúng độc lập với nhau, cùng tuân theo quy luật phân
Trang 6BK: £ x
63 Đại học quốc gia tp Hỗ Chí Minh
Đánh giá các sai số của ước lượng và tính phù hợp (hay đúng đắn) của hàm hồi quy
SST =x (u—0)°=SSE+ SSR i=l
SSE = SSW = Q(a,b)= x (us — 9)"
i=l
SSh=SSB=x (0,—9)?
=1
SST đo mức biến động các giá trị của Y xung quanh giá trị trung bình của nó
SSR 1a sai s6 do khác biệt giữa đường hồi quy mẫu và trung bình của Y Sự khác biệt này được giải thích bới
sự biến động của X
SSE được xem như sai số do những yếu tố khác ngoài X hoặc do lấy mẫu ngẫu nhiên
Kiểm định sự phù hợp của hàm hồi quy tuyến tính đơn:
Giả thết Ho: R?=0; A,: R240 hoặc Hạ:b=0; HI:b#0
Trong mô hình hồi quy tuyến tính đơn, R2 = ry (r„„: hệ số tương quan)
Sai sỗô chuẩn của ước lượng:
Nếu ø2 chưa biết thì ta dùng ước lượng không chệch của nó là 22
` ggErs
Sai số chuẩn của ước lượng là = ~* 2
Tìm khoảng tin cậy cho các hệ số a, b của hàm hồi quy tuyến tính đơn Các hệ số a, b trong mô hình lý thuyết ƒ(+) = a+ bX có a, b là những ước lượng tương ứng Khoảng tin cậy của a, b lần lượt được xác định như sau:
Khoảng ước lượng cho hệ số góc b là (b — e;; b + eạ) với
e« Giả thiết Hạ:b=bạ; Hị:b# bạ
Trang 7BK: £ x
63 Đại học quốc gia tp Hỗ Chí Minh
e Giả thiết Hạ:à=ag; Hị:aœ#ao
Tiêu chuẩn kiểm định: 7= ——" —
Pp SSx?
Pp
Mién bac bd: = Wa, = (—00; Panay 2)œ„(n — 2); +o©))
Dự đốn các giá trị của Y theoX Dự báo giá trị trung bình của Y khi X = zo
Trang 8EK £ x
s3» Đại học quốc gia tp Hỗ Chí Minh
3.1 Cài đặt thư viện
Một thư viện muốn được khai báo để sử dụng trong R trước hết phải được cài đặt
Cũ pháp :
install.packages("ten_ thu_ vien")
Dé sti dụng thư viện đã cài đặt ta dùng câu lệnh :
lbrary("ten_ thu_ vien")
Một số thư viện được sử dụng trong bài lần này :
Tidyverse : thư viện tổng hợp một số thư viện ggplot2, tibble, stringr, readr, dplyr, tidyr, purrr, forcats
3.2 Doc dit liéu (Import Data)
Trước khi đọc dữ liệu ta cần tải file về và lưu vào thư mục rồi lấy đường dẫn đến thư mục đó để chuẩn bị cho
bước tiếp theo
Sử dụng lệnh load()
Cũ pháp : load("Dia_ Chỉ Duong Dan Den_ File")
Thực hiện doc dit liéu : load("C:/Program Files/R/R-4.1.1/my doc/flights.rda")
6 phan Environment hién ra file bén dudi
Environment History Connections Tutorial
= i # import > t%È 352MiBx & list >
R 3 Global Environment + Data
D flights 162049 obs of 16 variables
3.3 Lam sach dit liéu ( Data Cleaning)
3.3.1 Kiểm tra cấu trúc dữ liệu
Dữ liệu có thể chứa những thông tin lỗi ví dụ ở cột "year" có thể chứa các kí tự chữ không phù hợp Vậy nên chúng ta cần kiểm tra thông tin kiểu dữ liệu của từng cột bằng lệnh :
Trang 95s Đại học quốc gia tp Hồ Ghí Minh
$ carrier : chr [1:162049] "as" "us" "UA" "US"
$ tailnum : chr [1:162049] "N50O8AS” "N195UW” ”N37422” ”"N547UW”
3.3.2 Kiểm tra dữ liệu khuyết NA
Chúng ta không thể làm việc với dữ liệu Na vì chúng không chứa thông tin gì vì vậy phải tìm được các giá trị
Na để xử lí
Dùng lénh summary()
Thực hiện:
summary (flights)
Ist Qu.: 831 lst Qu.: -5.000 ist Qu.:1127 Median :1217 Median : -2.000 Median :1517
Q's 1857)
Ist Qu.: -12.000 Class :character Class :character
3rd Qu.: 7.000
WA's 21305
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 9/ 43
Trang 10
3» Đại học quốc gia tp Hồ Chí Minh
3.3.3 Xử lí dữ liệu NA
Vì dữ liệu Na khá nhiều nên ta sẽ thay thế các giá trị NA này thành giá trị trung vị
Ỏ day ta sẽ thế các giá trị NA của dep_ time làm mẫu các cột khác làm tương tự
Sử dụng câu lệnh:
flights$dep_time[is.na(flights$dep_time)] <- median(flights$dep_time, na.rm = TRUE) Lúc này cái giá trị Na của cột dep_ time đã bị thay thế bởi giá trị trung vị Kiểm tra lại bằng lệnh summary thấy cột dep_ time không còn chứa giá trị Na
1st Qu.: 832 Ist Qu.: -5.000 Ist Qu :1127 Median :1217 Median : -2.000 Median :1517
Mean :1278 Mean : 6.134 Mean 21483
3rd Qu.:1718 3rd qu.: 5.000 3rd Qu :1918
flights$minute[is.na(flights$minute)] <- median(flights$minute, na.rm = TRUE)
Lúc này toàn bộ Na đã được xử lí xong
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 10/ 43
Trang 11BK: £ x
s3» Đại học quốc gia tp Hỗ Chí Minh
3.4 Làm rõ dữ liệu (Data Visualization)
Tính các giá trị thống kẽ mô tả ( kích thước mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ phân vị, trung vị ) của chênh lệch giữa thời gian cất cánh/hạ cánh thực tế và thời gian cất cánh/ hạ cánh đặt trước ( biến dep_ delay ) của từng hãng hang khong ( carrier )
Q1 = tapply(flightstdep_delay,flights$carrier ,quantile, probs=.25)
median = tapply(flights$dep_delay,flights$carrier ,median)
Q3 = tapply(flightstdep_delay,flights$carrier,quantile, probs=.75)
data frame(length,mean,sd,min,max,Q1,median,Q3)
Ta có kết quả như sau:
length mean sd min max Q1 median q3
AA 7586 10.484709 51.76057 -18 1553 -5 -2 7
AS 62460 2.776273 20.43251 -25 866 -5 -2 2 B6 3540 8.344633 31.44839 -20 365 -6 -2 8
DL 16716 4.805695 29.34197 -19 886 -4 -2 4 r9 2698 10.111935 40.92726 -20 815 -6 -2 11
HA 1095 2.576256 47.17587 -17 878 -7 -4 -1 0O 18710 4.336237 28.55544 -37 677 -6 -4 0
Sam đó, vẽ biểu đồ boxplot để thể hiện phân phối của biến dep _ delay cho từng hãng hàng không
boxplot (dep_delay~carrier,data = flights,xlab="Carrier",ylab="Dep_delay",
main = "Boxplot of dep_delay for a category of carrier")
Boxplot of dep_delay for a category of carrier
Trang 12
BK: £ x
s3» Đại học quốc gia tp Hỗ Chí Minh
Nhận xét: Qua biểu đồ trên ta có thể thấy được có rất nhiều điểm ngoại lai ( outliers ) ở biến dep_ delay,
chúng gây ảnh hướng đến kết quả phân tích sau này Do đó, ta sử dụng khoảng tứ phân vị để loại bỏ những điểm đó đi
Ý tưởng: Th sẽ chuyển các outliers thành dạng ÑA và sau đó sẽ thay thế các outliers thành giá trị trung bình của hãng hàng không tương ứng Trước tiên, ta sẽ tạo hàm nhận biết các outliers và biến chúng thành dạng
#Thay thé cdc outliers thanh dang NA
AA$dep_delay [is.na(AA$dep_delay) ]<-mean(AAtdep_delay ,na.rm=T)
#Thay thé cac gid tri NA thành giá trị trung bình
Ta sé thực hiện tương tự cho 10 hãng hàng không còn lại:
AS=subset (flights,flights$carrier=="AS")
AS$dep_delay=rm (AS$dep_delay)
AS$dep_deylay [is.na(AS$dep_delay) ]<-mean (AS$dep_delay ,na.rm=T)
DL=subset (flights ,flights$carrier=="DL")
DL$dep_delay=rm (DL$dep_delay)
DL$dep_delay[is.na(DL$dep_delay) ]<-mean (DL$dep_delay ,na.rm=T)
B6é=subset (flights ,flights$carrier=="B6")
HA$dep_delay[is.na(HA$dep_delay) ]<-mean (HA$dep_delay ,na.rm=T)
00=subset (flights, flights$carrier=="00")
O0$dep_delay=rm (OO$dep_delay)
00ÿdep_de1ay [is na (00ÿ$đep_delay) ]<-=mean (00ÿ$dep_delay,na rm=T)
UA=subset (flights ,flights$carrier=="UA")
UA$dep_delay=rm (UA$dep_delay)
UAtdep_delay [is.na(UA$dep_delay) ]<-mean (UA$dep_delay ,na.rm=T)
US=subset (flights ,flights$carrier=="US")
US$dep_delay=rm (US$dep_delay)
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 12/ 43
Trang 13
s3» Đại học quốc gia tp Hỗ Chí Minh
US$dep_deLay [is na (US$dep_delay) ]<-mean (US$dep_delay ,na.rm=T)
VX=subset (flights,flights$carrier=="VX")
VX$dep_delay=rm (VX$dep_delay)
VX$dep_delay[is.na(VX$dep_delay) ]<-mean (VX$dep_delay ,na.rm=T)
WN=subset (flights, flights$carrier=="WN")
length = tapply(new_flights$dep_delay,new_f1ights$carrier, length)
new_mean = tapply (new_flights$dep_delay,new_f1ights$carrier ,mean)
new_sd = tapply(new_flights$dep_delay ,new_flights$carrier ,sd)
new_min = tapply(new_flightstdep_delay ,new_flights$carrier,min)
new_max = tapply(new_flights$dep_delay,new_flights$carrier,max)
new_Qi = tapply (new_flightstdep_delay ,new_flights$carrier,quantile,probs=.25)
new_median = tapply(new_flightstdep_delay ,new_flights$carrier ,median)
new_Q3 = tapply (new_flights$dep_delay ,new_flights$carrier,quantile,probs=.75)
data.frame(length,new_mean,new_sd,new_min,new_max ,new_Q1,new_median, new_Q3)
boxplot (dep_delay~ carrier ,data = new_flights,xlab="Carrier" ,ylab="Dep_delay",
main = "Boxplot of dep_delay for a category of carrier",col="orange")
Trang 13/ 43
Trang 14EK £ x
s3» Đại học quốc gia tp Hỗ Chí Minh
Boxplot of dep_delay for a category of carrier
Camer
a Z ⁄ se : "2 sh » ` ~ ^ = “ ` ¬ x ` +2 os ¬ Nhận xét: Các giá trị của biên dep_ delay của từng hãng hàng không lúc này đã gần nhau hơn và biểu đồ đã
2 ¬ ~ x ⁄ = A : A x : ` Z Z 2 Z ~ x F ⁄ ⁄ thể hiện rõ hơn về các thông số min, max, điểm phãn vị, Từ đó ta có thể có những nhận xét chính xác hơn
về sự khác nhau giữa các hãng hàng không
Cụ thể:
Đối với hãng hàng không AA:
Min = -18: Thời gian khới hành sớm nhất là: 18 phút
Max = 2ð: Thời gian khởi hành trễ nhất là: 25 phút
Q)ì = —ỗ: 25% chuyến bay có thời gian khới hành sớm hơn 5 phút
Med = -2: 50% chuyến bay có thời gian khới hành sớm hơn 2 phút
Q3 = 0: 75% chuyến bay có thời gian khới hành sớm hơn thời gian dự kiến bay
Đối với hãng hàng không AS:
Min = -15: Thời gian khới hành sớm nhất là: 15 phút
Max = 12: Thời gian khới hành trễ nhất là: 12 phút
Q, = —5: 25% chuyén bay có thời gian khới hành sớm hơn 5 phút
Med = -2.5554: 50% chuyến bay có thời gian khởi hành sớm hơn 2.5554 phút
Q3 = —1: 75% chuyến bay có thời gian khới hành sớm hơn 1 phút
Đối với hãng hàng không B6:
Mim = -20: Thời gian khới hành sớm nhất là: 20 phút
Max = 29: Thời gian khởi hành trễ nhất là: 29 phút
Q, = —6: 25% chuyến bay có thời gian khới hành sớm hơn 6 phút
Med = -2: 50% chuyến bay có thời gian khới hành sớm hơn 2 phút
Qs = 1: 75% chuyến bay có thời gian khới hành trễ hơn 1 phút
Doi v6i hang hang khéng DL:
Min = -15: Thời gian khới hành sớm nhất là: 15 phút
Max = 16: Thời gian khởi hành trễ nhất là: 16 phút
Q = —4: 25% chuyến bay có thời gian khới hành sớm hơn 4 phút
Med = -2: 50% chuyến bay có thời gian khới hành sớm hơn 2 phút
Q3 = 0: 75% chuyén bay có thời gian khới hành sớm hơn thời gian dự kiến bay
Đối với hãng hàng không E9:
Mim = -20: Thời gian khới hành sớm nhất là: 20 phút
Max = 36: Thời gian khởi hành trễ nhất là: 36 phút
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 14/ 43
Trang 15BK: £ x
63 Đại học quốc gia tp Hỗ Chí Minh
Qì = —6: 25% chuyến bay có thời gian khới hành sớm hơn 6 phút
Med = -2: 50% chuyến bay có thời gian khới hành sớm hơn 2 phút
Q3 = 4: 75% chuyến bay có thời gian khới hành trễ hơn 4 phút
Đối với hãng hàng không HA:
Mim = -16: Thời gian khới hành sớm nhất là: 16 phút
Max = 8: Thời gian khới hành trễ nhất là: 8 phút
Qì = —7: 25% chuyến bay có thời gian khới hành sớm hơn 7 phút
Med = -4.4990: 50% chuyến bay có thời gian khởi hành sớm hơn 4.4990 phút
Q3 = —2: 75% chuyén bay có thời gian khới hành sớm hơn 2 phút
Đối với hãng hàng không OO:
Min = -15: Thời gian khới hành sớm nhất là: 15 phút
Max = 9: Thời gian khới hành trễ nhất là: 9 phút
Q, = —6: 25% chuyến bay có thời gian khới hành sớm hơn 6 phút
Med = -4.1570: 50% chuyến bay có thời gian khởi hành sớm hơn 4.1570 phút
Q3 = —2: 75% chuyến bay có thời gian khới hành sớm hơn 2 phút
Đối với hãng hàng không UA: Min = -19: Thời gian khới hành sớm nhất là: 19 phút
Max = 27: Thời gian khởi hành trễ nhất là: 27 phút
Q, = —5: 25% chuyén bay có thời gian khới hành sớm hơn 5 phút
Med = -1: 50% chuyến bay có thời gian khới hành sớm hơn 1 phút
Qs = 2: 75% chuyến bay có thời gian khới hành trễ hơn 3 phút
Đi với hãng hàng không US:
Min = -15: Thời gian khới hành sớm nhất là: 15 phút
Max = 11: Thời gian khới hành trễ nhất là: 11 phút
Q, = —6: 25% chuyến bay có thời gian khới hành sớm hơn 6 phút
Med = -3: 50% chuyến bay có thời gian khởi hành sớm hơn 3 phút
Q3 = —1: 75% chuyến bay có thời gian khới hành sớm hơn 1 phút
Đối với hãng hàng không VX:
Min = -17: Thời gian khới hành sớm nhất là: 17 phút
Max = 15: Thời gian khởi hành trễ nhất là: 15 phút
Q, = —5: 25% chuyén bay có thời gian khới hành sớm hơn 5 phút
Med = -2.6258: 50% chuyến bay có thời gian khởi hành sớm hơn 2.6258 phút
Q3 = —1: 75% chuyến bay có thời gian khởi hành sớm 1 phút
Đối với hãng hàng không WN:
Min = -11: Thời gian khởi hành sớm nhất là: 11 phút
Max = 4õ: Thời gian khởi hành trễ nhất là: 45 phút
Q = —2: 25% chuyến bay có thời gian khởi hành sớm hơn 2 phút
Med = 2: 50% chuyến bay có thời gian khới hành trễ hơn 2 phút
Q3 = 11: 75% chuyến bay có thời gian khới hành trễ hơn 11 phút
3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay giữa các hãng bay
Ta sẽ sử dụng anova để kiểm định rằng liệu có sự khác biệt về việc lệch giờ bay trung bình giữa các hãng hàng không đối với các chuyến bay khởi hành từ Seattle trong năm 2014 hay không
Code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Seattle trong năm 2014:
SEA = subset(new_flights,new_flights$origin =="5EA")
#loc cac chuyen bay khoi hanh tu Portland
head(SEA, 3)
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 15/ 43
Trang 16EK £ x
s3» Đại học quốc gia tp Hỗ Chí Minh
year month day carrier origin dest dep_ti
Giải thích tại cho việc sử dụng ANOVA một nhãn tố:
Dể thực hiện so sánh trung bình của nhiều nhóm, phương pháp tối ưa nhất là dùng phan tích phương sai Do
ta có 11 hãng hàng không có chuyến bay khới hành từ Seattle trong năm 2014 Nếu chỉ so sánh 2 trung bình của 2 nhóm, ta có thể dùng t-test Vì vậy nếu dùng t-test cho bài toán này, ta phải thực hiện kiểm định rất nhiều lần Phương pháp phân tích phương sai cho ta kết luận sự bằng nhau hoặc khác nhau giữa các nhóm so sánh thông qua một phép kiểm định duy nhất
Total SST n-1
Dat gia thuyét:
- Giả thuyết Hạ: po, = fo = = pr , Viéc lệch giờ bay trung bình giữa các hãng hàng không bằng nhau
- Dối thuyết H1: Ima; = Sima; với (¡ # j), Có ít nhất 2 hãng hàng không có việc lệch giờ bay trung bình khác nhau ` - -
Các giả định cần kiêm tra trong ANOVA một nhân tô:
+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ
Seattle tuân theo phãn phối chuẩn
+ Tính đồng nhất của các phương sai: Phương sai việc lệch giờ bay ở các hãng hàng không đối với các chuyền
bay khới hành từ Seattle bằng nhau
Kiểm tra giả định phân phối chuẩn:
Giả thuyết Hạ: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khới hành từ Seattle tuân theo
phân phối chuẩn
Giả thuyết HH: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khới hành từ Seattle không
tuân theo phân phối chuẩn
Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_ delay ở hãng hàng không AA:
Trang 17* Đại học quốc gia tp Hồ Ghí Minh
Trang 19
ws) Đại học quốc gia tp Hồ Ghí Minh
Trang 20
Trang 20/ 43
Trang 215 Đại học quốc gia tp Hồ Ghí Minh
Code R va két qua khi kiểm định giả định phãn phối chuẩn cho biến dep_ delay ở hãng hàng không HÀ:
HA_SEA = subset (SEA,SEA$carrier =="HA")