Lưu ý: nếu giả định tổng thể có phân phối chuẩn với phương sai bằng nhau không đáp ứng được thì bạn có thể dùng kiển định phi tham số Kruskal-Wallis sẽ để thay thế cho ANOVA... - Đại học
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
BK TP.HCM
BAO CAO BAI TAP LON - XAC XUAT THONG KE
Trang 2s3» Đại học quốc gia tp Hồ Chí Minh
23 Hồ Quy Tuyến Tính
23.1 Lý thuyết hỗ quy tuyến tính đơn
3 Thực Hiện 8
3.1 Cài đặt thư viện "
3.2 Đọc dữ liệu (Import Data)
3.3 Làm sạch dữ liệu ( Data Cleaning)
3.3.1 Kiểm tra cấu trúc dữ liệu
3.3.2 Kiểm tra dữ liệu khuyết NA
33.3 Xử lí dữ liệu NA :
3.4 Lam ré dé liéu (Data Visualization) So cv x v
3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc - lệch giờ ‘bay | giữa các c hãng bay ụ-
3.6 Mô hình h quy tuyến tính
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 2/ 43
Trang 3- Đại học quốc gia tp Hồ Chí Minh
nhân gây ra sự khởi hành trễ hoặc hoãn các chuyến bay Chi tiết về bộ dữ liệu như sau:
Các biến chính trong bộ dữ liệu:
1 year, month, day: ngày khởi hành của mỗi chuyến bay
N carrier: tên của hãng hàng không, được mã hóa bang 2 chi? cdi in hoa Vi du: UA = United Air Lines,
AA = American Airlines, DL = Delta Airlines, v.v
3 origin va dest tên sân bay đi và đến Đối với sân bay di, ta chi cd hai gid ti SEA (Seattle) va PDX (Portland)
4 dep_time va arr_time: thoi gian cất cánh và hạ cánh (theo lịch dự kiến)
5 dep delay và arr time: chênh lệch (phú) giữa thời gian cất cánh/hạ cánh thực tế với thởi gian cất
canh/ha cánh in trong vé
6 distance: khoảng cách giữa hai sân bay (dặm)
Các bước thực hiện:
1 Đọc dữ liệu (Import data): flight.rda
2 Làm sạch dữ liệu (Data cleaning) NA (dữ liệu khuyết)
3 Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep delay) giữa các hãng bay
5 Mô hình hồ quy tuyến tính: Sử dụng một mô hình h' quy phù hợp để phân tích các yếu tố ảnh hưởng
đến việc lệch giờ đế (ar_time) của các chuyến bay
1.2 Hoạt động 2
Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng
dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho đữ liệu cung cấp trong
tap tin "kho du _lieu_BTL_ xstk.xIsx"
Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng
phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualizaton) và mô hình dữ liéu (model fitting)
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 3/ 43
Trang 4- Đại học quốc gia tp Hồ Chí Minh
Thống kê được chia thành hai lĩnh vực:
s Thống kê mô tả: bao gần các phương pháp thu thập số liệu, tính toán các đặc trưng đo lưởng, mô tả va trình bày số liệu
« Thống kê suy dién: bao g@m các phương pháp như ước lượng, kiểm định, phân tích mối liên hệ, dự
đoán trên cơ sở các thông tin thu thập từ mẫu giúp ta có những hiểu biết về tổng thể
2.143 Ứng dụng
Thống kê hiện nay đã được ứng dụng vào mọi lĩnh vực:
* Lĩnh vực kinh tế - xã hội tự nhiên, kỹ thuật, thống kê thưởng quan tâm nghiên cứu các hiện tượng
* Về dân số, nguồn lao động
© Về tâm lý, giáo dục, thể thao, y tế
* Về sinh hoạt chính trị, xã hội
« VỀ kỹ thuật
s Thời tiết, dự báo bão
2.2 ANOVA Một Nhân Tố
2.2.1 Định Nghĩa
ANOVA một nhân tố hay one-way ANOVA là phương pháp so sánh trung bình của hai hay nhiêi mẫu độc
lập để xác định xem các mẫu có độ tương quan với nhau hay không với khả năng sai lần là 5%
Ví dụ: Phân tích sự khác biệt giữa các thuộc tính khách hàng (giới tính, tuổi, nghề nghiệp, thu nhập ) đối
với l vấn đề nào đó (thưởng chọn là nhân tố phụ thuộc, vd: sự hài lòng)
Một số giả định khi phân tích ANOVA:
— Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên
— Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn
— Phương sai của các nhóm so sánh phải đồng nhất
Lưu ý: nếu giả định tổng thể có phân phối chuẩn với phương sai bằng nhau không đáp ứng được thì bạn có thể dùng kiển định phi tham số Kruskal-Wallis sẽ để thay thế cho ANOVA
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 4/ 43
Trang 5- Đại học quốc gia tp Hồ Chí Minh
2.2.2 Các bước phân tích ANOVA một nhân tố
Bước 1 : Kiểm định phương sai đồng nhất
Levene test: dùng kiểm định phương sai bằng nhau hay không giữa các nhóm
Giả thiết Ho: “Phương sai bằng nhau”
Sig <= 0.05: bác bỏ Ho
Sig >0.05: chấp nhận Ho -> đủ dia kiện để phân tích tiếp ANOVA
Bước 2 : Kiểm định ANOVA
Giả thiết Ho: “Trung bình bằng nhaư” `
Sig <=0.05: bác bỏ Ho -> đủ điềâi kiện để kháng định có sự khác biệt giữa các nhóm đối với biến phụ thuộc Sig >0.05: chấp nhận Ho -> chưa đủ điềi kiện để khẳng định có sự khác biệt giữa các nhóm đối với biến phụ thuộc
Khi có sự khác biệt thì có thể phân tích sâu hơn để tìm ra sự khác biệt như thế nào giữa các nhóm quan sát bằng các kiểm định Tukey, LSD, Bonferroni, Duncan như hình dưới Kiểm định sâu anova gọi là kiểm định Post-Hoc
23 Hã Quy Tuyến Tính
23.1 Lý thuyết hồ quy tuyến tính đơn
Định nghĩa hỗ quy: Hàm hồ quy của Y theo X là kỳ vọng có điềầi kiện của Y đối với X, tức là E(YIX) Xét hàm hì quy tuyến tính đơn có dạng:
fy(X)=aX +b Giả sử ta có một mẫu ngẫu nhiên kích thước n thu được khi quan sát (Y, X) là:
(Y¡, X)=ƠYi, XI).ÔY¿, X2) CYn, Xn)
Khi đó chúng ta có thể viết: fy ;(X;)=E(Y;/X;) =aX; + b
Hay:
Y, =aX,+b+U; i=l1,n
(mô hinh h@ quy tuyến tính đơn)
Trong đó U¡ là các sai số ngẫu nhiên và giả thiết rằng chúng độc lập với nhau, cùng tuân theo quy luật phân phối chuẩn N(0, ở?)
Tìm các hệ số â, b của đường hồ quy tuyến tính mẫu Giả sử ta có một mẫu cụ thể {(x;, y¡)}:i =l,2, ,n
oa = y — bx
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 5/ 43
Trang 6K
re Dai hoc quốc gia tp Hồ Chí Minh
Đánh giá các sai số của ước lượng và tính phù hợp (hay đúng đấn) của hàm hồ quy
n SST =X (y,-y)? =SSE +SSR isl
SST đo mức biến động các giá trị của Y xung quanh giá trị trung bình của nó
SSR là sai số do khác biệt giữa đường hồ quy mẫu và trung bình của Y Sự khác biệt này được giải thích bởi
sự biến động của X
SSE được xem như sai sế do những yếu tố khác ngoài X hoặc do lấy mẫu ngẫu nhiên
Kiểm định sự phù hợp của hàm hồ quy tuyến tính don:
Giả thiết Ho: R?=0; H,:R*O=0 hoặc Hạ:b=0; HI:b[=0
â số xác đi 2 2_—
Hệ số xác định R“: Rˆ= ha ¬ | _ SSE
Hệ số RỂ giải thích trong 100% sựSWẩn động của Y so với 6b bình của nó thì có bao nhiêu % là do biến X
gây ra
Trong mô hình h quy tuyến tính đơn, R2 sự (txy: hệ số tương quan)
Sai số chuẩn của ước lượng:
Nếu ơ2 chưa biết thì ta dùng ước lượng không chệch của nó làớ?
r XS 2 2 ` SSE
Sai số chuẩn của ước lượng lad = n—2
Tìm khoảng tin cậy cho các hệ số a, b của hàm hồ quy tuyến tính đơn Các hệ số a, b trong mô
hình lý thuyết f(x)=a+bX có a, b lànhững ước lượng tương ứng Khoảng tổn cậy của a, b lần lượt được xác
6x ,— SSEx?
Eạ = tuạ(n— 2) V =t„a(n-2) Pp
Sx 0 Sx n(n — 2) Kiểm định giả thiết về giá trị của các hệ số a, b
* Giả thiết Ho: b=bo; Hị:bEbạ
Tiêu chuẩn kiểm định: T = $=
—S3E —
S:nn —2)
Mit bac bd: We =(-%3-ty(n — 2))u (t(n — 2);+©))
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 6/ 43
Trang 7Đại học quốc gia tp Hồ Chí Minh
Mi3® bác bỏ: We, =(-;-te(n — 2))u (ty (n — 2);+0))
Dự đoán các giá trị của Y theo X Dự báo giá trị trung bình của Y khi X =xo
Trang 8Đại học quốc gia tp Hồ Chí Minh
€
3 Thực Hiện
Một thư viện muốn được khai báo để sử dụng trong R trước hết phải được cài đặt
Cú pháp :
Install.packages("ten_thu_ vien")
Để sử dụng thư viện đã cài đặt ta dùng câu lệnh :
library("ten_thu_ vien")
Một số thư viện được sử dụng trong bài lần này :
Tidyverse : thư viện tổng hợp một số thu vién ggplot2, tibble, stringr, readr, dplyr, tidyr, purrr, forcats
3.2 Doc di liéu (Import Data)
Trước khi đọc dữ liệu ta cần tải file về và lưu vào thư mục r lấy đường dẫn đến thư mục đó để chuẩn bị cho
bước tiếp theo
Sử dụng lệnh loadQ
Cú pháp : load("Dia_Chi_Duong_Dan_Den_File")
Thực hiện đọc dữ liệu : load("C:/Program Files/R/R-4.1.1/my doc/flights.rda")
Ở phần Environment hiện ra fñle bên dưới
Environment History Connections Tutorial
=? Go impor ~ &Ồ 352MiB~x | List ~
R + ¬1 Global Environment + Data
® flights 162049 obs of 16 variables 3.3 Làm sạch dữ liệu ( Data Cleaning)
33.1 Kiểm tra cấu trúc dữ liệu
Dữ liệu có thể chứa những thông tin lỗi ví dụ ở cột "year" có thể chứa các kí tự chữ không phù hợp Vậy nên chúng ta cần kiểm tra thông tin kiểu dữ liệu của từng cột bằng lệnh :
Trang 9` Đại học quốc gia tp Hồ Chí Minh
$ carrier : chr [1:162049] "as" "us" "UA" "US" LL
$ tailnum : chr [1:162049] "N508AS" "N195UW" "N37422" "N547UW"
3.3.2 Kiểm tra dữ liệu khuyết NA
Chúng ta không thể làm việc với dữ liệu Na
Na để xử lí
Dùng lệnh summary(Q)
Thực hiện:
summary(flights)
vì chúng không chứa thông tin gì vì vậy phải tìm được các giá trị
Ist Qu.: 831 ist Qu -5.000 ist Qu.:1127 Median :1217 Median : -2.000 Median :1517
Max : 2400 NAS E88 31553.000
arr_de lay er d u
m Length: 162049
Min : -67.000 Length:162049 Ist Qu.: -12.000 Class :character Class :character Median : -4.000 Mode :character Mode :character
Trang 10Vì dữ liệu Na khá nhiềầ¡ nên ta sẽ thay thế các giá trị NA này thành giá trị trung vi
Ở đây ta sẽ thế các giá trị NA của dep time làm mẫu các cột khác làm tương tự
Sử dụng câu lệnh:
flightsSdep_time[is.na(flightsSdep_time)] <- median(fights$dep_time, narm = TRUE)
Lúc này cái giá trị Na của cột dep time đã bị thay thế bởi giá trị trung vị Kiểm tra lại bằng lệnh summary
thấy cột dep time không còn chứa giá trị Na
dep_time
1st Qu.: 832 Median :1217 Mean :1278 3rd Qu.:1718 Max :2400
Làm tương tự cho các cột còn lại
dep_ de] ay M1n : -37.000 Ist Qu.: -5.000 Median : -2.000
3rd Qu.: 5.000 Max :1553.000 NA'S 7857
arr_time
lst Qu.:1127 Median :1517 Mean :1483 3rd Qu.:1918 Max :2400 NA” s :988
flights$dep_delay[is.na(flights$dep_delay)] <- median(flights$dep_delay, narm = TRUE)
flightsSarr_time[is.na(flightsSarr_time)] <- median(fights$arr time, narm = TRUE)
flightsSarr_delay[is.na(flights$arr_delay)] <- median(flights$arr_delay, na.rm = TRUE)
flightsSair_time[is.na(flights$air_time)] <- median(flightsS$air_time, na.rm = TRUE)
flightsShour[is.na(flights$hour)] <- median(fñights$hour, narm = TRUE)
flightsSminute[is.na(flights$minute)] <- median(fights$minute, narm = TRUE)
Trang 11>a Dai hoc quốc gia tp Hồ Chí Minh
3.4 Làm rõ dữ liệu (Data Visualization)
Tính các giá trị thống kê mô tả ( kích thước mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ phân vị, trung vị ) của chênh lệch giữa thởi gian cất cánh/ha cánh thực tế và thời gian cất cánh/ hạ cánh đặt trước ( biến dep delay ) của từng hãng hàng không ( carrier )
length = tapply(flights$dep_delay,flights$carrier,length)
Ta có kết quả như sau:
length mean sd min max Ql median Q3
AA 7586 10.484709 51.76057 -18 1553 -5 -2 7
AS 62460 2.776273 20.43251 -25 866 -5 -2 2 B6 3540 8.344633 31.44839 -20 365 -6 -2 8
DL 16716 4.805695 29.34197 -19 886 -4 -2 4 r9 2698 10.111935 40.92726 -20 815 -6 -2 11
Sau đó, vẽ biểu đồ boxplot để thể hiện phân phối của biến dep delay cho từng hãng hàng không
boxplot(dep_delay~carrier,data = flights.xlab="Carrier".ylab="Dep_ delay",
main = "Boxplot of dep_delay for a category of carrier”)
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 11/ 43
Trang 12Đại học quốc gia tp Hồ Chí Minh
Ý tưởng: Ta sẽ chuyển các outliers thành dạng NA và sau đó sẽ thay thế các oudiers thành giá trị trung bình của hãng hàng không tương ứng Trước tiên, ta sẽ tạo hàm nhận biết các outliers và biến chúng thành dạng
#Tach cac giá trị thuộc hãng AA và lưu vào AA
AASdep_ delay=rm(AASdep_ delay)
#Thay thế các outliers thành dạng NA
AASdep_ delay[is.na(AASdep_ delay)]<-mean(AA$dep_ delay,na.rm=T)
#Thay thế các giá trị NA thành giá trị trung bình
HASdep_ delay=rm(HASdep_ delay)
HASdep_ delay[is.na(HASdep_ delay)]<-mean(HASdep_ delay,na.rm=T)
OO=subset(fli ghts flights$carrier=="00")
OOSdep_ delay=rm(OO$dep_ delay)
OOSdep_ delay[is.na(OOSdep_ delay)]<-mean(OOSdep_ delay,na.rm=T)
UA=subset(flights.flights%carrier==”UA")
UASdep_ delay=rm(UA$dep_ delay)
UASdep_ delay[is.na(UASdep_ delay)]<-mean(UASdep_ delay,na.rm=T)
Trang 13Đại học quốc gia tp Hồ Chí Minh
'WNSdep_ delay=rm(WNSdep_ delay)
WNSdep_ delay[is.na(WNSdep_ delay)]<-mean(WNSdep_ delay,na.rm=T)
Sau khi đã thay thế xong, ta sẽ gộp các hãng lại với nhau tạo thanh 1 mau hoàn chỉnh
new_flights<-rbind(AA,AS B6,DL,F9,HA,OO,UA,US,VX,WN)
boxplot(dep_ delay~carrier,data = new_ flights,xlab="Carrier",ylab="Dep_ delay",
main = "Boxplot of dep_delay for a category of carrier",col="orange")
Và sau khi đã chuyển đổi, ta có các kết quả sau:
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 13/ 43
Trang 14Đại học quốc gia tp Hồ Chí Minh
Nhân xét: Các giá trị của biến dep_delay của từng hãng hàng không lúc này đã gần nhau hơn và biểu đồ đã
thể hiện rõ hơn về các thông số min, max, điểm phân vị Từ đó ta có thể có những nhận xét chính xác hơn
về sự khác nhau giữa các hãng hàng không
Cụ thể:
Đối với hãng hàng không AA:
Min = -1I8: Thơi gian khởi hành sớm nhất là: 18 phút
Max = 25: Thời gian khởi hành trễ nhất là: 25 phút
Qị¡= > 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút
Med = -2: 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút
Q; =0: 75% chuyến bay có thời gian khởi hành sớm hơn thời gian dự kiến bay
Đối với hãng hàng không AS:
Min = -l5: Thời gian khởi hành sớm nhất là: 15 phút
Max = 12: Thời gian khởi hành trễ nhất là: 12 phút
Q, =-5: 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút
Med = -2.5554: 50% chuyến bay có thơi gian khởi hành sớm hơn 2.5554 phút
Q3 =-1: 75% chuyến bay có thời gian khởi hành sớm hơn l phút
Đối với hãng hàng không B6:
Min = -20: Thời gian khởi hành sớm nhất là: 20 phút
Max = 29: Thời gian khởi hành trễ nhất là: 29 phút
Q, =-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút
Med = -2: 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút
Q; =1: 75% chuyến bay có thời gian khởi hành trễ hơn 1 phút
Đối với hãng hàng không DL:
Min = -l5: Thời gian khởi hành sớm nhất là: 15 phút
Max = 16: Thời gian khởi hành trễ nhất là: 16 phút
Q, =-4 25% chuyến bay có thời gian khởi hành sớm hơn 4 phút
Med = -2: 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút
Q; =0: 75% chuyến bay có thơi gian khởi hành sớm hơn thời gian dự kiến bay
Đối với hãng hàng không E9:
Min = -20: Thời gian khởi hành sớm nhất là: 20 phút
Max = 36: Thời gian khởi hành trễ nhất là: 36 phút
Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 14/ 43
Trang 15- Đại học quốc gia tp Hồ Chí Minh
m =-6: 25% chuyến bay có thơi gian khởi hành sớm hơn 6 phút
ed = -2: 50% chuyến bay có thơi gian khởi hành sớm hơn 2 phút
Q; =4: 75% chuyến bay có thoi gian khởi hành trễ hơn 4 phút
Đối với hãng hàng không HA:
Min = -16: Thoi gian khởi hành sớm nhất là: 16 phút
Max = 8: Thời gian khởi hành trễ nhất là: 8 phút
1=-7: 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút
Med = -4.4990: 50% chuyến bay có thơi gian khởi hành sớm hơn 4.4990 phút
Q3 =-2: 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút
Đối với hãng hàng không OO:
Min = -l5: Thời gian khởi hành sớm nhất là: 15 phút
Max = 9: Thời gian khởi hành trễ nhất là: 9 phút
¡=-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút
Med = -4.1570: 50% chuyến bay có thởi gian khởi hành sớm hơn 4.1570 phút
Q3 =-2: 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút
Đối với hãng hàng không UA: Min = -19: Thời gian khởi hành sớm nhất là: 19 phút
Max = 27: Thời gian khởi hành trễ nhất là: 27 phút
¡ =5: 25% chuyến bay có thởi gian khởi hành sớm hơn 5 phút
Med = -1: 50% chuyến bay có thời gian khởi hành sớm hơn l phút
Q; =2: 75% chuyến bay có thời gian khởi hành trễ hơn 2 phút
Đối với hãng hàng không US:
Min = -l5: Thời gian khởi hành sớm nhất là: 15 phút
Max = 11: Thoi gian khởi hành trễ nhất là: 11 phút
Q, =-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút
Med = -3: 50% chuyến bay có thời gian khởi hành sớm hơn 3 phút
Q3 =-1: 75% chuyến bay có thời gian khởi hành sớm hơn l phút
Đối với hãng hàng không VX:
Min = -17: Thoi gian khởi hành sớm nhất là: 17 phút
Max = 15: Thời gian khởi hành trễ nhất là: 15 phút
Q, =-5: 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút
Med = -2.6258: 50% chuyến bay có thơi gian khởi hành sớm hơn 2.6258 phút
Q3 =-1: 75% chuyến bay có thời gian khởi hành sớm I phút
Đối với hãng hàng không WN:
Min = -11: Thoi gian khởi hành sớm nhất là: l1 phút
Max = 45: Thời gian khởi hành trễ nhất là: 45 phút
Q¡=-2: 25% chuyến bay có thơi gian khởi hành sớm hơn 2 phút
Q3 =11: 75% chuyến bay có thời gian khởi hành trễ hơn II phút
3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay giữa các
#loc cac chuyen bay khoi hanh tu Portland
Trang 16Đại học quốc gia tp Hồ Chí Minh
Giải thích tại cho việc sử dụng ANOVA một nhân tố:
Để thực hiện so sánh trung bình của nhiềi nhóm, phương pháp tối ưu nhất là dùng phân tích phương sai Do
ta có l1 hãng hàng không có chuyến bay khởi hành từ Seatle trong năm 2014 Nếu chỉ so sánh 2 trung bình
của 2 nhóm, ta có thể dùng test Vì vậy nếu dùng ttest cho bài toán này, ta phải thực hiện kiểm định rất
nhỉ i Lần Phương pháp phân tích phương sai cho ta kết luận sự bằng nhau hoặc khác nhau giữa các nhóm so
sánh thông qua một phép kiểm định duy nhất
Bang anova của l nhân tố
Dat gia thuyét:
- Giả thuyét Ho: 4, =f = =",, Viée lệch giờ bay trung bình giữa các hãng hàng không bằng nhau
“et thuyết HI: 3mu¡ = 3mu; với (EEj), Có ít nhất 2 hãng hàng không có việc lệch giờ bay trung bình khác
nhau
Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các
Seattle tuan theo phân phối chuẩn
+ Tính đồng nhất của các phương sai: Phương sai việc
bay khởi hành từ Seattle bằng nhau
Kiểm tra giả định phân phối chuẩn:
Giả thuyết Họ: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Seatde tuân theo
hãng hàng không đối với các chuyến bay khởi hành từ lệch giờ bay ở các hãng hàng không đối với các chuyến
phân phối chuẩn
Giả thuyết Hị: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Seattle không tuân theo phân phối chuẩn
Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep delay ở hãng hàng không AA:
AA_SEA = subset(SEA,SEA$carrier =="AA")
Trang 17>a Dai hoc quốc gia tp Hồ Chí Minh
AS_SEA = subset(SEA,SEAScarrier =="AS")
Trang 18>a Dai hoc quốc gia tp Hồ Chí Minh
Trang 19>a Dai hoc quốc gia tp Hồ Chí Minh
Trang 20>a Dai hoc quốc gia tp Hồ Chí Minh
Trang 21>a Dai hoc quốc gia tp Hồ Chí Minh
HA_SEA = subset(SEA,SEAScarrier =="HA")