1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo bài tập lớn xác xuất thống kê Đề tài 4

43 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Danh Sách Các Thành Viên
Tác giả Nguyễn Hoàng, Dương Đức, Nguyễn Ngọc, Mai Tấn Phong, Thanh Nghĩa Trọng, Minh Quân
Người hướng dẫn Trưởng Đại Học Bách Khoa
Trường học Đại Học Bách Khoa - Đại Học Quốc Gia TP.HCM
Chuyên ngành Xác Suất Thống Kê
Thể loại Bài Tập Lớn
Năm xuất bản 2022
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 43
Dung lượng 5,8 MB

Nội dung

Lưu ý: nếu giả định tổng thể có phân phối chuẩn với phương sai bằng nhau không đáp ứng được thì bạn có thể dùng kiển định phi tham số Kruskal-Wallis sẽ để thay thế cho ANOVA... - Đại học

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

BK TP.HCM

BAO CAO BAI TAP LON - XAC XUAT THONG KE

Trang 2

s3» Đại học quốc gia tp Hồ Chí Minh

23 Hồ Quy Tuyến Tính

23.1 Lý thuyết hỗ quy tuyến tính đơn

3 Thực Hiện 8

3.1 Cài đặt thư viện "

3.2 Đọc dữ liệu (Import Data)

3.3 Làm sạch dữ liệu ( Data Cleaning)

3.3.1 Kiểm tra cấu trúc dữ liệu

3.3.2 Kiểm tra dữ liệu khuyết NA

33.3 Xử lí dữ liệu NA :

3.4 Lam ré dé liéu (Data Visualization) So cv x v

3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc - lệch giờ ‘bay | giữa các c hãng bay ụ-

3.6 Mô hình h quy tuyến tính

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 2/ 43

Trang 3

- Đại học quốc gia tp Hồ Chí Minh

nhân gây ra sự khởi hành trễ hoặc hoãn các chuyến bay Chi tiết về bộ dữ liệu như sau:

Các biến chính trong bộ dữ liệu:

1 year, month, day: ngày khởi hành của mỗi chuyến bay

N carrier: tên của hãng hàng không, được mã hóa bang 2 chi? cdi in hoa Vi du: UA = United Air Lines,

AA = American Airlines, DL = Delta Airlines, v.v

3 origin va dest tên sân bay đi và đến Đối với sân bay di, ta chi cd hai gid ti SEA (Seattle) va PDX (Portland)

4 dep_time va arr_time: thoi gian cất cánh và hạ cánh (theo lịch dự kiến)

5 dep delay và arr time: chênh lệch (phú) giữa thời gian cất cánh/hạ cánh thực tế với thởi gian cất

canh/ha cánh in trong vé

6 distance: khoảng cách giữa hai sân bay (dặm)

Các bước thực hiện:

1 Đọc dữ liệu (Import data): flight.rda

2 Làm sạch dữ liệu (Data cleaning) NA (dữ liệu khuyết)

3 Làm rõ dữ liệu: (Data visualization)

(a) Chuyển đổi biến (nếu cần thiết)

(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep delay) giữa các hãng bay

5 Mô hình hồ quy tuyến tính: Sử dụng một mô hình h' quy phù hợp để phân tích các yếu tố ảnh hưởng

đến việc lệch giờ đế (ar_time) của các chuyến bay

1.2 Hoạt động 2

Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng

dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho đữ liệu cung cấp trong

tap tin "kho du _lieu_BTL_ xstk.xIsx"

Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng

phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualizaton) và mô hình dữ liéu (model fitting)

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 3/ 43

Trang 4

- Đại học quốc gia tp Hồ Chí Minh

Thống kê được chia thành hai lĩnh vực:

s Thống kê mô tả: bao gần các phương pháp thu thập số liệu, tính toán các đặc trưng đo lưởng, mô tả va trình bày số liệu

« Thống kê suy dién: bao g@m các phương pháp như ước lượng, kiểm định, phân tích mối liên hệ, dự

đoán trên cơ sở các thông tin thu thập từ mẫu giúp ta có những hiểu biết về tổng thể

2.143 Ứng dụng

Thống kê hiện nay đã được ứng dụng vào mọi lĩnh vực:

* Lĩnh vực kinh tế - xã hội tự nhiên, kỹ thuật, thống kê thưởng quan tâm nghiên cứu các hiện tượng

* Về dân số, nguồn lao động

© Về tâm lý, giáo dục, thể thao, y tế

* Về sinh hoạt chính trị, xã hội

« VỀ kỹ thuật

s Thời tiết, dự báo bão

2.2 ANOVA Một Nhân Tố

2.2.1 Định Nghĩa

ANOVA một nhân tố hay one-way ANOVA là phương pháp so sánh trung bình của hai hay nhiêi mẫu độc

lập để xác định xem các mẫu có độ tương quan với nhau hay không với khả năng sai lần là 5%

Ví dụ: Phân tích sự khác biệt giữa các thuộc tính khách hàng (giới tính, tuổi, nghề nghiệp, thu nhập ) đối

với l vấn đề nào đó (thưởng chọn là nhân tố phụ thuộc, vd: sự hài lòng)

Một số giả định khi phân tích ANOVA:

— Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên

— Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn

— Phương sai của các nhóm so sánh phải đồng nhất

Lưu ý: nếu giả định tổng thể có phân phối chuẩn với phương sai bằng nhau không đáp ứng được thì bạn có thể dùng kiển định phi tham số Kruskal-Wallis sẽ để thay thế cho ANOVA

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 4/ 43

Trang 5

- Đại học quốc gia tp Hồ Chí Minh

2.2.2 Các bước phân tích ANOVA một nhân tố

Bước 1 : Kiểm định phương sai đồng nhất

Levene test: dùng kiểm định phương sai bằng nhau hay không giữa các nhóm

Giả thiết Ho: “Phương sai bằng nhau”

Sig <= 0.05: bác bỏ Ho

Sig >0.05: chấp nhận Ho -> đủ dia kiện để phân tích tiếp ANOVA

Bước 2 : Kiểm định ANOVA

Giả thiết Ho: “Trung bình bằng nhaư” `

Sig <=0.05: bác bỏ Ho -> đủ điềâi kiện để kháng định có sự khác biệt giữa các nhóm đối với biến phụ thuộc Sig >0.05: chấp nhận Ho -> chưa đủ điềi kiện để khẳng định có sự khác biệt giữa các nhóm đối với biến phụ thuộc

Khi có sự khác biệt thì có thể phân tích sâu hơn để tìm ra sự khác biệt như thế nào giữa các nhóm quan sát bằng các kiểm định Tukey, LSD, Bonferroni, Duncan như hình dưới Kiểm định sâu anova gọi là kiểm định Post-Hoc

23 Hã Quy Tuyến Tính

23.1 Lý thuyết hồ quy tuyến tính đơn

Định nghĩa hỗ quy: Hàm hồ quy của Y theo X là kỳ vọng có điềầi kiện của Y đối với X, tức là E(YIX) Xét hàm hì quy tuyến tính đơn có dạng:

fy(X)=aX +b Giả sử ta có một mẫu ngẫu nhiên kích thước n thu được khi quan sát (Y, X) là:

(Y¡, X)=ƠYi, XI).ÔY¿, X2) CYn, Xn)

Khi đó chúng ta có thể viết: fy ;(X;)=E(Y;/X;) =aX; + b

Hay:

Y, =aX,+b+U; i=l1,n

(mô hinh h@ quy tuyến tính đơn)

Trong đó U¡ là các sai số ngẫu nhiên và giả thiết rằng chúng độc lập với nhau, cùng tuân theo quy luật phân phối chuẩn N(0, ở?)

Tìm các hệ số â, b của đường hồ quy tuyến tính mẫu Giả sử ta có một mẫu cụ thể {(x;, y¡)}:i =l,2, ,n

oa = y — bx

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 5/ 43

Trang 6

K

re Dai hoc quốc gia tp Hồ Chí Minh

Đánh giá các sai số của ước lượng và tính phù hợp (hay đúng đấn) của hàm hồ quy

n SST =X (y,-y)? =SSE +SSR isl

SST đo mức biến động các giá trị của Y xung quanh giá trị trung bình của nó

SSR là sai số do khác biệt giữa đường hồ quy mẫu và trung bình của Y Sự khác biệt này được giải thích bởi

sự biến động của X

SSE được xem như sai sế do những yếu tố khác ngoài X hoặc do lấy mẫu ngẫu nhiên

Kiểm định sự phù hợp của hàm hồ quy tuyến tính don:

Giả thiết Ho: R?=0; H,:R*O=0 hoặc Hạ:b=0; HI:b[=0

â số xác đi 2 2_—

Hệ số xác định R“: Rˆ= ha ¬ | _ SSE

Hệ số RỂ giải thích trong 100% sựSWẩn động của Y so với 6b bình của nó thì có bao nhiêu % là do biến X

gây ra

Trong mô hình h quy tuyến tính đơn, R2 sự (txy: hệ số tương quan)

Sai số chuẩn của ước lượng:

Nếu ơ2 chưa biết thì ta dùng ước lượng không chệch của nó làớ?

r XS 2 2 ` SSE

Sai số chuẩn của ước lượng lad = n—2

Tìm khoảng tin cậy cho các hệ số a, b của hàm hồ quy tuyến tính đơn Các hệ số a, b trong mô

hình lý thuyết f(x)=a+bX có a, b lànhững ước lượng tương ứng Khoảng tổn cậy của a, b lần lượt được xác

6x ,— SSEx?

Eạ = tuạ(n— 2) V =t„a(n-2) Pp

Sx 0 Sx n(n — 2) Kiểm định giả thiết về giá trị của các hệ số a, b

* Giả thiết Ho: b=bo; Hị:bEbạ

Tiêu chuẩn kiểm định: T = $=

—S3E —

S:nn —2)

Mit bac bd: We =(-%3-ty(n — 2))u (t(n — 2);+©))

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 6/ 43

Trang 7

Đại học quốc gia tp Hồ Chí Minh

Mi3® bác bỏ: We, =(-;-te(n — 2))u (ty (n — 2);+0))

Dự đoán các giá trị của Y theo X Dự báo giá trị trung bình của Y khi X =xo

Trang 8

Đại học quốc gia tp Hồ Chí Minh

3 Thực Hiện

Một thư viện muốn được khai báo để sử dụng trong R trước hết phải được cài đặt

Cú pháp :

Install.packages("ten_thu_ vien")

Để sử dụng thư viện đã cài đặt ta dùng câu lệnh :

library("ten_thu_ vien")

Một số thư viện được sử dụng trong bài lần này :

Tidyverse : thư viện tổng hợp một số thu vién ggplot2, tibble, stringr, readr, dplyr, tidyr, purrr, forcats

3.2 Doc di liéu (Import Data)

Trước khi đọc dữ liệu ta cần tải file về và lưu vào thư mục r lấy đường dẫn đến thư mục đó để chuẩn bị cho

bước tiếp theo

Sử dụng lệnh loadQ

Cú pháp : load("Dia_Chi_Duong_Dan_Den_File")

Thực hiện đọc dữ liệu : load("C:/Program Files/R/R-4.1.1/my doc/flights.rda")

Ở phần Environment hiện ra fñle bên dưới

Environment History Connections Tutorial

=? Go impor ~ &Ồ 352MiB~x | List ~

R + ¬1 Global Environment + Data

® flights 162049 obs of 16 variables 3.3 Làm sạch dữ liệu ( Data Cleaning)

33.1 Kiểm tra cấu trúc dữ liệu

Dữ liệu có thể chứa những thông tin lỗi ví dụ ở cột "year" có thể chứa các kí tự chữ không phù hợp Vậy nên chúng ta cần kiểm tra thông tin kiểu dữ liệu của từng cột bằng lệnh :

Trang 9

` Đại học quốc gia tp Hồ Chí Minh

$ carrier : chr [1:162049] "as" "us" "UA" "US" LL

$ tailnum : chr [1:162049] "N508AS" "N195UW" "N37422" "N547UW"

3.3.2 Kiểm tra dữ liệu khuyết NA

Chúng ta không thể làm việc với dữ liệu Na

Na để xử lí

Dùng lệnh summary(Q)

Thực hiện:

summary(flights)

vì chúng không chứa thông tin gì vì vậy phải tìm được các giá trị

Ist Qu.: 831 ist Qu -5.000 ist Qu.:1127 Median :1217 Median : -2.000 Median :1517

Max : 2400 NAS E88 31553.000

arr_de lay er d u

m Length: 162049

Min : -67.000 Length:162049 Ist Qu.: -12.000 Class :character Class :character Median : -4.000 Mode :character Mode :character

Trang 10

Vì dữ liệu Na khá nhiềầ¡ nên ta sẽ thay thế các giá trị NA này thành giá trị trung vi

Ở đây ta sẽ thế các giá trị NA của dep time làm mẫu các cột khác làm tương tự

Sử dụng câu lệnh:

flightsSdep_time[is.na(flightsSdep_time)] <- median(fights$dep_time, narm = TRUE)

Lúc này cái giá trị Na của cột dep time đã bị thay thế bởi giá trị trung vị Kiểm tra lại bằng lệnh summary

thấy cột dep time không còn chứa giá trị Na

dep_time

1st Qu.: 832 Median :1217 Mean :1278 3rd Qu.:1718 Max :2400

Làm tương tự cho các cột còn lại

dep_ de] ay M1n : -37.000 Ist Qu.: -5.000 Median : -2.000

3rd Qu.: 5.000 Max :1553.000 NA'S 7857

arr_time

lst Qu.:1127 Median :1517 Mean :1483 3rd Qu.:1918 Max :2400 NA” s :988

flights$dep_delay[is.na(flights$dep_delay)] <- median(flights$dep_delay, narm = TRUE)

flightsSarr_time[is.na(flightsSarr_time)] <- median(fights$arr time, narm = TRUE)

flightsSarr_delay[is.na(flights$arr_delay)] <- median(flights$arr_delay, na.rm = TRUE)

flightsSair_time[is.na(flights$air_time)] <- median(flightsS$air_time, na.rm = TRUE)

flightsShour[is.na(flights$hour)] <- median(fñights$hour, narm = TRUE)

flightsSminute[is.na(flights$minute)] <- median(fights$minute, narm = TRUE)

Trang 11

>a Dai hoc quốc gia tp Hồ Chí Minh

3.4 Làm rõ dữ liệu (Data Visualization)

Tính các giá trị thống kê mô tả ( kích thước mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ phân vị, trung vị ) của chênh lệch giữa thởi gian cất cánh/ha cánh thực tế và thời gian cất cánh/ hạ cánh đặt trước ( biến dep delay ) của từng hãng hàng không ( carrier )

length = tapply(flights$dep_delay,flights$carrier,length)

Ta có kết quả như sau:

length mean sd min max Ql median Q3

AA 7586 10.484709 51.76057 -18 1553 -5 -2 7

AS 62460 2.776273 20.43251 -25 866 -5 -2 2 B6 3540 8.344633 31.44839 -20 365 -6 -2 8

DL 16716 4.805695 29.34197 -19 886 -4 -2 4 r9 2698 10.111935 40.92726 -20 815 -6 -2 11

Sau đó, vẽ biểu đồ boxplot để thể hiện phân phối của biến dep delay cho từng hãng hàng không

boxplot(dep_delay~carrier,data = flights.xlab="Carrier".ylab="Dep_ delay",

main = "Boxplot of dep_delay for a category of carrier”)

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 11/ 43

Trang 12

Đại học quốc gia tp Hồ Chí Minh

Ý tưởng: Ta sẽ chuyển các outliers thành dạng NA và sau đó sẽ thay thế các oudiers thành giá trị trung bình của hãng hàng không tương ứng Trước tiên, ta sẽ tạo hàm nhận biết các outliers và biến chúng thành dạng

#Tach cac giá trị thuộc hãng AA và lưu vào AA

AASdep_ delay=rm(AASdep_ delay)

#Thay thế các outliers thành dạng NA

AASdep_ delay[is.na(AASdep_ delay)]<-mean(AA$dep_ delay,na.rm=T)

#Thay thế các giá trị NA thành giá trị trung bình

HASdep_ delay=rm(HASdep_ delay)

HASdep_ delay[is.na(HASdep_ delay)]<-mean(HASdep_ delay,na.rm=T)

OO=subset(fli ghts flights$carrier=="00")

OOSdep_ delay=rm(OO$dep_ delay)

OOSdep_ delay[is.na(OOSdep_ delay)]<-mean(OOSdep_ delay,na.rm=T)

UA=subset(flights.flights%carrier==”UA")

UASdep_ delay=rm(UA$dep_ delay)

UASdep_ delay[is.na(UASdep_ delay)]<-mean(UASdep_ delay,na.rm=T)

Trang 13

Đại học quốc gia tp Hồ Chí Minh

'WNSdep_ delay=rm(WNSdep_ delay)

WNSdep_ delay[is.na(WNSdep_ delay)]<-mean(WNSdep_ delay,na.rm=T)

Sau khi đã thay thế xong, ta sẽ gộp các hãng lại với nhau tạo thanh 1 mau hoàn chỉnh

new_flights<-rbind(AA,AS B6,DL,F9,HA,OO,UA,US,VX,WN)

boxplot(dep_ delay~carrier,data = new_ flights,xlab="Carrier",ylab="Dep_ delay",

main = "Boxplot of dep_delay for a category of carrier",col="orange")

Và sau khi đã chuyển đổi, ta có các kết quả sau:

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 13/ 43

Trang 14

Đại học quốc gia tp Hồ Chí Minh

Nhân xét: Các giá trị của biến dep_delay của từng hãng hàng không lúc này đã gần nhau hơn và biểu đồ đã

thể hiện rõ hơn về các thông số min, max, điểm phân vị Từ đó ta có thể có những nhận xét chính xác hơn

về sự khác nhau giữa các hãng hàng không

Cụ thể:

Đối với hãng hàng không AA:

Min = -1I8: Thơi gian khởi hành sớm nhất là: 18 phút

Max = 25: Thời gian khởi hành trễ nhất là: 25 phút

Qị¡= > 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút

Med = -2: 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút

Q; =0: 75% chuyến bay có thời gian khởi hành sớm hơn thời gian dự kiến bay

Đối với hãng hàng không AS:

Min = -l5: Thời gian khởi hành sớm nhất là: 15 phút

Max = 12: Thời gian khởi hành trễ nhất là: 12 phút

Q, =-5: 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút

Med = -2.5554: 50% chuyến bay có thơi gian khởi hành sớm hơn 2.5554 phút

Q3 =-1: 75% chuyến bay có thời gian khởi hành sớm hơn l phút

Đối với hãng hàng không B6:

Min = -20: Thời gian khởi hành sớm nhất là: 20 phút

Max = 29: Thời gian khởi hành trễ nhất là: 29 phút

Q, =-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút

Med = -2: 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút

Q; =1: 75% chuyến bay có thời gian khởi hành trễ hơn 1 phút

Đối với hãng hàng không DL:

Min = -l5: Thời gian khởi hành sớm nhất là: 15 phút

Max = 16: Thời gian khởi hành trễ nhất là: 16 phút

Q, =-4 25% chuyến bay có thời gian khởi hành sớm hơn 4 phút

Med = -2: 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút

Q; =0: 75% chuyến bay có thơi gian khởi hành sớm hơn thời gian dự kiến bay

Đối với hãng hàng không E9:

Min = -20: Thời gian khởi hành sớm nhất là: 20 phút

Max = 36: Thời gian khởi hành trễ nhất là: 36 phút

Bài tập lớn môn Xác xuất thống kê - Niên khóa 2021-2022 Trang 14/ 43

Trang 15

- Đại học quốc gia tp Hồ Chí Minh

m =-6: 25% chuyến bay có thơi gian khởi hành sớm hơn 6 phút

ed = -2: 50% chuyến bay có thơi gian khởi hành sớm hơn 2 phút

Q; =4: 75% chuyến bay có thoi gian khởi hành trễ hơn 4 phút

Đối với hãng hàng không HA:

Min = -16: Thoi gian khởi hành sớm nhất là: 16 phút

Max = 8: Thời gian khởi hành trễ nhất là: 8 phút

1=-7: 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút

Med = -4.4990: 50% chuyến bay có thơi gian khởi hành sớm hơn 4.4990 phút

Q3 =-2: 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút

Đối với hãng hàng không OO:

Min = -l5: Thời gian khởi hành sớm nhất là: 15 phút

Max = 9: Thời gian khởi hành trễ nhất là: 9 phút

¡=-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút

Med = -4.1570: 50% chuyến bay có thởi gian khởi hành sớm hơn 4.1570 phút

Q3 =-2: 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút

Đối với hãng hàng không UA: Min = -19: Thời gian khởi hành sớm nhất là: 19 phút

Max = 27: Thời gian khởi hành trễ nhất là: 27 phút

¡ =5: 25% chuyến bay có thởi gian khởi hành sớm hơn 5 phút

Med = -1: 50% chuyến bay có thời gian khởi hành sớm hơn l phút

Q; =2: 75% chuyến bay có thời gian khởi hành trễ hơn 2 phút

Đối với hãng hàng không US:

Min = -l5: Thời gian khởi hành sớm nhất là: 15 phút

Max = 11: Thoi gian khởi hành trễ nhất là: 11 phút

Q, =-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút

Med = -3: 50% chuyến bay có thời gian khởi hành sớm hơn 3 phút

Q3 =-1: 75% chuyến bay có thời gian khởi hành sớm hơn l phút

Đối với hãng hàng không VX:

Min = -17: Thoi gian khởi hành sớm nhất là: 17 phút

Max = 15: Thời gian khởi hành trễ nhất là: 15 phút

Q, =-5: 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút

Med = -2.6258: 50% chuyến bay có thơi gian khởi hành sớm hơn 2.6258 phút

Q3 =-1: 75% chuyến bay có thời gian khởi hành sớm I phút

Đối với hãng hàng không WN:

Min = -11: Thoi gian khởi hành sớm nhất là: l1 phút

Max = 45: Thời gian khởi hành trễ nhất là: 45 phút

Q¡=-2: 25% chuyến bay có thơi gian khởi hành sớm hơn 2 phút

Q3 =11: 75% chuyến bay có thời gian khởi hành trễ hơn II phút

3.5 Anova một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay giữa các

#loc cac chuyen bay khoi hanh tu Portland

Trang 16

Đại học quốc gia tp Hồ Chí Minh

Giải thích tại cho việc sử dụng ANOVA một nhân tố:

Để thực hiện so sánh trung bình của nhiềi nhóm, phương pháp tối ưu nhất là dùng phân tích phương sai Do

ta có l1 hãng hàng không có chuyến bay khởi hành từ Seatle trong năm 2014 Nếu chỉ so sánh 2 trung bình

của 2 nhóm, ta có thể dùng test Vì vậy nếu dùng ttest cho bài toán này, ta phải thực hiện kiểm định rất

nhỉ i Lần Phương pháp phân tích phương sai cho ta kết luận sự bằng nhau hoặc khác nhau giữa các nhóm so

sánh thông qua một phép kiểm định duy nhất

Bang anova của l nhân tố

Dat gia thuyét:

- Giả thuyét Ho: 4, =f = =",, Viée lệch giờ bay trung bình giữa các hãng hàng không bằng nhau

“et thuyết HI: 3mu¡ = 3mu; với (EEj), Có ít nhất 2 hãng hàng không có việc lệch giờ bay trung bình khác

nhau

Các giả định cần kiểm tra trong ANOVA một nhân tố:

+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các

Seattle tuan theo phân phối chuẩn

+ Tính đồng nhất của các phương sai: Phương sai việc

bay khởi hành từ Seattle bằng nhau

Kiểm tra giả định phân phối chuẩn:

Giả thuyết Họ: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Seatde tuân theo

hãng hàng không đối với các chuyến bay khởi hành từ lệch giờ bay ở các hãng hàng không đối với các chuyến

phân phối chuẩn

Giả thuyết Hị: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Seattle không tuân theo phân phối chuẩn

Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep delay ở hãng hàng không AA:

AA_SEA = subset(SEA,SEA$carrier =="AA")

Trang 17

>a Dai hoc quốc gia tp Hồ Chí Minh

AS_SEA = subset(SEA,SEAScarrier =="AS")

Trang 18

>a Dai hoc quốc gia tp Hồ Chí Minh

Trang 19

>a Dai hoc quốc gia tp Hồ Chí Minh

Trang 20

>a Dai hoc quốc gia tp Hồ Chí Minh

Trang 21

>a Dai hoc quốc gia tp Hồ Chí Minh

HA_SEA = subset(SEA,SEAScarrier =="HA")

Ngày đăng: 10/02/2025, 15:59

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN