1. Trang chủ
  2. » Luận Văn - Báo Cáo

đề tài airlines traffic passenger statistics thống kê lưu lượng hành khách hàng không

43 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Airlines Traffic Passenger Statistics Thống kê lưu lượng hành khách hàng không
Tác giả Lê Doãn Anh Quốc, Huỳnh Thị Mỹ Liên, Bùi Nhật Tôn, Nguyễn Nhất Phong, Nguyễn Ngọc Trường Duy
Người hướng dẫn Cụ Nguyễn Kiều Dung
Trường học Đại học Quốc gia TP Hồ Chí Minh, Trường Đại học Bách Khoa
Chuyên ngành Kỹ thuật Giao thông
Thể loại Báo cáo môn học
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 43
Dung lượng 7,13 MB

Nội dung

Phân tích phương sai Analysis of Variance ANOVA - 2.1.1.Khái niệm: Phân tích phương sai - Analysis of Variance ANOVA là so sánh trung bình của nhiều nhóm tổng thể dựa trên các giá trị tr

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐỀ TÀI: Airlines Traffic Passenger Statistics

Thống kê lưu lượng hành khách hàng không

GVHD : Cô Nguyễn Kiều Dung

Trang 2

2

Trang 3

Mục l c ụ

1 T NG QUAN V D Ổ Ề Ữ LIỆU 4

1.1 Ng cữ ảnh dữ liệ u 4

1.2 Nguồn dữ liệu: 4

2 KI N TH C NẾ Ứ ỀN 6

2.1 Phân tích phương sai - Analysis of Variance (ANOVA) 6

2.1.1.Khái niệm: 6

2.2 Phương pháp hồi quy 12

3.Tiền xử lí d ữ liệu 15

3.1 Đọc dữ liệu: 15

3.2 Lọc dữ liệ u: 16

4 Th ng kê suy diố ễn 24

4.1 ANOVA m t nhân t : 24ộ ố 4.2 XÂY D NG MÔ HÌNH H I QUY TUYỰ Ồ ẾN TÍNH ĐƠN BIẾN 29

4.3 XÂY D NG MÔ HÌNH H I QUY TUYỰ Ồ ẾN TÍNH ĐA BIẾN 37 5.TÀI LIỆU THAM KHẢ 43O

Trang 4

1.2 Ngu n d ồ ữ liệu:

B ng th ng kê v ả ố ề lượng khách hàng không lưu của các hang hàng không được lấy t từ ệp “Airlines Traffic Passenger Statistics” trên website Kaggle

- C c bi n chính trong b d á ế ộ ữ liệu:

+ Activity Period: Th i gian hoờ ạt động c a các chuy n bay ủ ế

+ Operating Airline: Hãng hàng không khai thác chuy n bay ế

+ Operating Airline IATA Code: Mã IATA c a hãng hàng không khai thác ủchuy n bay ế

+ Published Airline: Hãng hàng không đã công bố giá vé cho chuy n bay ế+ Published Airline IATA Code: Mã IATA của hãng hàng không đã công bố giá vé cho chuy n bay ế

+ GEO Summary: Tính ch t c a chuy n bay (nấ ủ ế ội địa, qu c tố ế)

+ GEO Region: Khu vực hoạt động c a chuy n bay ủ ế

+ Activity Type Code: Lo i hoạ ạt động

+ Price Category Code: Lo i giá vé ạ

+ Terminal: Ga c a chuy n bay ủ ế

+ Boarding Area: C ng lên máy bay c a chuy n bay ổ ủ ế

+ Passenger Count: S ố lượng hành khách trên chuy n bay ế

+ Adjusted Activity Type Code: Lo i hoạ ạt động (đã điều chỉnh cho d ữ liệu

bị thi u) ế

+ Adjusted Passenger Count: S ố lượng hành khách trên chuyến bay (đã điều chỉnh cho d liệu bị thi u) ữ ế

+ Year: Năm hoạt động c a chuy n bay ủ ế

+ Month: Tháng hoạt động c a chuy n bay ủ ế

Trang 5

- B d u bao g m: 15007 quan sát c a 17 biộ ữ liệ ồ ủ ến.

Trang 6

Có hai loại ANOVA chính:

Phân tích phương sai một yếu tố (One way ANOVA): So sánh trung bình của hai hoặc nhiều nhóm dữ liệu

-Phân tích phương sai hai yếu tố (Two-way ANOVA): So sánh trung bình của hai hoặc nhiều nhóm dữ liệu, với mỗi nhóm được xác định bởi hai hoặc nhiều biến độc lập

Biến phụ thuộc (Dependent variable): Biến phụ thuộc giúp ta kiểm tra được

sự khác biệt giữa các nhóm dữ liệu Đây là nhóm mà ta muốn dự đoán hoặc giải thích

Biến độc lập (Independent variable): Biến độc lập là biến để chúng ta so sánh

để xem sự khác biệt về biến phụ thuộc giữa các biến độc lập

Hiểu một cách đơn giản, phân tích phương sai là một phương pháp giúp ta xác định được sự ảnh hưởng của biến phụ thuộc lên biến độc lập trong một nghiên cứu hồi quy Nhưng thay vì chỉ so sánh các đối tượng trong một nhóm, phương pháp ANOVA sẽ giúp chúng ta so sánh trong một phạm vi rộng hơn như giữa hai hoặc nhiều nhóm đối tượng hơn nữa

Phương pháp ANOVA sẽ phân chia một biến được tổng hợp từ một nhóm dữ liệu thành hai phần để phân tích:

-Yếu tố hệ thống: Là yếu tố sẽ ảnh hưởng thống kê đến tập dữ liệu đã cho -Yếu tố ngẫu nhiên: Là yếu tố sẽ không ảnh hưởng đến tập dữ liệu đã có sẵn 2.1 2 Các phương pháp phân tích phương sai

1 Phân tích phương sai một yếu tố (One-way ANOVA)

Phân tích phương sai một yếu tố - One way ANOVA là phân tích ảnh hưởng của m t y u t nguyên nhân (d ng biộ ế ố ạ ến định tính) ảnh hưởng đến m t y u t k t qu ộ ế ố ế ả(dạng biến định lượng) đang nghiên cứu Ta đi vào lý thuyết như sau:

Trang 7

a) Trường h p không t ng th có phân ph i chu ợ ổ ể ố ẩn và phương sai

b ng nhau:

Giả s chúng ta mu n so sánh trung bình c a k t ng th (ví dử ố ủ ổ ể ụ ở phần 1.1 có

k = 3) d a trên nhự ững m u ngẫ ẫu nhiên độ ậc l p gồm 𝑛1, 𝑛 , 𝑛 , , 𝑛2 3 𝑘 quan sát từ k tổng th C n ghi nh ba giể ầ ớ ả định sau đây về các nhóm t ng th c n phân tích ổ ể ầANOVA:

- Các t ng th này có phân phổ ể ối bình thường

- Các t ng th này có phân ph i b ng nhau ổ ể ố ằ

- Các t ng th này l y mổ ể ấ ẫu độ ậc l p nhau

Nếu trung bình c a các t ng thủ ổ ể được kí hiệu là 𝜇1= 𝜇 = 𝜇 = = 𝜇2 3 𝑘 thì các gi ả định trên được đáp ứng, mô hình phân tích phương sai một y u t ế ố ảnh hưởng được mô t ả dướ ại d ng kiểm định gi thuyả ết như sau:

sự có các giá tr c a ba t ng th và bi u diị ủ ổ ể ể ễn được phân ph i cố ủa chúng như hình dưới đây thì bạn không cần ph i làm gì n a mà kả ữ ết luận được ngay là b n s bác bạ ẽ ỏ giả thuyết 𝐻0 hay 3 t ng th này có giá tr trung bình khác nhau ổ ể ị

Nhưng bạn chỉ có mẫu đại diện được quan sát, nên để ểm đị ki nh giả thuyết này, ta th c hiự ện các bước sau:

Trang 8

Bước 2: Tính các t ng các chênh lổ ệch bình phương (hay gọi tắt là tổng bình phương) Tính tổng các chênh lệch bình phương trong nộ ội b nhóm SSW và tổng cách chênh lệch bình phương giữa các nhóm SSG

Tổng các chênh lệch bình phương trong nộ ộ nhóm (SSW) đượi b c tính bằng cộng các chênh lệch bình phương giữa các giá tr quan sát v i trung bình m u cị ớ ẫ ủa từng nhóm, rồi sau đó lại tính t ng c ng các k t qu t t c các nhóm l i SSW phổ ộ ế ả ấ ả ạ ản ánh ph n bi n thiên c a y u t k t qu do ầ ế ủ ế ố ế ả ảnh hưởng c a các y u t khác, ch không ủ ế ố ứ

𝑥𝑘𝑛𝑘

Trang 9

phải do y u tế ố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các tổng thể/ nhóm đang so sánh)

Tổng chênh lệch bình phương củ ừng nhóm đượa t c tính theo công thức:Nhóm 1: 𝑺𝑺𝟏= ∑𝒏𝟏 (𝒙 − 𝒙𝟏𝒋 𝟏)𝟐

Tổng chênh lệch bình phương giữa các nhóm (SSG) được tính b ng các chênh ằlệch đượ ấy bình phương giữc l a các trung bình mẫu của từng nhóm với trung bình chung c a k nhóm (các chênh lủ ệch này đều được nhân thêm v i sớ ố quan sát tương ứng c a t ng nhóm) SSG ph n ánh ph n bi n thiên c a y u t k t qu do ủ ừ ả ầ ế ủ ế ố ế ả ảnh hưởng của yếu t ố nguyên nhân đang nghiên cứu

SSG = ∑𝒌 𝒏𝒊(𝒙𝒊− 𝒙 )𝟐

𝒊=𝟏

Có th d dàng ch ng minh là t ng các chênh lể ễ ứ ổ ệch bình phương toàn bộ (SST) bằng cách cộng tổng các chênh lệch bình phương trong nộ ộ các nhóm (SSW) và i btổng các chênh lệch bình phương giữa các nhóm (SSG)

SST = SSW + SSG

Như vậy, t công th c trên cho th y, SST là toàn b ừ ứ ấ ộ biến thiên c a y u t kủ ế ố ết quả đã được phân tích thành hai phần: phần biến thiên do y u tế ố đang nghiên cứu tạo ra (SSG) và ph n bi n thiên còn l i do các y u t khác không nghiên cầ ế ạ ế ố ứu ở đây tạo ra (SSW) N u ph n bi n thiên do y u t ế ầ ế ế ố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần biến thiên do các yếu tố khác ta không xét tạo ra, thì chúng ta càng

có cơ sở để bác bỏ 𝐻0 và k t lu n r ng y u tế ậ ằ ế ố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố k t qu ế ả

Bước 3: Tính phương sai (là trung bình của các chênh lệch bình phương) Các

phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc

tự do tương ứng

Tính phương sai trong nội bộ nhóm (MSW) bằng cách lấy tổng cách chênh lệch bình phương nội bộ các nhóm (SSW chia cho bậc tự do tương ứng là 𝑛 − 𝑘(𝑛 là s quan sát, ố 𝑘 là s ố nhóm so sánh) MSW là ước lượng ph n bi n thiên c a yầ ế ủ ếu

tố k t qu do các y u t khác gây ra ế ả ế ố

𝒏− 𝒌

Trang 10

10

Tính phương sai giữa các nhóm (MSG) b ng cách l y t ng các chênh l ch ằ ấ ổ ệbình phương giữa các nhóm chia cho bậc tự do tương ứng là 𝑘 − 1 MSG là ước lượng ph n bi n thiên cầ ế ủa y u tế ố k t quế ả do y u t nguyên nhân đang nghiên cứu ế ốgây ra

MSG = 𝑺𝑺𝑮

𝒌− 𝟏

Bước 4: Kiểm định gi thuy ả ết:

Giả thuy t v s b ng nhau c a k trung bình t ng thế ề ự ằ ủ ổ ể được quyết định dựa trên t s cỉ ố ủa hai phương sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ nhóm (MSW) T s ỉ ố này được g i là t s ọ ỉ ố F vì nó tuân theo định luật Fisher – Snedecor v i b c t do là ớ ậ ự 𝑘 − 1 ở ử ố t s và 𝑛 − 𝑘 ở mẫu s ố

F > 𝐹(𝑘−1; 𝑛− 𝑘 );𝛼 là giá tr ị giới h n t b ng s 8 v i b c t do theo cạ ừ ả ố ớ ậ ự ột (𝑘 − 1)

và hàng (𝑛 − 𝑘), nh ớ chọn b ng có mả ức ý nghĩa phù hợp Sau đây là dạng b ng kả ết quả t ng quát c a ANOVA khi phân tích bổ ủ ằng chương trình Excel hay SPSS

Trang 11

Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị Histogram là phương pháp tốt nhất để kiểm tra giả định v phân phề ối bình thường c a dủ ữ liệu nhưng nó đòi hỏi một s ố lượng quan sát khá l n Biớ ểu đồ thân lá hay biểu đồ ộ h p và râu là m t thay th t t trong tình hu ng sộ ế ố ố ố quan sát ít hơn Nếu công cụ đồ thị cho thấ ậy t p d liệu màu khác phù h p v i phân phữ ợ ớ ối bình thường thì ta có th xem gi ể ả

định phân phối bình thường đã thỏa mãn Hình dưới mô tả biểu đồ hộp râu cho t p ậ

dữ liệu m u v ba nhóm có th i gian t h c trung bình có hình dáng phân phẫ ề ờ ự ọ ối của

dữ liệu hơi lệch sang trái, còn hai nhóm còn lại có phân phối khác cân đối Với số quan sát không nhi u thi bi u hiề ể ện như thế này của d ữ liệu là khả quan và ch p nhấ ận được

Để khảo sát giả nh b ng nhau cđị ằ ủa các phương sai, biểu đồ ộp và râu cũng hcho c m nhả ận ban đầu nhanh chóng, v i ba biớ ểu đồ này, mức độ phân tán c a d ủ ữliệu trong m i t p d ỗ ậ ữ liệu m u không khác bi t nhiẫ ệ ều

Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm định Levene về phương sai của các t ng th Kiổ ể ểm định được phát ra t ừ giả thuy t sau: ế

𝑯𝟎 = 𝝈𝟏 = 𝝈𝟐 = 𝝈𝟑 = = 𝝈𝒌

𝑯𝟏 : Không phải các phương sai đều bằng nhau

Trang 12

𝒌 (chú ý là n u k t qu tính n là sế ế ả ố thập phân thì ta lấy phần nguyên)

2 Phân tích phương sai hai yếu tố (Two-way ANOVA)

Two way Anova có th– ể được coi là một phần m r ng c a phân tích One ở ộ ủ –way Anova Phân tích phương sai 2 yếu t ố nhằm xem xét cùng lúc hai y u t nguyên ế ốnhân (dưới d ng d ạ ữ liệu định tính) ảnh hưởng đến yếu t k t qu ố ế ả (dưới dạng d ữ liệu định lượng) đang nghiên cứu

Phân loại:

+ Phân tích phương sai hai yếu t không lố ặp

+ Phân tích phương sai hai yếu t lố ặp

2.2 Phương pháp hồi quy

Định nghĩa hồi quy: Hàm h i quy c a Y theo X là k vồ ủ ỳ ọng có điều ki n cệ ủa

Y đối với X, tức là E(Y|X)

Xét hàm h i quy tuyồ ến tính đơn có dạng:

𝑓𝑌(𝑋) = 𝐸(𝑌|𝑋) = 0+ 1𝑋 Giả s ta có m t mử ộ ẫu ngẫu nhiên có kích thước n thu được khi quan sát (Y,X) là:

Trang 13

(𝑌𝑖, 𝑋𝑖) = (𝑌1, 𝑋1) (, 𝑌2, 𝑋2), … , (𝑌𝑛, 𝑋𝑛)

𝑓𝑌𝑖(𝑋𝑖) = 𝐸(𝑌𝑖|𝑋𝑖) = 0+ 1𝑋𝑖Hay: 𝑌𝑖= 0+ 1𝑋𝑖+ 𝜀𝑖 𝑖 = 1, 𝑛

Đây là tổng quát c a mô hình h i quy tuyủ ồ ến tính đơn, trong đó 𝜀𝑖 là các sai s ốngẫu nhiên và gi thi t rả ế ằng chúng độ ậc l p v i nhau, cùng tuân theo quy lu t phân ớ ậphối chu n 𝑁(0,ẩ 2 )

SST( Sum of Squares Total) đo mức biến động các giá trị quan sát y xung i

quanh giá tr trung bình c a chính mị ủ ẫu

SSE( Sum of Squares for Error | Sum of Squares Residual) là t ng bình ổphương sai số ước lượng đo sự chênh lệch giữa từng giá trị quan sát với giá trị dự

Trang 14

14

đoán (ước lượng) SSE được xem như sai số đo những y u t khác ngoài X ho c do ế ố ặlấy m u ng u nhiên ẫ ẫ

SSR( Sum of Squares in Regression) là sai s do khác bi t giố ệ ữa đường h i quy ồ

m u và trung bình c a Y S khác biẫ ủ ự ệt này được gi i thích b i sả ở ự biến động c a X ủSSR đo sự phân tán c a d ủ ữ liệu do mô hình h i quy gây ra ồ

H s ệ ố xác định R : 2 𝑅2=𝑆𝑆𝑅𝑆𝑆𝑇 ℎ𝑎𝑦 𝑅2= (1 −𝑆𝑆𝐸𝑆𝑆𝑇)

Hệ s Rố 2 giải thích trong 100% sự biến động của Y so với trung bình của nó thì có bao nhiêu % là do bi n X gây ra R có mế 2 ức dao động trong đoạ ừ 0 đến t n 1 Nếu R2 càng ti n v 1, các biế ề ến độ ậc l p gi i thích càng nhi u cho bi n ph thu c, và ả ề ế ụ ộngượ ạc l i, R càng ti n v 0, các bi2 ế ề ến độ ậc l p gi i thích càng ít cho bi n ph thu c ả ế ụ ộKhông có tiêu chu n chính xác cho vi c Rẩ ệ 2 nằm ở ứ m c bao nhiêu thì mô hình

sẽ t yêu c u trong các nghiên cđạ ầ ứu, nhưng chúng ta thường ch n mọ ức 005 để phân biệt 2 nhánh ý nghĩa mạnh/ ý nghĩa yếu và kỳ vọng từ 0,5 đến 1 thì mô hình là tốt,

bé hơn 0.5 đến 1 thì mô hình chưa đủ tốt

Trong mô hình h i quy tuyồ ến tính đơn, 𝑅2= 𝑟2𝑥𝑦 ,

trong đó 𝑟𝑥𝑦 𝑙à ℎệ 𝑠ố 𝑡ươ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑚ẫ𝑢 𝑐ó 𝑐ô𝑛𝑔 𝑡ℎứ𝑐 𝑟𝑥𝑦=𝑥𝑦𝑠𝑥.𝑠𝑦−𝑥 𝑦

Ước lượng độ lệch chuẩn : 𝜎2 𝑐ó ướ𝑐 𝑙ượ𝑛𝑔 𝑘ℎô𝑛𝑔 𝑐ℎệ𝑐ℎ 𝑐ủ𝑎 𝑛ó 𝑙à 𝜎2

𝑛 − 2 ⇒ 𝜎 = √𝑆𝑆𝐸

𝑛 − 2

Ước lượng các hệ s h i quy v ố ồ ới độ tin cậy 1-α:

• Khoảng ước lượng cho tung độ gốc 0 là ( 0− 𝜀 ,0 0+ 𝜀 0), với:

𝜀0= 𝑡𝑎

2(𝑛 − 2).1

𝑆𝑥√𝑆𝑆𝐸 (𝑥2 )𝑛(𝑛 − 2)

• Khoảng ước lượng cho h s góc ệ ố 1 là ( 1− 𝜀1, 1+ 𝜀 1), với:

𝜀 1= 𝑡𝑎

2(𝑛 − 2) 1

𝑆𝑥√ 𝑆𝑆𝐸.

𝑛(𝑛 − 2)

Trang 15

Kiểm định sự phù hợp c a hàm h i quy tuy ủ ồ ến tính đơn:

Miền bác bỏ: 𝑅𝑅 = (−∞; −t𝛼

2(𝑛 − 2)) ∪ (−t𝛼

2(𝑛 − 2); +∞)

Dự báo giá trị trung bình c a Y khi X = x ủ 0

( Khoảng ước lượng của 𝑓𝑌(𝑥0) với độ tin c y 1- ậ α)

Trang 16

+Passenger<- na.omit(Passenger): Dùng để xóa d u NA ữ liệ

+apply(is.na(Passenger),2,which): Ki m tra còn d u NA không ể ữ liệ

- Nhận xét:

+ D a vào k t quự ế ả kiểm tra dữ liệu khuyết trong dataframe “Passenger”, ta không th y các giá tr trong các bi n có dấ ị ế ữ liệu khuy t Vì v y, không c n s dế ậ ầ ử ụng các phương pháp xử lí số liệu

-Thực hi n l c d ệ ọ ữ liệu và t o ra dataframe m i ch a nh ng bi n ta quan tâm ạ ớ ứ ữ ế

- Giải thích code:

<-subset(Hanh_khach,Hanh_khach$GEO_Region=="Middle East"): T o mạ ột dataframe m i (HK) ch a các biớ ứ ến được lọc theo biến “Middle East”

+ PassengerAna <- PassengerAna %>% select(-c(“…”)): Chuyển dữ liệu và lọc các biến không s d ng t ử ụ ừ dataframe “HK” cũ sang dataframe “HK” mới

Trang 17

➢ %>%>: Chuy n d ể ữ liệu t ừ dataframe bên trái(“HK” cũ) sang dataframe bên phải(“HK” mới)

➢ select(-c(“…”)): bỏ các biến nằm trong dấu (“…”)

3.2.1 Làm rõ d u: ữ liệ

- Thống kê mô t các bi n liên tả ế ục:

+describe(PassengerAna[,c("Adjusted_Passenger_Count","Year","Month")],fast=T): Hàm describe dùng để tính các giá tr ị thống kê mô t c a các bi n có trong ả ủ ếdataframe đang xét và xuất ra kết quả dưới dạng b ng ả

“Adjusted_Passenger_Count”

- Giải thích code:

+hist(PassengerAna$Adjusted_Passenger_Count,xlab="Adjusted_Passenger_Count", main="Histogram of Adjusted_Passenger_Count", labels=T, ylim=c(0,100)):

“Adjusted_Passenger_Count” trong dataframe “HK”

"Adjusted_Passenger_Count" trên tr c x c a histogram ụ ủ

➢ main="Histogram of Adjusted_Passenger_Count": Tiêu đề của histogram

➢ labels=T:

➢ ylim=c(0,100)): Gi i h n giá tr cớ ạ ị ột y t ừ 0 đến 100

Trang 18

“Operating_Airline_IATA_Code” trong dataframe “PassengerAna”

Trang 19

- Nhận xét: Có rất nhi u giá tr ngo i lai ề ị ạ ở “Operating_Airline_IATA_Code” (EK), điều này ảnh hưởng nhiều đến kết quả phía sau.Tương tự đối với

“Operating_Airline_IATA_Code” (EY) thì ngược lại Ta xác định tần suất hành khách c a mủ ỗi hãng hàng không dao động khác nhau, cụ thể:

- Khoảng dao động trong s ố lượng hành khách c a hãng EY là th p nh t ủ ấ ấ

- Khoảng dao động trong s ố lượng hành khách c a hãng EK là cao nhủ ất

4 Th ng kê mô t ố ả

4.1 D u sau tóm t t ữ liệ ắ

Sau khi th c hi n quá trình d n d p, hi n tự ệ ọ ẹ ệ ại chúng ta đã có mộ ộ ữ liệt b d u rõ ràng và sạch s trong newdata Tóm t t b ng cách cách s d ng hàm summary ẽ ắ ằ ử ụtrong R

Hình 3: d ữ liệu sau tóm t t ắ

4.2 V ẽ các đồ thị biể u di n

Đồ thị Hist th ể hiện phân ph i cố ủa s lượng hàng khách ố

Trang 20

20

Hình 4: phân b cố ủ a s lượng hàng khách ố

- Nhận xét: đồ thị không tuân theo phân ph i chu n, có phân b lố ẩ ố ệch ph i, ảchứng tỏ có m t s hãng bay ti p nh n khách hàng trong tháng cao bộ ố ế ậ ất thường

Đồ thị Boxplot th ể hiện phân phố ủi c a s lượng hàng khách theo các biến phân loại ố

Hình 5: phân ph i s ố ố lượng hàng khách theo hãng bay

- Nhận xét:

o H u hầ ết các hãng bay đều có giá tr ngo i lai ị ạ

Trang 21

Hình 6: phân ph i s ố ố lượng hàng khách theo nhu c ầu đi trong nước và quốc

tế

o D u có giá tr ngo i biên ữ liệ ị ạ

o Domestic có phân phối hàng khách không đều trong khi International thì ngược lại

o Domestic có phân ph i b l ch ph i, có ố ị ệ ả nghĩa có các chuyến bay có lượng hàng khách cao bất thường

o Domestic có hộp cao hơn International, chứng t ỏ lượng hàng khách cao vượt trội

Hình 7: phân ph i s ố ố lượng hàng khách theo vùng địa lý

o các khu vực đều có đường trung vị b ng nhau ằ

o khu v c US có hự ộp cao hơn so với các khu v c khác Cho th y khu ự ấvực này có lượng hàng khách vượt trội hơn các khu vực

Ngày đăng: 20/04/2024, 09:34

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w