Phân tích phương sai Analysis of Variance ANOVA - 2.1.1.Khái niệm: Phân tích phương sai - Analysis of Variance ANOVA là so sánh trung bình của nhiều nhóm tổng thể dựa trên các giá trị tr
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐỀ TÀI: Airlines Traffic Passenger Statistics
Thống kê lưu lượng hành khách hàng không
GVHD: Cô Nguyễn Kiều Dung
Trang 22
Trang 34.2 XÂY D NG MÔ HÌNH H I QUY TUYỰỒẾN TÍNH ĐƠN BIẾN 29
4.3 XÂY D NG MÔ HÌNH H I QUY TUYỰỒẾN TÍNH ĐA BIẾN 37 5.TÀI LIỆU THAM KHẢ 43O
Trang 44
1 T NG QUAN V D ỔỀ Ữ LIỆU 1.1 Ng c nh d u ữ ảữ liệ
Dữ liệu được sử dụng trong bài báo cáo này nói v ề lượng hành khách không lưu của các hãng hang không và nh ng y u t có th ữ ế ố ể ảnh hưởng đến lượng hành khách di chuy n c a m i hãng hàng không V y nên vi c ti p c n các y u tể ủ ỗ ậ ệ ế ậ ế ố liên quan đên nhu cầu hành khách là điều cần thiết cho các hãng hàng không Đây là vấn đề quan của s phát tri n chự ể ất lượng dịch vụ giao thông b ng máy bay và ằ ngu n kinh t c p qu c gia, khu vồ ế ở ấ ố ực và địa phương
1.2 Ngu n d ồữ liệu:
B ng th ng kê v ả ố ề lượng khách hàng không lưu của các hang hàng không được lấy t từ ệp “Airlines Traffic Passenger Statistics” trên website Kaggle
- C c bi n chính trong b d á ế ộ ữ liệu:
+ Activity Period: Th i gian hoờ ạt động c a các chuy n bay ủ ế + Operating Airline: Hãng hàng không khai thác chuy n bay ế
+ Operating Airline IATA Code: Mã IATA c a hãng hàng không khai thác ủ chuy n bay ế
+ Published Airline: Hãng hàng không đã công bố giá vé cho chuy n bay ế + Published Airline IATA Code: Mã IATA của hãng hàng không đã công bố giá vé cho chuy n bay ế
+ GEO Summary: Tính ch t c a chuy n bay (nấ ủ ế ội địa, qu c tố ế) + GEO Region: Khu vực hoạt động c a chuy n bay ủ ế
+ Activity Type Code: Lo i hoạ ạt động + Price Category Code: Lo i giá vé ạ + Terminal: Ga c a chuy n bay ủ ế
+ Boarding Area: C ng lên máy bay c a chuy n bay ổ ủ ế + Passenger Count: S ố lượng hành khách trên chuy n bay ế
+ Adjusted Activity Type Code: Lo i hoạ ạt động (đã điều chỉnh cho d ữ liệu bị thi u) ế
+ Adjusted Passenger Count: S ố lượng hành khách trên chuyến bay (đã điều chỉnh cho d liệu bị thi u) ữ ế
+ Year: Năm hoạt động c a chuy n bay ủ ế + Month: Tháng hoạt động c a chuy n bay ủ ế
Trang 5- B d u bao g m: 15007 quan sát c a 17 biộ ữ liệ ồ ủ ến.
Trang 66
2 KIẾN THỨC NỀN
2.1 Phân tích phương sai Analysis of Variance (ANOVA) -
2.1.1.Khái niệm:
Phân tích phương sai - Analysis of Variance (ANOVA) là so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các giá trị trung bình của các mẫu quan sát từ nhóm này thông qua việc kiểm định giả thuyết của kết luận và sự bằng nhau của các trung bình tổng thể này Đối với các quá trình nghiên cứu, phương pháp phân tích phương sai (ANOVA) được dùng để nghiên cứu các ảnh hưởng của biến nguyên nhân (định tính) lên biến kết quả (định lượng)
Có hai loại ANOVA chính:
Phân tích phương sai một yếu tố (One way ANOVA): So sánh trung bình của -hai hoặc nhiều nhóm dữ liệu
Phân tích phương sai hai yếu tố (Two-way ANOVA): So sánh trung bình của hai hoặc nhiều nhóm dữ liệu, với mỗi nhóm được xác định bởi hai hoặc nhiều biến độc lập
Biến phụ thuộc (Dependent variable): Biến phụ thuộc giúp ta kiểm tra được sự khác biệt giữa các nhóm dữ liệu Đây là nhóm mà ta muốn dự đoán hoặc giải thích
Biến độc lập (Independent variable): Biến độc lập là biến để chúng ta so sánh để xem sự khác biệt về biến phụ thuộc giữa các biến độc lập
Hiểu một cách đơn giản, phân tích phương sai là một phương pháp giúp ta xác định được sự ảnh hưởng của biến phụ thuộc lên biến độc lập trong một nghiên cứu hồi quy Nhưng thay vì chỉ so sánh các đối tượng trong một nhóm, phương pháp ANOVA sẽ giúp chúng ta so sánh trong một phạm vi rộng hơn như giữa hai hoặc nhiều nhóm đối tượng hơn nữa
Phương pháp ANOVA sẽ phân chia một biến được tổng hợp từ một nhóm dữ liệu thành hai phần để phân tích:
-Yếu tố hệ thống: Là yếu tố sẽ ảnh hưởng thống kê đến tập dữ liệu đã cho -Yếu tố ngẫu nhiên: Là yếu tố sẽ không ảnh hưởng đến tập dữ liệu đã có sẵn 2.1 2 Các phương pháp phân tích phương sai
1 Phân tích phương sai một yếu tố (One-way ANOVA)
Phân tích phương sai một yếu tố - One way ANOVA là phân tích ảnh hưởng của m t y u t nguyên nhân (d ng biộ ế ố ạ ến định tính) ảnh hưởng đến m t y u t k t qu ộ ế ố ế ả (dạng biến định lượng) đang nghiên cứu Ta đi vào lý thuyết như sau:
Trang 7a) Trường h p không t ng th có phân ph i chuợổểốẩn và phương sai
b ng nhau: ằ
Giả s chúng ta mu n so sánh trung bình c a k t ng th (ví dử ố ủ ổ ể ụ ở phần 1.1 có k = 3) d a trên nhự ững m u ngẫ ẫu nhiên độ ậc l p gồm 𝑛1, 𝑛 , 𝑛 , , 𝑛2 3 𝑘 quan sát từ k tổng th C n ghi nh ba giể ầ ớ ả định sau đây về các nhóm t ng th c n phân tích ổ ể ầ ANOVA:
- Các t ng th này có phân phổ ể ối bình thường - Các t ng th này có phân ph i b ng nhau ổ ể ố ằ - Các t ng th này l y mổ ể ấ ẫu độ ậc l p nhau
Nếu trung bình c a các t ng thủ ổ ể được kí hiệu là 𝜇1= 𝜇 = 𝜇 = = 𝜇2 3 𝑘 thì các gi ả định trên được đáp ứng, mô hình phân tích phương sai một y u t ế ố ảnh hưởng được mô t ả dướ ại d ng kiểm định gi thuyả ết như sau:
𝑯𝟎 : 𝝁𝟏= 𝝁𝟐 = 𝝁𝟑 = = 𝝁𝒌
Giả thuyết 𝐻0 cho r ng trung bình c a k tằ ủ ổng thể đều b ng nhau (v mằ ề ặt nghiên c u liên h ứ ệ giả thuyết này cho rằng y u t ế ố nguyên nhân không có tác động gì đến vấn đề mà ta đang nghiên cứu) Và giả thuyết đối là: 𝑯𝟏 : T n t i ít nh t mồạấột cặp trung bình t ng thổể khác nhau Hai giả định đầu tiên để ti n hành phân tích ế phương sai được mô tả như hình dưới đây, bạn thấy ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đối giống nhau, những ba vị trí chênh lệch của chúng ta cho thấy rằng ba giá tr trung bình khác nhau Rõ ràng là nị ếu b n thạ ực sự có các giá tr c a ba t ng th và bi u diị ủ ổ ể ể ễn được phân ph i cố ủa chúng như hình dưới đây thì bạn không cần ph i làm gì n a mà kả ữ ết luận được ngay là b n s bác bạ ẽ ỏ giả thuyết 𝐻0 hay 3 t ng th này có giá tr trung bình khác nhau ổ ể ị
Nhưng bạn chỉ có mẫu đại diện được quan sát, nên để ểm đị ki nh giả thuyết này, ta th c hiự ện các bước sau:
Trang 88
Bước 1: Tính các trung bình m u cẫ ủa các nhóm (xem như là đại diện của các tổng thể) Trước h t ta xem cách tính các trung bình m u tế ẫ ừ những quan sát c a k ủ m u ngẫ ẫu nhiên độc l p (ký hiậ ệu 𝑥, 𝑥1 2, 𝑥3, , 𝑥𝑘) và trung bình c a k m u quan sát ủ ẫ (ký hiệu 𝑥 ) t ừ trường hợp quan sát như sau:
Tính trung bình m u c a t ng nhóm ẫ ủ ừ , 𝑥𝑥12, 𝑥3, , 𝑥𝑘 theo công thức:
Dĩ nhiên bạn có thể tính trung bình chung của mẫu k theo cách khác là: cộng tất cả các 𝑥𝑖𝑗 trên b ng t ng th trên rả ổ ể ồi đem chia cho ∑ 𝑛𝑖 v i ( = 1,2,3 ,k) Kớ 𝑖 ết quả s ẽ như nhau
Bước 2: Tính các t ng các chênh lổ ệch bình phương (hay gọi tắt là tổng bình phương) Tính tổng các chênh lệch bình phương trong nộ ội b nhóm SSW và tổng cách chênh lệch bình phương giữa các nhóm SSG
Tổng các chênh lệch bình phương trong nộ ộ nhóm (SSW) đượi b c tính bằng cộng các chênh lệch bình phương giữa các giá tr quan sát v i trung bình m u cị ớ ẫ ủa
Trang 9phải do y u tế ố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các tổng
Tương tự như vậy ta tính cho đến nhóm th ứ k được 𝑆𝑆𝑘 V y t ng chênh l ch ậ ổ ệ bình phương trong nội bộ các nhóm được tính như sau:
SSW = 𝑺𝑺𝟏+ 𝑺𝑺𝟐+ 𝑺𝑺𝟑 + + 𝑺𝑺𝒌= ∑ ∑𝒏𝒊 (𝒙 − 𝒙𝒊𝒋 𝑰)𝟐𝒋=𝟏
𝒌𝒊=𝟏
Tổng chênh lệch bình phương giữa các nhóm (SSG) được tính b ng các chênh ằ lệch đượ ấy bình phương giữc l a các trung bình mẫu của từng nhóm với trung bình chung c a k nhóm (các chênh lủ ệch này đều được nhân thêm v i sớ ố quan sát tương ứng c a t ng nhóm) SSG ph n ánh ph n bi n thiên c a y u t k t qu do ủ ừ ả ầ ế ủ ế ố ế ả ảnh hưởng của yếu t ố nguyên nhân đang nghiên cứu
SSG = ∑𝒌 𝒏𝒊(𝒙𝒊− 𝒙 )𝟐𝒊=𝟏
Có th d dàng ch ng minh là t ng các chênh lể ễ ứ ổ ệch bình phương toàn bộ (SST) bằng cách cộng tổng các chênh lệch bình phương trong nộ ộ các nhóm (SSW) và i b tổng các chênh lệch bình phương giữa các nhóm (SSG)
SST = SSW + SSG
Như vậy, t công th c trên cho th y, SST là toàn b ừ ứ ấ ộ biến thiên c a y u t kủ ế ố ết quả đã được phân tích thành hai phần: phần biến thiên do y u tế ố đang nghiên cứu tạo ra (SSG) và ph n bi n thiên còn l i do các y u t khác không nghiên cầ ế ạ ế ố ứu ở đây tạo ra (SSW) N u ph n bi n thiên do y u t ế ầ ế ế ố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần biến thiên do các yếu tố khác ta không xét tạo ra, thì chúng ta càng có cơ sở để bác bỏ 𝐻0 và k t lu n r ng y u tế ậ ằ ế ố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố k t qu ế ả
Bước 3: Tính phương sai (là trung bình của các chênh lệch bình phương) Các
phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc tự do tương ứng
Tính phương sai trong nội bộ nhóm (MSW) bằng cách lấy tổng cách chênh lệch bình phương nội bộ các nhóm (SSW chia cho bậc tự do tương ứng là 𝑛 − 𝑘 (𝑛 là s quan sát, ố 𝑘 là s ố nhóm so sánh) MSW là ước lượng ph n bi n thiên c a yầ ế ủ ếu tố k t qu do các y u t khác gây ra ế ả ế ố
𝒏− 𝒌
Trang 1010
Tính phương sai giữa các nhóm (MSG) b ng cách l y t ng các chênh l ch ằ ấ ổ ệ bình phương giữa các nhóm chia cho bậc tự do tương ứng là 𝑘 − 1 MSG là ước lượng ph n bi n thiên cầ ế ủa y u tế ố k t quế ả do y u t nguyên nhân đang nghiên cứu ế ố gây ra
MSG = 𝑺𝑺𝑮𝒌− 𝟏
Bước 4: Kiểm định gi thuy ả ết:
Giả thuy t v s b ng nhau c a k trung bình t ng thế ề ự ằ ủ ổ ể được quyết định dựa trên t s cỉ ố ủa hai phương sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ nhóm (MSW) T s ỉ ố này được g i là t s ọ ỉ ố F vì nó tuân theo định luật Fisher –
F > 𝐹(𝑘−1; 𝑛− 𝑘 );𝛼 là giá tr ị giới h n t b ng s 8 v i b c t do theo cạ ừ ả ố ớ ậ ự ột (𝑘 − 1) và hàng (𝑛 − 𝑘), nh ớ chọn b ng có mả ức ý nghĩa phù hợp Sau đây là dạng b ng kả ết quả t ng quát c a ANOVA khi phân tích bổ ủ ằng chương trình Excel hay SPSS
Trang 11Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị Histogram là phương pháp tốt nhất để kiểm tra giả định v phân phề ối bình thường c a dủ ữ liệu nhưng nó đòi hỏi một s ố lượng quan sát khá l n Biớ ểu đồ thân lá hay biểu đồ ộ h p và râu là m t thay th t t trong tình hu ng sộ ế ố ố ố quan sát ít hơn Nếu công cụ đồ thị cho thấ ậy t p d liệu màu khác phù h p v i phân phữ ợ ớ ối bình thường thì ta có th xem gi ể ả định phân phối bình thường đã thỏa mãn Hình dưới mô tả biểu đồ hộp râu cho t p ậ dữ liệu m u v ba nhóm có th i gian t h c trung bình có hình dáng phân phẫ ề ờ ự ọ ối của dữ liệu hơi lệch sang trái, còn hai nhóm còn lại có phân phối khác cân đối Với số quan sát không nhi u thi bi u hiề ể ện như thế này của d ữ liệu là khả quan và ch p nhấ ận được
Để khảo sát giả nh b ng nhau cđị ằ ủa các phương sai, biểu đồ ộp và râu cũng h cho c m nhả ận ban đầu nhanh chóng, v i ba biớ ểu đồ này, mức độ phân tán c a d ủ ữ liệu trong m i t p d ỗ ậ ữ liệu m u không khác bi t nhiẫ ệ ều.
Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm định Levene về phương sai của các t ng th Kiổ ể ểm định được phát ra t ừ giả thuy t sau: ế
𝑯𝟎 = 𝝈𝟏 = 𝝈𝟐 = 𝝈𝟑 = = 𝝈𝒌
𝑯𝟏 : Không phải các phương sai đều bằng nhau
Trang 12Trong đó 𝒔𝒎𝒂𝒙𝟐 là phương sai lớn nhất trong các nhóm nghiên cứu và 𝒔𝟐 là 𝒎𝒊𝒏 phương sai nhỏ nhất trong các nhóm nghiên cứu.
Giá tr ị F tính được sẽ đem so sánh với giá tr ị 𝑭(𝒌; 𝒅𝒇 );𝜶tra đượ ừ ảc t b ng phân phối Hartley 𝑭𝒎𝒂𝒙 (là b ng s 5 trong ph n ph lả ố ầ ụ ục) Trong đó k là số nhóm so sánh, bậc tự do df được tính theo công thức df = n 1– Trong tình hu ng các nhóm ố 𝑛𝑖
Nếu chúng ta không ch c ch n v các giắ ắ ề ả định ho c n u k t quặ ế ế ả kiểm định cho th y các gi ấ ả định không được th a mãn thì mỏ ột phương pháp kiểm định thay th ế cho ANOVA là phương pháp kiểm định phi tham số Kruskal Wallis s– ẽ được áp dụng
2 Phân tích phương sai hai yếu tố (Two-way ANOVA)
Two way Anova có th– ể được coi là một phần m r ng c a phân tích One ở ộ ủ – way Anova Phân tích phương sai 2 yếu t ố nhằm xem xét cùng lúc hai y u t nguyên ế ố nhân (dưới d ng d ạ ữ liệu định tính) ảnh hưởng đến yếu t k t qu ố ế ả (dưới dạng d ữ liệu định lượng) đang nghiên cứu
Phân loại:
+ Phân tích phương sai hai yếu t không lố ặp + Phân tích phương sai hai yếu t lố ặp
2.2 Phương pháp hồi quy
Định nghĩa hồi quy: Hàm h i quy c a Y theo X là k vồ ủ ỳ ọng có điều ki n cệ ủa Y đối với X, tức là E(Y|X)
Xét hàm h i quy tuyồ ến tính đơn có dạng: 𝑓𝑌(𝑋) = 𝐸(𝑌|𝑋) = 0+ 1𝑋
Giả s ta có m t mử ộ ẫu ngẫu nhiên có kích thước n thu được khi quan sát (Y,X) là:
Trang 13(𝑌𝑖, 𝑋𝑖) = (𝑌1, 𝑋1) (, 𝑌2, 𝑋2), … , (𝑌𝑛, 𝑋𝑛)
𝑓𝑌𝑖(𝑋𝑖) = 𝐸(𝑌𝑖|𝑋𝑖) = 0+ 1𝑋𝑖
Hay: 𝑌𝑖= 0+ 1𝑋𝑖+ 𝜀𝑖 𝑖 = 1, 𝑛
Đây là tổng quát c a mô hình h i quy tuyủ ồ ến tính đơn, trong đó 𝜀𝑖 là các sai s ố ngẫu nhiên và gi thi t rả ế ằng chúng độ ậc l p v i nhau, cùng tuân theo quy lu t phân ớ ậ
SST( Sum of Squares Total) đo mức biến động các giá trị quan sát y xung i
quanh giá tr trung bình c a chính mị ủ ẫu
SSE( Sum of Squares for Error | Sum of Squares Residual) là t ng bình ổ phương sai số ước lượng đo sự chênh lệch giữa từng giá trị quan sát với giá trị dự
Trang 1414
đoán (ước lượng) SSE được xem như sai số đo những y u t khác ngoài X ho c do ế ố ặ lấy m u ng u nhiên ẫ ẫ
SSR( Sum of Squares in Regression) là sai s do khác bi t giố ệ ữa đường h i quy ồ m u và trung bình c a Y S khác biẫ ủ ự ệt này được gi i thích b i sả ở ự biến động c a X ủ SSR đo sự phân tán c a d ủ ữ liệu do mô hình h i quy gây ra ồ
H s ệ ố xác định R : 2 𝑅2=𝑆𝑆𝑅𝑆𝑆𝑇 ℎ𝑎𝑦 𝑅2= (1 −𝑆𝑆𝐸𝑆𝑆𝑇)
Hệ s Rố 2 giải thích trong 100% sự biến động của Y so với trung bình của nó thì có bao nhiêu % là do bi n X gây ra R có mế 2 ức dao động trong đoạ ừ 0 đến t n 1 Nếu R2 càng ti n v 1, các biế ề ến độ ậc l p gi i thích càng nhi u cho bi n ph thu c, và ả ề ế ụ ộ ngượ ạc l i, R càng ti n v 0, các bi2 ế ề ến độ ậc l p gi i thích càng ít cho bi n ph thu c ả ế ụ ộ
Không có tiêu chu n chính xác cho vi c Rẩ ệ 2 nằm ở ứ m c bao nhiêu thì mô hình sẽ t yêu c u trong các nghiên cđạ ầ ứu, nhưng chúng ta thường ch n mọ ức 005 để phân biệt 2 nhánh ý nghĩa mạnh/ ý nghĩa yếu và kỳ vọng từ 0,5 đến 1 thì mô hình là tốt, bé hơn 0.5 đến 1 thì mô hình chưa đủ tốt
Trong mô hình h i quy tuyồ ến tính đơn, 𝑅2= 𝑟2𝑥𝑦 ,
trong đó 𝑟𝑥𝑦 𝑙à ℎệ 𝑠ố 𝑡ươ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑚ẫ𝑢 𝑐ó 𝑐ô𝑛𝑔 𝑡ℎứ𝑐 𝑟𝑥𝑦=𝑥𝑦𝑠𝑥.𝑠𝑦−𝑥 𝑦
Ước lượng độ lệch chuẩn : 𝜎2 𝑐ó ướ𝑐 𝑙ượ𝑛𝑔 𝑘ℎô𝑛𝑔 𝑐ℎệ𝑐ℎ 𝑐ủ𝑎 𝑛ó 𝑙à 𝜎2
𝑛 − 2 ⇒ 𝜎 = √𝑆𝑆𝐸 𝑛 − 2
Ước lượng các hệ s h i quy vố ồới độ tin cậy 1-α:
• Khoảng ước lượng cho tung độ gốc 0 là ( 0− 𝜀 ,0 0+ 𝜀 0), với:
Trang 15Kiểm định sự phù hợp c a hàm h i quy tuyủồến tính đơn:
Dự báo giá trị trung bình c a Y khi X = x ủ 0
( Khoảng ước lượng của 𝑓𝑌(𝑥0) với độ tin c y 1- ậ α) ➢ Đọc d liệu t tữ ừ ập tin Air_Traffic_Passenger_Statistics.csv và lưu nó vào dataframe Hanh_khach
➢ check.names=FALSE: N u tên cế ột để trống sẽ không tr v giá tr , cho ả ề ị phép các tên cột đượ c trùng lặp nhau
Trang 16+Passenger<- na.omit(Passenger): Dùng để xóa d u NA ữ liệ +apply(is.na(Passenger),2,which): Ki m tra còn d u NA không ể ữ liệ - Nhận xét:
+ D a vào k t quự ế ả kiểm tra dữ liệu khuyết trong dataframe “Passenger”, ta không th y các giá tr trong các bi n có dấ ị ế ữ liệu khuy t Vì v y, không c n s dế ậ ầ ử ụng dataframe m i (HK) ch a các biớ ứ ến được lọc theo biến “Middle East”
+ PassengerAna <- PassengerAna %>% select(-c(“…”)): Chuyển dữ liệu và lọc các biến không s d ng t ử ụ ừ dataframe “HK” cũ sang dataframe “HK” mới
Trang 17➢ %>%>: Chuy n d ể ữ liệu t ừ dataframe bên trái(“HK” cũ) sang dataframe bên phải(“HK” mới)
➢ select(-c(“…”)): bỏ các biến nằm trong dấu (“…”)
3.2.1 Làm rõ d u: ữ liệ
- Thống kê mô t các bi n liên tả ế ục:
+describe(PassengerAna[,c("Adjusted_Passenger_Count","Year","Month")], fast=T): Hàm describe dùng để tính các giá tr ị thống kê mô t c a các bi n có trong ả ủ ế dataframe đang xét và xuất ra kết quả dưới dạng b ng ả
"Adjusted_Passenger_Count" trên tr c x c a histogram ụ ủ
➢ main="Histogram of Adjusted_Passenger_Count": Tiêu đề của histogram
➢ labels=T:
➢ ylim=c(0,100)): Gi i h n giá tr cớ ạ ị ột y t ừ 0 đến 100
Trang 1818
- Nhận xét:
+ Phân ph i c a biố ủ ến “Adjusted_Passenger_Count” tập trung nhi u nh t trong ề ấ kho ng (6000,10000) T ả ừ đây, ta thấy r ng s ằ ố lượng hành khách ph ổ biến là t 6000 ừ - 10000(người)
+ Điểm cao nh t c a biấ ủ ểu đồ có giá tr là 85 t i khoị ạ ảng (8000,10000) và điểm thấp nh t của biấ ểu đồ có giá tr là 4 t i kho ng (>14000) ị ạ ả
- Biểu đồ Boxplot: th ể hiện phân phối c a biủ ến “Adjusted_Passenger_Count” theo t ng hãng hàng không trong khu v c Middle East( EY, EK) ừ ự
- Giải thích code: +
“Operating_Airline_IATA_Code” trong dataframe “PassengerAna”
Trang 19- Nhận xét: Có rất nhi u giá tr ngo i lai ề ị ạ ở “Operating_Airline_IATA_Code” (EK), điều này ảnh hưởng nhiều đến kết quả phía sau.Tương tự đối với “Operating_Airline_IATA_Code” (EY) thì ngược lại Ta xác định tần suất hành khách c a mủ ỗi hãng hàng không dao động khác nhau, cụ thể:
- Khoảng dao động trong s ố lượng hành khách c a hãng EY là th p nh t ủ ấ ấ - Khoảng dao động trong s ố lượng hành khách c a hãng EK là cao nhủ ất 4 Th ng kê mô t ốả
4.1 D u sau tóm t t ữ liệắ
Sau khi th c hi n quá trình d n d p, hi n tự ệ ọ ẹ ệ ại chúng ta đã có mộ ộ ữ liệt b d u rõ ràng và sạch s trong newdata Tóm t t b ng cách cách s d ng hàm summary ẽ ắ ằ ử ụ
Trang 2020
Hình 4: phân b cố ủa s lượng hàng khách ố
- Nhận xét: đồ thị không tuân theo phân ph i chu n, có phân b lố ẩ ố ệch ph i, ả chứng tỏ có m t s hãng bay ti p nh n khách hàng trong tháng cao bộ ố ế ậ ất thường Đồ thị Boxplot th ể hiện phân phố ủi c a s lượng hàng khách theo các biến phân loại ố
Hình 5: phân ph i s ố ố lượng hàng khách theo hãng bay
- Nhận xét:
o H u hầ ết các hãng bay đều có giá tr ngo i lai ị ạ
Trang 21Hình 6: phân ph i s ố ố lượng hàng khách theo nhu cầu đi trong nước và quốc
tế
o D u có giá tr ngo i biên ữ liệ ị ạ
o Domestic có phân phối hàng khách không đều trong khi International thì ngược lại
o Domestic có phân ph i b l ch ph i, có ố ị ệ ả nghĩa có các chuyến bay có lượng hàng khách cao bất thường
o Domestic có hộp cao hơn International, chứng t ỏ lượng hàng khách cao vượt trội
Hình 7: phân ph i s ố ố lượng hàng khách theo vùng địa lý
o các khu vực đều có đường trung vị b ng nhau ằ
o khu v c US có hự ộp cao hơn so với các khu v c khác Cho th y khu ự ấ vực này có lượng hàng khách vượt trội hơn các khu vực