II. HOẠT ĐỘNG 1
2.2 Thực hiện
2.2.4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay
(dep_delay) giữa các hãng bay
Ta quan tâm đến việc kiểm định rằng liệu có sự khác biệt về việc lệch giờ bay trung bình giữa các hãng hàng khơng đối với các chuyến bay khởi hành từ Portland trong năm 2014 hay không?
Lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014:
Hình 17. Code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014.
Giải thích lý do sử dụng ANOVA một nhân tố:
Ta có 11 hãng hàng khơng có chuyến bay khởi hành từ Portland trong năm 2014. Để thực hiện so sánh trung bình của nhiều nhóm, phương pháp tối ưu nhất là dùng phân tích phương sai. Nếu chỉ so sánh 2 trung bình của 2 nhóm, ta có thể dùng t-test. Vì vậy, nếu dùng t-test cho bài tốn này, ta phải thực hiện kiểm định rất nhiều lần. Phương pháp phân tích phương sai cho ta kết luận sự bằng nhau hoặc khác nhau giữa các nhóm so sánh thơng qua một phép kiểm định duy nhất.
Như vậy ta sử dụng mơ hình ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay đối với các chuyến bay khởi hành từ Portland trong năm 2014.
Biến phụ thuộc: dep_delay
Các nhân tố (hay biến độc lập): carrier
Đặt giả thuyết:
+ Giả thuyết H_0: μ_1= μ_2= … = μ _1 1 ↔ Việc lệch giờ bay trung bình giữa các hãng hàng khơng đối với các chuyến bay khởi hành từ Portland năm 2014 bằng nhau. + Đối thuyết H_1: ∃μ_i ≠ μ_j với (i ≠j) Có ít nhất 2 hãng hàng khơng đối với các chuyến bay khởi hành từ Portland năm 2014 có việc lệch giờ bay trung bình khác nhau.
Bảng 4: Bảng ANOVA một nhân tố. Nguồn của sự biến
thiên
Giữa các nhóm
Trong từng nhóm
Tổng
Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các hãng hàng không đối với các
chuyến bay khởi hành từ Portland tuân theo phân phối chuẩn.
+ Tính đồng nhất của các phương sai: Phương sai việc lệch giờ bay ở các hãng
hàng không đối với các chuyến bay khởi hành từ Portland bằng nhau.
Kiểm tra giả định phân phối chuẩn:
Giả thuyết H_0: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portland tuân theo phân phối chuẩn.
Đối thuyết H_1: Việc lệch giờ bay ở các hãng hàng khơng đi với các chuyến bay khởi hành từ Portland không tuân theo phân phối chuẩn.
Hình 18. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AA.
Nhận xét: Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
dường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không AA không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không AA không tuân theo phân phối chuẩn.
Hình 19. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AS.
Nhận xét: Biểu đồ QQ- plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng khơng AS khơng tn theo phân phối chuẩn.
Ngồi ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng khơng AS khơng tn theo phân phối chuẩn.
Hình 20. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không B6.
Nhận xét: Biểu đồ QQ- plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không B6 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không B6 không tuân theo phân phối chuẩn.
Hình 21. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không DL.
Nhận xét: Biểu đồ QQ- plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng khơng DL khơng tn theo phân phối chuẩn.
Ngồi ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng khơng DL khơng tn theo phân phối chuẩn.
Hình 22. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không F9.
Nhận xét: Biểu đồ QQ- plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không F9 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không F9 không tuân theo phân phối chuẩn.
Hình 23. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không HA.
Nhận xét: Biểu đồ QQ- plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng khơng HA khơng tn theo phân phối chuẩn.
Ngồi ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng khơng HA khơng tn theo phân phối chuẩn.
Hình 24. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không OO.
Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng khơng OO khơng tn theo phân phối chuẩn.
Ngồi ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không OO không tuân theo phân phối chuẩn.
Hình 25. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không UA.
Nhận xét: Biểu đồ QQ- plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng khơng UA khơng tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không UA khơng tn theo phân phối chuẩn.
Hình 26. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không US.
Nhận xét: Biểu đồ QQ- plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng khơng US khơng tn theo phân phối chuẩn.
Ngồi ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không US không tuân theo phân phối chuẩn.
Hình 27. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không VX.
Nhận xét: Biểu đồ QQ- plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng khơng VX khơng tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không VX khơng tn theo phân phối chuẩn.
Hình 28. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không WN.
Nhận xét: Biểu đồ QQ- plot cho ta thấy có nhiều giá trị quan sát khơng nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng khơng WN khơng tn theo phân phối chuẩn.
Ngồi ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không WN không tuân theo phân phối chuẩn.
Kiểm định giả định về tính đồng nhất của các phương sai:
Giả thuyết 0: Phương sai việc lệch giờ bay ở các hãng hàng không đối với các chuyến
bay khởi hành từ Portland bằng nhau.
Đối thuyết 1: Có ít nhất 2 hãng hàng không đối với các chuyến bay khởi hành từ
Hình 29. Code R và kết quả khi kiểm định về tính đồng nhất của phương sai.
Nhận xét: Dựa trên p-value ở kiểm định leveneTest bé hơn rất nhiều so với mức ý nghĩa α=0.05, nên ta bác bỏ giả thuyết 0, vậy ta có thể đưa ra kết luận là có ít nhất 2 hãng hàng khơng đối với các chuyến bay khởi hành từ Portland có phương sai việc lệch giờ bay khác nhau.
Thực hiện phân tích phương sai một nhân tố:
Hình 30. Code R và kết quả khi thưc hiện ANOVA một nhân tố.
Nhận xét: Dựa trên kết quả ANOVA cho thấy:
+ SSB=748990, bậc tự do k-1=10(k=11)
+ SSW=2594172, bậc tự do N-k=52808-11=52797 (N là tổng số phần tử khảo sát ở tất
cả các nhóm)
+ MSB=SSB/(k-1)=74899
+ MSW=SSW/(N-k)=49
+ Giá trị thống kê kiểm định: f=MSB/MSW=1524
+ Mức ý nghĩa quan sát: p-value<2e-16
Dựa vào p-value<2e-16 rất bé so với mức ý nghĩa α=0.05 nên ta bác bỏ được giả thuyết H_0.
Ngồi ra, ta có thể dựa vào f=1524> ngưỡng f_(α:k-1:N-k)=f_(0.05:10:52797)=1.8309 nên ta cũng đưa ra kết luận là bác bỏ được giả thuyết H_0.
Vậy có sự khác biệt về việc lêhcj giờ bay trung bình giữa các hãng hàng khơng đối với các chuyến bay khởi hành từ Portland trong năm 2014.
Thực hiện so sánh bội:
Nhận xét:
+ Đối với hãng AS-AA:
Giả thuyết 0: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS và AA bằng nhau.
Đối thuyết 1: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở hãnh hàng không AS và AA khác nhau.
Dựa vào pevalue, ta thấy pvalue = 0.0000 < mức ý nghĩa 5% nên ta bác bỏ H_0, chấp
nhận 1. Vậy thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS và AA khác nhau. Mặt khác, diff = -3.0350 < 0 nên ta có thể kết luận thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở hãng hàng không AS thấp hơn AA.
Ngồi ra, ta có thể đưa ra kết luận dựa vào khoảng tin vậy (-3.5614:-2.5086) không chứa giá trị 0 nên thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở hãng hàng không AS và AA khác nhau, và khoảng tin cậy nhận giá trị âm nên thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở hãng hàng không AS thấp hơn AA.
+ Đối với hãng B6-AA:
Giả thuyết 0: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không B6 và AA bằng nhau.
Đối thuyết 1: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãnh hàng không B6 và AA khác nhau.
Dựa vào pevalue, ta thấy pvalue = 0.9960 > mức ý nghĩa 5% nên ta bác bỏ H_0, chấp nhận H_1. Vậy thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở hãng hàng khơng B6 và AA bằng nhau.
Ngồi ra, ta có thể đưa ra kết luận dựa vào khoảng tin vậy (-1.0454:-0.5512) chứa giá trị 0 nên thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở hãng hàng không B6 và AA bằng nhau.
Tương tự, ta sẽ thực hiện so sách đối với từng vặp hãng hàng không. Ta sẽ đưa ra kết luận rằng hãng WN có thời gian khởi hành trễ nhất.
Ta cũng có thể đưa ra kết luận dựa vào đồ thị sánh bội:
Hình 32. Code R và kết quả khi vẽ đồ thị so sánh bội.
Nhận xét:
Nếu khoảng tin cậy cắt đường x=0, tức nghĩa là thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở 2 hãng hàng khơng bằng nhau, và ngược lại. Ngồi ra, nếu khoảng tin cậy nằm về bên phải trục x=0, cho thấy thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở 2 hãng hàng không thứ nhất cao hơn hãng hàng không thứ 2, và ngược lại. Dựa trên đồ thị so sánh bội, ta cũng đưa ra kết luận rằng hãng WN có thời gian khởi hành trễ nhất.
2.2.5. Mơ hình hồi quy tuyến tính: Sử dụng một mơ hình hồi quy phù hợp để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay.
Để phân tích các yếu tố ảnh hưởng đến việc lệch giờ bay (arr_delay) của các chuyến bay, ta xe biến (arr_delay) là biến phụ thuộc, và các biến độc lập là biến hãng hàng không (carrier), biến chỉ sân bay đi (origin), biến chênh lệch thời gian khởi hành
(dep_delay) và biến khoảng cách giữa hai sân bay (distance). Đây là những yếu tố dự
báo có thể giúp giải thích sự biến đổi về việc lệch giờ đến của các chuyến bay.
Thực hiện vẽ đồ thị phân tán thể hiện phân phối của arr_delay theo biến dep_delay và dis-tance.
Hình 33. Code R và kết quả khi vẽ đồ thị phân tán thể hiện phân phối của arr_delay theo biến dep_delay và distance.
Nhận xét: Dựa trên các đồ thị phân tán, ta nhận thấy biến arr_delay có mối quan hệ
tuyến tính với biến dep_delay, tuy nhiên lại khơng có quan hệ tuyến tính với distance
Ta xây dựng mơ hình hồi quy bao gồm: Biến phụ thuộc: arr_delay
Biến độc lập: carrier, origin, dep_delay, distance. Mơ hình được biểu diễn như sau:
=0+1× +2× 6+3×
+ 4× 9+...+10× + 11×
+
12
Hình 34. Code R và kết quả khi xây dưng mơ hình hồi quy tuyến tính Im_model_1.
Nhận xét: Từ kết quả phân tích, ta thuh được:
̂ = −2.750 − 01; ̂ = 6.322 − 01; ̂ = 7.521 − 02; ̂ = −8.403 − 01; ̂ 0 ̂ = 6.628 + 00; ̂ = 1.858 − 01; ̂ = −3.494 + 00; ̂ = 1.160 + 01; ̂ 5 ̂ = −2.890 + ô; ̂ = 3.192 − 01; ̂ = 9.965 − 01; ̂ = −2.684 − 03 10
Như vây, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
̂
_ = −2.750 − 01 + 6.322 − 01 × + 7.521
− 02 × 6 − 8.403 − 01 × + 2.068
+ 00× 9+⋯−2.890 +00× +3.192 − 01 × + 9.965 − 01 × − 2.684 −03×
Kiểm định các hệ số hồi quy:
Giả thuyết 0: Hệ số hồi quy khơng có ý nghĩa thống kê ( = 0)
+ Pr (> | |) của các hệ số ứng với biến carrierB6, carrierOO, carrierUS lớn hơn mức ý
nghĩa = 0.05 nên ta chưa đủu cơ sở để bác bỏ giả thuyết 0. Do đó hệ số ứng với các biến này khơng có ý nghĩa với mơ hình hồi quy ta xây dựng. Ta có thể cân nhắc việc loại bỏ biến carrier ra khỏi mơ hình.
Ta xây dựng mơ hình 2: là mơ hình loại bỏ biến carrier ra khỏi mơ hình 1.
Hình 35. Code R và kết quả khi xây dựng mơ hình hồi quy tuyến tính Im_model_2.