1.3 Thực hiện
1.3.5 Mơ hình hồi quy tuyến tính: Sử dụng một mơ hình hồi quy phù hợp để phân
các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay.
Để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay, ta xem biến (arr_delay) là biến phụ thuộc, và các biến độc lập là biến hãng hàng không (carrier), biến chỉ sân bay đi (origin), biến chênh lệch thời gian khởi hành (dep_delay) và biến khoảng cách giữa hai sân bay (distance). Đây là những yếu tố dự báo có thể giúp giải thích sự biến đổi về việc lệch giờ đến của các chuyến bay.
Biến phụ thuộc:arr_delay
Biến độc lập:carrier,origin,dep_delay,distance. Mơ hình được biểu diễn như sau:
arr_delay=β0+β1×carrierAS+β2×carrierB6 +β3×carrierDL+β4×carrierF9 +...+β10× carrierW N +β11×originSEA+β12×dep_delay+β13×distance
Ta thực hiện ước lượng các hệ số βi,i= 0, ...,13 dựa trên tệp tinnew_DF2:
Hình 31: code R và kết quả khi xây dựng mơ hình hồi quy tuyến tính lm_model_1
Nhận xét: Từ kết quả phân tích, ta thu được:
b
β0 =−2.750e−01;β1b = 6.322e−01;β2b = 7.521e−02;β3b =−8.403e−01;β4b = 2.068e+ 00 b
β5 = 6.628e+ 00;β6b = 1.858e−01;β7b =−3.494e+ 00;β8b = 1.160e−01;β9b =−2.075e+ 00 b
β10=−2.890e+ 00;β11b = 3.192e−01;β12b = 9.965e−01;β13b =−2.684e−03
Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
arr_delay = −2.750e−01 + 6.322e−01×carrierAS + 7.521e−02×carrierB6−8.403e−01× carrierDL+ 2.068e+ 00×carrierF9 +...−2.890e+ 00×carrierW N + 3.192e−01×originSEA+ 9.965e−01×dep_delay−2.684e−03×distance
Kiểm định các hệ số hồi quy:
Giả thuyếtH0: Hệ số hồi quy khơng có ý nghĩa thống kê (βi = 0)
+ P r(> |t|) của các hệ số ứng với biến carrierB6, carrierOO, carrierUS lớn hơn mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyếtH0. Do đó hệ số ứng với các biến này khơng có ý nghĩa với mơ hình hồi quy ta xây dựng. Ta có thể cân nhắc việc loại bỏ các biến này ra khỏi mơ hình. Ta xây dựng mơ hình 2: là mơ hình loại bỏ biếncarrierra khỏi mơ hình 1.
Hình 32: code R và kết quả khi xây dựng mơ hình hồi quy tuyến tính lm_model_2
Ta so sánh các mơ hình 1 và mơ hình 2:
Hình 33: code R và kết quả khi so sánh 2 mơ hình lm_model_1 vàlm_model_2
Nhận xét: Dựa trên việc so sánh 2 mơ hình, ta thấy p−value < 2.2e−16 rất bé so với mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết H0, ta có thể kết luận 2 mơ hình hiệu quả khác nhau. Mặt khác dựa vào hệ số xác định hiệu chỉnh ở mơ hình 1 (AdjustedR−squared = 0.8577) cao
hơn so với mơ hình 2 (AdjustedR−squared= 0.8548), chứng tỏ sự biến thiên của biến arr_delay
được giải thích nhiều hơn bởi các biến độc lập. Như vậy mơ hình 1 là mơ hình hiệu quả hơn mơ hình 2.
Phân tích sự tác động của các nhân tố lên việc lệch giờ đến:
Như vậy mơ hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên việc lệch giờ đến được cho bởi: arr_delay = −2.750e−01 + 6.322e−01×carrierAS + 7.521e−02×carrierB6−8.403e−01× carrierDL+ 2.068e+ 00×carrierF9 +...−2.890e+ 00×carrierW N + 3.192e−01×originSEA+ 9.965e−01×dep_delay−2.684e−03×distance
Trước hết, ta thấy rằngp−value tương ứng với thống kêF bé hơn2.2e−16, có ý nghĩa rất cao. Điều
này chỉ ra rằng, ít nhất một biến dự báo trong mơ hình có ý nghĩa giải thích rất cao đến việc lệch giờ đến arr_delay.
Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 28
Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trọng số (hệ số βi) và p−value tương ứng. Ta thấy rằng p−value tương ứng với các biến carrierHA, carrierVX,carrierWN, dep_delay, distancebé hơn2e−16, điều này nói lên rằng ảnh hưởng của các biến này có ý nghĩa rất cao lên việc
lệch giờ đếnarr_delay. Mặt khác, hệ số hồi quy βi của một biến dự báo cũng có thể được xem như ảnh hưởng trung bình lên biến phụ thuộcarr_delay khi tăng một đơn vị của biến dự báo đó, giả sử rằng các biến dự báo khác khơng đổi. Cụ thể, β12b = 9.965e−01 thì khi chênh lệch giữa giờ bay tăng 1 phút ta có thể kỳ vọng chênh lệch giữa giờ đến sẽ tăng lên 9.965e-01 phút (giả sử rằng các biến dự báo khác không đổi). Vớiβ13b =−2.684e−03 thì khi khoảng cách giữa 2 sân bay tăng tăng 1 dặm, ta có thể kỳ vọng chênh lệch giờ đến sẽ giảm -2.684e-03 phút (giả sử rằng các biến dự báo khác không đổi). Hệ sốR2 hiệu chỉnh bằng 0.8577 nghĩa là 85.77% sự biến thiên trong việc lệch giờ đến được giải thích bởi các biến các biến độc lập.
Kiểm tra các giả định của mơ hình
Nhắc lại các giả định của mơ hình hồi quy: Yi =β0+β1.X1+...βi.Xi+ǫi,i= 1, ...n.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính.
+ Sai số có phân phối chuẩn
+ Phương sai của các sai số là hằng số: ǫi ∼N(0, σ2)
+ Các sai số ǫ1, ..., ǫn thì độc lập với nhau.
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mơ hình:
Hình 34: code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mơ hình
Nhận xét:
+ Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn chưa thực sự thỏa mãn. + Đồ thị thứ 1 (Residuals vs Fitted) cho thấy giả định về tính tuyến tính của dữ liệu thoả mãn. + Đồ thị thứ 1 và thứ 3 (Scale - Location) cho ta thấy rằng giả định về tính đồng nhất của phương sai cũng bị vi phạm. Ta thấy sự vi phạm này có thể do có quá nhiều sai số.
+ Đồ thị thứ 4 chỉ ra có các quan trắc thứ 52723, 55299 và 120906 có thể là các điểm có ảnh hưởng cao trong bộ dữ liệu.
2 Hoạt động 2 2.1 Đề bài
Sinh viên tự tìm một bộ dữ liệu thuộc về chun ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án,... trong chuyên ngành của mình. Ngồi ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mơ hình dữ liệu (model fitting).
Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 30
TÀI LIỆU THAM KHẢO
1. Hoàng Văn Hà, Bài giảng Xác suất Thống Kê.