1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ

32 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • HOAT ÐNG 1:

    • Ð bài

    • C s lý thuyt

    • Thc hin

      • Ðoc d liu (Import data)

      • Làm sach d liu (Data cleaning)

      • Làm rõ d liu: (Data visualization)

      • ANOVA mt nhân t: ánh giá s khác bit trong vic lch gi bay (dep_delay) gia các hãng bay.

      • Mô hình hi quy tuyn tính: S dung mt mô hình hi quy phù hp phân tích các yu t anh hng n vic lch gi n (arr_delay) cua các chuyn bay.

  • Hoat ng 2

    • Ð bài

Nội dung

lOMoARcPSD|9242611 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA CƠ KHÍ BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 211 NHÓM: CK04 - ĐỀ TÀI: 04 GIẢNG VIÊN HƯỚNG DẪN: ThS NGUYỄN KIỀU DUNG DANH SÁCH NHÓM: STT Họ tên Hoàng Phạm Minh Vũ Nguyễn Ngọc Quốc Việt Lâm Hải Đăng Nguyễn Hà Anh Minh Lê Tấn Phát MSSV 2010796 2015048 2011081 2010796 1911822 Lớp/Tổ L01/A L04/C L10/A L14/A L14/A Tp Hồ Chí Minh, Tháng 01/11/2021 Ngành học Cơ Khí Cơ Khí Cơ Khí Cơ Khí Cơ Khí Kí tên lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 PHÂN CƠNG LÀM VIỆC STT Họ tên Hoàng Phạm Minh Vũ Nguyễn Ngọc Quốc Việt Lâm Hải Đăng Nguyễn Hà Anh Minh Lê Tấn Phát Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Nội dung Nhiệm vụ Trang lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Mục lục HOẠT ĐỘNG 1: 1.1 Đề 1.2 Cơ sở lý thuyết 1.3 Thực 1.3.1 Đọc liệu (Import data) 1.3.2 Làm liệu (Data cleaning) 1.3.3 Làm rõ liệu: (Data visualization) 1.3.4 ANOVA nhân tố: đánh giá khác biệt việc lệch bay (dep_delay) hãng bay 14 1.3.5 Mơ hình hồi quy tuyến tính: Sử dụng mơ hình hồi quy phù hợp để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay 27 Hoạt động 2.1 Đề 30 30 Trang lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Danh sách bảng Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Danh sách hình vẽ 10 11 12 13 14 15 16 17 18 19 20 21 22 code R kết đọc tệp tên xem dòng tệp tin code R kết tạo tệp tin bao gồm biến code R kết kiểm tra liệu khuyết tệp tin code R xoá quan sát chứa liệu khuyết code R kết kiểm tra lại số lượng tỉ lệ quan sát chứa liệu khuyết xoá code R kết tính giá trị thống kê mơ tả cho biến dep_delay hãng hàng không (carrier) code R kết vẽ biểu đồ boxplot thể phân phối biến dep_delay theo hãng hàng không (carrier) code R tạo function xác định outliers, chuyển outliers thành dạng NA code R kết lọc outliers tương ứng với hãng chuyển thành NA code R ghép liệu lại với code R kết Kiểm tra tổng NA tỷ lệ NA tệp tin new_DF3 code R thay NA giá trị trung bình tương ứng với hãng hàng không code R ghép liệu lại với lưu lại vào new_DF3 code R kiểm tra lại NA data new_DF2 sau xử lý NA code R kết tính lại giá trị thống kê mô tả cho biến dep_delay hãng hàng không (carrier) code R kết lại vẽ biểu đồ boxplot thể phân phối biến dep_delay theo hãng hàng không (carrier) code R kết lọc chuyến bay chuyến bay khởi hành từ Portland năm 2014 code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không AA code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không AS code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không B6 code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không DL code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không F9 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG 7 8 9 10 10 10 11 11 11 11 12 12 14 15 16 17 18 19 Trang lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 23 24 25 26 27 28 29 30 31 32 33 34 Nhóm CK04 code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không HA code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không AA code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không UA code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không US code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không VX code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không WN code R kết kiểm định giả định tính đồng phương sai code R kết thực ANOVA nhân tố code R kết xây dựng mơ hình hồi quy tuyến tính lm_model_1 code R kết xây dựng mơ hình hồi quy tuyến tính lm_model_2 code R kết so sánh mơ hình lm_model_1 lm_model_2 code R kết vẽ đồ thị phân tích thặng dư để kiểm tra giả định mơ hình Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG 20 21 22 23 24 25 26 26 27 28 28 29 Trang lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 ĐỀ TÀI 1.1 HOẠT ĐỘNG 1: Đề Tập tin flights.rda cung cấp thông tin 162049 chuyến bay khởi hành từ hai sân bay lớn vùng Tây bắc Thái Bình Dương Mỹ, SEA Seattle PDX Portland năm 2014 Dữ liệu cung cấp Văn phòng Thống kê Vận tải, Mỹ Dữ liệu dùng để phân tích nguyên nhân gây khởi hành trễ hoãn chuyến bay Chi tiết liệu sau: Các biến liệu: • year, month, day: ngày khởi hành chuyến bay • carrier: tên hãng hàng khơng, mã hóa chữ in hoa Ví dụ: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v • origin dest: tên sân bay đến Đối với sân bay đi, ta có hai giá trị SEA (Seattle) PDX (Portland) • dep_time arr_time: thời gian cất cánh hạ cánh (theo lịch dự kiến) • dep_delay arr_delay: chênh lệch (phút) thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in vé • distance: khoảng cách hai sân bay (dặm) Các bước thực hiện: Đọc liệu (Import data): "flights.rda" Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị ANOVA nhân tố: đánh giá khác biệt việc lệch bay (dep_delay) hãng bay Mơ hình hồi quy tuyến tính: Sử dụng mơ hình hồi quy phù hợp để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay 1.2 Cơ sở lý thuyết Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 1.3 1.3.1 Nhóm CK04 Thực Đọc liệu (Import data) Đọc tệp tin "flights.rda" Hình 1: code R kết đọc tệp tên xem dòng tệp tin 1.3.2 Làm liệu (Data cleaning) Tạo tệp tin bao gồm biến mà đề đưa ra, lưu với tên new_DF Hình 2: code R kết tạo tệp tin bao gồm biến Kiểm tra liệu khuyết tệp tin Hình 3: code R kết kiểm tra liệu khuyết tệp tin Nhận xét: Dựa vào kết thu bảng thống kê tỷ lệ giá trị khuyết biến, ta nhận thấy có nhiều giá trị khuyết biến arr_delay, arr_time, dep_time, dep_delay Vì lượng khuyết liệu chiếm tối đa 4% lượng quan sát (dưới 10%), ta lựa chọn phương pháp xố quan sát biến có giá trị khuyết tệp tin new_DF Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 4: code R xoá quan sát chứa liệu khuyết Kiểm tra lại số lượng tỉ lệ quan sát chứa liệu khuyết xố Hình 5: code R kết kiểm tra lại số lượng tỉ lệ quan sát chứa liệu khuyết xoá Nhận xét: Ta nhận thấy số lượng quan sát sau xoá 1301 quan sát, chiếm tỷ lệ 0.8% so với liệu ban đầu, thấy việc xố quan sát biến có giá trị khuyết tệp tin newD F không ảnh hưởng nhiều đến kết liệu 1.3.3 Làm rõ liệu: (Data visualization) Tính giá trị thống kê mơ tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, điểm tứ phân vị) chênh lệch thời gian cất cánh thực tế thời gian cất cánh/hạ cánh in vé (biến dep_delay) hãng hàng không (carrier) Xuất kết dạng bảng Vẽ biểu đồ boxplot thể phân phối biến dep_delay theo hãng hàng không (carrier) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 6: code R kết tính giá trị thống kê mơ tả cho biến dep_delay hãng hàng khơng (carrier) Hình 7: code R kết vẽ biểu đồ boxplot thể phân phối biến dep_delay theo hãng hàng không (carrier) Nhận xét: Qua biểu đồ ta thấy có nhiều điểm ngoại lai (outliers) biến dep_delay, điều nguyên nhân ảnh hưởng đến kết phân tích phía sau Do đó, ta sử dụng khoảng tứ phân vị (interquartile range) để loại bỏ điểm outlier Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 20: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không B6 Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng B6 khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không B6 không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 17 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 21: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không DL Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng DL khơng tuân theo phân phối chuẩn Ngoài ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không DL không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 18 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 22: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không F9 Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng không F9 không tuân theo phân phối chuẩn Ngoài ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không F9 không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 19 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 23: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không HA Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng HA khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không HA không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 20 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 24: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không AA Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng không OO không tuân theo phân phối chuẩn Ngoài ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không OO không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 21 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 25: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không UA Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng UA khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không UA không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 22 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 26: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không US Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng US khơng tuân theo phân phối chuẩn Ngoài ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không US không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 23 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 27: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không VX Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng không VX không tuân theo phân phối chuẩn Ngoài ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không VX không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 24 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 28: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không WN Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng WN khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không WN không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 25 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Kiểm định giả định tính đồng phương sai: Giả thuyết H0 : Phương sai việc lệch bay hãng hàng không chuyến bay khởi hành từ Portland Giả thiết H: Có hãng hàng khơng chuyến bay khởi hành từ Portland có phương sai việc lệch bay khác Hình 29: code R kết kiểm định giả định tính đồng phương sai Nhận xét: Dựa p-value kiểm định leveneTest bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , ta đưa kết luận có hãng hàng khơng chuyến bay khởi hành từ Portland có phương sai việc lệch bay khác Thực phân tích phương sai nhân tố: Hình 30: code R kết thực ANOVA nhân tố Nhận xét: Dựa kết ANOVA cho thấy: + SSB = 748990, bậc tự k − = 10(k = 11) + SSW = 2594172, bậc tự N − k = 52808 − 11 = 52797 (N tổng số phần tử khảo sát tất nhóm) + M SB = SSB/(k − 1) = 74899 + M SW = SSW/(N − k) = 49 + Giá trị thống kê kiểm định: f = M SB/M SW = 1524 + Mức ý nghĩa quan sát: p − value < 2e − 16 Dựa vào p − value < 2e − 16 bé so với mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết H0 Ngồi ta, ta dựa vào f = 1524 > ngưỡng fα;k−1;N −k = f0.05;10;52797 = 1.8309 nên ta đưa kết luận bác bỏ giả thuyết H0 Vậy có khác biệt việc lệch bay trung bình hãng hàng khơng chuyến bay khởi hành từ Portland năm 2014 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 26 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 1.3.5 Nhóm CK04 Mơ hình hồi quy tuyến tính: Sử dụng mơ hình hồi quy phù hợp để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay Để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay, ta xem biến (arr_delay) biến phụ thuộc, biến độc lập biến hãng hàng không (carrier), biến sân bay (origin), biến chênh lệch thời gian khởi hành (dep_delay) biến khoảng cách hai sân bay (distance) Đây yếu tố dự báo giúp giải thích biến đổi việc lệch đến chuyến bay Biến phụ thuộc: arr_delay Biến độc lập: carrier, origin, dep_delay, distance Mơ hình biểu diễn sau: arr_delay = β0 + β1 × carrierAS + β2 × carrierB6 + β3 × carrierDL + β4 × carrierF + + β10 × carrierW N + β11 × originSEA + β12 × dep_delay + β13 × distance Ta thực ước lượng hệ số βi , i = 0, , 13 dựa tệp tin new_DF2: Hình 31: code R kết xây dựng mơ hình hồi quy tuyến tính lm_model_1 Nhận xét: Từ kết phân tích, ta thu được: β0 = −2.750e − 01; β1 = 6.322e − 01; β2 = 7.521e − 02; β3 = −8.403e − 01; β4 = 2.068e + 00 β5 = 6.628e + 00; β6 = 1.858e − 01; β7 = −3.494e + 00; β8 = 1.160e − 01; β9 = −2.075e + 00 β10 = −2.890e + 00; β11 = 3.192e − 01; β12 = 9.965e − 01; β13 = −2.684e − 03 Như vậy, đường thẳng hồi quy ước lượng cho phương trình sau: arr_delay = −2.750e − 01 + 6.322e − 01 × carrierAS + 7.521e − 02 × carrierB6 − 8.403e − 01 × carrierDL + 2.068e + 00 × carrierF + − 2.890e + 00 × carrierW N + 3.192e − 01 × originSEA + 9.965e − 01 × dep_delay − 2.684e − 03 × distance Kiểm định hệ số hồi quy: Giả thuyết H0 : Hệ số hồi quy khơng có ý nghĩa thống kê (βi = 0) Giả thuyết H1 : Hệ số hồi quy có ý nghĩa thống kê (βi = 0) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 27 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 + P r(> |t|) hệ số ứng với biến carrierB6, carrierOO, carrierUS lớn mức ý nghĩa α = 0.05 nên ta chưa đủ sở để bác bỏ giả thuyết H0 Do hệ số ứng với biến khơng có ý nghĩa với mơ hình hồi quy ta xây dựng Ta cân nhắc việc loại bỏ biến khỏi mô hình Ta xây dựng mơ hình 2: mơ hình loại bỏ biến carrier khỏi mơ hình Hình 32: code R kết xây dựng mô hình hồi quy tuyến tính lm_model_2 Ta so sánh mơ hình mơ hình 2: Hình 33: code R kết so sánh mơ hình lm_model_1 lm_model_2 Nhận xét: Dựa việc so sánh mơ hình, ta thấy p − value < 2.2e − 16 bé so với mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết H0 , ta kết luận mơ hình hiệu khác Mặt khác dựa vào hệ số xác định hiệu chỉnh mơ hình (AdjustedR − squared = 0.8577) cao so với mơ hình (AdjustedR − squared = 0.8548), chứng tỏ biến thiên biến arr_delay giải thích nhiều biến độc lập Như mơ hình mơ hình hiệu mơ hình Phân tích tác động nhân tố lên việc lệch đến: Như mơ hình hồi quy tuyến tính ảnh hưởng nhân tố lên việc lệch đến cho bởi: arr_delay = −2.750e − 01 + 6.322e − 01 × carrierAS + 7.521e − 02 × carrierB6 − 8.403e − 01 × carrierDL + 2.068e + 00 × carrierF + − 2.890e + 00 × carrierW N + 3.192e − 01 × originSEA + 9.965e − 01 × dep_delay − 2.684e − 03 × distance Trước hết, ta thấy p − value tương ứng với thống kê F bé 2.2e − 16, có ý nghĩa cao Điều rằng, biến dự báo mơ hình có ý nghĩa giải thích cao đến việc lệch đến arr_delay Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 28 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Để xét ảnh hưởng cụ thể biến độc lập, ta xét trọng số (hệ số βi ) p − value tương ứng Ta thấy p − value tương ứng với biến carrierHA, carrierVX,carrierWN, dep_delay, distance bé 2e − 16, điều nói lên ảnh hưởng biến có ý nghĩa cao lên việc lệch đến arr_delay Mặt khác, hệ số hồi quy βi biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc arr_delay tăng đơn vị biến dự báo đó, giả sử biến dự báo khác không đổi Cụ thể, β12 = 9.965e − 01 chênh lệch bay tăng phút ta kỳ vọng chênh lệch đến tăng lên 9.965e-01 phút (giả sử biến dự báo khác không đổi) Với β13 = −2.684e − 03 khoảng cách sân bay tăng tăng dặm, ta kỳ vọng chênh lệch đến giảm -2.684e-03 phút (giả sử biến dự báo khác không đổi) Hệ số R2 hiệu chỉnh 0.8577 nghĩa 85.77% biến thiên việc lệch đến giải thích biến biến độc lập Kiểm tra giả định mơ hình Nhắc lại giả định mơ hình hồi quy: Yi = β0 + β1 X1 + βi Xi + ǫi , i = 1, n + Tính tuyến tính liệu: mối quan hệ biến dự báo X biến phụ thuộc Y giả sử tuyến tính + Sai số có phân phối chuẩn + Phương sai sai số số: ǫi ∼ N (0, σ ) + Các sai số ǫ1 , , ǫn độc lập với Ta thực phân tích thặng dư để kiểm tra giả định mơ hình: Hình 34: code R kết vẽ đồ thị phân tích thặng dư để kiểm tra giả định mơ hình Nhận xét: + Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn chưa thực thỏa mãn + Đồ thị thứ (Residuals vs Fitted) cho thấy giả định tính tuyến tính liệu thoả mãn + Đồ thị thứ thứ (Scale - Location) cho ta thấy giả định tính đồng phương sai bị vi phạm Ta thấy vi phạm có nhiều sai số + Đồ thị thứ có quan trắc thứ 52723, 55299 120906 điểm có ảnh hưởng cao liệu Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 29 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2.1 Nhóm CK04 Hoạt động Đề Sinh viên tự tìm liệu thuộc chun ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án, chuyên ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 30 lOMoARcPSD|9242611 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 TÀI LIỆU THAM KHẢO Hoàng Văn Hà, Bài giảng Xác suất Thống Kê Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất - Thống kê & Phân tích số liệu, 2019 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Downloaded by tran quang (quangsuphamhoak35@gmail.com) Trang 31

Ngày đăng: 03/12/2022, 00:05

HÌNH ẢNH LIÊN QUAN

Hình 1: cod eR và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 1 cod eR và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin (Trang 8)
Hình 2: cod eR và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 2 cod eR và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính (Trang 8)
Hình 4: cod eR khi xoá các quan sát chứa dữ liệu khuyết - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 4 cod eR khi xoá các quan sát chứa dữ liệu khuyết (Trang 9)
Hình 6: cod eR và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng hãng hàng không (carrier) - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 6 cod eR và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng hãng hàng không (carrier) (Trang 10)
Hình 7: cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier) - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 7 cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier) (Trang 10)
Hình 8: cod eR khi tạo function xác định outliers, chuyển các outliers thành dạng NA - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 8 cod eR khi tạo function xác định outliers, chuyển các outliers thành dạng NA (Trang 11)
Hình 9: cod eR và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 9 cod eR và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA (Trang 11)
Hình 11: cod eR và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 11 cod eR và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 (Trang 12)
Hình 16: cod eR và kết quả khi lại vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier) - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 16 cod eR và kết quả khi lại vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier) (Trang 13)
Hình 15: cod eR và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng hãng hàng không (carrier) - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 15 cod eR và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng hãng hàng không (carrier) (Trang 13)
Hình 17: cod eR và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014 - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 17 cod eR và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014 (Trang 15)
Hình 18: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AA - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 18 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AA (Trang 16)
Hình 19: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AS - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 19 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AS (Trang 17)
Hình 20: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không B6 - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 20 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không B6 (Trang 18)
Hình 21: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không DL - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 21 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không DL (Trang 19)
Hình 22: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không F9 - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 22 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không F9 (Trang 20)
Hình 23: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không HA - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 23 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không HA (Trang 21)
Hình 24: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AA - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 24 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AA (Trang 22)
Hình 25: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không UA - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 25 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không UA (Trang 23)
Hình 26: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không US - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 26 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không US (Trang 24)
Hình 27: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không VX - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 27 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không VX (Trang 25)
Hình 28: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không WN - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 28 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không WN (Trang 26)
Hình 29: cod eR và kết quả khi kiểm định giả định về tính đồng nhất của phương sai - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 29 cod eR và kết quả khi kiểm định giả định về tính đồng nhất của phương sai (Trang 27)
Hình 30: cod eR và kết quả khi thực hiện ANOVA một nhân tố - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 30 cod eR và kết quả khi thực hiện ANOVA một nhân tố (Trang 27)
1.3.5 Mơ hình hồi quy tuyến tính: Sử dụng một mơ hình hồi quy phù hợp để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay. - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
1.3.5 Mơ hình hồi quy tuyến tính: Sử dụng một mơ hình hồi quy phù hợp để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay (Trang 28)
Kiểm tra các giả định của mơ hình - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
i ểm tra các giả định của mơ hình (Trang 30)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN