Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
3,62 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA CƠ KHÍ BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 211 NHÓM: CK04 - ĐỀ TÀI: 04 GIẢNG VIÊN HƯỚNG DẪN: DANH SÁCH NHÓM: STT Họ tên Hoàng Phạm Minh Vũ Nguyễn Ngọc Quốc Việt Lâm Hải Đăng Nguyễn Hà Anh Minh Lê Tấn Phát ThS NGUYỄN KIỀU DUNG MSSV 2010796 2015048 2011081 2010796 1911822 Lớp/Tổ L01/A L04/C L10/A L14/A L14/A Tp Hồ Chí Minh, Tháng 01/11/2021 Ngành học Cơ Khí Cơ Khí Cơ Khí Cơ Khí Cơ Khí Kí tên BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 PHÂN CƠNG LÀM VIỆC STT Họ tên Hoàng Phạm Minh Vũ Nguyễn Ngọc Quốc Việt Lâm Hải Đăng Nguyễn Hà Anh Minh Lê Tấn Phát Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Nội dung Nhiệm vụ Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Mục lục HOẠT ĐỘNG 1: 1.1 Đề 1.2 Cơ sở lý thuyết 1.3 Thực 1.3.1 Đọc liệu (Import data) 1.3.2 Làm liệu (Data cleaning) 1.3.3 Làm rõ liệu: (Data visualization) 1.3.4 ANOVA nhân tố: đánh giá khác biệt việc lệch bay (dep_delay) hãng bay 14 1.3.5 Mơ hình hồi quy tuyến tính: Sử dụng mơ hình hồi quy phù hợp để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay 27 Hoạt động 2.1 Đề Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG 30 30 Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Danh sách bảng Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Danh sách hình vẽ 10 11 12 13 14 15 16 17 18 19 20 21 22 code R kết đọc tệp tên xem dòng tệp tin code R kết tạo tệp tin bao gồm biến code R kết kiểm tra liệu khuyết tệp tin code R xoá quan sát chứa liệu khuyết code R kết kiểm tra lại số lượng tỉ lệ quan sát chứa liệu khuyết xoá code R kết tính giá trị thống kê mô tả cho biến dep_delay hãng hàng không (carrier) code R kết vẽ biểu đồ boxplot thể phân phối biến dep_delay theo hãng hàng không (carrier) code R tạo function xác định outliers, chuyển outliers thành dạng NA code R kết lọc outliers tương ứng với hãng chuyển thành NA code R ghép liệu lại với code R kết Kiểm tra tổng NA tỷ lệ NA tệp tin new_DF3 code R thay NA giá trị trung bình tương ứng với hãng hàng không code R ghép liệu lại với lưu lại vào new_DF3 code R kiểm tra lại NA data new_DF2 sau xử lý NA code R kết tính lại giá trị thống kê mô tả cho biến dep_delay hãng hàng không (carrier) code R kết lại vẽ biểu đồ boxplot thể phân phối biến dep_delay theo hãng hàng không (carrier) code R kết lọc chuyến bay chuyến bay khởi hành từ Portland năm 2014 code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không AA code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không AS code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không B6 code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không DL code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không F9 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG 7 8 9 10 10 10 11 11 11 11 12 12 14 15 16 17 18 19 Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 23 24 25 26 27 28 29 30 31 32 33 34 Nhóm CK04 code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không HA code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không AA code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không UA code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không US code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không VX code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không WN code R kết kiểm định giả định tính đồng phương sai code R kết thực ANOVA nhân tố code R kết xây dựng mơ hình hồi quy tuyến tính lm_model_1 code R kết xây dựng mơ hình hồi quy tuyến tính lm_model_2 code R kết so sánh mơ hình lm_model_1 lm_model_2 code R kết vẽ đồ thị phân tích thặng dư để kiểm tra giả định mơ hình Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG 20 21 22 23 24 25 26 26 27 28 28 29 Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 ĐỀ TÀI 1.1 HOẠT ĐỘNG 1: Đề Tập tin flights.rda cung cấp thông tin 162049 chuyến bay khởi hành từ hai sân bay lớn vùng Tây bắc Thái Bình Dương Mỹ, SEA Seattle PDX Portland năm 2014 Dữ liệu cung cấp Văn phòng Thống kê Vận tải, Mỹ Dữ liệu dùng để phân tích nguyên nhân gây khởi hành trễ hoãn chuyến bay Chi tiết liệu sau: Các biến liệu: • year, month, day: ngày khởi hành chuyến bay • carrier: tên hãng hàng khơng, mã hóa chữ in hoa Ví dụ: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v • origin dest: tên sân bay đến Đối với sân bay đi, ta có hai giá trị SEA (Seattle) PDX (Portland) • dep_time arr_time: thời gian cất cánh hạ cánh (theo lịch dự kiến) • dep_delay arr_delay: chênh lệch (phút) thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in vé • distance: khoảng cách hai sân bay (dặm) Các bước thực hiện: Đọc liệu (Import data): "flights.rda" Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị ANOVA nhân tố: đánh giá khác biệt việc lệch bay (dep_delay) hãng bay Mơ hình hồi quy tuyến tính: Sử dụng mơ hình hồi quy phù hợp để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay 1.2 Cơ sở lý thuyết Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 1.3 1.3.1 Nhóm CK04 Thực Đọc liệu (Import data) Đọc tệp tin "flights.rda" Hình 1: code R kết đọc tệp tên xem dòng tệp tin 1.3.2 Làm liệu (Data cleaning) Tạo tệp tin bao gồm biến mà đề đưa ra, lưu với tên new_DF Hình 2: code R kết tạo tệp tin bao gồm biến Kiểm tra liệu khuyết tệp tin Hình 3: code R kết kiểm tra liệu khuyết tệp tin Nhận xét: Dựa vào kết thu bảng thống kê tỷ lệ giá trị khuyết biến, ta nhận thấy có nhiều giá trị khuyết biến arr_delay, arr_time, dep_time, dep_delay Vì lượng khuyết liệu chiếm tối đa 4% lượng quan sát (dưới 10%), ta lựa chọn phương pháp xố quan sát biến có giá trị khuyết tệp tin new_DF Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 4: code R xoá quan sát chứa liệu khuyết Kiểm tra lại số lượng tỉ lệ quan sát chứa liệu khuyết xố Hình 5: code R kết kiểm tra lại số lượng tỉ lệ quan sát chứa liệu khuyết xoá Nhận xét: Ta nhận thấy số lượng quan sát sau xoá 1301 quan sát, chiếm tỷ lệ 0.8% so với liệu ban đầu, thấy việc xố quan sát biến có giá trị khuyết tệp tin newD F không ảnh hưởng nhiều đến kết liệu 1.3.3 Làm rõ liệu: (Data visualization) Tính giá trị thống kê mơ tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, điểm tứ phân vị) chênh lệch thời gian cất cánh thực tế thời gian cất cánh/hạ cánh in vé (biến dep_delay) hãng hàng không (carrier) Xuất kết dạng bảng Vẽ biểu đồ boxplot thể phân phối biến dep_delay theo hãng hàng không (carrier) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 6: code R kết tính giá trị thống kê mơ tả cho biến dep_delay hãng hàng khơng (carrier) Hình 7: code R kết vẽ biểu đồ boxplot thể phân phối biến dep_delay theo hãng hàng không (carrier) Nhận xét: Qua biểu đồ ta thấy có nhiều điểm ngoại lai (outliers) biến dep_delay, điều nguyên nhân ảnh hưởng đến kết phân tích phía sau Do đó, ta sử dụng khoảng tứ phân vị (interquartile range) để loại bỏ điểm outlier Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 20: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không B6 Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng B6 khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không B6 không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 17 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 21: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không DL Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng DL khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không DL không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 18 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 22: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không F9 Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng F9 khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không F9 không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 19 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 23: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không HA Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng HA khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không HA không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 20 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 24: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không AA Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng OO khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không OO không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 21 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 25: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không UA Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng UA khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không UA không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 22 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 26: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không US Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng US khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không US không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 23 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 27: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không VX Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng VX khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không VX không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 24 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Hình 28: code R kết kiểm định giả định phân phối chuẩn cho biến dep_delay hãng hàng không WN Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát khơng nằm đường thẳng kì vọng phân phối chuẩn biến dep_delay hãng hàng khơng WN khơng tn theo phân phối chuẩn Ngồi ra, p-value kiểm định ad.test bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , nên đưa kết luận biến dep_delay hãng hàng không WN không tuân theo phân phối chuẩn Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 25 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Kiểm định giả định tính đồng phương sai: Giả thuyết H0 : Phương sai việc lệch bay hãng hàng không chuyến bay khởi hành từ Portland Giả thiết H: Có hãng hàng không chuyến bay khởi hành từ Portland có phương sai việc lệch bay khác Hình 29: code R kết kiểm định giả định tính đồng phương sai Nhận xét: Dựa p-value kiểm định leveneTest bé nhiều so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết H0 , ta đưa kết luận có hãng hàng không chuyến bay khởi hành từ Portland có phương sai việc lệch bay khác Thực phân tích phương sai nhân tố: Hình 30: code R kết thực ANOVA nhân tố Nhận xét: Dựa kết ANOVA cho thấy: + SSB = 748990, bậc tự k − = 10(k = 11) + SSW = 2594172, bậc tự N − k = 52808 − 11 = 52797 (N tổng số phần tử khảo sát tất nhóm) + M SB = SSB/(k − 1) = 74899 + M SW = SSW/(N − k) = 49 + Giá trị thống kê kiểm định: f = M SB/M SW = 1524 + Mức ý nghĩa quan sát: p − value < 2e − 16 Dựa vào p − value < 2e − 16 bé so với mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết H0 Ngoài ta, ta dựa vào f = 1524 > ngưỡng fα;k−1;N −k = f0.05;10;52797 = 1.8309 nên ta đưa kết luận bác bỏ giả thuyết H0 Vậy có khác biệt việc lệch bay trung bình hãng hàng khơng chuyến bay khởi hành từ Portland năm 2014 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 26 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 1.3.5 Nhóm CK04 Mơ hình hồi quy tuyến tính: Sử dụng mơ hình hồi quy phù hợp để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay Để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay, ta xem biến (arr_delay) biến phụ thuộc, biến độc lập biến hãng hàng không (carrier), biến sân bay (origin), biến chênh lệch thời gian khởi hành (dep_delay) biến khoảng cách hai sân bay (distance) Đây yếu tố dự báo giúp giải thích biến đổi việc lệch đến chuyến bay Biến phụ thuộc: arr_delay Biến độc lập: carrier, origin, dep_delay, distance Mô hình biểu diễn sau: arr_delay = β0 + β1 × carrierAS + β2 × carrierB6 + β3 × carrierDL + β4 × carrierF + + β10 × carrierW N + β11 × originSEA + β12 × dep_delay + β13 × distance Ta thực ước lượng hệ số βi , i = 0, , 13 dựa tệp tin new_DF2: Hình 31: code R kết xây dựng mơ hình hồi quy tuyến tính lm_model_1 Nhận xét: Từ kết phân tích, ta thu được: βb0 = −2.750e − 01; βb1 = 6.322e − 01; βb2 = 7.521e − 02; βb3 = −8.403e − 01; βb4 = 2.068e + 00 βb5 = 6.628e + 00; βb6 = 1.858e − 01; βb7 = −3.494e + 00; βb8 = 1.160e − 01; βb9 = −2.075e + 00 βb10 = −2.890e + 00; βb11 = 3.192e − 01; βb12 = 9.965e − 01; βb13 = −2.684e − 03 Như vậy, đường thẳng hồi quy ước lượng cho phương trình sau: arr_delay = −2.750e − 01 + 6.322e − 01 × carrierAS + 7.521e − 02 × carrierB6 − 8.403e − 01 × carrierDL + 2.068e + 00 × carrierF + − 2.890e + 00 × carrierW N + 3.192e − 01 × originSEA + 9.965e − 01 × dep_delay − 2.684e − 03 × distance Kiểm định hệ số hồi quy: Giả thuyết H0 : Hệ số hồi quy khơng có ý nghĩa thống kê (βi = 0) Giả thuyết H1 : Hệ số hồi quy có ý nghĩa thống kê (βi 6= 0) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 27 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 + P r(> |t|) hệ số ứng với biến carrierB6, carrierOO, carrierUS lớn mức ý nghĩa α = 0.05 nên ta chưa đủ sở để bác bỏ giả thuyết H0 Do hệ số ứng với biến khơng có ý nghĩa với mơ hình hồi quy ta xây dựng Ta cân nhắc việc loại bỏ biến khỏi mơ hình Ta xây dựng mơ hình 2: mơ hình loại bỏ biến carrier khỏi mơ hình Hình 32: code R kết xây dựng mơ hình hồi quy tuyến tính lm_model_2 Ta so sánh mơ hình mơ hình 2: Hình 33: code R kết so sánh mô hình lm_model_1 lm_model_2 Nhận xét: Dựa việc so sánh mơ hình, ta thấy p − value < 2.2e − 16 bé so với mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết H0 , ta kết luận mơ hình hiệu khác Mặt khác dựa vào hệ số xác định hiệu chỉnh mơ hình (AdjustedR − squared = 0.8577) cao so với mơ hình (AdjustedR − squared = 0.8548), chứng tỏ biến thiên biến arr_delay giải thích nhiều biến độc lập Như mơ hình mơ hình hiệu mơ hình Phân tích tác động nhân tố lên việc lệch đến: Như mơ hình hồi quy tuyến tính ảnh hưởng nhân tố lên việc lệch đến cho bởi: arr_delay = −2.750e − 01 + 6.322e − 01 × carrierAS + 7.521e − 02 × carrierB6 − 8.403e − 01 × carrierDL + 2.068e + 00 × carrierF + − 2.890e + 00 × carrierW N + 3.192e − 01 × originSEA + 9.965e − 01 × dep_delay − 2.684e − 03 × distance Trước hết, ta thấy p − value tương ứng với thống kê F bé 2.2e − 16, có ý nghĩa cao Điều rằng, biến dự báo mơ hình có ý nghĩa giải thích cao đến việc lệch đến arr_delay Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 28 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 Để xét ảnh hưởng cụ thể biến độc lập, ta xét trọng số (hệ số βi ) p − value tương ứng Ta thấy p − value tương ứng với biến carrierHA, carrierVX,carrierWN, dep_delay, distance bé 2e − 16, điều nói lên ảnh hưởng biến có ý nghĩa cao lên việc lệch đến arr_delay Mặt khác, hệ số hồi quy βi biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc arr_delay tăng đơn vị biến dự báo đó, giả sử biến dự báo khác không đổi Cụ thể, βb12 = 9.965e − 01 chênh lệch bay tăng phút ta kỳ vọng chênh lệch đến tăng lên 9.965e-01 phút (giả sử biến dự báo khác không đổi) Với βb13 = −2.684e − 03 khoảng cách sân bay tăng tăng dặm, ta kỳ vọng chênh lệch đến giảm -2.684e-03 phút (giả sử biến dự báo khác không đổi) Hệ số R2 hiệu chỉnh 0.8577 nghĩa 85.77% biến thiên việc lệch đến giải thích biến biến độc lập Kiểm tra giả định mơ hình Nhắc lại giả định mơ hình hồi quy: Yi = β0 + β1 X1 + βi Xi + i , i = 1, n + Tính tuyến tính liệu: mối quan hệ biến dự báo X biến phụ thuộc Y giả sử tuyến tính + Sai số có phân phối chuẩn + Phương sai sai số số: i ∼ N (0, σ ) + Các sai số 1 , , n độc lập với Ta thực phân tích thặng dư để kiểm tra giả định mơ hình: Hình 34: code R kết vẽ đồ thị phân tích thặng dư để kiểm tra giả định mơ hình Nhận xét: + Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn chưa thực thỏa mãn + Đồ thị thứ (Residuals vs Fitted) cho thấy giả định tính tuyến tính liệu thoả mãn + Đồ thị thứ thứ (Scale - Location) cho ta thấy giả định tính đồng phương sai bị vi phạm Ta thấy vi phạm có nhiều sai số + Đồ thị thứ có quan trắc thứ 52723, 55299 120906 điểm có ảnh hưởng cao liệu Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 29 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2.1 Nhóm CK04 Hoạt động Đề Sinh viên tự tìm liệu thuộc chun ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án, chuyên ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 30 BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04 TÀI LIỆU THAM KHẢO Hoàng Văn Hà, Bài giảng Xác suất Thống Kê Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất - Thống kê & Phân tích số liệu, 2019 Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 31