1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo bài tập lớn môn học xác suất thống kê đề tài 4

31 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 4,31 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM BÁO CÁO BÀI TẬP LỚN MÔN HỌC: XÁC SUẤT THỐNG KÊ LỚP P01_NHÓM 4_HK221 ĐỀ TÀI GVHD: PGS.TS NGUYỄN ĐÌNH HUY Sinh viên thực Lê Khả Quốc Diệp Vĩnh Tài Phan Minh Thy Đặng Cơng Cường Hồng Đăng Duy Phạm Tấn Huy Nguyễn Hoàng Hưng Mã số sinh viên 2112143 2112206 2112422 2112959 2113000 2113535 2113605 Lớp VP21CDT VP21VT VP21XDC VP21CDT VP21QN VP21PO VP21HK NGÀY NỘP: 30/11/2022 Thành phố Hồ Chí Minh ─ 2022 Mục lục CƠ SỞ LÝ THUYẾT PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ (ANOVA) I Định nghĩa Một số giả định phân tích ANOVA 3 Mơ hình tốn học phân tích ANOVA nhân tố II HỒI QUY TUYẾN TÍNH HOẠT ĐỘNG 1: 10 Đọc liệu (Import data) 11 Làm liệu (Data cleaning): NA (dữ liệu khuyết) 12 Làm rõ liệu (Data visualization) 17 ANOVA nhân tố: đánh giá khác biệt việc lệch bay (dep_delay) hãng bay 23 2|Page PHẦN CHUNG CƠ SỞ LÝ THUYẾT I PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ (ANOVA) Định nghĩa Phân tích phương sai (Analysis of Variance) hay ANOVA, thuật toán dùng phổ biến mảng thống kê Thuật toán phương pháp thống kê để phân tích tổng quy mơ biến thiên biến số phụ thuộc (tổng quy mô biến thiên hiểu tổng phương sai) thành nhiều phần phần quy cho biến thiên biến giải thích cá biệt hay nhóm biến giải thích Phương pháp dùng để kiểm định giả thuyết đặt H0 nhằm xác định xem mẫu thu có rút từ tổng thể không Kết kiểm định cho biết mẫu thu có tương quan với hay khơng Một cách dễ hiểu hơn, ANOVA q trình thống kê phân tích biến định lượng thơng qua phân tích phương sai nhằm xác định khác biệt hay tương đồng kỳ vọng Ví dụ: Phân tích yếu tố suất làm việc nhân viên cơng ty (yếu tố ngun nhân) ảnh hưởng đến kết công việc (yếu tố kết quả) Một số giả định phân tích ANOVA Các nhóm so sánh phải độc lập chọn cách ngẫu nhiên Các nhóm so sánh phải có phân phối chuẩn or cỡ mẫu phải đủ lớn để xem tiệm cận phân phối chuẩn Phương sai nhóm so sánh phải đồng Lưu ý: giả định tổng thể có phân phối chuẩn với phương sai khơng đáp ứng bạn dùng kiểm định phi tham số Kruskal-Wallis để thay cho ANOVA Ví dụ: Phân tích khác biệt thuộc tính khách hàng (giới tính, tuổi, nghề nghiệp, thu nhập…) vấn đề (thường chọn nhân tố phụ thuộc, VD: 3|Page hài lòng) Như trường hợp Nam Nữ đối tượng có điểm Hài Lịng cao mua sản phẩm Đó trường hợp dùng phân tích ANOVA Mơ hình tốn học phân tích ANOVA nhân tố Bố trí thí nghiệm: 1 … I Tổng cộng Trung bình X11 X12 … X1I T1 1 X Yếu tố thí nghiệm … X 21 … X 22 … … … X 2I … T2 … 2 … X J X J1 X J2 … X JI TJ J X T  X Giả thuyết H0: Ta đặt giá trị trung bình (kỳ vọng) nhóm cần phân tích 1 , 2 , 3 , ,  i Giả thiết H0 có công thức sau: H0 : 1 = 2 = 3 = = i Hay kì vọng nhóm tương đương Giả thuyết H1 (đối thuyết): nhóm có khác biệt, nhiên, kì vọng khơng khác hồn tồn: H1 : 1  2  3   i Levene test: kiểm định phương sai hay không nhóm ϭ (sigma) ≤ 0,05: bác bỏ Ho ϭ > 0,05: chấp nhận Ho → đủ điều kiện để phân tích tiếp anova ANOVA test: Kiểm định anova ϭ ≤ 0,05: bác bỏ Ho → đủ điều kiện để khẳng định có khác biệt nhóm biến phụ thuộc 4|Page ϭ > 0,05: chấp nhận Ho → chưa đủ điều kiện để khẳng định có khác biệt nhóm biến phụ thuộc Khi có khác biệt phân tích sâu để tìm khác biệt nhóm quan sát kiểm định Tukey, LSD, Bonferroni, Duncan hình Kiểm định sâu anova gọi kiểm định Post-Hoc Sự biến thiên Sự biến thiên liệu phân tích mấu chốt để kiểm tra khác biệt kì vọng nhóm Phân chia biến thiên Sự biến thiên tồn phần liệu, hay tổng bình phương tồn phần, tổng tổng bình phương nghiệm thức tổng bình phương sai số SST = SSTr + SSE I J  ( X i= j= I J I J − X ) =  ( X i − X ) +  ( X ij − X i ) ij i= j= i= j= Trong đó, SST: Tổng bình phương tồn phần; SSTr (SSW): Tổng bình phương nghiệm thức; SSE (SSB): Tổng bình phương sai số; I, J: kích thước mẫu, hay kích thước bảng số liệu, cột hàng Để cho việc tính tốn tổng nhanh chóng, ta rút gọn phép tính: I J SST =  X ij2 − i =1 j =1 X2 I J X i2 X − I J i =1 J SSTr = SST − SSE I SSE =  5|Page Trung bình bình phương Trung bình bình phương tồn phần MST = SST IJ − Trung bình bình phương nghiệm thức MSTr = SSTr I −1 Trung bình bình phương sai số MSE = SSE I ( J −1) Đại lượng thống kê kiểm định F= MSTr MSE Với mức ý nghĩa  , ta xác định đại lượng kiểm định thống kê Fo = F , I −1, I ( J−1) qua bảng tra Fisher Nếu F  F0 , ta bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 đề tương ứng; F  F0 , ta chấp nhận giả thuyết H0, bác bỏ giả thuyết đề Thiết lập bảng phân tích phương sai để có nhìn trực quan thành phần: 6|Page Tác nhân Bậc tự df Tổng bình phương SS Nghiệm thức Sai số Tổng thể Trung bình bình Đại lượng kiểm phương MS định F I-1 SSTr MSTr F= I.(J-1) SSE MSE I.J-1 SST MSTr MSE So sánh bội hậu ANOVA Ta so sánh bội hậu phân tích phương sai ANOVA giả thuyết H0 bị bác bỏ, tức F  F Phép phân tích phương sai ANOVA cho khác biệt nhóm, khơng cốt lõi khác biệt ( nhóm nhóm gây khác biệt) Để khác biệt kỳ vọng nhóm gây ra, ta dùng so sánh bội Ở phép ANOVA nhân tố, ta sử dụng so sánh bội đơn giản: phương pháp ý nghĩa độ lệch nhỏ LSD (least significant diferrence) Ta sử dụng LSD nhằm so sánh tất cặp kì vọng với giả thuyết i   j , qua thống kê t = XI − XJ MSE I J Với giả thuyết H1 cho vế, cặp kỳ vọng  i   j có ý nghĩa X I − X J  LSD , I LSD = tIJ1−−k MSE  + 1 với k số nhóm J  7|Page II HỒI QUY TUYẾN TÍNH Hồi quy tuyến tính đơn biến Lý thuyết hồi quy (đơn biến) nghiên cứu toán dự báo biến ngẫu nhiên Y sở biết biến ngẫu nhiên X Biến X gọi biến độc lập, hay gọi biến giải thích Y gọi biến phụ thuộc, hay biến giải thích Người ta tìm cách thay Y hàm f(X) cho “chính xác nhất” Trong mối liên hệ hàm số, với giá trị X ta tìm giá trị Y Tuy nhiên thống kê, giá trị X cho tương ứng nhiều giá trị Y khác nhau, ngồi biến X, biến Y cịn chịu tác động số yếu tố khác Trong mối liên hệ hàm số, với giá trị X ta tìm giá trị Y Tuy nhiên thống kê, giá trị X cho tương ứng nhiều giá trị Y khác nhau, ngồi biến X, biến Y cịn chịu tác động số yếu tố khác Định nghĩa hồi quy: Hàm hồi quy Y theo X kỳ vọng có điều kiện Y X, tức E(Y|X) Hàm hồi quy có dạng f Y (X) = E(Y|X) = a + b.X gọi hàm hồi quy tuyến tính đơn Ví dụ: 8|Page Hồi quy tuyến tính đa biến Hồi quy đa biến nhiều biến độc lập ảnh hưởng lên biến phụ thuộc, có mơ hình hồi quy bội (đa biến) Chẳng hạn, số dặm phương tiện giao thông bị ảnh hưởng khối lượng phương tiện dung tích động cơ, xây dựng mơ hình hồi quy đa biến: 𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + + 𝛽𝑖 𝑥𝑖 Phương trình hồi quy đa biến: 𝐸(𝑦) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + + 𝛽𝑖 𝑥𝑖 Ví dụ: 9|Page ĐỀ TÀI HOẠT ĐỘNG 1: ĐỀ BÀI: Tập tin flights.rda cung cấp thông tin 162049 chuyến bay khởi hành từ hai sân bay lớn vùng Tây bắc Thái Bình Dương Mỹ, SEA Seattle PDX Portland năm 2014 Dữ liệu cung cấp Văn phòng Thống kê Vận tải, Mỹ (https://www.transtats.bts.gov/) Dữ liệu dùng để phân tích nguyên nhân gây khởi hành trễ hoãn chuyến bay Chi tiết liệu sau: Các biến liệu: year, month, day: ngày khởi hành chuyến bay carrier: tên hãng hàng không, mã hóa chữ in hoa Ví dụ: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v origin dest: tên sân bay đến Đối với sân bay đi, ta có hai giá trị SEA (Seattle) PDX (Portland) dep_time arr_time: thời gian cất cánh hạ cánh (theo lịch dự kiến) dep_delay arr_time: chênh lệch (phút) thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in vé distance: khoảng cách hai sân bay (dặm) Các bước thực hiện: Đọc liệu (Import data): flights.rda Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị 10 | P a g e Làm rõ liệu (Data visualization) a) Tính giá trị thống kê mơ tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, điểm tứ phân vị) thời gian khởi hành trễ (biến dep_delay) hãng hàng không (carrier) INPUT: > library(dplyr) > library(knitr) > nF_summ % group_by(carrier) %>% summarize(size = n(), mean = mean(dep_delay, na.rm = TRUE), sd = sd(dep_delay, na.rm = TRUE), = min(dep_delay, na.rm = TRUE), first_quartile = quantile(dep_delay, 0.25, na.rm = TRUE), median = median(dep_delay, 0.75, na.rm = TRUE), third_quartile = quantile(dep_delay, 0.75, na.rm = TRUE), max = max(dep_delay, na.rm=TRUE)) > kable(nF_summ) OUTPUT: 17 | P a g e b) Vẽ đồ thị boxplot cho thời gian khởi hành trễ dep_delay tương ứng với hãng hàng không carrier INPUT: > library(ggplot2) >qplot(x = carrier, y = dep_delay, data = newflights, geom = "boxplot") + stat_summary(fun = "mean", geom = "point", color = "green") OUTPUT: Nhận xét: ta quan sát thấy có nhiều điểm outliers đồ thị boxplot vừa vẽ (đối với biến dep_delay) Do ta sử dụng khoảng tứ phân vị (interquartile range) để loại bỏ điểm outlier vẽ lại đồ thị boxplot cho dep_delay 18 | P a g e INPUT: >ggplot(aes(x = carrier, y = dep_delay), data = newflights) + geom_boxplot(outlier.shape = NA) + coord_cartesian(ylim = c(-20, 45)) + stat_summary(fun = "mean", geom = "point", color = "red") OUTPUT: 19 | P a g e Nhận xét: Hãng AA: Số phút khởi hành trễ trung bình chuyến bay hãng 10.59 phút tổng số 7586 chuyến bay khảo sát Trong số 50% trường hợp khảo sát có số phút khởi hành trễ ngắn so với số phút khởi hành trễ trung bình phân bố khoảng bay sớm dự định phút bay trễ dự định phút Thời gian khởi hành trễ chuyến bay hãng lớn 1533 phút, thời gian khởi hành sớm chuyến bay hãng lớn 18 phút Hãng AS: Số phút khởi hành trễ trung bình chuyến bay hãng 2.78 phút tổng số 62460 chuyến bay khảo sát Trong số 50% trường hợp khảo sát có số phút khởi hành trễ ngắn so với số phút khởi hành trễ trung bình phân bố khoảng bay sớm dự định phút bay trễ dự định phút Thời gian khởi hành trễ chuyến bay hãng lớn 866 phút, thời gian khởi hành sớm chuyến bay hãng lớn 25 phút Hãng B6: Số phút khởi hành trễ trung bình chuyến bay hãng 8.46 phút tổng số 3540 chuyến bay khảo sát Trong số 50% trường hợp khảo sát, đa số có số phút khởi hành trễ ngắn so với số phút khởi hành trễ trung bình phân bố khoảng bay sớm dự định phút bay trễ dự định phút Thời gian khởi hành trễ chuyến bay hãng lớn 365 phút, thời gian khởi hành sớm chuyến bay hãng lớn 20 phút Hãng DL: Số phút khởi hành trễ trung bình chuyến bay hãng 4.82 phút tổng số 16716 chuyến bay khảo sát 20 | P a g e Trong số 50% trường hợp khảo sát có số phút khởi hành trễ ngắn so với số phút khởi hành trễ trung bình phân bố khoảng bay sớm dự định phút bay trễ dự định phút Thời gian khởi hành trễ chuyến bay hãng lớn 866 phút, thời gian khởi hành sớm chuyến bay hãng lớn 19 phút Hãng F9: Số phút khởi hành trễ trung bình chuyến bay hãng 10.15 phút tổng số 2698 chuyến bay khảo sát Trong số 50% trường hợp khảo sát, đa số có số phút khởi hành trễ ngắn so với số phút khởi hành trễ trung bình phân bố khoảng bay sớm dự định phút bay trễ dự định 11 phút Thời gian khởi hành trễ chuyến bay hãng lớn 815 phút, thời gian khởi hành sớm chuyến bay hãng lớn 20 phút Hãng HA: Số phút khởi hành trễ trung bình chuyến bay hãng 2.58 phút tổng số 1095 chuyến bay khảo sát Trong số 50% chuyến bay khảo sát hãng năm 2014 khởi hành sớm phân bố khoảng bay sớm dự định từ phút đến phút Thời gian khởi hành trễ chuyến bay hãng lớn 878 phút, thời gian khởi hành sớm chuyến bay hãng lớn 17 phút Hãng OO: Số phút khởi hành trễ trung bình chuyến bay hãng 4.43 phút tổng số 18710 chuyến bay khảo sát Trong số 50% chuyến bay khảo sát hãng năm 2014 khởi hành sớm phân bố khoảng bay sớm dự định phút bay thời điểm dự định Thời gian khởi hành trễ chuyến bay hãng lớn 677 phút, thời gian khởi hành sớm chuyến bay hãng lớn 37 phút 21 | P a g e Hãng UA: Số phút khởi hành trễ trung bình chuyến bay hãng 9.795 phút tổng số 16671 chuyến bay khảo sát Trong số 50% trường hợp khảo sát có số phút khởi hành trễ ngắn so với số phút khởi hành trễ trung bình phân bố khoảng bay sớm dự định phút bay trễ dự định phút Thời gian khởi hành trễ chuyến bay hãng lớn 580 phút, thời gian khởi hành sớm chuyến bay hãng lớn 19 phút Hãng US: Số phút khởi hành trễ trung bình chuyến bay hãng 2.73 phút tổng số 5946 chuyến bay khảo sát Trong số 50% trường hợp khảo sát có số phút khởi hành trễ ngắn so với số phút khởi hành trễ trung bình phân bố khoảng bay sớm dự định phút bay trễ dự định phút Thời gian khởi hành trễ chuyến bay hãng lớn 711 phút, thời gian khởi hành sớm chuyến bay hãng lớn 26 phút Hãng VX: Số phút khởi hành trễ trung bình chuyến bay hãng 7.85 phút tổng số 3272 chuyến bay khảo sát Trong số 50% trường hợp khảo sát có số phút khởi hành trễ ngắn so với số phút khởi hành trễ trung bình phân bố khoảng bay sớm dự định phút bay trễ dự định phút Thời gian khởi hành trễ chuyến bay hãng lớn 358 phút, thời gian khởi hành sớm chuyến bay hãng lớn 21 phút Hãng WN: Số phút khởi hành trễ trung bình chuyến bay hãng 13.33 phút tổng số 23355 chuyến bay khảo sát Trong số 50% trường hợp khảo sát có số phút khởi hành trễ ngắn so 22 | P a g e với số phút khởi hành trễ trung bình phân bố khoảng bay sớm dự định phút bay trễ dự định 17 phút Thời gian khởi hành trễ chuyến bay hãng lớn 712 phút, thời gian khởi hành sớm chuyến bay hãng lớn 11 phút ANOVA nhân tố: đánh giá khác biệt việc lệch bay (dep_delay) hãng bay Kiểm tra giả định phân phối chuẩn: INPUT: 23 | P a g e 24 | P a g e Sử dụng kiểm định Shapiro - Wilk để kiểm tra thời gian khởi hành trễ có phân phối chuẩn hay không INPUT: > shapiro.test(khoi_hanh_tre[1:5000,1]) OUTPUT: 25 | P a g e Nhận xét: Vì p - giá trị < 2.2e-16 < 0,05 nên biến thời gian khởi hành trễ từ Portland khơng có phân phối chuẩn với độ tin cậy 95% Kiểm tra lại biểu đồ QQ-Plot sau: INPUT: > qqnorm(khoi_hanh_tre$dep_delay, col = 'red') > qqline(khoi_hanh_tre$dep_delay, col = 'green') OUTPUT: 26 | P a g e Nhận xét: đó, thời gian khởi hành trễ chuyến bay hãng hàng khơng khởi hành từ Portland năm 2014 khơng có phân phối chuẩn 27 | P a g e Phân tích phương sai phân tích anova nhân tố tóm tắt lại INPUT: > khoi_hanh_tre_anova khoi_hanh_tre_anova > summary(khoi_hanh_tre_anova) OUTPUT: Ta có kết là: SSB = 1007690, bậc tự k-1 = 10 (k = 11 nhóm) SSW = 49178302, bậc tự N - k = 53335 - 11 = 53324 MSB = SSB/(k-1) = 100769 MSW = SSW/(N-k) = 922 Thống kê kiểm định F = MSB/MSW = 109.3 28 | P a g e p-value < 2e-16 bé Nhận xét: có khác biệt thời gian khởi hành trễ trung bình hãng hàng khơng với chuyến bay khởi hành từ Portland So sánh bội sau phân tích phương sai INPUT: > TukeyHSD(khoi_hanh_tre_anova) OUTPUT: 29 | P a g e 30 | P a g e Nhận xét: sau phân tích ANOVA, ta thấy có nhóm hãng có thời gian khởi hành trễ trung bình xấp xỉ là: (WN, AA); (HA, AS, OS, DL, US, F9, B6, OO, UA, VX) Ngoài ra, ta thấy hãng WN có thời gian khởi hành trễ cao 11 hãng 31 | P a g e

Ngày đăng: 23/05/2023, 15:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w