Can ghi nho ba gia dinh sau đây về các nhóm tông thê được tiền hanh phan tich ANOVA - Các tông thê này có phân phối bình thường - Các phương sai tông thể bằng nhau - Các quan sát được lấ
Trang 1
DAI HOC QUOC GIA THANH PHO HO CHI MINH TRUONG DAI HOC BACH KHOA KHOA CƠ KHÍ
BK TP.HCM
3_ | Đinh Thị Thanh Tuyền | 2012364 | L04 | Cơ khí
Thành phố Hô Chí Minh, 04/2022
Trang 2
MỤC LỤC
PHẦN I: CƠ SỞ LÝ THUYTT 222222 222222112222211111112221111122211111112210111.0 1 11 2
1 Giới thiệu mô hình hỏi quy tuyến tính bội 25c SE SE 12 t2 22 2112k 2
2 Ước lượng các tham số của mô hình hôi quy tuyến tính bội .- 2 sccsccsrrcrsez 2
IL — ANOVA một yếu tỐ s 5c ST 121221221 E112 21212121 121 1 tren 7
1 Trường hợp k tổng thê có phân phối bình thường và phương sai bằng nhau 7
PHAN II: BÀI TẬP XỬ LÝ SỐ LIỆU - 2222222222222112222221111221111111222121 1e 14
2 Làm sạch đữ liệu (Data cleaning)) c2 111211 121111111111111011111111111111 011 11 111 1x tr 15
3 Làm rõ dữ liệu: (Data vIsuaÌ1ZatiOf) - c2 112111211211 101101111111 18111111111 11 11 HH grrhy 16
4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_ delay) giữa các NANG DAY 24
5 Mô hình hôi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp đề phân tích các yêu
to anh hưởng đên việc lệch giờ đên (arr_delay) của các chuyên bay - sec 41
HOẠT ĐỘNG 2 0022 n0, 1 tt ng g2 tt ge 49
2.Lam sach dif ligu (Data cleaming) ccc ccccecceeseeseeeseesecssessecscseceseeseseseeseeeseessessssesseeenes 51
3 Làm rõ dữ liệu ( Data v1suaÌ1Z4fIO')) c2 v12 1911111111 101111111111111 1501201 111 11 111 11 re 33
4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models) 61
5 Kiểm định mô hình hôi quy tuyến tính - 2: + s2 1 12211 112211211 22021 re 64
19 DAO ooo cc eecceccccccenscccccesssrscccecsensusccescesssececcessuassceceessstscessetsssescenstsassceesentsccessnranisers 68 PHAN 3: TÀI LIỆU THAM KHẢO - :::22222222222211111122212111112221111112201111 2.1 re 70
Trang 3
PHAN I: CO SO LY THUYET
Hồi quy chính là một phương pháp thống kê để thiết lập mỗi quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến)
Vi du: Chị tiêu của hộ gia đỉnh vẻ thực phẩm phụ thuộc vào quy mô hộ gia đỉnh, thu nhập,
vị trí địa lý, ; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục, ; Lương của một người phụ thuộc vào chức vụ, kinh
nghiệm, độ tuôi,
1 Giới thiệu mô hình hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có đạng tông quát như sau:
Y =Bi+zX:+aX:+ +BkXc+u
Trong đó: Y: biến phụ thuộc
X¡: biến độc lập B:: hệ số tự đo (hệ số chặn) B:: hệ số hồi quy riêng ¡; đo lường tác động riêng phần của biến X; lên Y với điều kiện các biến số khác trong mô hình không đôi Cụ thể hơn, nếu các biến khác trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng B¡ đơn vị nếu X; tang | don vị u: sai số ngẫu nhiên
Như vậy, "Hồi quy tuyến tính" là một phương pháp đê dự doan gia trị biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của các thông số của tổng thể ÿ¡ va Bi la tuyén tinh (bac nhất) Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự doán thời gian người dùng dừng lại một trang nào đó hoặc sô người đã truy cập vào một website nào đó v.v Bằng đữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thê, đó là ước lượng các tham số của tông thể: Bi, Bo, , Br
2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2.1 Hàm hồi quy tổng thể (PRE — Population Regression Function)
Với Y là biến phu thuéc, Xo, X3, , Xx la bién déc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó Suy ra: Tồn tại E(Y|X›, Xa , X4) = giá trị xác định Do vậy,
FƠ, Xa , Xi) = E(Y|Xa, Xa , X4) là hàm hồi quy téng thé cua Y theo Xo, X3, , Xk Với một cá thể ¡, tồn tại (Xa¡, Xa;¡, , Xx¿, Y¡)
Do không biết tông thê, nên chúng ta không biệt gia trị trung bình tông thê của biên phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mâu đề ước lượng
Giảng viên hướng dân: Th.Š NGUYÊN KIỂU DỤNG Trang 2
Trang 4Trên một mẫu cĩ n cá thê, 201 Y= F(®, X3, , Xk) la hồi quy mẫu
Với một cá thê mẫu Y; Z Ê(Xa¡, Xã¡, , X4¡) sinh ra ei = Y¡ — Ể (Xa, X4, , X4); @¡ gọi
là phần dư SRF
Ta cĩ hàm hồi quy mẫu ‘one quat được viết đưới dạng như sau:
Ký hiệu: „ là ước lượng của Ba Chúng ta trong doi Bm 1a wdc lượng khơng chệch của
Bm hơn nữa phải là một ước lượng hiệu quả
Ước lượng SRF: chọn một phương pháp nào đĩ để ước lượng các tham số của F qua việc tìm các tham số của Ê và lấy giá trị quan sát của các tham số nảy làm giá trị xấp xỉ cho tham số của F
2.3 Phương pháp bình phương nhồ nhất (Ordinary Least Squares)
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Tốn học Đức Carl Friedrich Gauss Tư tưởng của phương pháp này là cực tiêu tổng bình phương của các phần dư Do
đĩ cĩ thể nĩi để cĩ được hỏi quy thích hợp nhất, chúng ta chọn các ước lượng cĩ tung độ gốc và độ dốc sao cho phần dư là nhỏ
tuyến tính bội
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham sơ của mơ hình, tuy nhiên mơ hình ước lượng phải thỏa mãn 7 giả thiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính khơng chệch cĩ hiệu quả nhất trong các ước lượng Vì thế phương pháp OLS đưa ra ước lượng khơng chệch tuyến tính tốt nhất (BLUE)
Kết quả này được gọi là Định lý Gauss — Markov, theo lý thuyết này ước lượng OLS là BLUE, nghia 1a trong tat cả các tơ hợp tuyến tính khơng chệch của Y, ước lượng OLS cĩ phương sai bé nhất Các giả thiết như sau:
1/ Hàm hồi quy là tuyến tính theo các hệ SỐ
Điều này cĩ nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng:
y = Bi+ Box2 + Bsx3 + Baxa + + Baxk tu
hoặc mối quan hệ thực tế cĩ thê được viết lại ví dụ như dưới dạng lay loga ca hai về,
Trung bình tong thé sai số là bang 0 Điều này cĩ nghĩa là cĩ một số giá trị sai số mang dấu dương và một SỐ Sai số mang dau âm Do hàm xem như là đường trung bình nên cĩ thê gia định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tơng thé
3/Var(ui) = ừ? : Phương sai bằng nhau và thuần nhất với moi u
Tat ca gia tri u được phân phơi giơng nhau với cùng phương sai 6”, sao cho:
Trang 5Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả
thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều nảy trở nên không mấy quan trọng
5/ Giữa các u;¡ thì độc lập với nhau
2.3.2 Ước lượng
Ta đặt: y; ký hiệu giá trị thực của biến y tại quan sat i
$¡ ký hiệu giá trị của hàm hồi quy mẫu
e¡ ký hiệu phần dư y¡ —
Ching ta co thiét lap các điều kiện bậc nhất cho phép tính tôi thiểu này như sau:
7 =-2È (vi-(8,+ 8 ôzxai+ ›xai+ + tu ))xi =0
= =-2È (vi- (B1+ Boxot Boxait +Bixt )) Xai= 0
“a = -22 (ø- (Bi + Boxai+ Baxgit.t Bix )) Xki = 0
Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu Chúng ta có thể giải k phương trình chuẩn này dé tim k hé sé B chưa biết Bi, B2, , Br được gọi là các ước lượng bình phương nhỏ nhất
2.4 Độ phù hợp của mô hình
Đề có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của
biến phụ thuộc, người ta sử dụng R?
Ta có: Xi - ÿ)” = 5[¡ - ÿ) + (ôi - ÿ)] = 5[ei + (ði - y)]
= *e + 2%ei(ði - y) + XÓi - ÿ)”
Đặt:
" >(y¡i—ÿ)?: TS§ — Total Sum of Squares
" ¥@-y)? : ESS — Explained Sum of Squares
Do Xe¡(Š¡ - ÿy) = 0 C Leiv; = 0; Ley = 0)
Trang 6= TSS là tông bình phương của tất cả các sai lệch giữa các giá trị quan sat Y; và giá tri trung binh
" ESS là tông bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy
" RSS là tông bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy
" TSS được chia thành 2 phần: một phần do ESS va mét phan do RSS gay ra
Tir TTS = ESS + RSS, ta chia ca hai vé cho TSS, ta có:
nghia R’ chung ta thay R? do ty 1¢ hay so % cua toan bé sai lệch Y với giá trị trung bình
được giải thích băng mô hình Khi đó người ta sử dụng RẺ đề đo sự phù hợp của hàm hôi quy:
" Nếu R?=0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đôi của biến phụ thuộc y
Trong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến x; và x; gây ra được gọi là hệ số xác định bội, ký hiệu là R2
>Œ¡-ÿ)Gai- X2)+3#(y¡-Ÿ)OAi- X3) Ze?
2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy
Mục đích của phân tích hồi quy không phải chỉ suy đoán về Bi, B2, , Bk ma con phat kiểm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của Bi s , x Các phân bố này phụ thuộc vào phân bố của các ui
Với các giả thiết OLS, u¡ có phân phối N (0, ø?) Các hệ số ước lượng tuân theo phân phối chuẩn:
ồ~ NÓ, Se(Ñ,)
B-B;
Ước lượng phương sai sai số dựa vào các phan dư bình phương tối thiểu Trong đó k
là số hệ số có trong phương trình hồi quy đa biến:
Trang 7P(- (n-3)) < <P(te(n-3))
=" Khoang tin cay l - ơ của Bị là:
[ 8 - te(n-3)SeB)| ; [Ê + @-3)5e@)]
2.5.2 Kiếm định giả thiét déi véi B;
Kiém dinh ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiếm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác
là hệ số hồi quy có ý nghĩa thống kê hay không
Có thê đưa ra giả thiết nào đó đối với B, chang han ; = ;* Néu giả thiết này đúng thì:
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0
Ứng dụng kiểm định Wald (thường được gọi là kiếm định F) được tiến hành cụ thê như
sau:
" Bước l: Giả thuyết “không” là Họ: Bo = B3 = = Bx = 0
Giả thuyét déi 1a Hi: “co ít nhất một trong những giá trị B khac khéng”
" Bước 2: Trước tiên hồi quy Y theo một số hạng không đôi va X2, X3, ., Xk, sau do tinh tong bình phương sai số RSSu, RSSr Phan phối F là tỷ số của hai biến ngau nhién phân phôi khi bình phương độc lập Điều này cho ta trị thống kê:
_— [RSSạ -R$Su ]/@&-m) _ _
Vi Ho: Ba = Bs = = Bx = 0, nhan thay rang trị thống kê kiếm định đối với giả thuyết nay sé la:
Trang 8I ANOVA mit yéu té
- Mục tiêu của phân tích phương sai (Analysis of Variance ANOVA) la so sanh trung bình của nhiều nhóm (tông thể) dựa trên các trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giải thuyết để kết luận về sự băng nhau của các trung bình tông thế này Trong nghiên cứu, phân tích phương sai được dùng như một công cụ
dé xem xét ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tổ kết quả
(định lượng)
- Phân tích phương sai một yếu tố (One-way ANOVA) là phân tích ảnh hưởng của một yêu tô nguyên nhân (dạng biên định tính) ảnh hưởng đên một yêu tô kêt quả (dạng
biên định lượng) đang nghiên cứu
1 Trường hợp k tông the có phần phối bình thường và phương sai bằng nhau Gia sử răng chúng ta muốn so sánh trung bình của k tổng thê trên những mẫu ngẫu nhiên độc lập gồm n;,n›, , nụ, quan sát từ k tong thé nay Can ghi nho ba gia dinh sau đây về các nhóm tông thê được tiền hanh phan tich ANOVA
- Các tông thê này có phân phối bình thường
- Các phương sai tông thể bằng nhau
- Các quan sát được lấy mẫu là độc lập nhau
Nếu trung bình của các tông thê được kí hiệu là tị, Hạ, , Hụ thì khi các giả định trên
được đáp ứng, mô hình phân tích phương sai một yêu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau:
Gia thuyét Ho cho rang trung bình của k tông thê đầu băng nhau (về mặt nghiên cứu liên hệ thì giả thuyết này cho rằng yếu tố nguyên nhân không có tác động gì đến vấn đề ta đang nghiên cứu) Và giả thuyết đối là:
H: Tôn tại ít nhất một cặp trung bình tông thể khác nhau Hai giả định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dưới đây, bạn thấy ba tông thê đều có phân phối bình thường với mức độ phân tán tương đối giống nhau, nhưng ba vị trí chênh lệch của chúng cho thay ba tri trung binh khac nhau R6 rang
là nêu bạn thực sự có các giá trị của 3 tông thể và biểu diễn được phân phối của chúng như hình dưới thì bạn không cần phải làm gì nữa mà kết luận được ngay là bạn bác bỏ
Hạ hay 3 tông thé nay có trị trung bình khác nhau
Giảng viên hướng dân: Th.Š NGUYÊN KIỂU DỤNG Trang 7
Trang 9Bảng 1: Bảng số liệu tổng quát thực hiện phân tích phương sai
cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng cộng kết quả tát cả các nhóm lai SSW phản
Giảng viên hướng dân: Th.Š NGUYÊN KIỂU DỤNG Trang 8
Trang 10ánh phần biến thiên của yếu tooskeets quả do ảnh hưởng của các yếu tổ khác, chứ không phải do yếu tố nguyên nhân đăng nghiên cứu (là yếu tố dùng để phân biệt các tông thê/ nhóm đang so sánh)
Tổng các chênh lệch bình phương của từng nhóm được tính theo công thức:
k ssc) n(%; — #2
=1
các chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu
nghiên cứu (xị) với trung bình chung toàn bộ (%) SST phản ánh biến thiên của yếu
tố kết quả do ảnh hưởng của tất ca cac nguyên nhân
SST = Sàn — X)?
Có thê dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng cộng tông các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch bình phương ø1ữa các nhóm
SST = SSW + SSG
Như vậy công thức trên cho thấy, SST la toan bd bién thién cua yeu tố kết quả đã được phân tích thành 2 phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và phần biến thiên còn lại do các yếu tổ khác không nghiên cứu ở đây tạo ra (SSW) Nếu phần biến thiên do yếu tố nguyên nhân đang xét tạo ra căng "đáng kế” so với phần biến thiên do các yếu tố khác không xét tạo ra, thì chúng ta càng có cơ sở để bac bo Ho va két luận là yếu tổ nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tổ kết quả Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương) Các phương sai được tính băng cách lấy các tổng các chênh lệch bình phương chia cho bậc tự do tương ứng
Tính phương sai trong nội bộ nhóm (MSW) bằng cách lấy tông các chênh lệch bình
phương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n-k (n là số quan
Giảng viên hướng dân: Th.Š NGUYÊN KIỂU DỤNG Trang 9
Trang 11sat, k la số nhóm so sánh) MSW là ước lượng phần biến thiên của yếu tổ kết quả do các yếu tố khác gây ra (hay giải thích)
SSW MSW = NTK Tính phương sai giữa các nhóm (MSG) bằng cách lấy tông các chênh lệch bình phương giữa các nhóm chia cho bậc tự do tương ứng là k — 1 MSG là ước lượng phân biên thiên của yêu tô kết quả do yêu tô nguyên nhân đang nghiên cứu gây ra (hay giải thích được)
Bước 4: Kiểm định giả thuyết
Gia thuyết về sự bằng nhau của k trung bình tổng thế được quyết định dựa trên tỉ số của hai phương sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ nhóm (MSW), TI so nay duge goi la ty số F vì nó tuần theo qui luật Fisher- Snedecor với bậc
Tam dich sang tiéng Viét:
Trang 122 Kiểm tra các giả định của phân tích phương sai
Chúng ta có thể kiểm tra nhanh các giả định này băng đồ thị Histogram là phương pháp tốt nhất đề kiểm tra giả định về phân phối bình thường của dữ liệu nhưng nó đòi hỏi một số lượng quan sát khá lớn Biểu đồ thân lá hay biéu dé hộp và râu là một thay thế tốt trong tình huống số quan sát ít hơn Nếu công cụ đồ thị cho thấy tập dữ liệu mâu khá phù hợp với phân phối bình thường đã thỏa mãn Hình dưới mô tả biếu đồ hộp rau cho tap dit liệu mẫu về ba nhóm sinh viên trong tập đữ liệu của chúng ta Đồ thị cho thấy ngoại trừ nhóm có thời gian tự học TB có hình đáng phân phối của đữ liệu hơi lệch sang trái, còn hai nhóm còn lại có phân phối khá cân đối Với số quan sát không nhiều thì biểu hiện như thế này của dữ liệu là khả quan và có thê chấp nhận được
Đề khảo sát giả định bằng nhau của phương sai, biểu đồ hộp và râu cũng cho cảm nhận ban đầu nhanh chóng, với ba biểu đồ này, mức độ phân tán của đữ liệu trong trong
mỗi tập dữ liệu mẫu không khác biệt nhau nhiêu
Ho: Of = 03 = = ơi
H¡: Không phải tất cả các phương sai đều bằng nhau
Đề quyết định chấp nhận hay bác bỏ H› ta tính toán giá trị kiểm định F theo công thức
Sthax Finax = Z
Trong đó s2 là phương sai lớn nhất trong các nhóm nghiên cứu và s2¡ạ là phương
Gia trị F tính được được đem so sánh với giá trỊ F(,ap, „ tra được từ bảng phân phôi Hartley Fmax (la bang s6 5 trong phan phy luc) Trong đó k là số nhóm so sánh, bậc tự do
df tính theo công thức df= (ñ — 1) Trong tỉnh huông các nhóm n¡ khác nhau thì
Trang 13F cae); « = FQs;21—p;os = 2.95 > Ema > chap nhan Ho
Nếu chúng ta không chắc chăn về các giả định hoặc nếu kết quả kiếm định cho thấy các giả định hoặc nếu kết quả kiếm định cho thấy các giả định không được thỏa mãn thì một phương pháp kiêm định thay thế cho ANOVA là phương pháp kiểm định phi tham
số Krusksl-Wallis sẽ được áp dụng Tuy nhiên trong ví dụ này ở đây, ta có thể xem các giả định để tiến hành phân tích phương sai đã được thỏa mãn
3 Phân tích sâu ANOVA
Mục đích của phân tích phương sai là kiếm định giả thuyết Ho rằng trung bình của các tong thé bang nhau Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp nhận giả thuyết Hụ hoặc bác bỏ giả thuyết Ho Nếu chấp nhận giả thuyết Họ thì phân tích kết thúc Nếu bác bỏ giả thuyết Ho, bạn kết luận trung bình của các tông thê không bằng nhau
Vi vay, vấn đề tiếp theo là phân tích sâu hơn đề xác định nhóm (tông thể) nào khác nhóm nào, nhóm nảo có trung bình lớn hơn hay nhỏ hơn
Có nhiều phương pháp dé tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết Ho Trong chương nảy chỉ để cập đến I phương pháp thông dụng đó là phương pháp Tukey, phương pháp này còn được gọi là kiếm định HSD (Honestly Significant Differences) Nội dung của phương pháp nảy là so sánh từng cặp các trung bình nhóm ở mức ý nghĩa œ nào đó cho tất cả các cặp kiểm định có thê để phát hiện ra những nhóm khác nhau Nếu
có k nhóm nghiên cứu, và chúng ta so sánh tất cả các cặp nhóm thì số lương cặp cần phải
Các giả thuyệt cân kiêm định sẽ là :
Giá trị giới hạn Tukey được tính theo công thức:
MSW
T= Ga, k,n—K — TH
Trong đó:
nghĩa œ, với bậc tự do k và n-k, với n là tông số quan sát mẫu (n= ¥ nj)
ta có thể thay diém trung bình học tập của nhóm có thời gian tự học nhiều cao hơn hắn
hai nhóm kia, nhóm có thời gian tự học ít thấp hơn hắn hai nhóm kia, nhóm có thời gian
Giảng viên hướng dân: Th.Š NGUYÊN KIỂU DỤNG Trang 12
Trang 14tự hoc trung bình cao hơn nhóm tự học ít nhưng thấp hơn nhóm tự học nhiều Như vậy, thời gian tự học có ảnh hưởng đên kết quả học tập
2MSW
tị —Hạ — XỊ — X2 +
Trong đó t là giá trị tra từ bảng phân phối Student t với (n-k) bậc tự đo
Trong chương trình Excel không có các lệnh phân tích sâu ANOVA Chúng ta có thể thực hiện phân tích này bằng chương trình SPSS Ngoai ra kết quả của SPSS còn cung cấp cho các bạn một kiểm định chính thức về sự bang nhau của các phương sai tông thể
là kiểm định Levene (Bạn đọc có thê xem cách thức tiến hành kiểm tra giả định của phân tích ANOVA một yếu tố và phân tích sâu ANOVA trong sách Phân tích dữ liệu nghiên cứu với SPSS của cùng tác gia)
Phân tích phướng sai với kiểm định F chỉ có thể áp đụng khí các nhóm so sánh có phân phối bình thường và phương sai bằng nhau Trong trường hợp không thỏa điều kiện này, chúng ta có thê chuyên đôi đữ liệu của yeu tố kết quả từ dạng định lượng về dạng định tính (dữ liệu thứ bậc) và áp dụng một kiểm định phi tham số phủ hợp tên là Kruskal- Wallis Ban đọc có thể tìm hiểu về kiểm định này ở Chương 10, kiêm định phi tham số
Giảng viên hướng dân: Th.Š NGUYÊN KIỂU DỤNG Trang 13
Trang 15PHẢN II: BÀI TẬP XỬ LÝ SỐ LIỆU
HOAT DONG 1
Dé bai:
Tập tin flights.rda cung cấp thông tin về 162049 chuyên bay đã khởi hành từ hai sân bay lớn của vùng Tây bắc Thái Bình Dương của Mỹ, SEA ở Seattle và PDX ở Portland trong năm 2014 Dữ liệu cung cấp bởi Văn phòng Thống kê Vận tải, Mỹ (https://www.transtats.bts.gov/) Dữ liệu này được dùng để phân tích các nguyên nhân gây ra sự khởi hảnh trễ hoặc hoãn các chuyến bay Chi tiết về bộ dữ liệu như sau:
1 year, month, day: ngày khởi hành của mỗi chuyên bay
2 carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa
Vi du: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v
3 origin và desr: tên sân bay đi và đến Đối với sân bay di, ta chỉ có hai giá trị SEA (Seattle) và PDX (Portland)
4 đep từme và arr từme: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
5 đep delay và arr delay: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé
6 distance: khoảng cách giữa hai sân bay (dặm)
Các bước thực hiện:
1 Đọc dữ liệu (Import data): “flights.rda”
2 Làm sạch dữ liệu (Data cleaning): NA (đữ liệu khuyết)
3 Làm rõ đữ liệu: (Data visualization)
(a) Chuyến đổi biến (nếu cần thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đỗ thị
4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (đep delay) giữa các hãng bay
5 Mô hình hỏi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp đề phân tích các
yếu tố ảnh hưởng đến việc léch gid dén (arr delay) cua cac chuyén bay
Trang 16
1 Đọc dữ liệu (Import data)
Đọc tệp tin "flights.rda""
Hình I: code R và kêt quả khi đọc tệp tên và xem 10 dòng đầu tiên của tệp tin
load("C:/Users/HOANG NHAN/Downloads/Data cho BTL (1)/Data cho BTL/flights.rda") #doc tep tin head(flights, 10)
9 201 1 1 327 7 9 4 UA M/4ii l376 = SEA DEN 136 104 5 27
10 2014 1 1 536 1 14 -6 UA N574UA 478 = SEA EWR 268 = 24025 36
2 Làm sạch dữ liệu (Data cleaning)
new _DF, đồng thời kiểm tra dữ liệu khuyết trong tệp tin
Hình 2: code R và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính
Hình 3: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin
apply(is.na(new_df),2,sum) #dem tat ca du lieu khuyet trong tung cot
apply(is.na(new_df),2,mean) #% ty le khuyet trong du lieu
#kiem tra du lieu khuyet
> aoply(is.na(nen_df) ,2,sum) #dem tat ca du Tiew khuyet trong tung cot
year nomth day carrier origin dest dep_time arr_tine dep_celay arr_delay distance
0 0 0 0 0 0 857 988 857 1301 0
> aoply(is.na(nen_éf),2,nean) #% ty le khuye trong du lieu
year month day carrier origin dest (eptile arr_tine dep_celay arr_delay distance 0.090000000 0 000000000 0 000000000 0 000000000 0.000000000 0.000000000 0.005233524 0.006096321 0.005288524 0 008028436 0.000000000
Trang 17
Nhận xét: Dựa vào kết quả thu được ở bảng thống kê tỷ lệ giá trị khuyết đối với từng biến, ta nhận thấy có nhiều gid tri khuyét tai bién dep time, arr time, dep play, arr play Vì lượng khuyết trong dữ liệu chỉ chiếm tối đa 2,5% lượng quan sát (dưới 10%), đo đó ta lựa chọn phương pháp xoá các quan sát của biến nảo có giá trị khuyết trong tệp tin new_ df
Hình 4: code R khi xoá các quan sát chứa dữ liệu khuyết
n=nrow(new_df) #dem so dong truoc khi xoa
new_df=na.omit(new_df) #xoa tat ca cac dong co chua o trong
m=nrow(new_df) #dem so dong sau khi xoa
q=n-m #so dong da bi xoa
r=q/n #ty le so dong bị xoa
: - So dong còn lại sau khi đã xóa
3 Làm rõ dữ liệu: (Data visualization)
điểm tứ phân vị) của chênh lệch giữa thời gian cất cánh thực tế và thời gian cất cánh/hạ cánh in trong vé (biến dep delay) của từng hãng hàng không (carrier) Xuất kết quả đưới dạng bảng
- - Vẽ biêu đồ boxplot thể hiện phân phối của biến dep delay theo từng hãng hàng không (carrier)
Trang 18
Hình 5: code R và kết quả tính các giá trị thống kê mô tả và vẽ biểu đồ boxplot
cho biên dep_ delay của từng hãng hàng không (carrier)
DL 16637 -19 886 4.778806 -4 -2 4 r9 2683 -20 815 10.149832 -6 -2 11
Trang 19Nhận xét: Qua biêu đồ trên ta thay rang co rất nhiều điểm ngoại lai (outliers) ở biến dep delay, điều này có thể là nguyên nhân ảnh hưởng đến kết quả phân tích phía sau
Do đó, ta sử dụng khoảng tứ phân vị (interquartile range) dé loại bỏ các điểm outlier
Ý trởng cho bài foán: Ta sẽ chuyên các outliers của biến dep_ delay ở từng hãng hàng không sang NA Từ đó đề xuất phương pháp xử lý các NA đó Ta tạo function xác định outliers, chuyển các outliers thành dạng NA Việc tao function mới sẽ giup ta tối
ưu code hơn
Hình 7: code R khi tạo function xác định outliers, chuyển cac outliers thanh dang NA
Hình 8: code R và kết quả khi lọc các outliers tương ứng với từng hãng và chuyên
thành NA
#Tao hàm "remove.outliner" thanh NA
AA = subset(new_dí,new_df[,"carrler"]=="AA")
#Loc dư lieu trong dataframe với cột carrier =AA va luu vao AA
AA[I,"dep_ delay"]=remove.outliner(AA[,"dep_ delay"])
# Dụng ham da to de chuyen cac bien ngoai vi thanh NA va luu vao lai AA
Trang 20- _ Ghép các dữ liệu lại với nhau và lưu vào new_ đf2
Hình 9: code R khi ghép các đữ liệu lại với nhau
new _dí2 =rbind(AA,AS,B6,DL,F9,HA,OO,UA,US,VX,WN)
# ghep cac du lieu lai voi nhau
NA)
Hình 10: code R và kết quả khi Kiểm tra tông NA và tỷ lệ NA trong tệp tin new df2
# Kiem tra lai tong NA va ty le NA ơ new _df2
apply(is.na(new_ dí2),2,sum) # tong so luong NA o cac bien
apply(is.na(new_df2),2,mean) # ty le NA o cac bien
> apply(is.na(new_df2),2,sum) # tong so luong NA o cac bien
year month day carrier origin dest dep_time arr_time dep_delay arr_delay distance
0 0 0 0 0 0 0 18732 0 0 (new_df2),2,mean) # ty 1: NA 0 cac bien
cay carrier origin dest dep_ti ime arr_time dep_ delay arr_delay 0.0000000 0.0000000 0.0000000 0 00 0.00 0 0.0000000 0.1165302 0.0000000 0
Hình I1: code R khi thay thế các NA bằng các giá trị trung bình tương ứng với từng
hãng hàng không
#Thay the gia tri NA bang cac gia tri trung binh tuong ung cua tung hang hang khong
AA$dep_ delay[is.na(AA$dep delay)]=mean(AA$dep_ delay,na.rm = T)
# Thay the cac bien NA trong dep_ delay cua AA thanh gia tri trung binh cua bien dep_delay AS$dep_ delay[is.na(AS$dep_ delay)]=mean(AS$dep_ delay,na.rm = T)
B6$dep_ delay[is.na(B6$dep_ delay)]=mean(B6$dep_delay,na.rm = T)
WN$dep._ delay[is.na(WN$dep_ delay)]=mean(WN$dep_delay,na.rm = T)
- _ Ghép các dữ liệu lại với nhau và lưu lại vào new_ đdf2
Hình 12: code R khi ghép các đữ liệu lại với nhau
# ghep cac dư lieu lai voi nhau 1 lan nua va luu lai la new_df2
new_df2 =rbind(AA,AS,B6,DL,F9,HA,OO,UA,US,VX,WN)
Trang 21
- Kiém tra lai NA trong data new df2 sau khi xử lý NA
Hình 13: code R khi kiểm tra lại NA trong data new_ đf2 sau khi xử lý NA
#Kiem tra NA lai xem co bi xot khong
apply(is.na(new_df),2,which)
# sau khi thay Integer(0) thi da khong con NA trong data, tien hanh thong ke mau lai
> #Kiem tra NA lai xem co bi xot khong
Trang 22- Vẽ lại biểu đồ boxplot thể hiện phân phối của biến đep delay theo từng hãng hàng không (carrier)
Hình 16: code R và kết quả khi lại vẽ biểu đồ boxplot thế hiện phân phối của biến
dep_ delay theo tung hang hang không (carrier)
# Ve bieu do cua bien 'Dep delay’ theo phan loai bien "Carrier"
boxplot(dep_delay ~ carrier,xlab = "Carrier",ylab = "Dep_delay",main ="Boxplot of Dep_delay for category of Carrier’ ,data=new_df2)
Đối với hãng hàng khong AA:
+ Max = 26 : Thời gian khởi hành trễ nhất 26 phút so với thời gian bay dự kiến + QI=-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút so với thời gian bay dự kiến
+ Q2 =-2 : 50% chuyên bay có thời gian khởi hành sớm hơn 2 phút so với thời gian bay dự kiến
+ Q3 =0: 75% chuyến bay có thời gian khởi hành sớm hơn thời gian dự kiến bay Đối với hãng hàng không AS:
+ QI=- 5: 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút so với thời gian bay dự kiến
+ Q2 =- 2.5563 : 50% chuyên bay có thời gian khởi hành sớm hơn 2.5563 phút so với thời gian bay dự kiến
Trang 23
+ Q3 = - L: 75% chuyến bay có thời gian khởi hành sớm 1 phút phút so với thời gian bay dự kiên
Đối với hãng hàng không B6:
+ Min = - 20 : Thời gian khởi hành sớm nhất 20 phút phút so với thời gian bay dự kiến
+ Max = 31 : Thời gian khởi hành trễ nhất 3L phút so với thời gian bay dự kiến + QI=-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút so với thời gian bay dự kiến
+ Q2 =-2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút so với thời gian bay dự kiến
+Q3=1:75% chuyến bay có thời gian khởi hành sớm 1 phút so với thời gian bay dự kiến
Đối với hãng hàng không DL:
+ QI=-4: 25% chuyến bay có thời gian khởi hành sớm hơn 4 phút so với thời gian bay dự kiến
+ Q2 =-2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút so với thời gian bay dự kiến
+ Q3 =0: 75% chuyến bay có thời gian khởi hành sớm hơn thời gian dự kiến bay Đối với hãng hàng không F9:
+ Min = - 20 : Thời gian khởi hành sớm nhất 20 phút so với thời gian bay dự kiến + Max = 36 : Thời gian khởi hành trễ nhất 36 phút so với thời gian bay dự kiến + QI=-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút so với thời gian bay dự kiến
+ Q2 =-2 : 50% chuyên bay có thời gian khởi hành sớm hơn 2 phút so với thời gian bay dự kiến
+ Q3 =4: 75% chuyến bay có thời gian khởi hành trễ từ 4 phút trở xuống so với thời gian bay dự kiến
Đối với hãng hàng không HA:
+ Min = - I6 : Thời gian khởi hành sớm nhất 16 phút so với thời gian bay dự kiến
+ Max = §: Thời gian khởi hành trễ nhất 8 phút so với thời gian bay dự kiến
+ QI=- 7: 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút so với thời gian bay dự kiến
+ Q2 =- 4.5056 : 50% chuyên bay có thời gian khởi hành sớm hơn 4.5056 phút so với thời gian bay dự kiến
+ Q3 =-2 : 75% chuyên bay có thời gian khởi hành sớm hơn 2 phút so với thời gian bay dự kiến
+ Min = - L7 : Thời gian khởi hành sớm nhat 17 phut so voi thoi gian bay dự kiên + Max = I0 : Thời gian khởi hành tré nhat L0 phút so với thời gian bay dự kiến
Trang 24
+ QI=- 7: 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút so với thời gian bay dự kiến
+ Q2 =- 4.1136 : 50% chuyên bay có thời gian khởi hành sớm hơn 4.1 136 phút so với thời gian bay dự kiến
+ Q3 =-2 : 75% chuyên bay có thời gian khởi hành sớm hơn 2 phút so với thời gian bay dự kiến
Đối với hãng hàng không UA:
+ Min = - 19 : Thời gian khởi hành sớm nhất 19 phút so với thời gian bay dự kiến
+ Max = 27 : Thời gian khởi hành trễ nhất 27 phút so với thời gian bay dự kiến
+ QI=- 5: 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút so với thời gian bay dự kiến
+ Q2 =- I: 50% chuyến bay có thời gian khởi hành sớm hơn 1 phút so với thời gian bay dự kiến
+ Q3 =2 : 75% chuyến bay có thời gian khởi hành trễ từ 2 phút trở xuống so với thời gian bay dự kiến
Đối với hãng hàng không US:
+ Min = - I5 : Thời gian khởi hành sớm nhất 15 phút so với thời gian bay dự kiến
+ Max = II : Thời gian khởi hành trễ nhất II phút so với thời gian bay dự kiến + QI=-6: 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút so với thời gian bay dự kiến
+ Q2 =- 3.0085 : 50% chuyên bay có thời gian khởi hành sớm hơn 3.0085 phút so với thời gian bay dự kiến
+Q3=-1:75% chuyến bay có thời gian khởi hành sớm I1 phút so với thời gian bay
dự kiến
Đối với hãng hàng không VX:
dự kiến
+ Q2 = -2.6272 : 5% chuyên bay có thời gian khởi hành sớm hơn 2.6272 phút so với
thời gian bay dự kiến
+Q3=-l:7% chuyền bay có thời gian khởi hành sớm hơn L phút so với thời gian bay
dự kiến
Đối với hãng hàng không WN:
Trang 254 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_ delay) giữa các hãng bay
Chúng tôi quan tâm đến việc kiểm định rằng có sự khác biệt trong chênh lệch thời gian trung bình của các hãng hàng không đối với các chuyến bay khởi hành từ Portland trong nam 2014 hay không? Đề lọc các chuyến bay từ Portland trong năm 2014:
Hình 17: code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ
Portland trong năm 2014
s* Giải thích lí do sử dụng ANOVA một nhân to:
- _ Ta có II hãng hàng không có chuyến bay khởi hành từ Portland trong năm 2014
Đề thực hiện so sánh trung bình của nhiều nhóm, phương pháp tôi ưu nhất là dùng phân tích phương sai Nếu chỉ so sánh 2 trung bình của 2 nhóm, ta có thê dùng t- test Vi vay néu dung t-test cho bài toán này, ta phải thực hiện kiểm định rất nhiều lần Phương pháp phân tích phương sai cho ta kết luận sự băng nhau hoặc khác nhau giữa các nhóm so sánh thông qua một phép kiểm định duy nhất
- - Như vậy ta sẽ sử dụng mô hình ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep delay) giữa các hãng bay đối với các chuyên bay khởi hành
tr Portland trong nam 2014
Biến phụ thuộc: dep delay
Các nhân tô (hay biến độc lập): carrier
- _ Đặt giả thuyết:
+ Gia thuyét Ho: B, = By = = By, Việc lệch giờ bay trung bình giữa các hãng hàng không đối với các chuyền bay khởi hành từ Portland năm 2014 băng nhau
+ Đối thuyết Mi: 3Bu; # Bu, (với ¡ #j) © Có ít nhất 2 hãng hàng không đối với các
chuyến bay khởi hành từ Portland năm 2014 có việc lệch giờ bay trung bình khác nhau
Trang 26
~ Cac gia định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portland tuân theo phân phối chuẩn
+ Tính đồng nhất của các phương sai: Phương sai việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portland bằng nhau
* Kiếm tra giả định phân phối chuẩn:
Giả thuyết Hụ: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portland tuân theo phân phối chuẩn
Giả thuyết H¡: Việc lệch giờ bay ở các hãng hàng không đối với các chuyền bay khởi hành từ Portland không tuân theo phân phối chuẩn
Trang 27
-Hăng hàng không ÁA: ; ; Hinh 18: code R và kết quả khi kiêm định giả định phân phôi chuẩn cho biên
dep_ delay 6 hang hang khéng AA 1.AA PDX_ =subset(PDX, PDX$carrier =="AA")#LoccacchuyenbaykhoihanhtuPortlandcua
1 library (nortest ) #yeucaudocgoilenh’’nortest’’desudungad.test
2 ad.test(AA_PDX$dep_delay) #sudungham“ad.testdekiemtragiadinhphanphoichuan cua dep _delay'tuhangAA
kỳ vọng của phân phối chuẩn, đo đó biến dep delay của hãng hàng không AA không tuân theo phân phối chuẩn Hơn nữa, giá trị p trong thử nghiệm ad.test nhỏ hơn nhiều
so với mức ý nghĩa œ = 0,05, vì vậy chúng tôi bác bỏ giả thuyết Ho, vì vậy chúng tôi cũng kết luận rằng biến dep delay cho hãng hàng không AA không tuân theo phân phối chuẩn
Trang 28
-Hang hang khéng AS: ; ; Hinh 19: code R và kết quả khi kiêm định giả định phân phôi chuẩn cho biên
dep_ delay 6 hãng hàng không AS AS_PDX =subset(PDX,PDX$carrier =="AS")
qqnorm(AS_PDX$dep_delay)
qqline(AS_PDX$dep_delay)
= 153.82, p-value < 2.2e-16
vọng của phân phối chuẩn, do đó biến dep delay trong AS Airlines không tuân theo phân phối chuẩn Ngoài ra, giá trị p trong thử nghiệm ad.test nhỏ hơn nhiều so với mức ý nghĩa œ = 0,05, vì vậy chúng tôi bác bỏ giả thuyết Ho, vì vậy chúng tôi cũng kết luận rằng biến đep_ delay trong hãng hàng không AS không tuân theo phân phối chuẩn
Trang 29
-Hang hang khong B6: — ; ; Hình 20: code R và kết quả khi kiêm định giả định phân phôi chuân cho biên
dep_delay ở hãng hảng không B6 B6_PDX =subset(PDX, PDX$carrier =="B6")
Nhận xét: Biéu đồ QQ- plot cho thấy có nhiều quan sát không nằm trên đường thăng
kỳ vọng của phân phối chuẩn, vì vậy biến dep_ delay trong hãng hàng không B6 không tuân theo phân phối chuẩn Ngoài ra, giá trị p trong thử nghiệm ad.test nhỏ hơn nhiều
so với mức ý nghĩa œ = 0,05, vì vậy chúng tôi bác bỏ giả thuyết Ho, vì vậy chúng tôi cũng kết luận răng biến dep delay cho hãng hàng không B6 không tuân theo phân phối chuẩn
Trang 30
-Hãng hang khong DL: ` ; ; ; ; Hinh 21: code R và kết quả khi kiêm định giả định phân phôi chuẩn cho biên
đep_ delay ở hang hảng không DL DL_PDX =subset(PDX, PDX$carrier =="DL')
Nhận xét: Biéu dé QQ-plot cho thấy có nhiều quan sát không nằm trên đường thắng
kỳ vọng của phân phối chuẩn, vi vậy biến dep_ delay trong hãng hàng không B6 không tuân theo phân phối chuẩn Ngoài ra, giá trị p trong thử nghiệm ad.test nhỏ hơn nhiều
so với mức ý nghĩa œ = 0,05, vì vậy chúng tôi bác bỏ giả thuyết Ho, vì vậy chúng tôi cũng kết luận răng biến dep delay cho hãng hàng không DL không tuân theo phân phối chuẩn
Giảng viên hướng dân: Th.S NGUYÊN KIỂU DUNG Trang 29
Trang 31-Hăng hàng không F9:
Hình 22: code R và kết quả khi kiêm định giả định phân phối chuẩn cho biến
đep_ delay ở hang hàng không F9 F9_PDX =subset(PDX, PDX$carrier =="F9")
A = 54.813, p-value < 2.2e-16
Nhan xét: Biéu dé QQ-plot cho thay co nhiéu quan sat khéng nam trén dwong thang
ky vong cua phan phối chuẩn, vì vậy biến dep delay trong hãng hàng không F9 không tuân theo phân phôi chuân Ngoài ra, giá trị p trong thử nghiệm ad.test nhỏ hơn nhiều
so với mức ý nghĩa œ = 0,05, vì vậy chúng tôi bác bỏ giả thuyết Ho, vì vậy chúng tôi cũng kết luận rằng biến dep_ delay cho hãng hàng không F9 không tuân theo phân phối chuân
Giảng viên hướng dân: Th.S NGUYÊN KIỂU DUNG Trang 30
Trang 32-Hăng hàng không HA: — ; ; Hinh 23: code R va ket quả khi kiêm định giả định phân phôi chuẩn cho biên
dep_ delay 6 hãng hàng không HA HA_PDX =subset(PDX,PDX$carrier =="HA')
Nhân xét: Biéu dé QQ-plot cho thấy có nhiều quan sát không nằm trên đường thắng
kỳ vọng của phân phối chuẩn, vì vậy biến dep delay trong hãng hàng không HA không tuân theo phân phối chuẩn Ngoài ra, giá trị p trong thử nghiệm ad.test nhỏ hơn nhiều so với mức ý nghĩa œ = 0,05, vì vậy chúng tôi bác bỏ giả thuyết Ho, vì vậy chúng tôi cũng kết luận rằng biến dep delay cho hang hang không HA không tuân theo phân phối chuẩn
Giảng viên hướng dân: Th.S NGUYÊN KIỂU DUNG Trang 31
Trang 33-Hãng hàng khong OO: ; ; ; ; Hinh 24: code R và kết quả khi kiêm định giả định phân phôi chuẩn cho biên
đep_ delay ở hãng hàng không OO
Nhận xét: Biểu đồ QQ-plot cho thấy có nhiều quan sát không năm trên đường thắng
kỳ vọng của phân phối chuẩn, vì vậy biến dep delay trong hãng hàng không OO không tuân theo phân phối chuẩn Ngoài ra, giá trị p trong thử nghiệm ad.test nhỏ hơn
nhiều so với mức ý nghĩa ơ = 0,05, vi vậy chúng tôi bác bỏ giả thuyết Ho, vì vậy chúng
tôi cũng kết luận rằng biến dep delay cho hãng hàng không OO không tuân theo phân phối chuẩn
Giảng viên hướng dân: Th.S NGUYÊN KIỂU DUNG Trang 32
Trang 34-Hãng hang khong UA: ; ; ; ; Hinh 25: code R va ket quả khi kiêm định giả định phân phôi chuẩn cho biên
đep_ delay ở hãng hảng không UA
UA PDX =subset(PDX, PDX$carrier =="UA")
Nhận xét: Biéu dé QQ-plot cho thấy có nhiều quan sát không nằm trên đường thắng
kỳ vọng của phân phối chuẩn, vì vậy biến dep delay trong hãng hàng không UA không tuân theo phân phối chuẩn Ngoài ra, giá trị p trong thử nghiệm ad.test nhỏ hơn
nhiều so với mức ý nghĩa ơ = 0,05, vì vậy chúng tôi bác bỏ giả thuyết Họ, vì vậy chúng
tôi cũng kết luận rằng biến dep delay cho hãng hàng không UA không tuân theo phân phối chuẩn
Giảng viên hướng dân: Th.S NGUYÊN KIỂU DUNG Trang 33
Trang 35-Hãng hang khong US: ; ; ; ; Hinh 26: code R và kết quả khi kiêm định giả định phân phôi chuẩn cho biên
dep_ delay ở hang hang khéng US
US PDX =subset(PDX, PDX$carier =="US")
A = 33,796, p-value < 2.2e-16
Nhận xét: Biếu đồ QQ-plot cho thấy có nhiều quan sát không năm trên đường thắng
kỳ vọng của phân phối chuẩn, vì vậy biến dep_ delay trong hãng hàng không US không tuân theo phân phối chuẩn Ngoài ra, giá trị p trong thử nghiệm ad.test nhỏ hơn nhiều
so với mức ý nghĩa œ = 0,05, vì vậy chúng tôi bác bỏ giả thuyết Ho, vì vậy chúng tôi cũng kết luận rằng biến đep_ delay cho hãng hàng không US không tuân theo phân phối chuẩn