Vì vậy trong thực tế chỉ cần thực hiện phép thử để có được một mẫu cụ thể w = x1 , x2 , .., xn rồi tính giá trị của G1 và G2 ứng với mẫu đã cho sẽ cho ta một khoảng ước lượng thỏa yêu
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Tp HCM, tháng 12 năm 2023
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 2
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-* -
SINH VIÊN THỰC HIỆN
Họ tên MSSV Mô tả đóng góp Điểm
Lê Vũ Hoàng Vương 2214013
Nguyễn Lê Gia Vương 2214015
Nguyễn Phi Viễn 2213935
Nguyễn Quang Huy 2211240
Trang 3TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 3
Phụ lục
I ĐỀ TÀI 4
II.THỰC HIỆN 5
1.Cơ sở lí thuyết 5
a) Ước lượng bằng khoảng tin cậy 5
b) Kiểm định thống kê 5
c) Phân tích phương sai ( ANOVA ) 8
d) Hồi quy tuyến tính 13
2 Đọc dữ liệu (Import data): 16
3.Làm sạch dữ liệu (Data cleaning): 17
4.Lọc dữ liệu theo khu vực Mexico: 18
5.Làm rõ dữ liệu (Data visuolization): 19
a)Đối với các biến liên tục 19
b)Vẽ đồ thị thể hiện phân phối của số lượng hành khách bằng lệnh Hist 21
c)Vẽ đồ thị hộp boxplot thể hiện số lượng của hành khách theo các biến phân loại 22
d) Vẽ đồ thị phân tán thể hiện phân phối của Adjusted_Passenger_Count theo tháng và năm 27
e) Dùng lệnh pairs vẽ biểu đồ phân tán giữa các biến 28
III THỐNG KÊ SUY DIỄN 29
1 ANOVA 30
2.Ước lượng khoảng tin cậy 39
3.Kiểm định 2 mẫu 40
4.Mô hình hồi quy tuyến tính 41
a)Tiêu chuẩn chọn các mô hình 41
b) Phương pháp có thể sử dụng để lựa chọn ra mô hình tốt nhất: Phân tích tất cả các biến và chọn ra những biến có ý nghĩa thống kê 41
c)Thực hiện xây dựng các mô hình 42
d) So sánh các mô hình 47
e) Kiểm định các giả thuyết bằng đồ thị: 48
Trang 4TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 4
Các biến chính trong bộ dữ liệu:
• Activity Period: Thời gian hoạt động của các chuyến bay
• Operating Airline: Hãng hàng không khai thác chuyến bay
• Operating Airline IATA Code: Mã IATA của hãng hàng không khai thác chuyến bay
• Published Airline: Hãng hàng không đã công bố giá vé cho chuyến bay
• Published Airline IATA Code: Mã IATA của hãng hàng không đã công bố giá vé cho chuyến bay
• GEO Summary: Tính chất của chuyến bay (nội địa, quốc tế)
• GEO Region: Khu vực hoạt động của chuyến bay
• Activity Type Code: Loại hoạt động
• Price Category Code: Loại giá của giá vé
• Terminal: Các sân bay
• Boarding Area: Khu vực lên máy bay của chuyến bay
• Passenger Count: Số lượng hành khách trên chuyến bay
• Adjusted Activity Type Code: Loại hoạt động được điều chỉnh cho dữ liệu bị thiếu
• Adjusted Passenger Count: Số lượng hành khách trên chuyến bay được điều chỉnh cho
dữ liệu bị thiếu
• Year: Năm hoạt động của chuyến bay
• Month: Tháng hoạt động của chuyến bay
Trang 5TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 5
II.THỰC HIỆN
1.Cơ sở lí thuyết
a) Ước lượng bằng khoảng tin cậy
Định nghĩa: chính là tìm ra khoảng ước lượng (G1 ;G2 ) cho tham số trong tổng thể sao
cho ứng với độ tin cậy (confidence) bằng cho trước, P( G1 < < G2 ) =
Ưu điểm:
Phương pháp ƯL bằng khoảng tin cậy có ưu thế hơn phương pháp ƯL điểm vì nó làm tăng độ chính xác của ước lượng và còn đánh giá được mức độ tin cậy của ước lượng Khả năng mắc sai lầm của phương pháp là = 1-
Trong thống kê, người ta dùng ký hiệu để biểu diễn cho giá trị xác suất nhỏ Vì vậy,
kí hiệu 1- còn được dùng để biểu diễn độ tin cậy của khoảng ước lượng
Phương pháp tìm khoảng tin cậy cho tham số với độ tin cậy = 1- cho trước:
Trước tiên, tìm hàm ước lượng G = f(X1 , X2 , , Xn , ) sao cho quy luật phân phối xác suất của G hoàn toàn xác định, không phụ thuộc vào các đối số
Chọn cặp số 1 , 2 0 sao cho 1 + 2 = và tìm G1 , G2 mà P( G < G1 )
=1 & P(G > G2 ) = 2; suy ra P(G1 < G < G2 ) = 1 -
Biến đổi để tìm được các giá trị G1 , G2 sao cho P(G1 < < G2 ) = 1- Khi đó
khoảng (G1 , G2 ) chính là một trong các khoảng tin cậy (confidence interval) cần tìm
Theo nguyên lý xác suất lớn thì với độ tin cậy (1 -) đủ lớn, hầu như chắc chắn biến
cố (G1 < < G2 ) sẽ xảy ra trong một phép thử Vì vậy trong thực tế chỉ cần thực hiện phép thử để có được một mẫu cụ thể w = (x1 , x2 , , xn ) rồi tính giá trị của G1
và G2 ứng với mẫu đã cho sẽ cho ta một khoảng ước lượng thỏa yêu cầu
b) Kiểm định thống kê
Một số khái niệm
- Giả thiết không H0 : (Null Hypothesis) là giả thiết về yếu tố cần kiểm định của tổng thể
ở trạng thái bình thường, không chịu tác động của các hiện tượng liên quan Yếu tố trong H0 phải được xác định cụ thể
- Giả thiết đối H1 (Alternative Hypothesis) là một mệnh đề mâu thuẫn với H0 , H1 thể
hiện xu hướng cần kiểm định
Trang 6TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 6
- Tiêu chuẩn kiểm định là hàm thống kê G = G( X1 ,X2 , ,Xn , 0 ), xây dựng trên mẫu
ngẫu nhiên W= ( X1 , X2 , , Xn ) và tham số 0 liên quan đến H0 ; Điều kiện đặt ra với thống kê G là nếu H0 đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định
- Miền bác bỏ giả thiết RR ( Rejection region) là miền số thực thỏa P(GRR /H0 đúng) =
là một số khá bé, thường không quá 10% và được gọi là mức ý nghĩa của kiểm định Một ký hiệu khác của miền bác bỏ được dùng trong bài: W
- Miền chấp nhận AR: phần bù của miền bác bỏ trong R
- Quy tắc kiểm định: Từ mẫu thực nghiệm, ta tính được một giá trị cụ thể của tiêu chuẩn
kiểm định, gọi là giá trị kiểm định thống kê:
gqs = G(x1 , x2 , , xn , 0 ) Theo nguyên lý xác suất bé, biến cố G RR có xác suất nhỏ nên với 1 mẫu thực nghiệm ngẫu nhiên, nó không thể xảy ra
Do đó:
+ Nếu gqs RR thì bác bỏ H0 , thừa nhận giả thiết H1
+ Nếu gqs RR : ta chưa đủ dữ liệu khẳng định H0 sai Vì vậy ta chưa thể chứng minh được H1 đúng
- Các loại sai lầm
Sai lầm loại 1: bác bỏ một điều đúng - bác bỏ H0 khi H0 đúng Xác suất mắc sai lầm loại 1
bằng mức ý nghĩa là α
Sai lầm loại 2: thừa nhận một điều sai - chấp nhận H0 khi H0 sai Xác suất mắc sai lầm loại
2 bằng ß, 1 – ß gọi là lực kiểm định
- Kiểm định một mẫu
Trang 7TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 7
- Kiểm định hai mẫu
Trang 8TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 8
Các bước thực hiện bài toán kiểm định
c) Phân tích phương sai ( ANOVA )
Phân tích phương sai một yếu tố
- Giả sử cần so sánh số trung bình của k tổng thể độc lập Ta lấy k mẫu có số quan sát là n1, n2… nk; tuân theo phân phối chuẩn Trung bình của các tổng thể được ký hiệu là μ1; μ 2
Trang 9TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 9
….μk thì mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau:
Ho: μ1 = μ 2 =….=μ k
H1: Tồn tại ít nhất 1 cặp có μi ≠μ j; i ≠ j
- Để kiểm định ta đưa ra 3 giả thiết sau:
1) Mỗi mẫu tuân theo phân phối chuẩn N(μ, σ2)
2) Các phương sai tổng thể bằng nhau
3) Ta lấy k mẫu độc lập từ k tổng thể Mỗi mẫu được quan sát nj lần
Các bước tiến hành
Bước 1: Tính các trung bình mẫu và trung bình chung của k mẫu
Bước 2: Tính các tổng độ lệch bình phương
Trang 10TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 10
Bước 3: Tính các phương sai (phương sai của nội bộ nhóm và phương sai giữa các nhóm)
Bước 4: Kiểm định giả thiết
Tính tiêu chuẩn kiểm định F (F thực nghiệm)
• F > F ((k-1; n-k); α)
Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau
• Tìm F lý thuyết (F tiêu chuẩn = F (k-1; n-k; α)):
• F lý thuyết là giá trị giới hạn tra từ bảng phân phối F với k-1 bậc tự do của phương sai ở tử
số và ; n-k bậc tự do của phương sai ở mẫu số với mức ý nghĩa α
• F lý thuyết có thể tra qua hàm FINV(α, k-1, n-1) trong EXCEL
Trang 11TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 11
• Nếu F thực nghiệm > F lý thuyết, bác bỏ Ho, nghĩa là các số trung bình của k tổng thể không bằng nhau
Phân tích phương sai 2 yếu tố
Các bước tiến hành
Để kiểm định ta đưa ra 2 giả thiết sau:
1) Mỗi mẫu tuân theo phân phối chuẩn N(μ, σ2)
2) Ta lấy K mẫu độc lập từ K tổng thể, H mẫu độc lập từ H tổng thể Mỗi mẫu được quan sát 1 lần không lặp
Bước 1: Tính các số trung bình
Bước 2 Tính tổng các độ lệch bình phương
Trang 12TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 12
Bước 3 Tính các phương sai
Bước 4 Kiểm định giả thuyết
Tìm F lý thuyết cho 2 yếu tố nguyên nhân
- Yếu tố nguyên nhân thứ hai: F tiêu chuẩn = F (h-1; (k-1)(h-1), α) là giá trị giới hạn tra từ bảng phân phối F với h-1 bậc tự do của phương sai ở tử số và (k-1)(h-1) bậc tự do của phương sai ở mẫu số với mức ý nghĩa α
Nếu F1 thực nghiệm > F1 lý thuyết, bác bỏ Ho, nghĩa là các số trung bình của k tổng thể nhóm (cột) không bằng nhau
Nếu F2 thực nghiệm > F2 lý thuyết, bác bỏ Ho, nghĩa là các số trung bình của k tổng thể khối (hàng) không bằng nhau
Trang 13TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 13
d) Hồi quy tuyến tính
Định nghĩa:
Hồi qui (regression) là phương pháp thống kê toán học để ước lượng và kiểm định các quan hệ giữa các biến ngẫu nhiên, và có thể từ đó đưa ra các dự báo Các quan hệ ở đây được viết dưới dạng các hàm số hay phương trình
Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốn ước lượng xấp xỉ dưới dạng một hàm số ) của các biến ngẫu nhiên khác (control variables), hay còn gọi
là biến tự do, trong khi Y được gọi là biến phụ thuộc, tức là khi ta có các giá trị của , thì ta muốn từ đó ước lượng được giá trị của Y Hàm số F này có thể phụ thuộc vào một số tham
số nào đó
Đại lượng được gọi là sai số chuẩn (standard error) của mô hình hồi qui Mô hình nào
mà có sai số chuẩn càng thấp thì được coi là càng chính xác
Bản chất:
* Bản chất của biến phụ thuộc Y
Y nói chung được giả định là một biến ngẫu nhiên, và có thể được đo lường bằng một trong bốn thước đo sau đây: thang đo tỷ lệ, thang đo khoảng, thang đo thứ bậc, và thang đo danh nghĩa
Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có 3 tính chất: (1) tỷ số của hai biến, (2) khoảng cách giữa hai biến, và (3) xếp hạng các biến Với thang đo tỷ lệ, ví dụ Y có hai giá trị, và thì tỷ số / và khoảng cách ( - ) là các đại lượng có ý nghĩa; và có thể so sánh hoặc xếp thứ tự
Thang đo khoảng (interval scale): Thang đo khoảng không thỏa mãn tính chất đầu tiên của các biến có thang đo tỷ lệ
Thang đo thứ bậc (ordinal scale): Các biến chỉ thỏa mãn tính chất xếp hạng của thang
đo tỷ lệ, chứ việc lập tỷ số hay tính khoảng cách giữa hai giá trị không có ý nghĩa
Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm này không thỏa mãn bất
kỳ tính chất nào của các biến theo thang đo tỷ lệ (như giới tính, tôn giáo, )
* Bản chất của biễn ngẫu nhiên X
Các biến ngẫu nhiên có thể được đo theo bất kỳ một trong bốn thang đo vừa nêu trên, mặc dù trong nhiều ứng dụng thực tế thì các biến giải thích được đo theo thang đo tỷ số và thang đo khoảng
* Bản chất của sai số ngẫu nhiên (nhiễu)
Trang 14TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 14
Sai số ngẫu nhiên đại diện cho tất cả các biến không được đưa vào mô hình vì những
lý do như không có sẵn dữ liệu, các lỗi đo lường trong dữ liệu Và cho dù nguồn tạo nhiễu là
gì đi nữa, thì người ta giả định rằng ảnh hưởng trung bình của sai số ngẫu nhiên lên Y là không đáng kể
Ta cũng giả định là hạng nhiễu có phân phối chuẩn với trung bình bằng 0 và phương sai không đổi
* Bản chất của tham số hồi quy
Tham số hồi quy (tổng thể), , là những con số cố định (fixed numbers) và không ngẫu nhiên (not random), mặc dù mình không thể biết giá trị thực của các Bs là bao nhiêu
Thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính nghĩa là tuyến tính ở các hệ số hồi quy (linearity in the regression coefficients), , và không phải tuyến tính ở các biến Y và X
Mô hình hồi quy bội
Hồi quy tuyến tính đa biến là mô hình hồi quy tuyến tính sử dụng nhiều biến giải thích để dự đoán giá trị của biến phụ thuộc
• Phương trình hồi quy tổng thể với k biến độc lập có dạng:
Yi = β0+ β1X1 + β2X2 + β3X3 + + ε Trong đó:
β0: hệ số tung độ góc β1: hệ số độ dốc Y theo biến X1 khi giữ các biến khác không đổi β2: hệ số độ dốc Y theo biến X2 khi giữ các biến khác không đổi
ε: thành phần ngẫu nhiên (yếu tố nhiễu)
• Tính toán hệ số xác định bội R : khi có nhiều biến độc lập trong mô hình đa bội thì R^2 vẫn được sử dụng để xác định biến thiên của biến phụ thuộc để giải thích mối quan hệ của biến phụ thuộc và các biến độc lập trong mô hình
Trong đó:
Trang 15TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 15
SST: total sum of square (Tổng biến thiên của biến phụ thuộc) SSR: sum of square due to the regression model (biến thiên của hồi quy) SSE: sum of square due to error (biến thiên của phần dư)
Công thức tính:
• Hệ số xác định hiệu chỉnh R2 adj: Ý nghĩa của R2 adj cũng giống như R2 là phản
ánh mức độ phù hợp của mô hình R2 adj được tính từ R2 thường được sử dụng hơn
vì giá trị này phản ánh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến R2 adj không nhất thiết tăng lên khi chúng ta đưa thêm các biến độc lập vào
Công thức tính:
• Đánh giá ý nghĩa toàn diện của mô hình: việc ước lượng mô hình hồi quy tuyến tính
đa biến được xây dựng dựa trên mẫu được lấy từ tổng thể, do vậy cần kiểm định ý
Trang 16TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 16
nghĩa thống kê của mô hình bằng cách thực hiện đặt các giả thuyết:
H0: các biến độc lập được đưa vào không giải thích được chút nào biến thiên
của biến phụ thuộc, tức β1= β2 = 0
biến phụ thuộc (hệ số hồi quy riêng phần)
• Kiểm tra sự phù hợp của mô hình hồi quy tuyến tính bằng việc phân tích phần
Trang 17TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 17
-Lệnh library(readr): khai báo thư viện readr
-Sử dụng lệnh read.csv() để đọc dữ liệu từ file Air_Traffic_Passenger_Statistics
Air_Traffic_Passenger_Statistics đã đọc ở trên
Kết quả sau khi thực hiện:
3.Làm sạch dữ liệu (Data cleaning):
Tạo tệp gồm cái biến quan trọng:
-Tạo ra biến dữ liệu mới tên là ATPS chứa các biến chính mà đề bài quan tâm trích từ dữ liệu Air_Traffic_Passenger_Statistics
-Lệnh head(ATPS) trích phần đầu của biến dữ liệu mới
Code R:
Kết quả sau khi thực hiện:
Trang 18TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 18
4.Lọc dữ liệu theo khu vực Mexico:
Kết quả sau khi thực hiện:
Kiểm Tra dữ liệu khuyết (N/A) trong tập tin:
-Thống kê các vị trí xuất hiện dữ liệu khuyết của biến Mexico_data:
Code R:
Các thành phần trong lệnh apply() :
• is.na(Mexico_data) : tạo 1 ma trận nhận các giá trị khuyết trong biến Mexico_data Trong
đó mỗi phần tử là TRUE nếu tương ứng với phần tử của Mexico_data là NA và FALSE nếu
không
• 2 : cho biết hàm sẽ được áp dụng theo cột
• which : Hàm mà bạn muốn áp dụng lên mỗi cột của Mexico_data Trong trường hợp này,
which sẽ trả về chỉ số của các phần tử TRUE trong ma trận is.na(Mexico_data)
Kết quả sau khi thực hiện:
-Thống kê số lượng dữ liệu khuyết của biến Mexico_data:
Trang 19TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 19
Code R:
sum: Hàm mà bạn muốn áp dụng lên mỗi cột của is.na(Mexico_data) Trong trường hợp này,
sum sẽ tính tổng số lượng giá trị TRUE trong mỗi cột, vì TRUE được coi là 1 và FALSE là 0 khi
mean : Hàm mà bạn muốn áp dụng lên mỗi cột của is.na(Mexico_data) Trong trường hợp
này,mean sẽ tính giá trị trung bình của các giá trị trong mỗi cột Vì TRUE được coi là 1 và
FALSE là 0 khi thực hiện phép trung bình, nên kết quả cuối cùng là tỉ lệ trung bình các giá trị TRUE trong mỗi cột, tương ứng với tỉ lệ giá trị NA
Kết quả sau khi thực hiện:
Nhận xét: Thông qua việc kiểm tra dữ liệu khuyết trong Mexico_data, ta không thấy có dữ liệu khuyết nào
5.Làm rõ dữ liệu (Data visuolization):
a) Đối với các biến liên tục:
Tính các giá trị thống kê mô tả bao gồm: giá trị trung bình, trung vị, độ lệch chuẩn, phương sai, giá trị lớn nhất, giá trị nhỏ nhất của các biến quan trọng
Trang 20TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 20
Code R:
Kết quả sau khi thực hiện:
Tạo 6 vecto tương ứng: với các giá trị trung bình, trung vị, độ lệch chuẩn, phương sai,
gtln,gtnn
Code R:
liệu với các giá trị mean, median, var, sd, min, max đã tính ở trên
• field<-c("Passenger Count", "Adjusted Passenger Count"): Tạo 1 vecto 2 hàng 1 cột chứa các biến Passenger Count, Adjusted Passenger Count
Mexico_data_thongke và field
Trang 21TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 21
Kết quả sau khi thực hiện:
b)Vẽ đồ thị thể hiện phân phối của số lượng hành khách bằng lệnh Hist:
Code R:
Nhận xét: Hàm Adjusted Passenger Count có giá trị tập trung ở mức từ 0 đến dưới 15000 Giá trị
trên 15000 rất ít, đồ thị có phân phối lệch trái Từ đây cho ta thấy, số lượng hành khách phổ biến là
ở mức dưới 10000 người
Trang 22TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 22
Điểm cao nhất của đồ thị có giá trị là 241 tại khoảng 7000 - 8000 người và điểm thấp nhất là
1 tại khoảng 29000 - 30000 người
c)Vẽ đồ thị hộp boxplot thể hiện số lượng của hành khách theo các biến phân loại
Đồ thị phân bố sự dữ liệu của biến hành khách phụ thuộc vào biến Publish Airline IATA Code
Code R:
Nhận xét: Ta nhận thầy đồ thị có nhiều giá trị ngoại lai, điều này sẽ gây ảnh hưởng nhiều đến độ
chính xác của dữ liệu nên ta cần lược bỏ chúng
Code R:
Trang 23TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 23
Vẽ lại đồ thị
Code R:
Nhận xét: ta nhận thấy đồ thị đã giảm bớt các giá trị ngoại lai
Dựa vào mức trung vị, nhìn chung thể hiện rằng dữ liệu phân bố không đều về số lượng hành khách của các hãng hàng không
Ở hãng hàng không VX, trung vị xấp xỉ 4000 người, miền phân bố dữ liệu rộng đến khoảng
Ở hãng hàng không VX, trung vị xấp xỉ 5000, miền phân bố dữ liệu từ khoảng 2000 đến
6000 và xuất hiện giá trị ngoại lai ở khoảng 2000
Trang 24TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 24
Nhìn chung, hãng hàng không UA có miền phân bố số lượng hành khách lớn nhất và hãng hàng không SY có miền phân bố số lượng hành khách nhỏ nhất
Đồ thị phân bố sự dữ liệu của biến hành khách phụ thuộc vào biến Activity Type Code
Trang 25TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 25
Nhận xét: Khi ở trạng thái International, số lượng hành khách dao động từ 0 đến 15000 Giá trị
trung vị xấp xỉ 6000 Có các giá trị ngoại lai có giá trị dao động từ trên 15000 đến 30000
Đồ thị phân bố sự dữ liệu của biến hành khách phụ thuộc vào biến GEO Region
Code R:
Nhận xét: Khi ở trạng thái Mexico, số lượng hành khách dao động từ 0 đến trên 16000 Giá trị
trung vị xấp xỉ 6000 Có một số giá trị ngoại lai có giá trị dao động từ trên 15000 đến 30000
Đồ thị phân bố sự dữ liệu của biến hành khách phụ thuộc vào biến Terminal
Code R: