Báo cáo bài tập lớn môn xác suất và thống kê Đề tài khoa kỹ thuật giao thông

Vì vậy trong thực tế chỉ cần thực hiện phép thử để có được một mẫu cụ thể w = x1 , x2 , .., xn rồi tính giá trị của G1 và G2 ứng với mẫu đã cho sẽ cho ta một khoảng ước lượng thỏa yêu

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Tp HCM, tháng 12 năm 2023

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 2

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-* -

SINH VIÊN THỰC HIỆN

Họ tên MSSV Mô tả đóng góp Điểm

Lê Vũ Hoàng Vương 2214013

Nguyễn Lê Gia Vương 2214015

Nguyễn Phi Viễn 2213935

Nguyễn Quang Huy 2211240

Trang 3

Phụ lục

I ĐỀ TÀI 4

II.THỰC HIỆN 5

1.Cơ sở lí thuyết 5

a) Ước lượng bằng khoảng tin cậy 5

b) Kiểm định thống kê 5

c) Phân tích phương sai ( ANOVA ) 8

d) Hồi quy tuyến tính 13

2 Đọc dữ liệu (Import data): 16

3.Làm sạch dữ liệu (Data cleaning): 17

4.Lọc dữ liệu theo khu vực Mexico: 18

5.Làm rõ dữ liệu (Data visuolization): 19

a)Đối với các biến liên tục 19

b)Vẽ đồ thị thể hiện phân phối của số lượng hành khách bằng lệnh Hist 21

c)Vẽ đồ thị hộp boxplot thể hiện số lượng của hành khách theo các biến phân loại 22

d) Vẽ đồ thị phân tán thể hiện phân phối của Adjusted_Passenger_Count theo tháng và năm 27

e) Dùng lệnh pairs vẽ biểu đồ phân tán giữa các biến 28

III THỐNG KÊ SUY DIỄN 29

1 ANOVA 30

2.Ước lượng khoảng tin cậy 39

3.Kiểm định 2 mẫu 40

4.Mô hình hồi quy tuyến tính 41

a)Tiêu chuẩn chọn các mô hình 41

b) Phương pháp có thể sử dụng để lựa chọn ra mô hình tốt nhất: Phân tích tất cả các biến và chọn ra những biến có ý nghĩa thống kê 41

c)Thực hiện xây dựng các mô hình 42

d) So sánh các mô hình 47

e) Kiểm định các giả thuyết bằng đồ thị: 48

Trang 4

Các biến chính trong bộ dữ liệu:

• Activity Period: Thời gian hoạt động của các chuyến bay

• Operating Airline: Hãng hàng không khai thác chuyến bay

• Operating Airline IATA Code: Mã IATA của hãng hàng không khai thác chuyến bay

• Published Airline: Hãng hàng không đã công bố giá vé cho chuyến bay

• Published Airline IATA Code: Mã IATA của hãng hàng không đã công bố giá vé cho chuyến bay

• GEO Summary: Tính chất của chuyến bay (nội địa, quốc tế)

• GEO Region: Khu vực hoạt động của chuyến bay

• Activity Type Code: Loại hoạt động

• Price Category Code: Loại giá của giá vé

• Terminal: Các sân bay

• Boarding Area: Khu vực lên máy bay của chuyến bay

• Passenger Count: Số lượng hành khách trên chuyến bay

• Adjusted Activity Type Code: Loại hoạt động được điều chỉnh cho dữ liệu bị thiếu

• Adjusted Passenger Count: Số lượng hành khách trên chuyến bay được điều chỉnh cho

dữ liệu bị thiếu

• Year: Năm hoạt động của chuyến bay

• Month: Tháng hoạt động của chuyến bay

Trang 5

II.THỰC HIỆN

1.Cơ sở lí thuyết

a) Ước lượng bằng khoảng tin cậy

Định nghĩa: chính là tìm ra khoảng ước lượng (G1 ;G2 ) cho tham số  trong tổng thể sao

cho ứng với độ tin cậy (confidence) bằng  cho trước, P( G1 <  < G2 ) = 

Ưu điểm:

Phương pháp ƯL bằng khoảng tin cậy có ưu thế hơn phương pháp ƯL điểm vì nó làm tăng độ chính xác của ước lượng và còn đánh giá được mức độ tin cậy của ước lượng Khả năng mắc sai lầm của phương pháp là = 1- 

Trong thống kê, người ta dùng ký hiệu  để biểu diễn cho giá trị xác suất nhỏ Vì vậy,

kí hiệu 1-  còn được dùng để biểu diễn độ tin cậy của khoảng ước lượng

Phương pháp tìm khoảng tin cậy cho tham số  với độ tin cậy  = 1- cho trước:

Trước tiên, tìm hàm ước lượng G = f(X1 , X2 , , Xn , ) sao cho quy luật phân phối xác suất của G hoàn toàn xác định, không phụ thuộc vào các đối số

Chọn cặp số 1 , 2  0 sao cho 1 + 2 =  và tìm G1 , G2 mà P( G < G1 )

=1 & P(G > G2 ) = 2; suy ra P(G1 < G < G2 ) = 1 - 

Biến đổi để tìm được các giá trị G1 , G2 sao cho P(G1 <  < G2 ) = 1- Khi đó

khoảng (G1 , G2 ) chính là một trong các khoảng tin cậy (confidence interval) cần tìm

Theo nguyên lý xác suất lớn thì với độ tin cậy (1 -) đủ lớn, hầu như chắc chắn biến

cố (G1 <  < G2 ) sẽ xảy ra trong một phép thử Vì vậy trong thực tế chỉ cần thực hiện phép thử để có được một mẫu cụ thể w = (x1 , x2 , , xn ) rồi tính giá trị của G1

và G2 ứng với mẫu đã cho sẽ cho ta một khoảng ước lượng thỏa yêu cầu

b) Kiểm định thống kê

Một số khái niệm

- Giả thiết không H0 : (Null Hypothesis) là giả thiết về yếu tố cần kiểm định của tổng thể

ở trạng thái bình thường, không chịu tác động của các hiện tượng liên quan Yếu tố trong H0 phải được xác định cụ thể

- Giả thiết đối H1 (Alternative Hypothesis) là một mệnh đề mâu thuẫn với H0 , H1 thể

hiện xu hướng cần kiểm định

Trang 6

- Tiêu chuẩn kiểm định là hàm thống kê G = G( X1 ,X2 , ,Xn , 0 ), xây dựng trên mẫu

ngẫu nhiên W= ( X1 , X2 , , Xn ) và tham số 0 liên quan đến H0 ; Điều kiện đặt ra với thống kê G là nếu H0 đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định

- Miền bác bỏ giả thiết RR ( Rejection region) là miền số thực thỏa P(GRR /H0 đúng) =

  là một số khá bé, thường không quá 10% và được gọi là mức ý nghĩa của kiểm định Một ký hiệu khác của miền bác bỏ được dùng trong bài: W

- Miền chấp nhận AR: phần bù của miền bác bỏ trong R

- Quy tắc kiểm định: Từ mẫu thực nghiệm, ta tính được một giá trị cụ thể của tiêu chuẩn

kiểm định, gọi là giá trị kiểm định thống kê:

gqs = G(x1 , x2 , , xn , 0 ) Theo nguyên lý xác suất bé, biến cố G  RR có xác suất nhỏ nên với 1 mẫu thực nghiệm ngẫu nhiên, nó không thể xảy ra

Do đó:

+ Nếu gqs  RR thì bác bỏ H0 , thừa nhận giả thiết H1

+ Nếu gqs  RR : ta chưa đủ dữ liệu khẳng định H0 sai Vì vậy ta chưa thể chứng minh được H1 đúng

- Các loại sai lầm

Sai lầm loại 1: bác bỏ một điều đúng - bác bỏ H0 khi H0 đúng Xác suất mắc sai lầm loại 1

bằng mức ý nghĩa là α

Sai lầm loại 2: thừa nhận một điều sai - chấp nhận H0 khi H0 sai Xác suất mắc sai lầm loại

2 bằng ß, 1 – ß gọi là lực kiểm định

- Kiểm định một mẫu

Trang 7

- Kiểm định hai mẫu

Trang 8

Các bước thực hiện bài toán kiểm định

c) Phân tích phương sai ( ANOVA )

Phân tích phương sai một yếu tố

- Giả sử cần so sánh số trung bình của k tổng thể độc lập Ta lấy k mẫu có số quan sát là n1, n2… nk; tuân theo phân phối chuẩn Trung bình của các tổng thể được ký hiệu là μ1; μ 2

Trang 9

….μk thì mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau:

Ho: μ1 = μ 2 =….=μ k

H1: Tồn tại ít nhất 1 cặp có μi ≠μ j; i ≠ j

- Để kiểm định ta đưa ra 3 giả thiết sau:

1) Mỗi mẫu tuân theo phân phối chuẩn N(μ, σ2)

2) Các phương sai tổng thể bằng nhau

3) Ta lấy k mẫu độc lập từ k tổng thể Mỗi mẫu được quan sát nj lần

Các bước tiến hành

Bước 1: Tính các trung bình mẫu và trung bình chung của k mẫu

Bước 2: Tính các tổng độ lệch bình phương

Trang 10

Bước 3: Tính các phương sai (phương sai của nội bộ nhóm và phương sai giữa các nhóm)

Bước 4: Kiểm định giả thiết

Tính tiêu chuẩn kiểm định F (F thực nghiệm)

• F > F ((k-1; n-k); α)

Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau

• Tìm F lý thuyết (F tiêu chuẩn = F (k-1; n-k; α)):

• F lý thuyết là giá trị giới hạn tra từ bảng phân phối F với k-1 bậc tự do của phương sai ở tử

số và ; n-k bậc tự do của phương sai ở mẫu số với mức ý nghĩa α

• F lý thuyết có thể tra qua hàm FINV(α, k-1, n-1) trong EXCEL

Trang 11

• Nếu F thực nghiệm > F lý thuyết, bác bỏ Ho, nghĩa là các số trung bình của k tổng thể không bằng nhau

Phân tích phương sai 2 yếu tố

Các bước tiến hành

Để kiểm định ta đưa ra 2 giả thiết sau:

1) Mỗi mẫu tuân theo phân phối chuẩn N(μ, σ2)

2) Ta lấy K mẫu độc lập từ K tổng thể, H mẫu độc lập từ H tổng thể Mỗi mẫu được quan sát 1 lần không lặp

Bước 1: Tính các số trung bình

Bước 2 Tính tổng các độ lệch bình phương

Trang 12

Bước 3 Tính các phương sai

Bước 4 Kiểm định giả thuyết

Tìm F lý thuyết cho 2 yếu tố nguyên nhân

- Yếu tố nguyên nhân thứ hai: F tiêu chuẩn = F (h-1; (k-1)(h-1), α) là giá trị giới hạn tra từ bảng phân phối F với h-1 bậc tự do của phương sai ở tử số và (k-1)(h-1) bậc tự do của phương sai ở mẫu số với mức ý nghĩa α

Nếu F1 thực nghiệm > F1 lý thuyết, bác bỏ Ho, nghĩa là các số trung bình của k tổng thể nhóm (cột) không bằng nhau

Nếu F2 thực nghiệm > F2 lý thuyết, bác bỏ Ho, nghĩa là các số trung bình của k tổng thể khối (hàng) không bằng nhau

Trang 13

d) Hồi quy tuyến tính

Định nghĩa:

Hồi qui (regression) là phương pháp thống kê toán học để ước lượng và kiểm định các quan hệ giữa các biến ngẫu nhiên, và có thể từ đó đưa ra các dự báo Các quan hệ ở đây được viết dưới dạng các hàm số hay phương trình

Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốn ước lượng xấp xỉ dưới dạng một hàm số ) của các biến ngẫu nhiên khác (control variables), hay còn gọi

là biến tự do, trong khi Y được gọi là biến phụ thuộc, tức là khi ta có các giá trị của , thì ta muốn từ đó ước lượng được giá trị của Y Hàm số F này có thể phụ thuộc vào một số tham

số nào đó

Đại lượng được gọi là sai số chuẩn (standard error) của mô hình hồi qui Mô hình nào

mà có sai số chuẩn càng thấp thì được coi là càng chính xác

Bản chất:

* Bản chất của biến phụ thuộc Y

Y nói chung được giả định là một biến ngẫu nhiên, và có thể được đo lường bằng một trong bốn thước đo sau đây: thang đo tỷ lệ, thang đo khoảng, thang đo thứ bậc, và thang đo danh nghĩa

Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có 3 tính chất: (1) tỷ số của hai biến, (2) khoảng cách giữa hai biến, và (3) xếp hạng các biến Với thang đo tỷ lệ, ví dụ Y có hai giá trị, và thì tỷ số / và khoảng cách ( - ) là các đại lượng có ý nghĩa; và có thể so sánh hoặc xếp thứ tự

Thang đo khoảng (interval scale): Thang đo khoảng không thỏa mãn tính chất đầu tiên của các biến có thang đo tỷ lệ

Thang đo thứ bậc (ordinal scale): Các biến chỉ thỏa mãn tính chất xếp hạng của thang

đo tỷ lệ, chứ việc lập tỷ số hay tính khoảng cách giữa hai giá trị không có ý nghĩa

Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm này không thỏa mãn bất

kỳ tính chất nào của các biến theo thang đo tỷ lệ (như giới tính, tôn giáo, )

* Bản chất của biễn ngẫu nhiên X

Các biến ngẫu nhiên có thể được đo theo bất kỳ một trong bốn thang đo vừa nêu trên, mặc dù trong nhiều ứng dụng thực tế thì các biến giải thích được đo theo thang đo tỷ số và thang đo khoảng

* Bản chất của sai số ngẫu nhiên (nhiễu)

Trang 14

Sai số ngẫu nhiên đại diện cho tất cả các biến không được đưa vào mô hình vì những

lý do như không có sẵn dữ liệu, các lỗi đo lường trong dữ liệu Và cho dù nguồn tạo nhiễu là

gì đi nữa, thì người ta giả định rằng ảnh hưởng trung bình của sai số ngẫu nhiên lên Y là không đáng kể

Ta cũng giả định là hạng nhiễu có phân phối chuẩn với trung bình bằng 0 và phương sai không đổi

* Bản chất của tham số hồi quy

Tham số hồi quy (tổng thể), , là những con số cố định (fixed numbers) và không ngẫu nhiên (not random), mặc dù mình không thể biết giá trị thực của các Bs là bao nhiêu

Thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính nghĩa là tuyến tính ở các hệ số hồi quy (linearity in the regression coefficients), , và không phải tuyến tính ở các biến Y và X

Mô hình hồi quy bội

Hồi quy tuyến tính đa biến là mô hình hồi quy tuyến tính sử dụng nhiều biến giải thích để dự đoán giá trị của biến phụ thuộc

• Phương trình hồi quy tổng thể với k biến độc lập có dạng:

Yi = β0+ β1X1 + β2X2 + β3X3 + + ε Trong đó:

β0: hệ số tung độ góc β1: hệ số độ dốc Y theo biến X1 khi giữ các biến khác không đổi β2: hệ số độ dốc Y theo biến X2 khi giữ các biến khác không đổi

ε: thành phần ngẫu nhiên (yếu tố nhiễu)

• Tính toán hệ số xác định bội R : khi có nhiều biến độc lập trong mô hình đa bội thì R^2 vẫn được sử dụng để xác định biến thiên của biến phụ thuộc để giải thích mối quan hệ của biến phụ thuộc và các biến độc lập trong mô hình

Trong đó:

Trang 15

SST: total sum of square (Tổng biến thiên của biến phụ thuộc) SSR: sum of square due to the regression model (biến thiên của hồi quy) SSE: sum of square due to error (biến thiên của phần dư)

Công thức tính:

• Hệ số xác định hiệu chỉnh R2 adj: Ý nghĩa của R2 adj cũng giống như R2 là phản

ánh mức độ phù hợp của mô hình R2 adj được tính từ R2 thường được sử dụng hơn

vì giá trị này phản ánh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến R2 adj không nhất thiết tăng lên khi chúng ta đưa thêm các biến độc lập vào

Công thức tính:

• Đánh giá ý nghĩa toàn diện của mô hình: việc ước lượng mô hình hồi quy tuyến tính

đa biến được xây dựng dựa trên mẫu được lấy từ tổng thể, do vậy cần kiểm định ý

Trang 16

nghĩa thống kê của mô hình bằng cách thực hiện đặt các giả thuyết:

H0: các biến độc lập được đưa vào không giải thích được chút nào biến thiên

của biến phụ thuộc, tức β1= β2 = 0

biến phụ thuộc (hệ số hồi quy riêng phần)

• Kiểm tra sự phù hợp của mô hình hồi quy tuyến tính bằng việc phân tích phần

Trang 17

-Lệnh library(readr): khai báo thư viện readr

-Sử dụng lệnh read.csv() để đọc dữ liệu từ file Air_Traffic_Passenger_Statistics

Air_Traffic_Passenger_Statistics đã đọc ở trên

Kết quả sau khi thực hiện:

3.Làm sạch dữ liệu (Data cleaning):

Tạo tệp gồm cái biến quan trọng:

-Tạo ra biến dữ liệu mới tên là ATPS chứa các biến chính mà đề bài quan tâm trích từ dữ liệu Air_Traffic_Passenger_Statistics

-Lệnh head(ATPS) trích phần đầu của biến dữ liệu mới

Code R:

Trang 18

4.Lọc dữ liệu theo khu vực Mexico:

Kiểm Tra dữ liệu khuyết (N/A) trong tập tin:

-Thống kê các vị trí xuất hiện dữ liệu khuyết của biến Mexico_data:

Code R:

Các thành phần trong lệnh apply() :

• is.na(Mexico_data) : tạo 1 ma trận nhận các giá trị khuyết trong biến Mexico_data Trong

đó mỗi phần tử là TRUE nếu tương ứng với phần tử của Mexico_data là NA và FALSE nếu

không

• 2 : cho biết hàm sẽ được áp dụng theo cột

• which : Hàm mà bạn muốn áp dụng lên mỗi cột của Mexico_data Trong trường hợp này,

which sẽ trả về chỉ số của các phần tử TRUE trong ma trận is.na(Mexico_data)

-Thống kê số lượng dữ liệu khuyết của biến Mexico_data:

Trang 19

Code R:

sum: Hàm mà bạn muốn áp dụng lên mỗi cột của is.na(Mexico_data) Trong trường hợp này,

sum sẽ tính tổng số lượng giá trị TRUE trong mỗi cột, vì TRUE được coi là 1 và FALSE là 0 khi

mean : Hàm mà bạn muốn áp dụng lên mỗi cột của is.na(Mexico_data) Trong trường hợp

này,mean sẽ tính giá trị trung bình của các giá trị trong mỗi cột Vì TRUE được coi là 1 và

FALSE là 0 khi thực hiện phép trung bình, nên kết quả cuối cùng là tỉ lệ trung bình các giá trị TRUE trong mỗi cột, tương ứng với tỉ lệ giá trị NA

Nhận xét: Thông qua việc kiểm tra dữ liệu khuyết trong Mexico_data, ta không thấy có dữ liệu khuyết nào

5.Làm rõ dữ liệu (Data visuolization):

a) Đối với các biến liên tục:

Tính các giá trị thống kê mô tả bao gồm: giá trị trung bình, trung vị, độ lệch chuẩn, phương sai, giá trị lớn nhất, giá trị nhỏ nhất của các biến quan trọng

Trang 20

Code R:

Tạo 6 vecto tương ứng: với các giá trị trung bình, trung vị, độ lệch chuẩn, phương sai,

gtln,gtnn

Code R:

liệu với các giá trị mean, median, var, sd, min, max đã tính ở trên

• field<-c("Passenger Count", "Adjusted Passenger Count"): Tạo 1 vecto 2 hàng 1 cột chứa các biến Passenger Count, Adjusted Passenger Count

Mexico_data_thongke và field

Trang 21

b)Vẽ đồ thị thể hiện phân phối của số lượng hành khách bằng lệnh Hist:

Code R:

Nhận xét: Hàm Adjusted Passenger Count có giá trị tập trung ở mức từ 0 đến dưới 15000 Giá trị

trên 15000 rất ít, đồ thị có phân phối lệch trái Từ đây cho ta thấy, số lượng hành khách phổ biến là

ở mức dưới 10000 người

Trang 22

Điểm cao nhất của đồ thị có giá trị là 241 tại khoảng 7000 - 8000 người và điểm thấp nhất là

1 tại khoảng 29000 - 30000 người

c)Vẽ đồ thị hộp boxplot thể hiện số lượng của hành khách theo các biến phân loại

Đồ thị phân bố sự dữ liệu của biến hành khách phụ thuộc vào biến Publish Airline IATA Code

Code R:

Nhận xét: Ta nhận thầy đồ thị có nhiều giá trị ngoại lai, điều này sẽ gây ảnh hưởng nhiều đến độ

chính xác của dữ liệu nên ta cần lược bỏ chúng

Code R:

Trang 23

Vẽ lại đồ thị

Code R:

Nhận xét: ta nhận thấy đồ thị đã giảm bớt các giá trị ngoại lai

Dựa vào mức trung vị, nhìn chung thể hiện rằng dữ liệu phân bố không đều về số lượng hành khách của các hãng hàng không

Ở hãng hàng không VX, trung vị xấp xỉ 4000 người, miền phân bố dữ liệu rộng đến khoảng

Ở hãng hàng không VX, trung vị xấp xỉ 5000, miền phân bố dữ liệu từ khoảng 2000 đến

6000 và xuất hiện giá trị ngoại lai ở khoảng 2000

Trang 24

Nhìn chung, hãng hàng không UA có miền phân bố số lượng hành khách lớn nhất và hãng hàng không SY có miền phân bố số lượng hành khách nhỏ nhất

Đồ thị phân bố sự dữ liệu của biến hành khách phụ thuộc vào biến Activity Type Code

Trang 25

Nhận xét: Khi ở trạng thái International, số lượng hành khách dao động từ 0 đến 15000 Giá trị

trung vị xấp xỉ 6000 Có các giá trị ngoại lai có giá trị dao động từ trên 15000 đến 30000

Đồ thị phân bố sự dữ liệu của biến hành khách phụ thuộc vào biến GEO Region

Code R:

Nhận xét: Khi ở trạng thái Mexico, số lượng hành khách dao động từ 0 đến trên 16000 Giá trị

trung vị xấp xỉ 6000 Có một số giá trị ngoại lai có giá trị dao động từ trên 15000 đến 30000

Đồ thị phân bố sự dữ liệu của biến hành khách phụ thuộc vào biến Terminal

Code R:

Tiêu đề	Khoa Kỹ Thuật Giao Thông
Tác giả	Lê Vũ Hoàng Vương, Nguyễn Lê Gia Vương, Nguyễn Phi Viễn, Trần Thế Phi, Nguyễn Quang Huy
Người hướng dẫn	Nguyễn Kiều Dung
Trường học	Đại Học Bách Khoa
Chuyên ngành	Xác Suất Và Thống Kê
Thể loại	Báo Cáo
Năm xuất bản	2023
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	51
Dung lượng	3,18 MB