BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ

Còn xác suất là độ đo của toán học để đo tính phi chắc chắn của khả năng xảy ra một sự kiện biến cố.Xác xuất thống kê là nền tảng quan trọng của các mô hình học máy và phân tích dữ liệu.

HOẠT ĐỘNG 1

Chú thích các biến

 CO (GT): Nồng độ CO trung bình thực theo giờ tính bằng mg/m 3 (số liệu tham chiếu)

 PT08.S1 (CO): Phản ứng cảm biến trung bình hang giờ (chọn mục tiêu là CO)

 NMHC (GT): Nồng độ HydroCarbons phi kim tổng thể trung bình thực hàng giờ tính bằng microg/ m 3 (số liệu tham chiếu)

 C 6 H 6 (GT): Nồng độ benzen trung bình hàng giờ thực tính bằng microg/m 3 (số liệu tham chiếu)

 PT08.S2 (NMHC): (titania) phản ứng cảm biến trung bình hàng giờ (chọn mục tiêu là NMHC)

 NOx (GT): Nồng độ NOx trung bình thực theo giờ tính bằng ppb (số liệu tham chiếu)

 PT08.S3 (NOx): (vonfram oxit) phản ứng cảm biến trung bình hàng giờ (chọn mục tiêu là NOx)

 NO 2 (GT): Nồng độ NO2 trung bình thực theo giờ tính bằng microg/ m 3 (chọn NO2 là mục tiêu)

 PTO8.S4 (NO 2 ): (vonfram oxit) phản ứng cảm biến trung bình hàng giờ (chọn mục tiêu là NO2)

 PT08.S5 (O 3 ): (Indium oxit) phản ứng cảm biến trung bình hàng giờ (chọn mục tiêu là O3)

 RH: Độ ẩm tương đối (%)

 AH: Độ ẩm tuyệt đối

Giới thiệu bộ dữ liệu “AirQualityUCI”

Bộ dữ liệu chứa 9358 trường hợp phản hồi trung bình hàng giờ từ một dãy 5 cảm biến hóa học oxit kim loại được nhúng trong Thiết bị đa cảm biến hóa chất chất lượng không khí Thiết bị này được đặt trên cánh đồng trong một khu vực bị ô nhiễm đáng kể, ở cấp độ đường bộ, trong một thành phố của Ý Dữ liệu được ghi lại từ tháng 3 năm 2004 đến tháng 2 năm 2005 (gần một năm) đại diện cho các bản dữ liệu miễn phí dài nhất hiện có sẵn về phản ứng của các thiết bị cảm biến hóa học chất lượng không khí được triển khai tại hiện trường Ground Truth - nồng độ trung bình hàng giờ đối với CO, Hydrocacbon phi kim, Benzen, Tổng Nitơ Oxit (NOx) và Nitrogen Dioxide (NO2) và được cung cấp bởi một máy phân tích tham chiếu được chứng nhận đặt cùng địa điểm Bằng chứng về độ nhạy chéo cũng như cả khái niệm và độ lệch của cảm biến đều có mặt như được mô tả trong De Vito et al., Sens And Act B, Tập 129,2,2008 (yêu cầu trích dẫn) cuối cùng ảnh hưởng đến khả năng ước tính nồng độ của cảm biến Các giá trị bị thiếu được gắn thẻ với giá trị -200.

Bộ dữ liệu này có thể được sử dụng riêng cho mục đích nghiên cứu Mục đích thương mại được loại trừ hoàn toàn.

Các bước thực hiện

1 Đọc dữ liệu (Import data) Đọc tập tin “AirQualityUCI”

2 Làm sạch dữ liệu (Data cleaning)

CO.GT PT08.S1.CO NMHC.GT C6H6.GT.

12 0.7 1066 8 1.1 PT08.S2.NMHC NOx.GT PT08.S3.NOx NO2.GT.

12 512 16 1918 28 PT08.S4.NO2 PT08.S5.O3 T RH AH

3 Làm rõ dữ liệu (Data visualization)

CO.GT PT08.S1.CO NMHC.GT C6H6.GT PT08.S2.NMHC NOx.GT. mean 2.353567 1207.879 231.0254 10.771100 966.1161 143.50181 var 1.986679 58475.460 43456.3686 55.028716 70982.0446 6696.10260 sd 1.409496 241.817 208.4619 7.418134 266.4246 81.82972 min 0.300000 753.000 7.0000 0.500000 448.0000 12.00000 max 8.100000 2040.000 1189.0000 39.200000 1754.0000 478.00000

PT08.S3.NOx NO2.GT PT08.S4.NO2 PT08.S5.O3 T RH mean 963.2975 100.25998 1600.6203 1045.8126 15.601451 49.05018 var 70710.3448 991.86090 91380.3278 160107.7481 23.283557 233.07354 sd 265.9142 31.49382 302.2918 400.1347 4.825304 15.26675 min 461.0000 19.00000 955.0000 263.0000 6.300000 14.90000 max 1935.0000 196.00000 2679.0000 2359.0000 30.000000 83.20000

AH mean 0.83185260 var 0.03186435 sd 0.17850587 min 0.40230000 max 1.48520000

4.1 Trình bày biểu đồ histogram thể hiện phân phối cho biến RH

Input: hist(AirQualityUCI$RH,xlab = "RH", main = "Histogram of RH", label = T, col = "5") #ve bieu do histogram

4.2 Vẽ biểu đồ Boxplot thể hiện phân phối của RH theo phân loại biến T

Input: boxplot(RH~T,AirQualityUCI,xlab= "T",main="Boxplot of RH for T",col=c(2,3,4,5,6))

4.3 Vẽ biểu đồ phân tán thể hiện phân phối của RH theo biến PT08.S1(CO), PT08.S2(NMHC), PT08.S3(NOx), PT08.S4(NO2), PT08.S5(O3)

+ plot(RH~PT08.S1.CO., AirQualityUCI ,xlab="PT08.S1.CO.",main= "Plot of RH and PT08.S1.CO.",col=3)

+ abline(lm(RH~PT08.S1.CO.),col="red",lwd=2)

+ plot(RH~PT08.S2.NMHC., AirQualityUCI ,xlab="PT08.S2.NMHC.",main= "Plot of RH and PT08.S2.NMHC.",col=4)

+ abline(lm(RH~PT08.S2.NMHC.),col="red",lwd=2)

+ plot(RH~PT08.S3.NOx., AirQualityUCI ,xlab="PT08.S3.NOx.",main= "Plot of RH and PT08.S3.NOx.",col=5)

+ abline(lm(RH~PT08.S3.NOx.),col="red",lwd=2)

+ plot(RH~PT08.S4.NO2., AirQualityUCI ,xlab="PT08.S4.NO2.",main= "Plot of RH and PT08.S4.NO2.",col=6)

+ abline(lm(RH~PT08.S4.NO2.),col="red",lwd=2)

+ plot(RH~PT08.S5.O3., AirQualityUCI ,xlab="PT08.S5.O3.",main= "Plot of RH and PT08.S5.O3.",col=7)

+ abline(lm(RH~PT08.S5.O3.),col="red",lwd=2)

Nhận xét: Dựa trên các đồ thị phân tán, ta thấy RH không có mối quan hệ tuyến tính với các biến PT08.S1(CO), PT08.S2(NMHC), PT08.S3(NOx), PT08.S4(NO2), PT08.S5(O3) Ta có thể đoán PT08.S1(CO), PT08.S2(NMHC), PT08.S3(NOx), PT08.S4(NO2), PT08.S5(O3) là các nhân tố không ảnh hưởng đến độ ẩm tương đối.

4.4 Kiểm định ý nghĩa thống kê của 1 vài cặp biến

Output: cor.test(PT08.S1.CO.,CO.GT.)

Pearson's product-moment correlation data: PT08.S1.CO and CO.GT. t = 76.549, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,NMHC.GT.)

Pearson's product-moment correlation data: PT08.S1.CO and NMHC.GT. t = 36.007, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,C6H6.GT.)

Pearson's product-moment correlation data: PT08.S1.CO and C6H6.GT. t = 73.477, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,PT08.S2.NMHC.)

Pearson's product-moment correlation data: PT08.S1.CO and PT08.S2.NMHC. t = 76.605, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,NOx.GT.)

Pearson's product-moment correlation data: PT08.S1.CO and NOx.GT. t = 68.838, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,PT08.S3.NOx.)

Pearson's product-moment correlation data: PT08.S1.CO and PT08.S3.NOx. t = -42.672, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,NO2.GT.)

Pearson's product-moment correlation data: PT08.S1.CO and NO2.GT. t = 49.877, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,PT08.S4.NO2.)

Pearson's product-moment correlation data: PT08.S1.CO and PT08.S4.NO2. t = 83.005, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,PT08.S5.O3.)

Pearson's product-moment correlation data: PT08.S1.CO and PT08.S5.O3. t = 75.732, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

Pearson's product-moment correlation data: PT08.S1.CO and T t = 9.8645, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,RH)

Pearson's product-moment correlation data: PT08.S1.CO and RH t = -1.1375, df = 825, p-value = 0.2557 alternative hypothesis: true correlation is not equal to 0

> cor.test(PT08.S1.CO.,AH)

Pearson's product-moment correlation data: PT08.S1.CO and AH t = 12.8, df = 825, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0

Nhận xét: Tất cả các biến đều có ý nghĩa thống kê, ngoại trừ biến RH

4.5 Ma trận hệ số tương quan

Nhận xét: Tất cả các biến đều có ý nghĩa thống kê, ngoại trừ biến RH Khi các biến

CO(GT), PT08.S1(CO), NMHC(GT), C6H6(GT), PT08.S2(NMHC), NOx(GT) bắt cặp với biến PT08.S3(NOx) xảy ra hiện tượng nghịch biến

5 Xây dựng mô hình hồi quy

- Biến độc lập: PT08.S2(NMHC); PT08.S1(CO); PT08.S3(NOx); PT08.S4(NO2); PT08.S5(O3); CO(GT); NMHC(GT); C6H6(GT); NOx(GT); NO2(GT); T; AH.

Ta sử dụng lệnh lm để xây dựng mô hình quy tuyến tính

Dựa vào kết quả của mô hình hồi quy tuyến tính trên, ta đặt giả thiết

- Giả thiết H0: Các hệ số hồi quy ứng với các biến không có ý nghĩa thống kê.

- Giả thiết H1: Các hệ số hồi quy ứng với các biến cố có ý nghĩa thống kê.

- Vì Pr ứng với các biến PT08.S1(CO), PT08.S4(NO2), NMHC(GT), C6H6(GT),

NO2(GT) đều lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0 Do đó các hệ số biến trên không có ý nghĩa thống kê, ta sẽ loại bỏ các biến này ra khỏi mô hình.

- Các hệ số ứng với các biến còn lại đều có Pr bé hơn mức ý nghĩa bé hơn 5% nên ta sẽ bác bỏ giả thiết H0, chấp nhận H1, tức hệ số hồi quy ứng với các biến tương ứng với các biến còn lại có ý nghĩa thống kê Do đó, ta không cần loại bỏ những biến còn lại ra khỏi mô hình.

* Xét 6 mô hình hồi quy tuyến tính bao gồm biến RH là biến phụ thuộc nhưng:

 Mô hình M1 chứa tất cả các biến còn lại là biến độc lập

 Mô hình M2 là loại bỏ biến PT08.S1(CO) từ M1

 Mô hình M3 là loại bỏ biến PT08.S4(NO2) từ M2

 Mô hình M4 là loại bỏ biến NMHC(GT) từ M3

 Mô hình M5 là loại bỏ biến C6H6(GT) từ M4

 Mô hình M6 là loại bỏ biến NO2(GT) từ M5

Ta xây dựng mô hình 2 là loại biến PT08.S1(CO) từ M1

Ta xây dựng mô hình 3 là loại biến PT08.S4(NO2) từ M2

Ta xây dựng mô hình 4 là loại biến NMHC(GT) từ M3

Ta xây dựng mô hình 5 là loại biến C6H6(GT) từ M4

Ta xây dựng mô hình 6 là loại biến NO2(GT) từ M5

Sử dụng lệnh anova để so sánh mô hình 1 và mô hình 2:

Giả thiết H0: Hai mô hình 1,2 hiệu quả như nhau

Giả thiết H1: Hai mô hình 1,2 hiệu quả khác nhau

Vì xác suất quan sát Pr = 0.06191 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0. Vậy mô hình 1,2 hiệu quả như nhau Mặc khác ta dựa vào R 2 hiệu chỉnh ở mô hình 2 0.9638 thấp hơn R 2 ở mô hình 1 = 0.9639 Do vậy ta chọn mô hình 1 hiệu quả hơn mô hình 2

Vì xác suất quan sát Pr = 0.1702 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0 Vậy mô hình 1,3 hiệu quả như nhau Mặc khác ta dựa vào R 2 hiệu chỉnh ở mô hình 3 0.9638 thấp hơn R 2 ở mô hình 1 = 0.9639 Do vậy ta chọn mô hình 1 hiệu quả hơn mô hình 3

Vì xác suất quan sát Pr = 0.2957 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0 Vậy mô hình 1,4 hiệu quả như nhau Mặc khác ta dựa vào Multiple R 2 ở mô hình 4 0.9643 thấp hơn Multiple R 2 ở mô hình 1 = 0.9644 Do vậy ta chọn mô hình 1 hiệu quả hơn mô hình 4

Vì xác suất quan sát Pr = 0.1545 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0 Vậy mô hình 1,5 hiệu quả như nhau Mặc khác ta dựa vào R 2 hiệu chỉnh ở mô hình 5 0.9638 thấp hơn R 2 ở mô hình 1 = 0.9639 Do vậy ta chọn mô hình 1 hiệu quả hơn mô hình 5

Vì xác suất quan sát Pr = 0.01291 bé hơn mức ý nghĩa 5% nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1 Vậy mô hình 1,6 hiệu quả khác nhau, tức trong hai mô hình sẽ có

1 mô hình hiệu quả hơn Mặc khác ta dựa vào R 2 hiệu chỉnh ở mô hình 6 = 0.9635 thấp hơn R 2 ở mô hình 1 = 0.9639 Do vậy ta chọn mô hình 1 hiệu quả hơn mô hình 6

Kết luận: Từ việc so sánh các mô hình, mô hình 1 là mô hình hợp lý nhất trong 6 mô hình.

6 Đánh giá sự tác động của các biến lên độ ẩm tương đối RH, thông qua các hệ số hồi quy p-value tương ứng với các hệ sộ hồi quy ứng với các biến.

Ta thấy rằng p-value tương ứng với T,AH < 2.10 -6 , điều này nói lên rằng ảnh hưởng T,AH có ý nghĩa rất lớn lên lên biến độ ẩm tương đối RH Ta còn nhận thấy sự ảnh hưởng PT08.S2(NMHC), PT08.S3(NOx), PT08.S5(O3), CO(GT), NOx(GT) lên độ ẩm tương đối RH, ít ảnh hưởng hơn so với AH,T Các biến PT08.S1(CO),

PT08.S4(NO2), NMHC(GT), C6H6(GT), NO2(GT)

Mặt khác các hệ số hồi quy của 1 biến dự báo cũng được xem như ảnh hưởng trung bình lên biến phụ thuộc là độ ẩm tương đối khi tăng 1 đơn vị của biến dự báo đó, giả sử khi các biến dự báo khác không đổi Cụ thể hơn, hệ số hồi quy ứng với T,AH lần lượt là -2.7641, 56.745 thì ứng với nhiệt độ T, độ ẩm tuyệt đối AH sẽ lần lượt giảm 1 o C, 1g/cm 3 thì ta có thể kỳ vọng nhiệt độ trung bình T, độ ẩm tương đối trung bình có thể giảm 2.7641% hoặc tăng 56.745% (giả sử rằng các biến dự báo còn lại không đổi).

Tương tự với hệ số hồi quy ứng với PT08.S2(NMHC)= 0.0216 thì ứng với với phản ứng cảm biến trung bình hàng giờ PT08.S2(NMHC) tăng 1 microg/ m 3 thì ta có thể kỳ vọng độ ẩm tương đối trung bình tăng 0.0216% (giả sử rằng các biến dự báo còn lại không đổi).

Tương tự đối với các biến còn lại.

7 Vẽ đồ thị sai số hồi quy và sai số dự báo

Nhận xét: Đường màu đó trên đồ thị là đường thẳng nằm ngang, tức là mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được xem như tuyến tính, thỏa mản giả định tuyến tính dữ liệu Ngoài ra các giá trị thặng dư phân tán tương đối đều xug quanh đường thẳng y = 0 (ngoại trừ một số giá trị ngoại lai), chứng tỏ phương sai của các sai số là hằng số.

Từ mô hình đã chọn, ta dùng lệnh predict() để dự báo độ ẩm tương đối qua hai thuộc tính như sau:

+X1=PT08.S1(CO)=mean(PT08.S1(CO)),PT08.S2(NMHC)=mean(PT08.S2(NM HC)),PT08.S3(NOx)=mean(PT08.S3(NOx)),PT08.S4(NO2)=mean(PT08.S4(NO2)),PT0 8.S5(O3)=mean(PT08.S5(O3)),CO(GT)=mean(CO(GT)),NMHC(GT)=mean(NMHC(GT )),C6H6(GT)=mean(C6H6(GT)),NO2(GT)=mean(NO2(GT)),NOx(GT)=mean(NOx(GT) ),T=2,AH=3)

+X2=PT08.S1(CO)=max(PT08.S1(CO)),PT08.S2(NMHC)=max(PT08.S2(NMHC)),PT08.S3(NOx)=max(PT08.S3(NOx)),PT08.S4(NO2)=max(PT08.S4(NO2)),PT08.S5(O3)=max(PT08.S5(O3)),CO(GT)=max(CO(GT)),NMHC(GT)=max(NMHC(GT)),C6H6

(GT)=max(C6H6(GT)),NO2(GT)=max(NO2(GT)),NOx(GT)=max(NOx(GT)),T=2,AH 3)

HOẠT ĐỘNG 2

Đọc file dữ liệu, làm sạch dữ liệu khuyết và thực hiện kiểm định thống kê mô tả 22 1 Đọc dữ liệu, làm sạch dữ liệu

1 Đọc dữ liệu, làm sạch dữ liệu khuyết

- Đổi tên file từ “auto.mpg” thành “new_DF”

- Tìm các dòng có NA

- Xuất dữ liệu NA trong data

- Xác định số lượng NA trong data

- Xác định tỷ lệ NA trong data

- Xóa các quan trắc chứa dữ liệu của NA

- Kiểm tra xem ‘horsepower’ có ở dạng numeric hay không ?

- Xuất các giá trị là outliers

- Xác định outliers trong data

- Chuyển các outliers thành NA

- Xoá các quan trắc của dữ liệu nếu chứa NA

2 Thực hiện kiểm định thống kê mô tả

Từ bảng thống kê ta có thể biết được:

 Mức tiêu thụ nhiên liệu trung bình tính theo dặm trên galon là 21.641100

 Mức tiêu thụ tối thiểu và tối đa nhiên liệu lần lượt là 9.0; 44.30

Xây dựng biểu đồ thể hiện mối quan hệ giữa biến ‘mpg’ với các biến còn lại

1 Vẽ biểu đồ histogram thể hiện phân phối chuẩn

Nhận xét: Đây là bản phân phối tần số cho biến ‘mpg’ Dựa trên biểu đồ ta nhận thấy:

 Mức tiêu thụ nhiên liệu có số lượng các loại xe cao nhất là: 15-20 (miles/gallon)

 Mức tiêu thụ nhiên liệu có số lượng các loại xe thấp nhất là: 5-10 (miles/gallon)

2 Vẽ biểu đồ boxplot của biến ‘mpg’ cho nhóm phân loại của biến ‘cylinders’

- Đối với nhóm xe có số xy-lanh thuộc nhóm 4

+ Mức tiêu thụ nhiên liệu cao nhất là khoảng 45(miles/gallon)

+ Khoảng 25% xe có mức tiêu thụ khoảng dưới 25(miles/gallon)

+ Khoảng 50% xe có mức tiêu thụ khoảng dưới 27.5(miles/gallon)

+ Khoảng 75% xe có mức tiêu thụ khoảng dưới 30(miles/gallon)

+ Mức tiêu thụ nhiên liệu cao nhất là khoảng 37.5(miles/gallon)

+ Có 3 xe có mức tiêu thụ dưới khoảng 32.5(miles/gallon)

+ Khoảng 25% xe có mức tiêu thụ nhiên liệu dưới khoảng 17.5(miles/gallon)

+ Khoảng 50% xe có mức tiêu thụ nhiên liệu dưới khoảng 18(miles/gallon)

+ Mức tiêu thụ nhiên liệu cao nhất khoảng 27.5(miles/gallon)

+ Có 2 xe có mức tiêu thụ dưới khoảng 25(miles/gallon)

Kết luận: Dựa vào hình biểu đồ boxplot thể hiện phân phối của biến ‘mgp’ theo biến

‘cylinders’ ta thấy được sự khác biết nhiều phân phối ‘mgp’ ở các nhóm ‘cylinders’ Ta dự đoán rằng biến ‘cylinders’ ảnh hưởng nhiều đến biến ‘mgp’

H0: Tiêu thụ nhiên liệu ở các xe nhóm 4 tuân theo phân phối chuẩn

H1: Tiêu thụ nhiên liệu ở các xe nhóm 4 không tuân theo phân phối chuẩn

Với giá trị p-value= 0.0001226

Tiêu đề	Báo cáo Bài tập lớn môn học Xác suất Thống kê
Tác giả	Lê Trát Minh, Đoàn Minh Quân, Phạm Mỹ Hoa, Nguyễn An Bình, Đặng Quốc Nghị
Người hướng dẫn	Hoàng Văn Hà
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh, Trường Đại học Bách khoa
Chuyên ngành	Xác suất Thống kê
Thể loại	Bài tập lớn
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	41
Dung lượng	2,3 MB