III. HOẠT ĐỘNG 2
5. Xây dưng các mô hình hồi quy tuyến tính (Fitting linear regression models):
Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến chỉ
số FWI.
5.1. Xét mô hinh hồi quy tuyến tính bao gôm biến FWI là một biến phụ thuộc, và tất cả các biến còn lại là biến độc lập.
Ta dùng lệnh lm để thực thi mô hinh hồi quy tuyến tính bội:
M1 = lm(FWI~ RH + Ws + Rain + Temperature, data = Forest_fires)
summary(M1) #Tóm tắt kết quả mô hình M1.
## ## Call:
## lm(formula = FWI ~ RH + Ws + Rain + Temperature, data = Forest_fires) ##
## Residuals:
## Min 1Q Median 3Q Max ## -10.8156 -3.5788 -0.2179 3.3403 17.8932 ##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -26.12257 9.03194 -2.892 0.00456 ** ## RH -0.09466 0.05389 -1.757 0.08162 . ## Ws 0.46587 0.16957 2.747 0.00696 ** ## Rain -0.15615 0.22163 -0.705 0.48250 ## Temperature 0.98822 0.19407 5.092 1.37e-06 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ##
## Residual standard error: 4.923 on 117 degrees of freedom ## Multiple R-squared: 0.4175, Adjusted R-squared: 0.3976 ## F-statistic: 20.97 on 4 and 117 DF, p-value: 4.716e-13
30
5.2. Dựa vào kết quả của mô hình hồi quy tuyến tính trên, để lựa chọn những biến sẽ loại khỏi mô hình tương ứng với mức tin cậy 5%, ta đặt:
Giả thuyết H0: Hệ số hồi quy không có ý nghĩa thống kê.
Đối thuyết H1: Hệ số hồi quy có ý nghĩa thống kê.
Nhận xét: Dưa vào kết quả của mô hình tuyến tính, vì các Pr(>|t|) ứng với các
biến WS, Temperature bé hơn 0,05 nên ta bác bỏ H0 chấp nhận H1, các hệ số ứng với các
biến này có ý nghĩa thống kê. Ngược lai các Pr(>|t|) ứng với các biến Rain, RH lớn hơn
0,05 nên ta chấp nhận H0, các hệ số ứng với các biến Rain, RH không có ý nghĩa thống
kê. Do đó ta sẽ loai 2 biến Rain và RH ra khỏi mô hinh.
5.3. Xét 2 mô hinh tuyến tính cùng bao gồm biến FWI là biến phụ thuộc nhưng:
Mô hình M1 chứa tất cả các biến còn lai là biến độc lập.
Mô hình M2 là loại bỏ biến Rain từ mô hình M1.
Ta dùng lệnh lm để thực thi mô hinh hồi quy tuyến tính bội M2:
M2 = lm(FWI~ RH + Ws + Temperature, data = Forest_fires)
summary(M2) #Tóm tắt kết quả mô hình M2.
## ## Call:
## lm(formula = FWI ~ RH + Ws + Temperature, data = Forest_fires) ##
## Residuals:
## Min 1Q Median 3Q Max ## -10.9733 -3.4381 -0.0843 3.3733 17.9176 ##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -27.36759 8.83845 -3.096 0.00245 ** ## RH -0.09368 0.05376 -1.743 0.08402 . ## Ws 0.43229 0.16239 2.662 0.00885 ** ## Temperature 1.03901 0.17980 5.779 6.25e-08 *** ## ---
31
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ##
## Residual standard error: 4.913 on 118 degrees of freedom ## Multiple R-squared: 0.4151, Adjusted R-squared: 0.4002 ## F-statistic: 27.91 on 3 and 118 DF, p-value: 1.033e-13
Sử dụng lệnh anova để chon mô hinh hợp lý nhất.
anova(M1,M2)
## Analysis of Variance Table ##
## Model 1: FWI ~ RH + Ws + Rain + Temperature ## Model 2: FWI ~ RH + Ws + Temperature
## Res.Df RSS Df Sum of Sq F Pr(>F) ## 1 117 2835.6
## 2 118 2847.7 -1 -12.03 0.4964 0.4825
Ta đặt giả thiết:
Giả thuyết H0: Hai mô hình M1 và M2 hiệu quả giống nhau.
Đối thuyết H1: Hai mô hình M1 và M2 hiệu quả khác nhau.
Nhận xét: Dựa vào kết quả phân tích ANOVA hai mô hình M1 và M2, ta thu được giá trị Pr(>F) = 0,4825. Chon mức ý nghĩa 0,05, khi đó Pr(>F) > 0,05 => chỉ ra rằng 2 mô hình có hiệu quả như nhau, ta có thể dưa vào hệ số R2R2 hiệu chỉnh, ta thấy R2R2 hiệu chỉnh ở mô hình M2 = 0,4002 lớn hơn so với mô hinh M1 = 0,3976. Vi vậy, mặc dù kết quả phân tích ANOVA cho biết 2 mô hình M1 và M2 là như nhau nhưng ta kết luận rằng mô hình M2 tốt hơn M1.
5.4. Mô hinh hồi quy tuyến tính ta chọn hợp lý ở câu c là mô hình M2. Ta suy luận sự tác động của các biến lên chỉ số FWI:
Ta có Pr(>|t|) ở các biến Temperature, RH, Ws đều rất bé, nên các biến này đều có
ý nghĩa thống kê cao đối với biến FWI, có nghĩa là nhưng thay đổi của các biến này có ảnh
hưởng nhiều đến sư thay đổi của chỉ số thời tiết báo cháy FWI.
Ngoài ra, dưa vào hệ số hồi quy ứng với các biến Temperature, RH, Ws ta cũng
nhận thấy sư ảnh hưởng của các biến này lên biến FWI. Cụ thể: hệ số ứng với
32
biến Temperature) thì ta có thể kỳ vong biến FWI tăng thêm 1,03901 đơn vị (tinh theo
biến FWI) (giả sử các biến còn lai không thay đổi).
Tương tư, hệ số ứng với biến RH = -0,09368 / Ws = 0,43229, tức khi
biến RH / Ws tăng thêm 1 đơn vị (tính theo biến RH / Ws) thi ta có thể kỳ vọng
biến FWI giảm đi 0,09368 đơn vị hoặc tăng thêm 0,43229 đơn vị (tinh theo biến FWI) (giả
sử các biến còn lai không thay đổi).
5.5. Từ mô hình M2, ta dùng lệnh plot để vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values):
plot(M2, which=1)
KẾT LUẬN
Với đề tài “Phân tích phương sai Anova phân tích dữ liệu mẫu” sử dụng ngôn ngữ lập trình R để xử lý dữ liệu thống kê về chế độ ăn kiêng của các nhóm đối tượng, nhóm chúng tôi đã có cái nhìn trực quan hơn về cách trích xuất dữ liệu, xử lý phân tích dữ liệu thô, biến chúng thành những nguồn dữ liệu có giá trị sử dụng lâu dài, hay hơn cả thế là có thể khái quái hóa tình hình chung và đưa ra những tiên đoán về tập dữ liệu. Bên cạnh đó việc tìm hiểu phần mềm R và sử dụng RStudio để ứng dụng vào các bước tính toán phân tích và vẽ đồ thị đã giúp cho chúng tôi có thêm kỹ năng về lập trình, biết cách sắp xếp đúng trình tự thực hiện và các công việc cần làm khi gặp một vấn đề cũng như có thêm công cụ hỗ trợ việc tính toán và giải quyết những vấn đề phức tạp nhờ có sự trợ giúp của máy tính. Việc hợp tác thực hiện đề tài đã nâng cao khả năng làm việc nhóm và tinh thần trách nhiệm trong công việc.
Tài liệu tham khảo
33 2. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất – Thống kê & Phân tích số liệu, 2019
3. Nguyễn Đình Huy (chủ biên), Nguyễn Bá Thi, Giáo trình Xác suất và Thống kê, 2018 4. Introductory Statistics with R, J Jambers – D.Hand – W.Hardle
5. Applied Statistics with R, 2020
6. TS. Nguyễn Cảnh Huy, Bài giảng môn học Kinh tế Lượng 7. Chu Nguyễn Mộng Ngọc, Hoàng Trọng, Thống kê Ứng dụng. 8. Nguồn dữ liệu hoạt động 2: