Dieãn giaûi keát quaû Phaân taùn ñoà cho thaáy giöõa hai bieán döôøng nhö coù söï töông quan raát keùm vaø nghòch vôùi nhau. 1.1.1.2. Laäp phöông trình hoài quy ñôn bieán Ñeå laäp phöông trình hoài quy ñôn bieán, chuùng ta söû duïng leänh regress. Cuù phaùp regress bpt bñl Ví duï: laäp phöông trình hoài quy cho bieán so2 vaø bieán temp . regress so2 temp Source | SS df MS Number of obs = 40 + F( 1, 38) = 9.42 Model | 3077.5813 1 3077.5813 Prob > F = 0.0039 Residual | 12408.3187 38 326.534703 Rsquared = 0.1987 + Adj Rsquared = 0.1776 Total | 15485.9 39 397.074359 Root MSE = 18.07 so2 | Coef. Std. Err. t P>|t| 95% Conf. Interval + temp | 1.221609 .3979167 3.07 0.004 2.027149 .4160688 _cons | 96.32878 22.42333 4.30 0.000 50.93512 141.7224
Trang 1Hồi quy đơn biến
Hồi quy đơn biến là phương trình hồi quy tuyến tính đơn giản nhất trong đó chỉ có mối quan hệ giữa hai biến là một biến phụ thuộc và một biến định tính
Quy trình
1.1.1.1 Vẽ phân tán đồ
Để vẽ phân tán đồ chúng ta thực hiện lệnh scatter.
Cú pháp
scatter bpt bđl
Ví dụ: vẽ phân tán đồ cho biến so2 và biến temp
Diễn giải kết quả
Phân tán đồ cho thấy giữa hai biến dường như có sự tương quan rất kém và nghịch với nhau
Trang 21.1.1.2 Lập phương trình hồi quy đơn biến
Để lập phương trình hồi quy đơn biến, chúng ta sử dụng lệnh regress.
Cú pháp
regress bpt bđl
Ví dụ: lập phương trình hồi quy cho biến so2 và biến temp
regress so2 temp
Source | SS df MS Number of obs = 40
-+ - F( 1, 38) = 9.42
Model | 3077.5813 1 3077.5813 Prob > F = 0.0039
Residual | 12408.3187 38 326.534703 R-squared = 0.1987
-+ - Adj R-squared = 0.1776
Total | 15485.9 39 397.074359 Root MSE = 18.07
so2 | Coef Std Err t P>|t| [95% Conf Interval]
temp | -1.221609 .3979167 -3.07 0.004 -2.027149 -.4160688
_cons | 96.32878 22.42333 4.30 0.000 50.93512 141.7224
Diễn giải kết quả
Hệ số tương quan bình phương R-squared = 0.1987=19.87% nói lên rằng nhiệt độ trung bình giải thích cho 19.87% sự thay đổi về mật độ SO2
Dựa vào bảng hệ số chúng ta có được phương trình hồi quy Mật độ SO2= 96.32878 –1.221609 x nhiệt độ Như vậy nếu nhiệt độ tăng lên một đơn vị thì mật độ so2 giảm đi 1.221609
Giá trị t ở dòng temp cho biết giá trị của phép kiểm dùng để kiểm tra mối quan hệ giữa hai biến thật sự có ý nghĩa hay không (giả thuyết H0 : b =0) Trong bảng trên ta nhận thấy p=0.004 chứng tỏ bác bỏ giả thuyết H0, như vậy giữa hai biến thật sự có mối liên hệ
1.1.1.3 Vẽ đường thẳng hồi quy tuyến tính
Để vẽ đường thẳng hồi quy chúng ta phải thực hiện các bước sau
1.1.1.3.1 Tạo giá trị dự báo cho biến phụ thuộc
Giá trị dự báo của biến phụ thuộc có nghĩa là khi tôi thế một giá trị của biến độc lập vào phương trình thì sẽ ra một giá trị của biến phụ thuộc tương ứn, vì vậy Stata giúp chúng ta tạo ra các giá trị dự báo để từ đó có thể vẽ được đường thẳng hồi quy
Chúng ta sẽ sử dụng lệnh predict để thiết lập giá trị dự báo
Cú pháp
Trang 3predict varname
Ví dụ: tạo biến giá trị dự đoán cho biến so2
predict yhat
(option xb assumed; fitted values)
1.1.1.3.2 Vẽ đường thẳng hồi quy
Chúng ta sẽ sử dụng lại lệnh scatter với các tuỳ chọn
connect (.1) : đừng nối liền các giá trị tạo ra bởi x và y mà hãy nói liền các giá trị của x và yhat
symbol(o i) : hãy sử dụng những vòng tròn nhỏ cho y và ẩn biểu tượng cho yhat
Ví dụ: vẽ đường hồi quy cho biến so2 và temp
scatter so2 yhat temp, connect( 1) symbol(o i)
(note: named style 1 not found for style connectstyle, default attributes
used)
Trang 4Hồi quy đa biến
Quy trình
Mô tả mối tương quan bằng đồ thị
Nhằm mục đích đánh giá chung về mối quan hệ giữa các biến, xác định những con số ngoại lai, nêu lên được những vấn đề về đồng tuyến tính tiềm năng giữa các biến giải
thích Ta sử dụng ma trận chấm điểm (scatter plot matrix) bằng lệnh graph matrix Cú pháp
graph matrix bpt varlist-bđl, options hoặc
graph matrix bpt varlist, options
Ví dụ:
graph matrix so2 temp-days
Mô tả mối tương quan giữa các biến
Loại bỏ giá trị ngoại lai nếu có
Loại bỏ mối tương quan đồng tuyến tính Lập phương trình hồi quy tuyến tính
Lập lại phương trình hồi quy tuyến tính
Kiểm tra hệ số dư
Trang 5Diễn giải kết quả
Hàng đầu tiên mô tả mối quan hệ giữa biến phụ thuộc (so2) và các biến giải thích Chúng ta nhận thấy các mối quan hệ này không tuyến tính
Một số đồ thị chấm cho thấy dấu hiệu có số ngoại lại (giữa so2 và manuf, so2 và pop)
Mối quan hệ giữa biến manuf và biến pop rất mạnh (theo dạng tuyến tính nên gọi là đồng tuyến tính) cho thấy nếu chúng ta cùng sử dụng cả hai biến này như là biến giải thích sẽ gây ra rắc rối
Như vậy, qua đồ thị này chúng ta phải thực hiện các bước tiếp theo là loại bỏ giá trị ngoại lai và khử mối quan hệ đồng tuyến tính giữa manuf và pop
Loại bỏ giá trị ngoại lai
Từ đồ thị ở trên chúng ta nghi ngờ có giá trị ngoại lai nhưng chúng ta không biết giá trị ngoại lai đó là của thành phố nào để chúng ta loại bỏ nó Vì vậy chúng ta phải thực hiện các câu lệnh sau:
gen str3 twn= substr(town,1,3)
Câu lệnh này nhằm tạo biến str3 chính là biến town nhưng tên của các thành phố chỉ lấy 3 ký tự đầu Chúng ta sử dụng biến này vì nếu sử dụng cả biến town thì khi gán lên các chấm sẽ rất dài và làm khó nhìn
Sau khi tạo biến mới chúng ta gõ lại lệnh graph matrix nhưng thêm các option sau
Trang 6graph matrix so2-days, msymbol(none) mlabel(twn) mlabposition(0)
Trong câu lệnh trên, mlabel( ) dùng để gắn cho các điểm tên thành phố tương ứng Tuy nhiên, những tên này cũng sẽ bị chuyển thành dạng chấm vì vậy chúng ta phải sử dụng option msymbol(none) để máy hiểu mà không chuyển những chữ này thành chấm mlabposition(0) sẽ đưa những tên thành phố vào chính giữa dấu chấm để dễ theo dõi
Nhìn vào kết quả trên chúng ta nhận thấy rõ ràng thành phố Chicago chính là giá trị ngoại lai Vì vậy chúng ta phải khử giá trị này
drop if town==”Chicago”
Như vậy, thành phố Chicago đã bị loại ra khỏi bộ số liệu, chúng ta có thể kiểm tra lại
bằng cách gõ browser.
Lập phương trình hồi quy đa biến
Đến đây ta đã khử được giá trị ngoại lai nên ta sẽ lập phương trình hồi quy nhưng chưa khử mối quan hệ đồng tuyến tính giữa biến manuf và pop
Cú pháp
regress bpt varlist-bđl
Trang 7Ví dụ:
regress so2 temp-days
Source | SS df MS Number of obs = 40
-+ - F( 6, 33) = 6.20 Model | 8203.60523 6 1367.26754 Prob > F = 0.0002 Residual | 7282.29477 33 220.675599 R-squared = 0.5297 -+ - Adj R-squared = 0.4442 Total | 15485.9 39 397.074359 Root MSE = 14.855
so2 | Coef Std Err t P>|t| [95% Conf Interval]
temp | -1.268452 .6305259 -2.01 0.052 -2.551266 .0143631 manuf | .0654927 .0181777 3.60 0.001 0285098 .1024756 pop | -.039431 .0155342 -2.54 0.016 -.0710357 -.0078264 wind | -3.198267 1.859713 -1.72 0.095 -6.981881 .5853468 precip | .5136846 .3687273 1.39 0.173 -.2364966 1.263866 days | -.0532051 .1653576 -0.32 0.750 -.3896277 .2832175 _cons | 111.8709 48.07439 2.33 0.026 14.06278 209.679
-Diễn giải kết quả
Trong kết quả của lệnh regress chúng ta có hai phần: một là bảng phân tích phương sai của phép kiểm F-test và hai là bảng ước lượng các tham số
Kiểm định F có giả thuyết H0 là tất cả cá hệ số tương quan của các biến giải thích đều bằng không ngoại trừ số dư
Ta nhận thấy giá trị F với 6 và 33 độ tự do có giá trị = 6.20, và giá trị p kết hợp rất nhỏ (p=0.0002) Điều đó chứng tỏ giả thuyết H0 bị bác bỏ
Bình phương hệ số tương quan đa biến (R2) bằng 0.53 có nghĩa là có đến 53% sự thay đổi mật độ tập trung SO 2 có thể được giải thích bằng 6 biến còn lại trong tập tin số liệu
Giá trị R2 hiệu chỉnh (Adj R-squared) là ước lượng giá trị R2 của dân số từ số liệu mẫu
MSE chính là ước lượng độ lệch chuẩn của dân số
Coef: chính là hệ số tương quan của các biến giải thích Nó đưa ra sự thay đổi ước lượng khi biến đáp ứng thay đổi một đơn vị trong biến giải thích tương ứng với những biến khác giữa nguyên giá trị
P>/t/: giá trị p của phép kiểm t- test đối với từng biến dự đoán trong đó giả thuyết
Ho là sự thay đổi của từng biến dự đoán không liên quan đến sự thay đổi của biến so2
Loại bỏ mối tương quan đồng tuyến tính
Như đã thấy qua đồ thị, giữa biến manuf và biến pop có mối tương quan đồng tuyến tính mạnh Chúng ta cần phải kiểm tra lại mối quan hệ này bằng cách sử dụng câu lệnh sau
correlate manuf pop
(obs=40)
Trang 8| manuf pop
manuf | 1.0000
pop | 0.8906 1.0000
Chúng ta có thể tìm hiểu kỹ hơn bằng cách tính VIF của tất cả các biến giải thích
bằng lệnh vif sau khi cho chạy lệnh regress
vif
Variable | VIF 1/VIF
manuf | 6.28 0.159275
pop | 6.13 0.163165
temp | 3.72 0.269156
days | 3.47 0.287862
precip | 3.41 0.293125
wind | 1.26 0.790619
Mean VIF | 4.05
Theo Chatterjee những giá trị vif của biến nào thoả một trong hai quy luật dưới đây cần phải loại bỏ ra khỏi phương trình hồi quy
Giá trị VIF lớn hơn 10 chứng tỏ là có đồng tuyến tính
Hệ số VIF của biến đó lớn hơn nhiều so với hệ số VIF trung bình
Ở đây chúng ta nhận thấy không có giá trị VIF lớn hơn 10 nhưng giá trị VIF của biến manuf và biến pop lớn hơn nhiều so với VIF trung bình nên chúng ta cần phải loại một trong hai biến manuf hay pop ra khỏi phương trình hồi quy Ơû đây chúng ta sẽ loại biến manuf ra khỏi phương trình hồi quy
Lập lại phương trình hồi quy đa biến
Giờ đây chúng ta có thể lập được phương trình hồi quy đa biến cho biến so2
regress so2 temp pop wind precip days
Source | SS df MS Number of obs = 40 -+ - F( 5, 34) = 3.58 Model | 5339.03465 5 1067.80693 Prob > F = 0.0105 Residual | 10146.8654 34 298.437216 R-squared = 0.3448 -+ - Adj R-squared = 0.2484 Total | 15485.9 39 397.074359 Root MSE = 17.275 so2 | Coef Std Err t P>|t| [95% Conf Interval]
temp | -1.867665 .7072827 -2.64 0.012 -3.305037 -.430294
pop | .0113969 .0075627 1.51 0.141 -.0039723 .0267661 wind | -3.126429 2.16257 -1.45 0.157 -7.5213 1.268443 precip | .6021108 .4278489 1.41 0.168 -.2673827 1.471604 days | -.020149 .1920012 -0.10 0.917 -.4103424 .3700445 _cons | 135.8565 55.36797 2.45 0.019 23.33529 248.3778 -Chúng ta kiểm tra lại bằng Vif thì thấy cũng thoả
Trang 9vif
Variable | VIF 1/VIF
days | 3.46 0.288750
temp | 3.46 0.289282
precip | 3.40 0.294429
wind | 1.26 0.790710
pop | 1.07 0.931015
Mean VIF | 2.53
Nhìn vào bảng trên chỉ có biến temp thật sự có hệ số tương quan có ý nghĩa thống kê (p=0.012) các biến phụ thuộc còn lại có hệ số tương quan không có ý nghĩa thống kê Tuy nhiên, chúng ta không thể loại bỏ các biến còn lại ra khỏi phương trình hồi quy vì giữa các biến còn có mối liên hệ với nhay Nếu bỏ các biến này thì sẽ làm sai lệch hệ số tương quan và sai số chuẩn Như vậy, thay vì dùng phép kiểm t như trong lệnh
regress chúng ta phải sử dụng “phương pháp xác minh (confirmmatory approach).
Phương pháp này sẽ chia các biến giải thích thành hai nhóm bao gồm biến khí hậu (temp, wind, precip, days) và biến sinh thái người (pop), sau đó xét xem một hoặc cả hai biến trên cùng ảnh hưởng đến biến phụ thuộc hay không Câu lệnh sẽ như sau: sw regress so2 (temp wind precip days) (pop), pe(0.05)
begin with empty model
p = 0.0119 < 0.0500 adding temp wind precip days
Source | SS df MS Number of obs = 40
-+ - F( 4, 35) = 3.77
Model | 4661.27545 4 1165.31886 Prob > F = 0.0119
Residual | 10824.6246 35 309.274987 R-squared = 0.3010
-+ - Adj R-squared = 0.2211
Total | 15485.9 39 397.074359 Root MSE = 17.586
so2 | Coef Std Err t P>|t| [95% Conf Interval]
temp | -1.689848 .7099204 -2.38 0.023 -3.131063 -.2486329
wind | -2.309449 2.13119 -1.08 0.286 -6.635996 2.017097
precip | .5241595 .4323535 1.21 0.234 -.3535647 1.401884
days | .0119373 .1942509 0.06 0.951 -.382413 .4062876
_cons | 123.5942 55.75236 2.22 0.033 10.41091 236.7775
-Diển giải kết quả:
Option pe(0.05) có mục đích chỉ liệt kê nhóm biến nào cho kết quả p value của F-test nhỏ hơn 0.05
Kết quả cho thấy chỉ có nhóm biến khí hậu có ý nghĩa thống kê với p=0.0119 < 0.05
Như vậy phương trình hồi quy đa biến mong muốn chỉ có 4 biến là temp, wind, precip, và days
Kiểm tra số dư của phương trình hồi quy đã chọn