1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích hồi quy tuyến tính

10 0 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích Hồi Quy Tuyến Tính
Định dạng
Số trang 10
Dung lượng 231,5 KB
File đính kèm hoiquy.zip (114 KB)

Nội dung

Dieãn giaûi keát quaû Phaân taùn ñoà cho thaáy giöõa hai bieán döôøng nhö coù söï töông quan raát keùm vaø nghòch vôùi nhau. 1.1.1.2. Laäp phöông trình hoài quy ñôn bieán Ñeå laäp phöông trình hoài quy ñôn bieán, chuùng ta söû duïng leänh regress. Cuù phaùp regress bpt bñl Ví duï: laäp phöông trình hoài quy cho bieán so2 vaø bieán temp . regress so2 temp Source | SS df MS Number of obs = 40 + F( 1, 38) = 9.42 Model | 3077.5813 1 3077.5813 Prob > F = 0.0039 Residual | 12408.3187 38 326.534703 Rsquared = 0.1987 + Adj Rsquared = 0.1776 Total | 15485.9 39 397.074359 Root MSE = 18.07 so2 | Coef. Std. Err. t P>|t| 95% Conf. Interval + temp | 1.221609 .3979167 3.07 0.004 2.027149 .4160688 _cons | 96.32878 22.42333 4.30 0.000 50.93512 141.7224

Trang 1

Hồi quy đơn biến

Hồi quy đơn biến là phương trình hồi quy tuyến tính đơn giản nhất trong đó chỉ có mối quan hệ giữa hai biến là một biến phụ thuộc và một biến định tính

Quy trình

1.1.1.1 Vẽ phân tán đồ

Để vẽ phân tán đồ chúng ta thực hiện lệnh scatter.

Cú pháp

scatter bpt bđl

Ví dụ: vẽ phân tán đồ cho biến so2 và biến temp

Diễn giải kết quả

Phân tán đồ cho thấy giữa hai biến dường như có sự tương quan rất kém và nghịch với nhau

Trang 2

1.1.1.2 Lập phương trình hồi quy đơn biến

Để lập phương trình hồi quy đơn biến, chúng ta sử dụng lệnh regress.

Cú pháp

regress bpt bđl

Ví dụ: lập phương trình hồi quy cho biến so2 và biến temp

regress so2 temp

Source | SS df MS Number of obs = 40

-+ - F( 1, 38) = 9.42

Model | 3077.5813 1 3077.5813 Prob > F = 0.0039

Residual | 12408.3187 38 326.534703 R-squared = 0.1987

-+ - Adj R-squared = 0.1776

Total | 15485.9 39 397.074359 Root MSE = 18.07

so2 | Coef Std Err t P>|t| [95% Conf Interval]

temp | -1.221609 .3979167 -3.07 0.004 -2.027149 -.4160688

_cons | 96.32878 22.42333 4.30 0.000 50.93512 141.7224

Diễn giải kết quả

 Hệ số tương quan bình phương R-squared = 0.1987=19.87% nói lên rằng nhiệt độ trung bình giải thích cho 19.87% sự thay đổi về mật độ SO2

 Dựa vào bảng hệ số chúng ta có được phương trình hồi quy Mật độ SO2= 96.32878 –1.221609 x nhiệt độ Như vậy nếu nhiệt độ tăng lên một đơn vị thì mật độ so2 giảm đi 1.221609

 Giá trị t ở dòng temp cho biết giá trị của phép kiểm dùng để kiểm tra mối quan hệ giữa hai biến thật sự có ý nghĩa hay không (giả thuyết H0 : b =0) Trong bảng trên ta nhận thấy p=0.004 chứng tỏ bác bỏ giả thuyết H0, như vậy giữa hai biến thật sự có mối liên hệ

1.1.1.3 Vẽ đường thẳng hồi quy tuyến tính

Để vẽ đường thẳng hồi quy chúng ta phải thực hiện các bước sau

1.1.1.3.1 Tạo giá trị dự báo cho biến phụ thuộc

Giá trị dự báo của biến phụ thuộc có nghĩa là khi tôi thế một giá trị của biến độc lập vào phương trình thì sẽ ra một giá trị của biến phụ thuộc tương ứn, vì vậy Stata giúp chúng ta tạo ra các giá trị dự báo để từ đó có thể vẽ được đường thẳng hồi quy

Chúng ta sẽ sử dụng lệnh predict để thiết lập giá trị dự báo

Cú pháp

Trang 3

predict varname

Ví dụ: tạo biến giá trị dự đoán cho biến so2

predict yhat

(option xb assumed; fitted values)

1.1.1.3.2 Vẽ đường thẳng hồi quy

Chúng ta sẽ sử dụng lại lệnh scatter với các tuỳ chọn

connect (.1) : đừng nối liền các giá trị tạo ra bởi x và y mà hãy nói liền các giá trị của x và yhat

symbol(o i) : hãy sử dụng những vòng tròn nhỏ cho y và ẩn biểu tượng cho yhat

Ví dụ: vẽ đường hồi quy cho biến so2 và temp

scatter so2 yhat temp, connect( 1) symbol(o i)

(note: named style 1 not found for style connectstyle, default attributes

used)

Trang 4

Hồi quy đa biến

Quy trình

Mô tả mối tương quan bằng đồ thị

Nhằm mục đích đánh giá chung về mối quan hệ giữa các biến, xác định những con số ngoại lai, nêu lên được những vấn đề về đồng tuyến tính tiềm năng giữa các biến giải

thích Ta sử dụng ma trận chấm điểm (scatter plot matrix) bằng lệnh graph matrix Cú pháp

graph matrix bpt varlist-bđl, options hoặc

graph matrix bpt varlist, options

Ví dụ:

graph matrix so2 temp-days

Mô tả mối tương quan giữa các biến

Loại bỏ giá trị ngoại lai nếu có

Loại bỏ mối tương quan đồng tuyến tính Lập phương trình hồi quy tuyến tính

Lập lại phương trình hồi quy tuyến tính

Kiểm tra hệ số dư

Trang 5

Diễn giải kết quả

 Hàng đầu tiên mô tả mối quan hệ giữa biến phụ thuộc (so2) và các biến giải thích Chúng ta nhận thấy các mối quan hệ này không tuyến tính

 Một số đồ thị chấm cho thấy dấu hiệu có số ngoại lại (giữa so2 và manuf, so2 và pop)

 Mối quan hệ giữa biến manuf và biến pop rất mạnh (theo dạng tuyến tính nên gọi là đồng tuyến tính) cho thấy nếu chúng ta cùng sử dụng cả hai biến này như là biến giải thích sẽ gây ra rắc rối

Như vậy, qua đồ thị này chúng ta phải thực hiện các bước tiếp theo là loại bỏ giá trị ngoại lai và khử mối quan hệ đồng tuyến tính giữa manuf và pop

Loại bỏ giá trị ngoại lai

Từ đồ thị ở trên chúng ta nghi ngờ có giá trị ngoại lai nhưng chúng ta không biết giá trị ngoại lai đó là của thành phố nào để chúng ta loại bỏ nó Vì vậy chúng ta phải thực hiện các câu lệnh sau:

gen str3 twn= substr(town,1,3)

Câu lệnh này nhằm tạo biến str3 chính là biến town nhưng tên của các thành phố chỉ lấy 3 ký tự đầu Chúng ta sử dụng biến này vì nếu sử dụng cả biến town thì khi gán lên các chấm sẽ rất dài và làm khó nhìn

Sau khi tạo biến mới chúng ta gõ lại lệnh graph matrix nhưng thêm các option sau

Trang 6

graph matrix so2-days, msymbol(none) mlabel(twn) mlabposition(0)

Trong câu lệnh trên, mlabel( ) dùng để gắn cho các điểm tên thành phố tương ứng Tuy nhiên, những tên này cũng sẽ bị chuyển thành dạng chấm vì vậy chúng ta phải sử dụng option msymbol(none) để máy hiểu mà không chuyển những chữ này thành chấm mlabposition(0) sẽ đưa những tên thành phố vào chính giữa dấu chấm để dễ theo dõi

Nhìn vào kết quả trên chúng ta nhận thấy rõ ràng thành phố Chicago chính là giá trị ngoại lai Vì vậy chúng ta phải khử giá trị này

drop if town==”Chicago”

Như vậy, thành phố Chicago đã bị loại ra khỏi bộ số liệu, chúng ta có thể kiểm tra lại

bằng cách gõ browser.

Lập phương trình hồi quy đa biến

Đến đây ta đã khử được giá trị ngoại lai nên ta sẽ lập phương trình hồi quy nhưng chưa khử mối quan hệ đồng tuyến tính giữa biến manuf và pop

Cú pháp

regress bpt varlist-bđl

Trang 7

Ví dụ:

regress so2 temp-days

Source | SS df MS Number of obs = 40

-+ - F( 6, 33) = 6.20 Model | 8203.60523 6 1367.26754 Prob > F = 0.0002 Residual | 7282.29477 33 220.675599 R-squared = 0.5297 -+ - Adj R-squared = 0.4442 Total | 15485.9 39 397.074359 Root MSE = 14.855

so2 | Coef Std Err t P>|t| [95% Conf Interval]

temp | -1.268452 .6305259 -2.01 0.052 -2.551266 .0143631 manuf | .0654927 .0181777 3.60 0.001 0285098 .1024756 pop | -.039431 .0155342 -2.54 0.016 -.0710357 -.0078264 wind | -3.198267 1.859713 -1.72 0.095 -6.981881 .5853468 precip | .5136846 .3687273 1.39 0.173 -.2364966 1.263866 days | -.0532051 .1653576 -0.32 0.750 -.3896277 .2832175 _cons | 111.8709 48.07439 2.33 0.026 14.06278 209.679

-Diễn giải kết quả

 Trong kết quả của lệnh regress chúng ta có hai phần: một là bảng phân tích phương sai của phép kiểm F-test và hai là bảng ước lượng các tham số

 Kiểm định F có giả thuyết H0 là tất cả cá hệ số tương quan của các biến giải thích đều bằng không ngoại trừ số dư

 Ta nhận thấy giá trị F với 6 và 33 độ tự do có giá trị = 6.20, và giá trị p kết hợp rất nhỏ (p=0.0002) Điều đó chứng tỏ giả thuyết H0 bị bác bỏ

 Bình phương hệ số tương quan đa biến (R2) bằng 0.53 có nghĩa là có đến 53% sự thay đổi mật độ tập trung SO 2 có thể được giải thích bằng 6 biến còn lại trong tập tin số liệu

 Giá trị R2 hiệu chỉnh (Adj R-squared) là ước lượng giá trị R2 của dân số từ số liệu mẫu

 MSE chính là ước lượng độ lệch chuẩn của dân số

 Coef: chính là hệ số tương quan của các biến giải thích Nó đưa ra sự thay đổi ước lượng khi biến đáp ứng thay đổi một đơn vị trong biến giải thích tương ứng với những biến khác giữa nguyên giá trị

 P>/t/: giá trị p của phép kiểm t- test đối với từng biến dự đoán trong đó giả thuyết

Ho là sự thay đổi của từng biến dự đoán không liên quan đến sự thay đổi của biến so2

Loại bỏ mối tương quan đồng tuyến tính

Như đã thấy qua đồ thị, giữa biến manuf và biến pop có mối tương quan đồng tuyến tính mạnh Chúng ta cần phải kiểm tra lại mối quan hệ này bằng cách sử dụng câu lệnh sau

correlate manuf pop

(obs=40)

Trang 8

| manuf pop

manuf | 1.0000

pop | 0.8906 1.0000

Chúng ta có thể tìm hiểu kỹ hơn bằng cách tính VIF của tất cả các biến giải thích

bằng lệnh vif sau khi cho chạy lệnh regress

vif

Variable | VIF 1/VIF

manuf | 6.28 0.159275

pop | 6.13 0.163165

temp | 3.72 0.269156

days | 3.47 0.287862

precip | 3.41 0.293125

wind | 1.26 0.790619

Mean VIF | 4.05

Theo Chatterjee những giá trị vif của biến nào thoả một trong hai quy luật dưới đây cần phải loại bỏ ra khỏi phương trình hồi quy

 Giá trị VIF lớn hơn 10 chứng tỏ là có đồng tuyến tính

 Hệ số VIF của biến đó lớn hơn nhiều so với hệ số VIF trung bình

Ở đây chúng ta nhận thấy không có giá trị VIF lớn hơn 10 nhưng giá trị VIF của biến manuf và biến pop lớn hơn nhiều so với VIF trung bình nên chúng ta cần phải loại một trong hai biến manuf hay pop ra khỏi phương trình hồi quy Ơû đây chúng ta sẽ loại biến manuf ra khỏi phương trình hồi quy

Lập lại phương trình hồi quy đa biến

Giờ đây chúng ta có thể lập được phương trình hồi quy đa biến cho biến so2

regress so2 temp pop wind precip days

Source | SS df MS Number of obs = 40 -+ - F( 5, 34) = 3.58 Model | 5339.03465 5 1067.80693 Prob > F = 0.0105 Residual | 10146.8654 34 298.437216 R-squared = 0.3448 -+ - Adj R-squared = 0.2484 Total | 15485.9 39 397.074359 Root MSE = 17.275 so2 | Coef Std Err t P>|t| [95% Conf Interval]

temp | -1.867665 .7072827 -2.64 0.012 -3.305037 -.430294

pop | .0113969 .0075627 1.51 0.141 -.0039723 .0267661 wind | -3.126429 2.16257 -1.45 0.157 -7.5213 1.268443 precip | .6021108 .4278489 1.41 0.168 -.2673827 1.471604 days | -.020149 .1920012 -0.10 0.917 -.4103424 .3700445 _cons | 135.8565 55.36797 2.45 0.019 23.33529 248.3778 -Chúng ta kiểm tra lại bằng Vif thì thấy cũng thoả

Trang 9

vif

Variable | VIF 1/VIF

days | 3.46 0.288750

temp | 3.46 0.289282

precip | 3.40 0.294429

wind | 1.26 0.790710

pop | 1.07 0.931015

Mean VIF | 2.53

Nhìn vào bảng trên chỉ có biến temp thật sự có hệ số tương quan có ý nghĩa thống kê (p=0.012) các biến phụ thuộc còn lại có hệ số tương quan không có ý nghĩa thống kê Tuy nhiên, chúng ta không thể loại bỏ các biến còn lại ra khỏi phương trình hồi quy vì giữa các biến còn có mối liên hệ với nhay Nếu bỏ các biến này thì sẽ làm sai lệch hệ số tương quan và sai số chuẩn Như vậy, thay vì dùng phép kiểm t như trong lệnh

regress chúng ta phải sử dụng “phương pháp xác minh (confirmmatory approach).

Phương pháp này sẽ chia các biến giải thích thành hai nhóm bao gồm biến khí hậu (temp, wind, precip, days) và biến sinh thái người (pop), sau đó xét xem một hoặc cả hai biến trên cùng ảnh hưởng đến biến phụ thuộc hay không Câu lệnh sẽ như sau: sw regress so2 (temp wind precip days) (pop), pe(0.05)

begin with empty model

p = 0.0119 < 0.0500 adding temp wind precip days

Source | SS df MS Number of obs = 40

-+ - F( 4, 35) = 3.77

Model | 4661.27545 4 1165.31886 Prob > F = 0.0119

Residual | 10824.6246 35 309.274987 R-squared = 0.3010

-+ - Adj R-squared = 0.2211

Total | 15485.9 39 397.074359 Root MSE = 17.586

so2 | Coef Std Err t P>|t| [95% Conf Interval]

temp | -1.689848 .7099204 -2.38 0.023 -3.131063 -.2486329

wind | -2.309449 2.13119 -1.08 0.286 -6.635996 2.017097

precip | .5241595 .4323535 1.21 0.234 -.3535647 1.401884

days | .0119373 .1942509 0.06 0.951 -.382413 .4062876

_cons | 123.5942 55.75236 2.22 0.033 10.41091 236.7775

-Diển giải kết quả:

 Option pe(0.05) có mục đích chỉ liệt kê nhóm biến nào cho kết quả p value của F-test nhỏ hơn 0.05

 Kết quả cho thấy chỉ có nhóm biến khí hậu có ý nghĩa thống kê với p=0.0119 < 0.05

 Như vậy phương trình hồi quy đa biến mong muốn chỉ có 4 biến là temp, wind, precip, và days

Kiểm tra số dư của phương trình hồi quy đã chọn

Ngày đăng: 20/03/2024, 08:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w