Phần 1: Lý thuyết cơ bản về hiện tượng đa cộng tuyến1, Khái niệm đa cộng tuyến và nguyên nhân.1.1 Khái Niệm1.2. Nguyên nhânDo phương pháp thu thập dữ liệu: Các giá trị của các biến độc lập phụ thuộc lẫn nhau trong mẫu nhưng không phụ thuộc lẫn nhau trong tổng thể.1.3 Uơc lượng khi có đa cộng tuyến1.3.1 uoc lượng khi có đa cộng tuyến hoàn hảo1.3.2 Uoc lượng trong trường hợp có đa cộng tuyến không hoàn hảo.1.4 Hậu quả của hiện tượng đa cộng tuyến1.4.1 phương sai và hiệp phương sai của các ước lượng bình quân bé rất lớn1.4.2 Khoảng tin cậy rộng hơn1.4.3 Tỉ số t mất ý nghĩa1.4.4 Các ước lượng bình phương bé nhất và các sai số tiêu chuẩn của chúng trở lên rất nhạy đối với những thay đổi nhỏ trong số liệu1.4.5 Dấu của các ước lượng của các hệ số hồi quy có thể sai.1.4.6 Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô hình sẽ thay đổi về độ lớn trong các ước lượng hoặc dấu của chúng.1.5 Phát hiện sự tồn tại của đa cộng tuyến 1.5.1 R2 cao nhưng tỉ số t thấpTrong trường hợp R cao (thường R > 0,8) mà tỉ số t thấp thì đó chính là dấu hiệu của hiện tượng đa cộng tuyến .1.5.2 Tương quan cặp giữa các biến giải thích cao1.5.3 Xem xét tương quan riêng.1.5.4 Hồi quy phụ 1.5.5 Nhân tử phóng đại phương sai1.6 Biện pháp khắc phục.1.6.1 Sử dụng thông tin tiên nghiệm.1.6.2 Thu thập số liệu hoặc lấy thêm mẫu mới 1.6.3 Bỏ biến.1.6.4 Sử dụng sai phân cấp 1 1.6.5 Giảm tương quan trong hồi quy đa thức Phần II, Bài Tập Thực HànhTrong bài tập thực hành gồm có bảng số liệu, ví dụ cụ thể và thực hành trên máy về hiện tượng đa cộng tuyến trong kinh tế lượng
Trang 1Phần 1 Lý thuyết cơ bản về hiện tượng đa cộng tuyến
1, Khái niệm đa cộng tuyến và nguyên nhân.
1.1 Khái Niệm.
Khi xây dựng MHHQ bội, trường hợp lý tưởng là các biến Xi trong mô hình không có tương quan với nhau; mỗi biến Xi chứa một thông tin riêng về Y, thông tin không chứa trong bất kì biến Xi khác Trong thực hành, khi điều này xảy ra ta không gặp hiện tượng đa cộng tuyến
Trong những trường hợp còn lại, ta gặp hiện tượng đa cộng tuyến Giả
sử ta phải ƯL hàm hồi quy Y gồm k biến giải thích X1, X2, X3,… ,Xk
Y1 = β1+ β2 X2i + β3 X3i + Ui , (i =1,n)
- Các biến X2 , X3 , , Xk gọi là các đa cộng tuyến hoàn hảo hay còn gọi
là đa cộng tuyến chính xác nếu tồn tại λ2 , , λk không đồng thời bằng không sao cho:
Trang 21.2 Nguyên nhân
Do phương pháp thu thập dữ liệu: Các giá trị của các biến độc lập phụ thuộc lẫn nhau trong mẫu nhưng không phụ thuộc lẫn nhau trong tổng thể
1.3 Uơc lượng khi có đa cộng tuyến
1.3.1 uoc lượng khi có đa cộng tuyến hoàn hảo
1.3.2 Uoc lượng trong trường hợp có đa cộng tuyến không hoàn hảo 1.4 Hậu quả của hiện tượng đa cộng tuyến
1.4.1 phương sai và hiệp phương sai của các ước lượng bình quân bé rất lớn
1.4.2 Khoảng tin cậy rộng hơn
1.4.3 Tỉ số t mất ý nghĩa
- Như đã biết, khi kiểm định giả thiết : chúng ta đã sử dụng tỷ số và đem so sánh giá trị t đã được ước lượng với giá trị tới hạn t thong khi có
Trang 3cao vì vậy làm cho chỉ số t nhỏ đi Kết quả là sẽ làm tăng khả năng chấp nhận giả thiết H0.
1.4.4 Các ước lượng bình phương bé nhất và các sai số tiêu chuẩn
của chúng trở lên rất nhạy đối với những thay đổi nhỏ trong số liệu 1.4.5 Dấu của các ước lượng của các hệ số hồi quy có thể sai.
1.4.6 Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô hình sẽ thay đổi về độ lớn trong các ước lượng hoặc dấu của chúng 1.5 Phát hiện sự tồn tại của đa cộng tuyến
1.5.2 Tương quan cặp giữa các biến giải thích cao
1.5.3 Xem xét tương quan riêng.
Vì vấn đề được đề cập đến dựa vào tương quan bậc không Farrar và Glauber đã đề nghị sử dụng hệ số tương quan riêng Trong hồi quy của
Y đối với các biến X2, X3 ,X4 Nếu ta nhận thấy răng r
2 234 , 1
cao trong khi
; r
2 23 , 14
tương đối thấp thì điều đó có thể gợi ý rằng các biến
X2, X3 và X4có tương quan cao và ít nhất một trong các biến này là thừa
Trang 4Dù tương quan riêng rất có ích nhưng nó cũng không đảm bảo rằng sẽ cung cấp cho ta hướng dẫn chính xác trong việc phát hiện ra hiện tượng
đa cộng tuyến
1.5.4 Hồi quy phụ
Một cách có thể tin cậy được để đánh giá mức độ của đa cộng tuyến là
hồi quy phụ Hồi quy phụ là hồi quy mỗi một biến giải thích Xi theo
các biến giải thích còn lại R
k R i i
Fi tuân theo phân phối F với k – 2 và n - k +1 bậc tự do Trong đó n
là , k là số biến giải thích kể cả hệ số chặn trong mô hình R
2
i
là hệ số
xác định trong hồi quy của biến Xi theo các biến X khác Nếu Fi tính
được vượt điểm tới hạn Fi(k-2, n-k+1) ở mức ý nghĩa đã cho thì có
nghĩa là Xi có liên hệ tuyến tính với các biến X khác Nếu Fi có ý nghĩa
Trang 5loại khỏi mô hình Một trở ngại của kỹ thuật hồi quy phụ là gánh nặng tính toán Nhưng ngày nay nhiều chương trình máy tính đã có thể đảm đương được công việc tính toán này.
1.5.5 Nhân tử phóng đại phương sai
Một thước đo khác của hiện tượng đa cộng tuyến là nhân tử phóng đại phương sai gắn với biến X , ký hiệu là VIF(X )
VIF(X ) được thiết lập trên cơ sở của hệ số xác định R trong hồi quy của biến X với các biến khác nhau như sau:
VIF(Xi) = 1 R
1
2 i
− (1.15)
- Nhìn vào công thức (1.15) có thể giải thích VIF(X ) bằng tỷ số chung của phương sai thực của β trong hồi quy gốc của Y đối với các biến X
và phương sai của ước lượng β trong hồi quy mà ở đó X trực giao với các biến khác Ta coi tình huống lý tưởng là tình huống mà trong đó cácbiến độc lập không tương quan với nhau, và VIF so sánh tình huông thực và tình huống lý tưởng Sự so sánh này không có ích nhiều và nó không cung cấp cho ta biết phải làm gì với tình huống đó
Trang 61.6.2 Thu thập số liệu hoặc lấy thêm mẫu mới
1.6.3 Bỏ biến.
1.6.4 Sử dụng sai phân cấp 1
1.6.5 Giảm tương quan trong hồi quy đa thức
Phần II, Bài Tập Thực Hành
Theo một cuộc điều tra của tổng cục thống kê về tổng sản phẩm trong
nước tính theo giá thực tế GDP, giá trị hàng xuất khẩu và tổng số vốn đầu tư trực tiếp nước ngoài thực hiện FDI của Việt Nam giai đoạn 1995-
2011 như sau:
• GDP_Y (tỉ đồng/ năm)
• Gía Trị Hàng Xuất Khẩu _ X (tỉ đồng/ năm)
Trang 7• FDI _ Z(tỉ đồng/năm)
1, Lập mô hình hàm hồi quy.
Ta có mô hình hàm hồi quy tuyến tính thể hiện sự phụ thuộc của chi phítiêu dùng vào thu nhập và tiền tích lũy:
Trang 8Từ bảng số liệu, sử dụng phần mềm eviews ta được kết quả sau:
Bảng 1
Từ kết quả ước lượng ta thu được hàm hồi quy mẫu sau:
Yˆi = 67826,02 +26,3046 – 26,1162
Ý nghĩa kinh tế:
Trang 9+, = 26.3046 có nghĩa: nếu vốn đầu tư trực tiếp nước ngoài vào Việt Nam không đổi, giá trị hàng xuất khẩu tăng 1 tỷ đồng thì tổng sản phẩm trong nước GDP tính theo giá thực tế tăng 26.3046 tỷ đồng.
+, = –26,1162 nghĩa: nếu giá trị hàng xuất khẩu không đổi, vốn vốn đầu tư trực tiếp nước ngoài vào Việt Nam tăng 1 tỷ USD thì tổng sản phẩm trong nước GDP tính theo giá thực tế giảm 26.1162 tỷ đồng
Nếu giữ chỉ số FDI không đổi , khi giá trị hàng xuất khẩu tăng 1 tỷ
đồng/ năm, thì GDP tăng trong khoảng 18.81 đến 33.8 tỷ đồng / năm
Trang 103 với mức ý nghĩa hãy kiểm định giả thuyết giá trị XK không ảnh hưởng tới chỉ số GDP hay không?
Với mức ý nghĩa ta cần kiểm định giả thuyết
1 GDP trung bình trong năm 2014
2 Giá trị GDP trong năm 2014
4.1 dự báo GDP trung bình trong năm 2014
Với độ tin cậy 95% cần dự báo E(Y/X 0 )
Ước lượng điểm của E(Y/X 0 ) là:
Trang 13Như vậy ta tìm được khoảng tin cậy cho GDP trung bình khi giá trị hàng xuất khẩu
là X = 110000, FDI là Z= 26500 với độ tin cậy 95% là: (2481115 ;3005771) tỉ.
4.2 dự báo GDP trong năm 2014:
Với độ tin cậy 95%, cần dự báo Y 0
Ước lượng điểm của Y 0 là:
Trang 16Như vậy ta tìm được khoảng tin cậy cho GDP khi giá trị hàng xuất khẩu là X =
110000, FDI là Z= 26500 với độ tin cậy 95% là: (2481115 ;3005771) tỉ đồng
5 Phát hiện hiện tượng đa cộng tuyến
- Hệ số xác định bội R 2 cao nhưng tỷ số T thấp:
R-squared 0.969376 Mean dependent var 938129.5
Adjusted R-squared 0.965002 S.D dependent var 747521.3
S.E of regression 139845.2 Akaike info criterion 26.69324
Sum squared resid 2.74E+11 Schwarz criterion 26.84028
Log likelihood -223.8926 Hannan-Quinn criter 26.70786
F-statistic 221.5821 Durbin-Watson stat 0.977629
Có hiện tượng đa cộng tuyến.
Vậy từ đó ta có thể kết luận có hiện tượng đa cộng tuyến.
Trang 17Bảng hệ số tương quan giữa X và Z:
Bảng 2
X 1 0.94769
Z 0.94769 1
Từ bảng 2 ta thấy hệ số tương quan giữa biến X và Z:
Có hiện tượng đa cộng tuyến.
Vậy từ đó ta có thể kết luận có hiện tượng đa cộng tuyến.
Trang 18R-squared 0.898117 Mean dependent var 38095.63
Adjusted R-squared 0.891324 S.D dependent var 31337.33
S.E of regression 10330.66 Akaike info criterion 21.43375
Sum squared resid 1.60E+09 Schwarz criterion 21.53178
Log likelihood -180.1869 Hannan-Quinn criter 21.44349
F-statistic 132.2271 Durbin-Watson stat 0.681535
Prob(F-statistic) 0.000000
Từ bảng số liệu 3, ta có p_value = 0.0000<0.05 chấp nhận H 1 , bác bỏ H 0.
Kết luận với mức ý nghĩa 5%, ta có thể kết luận có hiện tượng đa cộng tuyến.
- Sử dụng nhân tử phóng đại phương sai (VIF):
Từ bảng 3:
Nhân tử phóng đại:
Không có hiện hượng đa cộng tuyến.
Kết luận: không có hiện tượng đa cộng tuyến.
6 KHẮC PHỤC HIỆN TƯỢNG ĐA CỘNG TUYẾN
6 1.Biện pháp khắc phục:
Thêm giá trị của các biến
Thêm 8 giá trị của các biến ta được bảng số liệu sau đây:
22889
2 8155.4 2792 27203
6 11143.6 2938.2 31362
3 11592.3 3277.1
Trang 192 11742.1 2528.3 44164
6 15636.5 2398.7 48129
5 16218 2225.6 53576
2 17745.6 2884.7 61344
3 25255.8 2723.3 71530
7 31968.8 2708.4 91400
1 36761.1 3300.5 10615
65 44891.1 4100.4 12467
69 62764.7 8034.1 16160
47 80713.8 11500.2 18091
49 69948.8 10000.5 21578
28 84838.6 11000.3 27798
80 106749.9 11000.1 18752
39 84521.7 7451.9 19845
72 74258.12 9452.63 64521
3 123645 6245.32 45672
5 124563 14589 12567
8 8546.61 4759.23
Trang 2001 7 32647
8 9821.3 54231 14569
23 22654 65327
trong đó : Y: GDP
X: Giá trị hàng xuất khẩu Z: FDI
- Hệ số xác định bội R 2 cao nhưng tỷ số T thấp:
Chạy MHHQ của bảng dữ liệu mới, ta có kết quả:
Xét MHHQ biểu diễn: Y i = ß 1 + ß 2 X i + ß 3 Z i + v i
Từ bảng số liệu1, ta thấy:
Hệ số xác định bội: R 2 = 0.300500 ( <0.8), nên R 2 thấp.
t= 1.019450 (tỉ số t thấp)
Trang 21- Hệ số tương quan cặp giữa các biến giải thích cao:
Bảng hệ số tương quan giữa X và Z:
Từ bảng 2 ta thấy hệ số tương quan giữa biến X và Z:
Không có hiện tượng đa cộng tuyến.
Vậy từ đó ta có thể kết luận không có hiện tượng đa cộng tuyến.
Trang 22R-squared 0.001226 Mean dependent var 44327.98
Adjusted R-squared -0.042199 S.D dependent var 38493.88
S.E of regression 39297.69 Akaike info criterion 24.07234
Sum squared resid 3.55E+10 Schwarz criterion 24.16985
Log likelihood -298.9042 Hannan-Quinn criter 24.09938
F-statistic 0.028233 Durbin-Watson stat 0.523819
Không có hiện tượng đa cộng tuyến.
Kết luận: không có hiện tượng đa cộng tuyến.
R-squared 0.969376 Mean dependent var 938129.5
Adjusted R-squared 0.965002 S.D dependent var 747521.3
Trang 23F-statistic 221.5821 Durbin-Watson stat 0.977629 Prob(F-statistic) 0.000000
R 2 đối với hồi qui của Y đối với các biến X, Z là: 0.969376
R 2 đối với hồi qui của Y đối với X và bỏ biến Z là: 0.967771
Trang 24R 2 đối với hồi qui của Y đối với Z và loại biến X là: 0.845484
Như vậy, trong trường hợp này ta loại biến Z
X: Giá trị hàng xuất khẩu
- Hệ số xác định bội R 2 cao nhưng tỷ số T thấp:
Chạy MHHQ của bảng dữ liệu mới, ta có kết quả:
Dependent Variable: Y
Trang 25Included observations: 17
Variable Coefficient Std Error t-Statistic Prob
C 44159.47 53891.89 0.819408 0.4254
X 23.46647 1.105713 21.22294 0.0000 R-squared 0.967771 Mean dependent var 938129.5 Adjusted R-squared 0.965622 S.D dependent var 747521.3 S.E of regression 138600.3 Akaike info criterion 26.62671 Sum squared resid 2.88E+11 Schwarz criterion 26.72473 Log likelihood -224.3270 Hannan-Quinn criter 26.63645 F-statistic 450.4130 Durbin-Watson stat 1.036686 Prob(F-statistic) 0.000000
Vậy từ đó ta có thể kết luận không có hiện tượng đa cộng tuyến.