Sau khi tìm hiểu bản chất và các hệ quả của đa cộng tuyến, câu hỏi thường đặt ra là: bằng cách nào chúng ta biết được đa cộng tuyến tồn tại trong một tình huống cho trước, đặc biệt là trong những mô hình liên quan đến nhiều hơn hai biến giải thích? Các cách phát hiện đa cộng tuyến và các biện pháp khắc phục hiện tượng này. Ví dụ minh họa
Trang 1MỤC LỤC
I Lý thuyết
1 Các cách phát hiện hiện tượng đa cộng tuyến
1.1 R2 cao nhưng chỉ số t thấp
1.2 Tương quan cặp giữa các biến giải thích cao
1.3 Hồi quy phụ
1.4 Nhân tử phóng đại phương sai
1.5 Độ đo Theil
2 Các biện pháp khắc phục hiện tượng đa cộng tuyến
2.1 Sử dụng thông tin tiên nghiệm
2.2 Thu thập số liệu hoặc lấy thêm mẫu mới
2.3 Bỏ biến
2.4 Sử dụng sai phân cấp 1
II Ví dụ minh họa
Trang 2I Lý thuyết.
1 Các cách phát hiện hiện tượng đa cộng tuyến.
Sau khi tìm hiểu bản chất và các hệ quả của đa cộng tuyến, câu hỏi thường đặt ra là: bằng cách nào chúng ta biết được cộng tuyến tồn tại trong một tình huống cho trước, đặc biệt là trong những mô hình liên quan đến nhiều hơn hai biến giải thích?
Bởi vì đa cộng tuyến là một hiện tượng mẫu rất quan trọng xuất hiện ngoài tập số liệu phi thực nghiệm lớn được thu thập trong hầu hết các ngành khoa học xã hội, chúng ta không có một phương pháp duy nhất nào để phát hiện nó hoặc đo lường độ mạnh của nó Những gì chúng ta có là một vài qui tắc kinh nghiệm, một số thông thường và một số ngoại lệ, nhưng các qui tắc kinh nghiệm thì đều giống nhau Bây giờ chúng ta xem xét một vài trường hợp của các qui tắc kinh nghiệm này
1.1 cao nhưng tỉ số t thấp.
Nếu R2 cao (>0.8), ftn cao => Miền bác bỏ Wα
=> Bác bỏ giả thuyết H0: β2 =β3 =…=βk= 0
Nhưng t nhỏ, ttn thấp => Miền bác bỏ Wα => Chấp nhận giả thuyết H0: βj=0
=> Mâu thuẫn
=> Dấu hiệu của đa cộng tuyến
1.2 Tương quan cặp giữa các biến giải thích cao.
Nếu hệ số tương quan cặp giữa các biến giải thích cao (vượt 0,8) thì có khả năng có tồn tại đa cộng tuyến tuy nhiên tiêu chuẩn này thường không chính xác Có những trường hợp tương quan cặp không cao nhưng vẫn có đa cộng tuyến Ta xét 3 biến giải thích , , như sau:
= ( 1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) = ( 0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0) = ( 1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0)
Ta thấy = + nghĩa là ta có đa cộng tuyến hoàn hảo, tuy nhiên tương quan cặp là : = - 1/3 ; = = 0,59
Như vậy đa cộng tuyến xảy ra mà không có sự báo trước của tương quan cặp
1.3 Hồi quy phụ
Hồi qui một biến giải thích X nào đó theo các biến còn lại
Trang 3Tính R2 tương ứng, ta đặt nó là Ri2
Mối liên hệ giữa
F F( k−2 ; n−�+1)
Trong đó: n đại diện cho cỡ mẫu; k đại diện cho số biến giải thích; là hệ số xác định trong hồi quy của biến �� theo các biến � khác
Lập giả thiết: H0: R2=0
Nếu F> Fα( k−2 ; n−�+1): Bác bỏ H0 => Có đa cộng tuyến
Nếu F< Fα( k−2 ; n−�+1): Chấp nhận H0 => không có đa cộng tuyến
1.4 Nhân tử phóng đại phương sai
Một thước đo khác của hiện tượng đa cộng tuyến là nhân tử phóng đại phương sai gắn với, biến kí hiệu là VIF()
Đối với hàm hồi quy 2 biến giải thích, VIF được định nghĩa như sau: VIF=
Đối với trường hợp tổng quát, có (k-1) biến giải thích:
VIF()=
Ri2: là giá trị R2 trong hàm hồi quy của Xi theo (k-1) biến giải thích còn lại
Ta thấy rằng khi Ri2 tăng làm VIF tăng và làm tăng mức độ đa cộng tuyến
Thông thường khi VIF > 10 thì biến này đuơcj coi là có đa cộng tuyến
1.5 Độ đo Theil
Ý tưởng của phương pháp này là khi không có đa cộng tuyến thì đóng góp của các
cá thể là đóng góp chung, còn khi có đa cộng tuyến thì đóng góp của cá thể nhỏ hơn nhiều đóng góp chung Thực hiện như sau:
Ước lượng k-1 hồi quy, bỏ Xj ra khỏi mô hình
Khi đó, hàm hồi quy là:
Trang 4Yi = β1 + + ui (i j)’
Sau khi hồi quy người ta tìm được R2
(-j), đó là độ phù hợp của hàm hồi quy (không có
Xj), sau đó tính R2 - R2
(-j) là phần đóng góp của Xj cho Y
Tính: m = R2
Người ta quan niệm
2 Các biện pháp khắc phục hiện tượng đa cộng tuyến.
Có thể làm gì nếu vấn đề đa cộng tuyến trở nên nghiêm trọng? Như trong trường hợp phát hiện đa cộng tuyến, không còn lời hướng dẫn nào đáng tin cậy nữa vì đa cộng tuyến đặc biệt là một vấn đề về mẫu Tuy nhiên, chúng ta có thể cố gắng
tuân theo các qui tắc kinh nghiệm, việc thành công còn phụ thuộc vào mức độ
nghiêm trọng của vấn đề cộng tuyến
2.1 Sử dụng thông tin tiên nghiệm
Một trong các cách tiếp cận để giải quyết vấn đề đa cộng tuyến là phải tận dụng thông tin tiên nghiệm hoặc thông tin từ nguồn khác để ước lượng các hệ số riêng Thí dụ: Khi hồi quy hàm sản xuất Cobb-Douglas
Yi =β1
Yi: sản lượng
Ki: lượng vốn
Li: lượng lao động sử dụng
Ui: sai số ngẫu nhiên
=> Ln(Yi) = β1 + β2ln(Ki) + β3ln(Li) + ui (2.1)
Chúng ta có thể gặp hiện tượng đa cộng tuyến do K và L cùng tăng theo quy mô sản xuất Vì hiệu suất không đổi theo quy mô nên ta có thêm thông tin β2+β3=1
Với thông tin tiên ngiệm này chuyển mô hình hồi quy (2.1) thành
Ln(Yi) = β1 + β2ln(Ki) + (1-β2)ln(Li) + ui
Từ đó ta được: Ln(Yi) - ln(Li) = β1 + β2(ln(Ki) - ln(Li)) + ui
Đặt: Ln(Yi) - ln(Li) = Yi* ; ln(Ki) - ln(Li) = Xi* ta có:
Yi* = β1 + β2 Xi* + ui (2.2)
=> Mất đa cộng tuyến (vì (2.2) là mô hình hồi quy đơn)
2.2 Thu thập thêm số liệu hoặc lấy thêm mẫu mới
Trang 5Vì vấn đề đa cộng tuyến là một đặc tính của mẫu, có thể là trong một mẫu khác các biến cộng tuyến có lẽ sẽ không nghiêm trọng như trong mẫu đầu tiên Điều này chỉ có thể làm được khi chi phí cho việc lấy mẫu khác có thể chấp nhận được trong thực tế
Đôi khi cần thu thập thêm số liệu , tăng cỡ mẫu có thể làm giảm tính nghiêm trọng của đa cộng tuyến
2.3 Bỏ biến
Đây là cách làm đơn giản nhất
Giả sử mô hình hồi quy: Y = β1 + β2X2 + β3X3 + … + βkXk
Y là biến được giải thích ; X2 , X3,… , Xk là các biến giải thích
Chúng ta thấy rằng X2 tương quan chặt chẽ với X3 Khi đó nhiều thông tin về Y chứa
ở X2 thì cũng chứa ở X3
Vậy nếu ta bỏ một trong 2 biến X2 hoặc X3 khỏi mô hình hồi quy, ta sẽ giải quyết được vấn đề đa cộng tuyến nhưng sẽ mất đi một số thông tin về Y
Bằng phép so sánh R2 và Ŕ2 trong các phép hồi quy khác nhau mà có và không có một trong hai biến chúng ta có thể quyết định nên bỏ biến nào trong hai biến X2 và X3 khỏi mô hình
Thí dụ: R2 đối với hồi quy của Y đối với tất cả các biến X1, X2, …… Xk là 0,94 ;
R2 khi loại biến X2 là 0,87 và R2 khi loại X3 là 0,92 : như vậy trong trường hợp này ta loại X3
2.4 Sử dụng sai phân cấp 1.
Thí dụ chúng ta hồi quy trên dữ liệu chuỗi thời gian:
Yt = β1 + β2 X2t + β3X3t + Ut (2.4) Trong đó t là thời gian
Giả sử chúng ta gặp phải hiện tượng đa cộng tuyến do X2t và X3t có thể cùng tăng hoặc giảm theo từng năm
Phương trình trên đúng với t thì cũng đúng với t-1 nghĩa là:
Yt-1 = β2 + β2 X2t-1 + β3 X3t-1 + Ut-1 (2.5) Lấy (2.5) trừ (2.4) ta có:
Yt – Yt-1 = β2 (X2t - X2t-1) + β3 (X3t - X3t-1) + Ut - Ut-1 Đặt yt = Yt – Yt-1
x2t = X2t – X2t-1
Trang 6x3t = X3t – X3t-1
Vt = Ut – Ut-1
Ta được: yt = β2 x2t + β3 x3t + Vt
(2.6)
Mô hình hồi quy dạng (2.6) thường làm giảm tính nghiêm trọng của đa cộng tuyến vì X2
và X3 có thể tương quan cao nhưng không có lý
do chính đáng nào
để chắc chắn rằng sai phân của chúng tương quan cao Tuy nhiên biến đổi sai phân bậc thấp sinh ra một số vấn đề chẳng hạn như số hạng sai số Vt trong (2.6) có thể không tuân theo giả thuyết của mô hình tuyến tính cổ điển đó là, các nhiễu không tương quan theo chuỗi thời gian Vì vậy biện pháp sửa chữa này có thể lại còn tồi tệ hơn
II Ví dụ minh họa.
Bảng số liệu thu thập mức độ tiêu thụ hàng hóa của các khu vực địa phương năm 2011(theo số liệu của Tổng cục Thống kê)
Thứ
tự
Trang 7Trong đó:
Yi:Lượng thực phẩm tiêu thụ của địa phương (tấn/năm)
Xi :Dân số trung bình địa phương (nghìn người)
Zi :mật độ dân số (người/km2)
Mô hình hồi quy tuyến tính thẻ hiện sự phụ thuộc của lượng hàng hóa tiêu vào dân số trung bình địa phương và mật độ dân số Với mức ý nghĩa 5% phát hiện hiện tượng
đa cộng tuyến và khắc phục
Lập mô hình hàm hồi quy
Ta có mô hình hồi quy tuyến tính thể hiện sự phụ thuộc của lượng hàng hóa tiêu thụ vào dân sô trung bình của địa phương và mật độ dân số:
Yi=+Ui
Mô hình ước lượng của hàm hồi quy tuyến tính
Trang 8
=
i
Yˆ β ˆ1+β ˆ2Xi+β ˆ3Zi
Từ bảng số liệu sử dụng phần mềm eviews ta có kết quả sau:
Bảng 1
Từ bảng ước lượng ta thu được hàm hồi quy mẫu sau : Y ˆi
= -28420.34 + 49.15586Xi - 16.94682Zi
Phát hiện sự tồn tại của hiện tượng đa cộng tuyến
1.R 2 cao nhưng tỉ số t thấp
R2= 0.935697 >0.8 ; = =2.110
t1= -4.955234< 2.110
t2= 12.00754 >2.110
t3= -1,764759<2.110
Ta thấy hệ số xác định bội R2 rất gần 1,điều này chứng tỏ mô hình phù hợp Trong khi đó,thống kê t1; t3 lại có giá trị thấp, Vậy có thể nghi ngờ có hiện tượng đa cộng tuyến trong mô hình
Trang 92.Hồi quy phụ
*, Ta tiến hành hồi quy X theo Z
Sử dụng phần mềm eviews ta có bảng sau:
Bảng 2
Với Kiểm định giả thuyết H0:=0
H1:
Xây dựng tiêu chuẩn kiểm định:
F=
Khi H0 đúng FF(k-2;n-k+1)
Với p-value=0.000278 < =0.05 bác bỏ H0,chấp nhận H1
Vậy với mức ý nghĩa 5% thì X có mối liên hệ tuyến tính với Z
Kết luận:mô hình có xảy ra hiện trượng đa cộng tuyến
3.Độ đo Theil
*, Xét mô hình hồi quy Y theo X ta được kết quả sau :
Bảng 3
Trang 10*, Xét mô hình hồi quy Y theo Z ta được kết quả sau :
Bảng 4
Trang 11Từ 2 bảng hồi quy trên ta được kết quả :
= 0.923916
=0.390324
Độ đo Theil :
m=R2 –(R2-)-(R2
=0.935697 –(0.935697-0.923916) –(0.935697-0.390324)
=0.378543
Vậy độ đo Theil về mức độ đa cộng tuyến là 0.378543
Biện pháp khắc phục đa cộng tuyến
1.Thu thêm số liệu tăng kích thước mẫu
Ta tiến hành điều tra thêm về lượng tiêu thụ hàng hóa của địa phương thu được kết quả sau
Trang 12Từ bảng số liệu sử dụng phần mềm eviews ta có kết quả sau:
Bảng 5
Thứ
tự
Trang 13Từ bảng 5 ta có mô hình hàm hồi quy mới:
Y ˆi
= -20966.76+3655888Xi -0.784228Zi
R2=0.691670 ; ; = =2.052
t1= -2.540503 < 2.052
t2= 5.853974 >2.052
t3= -0.054654 <2.052
Mô hình sau khi tăng kích thước mẫu có R2<0.8 ,các tỉ số t cũng nhỏ nên mô hình ước lượng là phù hợp
2.Loại bỏ biến đa cộng tuyến ra khỏi mô hình
Khi bỏ biến Z ra khỏi mô hình hồi quy :
Trang 14*) Khi bỏ biến Z ta có mô hình hồi quy:
Y = -32329,22 + 43,90039X
r122 = 0,923916 Khi bỏ biến X ra khỏi mô hình hồi quy:
Ta có : Y= -16361,42 + 66,93391 Z
= 0,390324
Ta thấy r132 < r122 nên mô hình khi bỏ biến Z có sự phù hợp cao hơn
mô hình khi bỏ biến X Vậy bỏ biến Z ra khỏi mô hình là hợp lý
hơn.Khắc phục được hiện tượng đa cộng tuyến.