I, Bản chất của đa cộng tuyến – đa cộng tuyến hoàn hảo và không hoàn hảo. Nguyên nhân.II, Ước lượng khi có đa cộng tuyến1.Ước lượng trong trường hợp có đa cộng tuyến hoàn hảo.2.Ước lượng trong trường hợp có đa cộng tuyến không hoàn hảo.III, Hậu quả của đa cộng tuyến1.Phương sai và hiệp phương sai của các ước lượng bình quân bé nhất lớn.2.Khoảng tin cậy rộng hơn.3.Tỷ số t mất ý nghĩa.4.R2 cao nhưng tỉ số t ít ý nghĩa.5.Các ước lượng bình phương bé nhất và các sai số tiêu chuẩn của chúng trở nên rất nhạy đối với những thay đổi nhỏ trong số liệu.6.Dấu của các ước lượng của hệ số hồi quy có thể sai7.Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô hình sẽ thay đổi về độ lớn của các ước lượng hoặc dấu của chúng.IV, Phát hiện ra sự tồn tại của đa cộng tuyến.1.R2 cao nhưng tỉ số t thấp.2.Tương quan cặp giữa các biến giải thích cao.3.Xem xét tương quan riêng.4.Hồi quy phụ.5.Nhân tử phóng đại phương sai.6.Độ đo Theil.V, Biện pháp khắc phục.1.Sử dụng thông tin tiên nghiệm..2.Thu thập thêm số liệu hoặc lấy thêm mẫu mới.3.Bỏ biến.4.Sử dụng sai phân cấp một.5.Giảm tương quan trong hồi quy đa thức.6.Một số biện pháp khác.VI, Bài tập ví dụ.
Trang 1Hànội - 2013
TRƯỜNG ĐẠI HỌC THƯƠNG MẠI
KHOA MARKETING - -
BÀI THẢO LUẬN MÔN: KINH TẾ LƯỢNG
ĐỀ TÀI:
HIỆN TƯỢNG ĐA CỘNG TUYẾN
Giáo viên hướng dẫn:
Nhóm sinh viên thực hiện: Nhóm 7
Lớp học phần: 1312AMAT0411
Trang 2Mục lục
LỜI MỞ ĐẦU
I, Bản chất của đa cộng tuyến – đa cộng tuyến hoàn hảo và không hoàn hảo Nguyên nhân.
II, Ước lượng khi có đa cộng tuyến
1. Ước lượng trong trường hợp có đa cộng tuyến hoàn hảo
2. Ước lượng trong trường hợp có đa cộng tuyến không hoàn hảo
III, Hậu quả của đa cộng tuyến
1. Phương sai và hiệp phương sai của các ước lượng bình quân bé nhấtlớn
2. Khoảng tin cậy rộng hơn
3. Tỷ số t mất ý nghĩa
4. R2 cao nhưng tỉ số t ít ý nghĩa
5. Các ước lượng bình phương bé nhất và các sai số tiêu chuẩn củachúng trở nên rất nhạy đối với những thay đổi nhỏ trong số liệu
6. Dấu của các ước lượng của hệ số hồi quy có thể sai
7. Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô hình
sẽ thay đổi về độ lớn của các ước lượng hoặc dấu của chúng
IV, Phát hiện ra sự tồn tại của đa cộng tuyến.
1. R2 cao nhưng tỉ số t thấp
2. Tương quan cặp giữa các biến giải thích cao
3. Xem xét tương quan riêng
4. Hồi quy phụ
5. Nhân tử phóng đại phương sai
6. Độ đo Theil
V, Biện pháp khắc phục.
1. Sử dụng thông tin tiên nghiệm
2. Thu thập thêm số liệu hoặc lấy thêm mẫu mới
Trang 3Cộng hòa xã hội chủ nghĩa Việt NamĐộc lập - Tự do - Hạnh phúc
***
BIÊN BẢN HỌP NHÓM
Nhóm 7 - lớp 1312AMAT0411
Ngày: 30/03/2013
Địa điểm: sân thư viên Đại Học Thương Mại
Nội dung: Tổng hợp nội dung phân công, thảo luận nói rõ về đề tài
1 Nguyễn Thị Nga Nhóm trưởng Tìm số liệu, tổng
hợp bài
3 Nguyễn Thị Ngân Thành viên Bài ví dụ
4 Vũ Thị Ngân Thành viên Bài ví dụ
5 Hoàng Trung Nghĩa Thành viên Làm slide
6 Đào Thị Ngoan Thành viên Tính cấp thiết của
Trang 4LỜI MỞ ĐẦU
Trong mô hình phân tích hồi quy bội, chúng ta giả thiết giữa các biến giải thích
Xi của mô hình độc lập tuyến tính với nhau, tức là các hệ số hồi quy đối với mộtbiến cụ thể là số đo tác động riêng phần của biến tương ứng khi tất cả các biếnkhác nhau trong mô hình được giữ cố định Tuy nhiên khi giả thiết đó bị vi phạmtức là các biến giải thích có tương quan thì chúng ta không thể tách biệt sự ảnhhưởng riêng biệt của 1 biến nào đó
Hiện tượng trên được gọi là đa cộng tuyến Vậy để hiểu đa cộng tuyến là gì? Hậuquả của hiện tượng này như thế nào? Làm thế nào để phát hiện và biện pháp khắcphục nó Để trả lời câu hỏi trên, sau đây chúng ta cùng đi thảo luận về đề tài “Hiệntượng đa cộng tuyến”
Trang 5I, Bản chất của đa cộng tuyến – đa cộng tuyến hoàn hảo và không hoàn hảo Nguyên nhân.
1. Bản chất của đa cộng tuyến – đa cộng tuyến hoàn hảo và không hoàn hảo
Khi xây dựng mô hình hồi quy bội, trường hợp lý tưởng là các biến Xi trong môhình không có tương quan với nhau; mỗi biến Xi chứa một thông tin riêng về Y,thông tin không chứa trong bất kì biến Xi khác Trong thực hành, khi điều này xảy
ra ta không gặp hiện tượng đa cộng tuyến
Trong những trường hợp còn lại, ta gặp hiện tượng đa cộng tuyến Giả sử ta phảiước lượng hàm hồi quy Y gồm k biến giải thích X1, X2, X3,… ,Xk
Y1 = β1+ β2 X2i + β3 X3i + Ui ,
),1(i = n
Các biến X2 , X3 , , Xk gọi là các đa cộng tuyến hoàn hảo hay còn gọi là đa cộngtuyến chính xác Điều này xảy ra nếu tồn tại λ2 , , λk là các hằng số không đồngthời bằng không sao cho:
λ2 X2 + λ3 X3 + + λk Xk = 0Các biến X2 , X3 , , Xk gọi là các đa cộng tuyến không hoàn hảo nếu tồn tạiλ2 , , λk không đồng thời bằng không sao cho:
λ2 X2 + λ3 X3 + + λk Xk + Vi = 0 (1.1)trong đó Vi là sai số ngẫu nhiên
Trang 72. Nguyên nhân.
Do phương pháp thu thập dữ liệu: Các giá trị của các biến độc lập phụ thuộclẫn nhau trong mẫu nhưng không phụ thuộc lẫn nhau trong tổng thể
Do mẫu lấy không ngẫu nhiên
Do quá trình xử lý tính toán số liệu
Do bản chất kinh tế xã hội các biến ít nhiều có quan hệ tuyến tính với nhau
Một số nguyên nhân khác
Ví dụ: Nữ sẽ có khuynh hướng chi tiêu nhiều hơn Nam cho việc mua sắm quần
áo Điều này có thể đúng với mẫu mà không đúng với tổng thể Trong tổng thể sẽ
có các quan sát về các cá nhân là Nam nhưng chi tiêu cho việc mua sắm quần áolại nhiều hơn nữ
• Các dạng mô hình dễ xảy ra đa cộng tuyến:
- Hồi quy dạng các biến độc lập được bình phương sẽ xảy ra đa cộng tuyến, đặcbiệt khi phạm vi giá trị ban đầu của biến độc lập là nhỏ
- Các biến độc lập vĩ mô được quan sát theo chuỗi thời gian
II Ước lượng khi có đa cộng tuyến
1 Ước lượng trong trường hợp có đa cộng tuyến hoàn hảo
Sau đây chúng ta sẽ chỉ ra rằng khi có đa cộng tuyến hoàn hảo thì các hệ số hồiquy là không xác định còn các sai số tiêu chuẩn là vô hạn Để đơn giản về mặttrình bày chúng ta sẽ xét mô hình hồi quy 3 biến và sử dụng dạng độ lệch trong đó
Y Y
y i = i −
;
X X
Y n
X n
X
1
1
(1.4)thì mô hình hồi quy 3 biến có thể viết lại dưới dạng:
i i i i
y = β∧2 2 + β∧3 3 +
(1.5) Theo tính toán trong chương hồi quy bội ta thu được các ước lượng:
Trang 8( ) ( ) ( ) ( )( ) ( 2 )2
2
2 2
2 2
2 2
2 2 2
i
i i i
i i
x x
x
x y x
x y
2 2
2 3
3 2 2
2 2 3
i
i i i
i i
i i
x x x
x
x x x
y x
x y
2
2 2
2 2 2
2 2 2
i
i i
i i
i i
x x
x
x x
y x
x y
λλ
λλ
λβ
Vì sao chúng ta lại thu được kết quả như ở (1.8)? Lưu ý đến ý nghĩa của
X
X3 =λ 2
thay điều kiện này vào (1.5) ta được:
i i i
i i
i i
y =β∧2 2 +β∧3(λ 2 )+ =(β∧2+λβ∧3 2 + =α∧ 2 +
Trang 9Trong đó:
)( ∧2 ∧3
∧
+
= β λβα
Áp dụng công thức tính ước lượng của phương pháp bình phương nhỏ nhất thôngthường ta được:
∑
∑
=+
= ∧ ∧
∧
i
i i
x
y x
2
2 3
từ một phương trình 2 ẩn
Như vậy trong trường hợp đa cộng tuyến hoàn hảo, chúng ta không thể nhậnđược lời giải duy nhất cho các hệ số hồi quy riêng, nhưng trong khi đó ta lại có thểnhận được lời giải duy nhất cho tổ hợp tuyến tính của các hệ số này Chú ý rằngtrong trường hợp đa cộng tuyến hoàn hảo thì phương sai và các sai số tiêu chuẩn
của các ước lượng
2 Ước lượng trong trường hợp có đa cộng tuyến không hoàn hảo
Đa cộng tuyến hoàn hảo chỉ là 1 trường hợp đặc biệt hiếm xảy ra Trong các sốliệu liên quan đến chuỗi thời gian, thường xảy ra đa cộng tuyến không hoàn hảo.Xét mô hình (1.5) Bây giờ chúng ta giả thiết giữa 2
Trong trường hợp này theo phương pháp bình phương nhỏ nhất ta dễ dàng thu
được các ước lượng
Trang 10( ) ( ) ( ) ( )
2
2 2
2 2 2 2
2 i
2 2
2 2
2 2 2
+
− +
=
i i
i i
i i
i i i
i i
i
x V
x x
x y
x y V
x x
y
λ λ
λ λ
λ β
(1.9)Trong trường hợp này không có lý do gì để nói rằng (1.9) là không ước lượngđược
III Hậu quả của đa cộng tuyến
Trong trường hợp có tồn tại đa cộng tuyến gần hoàn hảo thì có thể gặp một sốtình huống sau:
1. Phương sai và hiệp phương sai của các ước lượng bình quân bé nhất lớn
Xét mô hình hồi quy 3 biến dạng (1.5), theo công thức tính phương sai và hiệpphương sai của các ước lượng và ta có:
var() = (1.10)
var() = (1.11)
và cov() = (1.12)
trong đó là hệ số tương quan giữa ,
từ (1.10) và (1.11) ta thấy khi tăng dần đến 1 (nghĩa là cộng tuyến tăng) thìphương sai của 2 ước lượng này tăng dần đến vô hạn (1.12) chỉ ra rằng khi tăngdần đến 1 thì cov(, ) tăng về giá trị tuyệt đối
2. Khoảng tin cậy rộng hơn
Như ta đã biết trong chương trước khoảng tin cậy 95% cho và khi đã biếtlà:
± 1.96se() và ± 1.96se()Trong đó:
Trang 11Do đó, trong trường hợp có đa cộng tuyến gần hoàn hảo thì số liệu của mẫu cóthể thích hợp với tập các giả thiết khác nhau Vì thế xác suất chấp nhận giả thiết saităng lên (tức là tăng sai lầm loại II).
3. Tỷ số t mất ý nghĩa
Như đã biết, khi kiểm định giả thiết : = 0, chúng ta đã sử dung tỷ số
t = và đem so sánh giá trị t đã được ước lượng với giá trị tới hạn t Nhưng khi có
đa cộng tuyến gần hoàn hảo thì sai số tiêu chuẩn ước lượng được sẽ rất cao vì vậylàm cho tỷ số t nhỏ đi về giá trị tuyệt đối Kết quả là sẽ làm tăng khả năng chấpnhận giả thiết
4. cao nhưng tỷ số t ít ý nghĩa
Để giải thích điều này, ta xét mô hình hồi quy k biến như sau:
Trong trường hợp có đa cộng tuyến gần hoàn hảo, như đã chỉ ra ở trên, ta có thểtìm được một hoặc một số hệ số góc riêng là không có ý nghĩa về mặt thống kê trên
cơ sở kiểm định t Nhưng trong khi đó lại có thể rất cao, nên bằng kiểm định F,chúng ta có thể bác bỏ giả thiết: : = = …… = = 0 Mâu thuẫn này cũng là tín hiệucủa đa cộng tuyến
5. Các ước lượng bình phương bé nhất và các sai số tiêu chuẩn của chúng trở nên rất
nhạy đối với những thay đổi nhỏ trong số liệu
6. Dấu của các ước lượng của hệ số hồi quy có thể sai
Khi có đa cộng tuyến gần hoàn hảo thì có thể thu được các ước lượng của các hệ
số hồi quy trái với điều chúng ta mong đợi Chẳng hạn lý thuyết kinh tế cho rằngđối với hàng hóa bình thường khi thu nhập tăng, cầu hàng hóa tang, nghĩa là khihồi quy thu nhập là một trong các biến giải thích, biến phụ thuộc là lượng cầu củahàng hóa, nếu xảy ra hiện tượng đa cộng tuyến gần hoàn hảo thì ước lượng của hệ
số của biến thu nhập có thể mang dấu âm – mâu thuẫn với điều ta mong đợi
7. Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô hình sẽ thay đổi về
độ lớn của các ước lượng hoặc dấu của chúng
Tóm lại triệu chứng chủ yếu của đa cộng tuyến mà ta đã nói ở trên là tăng sai sốtiêu chuẩn Sai số tiêu chuẩn cao hơn có ngụ ý rằng sự biến thiên của hệ số hồi quy
từ mẫu này đến mẫu khác cao hơn do đó một sự thay đổi nhỏ trong số liệu hoặctrong mô hình hồi quy (như thêm vào hoặc bớt đi một biến) sẽ gây ra sự thay đổilớn của các hệ số
Như vậy chúng ta đã biết được một số hậu quả của đa cộng tuyến Nhưng dù hậuquả thế nào đi chăng nữa thì điều quan trọng là làm thế nào để thấy được sự tồn tại
Trang 12của nó để ta có thể ngăn ngừa những hậu quả tai hại đối với thủ tục ước lượng và
sử dụng mô hình hồi quy để dự đoán, điều khiển hoặc hiểu quá trình liên quan vớinó
II. Các cách phát hiện hiện tượng đa cộng tuyến
1. R2 cao nhưng tỉ số t thấp
Trong trường hợp R
2cao (thường R
2
> 0,8) mà tỉ số t thấp thì đó chính là dấu hiệucủa hiện tượng đa cộng tuyến
2. Tương quan cặp giữa các biến giải thích cao
Nếu hệ số tương quan cặp giữa các biến giải thích cao (vượt 0,8) thì có khả năng
có tồn tại đa cộng tuyến Tuy nhiên tiêu chuẩn này thường không chính xác Cónhững trường hợp tương quan cặp không cao nhưng vẫn có đa cộng tuyến Thí dụ,
ta có 3 biến giải thích X1, X2, X3 như sau
3. Xem xét tương quan riêng
Vì vấn đề được đề cập đến dựa vào tương quan bậc không Farrar và Glauber đã
đề nghị sử dụng hệ số tương quan riêng Trong hồi quy của Y đối với các biến X2,
X3 ,X4 Nếu ta nhận thấy rằng r
2 234 , 1 cao trong khi đó r
2 34 , 12
; r
2 24 , 13
; r
2 23 , 14 tương đốithấp thì điều đó có thể gợi ý rằng các biến X2, X3 và X4có tương quan cao và ítnhất một trong các biến này là thừa
Trang 13Dù tương quan riêng rất có ích nhưng nó cũng không đảm bảo rằng sẽ cung cấpcho ta hướng dẫn chính xác trong việc phát hiện ra hiện tượng đa cộng tuyến.
4. Hồi quy phụ
Một cách có thể tin cậy được để đánh giá mức độ của đa cộng tuyến là hồi quyphụ Hồi quy phụ là hồi quy mỗi một biến giải thích Xi theo các biến giải thíchcòn lại R
) 1 (
) 2 /(
k R i i
Fi tuân theo phân phối F với k – 2 và n - k +1 bậc tự do Trong đó n là cơ sởmẫu, k là số biến giải thích kể cả hệ số chặn trong mô hình R
2
i
là hệ số xác địnhtrong hồi quy của biến Xi theo các biến X khác Nếu Fi tính được vượt điểm tớihạn Fi(k-2,n-k+1) ở mức ý nghĩa đã cho thì có nghĩa là Xi có liên hệ tuyến tínhvới các biến X khác Nếu Fi có ý nghĩa về mặt thống kê chúng ta vẫn phải quyến
định liệu biến Xi nào sẽ bị loại khỏi mô hình Một trở ngại của kỹ thuật hồi quyphụ là gánh nặng tính toán Nhưng ngày nay nhiều chương trình máy tính đã cóthể đảm đương được công việc tính toán này
5. Nhân tử phóng đại phương sai
Một thước đo khác của hiện tượng đa cộng tuyến là nhân tử phóng đại phươngsai gắn với biến Xi, ký hiệu là VIF(Xi)
VIF(Xi) được thiết lập trên cơ sở của hệ số xác định R
1
2 i
−
(1.15)
Trang 14Nếu VIF ≥ 10 thì có hiện tượng đa cộng tuyến xảy ra giữa 2 biến độc lập trong môhình.
Nhìn vào công thức (1.15) có thể giải thích VIF(Xi) bằng tỷ số chung của phươngsai thực của β1 trong hồi quy gốc của Y đối với các biến X và phương sai của ước
lượng β1 trong hồi quy mà ở đó Xitrực giao với các biến khác Ta coi tình huống
lý tưởng là tình huống mà trong đó các biến độc lập không tương quan với nhau,
và VIF so sánh tình huống thực và tình huống lý tưởng Sự so sánh này không cóích nhiều và nó không cung cấp cho ta biết phải làm gì với tình huống đó Nó chỉcho biết rằng các tình huống là không lý tưởng
Đồ thị của mối liên hệ của R
2
i
và VIF là
Trang 156. Độ đo Theil
Khía cạnh chủ yếu của VIF chỉ xem xét đến tương quan qua lại giữa các biến giảithích Một độ đo mà xem xét tương quan của biến giải thích với biến được giảithích là độ đo Theil Độ đo Theil được định nghĩa như sau:
2
là hệ số xác định bội trong hồi quy của Y đối với các biến X2 , X3…
Xk trong mô hình hồi quy:
i
Trang 162– r
2 13)
Tỷ số t liên hệ với tương quan riêng r
2 3 , 12, r
2 2 , 13
Trong phần hồi quy bội ta đã biết:
R
2
= r
2 12 + (1- r
2 12) r
2 2 , 13
R
2 = r
2 13 + (1- r
2 13) r
2 3 , 12
Thay 2 công thức này vào biểu thức xác định m ta được:
m = R
2
- [r
2 12 + (1- r
2 12) r
2 2 , 13
- r
2 12] – [r
2 13 + (1- r
2 13) r
2 3 , 12
- r
2 13]
= R
2
- [(1- r
2 12) r
2 2 , 13 + (1- r
2 13) r
2 3 , 12
Đặt 1- r
2 12 = w2; 1- r
2 13 = w3và gọi là các trọng số Công thức (1.16) được viếtlại dưới dạng
m = R
2
- (w2r
2 2 , 13 + w3r
2 3 , 12)Như vây độ đo Theil bằng hiệu giữa hệ số xác định bội và tổng có trọng số củacác hệ số tương quan riêng
Như vậy chúng ta đã biết một số độ đo đa cộng tuyến nhưng tất cả đều có ý nghĩa
sử dụng hạn chế Chúng chỉ cho ta những thông báo rằng sự việc không phải là lýtưởng
Còn một số độ đo nữa nhưng liên quan đến giá trị riêng hoặc thống kê Bayeschúng ta không trình bày ở đây
1. Sử dụng thông tin tiên nghiệm
Một trong các cách tiếp cận để giải quyết vấn đề đa cộng tuyến là phải tận dụngthông tin tiên nghiệm hoặc thông tin từ nguồn khác để ước lượng các hệ số riêng
Trang 17Thí dụ : ta muốn ước lượng hàm sản xuất của 1 quá trình sản xuất nào đó có dạng :
Qt =ALα tK β te Ut (1.17)Trong đó Qt là lượng sản phẩm được sản xuất thời kỳ t; Lt lao động thời kỳ; Kt vốnthời kỳ t ; Ut là nhiễu ; A, α, β là các tham số mà chúng ta cần ước lượng Lấy ln cả
2 vế (1.17) ta được :
LnQt = LnA + αlnL=t + βK UtĐặt LnQt = Q*t ; LnA = A* ; LnLt = L*t
Sau khi thu được ước lượng của α thì tính được từ điều kiện
2. Thu thập số liệu hoặc lấy thêm mẫu mới
Vì đa cộng tuyến là đặc trưng của mẫu nên có thể có mẫu khác liên quan đến
cùng các biến trong mẫu ban đầu mà đa cộng tuyến có thể không nghiêm trọngnữa Điều này có thể làm được khi chi phí cho việc lấy mẫu khác có thể chấp nhậnđược trong thực tế
Đôi khi chỉ cần thu thập thêm số liệu, tăng cỡ mẫu có thể làm giảm tính nghiêmtrọng của đa cộng tuyến
3 Bỏ biến
Khi có hiện tượng đa cộng tuyến nghiêm trọng thì cách “ đơn giản nhất” là bỏbiến cộng tuyến ra khỏi phương trình Khi phải sử dụng biện pháp này thì cáchthức tiến hành như sau :
Giả sử trong mô hình hồi quy của ta có Y là biến được giải thích còn X2, X3 …
Xk là các biến giải thích Chúng ta thấy rằng X2 tương quan chặt chẽ với X3 Khi