Đa cộng tuyến không hoàn hảo xảy ra khi khi tồn tại bộ: và sai số ngẫu nhiên V sao cho: Trong thực tế thì không xảy ra hiện tượng đa cộng tuyến hoàn hảo.. Khi hệ số của mô hình cao tron
Trang 1Đề tài thảo luận
HIỆN TƯỢNG ĐA CỘNG TUYẾN
1 Tìm bộ số liệu ở đó có chứa hiện tượng đa cộng tuyến, chỉ ra sự tồn tại của
đa cộng tuyến
2 Khắc phục hiện tượng.
Trang 2PHẦN I: LÝ THUYẾT
1 Định nghĩa
Giả sử ta phải ước lượng hàm hồi quy Y gồm k biến giải thích X1, X2, X3,
…, Xk :
Mô hình trên được gọi là có hiện tượng đa cộng tuyến, nếu các biến độc lập
X1, X2, X3,…, Xkcó quan hệ tuyến tính với nhau
1.1 Đa cộng tuyến hoàn hảo
Đa cộng tuyến hoàn hảo xảy ra khi tồn tại bộ :
( ) sao cho:
1.2 Đa cộng tuyến không hoàn hảo.
Đa cộng tuyến không hoàn hảo xảy ra khi khi tồn tại bộ:
) và sai số ngẫu nhiên V sao cho:
Trong thực tế thì không xảy ra hiện tượng đa cộng tuyến hoàn hảo Sau này, khi xét đến hiện tượng đa cộng tuyến thì ta hiểu là hiện tượng đa cộng tuyến không hoàn hảo
2 Hệ quả của đa cộng tuyến
- Các ước lượng ,…, vẫn là các ước lượng không chệch của
Tuy nhiên, do det ( nhỏ nên sẽ xảy ra các điều sau:
Yi X i k ki X Ui
Trang 3+ Phương sai của các ước lượng sẽ lớn dẫn đến ước lượng điểm sẽ kém chính xác
+ Khoảng ước lượng sẽ rộng ra
+ Tỉ số nhỏ dẫn đến mất ý nghĩa
+ vẫn có thể cao nhưng tỉ số bé (mâu thuẫn)
Như vậy, hiện tượng đa cộng tuyến xảy ra tương đối nghiêm trọng tùy vào trường hợp cụ thể
3 Phát hiện hiện tượng đa cộng tuyến
3.1 Xem xét bản chất các biến.
3.2 Đo độ tương quan giữa hai biến.
3.3 Khi của mô hình cao trong khi đó tỉ số thấp
Khi hệ số của mô hình cao trong khi đó tỉ số thấp thì ta nghi ngờ
có hiện trượng đa cộng tuyến xảy ra
3.4 Hồi quy phụ
Một cách có thể tin cậy được để đánh giá mức độ của đa cộng tuyến là hồi quy phụ Hồi quy phụ là hồi quy mỗi một biến giải thích Xi theo các biến giải thích còn lại R2 được tính từ hồi quy này ta ký hiện R2
i
Mối liên hệ giữa Fi và R2
i :
F=
) 1 /(
) 1 (
) 2 /(
2 2
k n R
k R
i i
Fi tuân theo phân phối F với k – 2 và n-k +1 bậc tự do Trong đó n là , k là
số biến giải thích kể cả hệ số chặn trong mô hình R2
i là hệ số xác định trong hồi quy của biến Xi theo các biến X khác Nếu Fi tính được vượt điểm tới hạn Fi (k-2,n-k+1) ở mức ý nghĩa đã cho thì có nghĩa là Xi có liên
hệ tuyến tính với các biến X khác Nếu Fi có ý nghĩa về mặt thống kê
Trang 4chúng ta vẫn phải quyến định liệu biến Xi nào sẽ bị loại khỏi mô hình Một trở ngại của kỹ thuật hồi quy phụ là gánh nặng tính toán Nhưng ngày nay nhiều chương trình máy tính đã có thể đảm đương được công việc tính toán này
3.5 Đo độ Theil
m
Trong đó:
là hệ số xác định bội của phương trình hồi quy:
…+
là hệ số xác định bội của phương trình hồi quy:
Nếu m thì kết luận là có hiện tượng đa cộng tuyến
4 Biện pháp khắc phục
4.1 Sử dụng thông tin tiên nghiệm.
4.2 Thu thập thêm số liệu.
Vì đa cộng tuyến là đặc trưng của mẫu nên có thể có mẫu khác lien quan đến cùng các biến trong mẫu ban đầu mà cộng tuyến có thể không nghiêm trọng nữa Điều này chỉ có thể làm được khi chi phí cho việc lấy thêm mẫu khác có thể chấp nhận được trong thực tế
Đôi khi cần thu thập thêm số liệu, tăng cỡ mẫu có thể làm giảm tính nghiêm trọng của đa cộng tuyến
4.3 Bỏ biến.
Trang 5Khi có hiện tượng đa cộng tuyến nghiêm trọng thì cách đơn giản nhất là
bỏ biến cộng tuyến ra khỏi phương trình Khi phải sử dụng biện pháp này thì cách thức tiến hành như sau:
Giả sử trong mô hình hồi quy của ta có Y là biến được giải thích còn
là các biến giải thích Chúng ta thấy rằng tương quan
chặt chẽ với Khi đó, nhiều thông tin về Y chứa ở thì cũng chứa ở
Vậy nếu ta bỏ một trong hai biến hoặc khỏi mô hình hồi quy,
ta sẽ giải quyết được vấn đề đa cộng tuyến nhưng sẽ mất đi một số thông tin về Y
Bằng phép so sánh và trong các phép hồi quy khác nhau mà có và không có một trong hai biến chúng ta có thể quyết định nên bỏ biến nào
trong hai biến và khỏi mô hình
Ví dụ: đối với hồi quy của Y đối với tất cả các biến
; khi loại biến là 0,87 và khi loại biến
là 0,92 Như vậy, trong trường hợp này ta loại
4.4 Sử dụng sai phân cấp môt.
Ví dụ: Chúng ta có số liệu chuỗi thời gian biểu thị lien hệ giữa biến Y và
các biến phụ thuộc và theo mô hình sau:
(1) Trong đó, t là thời gian Phương trình trên đúng với t thì cũng đúng với t-1 nghĩa là:
(2)
Trang 6Từ (1) và (2) ta có:
(3)
Đặt: ; ; ;
Ta được: (4)
Mô hình hồi quy dạng (4) thường làm giảm tính nghiêm trọng của đa
cộng tuyến vì dù và có thể tương quan cao nhưng không có lý
do tiên nghiệm nào chắc chắn rằng sai phân của chúng cũng tương quan cao
Tuy nhiên, biến đổi sai phân bậc nhất sinh ra một số vấn đề chẳng hạn
như số hạng sai số trong (4) có thể không thỏa mãn giả thiết của
mô hình hồi quy tuyến tính cổ điển là các nhiễu không tương quan Vậy thì biện pháp sửa chữa này có thể lại còn tồi tệ hơn cơn bệnh
PHẦN II: BÀI TẬP
2.1 Số liệu
Năm
Chi phí chăm sóc y tế cho người cao tuổi
(100 triệu Yên)
Số người được chăm sóc y tế dành cho người cao tuổi
(1000 người)
Tổng chi phí an sinh xã hội của Nhật Bản
(100 triệu Yên)
1985 40673 8157 188287
1986 44377 8484 211040
1987 48309 8805 225997
1988 51593 9084 240282
1989 55578 9363 259962
1990 59269 9732 279262
Trang 71991 64095 10112 300437
1992 69372 10488 323869
1993 74511 10884 345764
1994 81596 11345 407109
1995 89152 11853 407109
1996 97232 12440 430785
1997 102786 13013 451401
1998 108932 13605 478041
1999 118040 14186 503564
2000 111997 14778 531982
Gọi Y là chi phí chăm sóc y tế cho người cao tuổi ( 100 triệu Yên) Mức ý nghĩa
là số người được chăm sóc y tế dành cho người cao tuổi ( 1000 người)
là chi phí an sinh xã hội của Nhật Bản (100 triệu Yên)
2.2 Xử lí số liệu bằng eview
Hồi quy Y theo và :
Trang 82.3 Lập mô hình hàm hồi quy
Từ kết quả ước lượng bằng eview ta thu được hàm hồi quy mẫu sau:
Nhận xét các tham số:
● 8196,124: khi số người được chăm sóc y tế cho người cao tuổi bằng 0 và tổng chi phí an sinh xã hội bằng 0 thì chi phí chăm sóc y tế cho người cao tuổi trung bình là -816912400000 Yên
● = 0,782672: với tổng chi phí an sinh xã hội không đổi thì khi
số người được chăm sóc y tế cho người cao tuổi tăng lên 1000 người thì chi phí chăm sóc y tế cho người cao tuổi tăng lên
78267200 Yên
Trang 9● 0,218021: với số người được chăm sóc y tế không đổi thì khi tổng chi phí an sinh xã hội tăng lên 100 triệu Yên thì chi phí chăm sóc y tế cho người cao tuổi tăng lên 21802100 Yên
2.4 Phát hiện hiện tượng đa cộng tuyến
2.4.1.Hệ số xác định cao nhưng tỉ số thấp
Ta thấy: = 0,989526 , = = 2,921
Thống kê t của hệ số ứng với biến :
t =0,156335 < 2,921
Thống kê t của hệ số ứng với biến :
t = 2,283768 < 2,921
Như vậy, hệ số xác định cao nhưng tỉ số t thấp Suy ra có hiện tượng
đa cộng tuyến
2.4.2 Đo độ tương quan giữa hai biến
Hồi quy theo
Trang 10Ta có hệ số tương quan giữa các biến giải thích là:
1,00000 0.99757
0,99757 1,00000
Ta thấy: = 0,99757 > 0,8
Vậy ta nghi ngờ có xảy ra hiện tượng đa cộng tuyến
2.4.3 Hồi quy phụ
Hồi quy theo
Trang 11kiểm định giả thuyết:
Tiêu chuẩn kiểm định:
Nếu giả thiết là đúng thì F (k-2, n-k+1)
Với ta có = = 8,86
Miền bác bỏ : =
Theo bảng eview ta có:
F = 2874,637
Trang 12Vậy ta bác bỏ , chấp nhận Tức là, có liên hệ tuyến tính với Như vậy, có xảy ra hiện tượng cộng tuyến
2.4.4 Đo độ Theil
Ta có các hệ số tương quan giữa các biến Y, , như sau:
Y
Y 1.00000 0.99263 0,99473
0.99263 1,00000 0,99757
0.99473 0,99757 1,00000
Để tính được độ Theil ta phải tính được , và Theo công thức đã biết ở chương hai ta có:
= 0,986512
Vậy:
Vậy ta nghi ngờ có hiện tượng đa cộng tuyến xảy ra
2.5 Khắc phục hiện tượng đa cộng tuyến
Trang 132.5.1 Bỏ biến
Bước 1: Hồi quy Y theo và
Bước 2: Hồi quy Y theo thu được
Bước 3: Hồi quy Y theo thu được
Bước 4: So sánh , , và đưa ra kết luận
Hồi quy Y theo và
Hồi quy Y theo
Trang 14Hồi quy Y theo
Theo kết quả hồi quy ta có:
Khi hồi quy Y theo , : = 0,989526
Trang 15Khi ta bỏ biến ra khỏi mô hình: = 0,985324
Khi ta bỏ biến ra khỏi mô hình: = 0,989506
Ta thấy > nên ta loại bỏ biến
2.5.2 Sử dụng sai phân cấp một
Chúng ta có số liệu chuỗi thời gian biểu thị liên hệ giữa biến Y và các biến phụ thuộc theo mô hình sau:
Trong đó t là thời gian Phương trình trên đúng với t thì cũng đúng với
t-1 nghĩa là:
Trừ ( cho ( ta được:
Đặt:
Ta thu được bản số liệu mới:
y
3704 327 22753
3932 321 14957
3284 279 14285
3985 279 19680
3691 369 19300
4826 380 21175
5277 376 23432
5139 396 21895
7085 461 27354
Trang 167556 508 33991
8080 587 23676
5554 573 20616
108918 592 26640
118025 581 25523 -6043 592 28418
Hồi quy sai phân cấp một
Ta có hệ số tương quan giữa các biến giải thích:
1,00000 0,65754
0,65754 1,00000
Hồi quy phụ của biến sai phân theo ta được:
Trang 17Nhận xét: < 0,8
Khi ta hồi quy theo mặc dù vẫn còn hiện tượng đa cộng tuyến
những mức độ cộng tuyến giảm dần vì đã gần với
hơn Tuy nhiên ta thấy, khi sử dụng biện pháp sai phân cấp một thì độ phù hợp của
mô hình đã bị suy giảm ( )