Chương 5: Đa cộng tuyến
1 Chương 5: Đa cộng tuyến 1. Bản chất của đa cộng tuyến • Ví dụ: Xét mối quan hệ phụ thuộc của Mức chi tiêu tích lũy tại thời điểm t cho việc bảo trì của một chiếc xe hơi (E t ) vào Số dặm chiếc xe đã chạy (MILES t -1000) và Tuổi chiếc xe (AGE t – tuần) Ba mô hình được ước lượng: 1 2 2 2: t t t MH E MILES U 1 2 3 3 3: t t t MH E AGE MILES U 1 2 1 1: t t t MH E AGE U Kết quả ước lượng dựa trên dữ liệu thực của 1 trạm xe Toyota: Biến MH1 MH2 MH3 Hằng số -626,24 (-5,98) -796,07 (-5,91) 7,29 (0,06) AGE 7,35 (22,16) 27,58 (9,58) MILES 53,45 (18,27) -151.15 (-7,06) Adjusted R 2 0,897 0,856 0,946 R(AGE,MILES) = 0,996 • Trường hợp không có đa cộng tuyến Các biến X i trong hồi quy không có tương quan với nhau. Mỗi X i chứa một thông tin riêng về Y, thông tin này không chứa trong bất kỳ biến X i nào khác. • Đa cộng tuyến gồm 2 loại: Đa cộng tuyến hoàn hảo và không hoàn hảo • Khái niệm: Cho mô hình hồi quy k biến: Đa cộng tuyến hoàn hảo giữa các biến X i xảy ra nếu: trong đó: 1 , 2 , , k là các hằng số không đồng thời bằng không X 1 =1 cho tất cả các quan sát. 1 1 2 2 i i i k ki i Y X X X U 1 1 2 2 0 k k X X X 2 Nếu: Đa cộng tuyến không hoàn hảo: Là trường hợp các biến giải thích có tương quan với nhau theo nghĩa: trong đó: V i là sai số ngẫu nhiên 1 3 2 2 1 3 2 2 2 0 k i k X X X X 1 1 2 2 0 i i k ki i X X X V Ví dụ: • Nguyên nhân của đa cộng tuyến: Do thu thập số liệu: Các số liệu được thu thập chỉ trong 1 khoảng nhỏ của toàn bộ tổng thể Do bản chất của các biến trong mô hình có mối quan hệ sẵn có với nhau: Ví dụ: Tiền điện = f(Thu nhập, Kích cỡ nhà ở) Trong hồi quy có chứa các biến giải thích với luỹ thừa bậc cao đặc biệt đối với trường hợp mẫu chỉ là 1 khoảng nhỏ số liệu của tổng thể. Ví dụ: Mô hình có nhiều biến hơn số quan sát: Ví dụ: Trong điều tra sức khỏe chỉ hỏi 1 số ít bệnh nhân nhưng lại có nhiều thông tin (biến) liên quan 3 3 1 2 3 i i i i i Y X X X U X 2 10 15 18 24 30 X 3 50 75 90 120 150 X * 3 52 75 97 129 152 r(X 2 ,X 3 )=1; ĐCTHH r * (X 2 ,X 3 )=0,9959; ĐCTkHH 2. Ước lượng khi có đa cộng tuyến hoàn hảo • Xét mô hình hồi quy ba biến: • Ta có các ước lượng: Giả sử X 3i = X 2i trong đó 0. Thay vào, ta có: 1 2 2 3 3 ˆ ˆ ˆ ˆ i i i Y X X 2 2 3 3 2 3 2 2 2 2 2 3 2 3 ˆ i i i i i i i i i i i y x x y x x x x x x x 2 3 2 2 2 3 3 2 2 2 3 2 2 3 ˆ i i i i i i i i i i i y x x y x x x x x x x 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 0 ˆ 0 i i i i i i i i i y x x y x x x x x Biểu thức không xác định Không thể ước lượng được các hệ số HQ 3. Hậu quả của đa cộng tuyến a. Phương sai của các OLS lớn: Ta có: Trong đó: r 23 là hệ số tương quan giữa X 2 , X 3 2 2 3 2 2 2 2 2 2 2 2 23 2 3 2 3 ˆ var( ) (1 ) i i i i i i x x r x x x x 2 2 2 2 3 2 2 2 2 2 3 23 2 3 2 3 ˆ var( ) (1 ) i i i i i i x x r x x x x 2 2 3 2 23 2 2 3 2 i i i i x x r x x 3 Khi r 23 tăng dần đến 1 (cộng tuyến tăng) thì phương sai tăng dần đến vô hạn b. Khoảng tin cậy của β 2 và β 3 rộng hơn: Ta có: Trong đó: khi r 23 càng tiến gần tới 1 thì khoảng tin cậy cho các hệ số càng rộng c. Tỷ số t mất ý nghĩa: KĐGT: H 0 :β 2 = 0 Lấy tỉ số so sánh với t α/2 Khi có đa cộng tuyến hoàn hảo thì sai số tiêu chuẩn sẽ rất cao làm tỉ số t nhỏ đi. Tăng khả năng chấp nhận H 0 mặc dù có thể R 2 lớn 2 /2 2 3 /2 3 ˆ ˆ ˆ ˆ ;t se t se 2 2 3 3 ˆ ˆ ˆ ˆ var( ); var( ) se se 2 2 ˆ ˆ t se d. Dấu của các ước lượng của hệ số hồi quy có thể sai Khi có đa cộng tuyến thì các ước lượng của các hệ số HQ có thể có dấu trái với kỳ vọng. e. Thêm vào hay bớt đi các biến cộng tuyến với các biến khác làm mô hình thay đổi về độ lớn của các ước lượng hoặc dấu của chúng 4. Phát hiện hiện tượng đa cộng tuyến a. R 2 cao nhưng tỉ số t thấp: R 2 > 0,8 mà tỉ số t thấp => dấu hiệu của ĐCT b. Tương quan cặp giữa các biến giải thích cao Nếu hệ số tương quan cặp giữa các biến giải thích cao (>0,8) => ĐCT c. Hồi quy phụ Hồi quy phụ là hồi quy mỗi một biến giải thích X i theo các biến giải thích còn lại. Hệ số xác định của hồi quy này là R 2 i . Kiểm định sự phù hợp của hồi quy phụ: Dùng kiểm định F Thống kê F: F i ~ F(k-2,n-k+1) Nếu F i > F i (k-2,n-k+1) => biến X i có liên hệ tuyến tính (cộng tuyến) với các biến X khác 2 2 ( 1) (1 )( 2) i i i R n k F R k 5. Biện pháp khắc phục: a. Thu thập thêm số liệu hoặc lấy thêm mẫu mới • Đa cộng tuyến phát sinh từ mẫu số liệu => thay mẫu mới • Thu thập thêm số liệu để kích thước mẫu tăng lên b. Bỏ biến B 1 : Xem cặp biến giải thích nào có quan hệ chặt chẽ Giả sử thấy rằng X 2 có tương quan chặt chẽ với X 3 Nhiều thông tin về Y chứa ở X 2 thì cũng chứa ở X 3 Bỏ một trong hai biến X 2 hoặc X 3 B 2 : Tính R 2 hoặc trong các hồi quy: có và không có một trong hai biến Ví dụ: R 2 của hồi quy Y đối với tất cả các biến X 2 , X 3 , , X k là 0,94. R 2 khi loại biến X 2 là 0,87 R 2 khi loại biến X 3 là 0,92 loại X 3 2 R 4 c. Sử dụng sai phân cấp một • Xét mô hình ba biến: Đặt y t = Y t – Y t-1 ; x 2t =X 2t -X 2(t-1) ; x 3t =X 3t -X 3(t-1) ; u t =U t -U t-1 Ta có: Phép trừ trên gọi là sai phân cấp một Mất đi một số liệu trong mẫu nhưng tính đa cộng tuyến sẽ giảm 1 2 2 3 3 (1) t t t t Y X X U 1 2 2 2( 1) 3 3 3( 1) 1 (1) (2) ( ) ( ) t t t t t t t t Y Y X X X X U U 2 2 3 3 t t t t y x x u 1 1 2 2( 1) 3 3( 1) 1 (2) t t t t Y X X U . Toyota: Biến MH1 MH2 MH3 Hằng số -626,24 ( -5, 98) -796,07 ( -5, 91) 7,29 (0,06) AGE 7, 35 (22,16) 27 ,58 (9 ,58 ) MILES 53 , 45 (18,27) - 151 . 15 (-7,06) Adjusted R 2 0,897 0, 856 0,946 R(AGE,MILES) = 0,996 • Trường. 3 1 2 3 i i i i i Y X X X U X 2 10 15 18 24 30 X 3 50 75 90 120 150 X * 3 52 75 97 129 152 r(X 2 ,X 3 )=1; ĐCTHH r * (X 2 ,X 3 )=0,9 959 ; ĐCTkHH 2. Ước lượng khi có đa cộng tuyến hoàn. 1 Chương 5: Đa cộng tuyến 1. Bản chất của đa cộng tuyến • Ví dụ: Xét mối quan hệ phụ thuộc của Mức chi tiêu