1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tài liệu HUA Nhập môn kinh tế lượng_ Chương 5 docx

18 321 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 159,61 KB

Nội dung

Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 1 CHƯƠNG 5 Đa cộng tuyến Các biến giải thích được xác đònh trong một mô hình kinh tế lượng thường xuất phát từ lý thuyết hoặc hiểu biết căn bản về hành vi chúng ta đang cố gắng thiết kế mô hình, cũng như từ kinh nghiệm quá khứ. Dữ liệu về các biến này đặc biệt xuất phát từ những thực nghiệm không kiểm soát và thường tương quan với nhau. Điều này đặc biệt đúng đối với các biến chuỗi thời gian thường có những xu hướng tiềm ẩn thông thường. Ví dụ, dân số và tổng sản phẩm quốc nội là hai chuỗi dữ liệu tương quan chặt lẫn nhau. Trong chương trước, chúng ta phát biểu là hệ số hồi qui đối với một biến cụ thể là số đo tác động riêng phần của biến này, nghóa là tác động của nó khi tất cả các biến khác trong mô hình được giữ ở những mức cố đònh và chỉ có giá trò của biến này thay đổi. Tuy nhiên, khi hai biến giải thích cùng tương quan chặt; chúng ta không thể chỉ đơn giản giữ một biến không đổi và thay đổi biến còn lại vì khi biến sau thay đổi thì biến đầu thay đổi. Trong trường hợp này, thật khó tách biệt ảnh hưởng riêng phần của một biến đơn. Cũng vậy, thay đổi mô hình bằng cách loại bỏ hoặc thêm vào một biến có thể làm thay đổi kết quả một cách nghiêm trọng, khiến cho việc diễn dòch các ước lượng sẽ khó khăn hơn. Đây chính là vấn đề đa cộng tuyến, vấn đề xuất hiện khi các biến giải thích có các quan hệ gần như tuyến tính. Chương này khảo sát các hệ quả của đa cộng tuyến trong phạm vi ước lượng các thông số, khảo sát các tính chất của chúng và kiểm đònh giả thuyết về những hệ quả này. Trước hết chúng tôi trình bày các ví dụ về vấn đề đa cộng tuyến phát sinh như thế nào trong thực tế và sau đó khảo sát vấn đề này một cách chi tiết hơn. } 5.1 Các Ví Dụ Về Đa Cộng Tuyến Chúng tôi trình bày hai ví dụ trong đó việc thêm vào các biến có vẻ nhạy làm thay đổi đáng kể các kết quả. Trước hết, chúng ta kiểm tra lại ví dụ về nhà ở trong Phần 4.5, ví dụ này liên hệ số lượng nhà mới xây với một số biến tổng hợp; trong ví dụ thứ hai, chúng ta liên hệ chi tiêu tích lũy cho việc bảo trì một chiếc xe hơi với tuổi của chiếc xe đó và số dặm chiếc xe đó đã chạy. } VÍ DỤ 5.1 Đặt HOUSING là số căn hộ (đơn vò hàng ngàn) có tại Hoa Kỳ trong năm t, POP t là dân số Hoa Kỳ đơn vò tính là hàng triệu, GNP t là tổng sản phẩm quốc gia tính bằng tỷ đô la của năm 1982, và INTRATE, là tỷ lệ thế chấp nhà mới tính theo phần trăm. Sử dụng tập tin DATA4-3 mô tả trong Phụ lục D, ba mô hình sau được ước lượng: các kết quả được trình bày trong Bảng 5.1 (xem Bài thực hành máy tính Phần 5.1). Mô hình A: HOUSING t = α 1 + α 2 INTRATE t + α 3 POP t + u 1t Mô hình B: HOUSING t = β 1 + β 2 INTRATE t + β 3 GNP t + u 2t Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 2 Mô hình C: HOUSING t = γ 1 + γ 2 INTRATE t + γ 3 POP t + γ 4 GNP t + u 3t Chúng ta kỳ vọng số căn hộ sẽ bò ảnh hưởng bởi cả kích thước dân số lẫn mức thu nhập. Vậy mà trong Mô hình C, có cả hai biến này, các trò thống kê t thấp và không có ý nghóa. Tuy nhiên, khi chỉ có POP hoặc GNP được đưa vào, các hệ số tương ứng rất có ý nghóa. Một kiểm đònh Wald về việc loại bỏ POP và GNP khỏi Mô hình C cho kết quả một trò thống kê F bằng 6,42, có ý nghóa ở mức 1 phần trăm, cho thấy là các biến này có ý nghóa một cách liên kết mặc dù các biến riêng rẽ lại không có ý nghóa. Vì vậy, phần kết luận có vẻ như vô lý. Kết quả thứ hai là, các hệ số của POP và GNP trong Mô hình C hoàn toàn khác trong các hệ số trong Mô hình A và B. Tuy nhiên, hệ số của INTRATE ít biến động hơn. Mặc dù trước đây chúng ta nghó rằng cả dân số và thu nhập đều có trong mô hình, các kết quả lại cho thấy là khi các biến này có mặt đồng thời trong mô hình sẽ xuất hiện những thay đổi nghiêm trọng. Điều này là do dân số, tổng sản phẩm quốc và lãi suất có tương quan rất cao. Các hệ số tương quan từng cặp của GNP, POP và INTRATE là r(GNP, POP) = 0,99 r(GNP, INTRATE) = 0,88 r(POP, INTRATE) = 0,91 } Bảng 5.1 Các Ước Lượng Của Các Quan Hệ Nhà Ở Biến Mô hình A Mô hình B Mô hình C Hằng số − 3812,93 (−2,40) 687,90 (1,80) – 1315,75 (–0,27) INTRATE -198,40 (–3,87) –169,66 (–3,87) –184,75 (-3,18) POP 33,82 (3,61) 14,90 (0,41) GNP 0,91 (3,64) 0,52 (0,54) d.f. 20 20 19 R − 2 0,371 0,375 0,348 MSE 75,029 74,557 77,801 MAPE 12,14 12,54 12,23 Ghi chú: MSE là trung bình bình phương sai số dự báo ( = σ ^ 2 ). MAPE là trung bình trò tuyệt đối sai số phần trăm. Các giá trò trong ngoặc là trò thống kê t. Vì vậy, tồn tại quan hệ tuyến tính gần như hoàn hảo giữa GNP và POP, và cũng có một quan hệ gần hoàn hảo với INTRATE. Như sẽ được trình bày sau này, các thay đổi trong các hệ số tuyến tính được quan sát và các trò thống kê t là kết quả trực tiếp của những tương quan chặt này. Có thể nhấn mạnh là một tương quan chặt giữa biến phụ thuộc và một biến độc lập cho trước không chỉ không gây ra bất kỳ vấn đề nào mà thực tế tương quan này rất được mong đợi. Chính những mối quan hệ chặt, tuyến tính giữa các biến giải thích ảnh hưởng đến các kết quả của mô hình. Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 3 } VÍ DỤ 5.2 Đặt E t là chi tiêu tích lũy tại thời điểm t cho việc bảo trì (không tính xăng dầu) một chiếc xe hơi cho trước, MILES, là số dặm chiếc xe đã chạy, tính bằng hàng ngàn dặm, và AGE, là tuổi của chiếc xe tính bằng tuần kể từ khi mua lần đầu. Xem xét ba mô hình sau: Mô hình A: E t = α 1 + α 2 AGE t + u 1t Mô hình B: E t = β 1 + β 2 MILES t + w 2t Mô hình C: E t = γ 1 + γ 2 AGE t + γ 3 MILES t + u 3t Một chiếc xe chạy càng nhiều sẽ càng cần nhiều chi phí bảo trì. Tương tự, chiếc xe càng cũ chi phí bảo trì càng nhiều. Cũng như vậy đối với hai chiếc xe cùng tuổi thì chiếc nào chạy nhiều hơn sẽ có thể cần nhiều chi phí bảo trì hơn. Vì vậy, chúng ta kỳ vọng là α 2 , β 2 , γ 2 và γ 3 sẽ dương. Bảng 5.2 trình bày các hệ số ước lượng và các trò thống kê t (trong ngoặc) của ba mô hình, dựa trên dữ liệu thực của một trạm xe Toyota. Dữ liệu trong tập tin DATA3-7 mô tả trong Phụ lục D (xem Bài thực hành máy tính Phần 5.2 để chứng minh các kết quả này). Thật lý thú khi thấy là mặc dù hệ số của MILES có giá trò dương trong Mô hình B, hệ số này lại âm một cách có ý nghóa trong Mô hình C. Vì vậy, có một sự đổi ngược nghiêm trọng về dấu. Hệ số của AGE cũng có sự thay đổi quan trọng như vậy. Thứ hai, các trò thống kê t của AGE và MILES trong Mô hình C thấp hơn rất nhiều. Ở đây cũng vậy, nguyên nhân của sự thay đổi có ý nghóa trong kết quả là sự tương quan cao giữa hai biến giải thích, trong trường hợp này làAGE và MILES, hệ số tương quan giữa chúng là 0,996. } Bảng 5.2 Các mô hình chi tiêu cho xe hơi Biến Mô hình A Mô hình B Mô hình C Hằng số − 626,24 (−5,98) −796,07 (−5,91) 7,29 (0,06) AGE 7,35 (22,16) 27,58 (9,58) MILES 53,45 (18,27) −151,15 (−7,06) d.f. 55 55 54 R − 2 0,897 0,856 0,946 MSE 135,861 190,941 72,010 MAPE 227,9 278,2 47,3 Ghi chú: MSE là trung bình bình phương sai số dự báo ( = σ ^ 2 ). MAPE là trung bình trò tuyệt đối sai số phần trăm. Các giá trò trong ngoặc là trò thống kê t. Từ những ví dụ trên chúng ta thấy là sự tương quan cao giữa các biến giải thích có thể khiến cho các hệ số hồi qui trở nên không có ý nghóa hoặc làm đổi dấu chúng. Đa cộng tuyến không chỉ giới hạn trong hai biến độc lập. Tính chất này có thể, và thường xảy ra giữa nhiều biến độc lập có một mối quan hệ gần tuyến tính. Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 4 5.2 Đa Cộng Tuyến Chính Xác Nếu hai hoặc nhiều hơn hai biến độc lập có quan hệ tuyến tính giữa hai biến hoặc giữa nhiều biến, chúng ta có đa cộng tuyến chính xác (hoặc hoàn hảo). Trong trường hợp này, không có một lời giải duy nhất cho các phương trình chuẩn rút ra từ nguyên tắc bình phương tối thiểu. Điều này được minh họa với một mô hình có hai biến độc lập, X 2 và X 3 , cộng một hằng số. Mô hình như sau y t = β 2 x t2 + β 3 x t3 + v t (5.1) trong đó số hạng không đổi bò loại khỏi bằng cách diễn tả mỗi biến như một sai biệt so với giá trò trung bình của biến đó (xem Phần 4.A.1). Các phương trình chuẩn tương ứng như sau (bỏ qua t nhỏ): β ^ 2 ∑x 2 2 + β ^ 3 ∑x 2 x 3 = ∑yx 2 (5.2) β ^ 2 ∑x 2 x 3 + β ^ 3 ∑x 3 2 = ∑yx 3 (5.3) Trước hết chúng ta hãy xem xét trường hợp đơn giản nhất của đa cộng tuyến chính xác, với x 3 = 2x 2 . Mặc dù một người có thể thắc mắc tại sao một nhà nghiên cứu lại đưa biến x 3 vào mô hình, nếu như vậy, như chúng ta sẽ thấy trong chương tiếp theo, tình huống này sẽ có thể xuất hiện một cách thiếu cân nhắc. Thay x 3 ở Phương trình (5.3), chúng ta có β ^ 2 ∑x 2 (2x 2 ) + β ^ 3 ∑x 3 (2x 2 ) = ∑y(2x 2 ) Chúng ta dễ dàng thấy là, nếu chúng ta bỏ thừa số chung 2, phương trình này sẽ giống như Phương trình (5.2). Vì vậy, hai phương trình chuẩn không độc lập với nhau, nhưng giản lược thành một phương trình như nhau. Một phương trình đơn không đủ để có được một lời giải duy nhất cho hai biến chưa biết β ^ 2 và β ^ 3 . Vì vậy, không thể các hệ số hồi qui trong trường hợp đa cộng tuyến chính xác. Tổng quát hơn, giả sử là x 2 và x 3 hoàn toàn đa cộng tuyến với tương quan tuyến tính x 3 = ax 2 + b. Khi đó Phương trình (5.3) có thể được viết lại như sau β ^ 2 ∑x 2 x 3 + β ^ 3 ∑x 3 x 3 = ∑yx 3 hoặc β ^ 2 ∑x 2 (ax 2 + b) + β ^ 3 ∑x 3 (ax 2 + b) = ∑y(ax 2 + b) hoặc aβ ^ 2 ∑x 2 2 + bβ ^ 2 ∑x 2 + aβ ^ 3 ∑x 2 x 3 + bβ ^ 3 ∑x 3 = a∑yx 2 + b∑y vì x 2 , x 3 và y được tính từ các giá trò trung bình của chúng, chúng ta có, từ Tính chất 2.A.4, ∑x 2 = ∑x 3 = ∑y = 0. Do đó, phương trình trên rút gọn (sau khi đơn giản a) thành β ^ 2 ∑x 2 2 + β ^ 3 ∑x 2 x 3 = ∑yx 2 Phương trình này giống như Phương trình chuẩn (5.2) đầu tiên. Trong một mô hình hồi qui bội nếu một số biến độc lập có thể được biểu diễn bằng các tổ hợp tuyến tính của các biến Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 5 độc lập khác, thì các hệ số hồi qui tương ứng không thể ước lượng được. Tuy nhiên, có thể ước lượng được các tổ hợp tuyến tính của các thông số. Nếu một nhà nghiên cứu tình cờ hồi qui một mô hình có đa cộng tuyến chính xác, hầu hết các chương trình hồi qui sẽ báo lỗi dưới dạng “ma trận suy biến” hoặc “vấn đề cộng tuyến chính xác”. Khi điều này xảy ra, nên loại một hoặc nhiều biến khỏi mô hình. Tuy nhiên, trường hợp thường gặp nhất là tình huống khi một quan hệ gần tuyến tính (nhưng không chính xác) tồn tại. Các hệ quả của trường hợp này sẽ được xem xét sau đây. 5.3 Gần Đa Cộng Tuyến Khi các biến giải thích tương quan gần như tuyến tính, các phương trình chuẩn có thể thường được giải để có những ước lượng duy nhất. Các câu hỏi đặt ra trong trường hợp này là (1) các hệ quả của việc bỏ qua tính đa cộng tuyến là gì, (2) chúng ta xác đònh sự tồn tại của đa cộng tuyến như thế nào, và (3) các biện pháp nào sẵn có để nhà nghiên cứu có thể sử dụng nhằm tránh vấn đề này? Bây giờ chúng ta lần lượt xem xét các vấn đề này. Các Hệ Quả Của Việc Bỏ Qua Tính Đa Cộng Tuyến KHÔNG THIÊN LỆCH VÀ CÁC TÍNH CHẤT KHÁC Một câu hỏi tự nhiên xuất hiện là đa cộng tuyến có làm mất hiệu lực đònh lý Gauss−Markov, đònh lý cho rằng OLS tạo ra các ước lượng không thiên lệch, tuyến tính tốt nhất (BLUE). Chúng ta thấy từ phát biểu của đònh lý Gauss−Markov (xem Phần 3.3) là cần có các Giả đònh 3.2 đến 3.7 để chứng minh đònh lý. Một tương quan chặt giữa các biến giải thích không vi phạm bất kỳ giả đònh nào. Do đó, các ước lượng OLS vẫn BLUE; nghóa là, chúng không thiên lệch, nhất quán và hiệụ quả. Cũng như vậy, cộng tuyến cao không có tác động gì đến giả thiết 3.8. Do đó, phân phối của trò thống kê t cũng không bò ảnh hưởng. Tiếp tục như chúng ta đã làm trong Phần 3.A.5, chúng ta có thể thấy là các ước lượng OLS vẫn có vẻ thích hợp nhiều nhất và vì vậy vẫn nhất quán. Các dự báo vẫn không thiên lệch và các khoảng tin cậy vẫn có hiệu lực. Do đó không có kết quả nào trong những kết quả trước đây bò ảnh hưởng bởi đa cộng tuyến. Mặc dù các sai số chuẩn và các trò thống kê t của các hệ số hồi qui bò ảnh hưởng về mặt trò số, các kiểm đònh dựa trên những giá trò này vẫn có hiệu lực. ẢNH HƯỞNG ĐẾN DỰ BÁO Mặc dù đa cộng tuyến ảnh hưởng các hệ số hồi qui riêng lẻ, tác động của nó đến các dự báo thường ít nghiêm trọng hơn và ngay cả có thể lại là những tác động có lợi. Ví dụ, trong Bảng 5.1, sai số bình phương trung bình (MSE) thời đoạn của mẫu của các giá trò dự báo cũng như sai số phần trăm tuyệt đối trung bình (MAPE) hiện diện trong mỗi mô hình. Lưu ý rằng, trong khi các hệ số thay đổi rất lớn giữa các mô hình, MSE không có những thay đổi lớn như vậy. Các giá trò MSE và MAPE cũng được trình bày trong Bảng 5.2. Thật thú vò là Mô hình C có các hệ số của MILES ngược với các hệ số trong Mô hình B, hoạt động tốt hơn xét về khía cạnh MSE và MAPE so với hai mô hình còn lại. Vì vậy, trong trường hợp này, sự hiện diện của đa cộng tuyến thực sự có lợi cho việc dự báo. Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 6 ẢNH HƯỞNG ĐẾN SAI SỐ CHUẨN Từ thảo luận này rõ ràng là đa cộng tuyến không gây ra bất kỳ thiệt hại gì đối với các tính chất lý thuyết hoặc các kiểm đònh thống kê. Vậy tại sao chúng ta lại quan tâm đến đa cộng tuyến? Ngay lập tức ta sẽ thấy rằng mặc dù các ước lượng là BLUE, các sai số chuẩn thường cao hơn, khiến trò thống kê t thấp hơn và có thể không có ý nghóa. Đối với mô hình trong (5.1), các phương trình sau được rút ra từ Phụ lục 4.A (r là tương quan giữa X 2 và X 3 , và S 22 và S 33 được đònh nghóa trong Phụ lục 4.A). Var(β ^ 2 ) = σ 2 S 22 (1 − r 2 ) (5.4) Var(β ^ 3 ) = σ 2 S 33 (1 − r 2 ) (5.5) Cov(β ^ 2 , β ^ 3 ) = − σ 2 r S 22 S 33 (1 − r 2 ) (5.6) Giả sử r 2 rất gần 1; nghóa là, r gần ±1 (gần đa cộng tuyến). Rõ ràng từ Phương trình (5.4) và (5.5) là các phương sai và do đó các sai số chuẩn, của β ^ 2 và β ^ 3 sẽ rất lớn khi r 2 gần bằng 1. Một phương sai lớn có nghóa là một độ chính xác kém và trò thống kê t thấp, dẫn đến không có ý nghóa. Điều này giải thích vì sao, trong ví dụ đầu tiên, chúng ta đã tìm thấy là khi cả dân số và GNP đều được đưa vào, các hệ số của chúng trở nên không có ý nghóa. Thứ hai, chúng ta xem từ Phương trình (5.6) đồng phương sai giữa các hệ số hồi qui sẽ lớn, về giá trò tuyệt đối, nếu r gần +1 hoặc −1. Nếu các ước lượng tương quan nhau, mỗi hệ số giải thích được phần nào ảnh hưởng của X 2 và X 3 đến Y. Nói cách khác, chúng ta không thể giữ X 3 không đổi và chỉ tăng X 2 , bởi vì X 3 do có tương quan với X 2 , nên kết quả là cũng sẽ thay đổi. Các kết quả của phần thảo luận trên được tóm tắt trong Tính chất 5.1 Tính chất 5.1 Các hệ quả của việc bỏ qua tính đa cộng tuyến như sau: a. Nếu hai hoặc nhiều hơn các biến giải thích trong một mô hình hồi qui bội có quan hệ tuyến tính một cách chính xác, thì mô hình đó không thể ước lượng được. b. Nếu một số biến giải thích có quan hệ gần tuyến tính, thì các tham số ước lượng OLS (và do đó dự báo căn cứ vào chúng) vẫn là BLUE và MLE và do đó không bò thiên lệch, có hiệu quả, và nhất quán. c. Tác động của tính chất gần đa cộng tuyến giữa các biến giải thích là làm gia tăng các sai số chuẩn của các hệ số hồi qui và làm giảm trò thống kê t, vì vậy sẽ làm cho các hệ số kém ý nghóa hơn (và thậm chí có thể mất ý nghóa). Tuy nhiên, các kiểm đònh giả thuyết vẫn có hiệu lực. d. Đồng phương sai giữa các hệ số hồi qui của một cặp các biến có tương quan cao sẽ rất cao, về giá trò tuyệt đối, vì vậy khó có thể diễn dòch các hệ số riêng lẻ được. e. Tính đa cộng tuyến có thể không có ảnh hưởng đến việc thực hiện dự báo của một mô hình và thậm chí có thể cải thiện dự báo. Trong một mô hình với một vài biến, các cơ hội xuất hiện tính đa cộng tuyến lớn hơn và do đó việc diễn dòch các kết quả có thể khó khăn hơn. Tính đa cộng tuyến có thể gây ra việc làm mất đi mức ý nghóa của nhiều hệ số, trong khi sự phù hợp của một trong số các hệ số đó thôi lại có thể tạo ra một hệ số có ý nghóa. Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 7 Sự nguy hiểm của tính đa cộng tuyến là một đề tài tranh cãi không nhỏ phản biện lại việc sử dụng không phân biệt các biến giải thích. Tầm quan trọng của lý thuyết trong việc lập mô hình một lần nữa nên được nhấn mạnh. Có thể có những lý do thuyết phục về mặt lý thuyết cho việc đưa vào một biến ngay cả nếu như tính đa cộng tuyến có thể khiến cho một hệ số của nó bò mất ý nghóa. Trong trường hợp này, biến đó cần được duy trì trong mô hình ngay cả khi tính chất đa cộng tuyến tồn tại. S Ự VẮNG MẶT CỦA TÍNH ĐA CỘNG TUYẾN Để hoàn tất, hãy xem xét trường hợp cực đoan khác, trong đó r = 0, có nghóa là trường hợp trong đó X 2 và X 3 không có tương quan (có nghóa là không có tính đa cộng tuyến) ngược với tương quan hoàn toàn. Trong trường hợp này, S 23 = 0 và do đó hai công thức thông thường trở thành như sau (xem Phụ lục 5.A) và Xin lưu ý rằng các công thức này giống như các công thức thông thường khi Y được hồi qui một cách riêng biệt theo X 2 và X 3. Đó là bằng chứng cho thấy khi S 23 = 0, giá trò của β ^ 2 , có được từ việc có cả X 2 và X 3 trong mô hình, đồng nhất với giá trò có được khi Y được hồi qui theo số hạng không đổi và chỉ có X 2 . Một kết quả tương tự đối với β ^ 3 . Đồng phương sai giữa hai hệ số hồi qui, có giá trò bằng không, cho thấy rằng tác động riêng phần là hoàn toàn do biến được đưa vào và không phải do bất kỳ tác động gián tiếp nào từ những biến đã có khác. Một cách lý tưởng, chúng ta thích r phải tiến tới không, nhưng trong thực tế điều này thường không xảy ra như vậy. Nhận dạng Tính chất Đa cộng tuyến Trong một tình huống thực tế, tính đa cộng tuyến thường xuất hiện dưới một số dạng. GIÁ TRỊ R 2 CAO VỚI CÁC GIÁ TRỊ CỦA TRỊ THỐNG KÊ t THẤP Như chúng ta thấy trong Bài tập 5.2, có thể tìm thấy một tình huống mà trong đó mọi hệ số hồi qui đều không có ý nghóa (nghóa là có giá trò t thấp) nhưng trò thống kê F của kiểm đònh Wald thì lại rất có ý nghóa. Tương tự, như trong Ví dụ 5.1, giá trò F của kiểm đònh Wald đối với một nhóm các hệ số có thể có ý nghóa cho dù các giá trò t riêng lẻ thì không có ý nghóa. N HỮNG GIÁ TRỊ CAO CHO CÁC HỆ SỐ TƯƠNG QUAN Các tương quan từng mỗi cặp giữa các biến giải thích có thể cao, giống như trong Ví dụ 5.1 và 5.2. Nói chung đây là một thực hành tốt để đạt được các tương quan giữa mỗi cặp biến trong một mô hình hồi qui và kiểm tra những giá trò cao giữa các biến giải thích. Xin lưu ý rằng một hệ số tương quan cao giữa biến phụ thuộc và một biến độc lập không phải là một dấu hiệu của tính đa cộng tuyến. Thực ra một tương quan như vậy rất được mong muốn. C ÁC HỆ SỐ HỒI QUI NHẠY VỚI ĐẶC TRƯNG Mặc dù một sự tương quan cao giữa các cặp biến độc lập là một điều kiện đủ cho tính đa cộng tuyến, điều kiện đảo lại không cần thiết phải đúng. Nói cách khác, tính đa cộng tuyến có thể hiện diện mặc dù sự tương quan giữa hai biến giải thích thể hiện không cao. Điều này là do ba hay nhiều hơn các biến có thể gần tuyến tính. Tuy vậy, những tương quan cặp có thể không cao. Kmenta (1986, trang 434) đã đưa ra một ví dụ trong đó ba biến có liên hệ tuyến tính một cách chính xác, nhưng những Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 8 tương quan giữa bất kỳ cặp nào cũng không cao hơn 0,5. Trong trường hợp như vậy, bằng chứng thật sự của tính đa cộng tuyến là sự quan sát cho thấy rằng các hệ số hồi qui bò thay đổi đáng kể (ngay cả các dấu có thể đảo ngược lại, như trong Ví dụ 5.2) khi các biến được thêm vào hoặc bỏ ra. C ÁC KIỂM ĐỊNH THÔNG THƯỜNG ĐỐI VỚI TÍNH ĐA CỘNG TUYẾN Mặc dù các kiểm đònh đã được đề nghò, những thủ tục này đều được đề cập thoáng qua bởi vì chúng còn gây khá nhiều tranh cãi. Do tính đa cộng tuyến là một vấn đề đối với dữ liệu hơn là đối với tự thân một mô hình, nhiều nhà kinh tế lượng lý luận rằng các kiểm đònh thông thường nếu không vô nghóa thì cũng chẳng thu thập được gì (xem Maddala, 1977, trang 186). Farrar và Glauber (1967) đã đề nghò một nhóm các kiểm đònh để nhận dạng sự tính nghiêm trọng của tính chất đa cộng tuyến. Các kiểm đònh này bao gồm một kiểm đònh Chi bình phương, một kiểm đònh F, và một kiểm đònh t. Kiểm đònh chi bình phương là để xác đònh xem tính đa cộng tuyến nói chung có hiện diện hay không. Sau đó sẽ là kiểm đònh F, để tìm xem có những biến nào đang gây ra tính đa cộng tuyến, và cuối cùng là kiểm đònh t để phát hiện bản chất của tính đa cộng tuyến. Những kiểm đònh này được thiết lập dưới dạng các khái niệm có liên quan đến kiến thức về đại số tuyến tính. Những độc giả có quan tâm với một kiến thức cơ bản về đại số ma trận có thể muốn đọc các bài báo của các tác giả này. Belsley, Kuh, và Welsch (1980, chương 3) đã đề nghò một thủ tục gồm hai bước để kiểm đònh tính đa cộng tuyến. Bước thứ nhất là để tính toán một “con số điều kiện” cho ma trận các số liệu. Các vấn đề cần quan tâm về tính cộng tuyến được chỉ ra nếu con số này vượt quá 30. Trong bước hai, một đại lượng đo lường “sự phân tán phương sai” được sử dụng. Phương pháp của họ cũng đòi hỏi một sự hiểu biết về đại số tuyến tính và vượt quá phạm vi của cuốn sách này. Các giải pháp Không có lời giải đơn lẻ nào có thể một lần loại bỏ được tính đa cộng tuyến. Việc xử lý vấn đề này đòi hỏi một sự suy xét khá phức tạp. Tuy nhiên, cũng có một số phương pháp tổng quát nhất đònh có thể hữu ích cho việc xử lý tính đa cộng tuyến, và các phương pháp này sẽ được thảo luận trong nội dung sau đây. S Ự BỎ QUA NHẸ NHÀNG Nếu một nhà phân tích ít quan tâm đến việc diễn dòch từng hệ số riêng lẻ nhưng lại chú trọng nhiều hơn vào việc dự báo, thì tính đa cộng tuyến có thể không phải là một vấn đề nghiêm trọng. Người ta có thể bỏ qua nó mà không phải chòu một hậu quả xấu nào đáng kể. Một cách tương tự, ngay cả khi có tương quan cao giữa các biến độc lập, nếu như các hệ số hồi qui là có ý nghóa và có những dấu và giá trò có ý nghóa, người ta không phải quá bận tâm về vấn đề đa cộng tuyến. Nếu một hệ số có ý nghóa ngay cả trong trường hợp có sự hiện diện của tính đa cộng tuyến, thì đó rõ ràng mới là một kết quả mạnh. Cuối cùng, nếu một biến thuộc một mô hình vì những lý do về mặt lý thuyết, thì có thể an toàn hơn khi chúng ta giữ biến đó lại ngay cả khi có tính đa cộng tuyến. Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 9 LOẠI BỎ CÁC BIẾN Vì tính đa cộng tuyến là do những mối quan hệ chặt chẽ giữa các biến giải thích, cách chắc chắn nhất để loại bỏ hoặc giảm bớt các tác động của tính đa cộng tuyến là bỏ một hoặc nhiều biến ra khỏi mô hình. Như chúng tôi đã lưu ý trong nhiều ví dụ trước, thủ tục này thường làm cải thiện sai số chuẩn của các hệ số còn lại và có thể làm cho các biến không ý nghóa trước đó trở thành có ý nghóa, vì việc loại bỏ một biến sẽ làm giảm bất kỳ tính đa cộng tuyến nào do biến đó gây ra. Mô hình B của Bảng 5.1 chứng tỏ điểm này. Việc loại bỏ POP, biến có trò thống kê t thấp nhất (không kể số hạng không đổi mà nó không bao giờ bò loại bỏ vì nó nắm giữ các tác động quân bình của các biến bò loại bỏ), làm cho GNP trở nên có ý nghóa và làm tăng các giá trò t của hai hệ số khác. Thủ tục đơn giản hóa mô hình dựa trên cơ sở dữ liệu, đã được đề cập ở chương trước, là một cách hiệu quả để giảm thiểu tính đa cộng tuyến. Các nhà khảo sát thường hay gộp quá nhiều biến vào một mô hình vì sợ rằng nếu không thì sẽ gặp phải thiên lệch do biến bò loại bỏ đã được mô tả trong Phần 4.5. trong trường hợp như vậy, việc loại bỏ các biến có trò thống kê t thấp nói chung sẽ làm cải thiện mức ý nghóa của các biến còn lại. Điều quan trọng xảy ra trong tình huống này là các biến còn lại có khả năng nắm giữ những tác động của các biến bò loại bỏ có liên quan chặt chẽ với chúng. Người ta sẽ nhận thấy rằng sự đơn giản hóa mô hình dựa trên dữ liệu là cốt lõi của phương pháp mô hình hóa Hendry/LSE từ tổng quát-đến-đơn giản. Tuy nhiên, có một điểm nguy hiểm trong việc loại bỏ quá nhiều biến khỏi đặc trưng mô hình, bởi vì việc này sẽ dẫn đến thiên lệch trong các ước lượng. Nói chung đây là một thực tế thích hợp để xem xét tầm quan trọng về mặt lý thuyết của việc duy trì một biến không ý nghóa nếu trò số thống kê của nó ít nhất là 1 về giá trò tuyệt đối hoặc giá trò p nhỏ hơn 0,25. Các trò số thống kê lựa chọn mô hình đã được thảo luận trong Chương 4 nên là những hướng dẫn hữu ích trong công việc này. Tuy nhiên, xin nhớ rằng khi hai biến giải thích có tương quan chặt chẽ và một bò loại khỏi mô hình, biến còn lại chòu tác động của cả hai biến chứ không chỉ tác động của biến còn lại. Điểm này hữu ích cho việc xem xét thảo luận về thiên lệch biến bò loại bỏ trong Phần 4.5. T ÁI THIẾT LẬP MÔ HÌNH Trong nhiều tình huống, tái xác đònh mô hình có thể làm giảm tính đa cộng tuyến. Ví dụ như chúng ta có thể diễn đạt các biến theo kiểu tính trên đầu người hơn là đưa dân số vào như là một biến giải thích. Trong Ví dụ 5.1 chẳng hạn, biến phụ thuộc sẽ là HOUSING/POP và, thay vì POP và GNP một cách riêng biệt, chúng ta sẽ chỉ có GNP/POP. GNP trên đầu người thì hầu như ít có tương quan với biến INTRATE hơn biến GNP và POP. Mô hình được ước lượng bây giờ trở thành là (xem Phần Thực hành trên máy tính 5.3)       HOUSING POP = 2,079 + 0,936       GNP POP − 0,698 INTRATE (0,62) (2,55) (- 3,75) R – 2 = 0,377 d.f. = 20 r(GNP/POP, INTRATE) = 0,843 Mặc dù R 2 có hiệu chỉnh ở đây hơi cao hơn trong Ví dụ 5.1, hai giá trò không thể so sánh được với nhau vì các biến phụ thuộc khác nhau. Tính đa cộng tuyến cũng không bò loại bỏ mà chỉ được làm giảm đi. Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 10 Do các biến chuỗi thời gian có nhấn mạnh vào các xu hướng một cách đặc trưng, người ta sẽ kỳ vọng tính cộng tuyến cao giữa chúng. Một cách phổ biến để tránh điều này là hình thành mô hình đối với những khác biệt đầu tiên, nghóa là sử dụng các biến như là những thay đổi từ một thời đoạn này sang thời đoạn khác. Chẳng hạn, thay vì hình thành một hàm tiêu thụ như C t = β 1 + β 2 C t-1 + β 3 Y t + β 4 Y t-1 + u t Trong đó tất cả các biến giải thích sẽ có tương quan cao, chúng ta có thể đặt mối liên hệ giữa thay đổi trong tiêu thụ với thay đổi trong thu nhập. Từ đó chúng ta sẽ thu được C t − C t-1 = α 1 + α 2 (Y t − Y t-1 ) + v t Nên chú ý rằng hai cách trình bày này không tương đương nhau và, cụ thể là cách trình bày thứ nhất giải thích mức độ tiêu thụ trong khi cách thứ hai diễn tả những thay đổi trong tiêu thụ. Người ta có thể dùng lý thuyết để quyết đònh một sự ưu tiên xem biến nào phù hợp. Nếu mục tiêu là để dự báo chi phí cho tiêu dùng, một so sánh dự báo có thể được thực hiện sau khi sử dụng mô hình thứ hai để phát ra một dự báo của mức độ tiêu dùng cho từng thời đoạn. Tất cả các bước này đòi hỏi suy nghó và cân nhắc kỹ lưỡng. Đôi khi các mô hình được tái thiết lập với sự kết hợp tuyến tính của các biến tương quan được sử dụng thay vì từøng biến một như là một biến riêng biệt. Một vấn đề xuất hiện đối với việc quyết đònh trọng số cho sự kết hợp tuyến tính này. Phân tích thành phần cơ sở là một cách để thể hiện vấn đề này (xem Judge et al., 1985). S Ử DỤNG THÔNG TIN BÊN NGOÀI Phương pháp sử dụng thông tin bên ngoài thường được áp dụng trong các nghiên cứu về sự ước lượng các hàm nhu cầu. Dữ liệu chuỗi thời gian về thu nhập và giá của một mặt hàng thường thể hiện một tương quan cao, mà nó làm cho việc ước lượng các độ co giãn về giá và thu nhập trở nên khó khăn. Một giải pháp cho vấn đề này là ước lượng độ co giãn thu nhập từ các nghiên cứu chéo và sau đó sử dụng thông tin đó trong mô hình chuỗi thời gian để ước lượng độ co giãn về giá. Độ co giãn giá không thể được ước lượng từ dữ liệu chéo bởi vì mặc dù người tiêu dùng hoàn toàn khác nhau trong các mức thu nhập, thì về cơ bản họ vẫn phải chòu cùng một loại giá. Do đó không có sự khác nhau trong giá bán, yếu tố rất quan trọng đối việc ước lượng thành công độ co giãn về giá (tham khảo phần thảo luận Giả thiết 3.2 trong Chương 3). Một vấn đề nghiêm trọng đối với phương pháp này là độ co giãn thu nhập chéo và độ co giãn thu nhập theo chuỗi thời gian có thể đo lường những thứ hoàn toàn khác nhau. Điểm này đã được Meyer và Kuh thảo luận năm 1957. T ĂNG KÍCH THƯỚC MẪU Thủ tục để gia tăng kích thước mẫu đôi khi được đề xuất dựa trên cơ sở cho rằng việc gia tăng sẽ làm cải thiện độ chính xác của một ước lượng và do đó giảm thiểu được những yếu tố phản tác dụng của tính đa cộng tuyến. Điểm lưu ý trong phương trình (5.4) và (5.5) là nếu kích thước mẫu tăng thì S 22 và S 33 sẽ cũng tăng. Nếu giá trò của r 2 , bao gồm cả mẫu mới, giảm xuống hoặc gần như không đổi, thì các phương sai của và sẽ giảm đáng kể và sẽ giảm tác động của tính đa cộng tuyến. Tuy nhiên, nếu r 2 tăng nhiều thì việc tăng kích thước mẫu có thể sẽ không có ích gì. Hơn nữa, một nhà khảo sát thu thập cụ thể tất cả những dữ liệu nào sẵn có (phụ thuộc vào những ràng buộc về ngân sách và thời gian), và do đó việc thêm dữ liệu có thể không khả thi vì một vấn đề thực tế. [...]... Doan/Hao Thi Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 0) 3) 5) 6) 7) const famsize highschl college medinc Phương pháp phân tích Bài đọc 19.1721 5. 4140 -0.1388 0.1 953 -0 .55 23 7.8263 1. 758 1 0.0627 0.0897 0.0667 Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến 2. 450 3.079 -2.214 2.178 -8.274 0.017634 0.003283 0.031161 0.033882 0.000000 ** *** ** ** *** Bảng 5. 3 (tiếp theo)... 43.38 75 1.904 S.D of dep variable Std Err of Resid (sgmahat) Adjusted R-squared p-value for F() First-order autocorr coeff 12 * *** * * *** 3. 955 1.69 25 0.817 0.000000 0.040 Thuc Doan/Hao Thi Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến MODEL SELECTION STATISTICS SGMASQ HQ GCV 2.86 453 3 .53 259 ... Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến 5. A PHỤ LỤC Chứng Minh các Phương Trình (5. 4) đến (5. 6) Dùng các ký hiệu của Phần 4.A.1 các Phương trình chuẩn (5. 2) và (5. 3) có thể được giải cho các hệ số β như sau (xem Phương trình 4.A.6 đến 4.A. 15) ˆ β2 = S y 2 S33 - S y 3 S 23 ˆ β3 = Trong đó (5. A.1) ∆ S y 3 S22 - S y 2 S23 (5. A.2) ∆ (5. A.3) E(Sy2) = β2S22 + β3S23 (5. A.4)... the 58 observations 1 -58 Dependent variable: povrate VARIABLE 0) 3) 5) 6) COEFFICIENT STDERROR T STAT 2Prob(t > |T|) const famsize highschl college 53 .2862 -3. 959 4 -0.4137 -0.4744 9.9879 2.0194 0.0798 0. 058 2 5. 3 35 -1.961 -5. 182 -8. 151 0.000002 0. 055 081 0.000003 0.000000 Error Sum of Sq (ESS) Unadjusted R-squared F-statistic (3 54 ) 346.1406 0.612 28.3 753 *** * *** *** Std Err of Resid (sgmahat) 2 .53 18... sử dụng số quan sát 1 – 58 3) famsize 4) unemp 5) highschl 6) college 0. 350 0.110 0.211 - 0. 358 1.000 0.4 85 - 0 .50 8 - 0.300 1.000 - 0.109 - 0. 757 1.000 - 0. 358 1.000 7) medinc - 0.084 (2 - 0.0 35 (3 - 0.714 (4 - 0.280 (5 0.848 (6 1.000 (7 [Ước lượng mô hình tổng quát với tất cả các biến giải thích.] 2) urb 1.000 (2 (3 (4 (5 (6 MODEL 1: OLS estimates using the 58 observations 1 -58 Dependent variable:... COEFFICIENT 16 .56 54 -0.0184 6.0496 -0.1166 0.1746 -0 .53 43 8.03 25 0.0142 1.81 45 0.0646 0.09 05 0.0677 2.062 -1.296 3.334 -1.8 05 1.929 -7.894 0.044192 0.200710 0.00 158 3 0.076822 0. 059 138 0.000000 Mean of dep var Error Sum of Sq (ESS) Unadjusted R-squared F-statistic (5 52) Durbin-Watson stat 9.903 146.1190 0.836 53 .0737 1.901 ** *** * * *** S.D of dep variable 3. 955 Std Err of Resid (sgmahat) 1.6763 Adjusted... đình có thu nhập dưới mức nghèo khó Các biến độc lập thì được xác đònh như sau (xem thêm chi tiết ở Phụ lục D và Phần Thực hành trên máy tính 5. 5): urb = Phần trăm của tổng dân số thành thò Ramu Ramanathan 11 Thuc Doan/Hao Thi Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 famsize unemp highschl college Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng... (5. A.7) σ 2 S22 ˆ Var (β 3 ) = ∆ (5. A.8) ˆ Var (β 2 ) = - σ 2 S23 ˆ ˆ Cov(β 2 , β 3 ) = ∆ (5. A.9) Từ (5. A.6) và Tính chất 2.8c Var(Sy2) = Var(Sv2) Từ Tính chất 2.9e Var (Sy2) = ∑x22Var(v) = σ2∑x22 = σ2S22 Ramu Ramanathan 17 Thuc Doan/Hao Thi Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Var (Sy3) =... Unadjusted R-squared F-statistic (4 53 ) Durbin-Watson stat 9.903 150 .83 85 0.831 65. 0877 2.0 25 S.D of dep variable 3. 955 Std Err of Resid (sgmahat) 1.6870 Adjusted R-squared 0.818 p-value for F() 0.000000 First-order autocorr coeff -0.0 25 MODEL SELECTION STATISTICS SGMASQ HQ GCV 2.84601 3.31139 3.11 45 AIC SCHWARZ RICE 3.09003 3.69066 3.14247 FPE SHIBATA 3.091 35 3.049 05 Of the 8 model selection statistics.. .Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến CÁC BIỆN PHÁP KHÁC Một số phương pháp đã được đưa ra trong cơ sở lý thuyết, hầu hết chúng đều không theo thể thức, và không được sự nhất trí cho lắm giữa các nhà kinh tế lượng về mức độ hữu ích của các phương . (0,06) AGE 7, 35 (22,16) 27 ,58 (9 ,58 ) MILES 53 , 45 (18,27) − 151 , 15 (−7,06) d.f. 55 55 54 R − 2 0,897 0, 856 0,946 MSE 1 35, 861 190,941 72,010 MAPE. u 2t Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5:

Ngày đăng: 20/01/2014, 03:20

TỪ KHÓA LIÊN QUAN