L R= 2(R – U) (7.106) Trong đó, R và U là các giá trị tối đa hóa của hàm log-likelihood của ha
Hậu quả của việc thừa biến giải thích không cần thiết
So với việc bỏ sót biến giải thích quan trọng, thì nếu một mô hình hồi quy bao gồm các biến giải thích không có ảnh hưởng gì đến biến phụ thuộc, thì vấn đề không quá nghiêm trọng. Giả sử, mô hình đúng sẽ có dạng như sau:
Y = 1 + 2X2 + u (7.134) Và bây giờ chúng ta lại ước lượng mô hình sau đây:
Y = 1 + 2X2 + 3X3 + u (7.135) Như vậy, X3 bị đưa vào mô hình một cách dư thừa. Trong trường hợp này, vì X3 không thuộc phương trình (7.135), nên hệ số hồi quy tổng thể của nó bằng không ( 3 = 0). Nếu 3 = 0, thì không có một giả định nào của mô hình hồi quy tuyến tính cổ điển bị phá vỡ khi ta ước lượng phương trình (7.135) và vì thế các ước lượng OLS vẫn không chệch và nhất quán. Tuy nhiên, việc đưa vào mô hình một biến không cần thiết làm cho các ước lượng OLS của 1 và 2 không còn đảm bảo hiệu quả một cách hoàn toàn. Trong trường hợp X3 có tương quan với X2, thì chúng ta có thể gặp phải vấn đề đa cộng tuyến. Và hậu quả có thể làm cho sai số chuẩn của ˆ cao 2 hơn, và khả năng chấp nhận giả thiết H0 cho rằng X2 không ảnh hưởng lên Y (mặc dù thực chất là có). Chính vì vậy, chúng ta thường ‘lo lắng’ việc bỏ sót biến giải thích quan trọng hơn là việc đưa thừa biến giải thích không cần thiết khi thực hiện dự báo bằng các mô hình nhân quả.
Trên thực tế, nhiều khi chúng ta vừa bỏ sót biến giải thích quan trọng vừa đưa biến giải thích không cần thiết vào mô hình. Và, dĩ nhiên, hậu quả mà chúng ta gặp phải sẽ là hậu quả của cả hai trường hợp trên.
Ngoài ra, trong nhiều trường hợp chúng ta không có thông tin về một hoặc một số biến giải thích quan trọng (theo lý thuyết kinh tế), nhưng chúng ta không có sẵn thông tin hoặc khó thu thập thông tin một cách chính xác, thì chúng ta nên tìm các biến đại diện khác có thể thu thập được (ví dụ biến giả).
DẠNG HÀM
Một trong những mục đích quan trọng nhất của dự báo là ước lượng các hệ số co giãn hoặc xây dựng các hàm lợi ích/chi phí biên (ví dụ doanh thu biên, chi phí biên). Tuy nhiên, trên thực tế chúng ta thường gặp phải vấn đề
61
chọn lựa sai dạng hàm (nhất là đối với các nhà nghiên cứu hoặc doanh nghiệp Việt Nam luôn khan hiếm nguồn tài liệu tham khảo các nghiên cứu trước đây). Ví dụ, dạng hàm đúng là phi tuyến nhưng ta lại ước lượng dạng hàm tuyến tính. Lỗi sai dạng hàm thường dẫn đến các vấn đề như tự tương quan hoặc phương sai thay đổi. Hơn nữa, nếu chọn sai dạng hàm sẽ dẫn đến khả năng dự báo sai các hệ số co giãn hoặc không xác định đúng đắn dạng hàm lợi ích/chi phí biên, và điều này có thể dẫn đến việc ra quyết định sai lầm. Một cách phát hiện sai dạng hàm là xem xét đồ thị phần dư. Nếu đồ thị phần dư biểu thị một phân tán theo một hệ thống nhất định, thì chúng ta có thể hoài nghi về khả năng sai dạng mô hình. Dưới đây là một số dạng hàm được sử dụng phổ biến trong phân tích kinh tế lượng và dự báo:
BẢNG 7.12: Dạng hàm
Tên hàm Dạng hàm Ảnh hưởng biên
(dY/dX) Độ co giãn (X/Y)(dY/dX) Tuyến tính Y = 1 + 2X 2 2X/Y Lin-Log Y = 1 + 2lnX 2/X 2/Y Nghịch đảo Y = 1 + 2(1/X) - 2/X2 - 2/(XY) Bậc hai Y = 1 + 2X + 3X2 2 + 2 3X ( 2 + 2 3X)X/Y Tương tác Y = 1 + 2X + 3XZ 2 + 3Z ( 2 + 3Z)X/Y Log-Lin lnY = 1 + 2X 2Y 2X
Log-Nghịch đảo lnY = 1 + 2(1/X) - 2Y/X2 - 2/X Log-Bậc hai lnY = 1 + 2X + 3X2 Y( 2 + 2 3X) X( 2 + 2 3X)
Log kép lnY = 1 + 2lnX 2Y/X 2
Logistic ln[Y/(1-Y)] = 1 + 2X 2Y(1-Y) 2(1-Y)X Việc lựa chọn dạng hàm (thông thường dựa trên cơ sở lý thuyết và khảo sát dữ liệu thực tế) đóng một vai trò quan trọng trong việc giải thích các hệ số hồi quy và tránh lỗi sai dạng hàm. Vì thế, chúng ta cần có một cách kiểm định chính thức để hướng dẫn chúng ta nên sử dụng dạng hàm nào cho một trường hợp cụ thể (đặc biệt trong những trường hợp chúng ta không biết chắc chắn về mối quan hệ tổng thể). Nếu các mô hình có biến phụ thuộc giống nhau, thì chúng ta có thể sử dụng tiêu chí R2
. Tuy nhiên, trong nhiều trường hợp chúng ta phải cân nhắc giữa các mô hình có biến phụ thuộc khác nhau, thì phương pháp chuyển hóa Box-Cox (1964) là một lựa chọn tối ưu.
Giả sử, chúng ta phải lựa chọn giữa hai mô hình sau đây:
Yt = 1 + 2Xt (7.136)
và
62
Bước 1: Tính giá trị trung bình hình học của các giá trị Yt mẫu: ) Y ln n 1 exp( ) Y ... Y Y Y ( Y 1 2 3 n 1/n t (7.138)
Bước 2: Chuyển hóa giá trị Yt bằng cách chia từng quan sát của Yt cho Y , và ta có:
Y Y
Yt* t (7.139)
Bước 3: Ước lượng các phương trình (7.136) và (7.137) với Y được dùng t*
thay cho Yt. Bây giờ, RSS của hai mô hình có thể được so sánh trực tiếp, và phương trình nào có RSS bé hơn sẽ tốt hơn.
Bước 4: Nếu muốn kiểm định để biết phương trình nào tốt hơn một cách
có ý nghĩa thống kê, thì chúng ta phải tính một thống kê kiểm định sau đây: 1 2 RSS RSS ln n 2 1 (7.140) Trong đó, RSS2 là RSS của phương trình có RSS cao hơn. Thống kê trên sẽ theo phân phối 2
với 1 bậc tự do. Nếu giá trị 2 tính toán lớn hơn 2
tra bảng, thì ta kết luận rằng mô hình với RSS thấp hơn là mô hình có dạng hàm phù hợp hơn một cách có ý nghĩa thống kê.