Các loại sai sót của dạng mô hình hồi qui Các dạng sai sót của dạng mô hình như sau: Bỏ sót biến quan trọng, Đưa biến không liên quan vào mô hình, Sử dụng dạng hàm số không đúng, [r]
(1)CHƯƠNG KIỂM ĐỊNH VÀ LỰA CHỌN MÔ HÌNH Các loại sai sót dạng mô hình hồi qui Hậu sai sót mô hình Phương pháp phát các sai sót dạng mô hình hồi qui Tiêu chuẩn lựa chọn mô hình (2) Các loại sai sót dạng mô hình hồi qui Các dạng sai sót dạng mô hình sau: Bỏ sót biến quan trọng, Đưa biến không liên quan vào mô hình, Sử dụng dạng hàm số không đúng, Sai số đo lường, và Xác định dạng phần sai số không đúng (3) Ví dụ hàm chi phí doanh nghiệp, dạng hàm đúng là: Yi = b1 + b2Xi + b3Xi2 + b4Xi3 + u1i (6.1) Bỏ sót biến quan trọng (Xi3): Yi = a1 + a2Xi + a3Xi2 + u2i (6.2) Đưa biến không liên quan vào mô hình (Xi4): Yi = l1 + l2Xi + l3Xi2 + l4Xi3 + l5Xi4 + u3i (6.4) Dạng hàm sai lnY = g1 + g2Xi + g3Xi2 + g4Xi3 + u4i (6.6) (4) Sai lệch đo lường Yi* = b1* + b2*Xi* + b3*Xi*2 + b4*Xi*3 + ui* đó Yi* = Yi + εi và Xi* = Xi + wi; εi và wi là sai số phép đo lường Như vậy, thay vì sử dụng các biến số đúng là Yi và Xi, chúng ta lại sử dụng các biến thay là Yi* và Xi* có chứa các sai số dạng ngẫu nhiên không thích hợp phần sai số: Yi = Xiui khác với Yi = Xi + ui, (5) Theo trường phái trọng tiền, thay đổi GDP kinh tế chịu ảnh hưởng thay đổi lượng cung tiền, đó, theo Keynes, thay đổi lượng chi mua hàng hóa dịch vụ chính phủ ảnh hưởng lớn đến GDP có sai sót, kết phép ước lượng không thỏa mãn các đặc điểm “ước lượng không chệch tuyến tính tốt nhất” (BLUE) chúng tôi tập trung phát hai loại sai sót đầu tiên (6) Hậu sai sót mô hình Để minh họa, ta dùng mô hình biến và xem xét loại sai sót đầu tiên: Bỏ sót biến có liên quan: Giả sử dạng đúng mô hình là: Yi = 1 + 2X2i + 3X3i + ui (1) Nhưng ta lại sử dụng mô hình: Yi = 1 + 2X2i + vi (2) (7) Hậu sai sót mô hình Ta gặp hậu sau: Nếu biến bị bỏ sót có tương quan với biến sẵn có mô hình, tức là r23 0, 1 và 2 bị chệch và không vững Thậm chí X2 và X3 không có tương quan thì 1 bị chệch, mặc dù 2 không chệch Var(ui) = 2 bị ước lượng sai Var(2) là ước lượng chệch var(2) Do vậy, khoảng tin cậy và các kiểm định không chính xác Dự báo dựa trên mô hình sai không đáng tin cậy (8) Hậu sai sót mô hình Đưa vào mô hình biến không có liên quan Giả sử mô hình đúng sau: Yi = 1 + 2X2i + ui (3) Nh ưng ta lại ước lượng mô hình: Yi = 1 + 2X2i + 3X3i + vi (4) Những hậu quả: Các ước lượng OLS không chệch và vững, tức là: E(1)=1; E(2)=2; và E(3)=0; (9) Hậu sai sót mô hình Phương sai sai số, 2, ước lượng đúng; Khoảng tin cậy và các kiểm định đáng tin cậy; Tuy nhiên, các ước lượng không hiệu quả, tức là, phương sai chúng có thể lớn phương sai (10) Phương pháp phát các sai sót dạng mô hình hồi qui Phát diện các biến không liên quan Yi = b1 + b2X2i + …+ bkXki + ui Xk có thực nằm mô hình hay không, dùng kiểm định t: t ˆ k / se( ˆ k ) => khai thác liệu =>có thể dẫn tới sai lầm sau (11) khai thác liệu (data mining) chúng ta lựa k biến (k ≤ c) mức ý nghĩa thực (*) từ mức ý nghĩa danh nghĩa () có thể tính theo công thức sau: * ≈ (c/k). c = 15, k = 5, và = 5%, ta có thể tính mức ý nghĩa thực là (15/5) (5) = 15% lưu ý c = k thì không có tượng khai thác liệu (12) Kiểm định biến bị bỏ sót và dạng hàm số không đúng 2.1 Kiểm tra phần dư hàm chi phí doanh nghiệp: Yi = b1 + b2Xi + b3Xi2 + b4Xi3 + u1i (1) Yi = a1 + a2Xi + a3Xi2 + u2i Yi = a1 + a2Xi + u3i (2) (3) (13) sanluong 10 -400 -200 Residuals 200 400 (14) 2.2 Kiểm định Durbin-Watson d H : mô hình không có tự tương quan H : = 0; H : Nếu d < d (4 - d) < U dU thì bác bỏ giả thuyết H0, chấp nhận H1, tức có tự tương quan (dương âm) Giả thuyết H0 Quyết định Không có tự tương quan dương Không có tự tương quan dương Bác bỏ Không qđ < d < dL Không có tự tương quan âm Không có tự tương quan âm Bác bỏ Không qđ - dL < d <4 Không có tự tương quan âm Chấp nhận dương dL d dU -dU d 4 dL dU d - d U (15) 2.3 Kiểm định RESET Ramsey Để minh họa, ta trở lại hàm chi phí tuyến tính theo sản lượng: Yi = 1 + 2Xi + u3i (*) Ước lượng mô hình này OLS và vẽ đồ thị sai số theo giá trị, Yi Hình vẽ cho ta thấy mối quan hệ có hệ thống ei và Yi Các bước tiến hành: (16) (17) Kiểm định RESET Ramsey Chạy hồi quy mô hình (*), và tính toán ước lượng Yi, Yi Chạy lại (*) và đưa thêm biến Yi vào mô hình dạng biến nào đó, chẳng hạn, Yi2 và Yi3 Yi = 1 + 2Xi + 3Yi2 + 4Yi3 + ui (**) Đặt R2 từ (**) là Rnew2 và từ (*) là Rold2 Chúng ta dùng kiểm định F theo công thức: (18) Kiểm định RESET Ramsey Nếu F > F tra bảng mức ý nghĩa nào đó, ta chấp nhận có việc bỏ sót biến Ví dụ: (19) Kiểm định RESET Ramsey: ví dụ (20) Ví dụ: H0: mô hình không bỏ sót biến Giá trị kiểm định F thu trực tiếp từ phần mềm Stata ovtest Ramsey RESET test using powers fitted values of chiphi Ho: model has no omitted F(3, 4) = Prob > F = of the variables 1.52 0.3380 (21) 2.3 Kiểm định RESET Ramsey Một thuận lợi phương pháp RESET là nó dễ áp dụng vì nó không đòi hỏi chúng ta phải biết rõ các dạng mô hình liên quan Tuy nhiên, đó lại là bất lợi phương pháp này vì chúng ta biết mô hình có sai sót, chúng ta không có dạng mô hình tốt để thay (22) 2.4 Kiểm định hệ số Lagrange (LM) biến thêm vào Nếu chúng ta so sánh hàm chi phí tuyến tính với hàm chi phí bậc ba thì hàm tuyến tính chính là phiên bị giới hạn hàm bậc ba H : hệ số biến sản lượng bình phương và lập phương không Các biến tiến hành: (23) Kiểm định hệ số Lagrange Ước lượng “phiên bị giới hạn” OLS và thu thập sai số, ei Nếu “phiên không bị giới hạn” là đúng thì ei trên có tương quan với X2 và X3 Chạy hồi quy e theo tất các biến: i ei = 1 + 2Xi + 3Xi2 + 4X3 + vi vi thỏa các giả định mô hình CLRM Khi cở mẫu lớn, (24) Kiểm định hệ số Lagrange Nếu nR2 > 2 tra bảng, ta bác bỏ H0: các hệ số X2 và X3 không; tức là chúng khác 0, hay mô hình bỏ sót biến Ví dụ: ta trở lại hàm chi phí tuyến tính: nR2 = 10.(0,9896)=9,896 > 2 tra bảng = 9,2 Kết này giống kiểm định RESET (25) Sai số phép đo lường liệu có thể thiếu chính xác số lý như: • sai số cung cấp thông tin, • sai số báo cáo • hay sai số tính toán gây mô hình sai lệch Chúng ta có thể xem xét hậu việc này trường hợp: 3.1 Sai số biến phụ thuộc Y: (26) 3.1 Sai số biến phụ thuộc Y: Giả sử ta có mô hình: Yi* = + Xi + ui (1) Yi*: tiêu dùng thường xuyên hộ; Xi: thu nhập hành và ui: sai số ngẫu nhiên Do Yi* không thể đo lường trực tiếp nên ta quan sát: Yi = Yi* + i (2) Ta viết lại (1): Yi = ( + Xi + ui) + i = + Xi + (ui + i) = + Xi + vi (3) Nếu ui và i thỏa mãn các giả định CLRM thì các ước lượng OLS không chệch phương sai ước lượng thay đổi (27) 3.1 Sai số biến phụ thuộc Y: Ta thấy phương sai, và đó sai số chuẩn tăng lên có sai số đo lường Yi (28) 3.2 Sai số đo lường biến độc lập Xi: Giả sử ta có mô hình: Yi = + Xi* + ui (4) Thay vì quan sát Xi*, ta quan sát Xi: Xi = Xi* + wi (5) Do vậy, thay vì ước lượng (4), ta lại ước lượng: Yi = + (Xi – wi) + ui = + Xi + (ui - wi) = + Xi + zi (6) Bây giờ, chí wi có trung bình 0, độc lập và không tương quan với ui, chúng ta không thể có zi độc lập với Xi (29) 3.2 Sai số đo lường biến độc lập Xi: Cov(zi, Xi) = E[zi – E(zi)][Xi – E(Xi – E(Xi)] = E(ui - wi)wi=E(-wi2)=-w2 0 Do vậy, Xi và zi có tương quan và vi phạm các giả định CLRM Các ước lượng OLS bị chệch mà còn không vững Hậu loại sai sót nghiêm trọng khó có thể khắc phục nó vì ta không biết Xi nào cho đúng Ta có thể giả định w2 nhỏ nên xem không có sai số này và dùng OLS bình thường (30) Xác định dạng phần sai số không đúng Do chúng ta không thể quan sát trực tiếp phần sai số nên để định dạng cho nó không phải là việc dễ dàng Chúng ta xem lại phần sai số sau: Yi = Xiui (*) và Yi = Xi + ui (**) Nếu (*) đúng lại ước lượng (**), thì ước lượng chệch (31) Tiêu chuẩn lựa chọn mô hình R 2, R2 điều chỉnh, Tiêu chuẩn thông tin Akaike (AIC), Tiêu chuẩn thông tin Schwarz (SIC), Tiêu chuẩn Cp Mallows, và dự báo χ2 (32) Martin Feldstein: “Nhà kinh tế lượng ứng dụng, giống các nhà lý thuyết, nhanh chóng phát mô hình hữu ích không phải là mô hình “đúng” hay “thực tế” mà là mô hình tiết kiệm, đáng tin cậy và cung cấp nhiều thông tin” (33) Tiêu chuẩn R R2 đo lường % biến động Y giải thích các Xi mô hình R2 càng gần 1, mô hình cành phù hợp Lưu ý: • Nó đo lường phù hợp “trong mẫu” • Khi so sánh R2 các mô hình khác nhau, các biến phụ thuộc phải giống • R2 không giảm tăng thêm biến độc lập (34) Tiêu chuẩn R điều chỉnh (R ) Ta thấyR2 R2.R2 tăng giá trị tuyệt đối giá trị t biến thêm vào mô hình lớn Do vậy,R2 là tiêu chuẩn tốt R2 Lưu ý, các biến phụ thuộc phải giống (35) Tiêu chuẩn thông tin Akaike (AIC) Để tiện lợi cho việc tính toán, ta lấy log: Trong đó k là số biến ước lượng (gồm hệ số tự do) và n là cở mẫu Ta thấy AIC phát sai sót khắt khe các tiêu chuẩn trên tăng thêm số biến Mô hình nào AIC thấp thì tốt (36) Tiêu chuẩn thông tin Schwarz (SIC) hay SIC còn khắt khe AIC SIC càng nhỏ, mô hình càng tốt (37) Tiêu chuẩn Cp Mallows (38)