3.2.1 Mô hình hồi quy dữ liệu bảng
Theo Gujarati,biểu thức cho mô hình có dạng như sau:
1 2 3
Υ = β + βit X2it+ βX3it+ + β... kXkit+uit (3.13) với ∈ *
i, t N , E u( )it N 0,( σ2)
Ước lượng biểu thức này dựa trên những trường hợp giảđịnh về hệ số tung độ gốc, hệ số độ dốc và sai số ngẫu nhiênuit như sau:
TH1: hệ số trục tung và hệ sốđộ dốc không đổi theo thời gian và các đơn vị chéo. TH2: hệ số độ dốc không đổi nhưng hệ số trục tung khác nhau giữa các đơn vị
chéo.
TH3: hệ số độ dốc không đổi nhưng hệ số trục tung biến đổi giữa các đơn vị chéo và theo thời gian.
TH4: tất cả các hệ sốđộ dốc và hệ số trục tung biến đổi theo các đơn vị chéo. TH5: tất cả các hệ số độ dốc và hệ số trục tung biến đổi theo các đơn vị chéo và
Chúng ta sẽ lần lượt đề cập đến từng trường hợp, xem xét những ưu nhược điểm để từ đó chọn ra mô hình phù hợp cho nghiên cứu.
Trường hợp 1 là hệ số trục tung và hệ số độ dốc không đổi theo thời gian và các đơn vị chéo.Trường hợp này thể hiện trong biểu thức (3.13). Đây là trường hợp đơn giản nhất, trong trường hợp này ta bỏ qua kích thước dữ liệu gộp theo không gian và thời gian mà chỉ hồi quy đơn thuần theo theo OLS. Tuy nhiên, phương pháp này thường dẫn đến hiện tượng tự tương quan trong dữ liệu hay ràng buộc phần dư làm cho giá trị Durbin-Watson thấp. Bên cạnh đó, ràng buộc của giả định trong trường hợp này rất cao, đây cũng là một hạn chế của mô hình. Trong trường hợp của nghiên cứu này, giả định có nghĩa là giá trị tung độ gốc của 51 công ty là như nhau cũng như hệ số độ dốc của các biến giải thích đồng nhất cho cả 51 công ty trong mẫu.
Trường hợp 2: hệ số độ dốc không đổi nhưng hệ số trục tung khác nhau giữa các đơn vị chéo. Mô hình (3.13) có thể viết lại như sau:
1 2 3
Υ = β + βit i X2it+ βX3it+ + β... kXkit+uit (3.14) Trong đó, sự khác biệt về hệ số trục tung có thể biểu thị cho đặc tính của mỗi công
ty, như lối điều hành, quản trị của công ty,…Mô hình (3.14) được gọi là FEM. Mô hình thích hợp trong trường hợp mẫu có kích thước thời gian tương đối ngắn.
Ý tưởng sự khác biệt trong tung độ gốc thể hiện thông qua biến giảđược đưa vào mô hình đại diện cho đặc tính nào của dữ liệu chéo mà nghiên cứu muốn đề cập. Mô hình khi có biến giảđược thể hiện như sau:
1 2 2 3
Υ = α + αit D2i+ α3D3i+ + β... X2it+ βX3it+ + β... kXkit+uit (3.15) Mô hình (3.15) còn được gọi là LSDV. Khác biệt giữa (3.15) với (3.13) là hệ số tung độ gốc có thể thay đổi giữa các công ty. Để so sánh mô hình (3.13) và (3.15) xem mô hình nào tốt hơn, ta có thể dùng kiểm định Wald.
Ngoài ra, tương tự mô hình (3.15) có thể giải thích được trong trường hợp hệ số tung độ gốc biến đổi giữa các đơn vị chéo và theo thời gian (trường hợp 3) bằng cách thêm biến giả giải thích vào mô hình (3.15). Giới hạn của FEM và LSDV là giảm bậc tự do của dữ liệu đi rất nhiều, nguy cơđa cộng tuyến vì có quá nhiều biến.
Trường hợp 4: tất cả các hệ số độ dốc và hệ số trục tung biến đổi theo các đơn vị chéo. Trường hợp này ta giả định tất cả các hệ số khác nhau theo các đơn vị chéo, ví dụ
chức năng đầu tư của các công ty khác nhau. Mô hình ước lượng có thể mở rộng LSDV bằng cách thêm những biến giả giải thích. Mô hình hồi quy có thể viết lại như sau:
1 2 2 3 1 2 3 3
Υ = α + αit D2i+ + β... X2it+ β X3it+ + γ... D X2i 2it+ γ D Xi it+ +... uit (3.16) Những biến có γ thể hiện hệ sốđộ dốc khác nhau, các biến α thể hiện hệ số tung độ
gốc khác nhau. Nếu γ nào có ý nghĩa thì chứng tỏ hệ số độ dốc của biến đó khác biệt so với các biến còn lại. Ví dụ như β2và γ1có ý nghĩa thống kê, thì (γ + β1 2)là giá trị hệ số độ dốc của biến Χ2.
Nhìn chung, giới hạn của FEM và LSDV là giảm bậc tự do của dữ liệu đi rất nhiều, nguy cơ đa cộng tuyến vì có quá nhiều biến. Mô hình LSDV có quá nhiều biến giả gây phức tạp mô hình và không hiệu quả trong sử dụng biến giả mô tả ảnh hưởng theo thời gian. Sau đây trình bày một cách hồi quy dữ liệu theo hình thức tiếp cận ảnh hưởng ngẫu nhiên.
Mô hình hồi quy theo hình thức tiếp cận ảnh hưởng ngẫu nhiên. Ý tưởng của tiếp cận này cho rằng sự khác biệt về các điều kiện đặc thù của các đơn vị chéo được chứa đựng trong phần sai số ngẫu nhiên. Mô hình được đề xuất có tên gọi là REM. Ý tưởng cơ bản của mô hình được viết như sau:
1 2 3
Υ = β + βit i X2it+ β X3it+ + β... kXkit+uit (3.17) trong đó, thay vì β1icố định, mô hình giả định β1ilà một biến ngẫu nhiên với giá trị trung bình là β1. Và giá trị hệ số tung độ gốc cho mỗi giá trị chéo có thểđược diễn tả như sau:
1 1
β = β + εi i ;với ∈ *
i N
với, εilà sai số ngẫu nhiên với giá trị trung bình là 0 và phương sai 2 ε σ .
Giả sử trong trường hợp nghiên cứu thì có thể hiểu là các công ty trong mẫu được lấy từ một tập hợp và có giá trị trung bình của tung độ gốc là β1và sự khác biệt trong giá trị hệ số tung độ gốc của mỗi công ty được phản ánh qua εi.
Mô hình (3.16) có thể được viết lại như sau:
1
Υ = β + βit 2X2it+ β3X3it+ + ε +... i uit (3.18) Hay Υ = β + βit 1 2X2it+ β3X3it+ +... wit; với wit = ε +i uit
it
u là sai số của dữ liệu bảng.
Nhìn chung, mô hình FEM hay REM tốt hơn cho nghiên cứu phụ thuộc vào giả định có hay không sự tương quan giữa εi và các biến giải thích X. Nếu giảđịnh rằng không tương quan, thì REM phù hợp hơn, và ngược lại. Ngoài ra, nếu căn cứ vào N (số dữ liệu chéo) và T (độ dài thời gian nghiên cứu) thì theo Judge, REM và FEM không phân biệt khi T lớn và N nhỏ, khá khác biệt khi N lớn và T nhỏ. Bên cạnh đó, Hausman test cũng là một phương án trong việc chọn phương pháp tốt nhất giữa FEM và REM.
Trong trường hợp chuyên đề, dữ liệu bảng với kích thước thời gian ngắn từ năm 2005-2009 không thể ước lượng mô hình mà tất cả các hệ số thay đổi giữa các đơn vị chéo. Do vậy, dự đoán có hai mô hình khả thi trong trường hợp này là FEM với giả định hệ số độ dốc không đổi nhưng hệ số trục tung khác nhau giữa các đơn vị chéo và REM. Tuy thế trong phần hồi quy, nghiên cứu sẽ lầ lượt đi qua cả ba mô hình là OLS, FEM và REM để chọn mô hình bthích hợp nhất.
3.2.2 Các kiểm định trong mô hình dữ liệu bảng
Kiểm định Durbin-Watson (DW)
Kiểm định này nhằm xác định có hay không hiện tượng tự tương quan trong mô hình. Thông thường, kết luận cho hiện tượng tự tương quan này như sau:
Nếu giá trị d trong kiểm định DW:
1< d < 3: không có hiện tượng tự tương quan.
0 <d <1: mô hình có hiện tượng tự tương quan dương. 3 <d <4: mô hình có hiện tượng tự tương quan âm.
Kiểm định Wald
Nhằm mục đích xác định xem hệ số tung độ gốc có bằng nhau giữa các biến hay không, điều này đồng nghĩa với hệ sô tung độ gốc của các công ty có bằng nhau không. Nếu bằng nhau tức là thoả giả định trường hợp 1, ta có thể dùng kiểm định gộp trường hợp 3.13 để hồi quy dữ liệu.
0
H : tung độ gốc bằng nhau giữa các biến
1
Nếu α > p-value thì giả thiết H0bị bác bỏ và cho phép kết luận là tung độ gốc không bằng nhau giữa các biến, phương pháp FEM có thể khả thi.
Kiểm định Hausman
Kiểm định trên nhằm lựa chọn phương pháp FEM hay REM phù hợp cho hồi quy dữ liệu mẫu, dựa trên giả định H0 không sự tương quan giữa biến giải thích và yếu tố ngẫu nhiên
εi vì tương quan là nguyên nhân tạo nên sự khác biệt giữa FEM và REM (H1).
0
H : FEM và REM không khác biệt đáng kể
1
H : FEM và REM khác biệt đáng kể
Nếu α > p-value cho phép kết luận giả thiết H0bị bác bỏ, khi đó ta kết luận là FEM phù hợp hơn để sử dụng. Ngược lại, REM phù hợp cho mô hình nếu chấp nhận giả thiết H0.
Kiểm định hệ số của các biến giải thích (βi)
0
H : hệ số không có ý nghĩa thống kê
1
H : hệ số không có ý nghĩa thống kê
Nếu α > p-value thì giả thiết H0bị bác bỏ, hay nói cách khác là biến được kiểm định đó tác động tới cấu trúc vốn hệ số một cách có ý nghĩa thống kê.