Dữ liệu bảng (panel data) là loại dữ liệu đa hƣớng (multi-dimensional data), gồm các quan sát giữa các doanh nghiệp khác nhau trong nhiều khoảng thời gian. Theo Gujarati (2003), dữ liệu bảng có những ƣu điểm sau so với dữ liệu chuỗi thời gian (time series) hay dữ liệu chéo (cross section data):
- Cung cấp nhiều thông tin hơn, mức độ tự do cao hơn, và ƣớc lƣợng hiệu quả hơn
- Bằng cách nghiên cứu sự lập lại của các dữ liệu chéo, dữ liệu bảng có thể giúp phát hiện ra các nguyên nhân của biến động qua lại giữa các yếu tố nhƣ năng suất và hiệu quả sử dụng tài sản.
Trong phần tiếp theo chúng ta sẽ tóm tắt một số khái niệm quan trọng liên quan đến dữ liệu bảng cũng nhƣ các mô hình phân tích.
30 Y=α + β1X1 + β2X2 + ε
Phƣơng pháp bình phƣơng nhỏ nhất (OLS) có thể giúp xác định các hệ số β hiệu quả và không sai lệch (efficient & unbiased) nếu phƣơng trình trên thỏa mãn một số điều kiện (gọi là các điều kiện OLS, xem Gujarati, 2003). Một trong số các điều kiện trên yêu cầu các biến X phải đƣợc xác định trƣớc (predetermined), tức là X phải độc lập với số dƣ (ε). Nếu điều kiện này không đƣợc thỏa mãn thì các ƣớc lƣợng OLS sẽ không chính xác và tin cậy. Trong rất nhiều trƣờng hợp thực tế, cả hai biến X và Y có tác động qua lại, tức là, không chỉ X ảnh hƣởng đến Y mà đồng thời Y cũng ảnh hƣởng đến X, khiến cho X không độc lập với số dƣ ε. Để khắc phục điều này, các nhà kinh tế học đề xuất một số phƣơng pháp nhƣ bình phƣơng 2 bƣớc (2-stage least square, 2SLS) hay mô hình IV GMM (Instrumental Variable Generalized Method of Moment). Trong nghiên cứu các yếu tố ảnh hƣởng đến năng suất TFP, chúng tôi sử dụng mô hình GMM sai phân của Arellano – Bond (Arellano – Bond difference GMM estimator) vì những lý do sau đây:
- Năng suất TFP bị ảnh hƣởng bởi các yếu tố nhƣ trình độ ngƣời lao động (đo bằng lƣơng trung bình), hiệu quả quản lý của doanh nghiệp (đo bằng lợi nhuận biên, suất sinh lợi trên tài sản hay suất sinh lợi trên vốn). Nhƣng ngƣợc lại, năng suất TFP cũng ảnh hƣởng đến các yếu tố này. Cụ thể, năng suất cao thì thu nhập ngƣời lao động cũng cao hơn. Ngoài ra, năng suất TFP cao thì cũng sẽ dẫn đến khả năng lợi nhuận của doanh nghiệp cao hơn. Chính vì tác động qua lại giữa biến phụ thuộc (Năng suất TFP) và các biến độc lập (nhƣ lƣơng bình quân, lợi nhuận biện,…) nên ta cần mô hình hồi qui năng động (dynamic GMM).
- Các yếu tố đặc điểm của ngành, cố định theo thời gian có thể tƣơng quan cao với các số dƣ trong phƣơng trình hồi qui nên mô hình sai phân (first difference) là phù hợp để loại trừ ảnh hƣởng của các yếu tố cố định (fixed effects).
- Cuối cùng, đặc điểm của mẫu nghiên cứu gồm 10 năm (T=10) trong khi có rất nhiều phân ngành khác nhau (N>>10) nên mô hình Arellano – Bond (1991) difference GMM là phù hợp.
31