Đề tài đã chọn 444 doanh nghiệp trong giai đoạn 2011-2016 để nghiên cứu, tạo nên bộ số liệu với 2664 quan sát, cấu trúc dữ liệu bảng cân đối. Đề tài sử dụng dữ liệu bảng vì dữ liệu bảng có những ưu điểm sau đây (Ulrich, 2009):
- Dữ liệu bảng liên hệ đến các doanh nghiệp theo thời gian, nên chắc chắn có tính
không đồng nhất trong các doanh nghiệp này. Các kỹ thuật ước lượng dựa trên dữ liệu bảng có thể tính đến tính không đồng nhất của các doanh nghiệp một cách rõ ràng bằng cách bao gồm các biến chuyên biệt theo doanh nghiệp.
- Bằng cách kết hợp chuỗi thời gian của các quan sát chéo, dữ liệu bảng cho biết
nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả cao hơn.
- Bằng cách nghiên cứu các quan sát lặp đi lặp lại của các đơn vị chéo, dữ liệu bảng
phù hợp cho việc nghiên cứu các động thái thay đổi theo thời gian của các đơn vị chéo này.
- Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các tác động mà không thể
quan sát được trong dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy.
- Bằng cách cung cấp dữ liệu đối với vài nghìn đơn vị, dữ liệu bảng có thể làm
giảm đến mức thấp nhất hiện tượng chệch có thể xảy ra nếu gộp các doanh nghiệp theo những biến số có mức tổng hợp cao.
Như vậy, dữ liệu bảng có thể làm cho phân tích thực nghiệm phong phú hơn so với cách chỉ sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.
Các mô hình hồi quy thường được sử dụng cho dữ liệu bảng là Pooled regression, Fixed effects model và Random effects model. Những đặc điểm cụ thể của các mô hình sẽ được phân tích sau đây.