Nghiên cứu này sử dụng bộ dữ liệu điều tra doanh nghiệp được thu thập từ Tổng cục Thống kê, Sở Kế hoạch và Đầu tư tỉnh Savannakhet, Bộ Công Thương từ năm 2010 đến năm 2020 cho 429 doanh nghiệp mỗi năm. Tuy nhiên, nhiều doanh nghiệp bị thiếu thông tin, do đó tổng số quan sát được sử dụng trong luận án là 4.624 quan sát.
Số liệu được thu thập từ các doanh nghiệp tại tỉnh Savannakhet thuộc các hình thức sở hữu khác nhau (doanh nghiệp Nhà nước, doanh nghiệp tư nhân, công ty trách nhiệm hữu hạn, công ty cổ phần, công ty hợp danh, doanh nghiệp có vốn đầu tư nước ngoài, hợp tác xã) hoạt động trong tất cả các lĩnh vực tại tỉnh Savannakhet giai đoạn từ 2010-2020. Các thông tin chủ yếu được thu thập là loại hình doanh nghiệp; ngành nghề, lĩnh vực kinh doanh; số lao động (tính bằng số lao động trung bình trong năm); nguồn vốn; doanh thu (tính bằng triệu USD); quy mô doanh nghiệp; tình trạng hoạt động R&D; các biến Horizontal, Backward, Forward; được tính toán từ cơ sở dữ liệu này.
Dữ liệu được sử dụng là dạng dữ liệu bảng và nó có ưu điểm hơn so với dữ liệu chéo và dữ liệu theo thời gian (Wooldridge, 2009) vì:
- Dữ liệu bảng có thể xem xét đến tính không đồng nhất trong từng đơn vị nghiên cứu bằng cách xem xét các biến số có tính đặc thù theo từng cá nhân.
- Cung cấp được những dữ liệu đa dạng hơn, ít cộng tuyến hơn giữa các biến số, kết hợp được các chuỗi theo thời gian của các quan sát theo không gian.
- Phù hợp hơn để nghiên cứu tính động của sự thay đổi các hiện tượng kinh tế như hiệu ứng lan tỏa.
Tuy nhiên, dữ liệu bảng cũng có những hạn chế như vấn đề phương sai thay đổi, hiện tượng tự tương quan.