CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU TRƯỚC ĐÂY
3.3. Nguồn dữ liệu
Dữ liệu được sử dụng trong nghiên cứu này được lấy từ các cuộc tổng điều tra doanh nghiệp hàng năm do Tổng cục Thống kê Việt Nam (GSO) thực hiện, bắt đầu điều tra từ năm 2000 với phương pháp điều tra toàn bộ kết hợp điều tra chọn mẫu.
Cụ thể, các DN nhà nước (100% vốn nhà nước hoặc DN nhà nước đã được cổ phần hóa có vốn nhà nước chiếm trên 50%); doanh nghiệp có vốn đầu tư trực tiếp nước ngoài và doanh nghiệp ngoài nhà nước có từ 10 lao động trở lên được điều tra 100%. Các DN ngồi nhà nước có dưới 10 lao động được điều tra chọn mẫu.
Thực hiện khảo sát 100% các doanh nghiệp nhà nước và doanh nghiệp ngoài nhà nước (đối với các doanh nghiệp nhiều hơn 10 lao động) trong các lĩnh vực dịch vụ và 29 ngành sản xuất được chia thành 3 cụm công nghiệp: 4 ngành công nghiệp khai thác mỏ và khai thác đá; 2 ngành cơng nghiệp điện, khí đốt và cung cấp nước; và 23 ngành cơng nghiệp trong q trình sản xuất.8
Các câu hỏi điều tra đã thu thập số lượng thông tin phong phú về quyền sở hữu trong và ngoài nước, sản lượng, doanh thu, tài sản, việc làm, địa điểm, sản phẩm,…Tuy nhiên, dữ liệu này chưa có những thơng tin trực tiếp của ngun liệu đầu vào. Số doanh nghiệp điều tra tăng từ 42.307 DN vào năm 2002 lên tới 286.541 DN vào năm 2010, điều này cho thấy phần nào sự phát triển về mặt số lượng của doanh nghiệp Việt Nam trong nền kinh tế thị trường.
Sau khi tác giả kết nối dữ liệu từ năm 2002 đến năm 2010 (bằng việc đồng bộ số liệu, xử lý các biến và kiểm soát những giá trị lỗi), bộ dữ liệu cuối cùng bao gồm 200.946 quan sát, trong đó 22.505 quan sát của doanh nghiệp FDI và 178.441 quan sát của doanh nghiệp trong nước.
Bộ số liệu sử dụng trong đề tài bao gồm các quan sát theo không gian và thời gian, từ năm 2002 đến 2010, là dữ liệu chéo theo thời gian, do vậy tác giả đề xuất cách thức xử lý dựa trên dữ liệu bảng.