Bài khóa luận này sử dụng phầm mềm STATA 15.1 là công cụ hỗ trợ xử lý dữ liệu. Dữ liệu nghiên cứu được thu thập từ Tổng Cục Thống kê trong giai đoạn từ năm 2015 đến 2019 (đã trình bày trên mục 3.2). Số quan sát của mô hình rất lớn, lên đến 120,803 quan sát trong khoảng thời gian 5 năm. Dữ liệu được trình bày theo dạng bảng (panel data) để có thể phục vụ cho các phương pháp hồi quy. Dữ liệu bảng (panel data) là sự kết hợp giữa dữ liệu chéo (cross-sectional data) và dữ liệu chuỗi thời gian (time-series data). Dữ liệu bảng giúp việc kiểm định các giả thiết và mô
hình trở nên đáng tin cậy hơn khi có thể sử dụng cả dữ liệu chéo và dữ liệu chuỗi thời gian.
Tuy nhiên, có những vấn đề cần lưu ý đối với bộ dữ liệu nghiên cứu này. Đầu tiên, dữ liệu được lấy không hoàn toàn có đầy đủ tất cả thông tin của DN trong giai đoạn 2015-2019. Trong bộ dữ liệu sẽ xuất hiện các doanh nghiệp tham gia khảo sát nhưng có thể không phải tất cả các năm trong giai đoạn này, bên cạnh đó có những doanh nghiệp rút lui và những doanh nghiệp mới gia nhập. Điều này khiến cho bộ dữ liệu không cân xứng và đầy đủ. Một ví dụ đó là trong bộ dữ liệu này năm 2016 không có số lượng quan sát nhiều như các năm còn lại trong giai đoạn 2015-2019. Thứ hai, do tính chất khách quan mà bộ dữ liệu chưa có tính cập nhật. Hiện tại sắp bước sang năm 2022 nhưng tác giả chỉ mới có thể sử dụng được dữ liệu giai đoạn 2015-2019 từ các nguồn sẵn có.
Về việc làm sạch dữ liệu, dữ liệu khi còn ở dạng thô sẽ không tránh được những sai sót hoặc có những thông tin thừa không phục vụ mục đích nghiên cứu. Vì vậy, các bước tác giả sử dụng để làm sạch dữ liệu như sau:
Bước 1: Loại bỏ những quan sát lặp lại nhiều lần;
Bước 2: Loại bỏ những DN có không thuộc phạm vi các DNNVV như trong tiêu chí phân loại ở bảng 2.2.
Bước 3: Tạo ra nhóm nhỏ gồm các DNNVV không xuất khẩu trong giai đoạn 2015-2018 và xuất khẩu 2019 từ mẫu sẵn có để phục vụ cho kiểm định giả thiết 1.
Bước 4: Tạo thêm các biến năm đầu tiên theo các đặc tính của DN như doanh thu (Sale0), tài sản (Asset0), số lao động (Employee0), năng suất (Productivity0) nhằm phục vụ nghiên cứu về tăng trưởng.
Bước 5: Tạo các biến về tình trạng xuất khẩu như Start, Both, Stop, Alwaysexport.
Sau khi trải qua các bước làm sạch dữ liệu, tác giả sử dụng các lệnh thông thường để chạy các mô hình đề xuất, thực hiện kiểm định các giả thiết như đã nêu ở trên.