Với sự hỗ trợ của phần mềm Stata, tác giả tiến hành các bước xử lý dữ liệu sau đây để giải quyết mục tiêu quan trọng của nghiên cứu là ước lượng tác động của FDI đến lượng phát thải ô nhiễm ở các quốc gia đang phát triển.
Bước 1: Mã hóa dữ liệu thu thập được, tiến hành sàng lọc, loại bỏ các quan sát bị khiếm khuyết hoặc tồn tại giá trị dị biệt để có được một mẫu nghiên cứu bao gồm các quan sát ít sai biệt với nhau.
Bước 2: Thực hiện thống kê mô tả để biết được khuynh hướng trung tâm, độ phân tán, hình dạng... của dữ liệu thu thập được.
Bước 3: Cách tiếp cận đơn giản để ước lượng cho dữ liệu bảng là bỏ qua bình diện không gian lẫn thời gian của dữ liệu và chỉ cần sử dụng hồi quy OLS thông thường (Pooled OLS) để ước lượng. Tuy nhiên việc bỏ qua bình diện không gian và thời gian dường như là những giả định hết sức hạn chế nên mô hình các ảnh hưởng cố định (FEM) và mô hình các ảnh hưởng ngẫu nhiên (REM) được sử dụng để giải quyết vấn đề trên.
Giả sử mẫu quan sát bao gồm N quốc gia, trong T năm, như vậy dữ liệu bảng sẽ bao gồm NxT quan sát. Phương trình hồi quy tổng quát có dạng:
Yit = βXit + αZi + εit (3.1)
Trong đó:
Y: biến phụ thuộc; X: tập hợp các biến giải thích; Z: gồm các biến không thay đổi theo thời gian, đại diện cho đặc điểm riêng của từng quốc gia.
β, α là các hệ số hồi quy và ε là sai số.
Phương pháp ước lượng Pooled OLS thực chất là ước lượng bình phương bé nhất, phương pháp này không xem xét đến khía cạnh không gian và thời gian. Theo đó, mô hình (3.1) trở thành:
Yit = βXit + α + εit (3.2)
Phương pháp ước lượng FEM xem xét các ảnh hưởng cố định. Phương pháp ước lượng FEM giống như phương pháp OLS có sử dụng biến giả. Theo đó, có thể đặt các biến giả theo không gian hoặc thời gian. Tuy nhiên, trường hợp có nhiều quốc gia trong mẫu nghiên cứu sẽ làm giảm bậc tự do của mô hình do phải đặt nhiều biến giả. Mô hình tổng quát (3.1) trở thành:
Yit = βXit + αi + εit (3.3)
Trong mô hình (3.3) thì αi là các biến giả tương ứng với mỗi quốc gia.
Phương pháp REM dựa trên ý tưởng cơ bản là phân tách các biến giả trong mô hình (3.3) thành 2 thành phần αi = α + ui. Mô hình (3.3) trở thành:
Yit = βXit + α + ui + εit (3.4)
Trong mô hình (3.4) thì ui và εit đều là các đại lượng ngẫu nhiên.
Kết quả tóm lược 3 phương pháp ước lượng trên cho thấy Pooled OLS là phương pháp ước lượng đơn giản nhất nhưng lại bỏ qua bình diện không gian lẫn thời gian của dữ liệu. FEM khắc phục vấn đề trên bằng cách bổ sung vào mô hình các biến giả đại diện cho các quốc gia khác nhau nhưng việc có quá nhiều biến giả sẽ làm giảm bậc tự do trong mô hình. REM được sử dụng nếu đặc điểm riêng giữa các quốc gia là ngẫu nhiên và không tương quan với các biến giải thích.
Bước 4: Để có thể chọn ra mô hình thích hợp, nghiên cứu sử dụng các kiểm định F để chọn giữa Pooled OLS và FEM, kiểm định Breusch-Pagan Lagrange
Multiplier Test chọn giữa Pooled OLS và REM và kiểm định Hausman Test để quyết định dùng FEM hay REM (Đinh Công Khải, 2012).
Sau khi hồi quy mô hình FEM, luận văn sẽ tiến hành kiểm định giả thuyết H0
của kiểm định F với nội dung:
H0: Không có sự khác biệt về tung độ gốc giữa các quốc gia Nếu bác bỏ giả thuyết H0 thì FEM phù hợp hơn.
Để chọn giữa Pooled OLS và REM, luận văn kiểm định Breusch-Pagan Lagrange Multiplier Test với giả thuyết sau:
H0: Phương sai qua các thực thể là không đổi Nếu bác bỏ giả thuyết H0 thì REM phù hợp hơn.
Để chọn giữa FEM và REM, luận văn kiểm định Hausman Test với giả thuyết sau:
H0: Không có sự khác biệt giữa FEM và REM Nếu bác bỏ giả thuyết H0 thì FEM phù hợp hơn.
Bước 5: Để các kết quả nghiên cứu là đáng tin cậy, kết quả ước lượng phải thỏa một số giả định như không có hiện tượng đa cộng tuyến, phương sai thay đổi, tự tương quan… Luận văn sẽ sử dụng ma trận hệ số tương quan để kiểm tra về vấn đề đa cộng tuyến trong mô hình. Bên cạnh đó, nếu kết quả kiểm định phát hiện có hiện tượng tự tương quan hoặc phương sai thay đổi thì luận văn sử dụng ước lượng FGLS để khắc phục đồng thời hai vấn đề này.
Giả thiết quan trọng trong mô hình hồi quy tuyến tính cổ điển là không có hiện tượng phương sai sai số thay đổi và hiện tượng tự tương quan. Khi các giả thiết này
vi phạm sẽ khiến cho các hệ số hồi quy bằng phương pháp bình phương bé nhất không còn hiệu quả nữa.
Khắc phục những nhược điểm này, phương pháp FGLS được đặt dưới giả định rằng mô hình là hoàn toàn xác định, có sự khác biệt về phương sai sai số ở mỗi nhóm đối tượng nhưng là không đổi trong phạm vi từng đối tượng. Với những giả thiết này, FGLS mang lại ước lượng tốt hơn. Đồng thời, việc ước lượng FGLS cũng cho phép khắc phục hiện tượng tự tương quan và phương sai thay đổi trong hồi quy dữ liệu bảng (Gujarati, 1995).