7. Các nghiên cứu trƣớc liên quan đến đề tài nghiên cứu
3.5.3. Phân tích hồi quy
Với dữ liệu chuỗi thời gian, các giá trị của một hay nhiều biến đƣợc biểu diễn trong một khoảng thời gian nhất đinh, còn với dữ liệu chéo theo không gian, giá trị của một hay nhiều biến đƣợc đƣợc biểu diễn bằng một vài đơn vị mẫu hay thực thể, vào cùng một thời điểm. Trong những năm gần đây, các nghiên cứu kinh tế vi mô thƣờng sử dụng dữ liệu bảng (panel data), đây là sự kết hợp dữ liệu theo “cá nhân” (individual) và theo thời gian. Do đó, khi các nhà phân tích cần theo dõi hay tìm hiểu các vấn đề dựa trên dữ liệu thời gian của hàng loạt “cá nhân” thì việc phân tích dữ liệu bảng là phù hợp, nhƣng cũng phức tạp hơn so với dữ liệu chéo. Các mô hình kinh tế lƣợng dữ liệu bảng ngày càng đƣợc nhiều nhà nghiên cứu sử dụng cho mục tiêu của họ, bởi lẽ nó có rất nhiều ƣu điểm [2]:
Thứ nhất, thông qua dữ liệu chuỗi thời gian và quan sát dữ liệu theo không gian, dữ liệu bảng cung cấp nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, đa dạng hơn, ít đa cộng tuyến giữa các biến số hơn, nhiều bậc tự do hơn và hiệu quả hơn.
Thứ hai, thông qua nghiên cứu bằng quan sát theo không gian lặp lại, dữ liệu bảng phù hợp hơn để nghiên cứu tính động của sự thay đổi.
Thứ ba, dữ liệu bảng có thể phát hiện và đo lƣờng tốt hơn những ảnh hƣởng mà không thể quan sát trong dữ liệu chuỗi thời gian thuần túy hav dữ liệu chéo theo không gian thuần túy. Dữ liệu bảng liên quan đến các cá nhân doanh nghiệp, đất nƣớc,... theo thời gian, nên có tính cá biệt trong các đơn vị này. Kỹ thuật ƣớc lƣợng dữ liệu bảng có thể chính thức xem xét đến tính dị biệt đó bằng cách xem xét các biến số có tính đặc thù theo từng cá nhân.
Thứ tƣ, bằng cách cung cấp dữ liệu với vài nghìn đơn vị, dữ liệu bảng có thể giảm đến mức thấp nhất hiện tƣợng chệch có thể xảy ra nếu gộp các cá nhân hay các doanh nghiệp theo những biến số có mức tổng hợp cao.
Với đặc thù nghiên cứu dữ liệu theo thời gian (2012 - 2014) và theo không gian (64 công ty khác nhau), kết hợp lại đƣợc 192 quan sát. Vì vậy phƣơng pháp hồi quy với dữ liệu bảng (panel data) đƣợc tác giả đƣa vào sử dụng là hoàn toàn hợp lý.
Hiện nay, có 3 cách tiếp cận phổ biến để ƣớc lƣợng mô hình hồi quy theo dữ liệu bảng: Ƣớc lƣợng theo Pooled OLS (Pooled Ordinary Least Square), ƣớc lƣợng theo mô hình các ảnh hƣởng cố định (Fixed Effects Model) và ƣớc lƣợng theo mô hình các ảnh hƣởng ngẫu nhiên (Random Effects Model).
Ƣớc lƣợng theo mô hình Pooled OLS: Là mô hình hồi quy trong đó, tất cả các hệ số đều không đổi theo thời gian và theo các cá nhân. Bỏ qua bình diện thời gian và không gian của dữ liệu kết hợp và chỉ ƣớc lƣợng OLS thông thƣờng. Mô hình này là mô hình đơn giản nhất khi không xem xét tới sự khác biệt giữa các doanh nghiệp nghiên cứu. Tuy nhiên, hạn chế lớn của mô hình này là hệ số Durbin-Watson thƣờng khá nhỏ (nhỏ hơn 1), cho nên hay gây ra hiện tƣợng tự tƣơng quan dƣơng. Hai phƣơng pháp hữu hiệu khắc phục một hay nhiều vấn đề này, chính là mô hình các ảnh hƣởng cố định (FEM) và mô hình các ảnh hƣởng ngẫu nhiên (REM).
Ƣớc lƣợng theo mô hình các ảnh hƣởng cố định (Fixed Effects Model – FEM): Với giả định mỗi thực thể đều có những đặc điểm riêng biệt có thể ảnh hƣởng đến các biến giải thích, FEM phân tích mối tƣơng quan giữa phần dƣ của mỗi thực thể với các biến độc lập, qua đó kiểm soát và tách ảnh hƣởng của các đặc điểm riêng biệt (không đổi theo thời gian) ra khỏi các biến độc lập để ƣớc lƣợng những ảnh hƣởng thực (net effects) của biến độc lập lên biến phụ thuộc, cụ thể:
Mô hình các ảnh hƣởng cố định thể hiện qua phƣơng trình: Yìt=Ci + βiX1it +…+ βnXnit + uit (3.5.1)
Trong đó:
Yit: biến phụ thuộc, với i là doanh nghiệp và t là thời gian (năm) Xit: biến độc lập
Ci: hệ số chặn cho từng doanh nghiệp và (i = 1,2,.. .,n) β: hệ số góc đối với nhân tố X
uit: phần dƣ
Mô hình trên đã thêm vào chỉ số i cho hệ số chặn C để phân biệt hệ số chặn của từng doanh nghiệp khác nhau có thể khác nhau. Sự khác biệt này có thể do đặc điềm khác nhau của từng doanh nghiệp hoặc do sự khác nhau trong chính sách quản lý, hoạt động của doanh nghiệp.
Ƣớc lƣợng theo mô hình các ảnh hƣởng ngẫu nhiên (Random Effects Model - REM): Mô hình này dựa vào giả thuyết rằng, sự khác biệt giữa các doanh nghiệp đƣợc chứa trong phần sai số ngẫu nhiên và không tƣơng quan với biến độc lập.
Chính vì vậy, nếu sự khác biệt giữa các thực thể có ảnh hƣởng đến biến phụ thuộc thì REM sẽ thích hợp hơn so với FEM. Trong đó, phần dƣ của mỗi thực thể (không tƣơng quan vói biển độc lập) đƣợc xem là biến độc lập mới.
Ý tƣởng cơ bản của mô hình ảnh hƣởng ngẫu nhiên là bắt nguồn từ mô hình (3.5.1). Thay vì mô hình (3.5.1), C là cố định thì trong REM giả định
rằng, nó là một biến ngẫu nhiên với trung bình là Ci và hệ số chặn đƣợc mô tả nhƣ sau:
Ci = C1 + ɛi (i = 1,2, …, n)
Trong đó ɛi là sai số ngẫu nhiên có trung bình bằng 0 và phƣơng sai là σ2
e thay vào mô hình (3.5.1), ta có: Yìt=Cl + βiX1it +…+ βnXnit + uit + ɛi
Hay Yìt=Cl + βiX1it +…+ βnXnit + wit
Với wit = uit + ɛi
ɛi: Sai số thành phần của các đối tƣợng khác nhau (đặc điểm riêng khác nhau của từng doanh nghiệp)
uit : Sai số thành phần kết hợp của cả đặc điểm riêng theo từng đối tƣợng và theo thời gian.
Điểm khác biệt giữa mô hình ảnh hƣởng ngẫu nhiên và mô hình ảnh hƣởng cố định đƣợc thể hiện ở sự biến động giữa các thực thể. Nếu trong mô hình ảnh hƣởng cố định giả định sự biến động giữa các thực thể có tƣơng quan với biến độc lập, còn trong mô hình ảnh hƣởng ngẫu nhiên giả định sự biến động giữa các thực thể là ngẫu nhiên và không tƣơng quan với biến độc lập. Mô hình FEM sử dụng biến giả, nên nó có thể làm giảm đáng kể bậc tự do. Do vậy, REM có thể đƣợc ƣa thích hơn.
Tuy nhiên, trong trƣờng hợp các biến có sự tƣơng quan thì giả định của REM không đƣợc thỏa mãn, khi đó mô hình này sẽ đƣa ra ƣớc lƣợng chệch. Vậy, mô hình FEM hay REM tốt cho nghiên cứu, điều này phụ thuộc vào giả định có hay không sự tƣơng quan giữa ɛi và biến giải thích X. Để lựa chọn FEM hay REM phù hợp hơn với dữ liệu hồi quy thì ta sử dụng kiểm định Hausman với giả thuyết [2]:
HO: Cov(ɛi, Xit) = 0 (REM phù hợp hơn) H1: Cov(ɛi, Xit) # 0 (FEM phù hợp hơn)
Giá trị tính toán là:
W = (βFE – βRE)’[Var(βFE) - Var(βRE)]-1((βFE – βRE)
Trong đó:
βFE : vector các hệ số ƣớc lƣợng từ FEM
βRE : vector các hệ số ƣớc lƣợng từ REM
Var(.) ma trận tƣơng quan tƣơng ứng của hệ số ƣớc lƣợng từ haimô hình Sau khi kiểm định, nếu p_value < 0.05(α) cho phép kết luận giả thuyết HO bị bác bỏ, khi đó ta kết luận, FEM phù hợp hơn để sử dụng. Ngƣợc lại, REM phù hợp hơn cho mô hình chấp nhận giả thuyết H0.