4.1.3.1. Dữ liệu mảng
Wooldridge (2015) định nghĩa rằng dữ liệu mảng có thể gọi tên là dữ liệu bảng hoặc dữ liệu kết hợp, hay được hiểu là sự kết hợp các quan sát theo chuỗi thời gian và theo cả không gian. Do vậy, sự kết hợp của hai loại số liệu bao gồm số liệu chuỗi thời gian (time series) và số liệu chéo (cross sections) có thểđược hiểu là số liệu mảng.
Số liệu mảng cân xứng (cân đối) là bộ dữ liệu trong đó đơn vị theo không gian có cùng số quan sát với đơn vị theo chuỗi thời gian. Ngược lại thì bộ dữ liệu đó được gọi là số liệu mảng không cân xứng (không cân đối) (Wooldridge, 2015). Và theo đó, các mô hình hồi quy sử dụng các dữ liệu này gọi là mô hình hồi quy dữ liệu mảng.
Đặc điểm khi ứng dụng mô hình hồi quy số liệu mảng:
- Kỹ thuật này có thể tìm ra được sự khác biệt mang tính đặc thù theo từng cá thể. - Sự kết hợp các giá trị theo thời gian và không gian giúp cho dữ iệu mảng có nhiều thông tin hơn, đa dạng hơn, từđó, cải thiện sự hiệu quả, giảm hiện tượng đa cộng tuyến giữa các biến số, hay tăng bậc tự do.
- Nếu tác giả muốn tìm kiếm hay nghiên cứu những thay đổi của một đối tượng theo thời gian thì dữ liệu mảng là sự lựa chọn phù hợp.
- Dữ liệu chuỗi thời gian thuần túy hay dữ liệu chéo theo không gian có thể không cho ra những kết quả mà dữ liệu mảng có thể cung cấp cho mô hình. Những ảnh hưởng
đó chỉ có thểđược phát hiện khi sử dụng dữ liệu mảng.
4.1.3.2. Các mô hình hồi quy tĩnh
Theo Samargandi và cộng sự (2015), các mô hình tĩnh (static models) như mô hình OLS gộp (Pooled OLS), mô hình tác động cốđịnh, mô hình tác động ngẫu nhiên là các mô hình truyền thống thường được sử dụng đối với dữ liệu số liệu mảng. Cùng chung quan điểm, Wooldridge (2015) cũng đưa ra 3 mô hình có thể sử dụng để ước lượng mô hình hồi quy số liệu mảng.
• Mô hình số liệu gộp (Pooled OLS)
Mô hình được ước lượng theo phương pháp bình phương nhỏ nhất thông thường (OLS): u = ∝ + B′ + %
Trong đó:
B′ là véc tơ biến giải thích, ∝ là hệ số chặn,
% là sai số ngẫu nhiên.
Giả thiết của phương pháp OLS như sau:
GT1: Ước lượng này dựa vào cơ sở mẫu ngẫu nhiên; GT2: Kì vọng của sai số ngẫu nhiên tại mỗi giá trị bằng 0;
GT3: Phương sai của sai số ngẫu nhiên tại các giá trịđều bằng nhau; GT4: Giữa các biến độc lập không có quan hệđa cộng tuyến hoàn hảo; GT5: Sai số ngẫu nhiên tuân theo quy luật chuẩn.
Nếu các giả thiết từ 1 đến 4 được thoả mãn thì phương pháp OLS là phương pháp
ước lượng tuyến tính tốt nhất (Best Linear Unbiased Estimator).
Nếu các giả thiết từ 1 đến 5 được thoả mãn thì phương pháp OLS là phương pháp
ước lượng không chệch tốt nhất.
• Mô hình số liệu mảng tác động cốđịnh (Fixed Effect Model - FEM) u = (∝ + =) + B′ + 5
Trong đó:
i và t lần lượt là chỉ số của đối tượng thứ i theo không gian và thời điểm t (i= 1, 2, ..., n là chỉ số theo đơn vị không gian; t- 1, 2, ..., t là chỉ số theo đơn vị
thời gian),
= là tác động cốđịnh theo nhóm quan sát thứ i hoặc theo giai đoạn thời gian và chứa trong phần hệ số chặn, = có thể tương quan với các biến khác trong mô hình hồi quy,
5 là sai số ngẫu nhiên có trung bình bằng 0 và phương sai không đổi.
Trong các mô hình tác động cốđịnh, chỉ có hệ số chặn theo các nhóm khác nhau còn hệ số góc của các biến như nhau. Có thể ước lượng tác động cốđịnh theo phương pháp bình phương nhỏ nhất với các biến giả (LSDV) hoặc phương pháp ước lượng tác
động bên trong (within effect estimation).
Các hệ số ước lượng trong mô hình sẽ không bị chệch bới các tính chất không thay đổi theo thời gian, ví dụ như dân tộc, giới tính vì mô hình tác động cốđịnh có thể
• Mô hình tác động ngẫu nhiên (Random Effect Model - REM) u = ∝ + B′ + (= + 5 )
Mô hình REM giả thiết rằng:
= không tự tương quan với các biến khác và nó là một cấu phần trong sai số ngẫu nhiên, Phương sai của sai số ngẫu nhiên xác định theo các đơn vị không gian hoặc theo thời gian,
Mô hình REM có hệ số chặn và hệ số góc tương tự nhau theo các quan sát, sự
khác nhau nằm ở phần sai số.
Mô hình tác động ngẫu nhiên với tính chất của nó giả sử không có tương quan giữa các biến độc lập trong mô hình và thành phần thay đổi giữa các phần tử chéo là ngẫu nhiên. Lợi thế của mô hình tác động ngẫu nhiên là có thể sử dụng các biến không
đổi theo thời gian. Bên cạnh đó, nhà nghiên cứu nên sử dụng mô hình này khi thành phần thay đổi giữa các phần tử chéo vẫn có tác động đến biến phụ thuộc.
Kiểm định Breusch và Pagan (1979) cho phép nhà nghiên cứu lựa chọn mô hình OLS gộp và hai mô hình tác động cốđịnh và ngẫu nhiên. Ngoài ra, kiểm định Hausman (1978) sẽ giúp tác giả có thể biết được phương pháp nào cho kết quả chính xác hơn giữa mô hình tác động ngẫu nhiên và cốđịnh.
•Nhược điểm khi sử dụng các mô hình hồi quy tĩnh
- Mô hình OLS gộp áp đặt một hệ số chặn và các hệ số góc như nhau giữa các phần tử, bỏ qua sự khác biệt giữa các phần tử.
- Mô hình tác động cốđịnh: ảnh hưởng của việc mất bậc tự do dẫn đến ước lượng từ mô hình có nhiều hạn chế mặc dù mô hình ước lượng cùng hệ số góc và phương sai nhưng hệ số chặn thay đổi theo từng phần tử. Hơn nữa, biến độc lập có tính nội sinh và tương quan với sai số của mô hình có thể dẫn đến các tham số trong mô hình ước lượng có thể bị chệch.(Baltagi, 2008)
- Mô hình tác động ngẫu nhiên: Arellano (2003) chỉ ra rằng mô hình không tính
đến tác động theo thời gian bên cạnh việc các sai số không tương quan với thời gian, ví dụ như thời điểm trong quá khứ hay tương lai cho dù nó đã ít chịu ảnh hưởng bởi số bậc tự do nhờ giảđịnh có cùng một hệ số chặn.
Các mô hình hồi quy số liệu mảng tĩnh có những hạn chế khi các tham số ước lượng không khai thác được lợi thế của số liệu mảng khi xem xét các mối quan hệ giữa các biến trong ngắn hạn và dài hạn. Lý do là mô hình tĩnh cho ra ước lượng chệch so
với thực tế do tính không đồng nhất giữa các phần tử do giảđịnh về tính đồng nhất của các hệ số biến trễ và biến phụ thuộc.
Tóm lại, tính chất “động” của dữ liệu mảng không được mô hình tĩnh phản ánh hoàn hảo trong phần kết quả mặc dù đây là vấn đề cơ bản trong thực nghiệm khi nghiên cứu về tăng trưởng kinh tế. Như Carraro và Karfakis (2018) đã đề cập trong nghiên cứu của ông rằng giả thuyết có thể có sự biến thiên rất rõ ràng giữa các phần tử trong nghiên cứu nhưng mô hình tĩnh chỉ có thể xử lý tính không đồng nhất dưới hai dạng chính là tác động ngẫu nhiên hay cốđịnh.
4.1.3.3. Mô hình số liệu mảng động
Các mô hình số liệu mảng động sẽ khắc phục những nhược điểm của mô hình tĩnh nhằm xử lý tính không đồng nhất giữa các phần tử.
• Vấn đề nội sinh
Các biến độc lập hoàn toàn có thể chịu ảnh hưởng lẫn nhau, ví dụ như một địa phương có thể có được nguồn vốn đầu tư rất lớn từ nước ngoài dẫn tới sự phân bổ ít đi của nguồn ngân sách nhà nước hoặc sự lấn át với đầu tư tư nhân. Mặt khác, các biến ví dụ như chỉ số năng lực cạnh tranh cấp tỉnh hoàn toàn có thể có mối quan hệ với phần dư
hay sai số của mô hình.
Do đó, vấn đề nội sinh có thể làm ước lượng OLS bị chệch và không đồng nhất, từđó kết quả có thể bị sai lệch. Ý tưởng đưa ra đó là tạo ra một phương pháp chỉ tính
đến tác động ngoại sinh của biến độc lập. Phương pháp này có thể sử dụng các số liệu có sẵn, có thể quan sát được, các nhà nghiên cứu đã chỉ ra sự tồn tại của một biến công cụ z cần những đặc điểm sau: sự thay đổi của z có mối quan hệ với sự thay đổi của biến nội sinh x, và mối quan hệ này không được ảnh hưởng đến hay tác động đến biến phụ thuộc y, hơn nữa nó không liên quan đến sai số u của mô hình được đề xuất.
z x y
u
Cách tiếp cận trên giúp mọi tác động trực tiếp từ z đến y đều được loại trừ. Trên thực tế, z và y vẫn có thể có sự tác động hay liên hệ, tuy nhiên nó sẽ phụ thuộc cầu nối thông qua biến x.
Với cách hiểu này, z được gọi tên là một biến công cụ thay cho biến giải thích x trong mô hình hồi quy vô hướng y=βx+u, với điều kiện thỏa mãn: (i) z không có mối
liên hệ với sai số u; và (ii) z có mối liên hệ với biến giải thích x. Với giảđịnh đầu tiên, biến công cụ z được loại trừ là một biến giải thích trong mô hình, lý do là nếu y phụ
thuộc vào cả x và z và chỉ có x là biến độc lập xuất hiện trong mô hình thì z sẽđược hấp thụ trong phần sai số, khi đó thì sẽ có mỗi liên hệ giữa z và u. Giảđịnh thứ hai yêu cầu z phải có mối liên hệ thực sự với x để có thể trở thành công cụ thay thế cho x.
Khan và Semlali (2000) đề cập đến giải pháp sau khi sử dụng mô hình OLS thông thường là sử dụng thêm biến công cụ một cách thích hợp để khắc phục hiện tượng nội sinh.
• Phương pháp mô-men tổng quát (GMM)
Vấn đề nội sinh được các nhà khoa học tập trung nghiên cứu và phát triển các phương pháp để xử lý nó, nổi bật với những nghiên cứu của King và Levine (1993), Hamm và King (2010) hay Carraro và Karfakis (2018). Hai mô hình phổ biến được sử
dụng đó là mô hình hồi quy hai giai đoạn 2SLS (two stage least square) và có một vài
ưu thế hơn so với nó là mô hình GMM (General Methods of Moments).
Nhưđề cập ở phần trước, hai mô hình này đều sử dụng biến công cụđể giải quyết vấn đề nội sinh. Baum và cộng sự (2003) phân tích về hai phương pháp này:
Giả sử cần ước lượng mô hình dưới dạng ma trận sau: ; = B + =, A(==x) = ∩
Ma trận biến giải thích X là n x K, trong đó n là số quan sát.
Một hoặc nhiều hơn biến giải thích trong mô hình này là biến nội sinh, dó đó E(Xiui) ≠ 0.
Các biến giải thích được lập thành ma trận [X1X2], trong đó K1 các biến nội sinh X1, và (K-K1) các biến X2 còn lại là các biến ngoại sinh.
Tập hợp các biến công cụ Z có dạng (n x L) với giảđịnh đều ngoại sinh, có nghĩa là E(Ziui) = 0 và được lập thành ma trận [Z1Z2], trong đó L1 biến công cụ Z1 được thêm vào bên ngoài mô hình, và (L-L1) biến công cụ còn lại Z2≡X2 xuất phát từ mô hình hay từ chính các biến ngoại sinh của mô hình.
Ước lượng β của biến công cụ (gọi tắt là ước lượng IV) khi đó sẽ là: z{| = (Bx@(@x@)}@xB)}Bx@(@x@)}@x;
Ước lượng này được gọi bằng nhiều cách khác nhau: ước lượng biến công cụ
(IV), ước lượng biến công cụ tổng quát (GIVE) hay ước lượng bình phương nhỏ nhất hai giai đoạn (2SLS).
Ước lượng 2SLS được tính toán thông qua quy trình hai bước:
-Bước 1: Ước lượng các tham số của mô hình hồi quy mối quan hệ giữa biến nội sinh và biến công cụ bằng OLS.
-Bước 2: thay thế các tham số và sai số của mô hình hồi quy mối quan hệ giữa biến nội sinh và biến công cụ vào mô hình gốc ban đầu; ước lượng các tham số của mô hình mới bằng OLS, thu được ước lượng IV.
Bên cạnh đó, ước lượng IV là một trường hợp đặc biệt của ước lượng GMM. Như giảđịnh ở trên có đề cập đến, tập hợp các biến công cụ Z là ngoại sinh thỏa mãn E(Ziui)= 0, L biến công cụ cho ta một tập hợp của L mô-men;
~z = @x = = @x(;− Bz)
Trong đó gi là ma trận L x 1. Tính chất ngoại sinh của biến công cụ có nghĩa là tồn tại L mô-men điều khiển trực giao (orthogonality conditions), sẽđược thỏa mãn tại giá trị thực của β. Mỗi một trong số L phương trình mô-men tương ứng với một mô- men mẫu, khi đó L mô-men mẫu được biểu thị dưới dạng:
̅~z = 2 1 ~z = 1 2 @′~ ; − Bz = 12 @′=
Bản chất của GMM là tìm một ước lượng cho β sao cho ̅~z=0. Nếu phương trình ước lượng được xác định chính xác, sao cho L=K, thì số phương trình - là L mô- men điều kiện - sẽ bằng với tham số chưa biết - là K hệ số của z. Trong trường hợp này, nếu có thể tìm được một sao cho ̅~z = 0 thì ước lượng GMM này chính là một
ước lượng IV.
Nếu phương trình cần ước lượng bị xác định quá mức, nghĩa là L>K, thì số
phương trình sẽ nhiều hơn số tham số chưa biết, do đó không thể tìm được một ước lượng z làm cho L mẫu mô-men điều kiện bằng 0. Trong trường hợp này, cần tìm một ma trận trọng số W dưới dạng LxL để xây dựng một hàm bậc 2 trong các điều kiện mô- men, từđó có được hàm mục tiêu GMM như sau:
~z = 2̅ ~z′̅ ~z
Ước lượng GMM cho β là giá trị z thỏa mãn J ~z là nhỏ nhất. Giải K điều kiện hàm bậc nhất: ~
z = (X’ZWZ’X) − 1X’ZWZ’y
Tổng kết lại, Baum và cộng sự (2003) cho này nếu có tồn tại phương sai sai số thay đổi thì ước lượng GMM sẽ hiệu quả hơn ước lượng IV khi được so sánh giữa hai phương pháp và ước lượng GMM sẽ đem đến kết quả tin cậy hơn khi cỡ
mẫu lớn hơn.
Mặt khác, Blundell và cộng sự (2001) cho rằng GMM ước lượng không trọng số
có thể sẽ không phù hợp khi T nhỏ vì ước lượng khá ngẫu nhiên, do đó các tác giả đề
xuất phương pháp S-GMM (System GMM) dựa trên ý tưởng của Arellano và Bover (1995) khi đề xuất phương pháp D-GMM (Difference GMM) bằng cách bổ sung một vài ràng buộc. Thực nghiệm với S-GMM trên Stata được hướng dẫn trong nghiên cứu của Roodman (2009).
4.1.3.4. Quy trình đánh giá ước lượng
- Đối với mô hình tĩnh:
Tác giả từng bước sử dụng các kiểm định để lựa chọn ra mô hình phù hợp bằng cách đặt ra giả thuyết Ho: có tác động hồi quy tuyến tính giữa các biến trong mô hình thỏa mãn các yêu cầu đề cập trong phần trước tại chương 3.
Bảng 4.4. Quy trình lựa chọn mô hình Tác động cốđịnh Kiểm định F (F test) Tác động ngẫu nhiên Kiểm định B-P; LM Chọn mô hình Không bác bỏ giả thuyết Ho (không có tác động cốđịnh) Không bác bỏ giả thuyết Ho (không có tác động ngẫu nhiên) Pooled OLS Bác bỏ giả thuyết Ho (có tác động cốđịnh) Không bác bỏ giả thuyết Ho (không có tác động ngẫu nhiên) FEM Không bác bỏ giả thuyết Ho (không có tác động cốđịnh) Bác bỏ giả thuyết Ho (có tác động ngẫu nhiên) REM Bác bỏ giả thuyết Ho (có tác động cốđịnh) Bác bỏ giả thuyết Ho (có tác động ngẫu nhiên) Kiểm định Hausman, Chọn FEM nếu bác bỏ Ho Ngược lại: chọn REM Nguồn: Tổng hợp nghiên cứu của tác giả
Sau đó, tác giả tiếp tục tiến hành các kiểm định như Wooldridge hay Modified Wald để xem xét mô hình có những ảnh hưởng nhất định của hiện tượng phương sai thay đổi hay tự tương quan hay không. Nếu có, phương pháp FGLS (Feasible Generalized Least Square - bình phương tối thiểu tổng quát khả thi) sẽ được áp dụng nhằm khắc phục hiện tượng này.
- Đối với mô hình hồi quy số liệu mảng động:
Tác giả sử dụng các ước lượng đểđánh giá các biến giải thích là biến ngoại sinh hay biến nội sinh, từđó sử dụng phần mềm Stata để sử dụng mô hình GMM cấu trúc để