CHƢƠNG 3 : PHƢƠNG PHÁP NGHIÊN CỨU
3.3 Thu thập dữ liệu
Các dữ liệu ch nh được sử dụng trong bài nghiên cứu được lấy từ Chỉ số phát triển thế giới của Ngân hàng thế giới (WDI), bao gồm các quốc gia đang phát triển ở vùng lãnh thổ Châu Á – Thái ình ương ampuchia ombodia), Trung Quốc (China), Fiji, Ấn Độ (India), Indonexia, Mông Cổ (Mongolia), Nepan, Papua New Guinea, Philippines, Sri Lanka, Tonga), trong khoảng thời gian 25 năm, từ năm 1991 đến 2015. Đối với việc ước lượng sự ảnh hưởng của môi trường đầu tư, pháp luật, quan liêu đến tác động của Kiều hối, I, O lên tăng trưởng kinh tế, do dữ liệu lấy từ UNCTAD cần kinh ph tương đối lớn, tôi đã sử dụng các dữ liệu thay thế gồm business freedom (thay thế chỉ số IP), labor freedom (thay thế chỉ số L& O) và freedom from corruption (thay thế chỉ số BQ), các dữ liệu này được lấy từ Website The Economic Freedom Network. Việc sử dụng các dữ liệu thay thế kể trên cũng được tác giả Samul dams và Erics Evans Osei Opoku 2015) đã thực nghiệm thành công trong việc nghiên cứu FDI, thể chế và tăng trưởng tại các quốc gia cận Sahara Châu Phi.
Bảng 3.3.1 Bảng nguồn thu thập dữ liệu
STT Biến Tên viết t t Nguồn
Bi n phụ thuộc
Thu nhập bình
quân đầu người GDP WorldBank
Bi n độc lập
1 Đầu tư trực tiếp
nước ngoài FDI WorldBank
2 Hỗ trợ phát triển
chính thức ODA WorldBank
3 Kiều hối REM WorldBank
Bi n giải thích
1 Mơi trường đầu tư IP Economic Freedom
Network
2 Pháp luật và trật tự L&O Economic Freedom
3 Chất lượng quan
liêu BQ
Economic Freedom Network
Bi n ki m soát bổ sung
1 Độ mở thương mại Trade WorldBank
2 Tăng trưởng dân số POP WorldBank
3 Vốn con người Humancapital WorldBank
4 Tỷ lệ lạm phát INF WorldBank
5 Chỉ số phát triển
con người HDI WorldBank
6 Tương tác giữa kiều hối và các chỉ số HDI
REMHDI Economic Freedom
Network 7 Tương tác giữa
môi trường đầu tư với FDI
Investerprofilefdi Economic Freedom Network 8 Tương tác giữa luật
pháp và kiều hối Lawanorderrem
Economic Freedom Network 9 Tương tác giữa
quan liêu và ODA Bureaucraticqualityoda
Economic Freedom Network Nguồn: tác giả tự tổng hợp
Bảng 3.3.2 Bảng kỳ vọng dòng vốn ảnh hưởng đến tăng trưởng kinh tế.
STT Biến Tên viết t t Kỳ vọng dấu
Bi n phụ thuộc
Thu nhập bình
quân đầu người GDP
Bi n độc lập
1 Đầu tư trực tiếp
nước ngoài FDI +
2 Hỗ trợ phát triển
chính thức ODA +
3 Kiều hối REM +
Bảng 3.3.3 Bảng kỳ vọng ảnh hưởng của tăng trưởng kinh tế đến các dòng vốn
REM FDI ODA
GDP - + -
Nguồn: tác giả tự tổng hợp
3.4 P ƣơn p áp ƣớc lƣ ng.
Dữ liệu bảng (panel data) là dữ liệu kết hợp theo không gian (cross – section, tức là giá trị của các biến được thu thập cho một đơn vị mẫu tại cùng một thời điểm) và dữ liệu theo chuỗi thời gian (time series, tức là giá trị của các biến được quan sát theo thời gian). Dữ liệu bảng khác với dữ liệu chéo gộp chung bởi vì dữ liệu chéo gộp chung những quan sát trong nhiều năm nhưng chỉ là các quan sát dữ liệu thuần túy và bỏ qua yếu tố thời gian. Việc kết hợp hai loại dữ liệu có nhiều thuận lợi trong phân tích các mối quan hệ kinh tế, đặc biệt khi muốn quan sát, phân tích sự biến động của các đối tượng nghiên cứu sau các biến cố hay theo thời gian, cũng như phân tích sự khác biệt giữa các nh m đối tượng nghiên cứu. Có hai loại dữ liệu bảng: dữ liệu bảng cân bằng (balaned panels) và dữ liệu bảng không cân bằng (unbalaned panels). Dữ liệu bảng cân bằng khi các đơn vị chéo có cùng số quan sát theo thời gian, dữ liệu bảng khơng cân bằng khi các đơn vị chéo khơng có cùng số quan sát theo thời gian. Trong luận án này, tác giả sử dụng dữ liệu bảng cân bằng cho các quốc gia theo chuỗi thời gian năm). Việc nghiên cứu các mơ hình với dữ liệu bảng có những ưu điểm theo Baltagi (2008):
- Nhờ kết hợp dữ liệu chuỗi thời gian của các quốc gia khác nhau, dữ liệu bảng sẽ chứa nhiều thông tin hữu ch hơn, t nh biến thiên nhiều hơn, giảm hiện tượng đa cộng tuyến giữa các biến, tăng số quan sát - từ đ tăng số bậc tự do, và có thể đem lại ước lượng vững, hiệu quả và không chệch;
- Dữ liệu bảng c liên quan đến nhiều doanh nghiệp, quốc gia theo thời gian, mỗi doanh nghiệp, quốc gia lại có những đặc trưng riêng. Tuy nhiên, các kỹ thuật ước lượng dựa trên dữ liệu bảng có thể t nh đến sự khơng đồng nhất này, cho phép kiểm sốt sự khác biệt khơng quan sát được giữa các thực thể, ví dụ như khả năng quản lý, triết kinh doanh, văn hoá, khoáng sản... giữa các doanh nghiệp.
Như vậy, nhờ những lợi thế trên, việc sử dụng dữ liệu bảng trong các mơ hình nghiên cứu của luận án được kỳ vọng có thể đem lại hiệu quả cao hơn so với phân tích dữ liệu chéo hay dữ liệu chuỗi thời gian.
ác bước phân t ch để lựa chọn mơ hình phù hợp cụ thể như sau:
Bƣớc 1: Tác giả sử dụng phép toán và các câu lệnh trong phần mềm STATA
tiến hành thực hiện phân t ch phương pháp hồi quy Pooled OLS và EM, sau đ so sánh kết quả để lựa chọn 1 một mơ hình phù hợp nhất trong 2 mơ hình này. Sau khi ước lượng với FEM, sử dụng kiểm định để kiểm định giả thuyết H0: α1 = α2 = … αN = α. Nếu kết quả kiểm định bác bỏ giả thuyết H0, chúng ta nên chọn FEM, ngược lại, chọn Pooled OLS
Bƣớc 2: Tác giả so sánh giữa 2 mơ hình Pooled OLS với REM, phương pháp
nhân tử Lagrange (LM) với kiểm định Breusch-Pagan được sử dụng để kiểm chứng tính phù hợp của ước lượng. Theo đ , giả thuyết H0 cho rằng sai số của ước lượng thô không bao gồm các sai lệch giữa các doanh nghiệp hoặc các năm phương sai giữa các doanh nghiệp) là không đổi. Bác bỏ giả thuyết H0, cho thấy sai số trong ước lượng có bao gồm cả sự sai lệch giữa các nhóm, và phù hợp với mơ hình REM, ngược lại, Pooled OSL là phù hợp hơn REM.
Sau khi thực hiện xong 2 bước trên, nếu kết quả kiểm định cho thấy, cả 2 bước này Pooled OLS đều phù hợp hơn EM và REM, tác giả sẽ lựa chọn phương pháp hồi quy Pooled OLS. Nếu không phải kết quả này, tác giả sẽ thực hiện tiếp bước thứ 3 như sau:
Bƣớc 3: Tác giả thực hiện ước lượng với FEM và REM, sử dụng kiểm định
Hausman dưới giả thuyết H0: Cov(Xit, ui) = 0. Nếu kết quả kiểm định bác bỏ giả thuyết H0, tác giả chọn FEM. Nếu kết quả kiểm định không bác bỏ giả thuyết H0, tác giả sẽ chọn REM.
Bởi vì, một mơ hình chỉ c ý nghĩa giải thích khi các giả định của n đã được thỏa mãn. Do vậy, trong luận án này, tác giả sẽ phải kiểm tra các giả định trước khi diễn giải các kết quả của mơ hình. Q trình kiểm tra các giả định có thể được thực hiện thông qua việc phát hiện khuyết tật có thể có của mơ hình. Nội dung kế tiếp sẽ thực hiện các kiểm định này.
3.4.1 Ki m địn các trƣờng h p khuy t tật của mơ hình do vi phạm các giả định (1) Giả địn p ƣơn sa của sai số ôn đổi:
Phương sai thay đổi nghĩa là phương sai của các phần dư là không phải hằng số, nghĩa là chúng khác nhau ở các quan sát khác nhau. Điều này sẽ dẫn đến vấn đề nếu các phương sai khơng bằng nhau thì độ tin cậy tương đối của mỗi quan sát (dữ liệu) sẽ không bằng nhau. Phương sai càng lớn thì mức độ quan trọng gán cho quan sát càng nhỏ. Vấn đề sẽ rõ ràng hơn khi giá trị của phương sai c mối quan hệ với một hoặc một số biến giải th ch. Điều này vi phạm giả định rằng các phân phối của phần dư phải khơng c tương quan với bất kì biến giải thích nào.
Hiện tượng phương sai thay đổi sẽ dẫn đến một số hậu quả như: các ước lượng OLS vẫn là không chệch nhưng không c n hiệu quả nữa, ước lượng của các phương sai sẽ bị chệch, như vậy sẽ làm mất hiệu lực của kiểm định hệ số hồi quy.
Trong quá trình hồi quy, tác giả sẽ tập trung xem xét lại bản chất của vấn đề nghiên cứu, đồ thị phần dư và dùng một số kiểm định Goldfeld-Quandt, Breusch- Pagan, White, Park trên OLS và phương pháp Greene 2000) trên dữ liệu bảng để kiểm tra xem mơ hình đã vi phạm giả thiết hồi quy - hiện tượng phương sai thay đổi.
(2) Giả định khơng có sự tƣơn quan ữa các ph n dƣ:
Tự tương quan là sự tương quan giữa các thành phần của chuỗi các quan sát được s p xếp theo thứ tự thời gian trong các số liệu chuỗi thời gian, hoặc s p xếp theo thứ tự không gian, đối với các số liệu theo không gian.
Để kiểm tra xem mơ hình đã vi phạm giả thiết hồi quy - hiện tượng tự tương quan. Trong quá trình hồi quy, tác giả sẽ dùng phương pháp đồ thị và kiểm định d (Durbin-Watson) để phát hiện tượng tự tương quan trong mơ hình hồi quy OLS (pooled regression). Ở khía cạnh kiểm tra phương sai thay đổi dữ liệu bảng, tác giả sử dụng kiểm định được đề xuất bởi Wooldrige (2002) và Drukker (2003).
Hiện tượng tự tương quan sẽ dẫn đến một số hậu quả như: uớc lượng OLS vẫn là ước lượng tuyến tính khơng chệch, nhưng không là ước lượng hiệu quả nữa; phương sai các ước lượng OLS là bị chệch, đôi khi quá thấp so với phương sai thực và sai số tiêu chuẩn, dẫn đến ph ng đại tỷ số t; các kiểm định t và không đáng tin cậy; công thức thông thường để t nh phương sai của sai số là ước lượng chệch của phương sai thực và trong một số trường hợp dường như ước lượng thấp của phương sai thực; có thể hệ số xác định không đáng tin cậy và dường như là nhận giá trị ước lượng cao; các phương sai và số tiêu chuẩn của dự đốn khơng c hiệu quả.
(3) Giả định khơng có mố tƣơn quan ữa các bi n độc lập (không xảy ra hiện tƣ n đa cộng tuy n):
Đa cộng tuyến nghĩa là hai hay nhiều biến giải thích trong biểu thức hồi quy có mối quan hệ tuyến tính với nhau. Nếu các biến có mối quan hệ tuyến tính thì các hệ số ước lượng và thống kê T sẽ khơng cịn hợp lý.
Trong q trình hồi quy, kết quả hồi quy có hệ số xác định R2 cao nhưng tỷ số t thấp, tương quan cặp giữa các biến giải th ch cao, xét tương quan riêng, hồi quy
phụ thấy có tồn tại hiện tượng tương quan giữa các biến độc lập thì mơ hình đã vi phạm giả thiết hồi quy - hiện tượng đa cộng tuyến.
Hiện tượng đa cộng tuyến sẽ dẫn đến một số hậu quả như: phương sai và hiệp phương sai của các ước lượng OLS lớn, khoảng tin cậy rộng lớn, tỷ số t mất ý nghĩa, hệ số xác định cao nhưng tỷ số t mất ý nghĩa, các ước lượng OLS và sai số chuẩn trở nên rất nhạy với những thay đổi trong số liệu, dấu của các ước lượng của các hệ số hồi quy có thể sai lệch, thêm vào hay bớt đi các biến cộng tuyến với các biến khác thì hệ số của các biến cịn lại có thể thay đổi rất lớn và thay đổi cả dấu của chúng.
Đa cộng tuyến giữa các biến luôn tồn tại và khuyết tật chỉ xảy ra nếu mức độ đa cộng tuyến đủ lớn để gây ra sự thiên chệch các kết quả ước lượng.
Theo Gujarati (2004), một số cách kiểm tra vấn đề đa cộng tuyến như sau: - Nhiều trường hợp mơ hình có R2 lớn hơn 0.8 nhưng | t | thấp.
- Hệ số tương quan giữa các cặp biến độc lập cao. Nếu giá trị tuyệt đối của hệ số tương quan giữa 2 biến lớn hơn 0.8 cho thấy có tồn tại hiện tượng đa cộng tuyến giữa 2 biến này.
- Sử dụng hệ số khuếch đại phương sai VI ), nếu VIF của một biến lớn hơn 10 thì tồn tại hiện tượng đa cộng tuyến giữa biến đ với các biến giải thích cịn lại. Trong luận án này, tác giả sẽ thực hiện tính tốn hệ số tương quan giữa các cặp biến độc lập và sử dụng hệ số khuếch đại phương sai VI ).
Trong luận văn nghiên cứu, tác giả sử dụng hệ số tương quan giữa các cặp biến độc lập kết hợp với sử dụng hệ số khuếch đại phương sai VI ). Tuy nhiên, cũng theo altagi 2008), việc sử dụng dữ liệu bảng cũng đã hạn chế được hiện tượng đa cộng tuyến này nhưng nếu có hiện tượng đa cộng tuyến xảy ra thì tác giả
sẽ kh c phục bằng cách bỏ các biến c đa cộng tuyến hoặc tăng thêm số quan sát bằng cách thu thập thêm số liệu.
(4) Hiện tƣ ng nội sinh
Hiện tượng nội sinh xảy ra khi giả thiết về sự không tương quan giữa biến độc lập và sai số bị vi phạm. Biến độc lập trong mơ hình vừa đ ng vai tr là biến ngoại sinh do tác động đến Y) vừa là biến nội sinh (do bị sai số tác động).
Để phát hiện vi phạm giả thiết hồi quy - hiện tượng nội sinh, tác giả sẽ sử dụng kiểm định phương pháp Hansen, Sargan để kiểm tra sự phù hợp của việc thay thế biến nội sinh bởi biến công cụ.
3.4.2 P ƣơn p áp ồi quy GMM 3.4.2.1 Ƣu đ m của GMM
Thông thường ước lượng theo phương pháp OLS sẽ không chệch, vững và hiệu quả khi không tồn tại các vi phạm về phương sai thay đổi, tự tương quan và biến nội sinh. Phương pháp ước lượng bình phương bé nhất OLS) là phương pháp được dùng rất phổ biến trong lĩnh vực kinh tế lượng. Ưu điểm của phương pháp này không quá phức tạp nhưng hiệu quả. Với một số giả thiết ban đầu, phương pháp này sẽ dễ dàng xác định các giá trị ước lượng hiệu quả, không chệch và vững.
Tuy nhiên, khi nghiên cứu về chuỗi dữ liệu thời gian, có nhiều chuỗi vi phạm một hoặc một số giả định của OLS. Khi đ , các ước lượng thu được sẽ bị bóp méo, mất tính vững và sẽ là sai lầm nếu sử dụng chúng để phân tích. Một trong những dạng vi phạm giả định phổ biến là hiện tượng nội sinh, một trường hợp khi hệ số ước lượng (hoặc biến) tương quan với phần dư.
Với những vi phạm trên làm cho kết quả ước lượng theo phương pháp OLS không c n đáng tin cậy và hiệu quả nhất. Để kh c phục phương pháp ước lượng
phương pháp GMM hệ thống do Arellano và Bover (1995); Blundell và Bond (1998) được sử dụng vì cỡ mẫu đủ lớn. Việc sử dụng mơ hình GMM sẽ cho phép kh c phục cả vi phạm tự tương quan, phương sai thay đổi và biến nội sinh nên kết quả ước lượng lúc này sẽ không chệch, vững và hiệu quả nhất. Thêm vào đ , phương pháp Arellano - ond cũng được thiết kế để kh c phục hiệu ứng tác động cố định hàm chứa trong sai số của mơ hình do đặc điểm của các biến quốc gia nghiên cứu không thay đổi theo thời gian như vị tr địa lý và nhân khẩu học có thể tương quan với các biến giải th ch trong mơ hình), được phản ánh vào trong phần sai số, sẽ giảm dần theo thời gian (Roodman, 2006).
Phương pháp cơ bản trong trường hợp các biến độc lập tương quan với phần dư là ước lượng một phương trình c dùng các biến cơng cụ (Instrumental Variables – hồi quy IV). Ý tưởng của phương pháp hồi quy này là tìm một bộ biến, được gọi là biến công cụ, thõa mãn cả hai điều kiện: 1) tương quan với các biến giải thích trong phương trình và 2) khơng tương quan với phần dư. Những biến công cụ như vậy được dùng để loại vỏ sự tương quan giữa các biến giải thích và phần dư.
Có nhiều phương pháp hồi quy dựa trên nền tảng của hồi quy IV như phương pháp ình phương bé nhất hai giai đoạn 2SLS), phương pháp Maximum Likelihood trong điều kiện giới hạn thông tin LIML), phương pháp ước lượng Moment tổng quát (GMM).
Làm thế nào để một hồi quy IV ước lượng ra hệ số với sự tham gia của biến