Biến
Mơ hình hồi quy Dữ liệu
Tổng thể Tỷ lệ % trên tổng thể Tỷ lệ % trên dữ liệu Số quan sát Tỷ lệ % trên tổng thể Số quan sát Ln_FDI 77,69% 84,71% 881 91,71% 1.040 1.134 Ln_IncFDI 77,69% 82,11% 881 94,62% 1.073 1.134 Openess 77,69% 80,97% 881 95,94% 1.088 1.134 LendInt 77,69% 86,20% 881 90,12% 1.022 1.134 GasrpGDP 77,69% 82,88% 881 93,74% 1.063 1.134 Ln_GDPpcppp 77,69% 78,38% 881 99,12% 1.124 1.134 Ln_Pop 77,69% 77,69% 881 100,00% 1.134 1.134 GDPgrowth 77,69% 78,24% 881 99,29% 1.126 1.134 EDUyear 77,69% 77,69% 881 100,00% 1.134 1.134 Ln_GBFDI 77,69% 77,69% 881 100,00% 1.134 1.134 NegFDI1 77,69% 81,27% 881 95,59% 1.084 1.134 NegFDI2 77,69% 81,27% 881 95,59% 1.084 1.134 Conflict1 77,69% 77,69% 881 100,00% 1.134 1.134 Conflict2 77,69% 77,69% 881 100,00% 1.134 1.134 Conflict3 77,69% 77,69% 881 100,00% 1.134 1.134 Ln_Mal 76,28% 77,58% 865 98,32% 1.115 1.134 TBmp100k 77.69% 77,69% 881 100,00% 1.134 1.134 TBHIVmp100k 77,69% 77,58% 881 100,00% 1.134 1.134
Bảng 4.2. Thống kê mô tả của các yếu tố định lượng
Yếu tố Quan sát Trung bình Độ lệch chuẩn Cực tiểu Cực đại FDI 1.088 5,23e+09 2,30e+10 -2,09e+10 3,48e+11 IncFDI 1.080 2,81e+09 1,15e+10 -3,78e+08 2,04e+11 Openess 1.088 81,97465 36,69017 14,93285 220,4074 LendInt 1.022 22,9523 26,44251 4,248333 300 GasrpGDP 1.063 1,334971 3,133591 0 29,39287 GDPpcppp 1.124 6,878,533 4,289,49 1.007,293 23.297,63 Pop 1.134 7,54e+07 2,24e+08 1.025.559 1,36e+09 GDPgrowth 1.126 4,271476 5,691187 -30,50847 88,95766 EDUyear 1.134 6,325397 0,957586 4 8 GBFDI 1.134 1,07e+12 6,41e+11 2,12e+11 2,43e+12 NegFDI 1.084 0,045203 0,207845
Conflict 1.134 0,255732 0,547672
Mal 1.115 325.625,4 857.735,7 0 4.731.338 TBmp100k 1.134 20,07435 27,38512 0,37 154 TBHIVmp100k 1.134 12,11815 36,74405 0 263
Chú thích: NegFDI và Conflict là các biến giả, chúng khơng có giá trị cực tiểu và cực đại. Nguồn: Tính tốn của tác giả trên dữ liệu từ WB, WHO và Uppsala universitet
Bảng 4.3. Thống kê mơ tả các biến trong mơ hình hồi quy
Biến Quan sát Trung bình Độ lệch chuẩn Cực tiểu Cực đại Ln_FDI 1.040 20,56177 1,963179 6,907755 26,57503 Ln_IncFDI 1.073 16,74176 7,705265 0 26,04371 Openess 1.088 81,97465 36,69017 14,93285 220,4074 LendInt 1.022 22,9523 26,44251 4,248333 300 GasrpGDP 1.063 1,334971 3,133591 0 29,39287 Ln_GDPpcppp 1.124 8,636465 0,653416 6,915021 10,05611 Ln_Pop 1.134 16,61018 1,530166 13,84075 21,02882 GDPgrowth 1.126 4,271476 5,691187 -30,50847 88,95766 EDUyear 1.134 6,325397 0,957586 4 8 Ln_GBFDI 1.134 27,4827 0,710583 26,07849 28,51762 Ln_Mal 1.115 6,956312 5,818886 -2,302585 15,36972 Ln_TBmp100k 1.134 2,184063 1,330041 -0,994252 5,036952 TBHIVmp100k 1.134 12,11815 36,74405 0 263
Biến Quan sát Tần suất Tỷ lệ % NegFDI1 1.084 1.035 95,48 NegFDI2 1.084 49 4,52 Conflict1 1.134 906 79,89 Conflict2 1.134 166 14,64 Conflict3 1.134 62 5,47
Ghi chú: Biến EDUyear không phải là dữ liệu số thực liên tục mà là biến số tự nhiên. Các biến giả hiển thị Tần suất và Tỷ lệ % khi chúng được nhận diện là 1. Nguồn: Tính tốn của tác giả trên dữ liệu từ WB, WHO và Uppsala universitet.
4.2. Kiểm định tƣơng quan cặp biến
Đa cộng tuyến là khái niệm đề cập đến hiện tượng tồn tại sự tương quan tuyến
tính giữa các biến độc lập với nhau trong mơ hình ước lượng. Trong nghiên cứu các tác động kinh tế xã hội, khó có khả năng xây dựng được một mơ hình hồi quy đa biến tránh mọi hiện tượng đa cộng tuyến, nhưng về mặt kỹ thuật, có thể loại trừ trường hợp đa cộng tuyến hồn hảo và hạn chế tính đa cộng tuyến ở mức độ cao. Hiện tượng đa cộng tuyến nếu ở mức độ cao sẽ làm mất đi tính ổn định của hệ số hồi quy và phóng đại sai số chuẩn của hệ số, dẫn tới kết quả ước lượng sẽ khó phản ảnh được tác động thực sự của các biến độc lập lên biến phụ thuộc.
Kỹ thuật cơ bản nhất có thể nhận diện hiện tượng đa cộng tuyến là thông qua ma trận thể hiện sự tương quan từng cặp biến trong mơ hình hồi quy dự kiến.
Bảng 4.4. Ma trận sự tương quan cặp biến
Ln_FDI Ln_IncFDI Openess LendInt GasrpGDP Ln_GDPpcppp Ln_Pop Ln_FDI 1,0000 Ln_IncFDI 0,3148 1,0000 Openess -0,0739 -0,0459 1,0000 LendInt -0,2622 -0,1913 -0,0233 1,0000 GasrpGDP 0,1130 -0,0761 -0,0433 -0,0937 1,0000 Ln_GDPpcppp 0,4726 0,1864 0,1650 -0,2329 0,1306 1,0000 Ln_Pop 0,5875 0,1472 -0,4227 -0,1042 0,1844 -0,0481 1,0000 GDPgrowth 0,2044 0,0963 0,0378 -0,2306 0,0068 -0,0129 0,0670 EDUyear -0,0104 -0,2974 0,1414 0,0866 0,0658 0,0589 -0,0300 Ln_GBFDI 0,3976 0,3190 0,1347 -0,3358 0,0980 0,4179 0,0459 NegFDI1 0,1120 -0,0374 -0,0186 0,0280 0,0011 0,0011 0,0581 Conflict2 0,1464 0,0565 -0,1692 -0,0447 0,1929 -0,0406 0,3445 Conflict3 -0,0167 -0,0848 -0,0927 0,0012 0,0414 -0,1515 0,1265 Ln_Mal 0,1641 0,2361 -0,3104 -0,1043 0,0598 -0,2620 0,4444 Ln_TBmp100k -0,0640 0,0464 -0,0568 0,0507 0,0203 -0,4335 0,2483 TBHIVmp100k -0,0863 0,0133 -0,0185 -0,0004 -0,1035 -0,0687 -0,1105
GDPgrowth EDUyear Ln_GBFDI NegFDI1 Conflict2 Conflict3 Ln_Mal GDPgrowth 1,0000 EDUyear 0,0110 1,0000 Ln_GBFDI 0,1338 -0,0288 1,0000 NegFDI1 -0,0078 0,0147 0,0240 1,0000 Conflict2 0,0474 -0,1277 -0,0240 0,0035 1,0000 Conflict3 -0,0875 0,1330 -0,0719 -0,0135 -0,0996 1,0000 Ln_Mal 0,0751 -0,4128 -0,0204 -0,1400 0,2783 0,1380 1,0000 Ln_TBmp100k 0,0355 -0,0569 -0,1407 -0,1684 0,2213 0,1022 0,5640 TBHIVmp100k -0,0186 -0,2547 0,0066 -0,0496 -0,0773 -0,0400 0,2560 Ln_TBmp100k TBHIVmp100k Ln_TBmp100k 1,0000 TBHIVmp100k 0,4130 1,0000
Nguồn: Tính tốn của tác giả trên dữ liệu từ WB, WHO và Uppsala universitet
Thông qua ma trận trên, tác giả phát hiện hệ số tương quan cao giữa cặp biến
Ln_Mal và Ln_TBmp100k (0,5640). Được biết, hệ số tương quan cao cho thấy cặp
biến này có thể đại diện cho hai nhân tố kinh tế xã hội có cùng tính chất giải thích hoặc bản chất rất tương đồng. Trong một mơ hình hồi quy, nếu cùng xuất hiện cặp biến này, tác động của tính chất liên quan có thể bị khuếch đại và kết quả ước lượng bị đánh giá sai lệch. Nhằm tránh hiện tượng khá gần với đa cộng tuyến, mơ hình hồi quy hợp lý khơng nên được xây dựng mà trong đó hiện diện đồng thời cặp biến này. Hai biến đo lường hai biến thể của tử suất bệnh lao là Ln_TBmp100k và
TBHIVmp100k, tuy trên góc độ kỹ thuật, ma trận thể hiện mức tương quan không
cao, nhưng bản chất dữ liệu của chúng lại cùng phản ảnh một thuộc tính ít nhiều tương đồng. Do đó, để tránh ước lượng chệch tác động riêng của mỗi biến này lên biến phụ thuộc, việc xây dựng hai mơ hình hồi quy gần giống nhau và chỉ khác ở mỗi biến loại này là lựa chọn hợp lý (Bảng 4.10).
Ở góc độ kỹ thuật thành lập biến, sự tương quan không cao giữa
Ln_TBmp100k và TBHIVmp100k có thể là do cặp biến này có một biến là logarit còn biến kia là biến số thực. Tuy nhiên, về bản chất kinh tế xã hội được phản ảnh từ các biến này, tác giả không đủ cơ sở để cho rằng chúng tránh được hiện tượng đa cộng tuyến.
4.3. Mơ hình hồi quy và các kiểm định cơ bản
Bảng 4.5 báo cáo giá trị ước tính trên dữ liệu bảng của 54 quốc gia thu nhập trung bình cho quan sát mỗi quốc gia trong thời gian 21 năm. Phương pháp hồi quy được sử dụng là bình phương cực tiểu thơng thường (Ordinary Least Square – OLS). Các kiểm định cơ bản sẽ được thực hiện trên mơ hình có đầy đủ các biến.
Cột thứ nhất tính từ trái sang phải của Bảng 4.5 hiện thị tổng cộng 13 biến độc lập và phần dư (cons) được ước lượng. Ba chỉ số cuối cùng được trình bày dưới đường kẻ là báo cáo về số quan sát (obs), R2 (R-squared) và R2 hiệu chỉnh (Adj R- squared). Các cột thứ hai, ba, bốn và năm hiển thị kết quả ước lượng tác động của các biến độc lập lên biến phụ thuộc, trong bốn mơ hình OLS khác nhau như được định danh tại dòng ngang thứ nhất. Kết quả ước lượng, tương ứng với mỗi biến độc lập, sẽ được hiển thị gồm hai thơng số, hệ số tương quan ở dịng trên và giá trị P (P- value) đặt trong ngoặc đơn ở dịng dưới.
Trong mơ hình OLS1, tác giả chọn lựa các biến cơ bản được cho là có tác động
đến FDI theo mơ hình kinh tế học được nói ở Chương 3. Theo đó, mỗi yếu tố π0
,
py0, pk0, px và ω sẽ tương ứng một biến trong khi yếu tố S sẽ có hai biến đại diện. Tiếp theo, biến Ln_TBmp100k sẽ được đưa thêm vào để hình thành mơ hình OLS2. Mơ hình OLS3 được ước lượng với sự thêm vào các biến được đo lường bằng số học khác. Trong khi mơ hình OLS4 sẽ bao gồm đủ 13 biến độc lập, bao gồm sự bổ sung thêm ba biến giả.
Bảng 4.5. Ước lượng hồi quy dạng OLS
OLS1 OLS2 OLS3 OLS4
Ln_IncFDI 0,019862*** 0,022123*** 0,020226*** 0,020499*** (0,000) (0,000) (0,000) (0,000) Openess 0,004757*** 0,005351*** 0,004711*** 0,004324*** (0,000) (0,000) (0,000) (0,000) LendInt -0,002203 -0,002244 -0,000304 -0,000547 (0.110) (0.102) (0.828) (0.692) GasrpGDP -0,049929*** -0,047059*** -0,051389*** -0,049724*** (0,000) (0,000) (0,000) (0,000) Ln_GDPpcppp 1,196246*** 1,083088*** 1,139199*** 1,131348*** (0,000) (0,000) (0,000) (0,000) Ln_Pop 0,851244*** 0,880497*** 0,868540*** 0,868362*** (0,000) (0,000) (0,000) (0,000) GDPgrowth 0,047079*** 0,046428*** (0,000) (0,000) EDUyear 0,023337 0,043510 (0,526) (0,242) Ln_GBFDI 0,482871*** 0,477322*** 0,457394*** 0,456571*** (0,000) (0,000) (0,000) (0,000) NegFDI1 1,027234*** (0,000) Conflict2 -0,029506 (0,780) Conflict3 -0,432831*** (0,007) Ln_TBmp100k -0,11442*** -0,107269*** -0,083003** (0,001) (0,001) (0,011) Cons -17,77581*** -16,97918*** -17,0478*** -18,07427*** (0,000) (0,000) (0,000) (0,000) Số quan sát 886 886 885 881 R2 0,7063 0,7103 0,7215 0,7315 R2 hiệu chỉnh 0,7040 0,7077 0,7183 0,7275
Chú thích: *, **, *** biểu thị các mức ý nghĩa tương ứng 10%, 5% và 1%
Các kiểm định cơ bản được thực hiện trên mơ hình dạng OLS có đầy đủ các biến (mơ hình OLS4) để phát hiện các khuyết tật nếu có.
Bảng 4.6. Kiểm định đa cộng tuyến trong mơ hình OLS4
Biến VIF Tolerance
Ln_IncFDI 1,29 0,777309 Openess 1,36 0,737745 LendInt 1,27 0,787195 GasrpGDP 1,11 0,898533 Ln_GDPpcppp 1,73 0,578337 Ln_Pop 1,52 0,659821 GDPgrowth 1,14 0,875235 EDUyear 1,20 0,834852 Ln_GBFDI 1,41 0,707967 NegFDI1 1,02 0,976347 Conflict2 1,21 0,826088 Conflict3 1,11 0,900277 Ln_TBmp100k 1,50 0,666003
Nguồn: Tính tốn của tác giả trên dữ liệu từ WB, WHO và Uppsala universitet
Bảng 4.7. Kiểm định dị phương sai và thừa thiếu biến trong mơ hình OLS4
Kiểm định White đồng phương sai
Kiểm định Breusch-Pagan /Cook-Weisberg
dị phương sai
Kiểm định thừa thiếu biến thông qua P>|t|
chi2(100) Prob > chi2 chi2(1) Prob > chi2 _hat _hatsq _cons 129,48 0,0253 23,14 0,0000 0,094 0,383 0,386
Kết quả kiểm định đa cộng tuyến ở bảng 4.6 cho thấy các biến đều có hệ số khuếch đại phương sai VIF<3 và khơng hiện diện hai cặp biến có cùng giá trị cao. Ở góc độ kỹ thuật, mơ hình khơng phát hiện hiện tượng đa cộng tuyến ở mức độ có thể làm thiên lệch kết quả ước lượng. Hai biến GasrpGDP và Conflict2 có cùng giá trị VIF và giá trị tolerance gần bằng nhau. Tuy nhiên, giá trị VIF=1,11 này là rất nhỏ, nên khi cùng xuất hiện trong mơ hình, cặp biến này khơng được xem là tạo ra vấn đề nghiêm trọng của hiện tượng đa cộng tuyến.
Kiểm định White cho kết quả giá trị Prob > chi2 nhỏ hơn 0,05, đồng thời kiểm định Breusch-Pagan/Cook-Weisberg với giả định phần dư có phương sai bất biến7
cho kết quả có giá trị Chi-square lớn (23,11) trong khi p-value nhỏ. Theo đó, mơ hình được phát hiện là phần dư có phương sai thay đổi (dị phương sai – heteroskedasticity). Điều này nói lên có sự khác biệt giữa dữ liệu thực tế so với giả định, và sự vi phạm giả định này đã làm suy yếu mơ hình OLS. Kết quả kiểm định cũng cho thấy P>|t| của cả hat và hatsq đều khơng có ý nghĩa thống kê ở mức ý
nghĩa 5%, nói lên rằng mơ hình khơng phát hiện bỏ sót hay dư thừa biến phi tuyến. Ma trận tương quan (Bảng 4.8 thể hiện một phần) khơng cho thấy có sự tương quan cao giữa phần dư (res) và các biến độc lập trong mơ hình.
7 Ý tưởng của kiểm định Breusch-Pagan nói rằng mơ hình OLS4 là phương trình có dạng Yi = β1 + β2X1i + … + βkXki + εi, trong khi phương sai của phần dư (ε) là phương trình có dạng σi2 = α1 + α2Z2i + … αmZmi. Giả định H0: α2 = α3 = … = αm = 0, nghĩa là σi2 = α1 (hằng số).
Nếu kiểm định cho kết quả bác bỏ giả định này, thì kết luận mơ hình OLS4 có hiện tượng dị phương sai (Breusch và Pagan, 1979).
Bảng 4.8. Tương quan giữa phần dư và biến độc lập trong mơ hình OLS4
Biến Ln_IncFDI Openess LendInt GasrpGDP Ln_GDPpcppp Ln_Pop GDPgrowth
Phần dư 0,0151 0,0143 0,0139 0,0247 0,0145 0,0064 0,0310
Biến EDUyear Ln_GBFDI NegFDI1 Conflict2 Conflict3 Ln_TBmp100k
Phần dư 0,0347 0,0386 0,0596 0,0433 0,0442 0,0243
Nguồn: Tính tốn của tác giả trên dữ liệu từ WB, WHO và Uppsala universitet
Hình 4.1. Đồ thị biểu diễn phân phối giữa phần dư và biến Ln_FDI
Chú thích: Hiển thị trực quan cho thấy phần dư có hiện tượng dị phương sai Nguồn: Tính tốn của tác giả trên dữ liệu từ WB, WHO và Uppsala universitet.
Quan sát qua đồ thị phân tán giữa Ln_FDI và Ln_TBmp100k (Hình 4.1) phát
hiện dữ liệu ẩn chứa quan sát có giá trị outlier. Điều này dẫn đến kết quả ước lượng hệ số tương quan của mơ hình hồi quy dạng OLS trở nên có thể sai lệch. Outlier của biến Ln_FDI được xác định là dữ liệu cực đoan của quan sát Serbia năm 1996. Tuy quan sát này có giá trị dữ liệu nhỏ một cách bất thường, nhưng khơng có bằng
chứng nào cho thấy đây là sự sai lệch về mặt nhập liệu của thơng tin gốc. Do đó, khơng đủ cơ sở để loại bỏ quan sát này ra khỏi mơ hình.
Nếu xét ở góc độ tương quan giữa hai yếu tố kinh tế xã hội, tác giả khơng loại trừ (cũng khơng xác nhận) khả năng có xảy ra hay khơng tác động hai chiều giữa bệnh truyền nhiễm và FDI. Tuy nhiên, nội sinh (endogenous) được xác định là không thể tồn tại giữa biến độc lập đại diện cho bệnh truyền nhiễm và biến phụ thuộc trong mơ hình kinh tế lượng của nghiên cứu này. Nguyên nhân của kết luận này là dựa vào cách sử dụng dữ liệu, theo đó, số liệu của biến Ln_FDI có độ trễ thời gian là một năm so với số liệu các biến Ln_TBmp100k, TBHIVmp100k và Ln_Mal. Quan điểm nghiên cứu của tác giả cho rằng dữ liệu ở hiện tại không thể tác động lên dữ liệu ở quá khứ, do đó khơng thể tồn tại sự tác động của biến Ln_FDI có thời gian quan sát là t lên trên biến Ln_TBmp100k có thời gian quan sát là (t–1).
Hình 4.2. Đồ thị phân tán giữa Ln_FDI và một số biến giải thích tiêu biểu:
Chú thích: Hình trên bên trái biểu diễn đồ thị phân tán của Ln_FDI và Ln_TBmp100k cho thấy hiện diện giá trị outlier. Điều này cũng thể hiện trong đồ thị phân tán của TBHIVmp100k (hình trên, bên phải) và của Ln_Mal (hình dưới, bên trái) thậm chí ở mức độ rõ ràng hơn, với nhiều quan sát tiến về giá trị outlier ở cả biến độc lập và biến phụ thuộc. Trong khi đó, hình dưới bên phải biểu diễn đồ thị phân tán của Openess ít thể hiện outlier ở biến phụ thuộc nhưng thể hiện rõ nét ở biến độc lập.
Kết quả của các kiểm định đã không đem lại hỗ trợ đủ mạnh cho quyết định lựa chọn mơ hình OLS trong nghiên cứu này. Hơn nữa, dữ liệu bảng thu thập từ 54 quốc gia khác nhau trong 21 năm hình thành nên tập hợp quan sát khơng có tính đồng đều về mặt số học. Do đó, trên quan điểm nghiên cứu của tác giả, mơ hình hồi quy dạng Robust hoặc mơ hình Quantile (phân vị) 0.5 được xem là những lựa chọn phù hợp để thay thế cho mơ hình OLS. Hình 4.3 thể hiện quy trình lựa chọn mơ hình hồi quy trong nghiên cứu. Với quy mơ mẫu quan sát lớn (trên 800 quan sát), kết quả ước lượng của mơ hình Robust (dựa trên giá trị trung bình của mẫu) và mơ hình Quantile (dựa trên giá trị trung vị của mẫu) thường không khác biệt nhiều. Kết quả ước lượng của các dạng mơ hình được trình bày ở Bảng 4.9.
Trên quan điểm nghiên cứu của tác giả, hai biến được coi là tương quan chỉ khi nào có ý nghĩa thống kê từ 5% trở lên. Theo đó, các biến với ý nghĩa thống kê thấp hơn khơng được nhận diện là có tác động lên biến phụ thuộc. Vì vậy, các hiển thị ý nghĩa thống kê 10% ở các bảng chỉ mang tính chất kỹ thuật.
Hình 4.3. Quy trình chọn mơ hình hồi quy
Tổng quan các nghiên cứu và lý thuyết
Phương pháp luận
Thống kê mô tả dữ liệu
Hồi quy Pooled-OLS Kiểm tra đa cộng tuyến Kiểm tra Breusch-Pagan Hồi quy Quantile(.5) Hồi quy Robust