Phân tích mô tả, hồi quy các biến và lựa chọn mô h- 123docz.net

2.3.2.1 Phần mô tả các biến

Phân tích mô tả các biến là bước đầu tiên trong việc nghiên cứu, qua đó giúp mô tả các khía cạnh liên quan đến thu nhập bình quân tháng của người lao động làm công ăn lương theo tỉnh và cung cấp thông tin chi tiết về từng biến liên quan

Bảng 2.6: Phân tích các biến

Biến Số quan sát Giá trị

trung vị Giá trị lớn nhất Giá trị nhỏ nhất

Y 441 4054,86 7103,71 1909,36 𝑋1 441 0,86 39,43 0 𝑋2 441 18,51 64,44 2,95 𝑋3 441 50,96 60,39 46,70 𝑋4 441 14,97 42,94 5,06 𝑋5 441 31,79 138,77 12,61 𝑋6 441 20,06 92,28 8,01 𝑋7 441 89,51 95,65 52,7 𝑋8 441 52,68 85,55 1,86

Nguồn: Kết quả chạy Eviews

Thống kê mô tả các biến chính giúp người đọc có cái nhìn tổng quan về dữ liệu được thu thập. Luận văn sử dụng giá trị trung vị thay cho trung bình là vì chỉ tiêu trung bình theo tỉnh nhưng không có thông tin quyền số sẽ không tính được. Giữa các tỉnh thành và theo thời gian có sự khác biệt với nhau rất lớn. Như giá trị thu nhập bình quân trên đầu người giá trị nhỏ nhất là 12,61 triệu đồng, giá trị lớn nhất đặt tới 138,77 triệu đồng, tương tự cho các biến khác.

Bảng 2.7: Ma trận hệ số tương quan Y 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 Y Tương quan 1 Sig - 𝑋1 Tương quan 0,277 1 Sig 0,000 - 𝑋2 Tương quan 0,185 0,771 1 Sig 0,000 0,000 - 𝑋3 Tương quan -0,198 -0,139 -0,202 1 Sig 0,000 0,003 0,000 - 𝑋4 Tương quan 0,571 0,207 0,426 -0,307 1 Sig 0,000 0,000 0,000 0,000 - 𝑋5 Tương quan 0,377 0,367 0,427 0,129 0,42 1 Sig 0,000 0,000 0,000 0,007 0,000 - 𝑋6 Tương quan 0,291 0,372 0,384 0,248 0,557 0,538 1 Sig 0,000 0,000 0,000 0,000 0,000 0,000 - 𝑋7 Tương quan -0.429 -0.828 -0.69 0.171 -0.606 -0.457 -0.62 1 Sig 0,000 0,000 0,000 0,000 0,000 0,000 0,000 𝑋8 Tương quan -0.21 -0.584 -0.868 -0.041 -0.604 -0.573 -0.66 0.676 1 Sig 0,000 0,000 0,000 0,388 0,000 0,000 0,000 0,000 -

Nguồn: Kết quả chạy Eviews

Có thể thấy rằng biến độc lập có tương quan với tất cả với biến phụ thuộc. Bên cạnh đó biến phụ thuộc cũng có sự tương quan với nhau trừ cặp 𝑋3 và 𝑋8 và một số biến có hệ số tương quan khá lớn (gần 0,8). Cụ thể, hệ số tương quan giữa

𝑋1 với 𝑋7 là -0,828 , 𝑋2 với 𝑋8 là -0,868 và 𝑋1 với 𝑋2 là 0,771. Vậy nên, có thể nghi ngờ xảy ra hiện tượng đa cộng tuyến ở đây.

Để có thể phát hiện hiện tượng đa cộng tuyến có thể dụng hệ số nhân tử phóng đại phương sai. Nếu hệ số nhân tử phóng đại phương sai lớn hơn 10 thì chắc chắn xảy ra hiện tượng đa cộng tuyến.

Bảng 2.8: Bảng hệ số nhân tử phóng đại phương sai của một số mô hình Mô hình 8 biến Biến 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 VIF 11,363 16,342 2,442 5,455 1,603 3,644 11,284 15,937 Mô hình 7 biến Biến 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 VIF 10,799 3,570 1,797 4,756 1,583 2,677 11,281 - Mô hình 7 biến Biến 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 - 𝑋8 VIF 3,576 15,958 2,441 3,273 1,590 3,448 - 15,932 Mô hình 6 biến Biến 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 - - VIF 2,939 3,108 2,615 1,570 1,570 2,495 - -

Nguồn: Kết quả chạy Eviews

Như vậy có thể khẳng định với mô hình 8 biến chắc chắn xảy ra hiện tượng đa cộng tuyến vì hệ số nhân tử phóng đại phương sai của các biến 𝑋1, 𝑋2, 𝑋7, 𝑋8

đều có giá trị lớn hơn 10. Vì vậy cần bỏ biến loại bỏ từng biến xem mô hình nào phù hợp, sau khi loại bỏ cả 2 biến 𝑋7, 𝑋8 ra khỏi mô hình khi đó hộ số nhân tử phóng đại phương sai của các biến nhỏ hơn 10, mô hình sẽ khá phù hợp trong việc xem xét các yếu tố ảnh hưởng đến thu nhập bình quân tháng của người lao động làm công ăn lương theo tỉnh ở Việt Nam.

2.3.2.2 Kết quả hồi quy theo 3 mô hình

Sử dụng phần mềm Eviews tiến hành ước lượng chỉ tiêu thu nhập bình quân tháng của người lao động làm công ăn lương theo tỉnh tại Việt Nam (Y) theo 6 chỉ tiêu: Tỷ trọng lao động theo loại hình kinh tế đầu tư nước ngoài từ 15 tuổi trở lên (𝑥1), tỷ trọng lao động theo khu vực kinh tế công nghiệp và xây dựng (𝑥2), tỷ trọng lao động nam từ 15 trở lên đang làm việc (𝑥3), tỷ trọng lao động từ 15 tuổi trở lên đã làm việc đã qua đào tạo (𝑥4), GDP bình quân đầu người trên địa bàn (𝑥5), tỷ trọng lao động theo khu vực thành thị từ 15 tuổi trở lên đang làm việc (𝑥6). Kết quả

hồi quy 3 mô hình Pooled Regression, Fixed effects (FE) và Random effects (RE) lần lượt như sau:

Bảng 2.9: Kết quả hồi quy theo các mô hình

Biến Pooled Regression Fixed effects (FE) Random effects (RE) Hệ số hồi quy P_value Hệ số hồi quy P_value Hệ số hồi quy P_value 𝑥1 100,9145*** 0,0010 39,2924** 0,0435 102,3267*** 0,0000 𝑥2 -49,7393*** 0,0000 38,2978*** 0,0010 -40,0633*** 0,0000 𝑥3 6,773 0,6730 16,0625 0,5692 61,7061*** 0,0002 𝑥4 100,7255*** 0,0000 166,0408*** 0,0000 139,9223*** 0,0000 𝑥5 5,20973*** 0,0000 19,25*** 0,0000 6,7702*** 0,0000 𝑥6 -12,2847*** 0,0000 -9,4748 0,36 -25,1003*** 0,0000 N 441 441 441 𝑅2 0,4888 0,795291 0,471388 Prob (F- statistic) 0,000000 0,000000 0,000000

Nguồn: Kết quả chạy Eviews

Các giá trị với *, ** và *** có ý nghĩa tương ứng là 10%, 5% và 1%.

Nhìn chung cả ba mô hình đều có ý nghĩa thống kê khi Prob đều bằng 0,0000. Để lựa chọn mô hình phù nhất cần tiến hành kiểm định lựa chọn mô hình. 2.3.2.3 Lựa chọn mô hình

Từ ba mô hình trên, cần lựa chọn mô hình phù hợp nhất với bộ dữ liệu thông qua kiểm định Redundant Fix effects test và kiểm định Hausman test.

- Lựa chọn mô hình Pooled Regresion hay Fixed effects (FE)?

Thực tế, ngoài 6 yếu tố là tỷ trọng lao động theo loại hình kinh tế đầu tư nước ngoài từ 15 tuổi trở lên, tỷ trọng lao động theo khu vực kinh tế công nghiệp và xây dựng, tỷ trọng lao động nam từ 15 trở lên đang làm việc, tỷ trọng lao động từ 15 tuổi trở lên đã làm việc đã qua đào tạo, GDP bình quân đầu người trên địa bàn, tỷ trọng lao động theo khu vực thành thị từ 15 tuổi trở lên đang làm việc thì còn nhiều

yếu tố khác tác động tới thu nhập bình quân tháng của người lao động làm công ăn lương theo tỉnh tại Việt Nam. Đối với mỗi đơn vị cá thể khác nhau thì tác động của các yếu tố là khác nhau. Dựa trên nguyên lý này, ta có căn cứ để tiến hành lựa chọn giữa 2 mô hình hồi quy là Pooled Regression hoặc Fixed effects (FE).

Nếu hệ số chặn giữa các tỉnh thành (đơn vị cá thể) là như nhau có nghĩa là mô hình không chỉ ra được đặc điểm riêng của các tỉnh thành khác nhau, thì mô hình FE thức chất lại giống như mô hình Pooled Regression. Từ đó ta có căn cứ để lựa chọn dạng mô hình phù hợp chính là kiểm định giữa các hệ số chặn của 63 tỉnh thành có khác nhau hay không. Nếu thực sự khách nhau thì mô hình tác động cố định là phù hợp và ngược lại.

Ta có cặp giả thuyết sau:

𝐻0: Hệ số chặn trong hàm hồi quy của 63 tỉnh thành là như nhau (Pooled Regression là phù hợp)

𝐻1: Hệ số chặn trong hàm hồi quy của 63 tỉnh thành là khác nhau (FE phù hợp)

Sử dụng kiểm định Redundant Fix effects test trong Eview. Kết quả (phụ lục 5) cho thấy, cả kiểm định F và Chi-square đều có hệ số Prob = 0.0000 < 0.05 (mức ý nghĩa) (Cross-section F =8,982214 ; Cross-section Chi-square = 403,560998). Do đó bác bỏ giả thuyết 𝐻0 (Mô hình FE phù hợp).

Vậy mức ý nghĩa 5%, sai số trong ước lượng có bao gồm sự sai lệch giữa các tỉnh thành phố nên mô hình hồi quy tác động cố định (mô hình FE) là phù hợp. - Lựa chọn mô hình Fixed effects (FE) hay Random effecst (RE)?

Sử dụng kiểm định Hausman test để lựa chọn giữa hai phương pháp ước lượng tác động cố định và tác động ngẫu nhiên.

Cặp giả thuyết để kiểm định:

𝐻0: Không có tương quan giữa các biến giải thích và thành phần ngẫu nhiên (RE là phù hợp)

𝐻1: Có tương quan giữa các biến giải thích và thành phần ngẫu nhiên (FE là phù hợp)

Trong trường hợp chưa có đủ bằng chứng để bác bỏ 𝐻0 nghĩa là không bác bỏ được sự tương quan giữa sai số và các biến giải thích thì ước lượng tác động cố định không còn phù hợp và ước lượng ngẫn nhiên sẽ ưu tiên được sử dụng. Ngược lại, khi giả thuyết 𝐻0 bị bác bỏ thì ước lượng tác động cố định là phù hơn so với ước lượng tác động ngẫu nhiên. Kết quả kiểm định mô hình như sau:

Bảng 2.10: Kết quả kiểm định Hausman

Correlated Random Effects - Hausman Test Test cross-section random effects

Test Summary Chi-Sq. Statistic Chi-Sq. d.f. Prob.

Cross-section random 236.306266 6 0.0000

Nguồn: Kết quả chạy eviews

Theo kết quả kiểm định, P-value = 0,000 < 0,05 ta bác bỏ giả thuyết 𝐻0, chấp nhận giả thuyết 𝐻1. Điều này cho thấy mô hình ước lượng tác động cố định (FE) là mô hình phù hợp với mức ý nghĩa 5%. Kết quả chi tiết của kiểm định được trình bày trong phụ lục 6.

Như vậy, qua những phân tích kiểm định trên, ta có thể đưa ra kết luận là trong các các mô hình ước lượng được thì mô hình ước lượng theo tác động cố định (FE) là mô hình phù hợp nhất.

Dạng tổng quát của mô hình là:

𝑌𝑖𝑡 =∝0+ 𝛽1𝑥𝑋𝑖𝑡1+ 𝛽2𝑥𝑋𝑖𝑡2 + ⋯ + 𝛽𝑛𝑥𝑋𝑖𝑡𝑛+ 𝑎1+ 𝑎2+ ⋯ + 𝑎𝑛+ 𝜀𝑖𝑡

Tuy nhiên trong mô hình FE do có sự ảnh hưởng không đồng nhất giữa các yếu tố đến thu nhập bình quân tháng của người lao động làm công ăn lương theo tỉnh (tác động ròng của các yếu tố không quan sát được của từng đối tượng lên 𝑌𝑖𝑡) nên hệ số chặn của mô hình hồi quy là khác nhau đối với từng đơn vị cá thể.

Sự ảnh hưởng không đồng nhất giữa các yếu tố thu nhập bình quân tháng của người lao động làm công ăn lương theo tỉnh được xác định bởi hệ số chênh lệch giữa tác động cố định cho các cá thể, mà trong kết quả chạy do phần Eviews thực hiện chính là hệ số tác động có định thực trong bảng sau:

Bảng 2.11: Tác động cố định thực (gốc) của các đơn vị chéo (Mô hình FE) Tỉnh Hệ số tác động cố định thực Tỉnh Hệ số tác động cố định thực Tỉnh Hệ số tác động cố định thực Bà Rịa Vũng Tàu -5284,23 Vĩnh Long -162,319 Sóc Trăng 618,3789

Hà Nội -3047,48 Cần Thơ -98,0201 Lâm Đồng 637,0841 TP. Đà Nẵng -2949,37 Hà Tĩnh -19,407 Bình Thuận 732,6139 TP. Hồ Chí Minh -2633,02 Quảng Trị -5,16196 An Giang 736,8292 Bình Dương -2591,61 Quản Nam 49,13712 Yên Bái 808,0734 Bắc Ninh -2482,4 Quản Bình 78,61811 Hậu Giang 972,311 Quảng Ninh -2367,29 Trà Vinh 88,77337 Đắc Lắc 1016,172

Hải Phòng -2246,22 Quảng Ngãi 112,7713 Kiên Giang 1149,758 Ninh Bình -1989,4 Thái Bình 116,3418 Lạng Sơn 1261,04 Vĩnh Phúc -1667,31 Long An 150,4416 Cao Bằng 1280,221 Thái Nguyên -1195,57 Bắc Giang 159,1968 Bạc Liêu 1302,33

Đồng Nai -1119,64 Ninh Thuận 197,4311 Cà Mau 1348,921 Hưng Yên -864,878 Hòa Bình 280,0403 Bắc Kạn 1469,947 Hà Nam -849,421 Bến Tre 304,426 Lào Cai 1504,905 Thừa Thiên Huế -750,464 Đồng Tháp 334,5211 Gia Lai 1561,762 Hải Dương -574,405 Tuyên Quang 385,3839 Kon Tum 1741,354 Phú Thọ -480,501 Tiền Giang 387,2439 Lai Châu 2059,532 Tây Ninh -389,629 Nghệ An 401,5362 Sơn La 2238,715 Khánh Hòa -378,475 Phú Yên 422,2437 Đắk Nông 2311,438 Thanh Hóa -247,826 Bình Dương 486,8446 Điện Biên 2353,135 Nam Định -229,515 Bình Phước 587,9524 Hà Giang 2976,138

Nguồn: Kết quả chạy eviews

Tỉnh thành có hệ số tác động cố định nhỏ nhất là Hà Nội và Bà Rịa Vũng Tàu lần lượt là -5284,23 và -3034,48. Đây là hai nơi có nền kinh tế phát triển, Bà Rịa Vũng Tàu là nơi tập trung nhiều khu công nghiệp lớn. Vì vậy cả hai nơi người

lao động cần có một khoản thu nhập cố định lớn.

Tỉnh thành có hệ số tác động cố định lớn nhất là Điện Biên và Hà Giang lần lượt là 2353,135 và 2976,138. Đây là hai nơi vùng cao, giao thông khó khăn, điều kiện kinh tế phát triển kém, nên người lao động chỉ cần một khoản thu nhập cố định nhỏ để sử dụng.

2.3.2.5 Kiểm định mô hình

Ta đã xác định được mô hình ước lượng theo tác động cố định (FE) chính là mô hình hồi quy phù hợp nhất trong số các mô hình hồi quy dữ liệu mảng, giúp phân tích mối liên hệ giữa các yếu tố đầu vào và thu nhập bình quân tháng của người lao động làm công ăn lương theo tỉnh. Tuy nhiên, một mô hình chỉ thực sự có ý nghĩa khi mô hình đó không mắc phải các khuyết tật, hay mô hình không bị vi phạm các giả định hồi quy.

Kiểm định về hiện tượng phương sai sai số thay đổi:

Mô hình tác động cố định là một dạng mở rộng của mô hình hồi quy tuyến tính cổ điển nên vấn đề phương sai sai số thay đổi cần xem xét với cặp giả thuyết sau là:

H0: Phương sai sai số không thay đổi H1: Phương sai sai số thay đổi

Để thực hiện kiểm định trên, ta tiến hành 3 bước sau:

Bước 1: Ước lượng mô hình hồi quy tác động cố định và thu được phần dư

Yit =∝̂1+ β1Xit1 + β2Xit2+ β3Xit3 + β4Xit4 + β5Xit5+ β6Xit6 + eit

Bước 2: Ước lượng mô hình hồi qui phụ thu được các hệ số xác định R2

eit2 =∝0+∝1 Xit1 + ⋯ +∝6 Xit6 +∝7 Xit12+ ⋯ +∝12Xit62+∝13 Xit1Xit2+ ⋯

+∝27 Xit5Xit6 + 𝑣𝑖

Bước 3 xét cặp giả thuyết:

H0: ∝1=∝2= ⋯ =∝27= 0 (không có phương sai sai số thay đổi)

H1: ∝12+∝22+ ⋯ +∝272> 0 (có phương sai sai số thay đổi)

Sử dụng kiểm định F để kiểm định cặp giả thuyết trên. Kết quả chạy kiểm định bằng Eviews (phụ lục 6) cho thống kê F là 8,4776. P_value nhỏ hơn mức ý

nghĩa (P_value =0,0000<0,05) nên bác bỏ H0 chấp nhận H1. Vậy mô hình tồn tại hiện tượng phương sai sai số thay đổi. Tiến hành khắc phục phương sai sai số thay đổi (phụ lục 7), ta kết quả bảng sau:

Bảng 2.12: So sánh kết quả mô hình hồi quy trước và sau khi khắc phục hiện tượng phương sai sai số thay đổi

Biến Hệ số hồi qui

Mô hình FE đã khắc phục Mô hình chưa khắc phục Sai số chuẩn P_value Sai số chuẩn P_value 𝑋1 39,2924 18,77 0,0370 19,3931 0,0435 𝑋2 38,2978 12,1669 0,0018 11,5663 0,0010 𝑋3 16,0625 28,9530 0,5794 28,1928 0,5692 𝑋4 166,0408 17,34333 0,0000 11,4667 0,0000 𝑋5 19,25 7,6454 0,0122 2,8073 0,0000 𝑋6 -9,4748 10,1476 0,3511 10,3371 0,36

Nguồn: Kết quả chạy Eviews

Như vậy kết quả hồi quy theo mô hình hồi quy tác động cố định (đã khắc phục phương sai sai số thay đổi) như trên chỉ ra trong 6 biến độc lập của mô hình khi tiến hành hồi quy thì có 2 biến là tỷ trọng lao động nam từ 15 trở lên đang làm việc (𝑥3) và tỷ trọng lao động theo khu vực thành thị từ 15 tuổi trở lên đang làm việc (𝑥6) là không có ý nghĩa thống kê khi P_value của hai biến này lần lượt là 0,5794 và 0,3511 đều lớn hơn 0,05. Còn lại các biến tỷ trọng lao động theo loại hình kinh tế đầu tư nước ngoài từ 15 tuổi trở lên (𝑥1), tỷ trọng lao động theo khu vực kinh tế công nghiệp và xây dựng (𝑥2), tỷ trọng lao động từ 15 tuổi trở lên đã làm việc đã qua đào tạo (𝑥4), GDP bình quân đầu người trên địa bàn (𝑥5) có ý nghĩa thống kê khi P_value đều nhỏ hơn 0,05.

Phân tích mô tả, hồi quy các biến và lựa chọn mô hình phù hợp

Khái niệm nguồn lao động

Phương pháp phân tích dãy số thời gian