FINANCIAL TECHNOLOGY AND OTHER RELATING ISSUES
2. Phương pháp nghiên cứu
Bộ dữ liệu sử dụng để phân tích là Khảo sát mức sống dân cư Việt Nam (KSMS) 2018 và được thực hiện bởi Tổng cục thống kê Việt Nam (2018). KSMS 2018 được tiến hành theo Quyết định số 1673/QĐ-TCTK ngày 14/9/2017 của Tổng cục trưởng Tổng cục Thống kê.
Đây là cuộc khảo sát định kỳ, được tiến hành 02 năm một lần trên phạm vi cả nước bằng phương pháp phỏng vấn trực tiếp chủ hộ. Nghiên cứu này dựa trên mẫu điều tra gồm 9399 hộ, bao gồm điều tra thu nhập, chi tiêu và các chủ đề khác (trong 46995 hộ được khảo sát năm 2018 có 37.596 hộ điều tra thu nhập và các chủ đề khác; 9399 hộ điều tra thu nhập, chi tiêu và các chủ đề khác). Kết quả của cuộc điều tra phục vụ các đánh giá mức sống của người dân Việt Nam của Chính phủ để hoạch định chính sách và lập kế hoạch phát triển kinh tế - xã hội.
Quy trình thu thập số liệu được thiết kế để kết quả nghiên cứu mang tính đại diện cấp vùng, cấp nông thôn-thành thị và cấp tỉnh.
Phiếu điều tra KSMS 2018 điều tra thu nhập từ ba nhóm chính là: đi làm để nhận tiền công, tiền lương; hoạt động sản xuất hoặc dịch vụ về trồng trọt, chăn nuôi, nông nghiệp và thủy sản; hoạt động sản xuất kinh doanh hoặc dịch vụ. Trong đó, hoạt động đi làm để nhận tiền công và tiền lương được điều tra chi tiết số giờ làm việc và tiền lương và phúc lợi trong một năm. Chúng tôi tiếp cận nghiên cứu ở mức độ cá nhân và để thuận lợi cho, tức là người lao động làm công ăn lương từ độ tuổi 15 đến 60 và không phân biệt giới tính. Sau quá trình xử lý số liệu, chúng tôi thu được 8531 quan sát cho năm 2018. Trong đó, biến phụ thuộc là trung bình thu nhập của người lao động theo giờ (nghìn đồng/giờ), bao gồm thu thập từ tiền công, tiền lương và phúc lợi của người lao động trong vòng 12 tháng trước thời điểm khảo sát. Đồng thời, trung bình số giờ làm việc của người lao động trong 1 tuần cũng được điều tra.
Chúng tôi giả sử người lao động làm việc đủ 22 ngày/tháng và đủ 12 tháng/năm. Từ đó, thu nhập theo giờ được tính như sau:
Thu nhập(nghìnđồng/giờ)= Tổngthu nhậptừlươngvàphúc lợi trong 1 năm 22 × 12 × Trungbìnhsốgiờlàmviệc/tuần
Cách tính thu nhập trên tương tự như các nghiên cứu trước đã tiến hành McGuinness
& cộng sự (2021). Chúng tôi nhận thấy có các giá trị ngoại lai do thu nhập có độ phân tán rất lớn, chúng tôi đã loại bỏ các quan sát có mức thu nhập nhỏ hơn mức phân vị 1% và lớn hơn mức phân vị 99% của từng năm quan sát. Đồng thời, thu nhập là giá tại thời điểm khảo sát, tức năm 2018. Chúng tôi chia đều người lao động thành 3 nhóm thu nhập: thu nhập thấp, thu nhập trung bình và thu nhập cao (tương ứng các giá trị nhỏ hơn mức phân vị 33% , từ mức phân vị 33% đến mức phân vị 66% và lớn hơn mức phân vị 66% của tiền lương theo giờ.).
Trình độ giáo dục của từng cá nhân có thể được đo thông qua bằng cấp hoặc thông qua số năm đào tạo:
• Bằng cấp giáo dục cao nhất cá nhân đạt được. Đối với hệ thống giáo dục phổ thông và cao đẳng-đại học trở lên bao gồm: Không bằng cấp; tiểu học; trung học cơ sở; trung học phổ thông; cao đẳng, đại học và trên đại học. Đối với hệ thống giáo dục nghề nghiệp bao gồm sơ cấp nghề, trung cấp nghề, trung học chuyên nghiệp và cao đẳng nghề.
• Số năm đào tạo (giaoduc) được quy đổi tương ứng từ các bằng cấp cao nhất ở trên ra số năm đào tạo. Ví dụ, người có bằng tiểu học tương ứng có 5 năm đào tạo, người có bằng trung học cơ sở có 9 năm đào tạo và đối tượng không có bằng cấp có số năm đào tạo bằng 0.
Đối với các thông tin nhân khẩu học khác (xem Bảng 1) là đặc điểm tương ứng với từng cá nhân như giới tính, độ tuổi, tình trạng hôn nhân, loại hình cơ quan. Các thông tin này được trích xuất thông tin tương ứng từ phiếu điều tra cấp hộ và cá nhân.
Các tính toán trong nghiên cứu, như thống kê mô tả và ước lượng mô hình hồi quy được tiến hành trên phần mềm Rstudio, phiên bản 4.0.2. Gói lệnh được sử dụng là quantreg, tidyverse, ggplot2.
2.2. Phương pháp nghiên cứu
Nghiên cứu này sử dụng phương pháp hồi quy phân vị. Tuy nhiên, để đưa ra các đánh gia toàn diện và so sánh, chúng tôi trình bày mô hình và phương pháp ước lượng của hai mô hình hồi quy: mô hình hồi quy tuyến tính cổ điển và mô hình hồi quy phân vị.
2.2.1. Mô hình hồi quy tuyến tính cổ điển (OLS)
Giả sử ! là một biến phụ thuộc và !=(!!,!!,…,!!) là vectơ các biến độc lập. Mô hình hồi quy tuyến tính cổ điển là
!=!!+ !!!!+⋯+!!!!+! (1)
Trong đó ! ∼!(0,!!) là sai số ngẫu nhiên. Các hệ số của mô hình hồi quy trên được ước lượng bằng phương pháp bình phương nhỏ nhất (OLS), tức là tìm các hệ số !!,! = 0,1,2,…,! sao cho
!"# !−(!!+ !!!!+⋯+!!!! ) ! (2) Từ đó, ta có mô hình hồi quy mẫu
!= !!+ !!!!+⋯+!!!! (3) Về giải thích ý nghĩa của các hệ số ước lượng của mô hình (3):
• Hệ số hồi quy !! mang dấu dương/âm thể hiện tác động cùng chiều/ngược chiều của biến độc lập !! tới biến phụ thuộc ! và kiểm định hệ số hồi quy đơn với mức ý nghĩa cho trước sẽ cho biết tác động của !! là có ý nghĩa thống kê hay không.
• Nếu !! là một biến liên tục (biến định lượng), hệ số !! là sự thay đổi của giá trị ! khi !! tăng lên 01 đơn vị, với điều kiện các biến độc lập khác không đổi.
• Nếu !! là một biến định tính, hệ số !! là sự thay đổi của giá trị ! khi !! thay đổi từ phạm trù quan tâm so với phạm trù cơ sở, với điều kiện các biến độc lập khác không đổi.
• Lưu ý thêm về sai số ngẫu nhiên ! ∼!(0,!!), với giả thiết trên, tổng sai số ngẫu nhiên có trung bình bằng 0 nên sẽ có các giá trị dương và âm. Từ đó, dãy giá trị ước lượng của ! có thể lớn hơn hoặc nhỏ hơn so với giá trị ! thực tế. Trong một số trường hợp,
! có thể mang giá trị âm.
Với mô hình này ta có thể ước lượng được giá trị trung bình !(!|!!)từ giá trị quan sát của các biến đầu vào !! = !!!,!!!,…,!!" .
2.2.2 Mô hình hồi quy phân vị
Mô hình hồi quy phân vị được đề xuất bởi Koenker & Bassett (1978) nhằm xác định phân vị có điều kiện !! !|! , !=(!!,!!,…,!!). Cụ thể,
! =!! ! + ! (4)
!! ! =!! ! + !! ! .!!+⋯+!! ! .!! 5 với ! là sai số ngẫu nhiên thỏa mãn !! !|! =0
Trong đó, !! ! là giá trị phân vị của Y ở mức phân vị !,! ∈ 0,1 , tức là
!! ! =inf {!: !! ! ≥ !}. Nếu Y là biến ngẫu nhiên liên tục thì !! !! ! = !.
Ứng với một mức phân vị ! cụ thể, các tham số của mô hình (4) được ước lượng sao cho
!"# !! !!−(!! ! + !! ! .!!!+⋯+!! ! .!!")
!
!!!
ở đó, !! ! = !.!"# !,0 + 1−! .!"# −!,0
Với mô hình này, ta có thể ước lượng được !! !|!_! là giá trị phân vị của biến phụ thuộc Y ứng với mỗi mức phân vị ! cụ thể dựa trên giá trị quan sát của các biến đầu vào
!! = !!!,!!!,…,!!"
Như vậy, trong khi mô hình tuyến tính xác định tác động biên của biến độc lập đến giá trị trung bình của biến phụ thuộc, thì mô hình hồi quy phân vị sẽ giúp xác định tác động biên của biến độc lập đến biến phụ thuộc trên từng phân vị của biến phụ thuộc đó. Bên cạnh đó, đối với mô hình tuyến tính, các giá trị ngoại lai (outliers) thường được loại bỏ để ước lượng OLS không bị chệch, tuy nhiên đối với hồi quy phân vị do có tính ổn định (robustness) nên điều này là không cần. Một thế mạnh nữa của hồi quy phân vị đó là mô hình này không dựa trên bất kì một giả định nào về dạng phân phối của sai số ngẫu nhiên. Với những thế mạnh này, theo Hao & Naiman (2007), hồi quy phân vị đặc biệt phù hợp với việc nghiên cứu chênh lệch về mức thu nhập.
2.2.3. Mô hình đánh giá tác động của giáo dục đến thu nhập
Trong nghiên cứu này, chúng tôi sử dụng mô hình hồi quy tuyến tính cổ điển và mô hình hồi quy phân vị để đánh giá tác động của giáo dục và các đặc điểm nhân khẩu học đến thu nhập. Cụ thể, chúng tôi sử dụng mô hình sau:
ln !ℎ!"ℎ!" = !!+ !!!"#$%&'+ !!!!
!
!!!
+! (6)
Và
!! ln (!ℎ!"ℎ!") = !! ! +!! ! !"#$%&'+ !!!!!! ! !! (7)
Với !ℎ!"ℎ!" là là tiền lương theo giờ của người lao động (nghìn đồng/giờ), và các biến giải thích !"#$%&',!!,!!,…,!!. Cụ thể, !"#$%&' là tổng số năm đi học của người lao động; các biến biến !!,!≥ 2 là các biến về các đặc điểm nhân khẩu học và nơi sống như:
nơi ở, tình trạng hôn nhân, dân tộc tuổi, giới tính và khu vực làm việc. Các biến được lựa chọn trong mô hình (6) và (7) dựa vào các nghiên cứu trước đó và thủ tục lùi từng bước. Các tính toán trong nghiên cứu được thực hiện trên phần mềm Rstudio, phiên bản 4.0.2 và các gói lệnh: tidyverse và quantreg.