Quy trình trích lọc dữ liệu

1.6.1. Giới thiệu bộ dữ liệu và phần mềm sử dụng

1.6.1.1. Giới thiệu về bộ dữ liệu

KSMS 2010 đƣợc triển khai trên phạm vi tồn quốc với quy mơ mẫu 69.360 hộ ở 3.133 xã/ phƣờng, đại diện cho cả nƣớc, các vùng, khu vực, khu vực thành thị, nông thôn và tỉnh/ thành phố trực thuộc Trung ƣơng. Mục đích của cuộc khảo sát nhằm thu thập các thông tin làm căn cứ đánh giá mức sống, đánh giá tình trạng nghèo đói và phân hố giàu nghèo để phục vụ cơng tác hoạch định các chính sách, kế hoạch và các chƣơng trình mục tiêu quốc gia của Đảng và Nhà nƣớc nhằm không ngừng nâng cao mức sống dân cƣ trong cả nƣớc, các vùng và các địa phƣơng. KSMS dân cƣ cung cấp số liệu để tính quyền số chỉ số giá tiêu dùng. Ngoài ra, thu thập thông tin phục vụ nghiên cứu, phân tích một số chuyên đề về quản lý điều hành và quản lý rủi ro và phục vụ tính tốn tài khoản quốc gia.

1.6.1.2. Phần mềm thống kê Stata

Stata là một gói phần mềm thống kê cho phép áp dụng một loại các quy trình tính tốn thống kê và tốn kinh tế.Với Stata, ta có thể dễ dàng quản lý dữ liệu và áp dụng các phƣơng pháp thống kê và tốn kinh tế thơng thƣờng nhƣ phân tích hồi quy và phân tích biến phụ thuộc giới hạn dựa trên dữ liệu cắt ngang và cắt dọc.

1.6.2. Mô tả các biến

Nguồn dữ liệu sử dụng trong nghiên cứu đƣợc trích lọc và xử lý từ bộ dữ liệu VHLSS 2010 bằng phần mềm thống kê Stata, phiên bản 11 của Stata Corporation. Dữ liệu đƣợc sử dụng trong nghiên cứu đƣợc trích chủ yếu tại mục 1A, mục 2A và mục 4A.Kết quả mơ hình cũng đƣợc thực hiện trên phần mềm này.

Bảng 1.3 Thông tin nguồn dữ liệu đƣợc trích lọc

Nguồn Tên

trƣờng

Tên biến Ýnghĩa

Muc1A.dta m1ac5 age Tuổi

Mục 2A.dta m1ac6 married Tình trạng hơn nhân Mục 4A.dta m□ac2a uppuni Trình độ trên đại học

m2ac2a coluni Trình độ cao đẳng, đại học m2ac2a highsch Trình độ dƣới THPT m2ac2b cer□□ficat Có bằng dạy nghề

Ttnt e Thành thị

m4ac1b urban Nơng nghiệp

m4ac8a agrieco Khu vực kinh tế nhà nƣớc m4ac8b pubsec Khu vực kinh tế có vốn ĐTNN

m2ac2b forsec Ld chun mơn kỹ thuật bậc trung, cao m2ac2b highski Lao động chuyên môn kỹ thuật thấp m1ac2 lowskil Giới tính

tinh gender Vùng địa lý tinh region Thành phố lớn ho11muc4a1 m4atn/12/ bigcity Thu nhập bq giờ

m4ac6/ hincome m4ac7

1.6.3. Tinh lọc dữ liệu

1.6.3.1 Thiếu hoặc lỗi dữ liệu

Sai sót hoặc thiếu dữ liệu trong các quan sát hộ gia đình là vấn đề thƣờng gặp trong các nghiên cứu thực nghiệm. Các vấn đề thƣờng gặp trong nghiên cứu này là dữ liệu trống hoặc lỗi.Có nhiều phƣơng pháp để giải quyết vấn đề này nhƣ phƣơng pháp thay thế giá trị trung bình, phƣơng pháp nội suy, và phƣơng pháp ngoại suy. Để khắc phục các vấn đề trên, trong nghiên cứu này các quan sát bị thiếu hoặc lỗi đƣợc bỏ qua.

1.6.3.2 Qui trình tích lọc số

Bƣớc 1: Mơ tả biến. Từ các biến trong mơ hình, đọc các bảng hỏi trong VHLSS2010 từ đó mơ tả các biến (tên tập dữ liệu (dataset) sử dụng, tên biến trong bộ dữ liệu, xây dựng biến trong mơ hình).

Bƣớc 2: Nối (merge) các dataset có chứa các biến trong bộ dữ liệu thành một

tập dữ liệuchung. Điều này đƣợc thực hiện bằng lệnh merge. Nguyên tắc merge là tạo một biến chung đặc trƣng cho từng cá nhân (khơng có sự trùng lắp ở các giá trị của biến) ở tất cả các dataset.

Bƣớc 3: Tính tốn các giá trị biến nếu có, chẳng hạn số năm kinh nghiệm (yearexp), số năm đi học (yearsch), số năm kinh nghiệm bình phƣơng (yearexp2), lhincome...

Bƣớc 4: Giữ lại các biến trong mơ hình bằng lệnh keep.

1.6.4. Cách thức ước lượng

Hàm thu nhập Mincer đƣợc hồi quy bằng phƣơng pháp hồi quy bình phƣơng tối thiểu thơng thƣờng (OLS) với biến phụ thuộc là logarithmh tự nhiên của hàm thu nhập bằng câu lệnh regress trong phần mềm Stata. Hiện tƣợng phƣơng sai thay đổi đƣợc khắc phục bằng kỹ thuật Robust. Đồng thời, hiện tƣợng tự tƣơng quan giữa

Bƣớc 3

Phân tích kết quả mơ hình.

Hồi quy hàm thu nhập Mincer cho cả nam và nữ, của lao động nam, lao động nữ. Phân tích các hệ số hồi quy và kiểm định mức độ phù hợp và ý nghĩa của mơ hình.

Sử dụng kết quả hồi quy hàm Mincer tiến hành phân tích mức độ chênh lệch trong thu nhập bằng phƣơng pháp Oaxaca

Bƣớc 1

Trích và tích lọc số liệuPhân tích mơ tả các yếu tố ảnh hƣởng đến bất bình đẳng giới trong thu nhậpBƣớc 2

Sử dụng phân tích thống kê mơ tả, bảng số liệu chéo và kiểm định sự khác biệt giữa các trị số trung bình (t-test) Thiết lập các cơng thức tính tốn, các chỉ số sử dụng trong đề tài.

từ phần mềm Stata

- Chọn nhóm thống kê biến phù hợp mục tiêu nghiên cứu của đề tài.

- Xử lý các biến bị lỗi hoặc trống trong bộ dữ liệu VHLSS 2010. Hồn thiện bộ số liệu trích n = 10.070 sử dụng trong nghiên cứu.

các biến đƣợc kiểm định bằng ma trận hiệp phƣơng sai giữa các biến độc lập.(xem chi tiết ở phụ lục1 ma trận hiệp phƣơng sai giữa các biến độc lập)

1.6.5. Trình tự thực hiện

Quy trình phân tích của đề tài đƣợc thực hiện theo 3 bƣớc đƣợc thể hiện trong hình 2.3 nhƣ sau:

Sơ đồ 1.2 Quy trình phân tích của đề tài

Quy đổi một số biến định tính

Biến độc lập và kì vọng dấu