Kiểm định dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá bất bình đẳng giới trong thu nhập của người lao động ở khu vực đô thị việt nam (Trang 26 - 28)

CHƯƠNG 2 : PHƯƠNG PHÁP THỰC HIỆN NGHIÊN CỨU

2.3. Xử lý số liệu

2.3.2 Kiểm định dữ liệu

2.3.2.1 Thiếu hoặc lỗi dữ liệu

Sai sót hoặc thiếu dữ liệu trong các quan sát hộ gia đình là vấn đề thường gặp trong các nghiên cứu thực nghiệm. Hai vấn đề gặp trong nghiên cứu này là dữ liệu giá và chi tiêu trống, âm hoặc bằng 0. Trong mơ hình nghiên cứu để ước lượng được sự bất bình đẳng trong thu nhập đầy đủ khách quan cần thiết phải có đầy đủ các giá trị cho tất cả các quan sát cá nhân. Có nhiều phương pháp để giải quyết vấn đề này như phương pháp thay thế giá trị trung bình, phương pháp nội suy, và phương pháp ngoại suy.

Để khắc phục các vấn đề trên, trong nghiên cứu này sử dụng phương pháp thay thế giá trị trung bình. Dữ liệu của quan sát bị thiếu hoặc lỗi, cụ thể: khi cá nhân trả lời có nhận được tiền lương, tiền cơng từ cơng việc chính (mục 4A câu 9) hoặc cơng việc phụ (mục 4A câu 21) nhưng giá trị trả về là trống, được thay thế bởi giá trị trung bình của nam (hoặc nữ) cùng một khu vực địa lý với bằng cấp chuyên môn tương ứng.

2.3.2.2 Loại bỏ các quan sát có giá trị dị biệt (quá lớn hoặc quá nhỏ)

Các biến có các quan sát có giá trị dị biệt được loại bỏ dựa theo kết quả phân tích các đồ thị box plot. Các giá trị được loại bỏ là các điểm dị biệt có giá trị nằm ngoài cận trên (upper outer fence) và cận dưới (lower outer fence) của box. Các giá trị giới hạn này được tính như sau:

− Upper Outer Fence (UOF) = Q3 + 3IQ − Lower Outer Fence (LOF) = Q1 – 3IQ − Upper Inner Fence (UIF) = Q3 + 1,5IQ − Lower Inner Fence (LIF) = Q1 – 1,5IQ Trong đó:

Q1, Q3 lần lượt là các phân vị 25% và 75% IQ = Q3 – Q1 được gọi khoảng bên trong phân vị

− Các quan sát có giá trị nằm ngồi UOF và LOF được xem là các điểm dị biệt cực mạnh.

Hình 2.1: Tính tốn các giá trị dựa theo thống kê mô tả của box

Trong nghiên cứu này chỉ thực hiện loại bỏ các điểm dị biệt cực mạnh nêu trên. Tổng số quan sát (số lao động nam và nữ) thực hiện trích lọc từ bộ dữ liệu trên phạm vi cả nước là 18.064 quan sát. Có tất cả 5.050 quan sát được loại bỏ theo tiêu chí này, trong đó chủ yếu là các quan sát thu nhập từ tiền công, tiền lương của lao động (dữ liệu trống hoặc không phù hợp). Như vậy, bộ dữ liệu tinh lọc ban đầu là 13.014 quan sát (bao gồm 7.230 lao động nam và 5.784 lao động nữ). Đề tài, tập trung nghiên cứu tại khu vực đô thị, nên sẽ không bao gồm số lao động tại nông thôn. Kết quả tinh lọc sau cùng sử dụng trong đề tài là 4.116 quan sát (n= 4.116).

Việc kiểm chứng dạng phân phối của các biến được thực hiện qua sự kết hợp giữa đồ thị Histogram và box plot. Hình 2.2 cho thấy mối tương quan giữa hai dạng đồ thị histogram và Box plot. Khi biến có trung bình trùng với trung vị trên box plot thì tương ứng ở đồ thị Histogram có dạng phân phối chuẩn đối xứng. Ngược lại, khi giá trị trung bình lớn hơn giá trị trung vị thì biến có phân phối chuẩn lệch phải. Tương tự, nhưng ngược lại phân phối của biến sẽ lệch trái nếu giá trị trung bình nhỏ hơn trung vị.

Hình 2.2: Kết hợp giữa biểu đồ histogram và box plot

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá bất bình đẳng giới trong thu nhập của người lao động ở khu vực đô thị việt nam (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(78 trang)