CHƯƠNG 3 : PHƯƠNG PHÁP NGHIÊN CỨU
3.6. Phương pháp phân tích dữ liệu
3.6.1. Kiểm tra và làm sạch dữ liệu:
Phương pháp nghiên cứu của tác giả tập trung vào phân tích tổng thể các dữ liệu điều tra được từ khảo sát thực tế. Việc kiểm tra và làm sạch dữ liệu nhằm mục đích làm sạch số liệu và mơ tả sơ bộ (sắp xếp dữ liệu, lược đồ, tính số liệu thống kê ban đầu, trung bình, độ lệch chuẩn, giá trị cực trị), xem xét tính gắn kết tổng thể, hiển thị dữ liệu, cơ cấu số liệu, phân loại theo phương pháp khảo sát.
Bởi lẽ, các tập dữ liệu có thể có sai số, sai sót hay bỏ sót. Câu hỏi khơng phải lúc nào cũng dễ hiểu, người được phỏng vấn không phải lúc nào cũng biết đưa ra câu trả lời cần thiết, tinh thần cuộc điều tra, bản chất của việc đặt câu hỏi không phải lúc nào cũng được lĩnh hội. Sau khi được mã hóa dưới dạng số, rất dễ dẫn đến tình trạng mã hóa sai hoặc thiếu dữ liệu. Chính vì vậy, tác giả cần thiết phải kiểm tra và rà soát lại tất cả các dữ liệu trước khi sử dụng cho việc phân tích của mình.
3.6.2. Thống kê mơ tả dữ liệu:
Sau khi nhập và kiểm tra dữ liệu, thống kê mô tả được kiểm định ở bước này gồm các chỉ số đặc trưng trong thống kê: (1) Tần số và tần suất các thông tin cá nhân; (2) Giá trị trung bình của các biến cần phân tích; (3) Phân tích so sánh giữa các dữ liệu thu thập.
3.6.3. Mơ hình hồi quy Binary Logistics
Mơ hình Logit được David Cox phát triển vào thập niên 70 để phân tích các biến nhị phân. Mơ hình Logit là mơ hình phản ứng nhị phân, trong đó xác suất là hàm mật độ xác suất tích lũy (Logistic- hàm Logit), cịn các biến giải thích là hàm tuyến tính.
Mục tiêu của hồi quy Logistic là nghiên cứu mối tương quan giữa một (hay nhiều) yếu tố khả năng/ nguy cơ và đối tượng phân tích. Trong hồi quy Logistic thì các đối tượng nghiên cứu thường được thể hiện qua biến số nhị phân còn các yếu tố giải thích thể hiện qua các biến số liên tục hoặc các biến nhị phân hay các biến thứ bậc.
Mơ hình hồi quy Logit trong phân tích ngun nhân nghèo:
𝑳𝒏 ⟦𝑷(𝒀 = 𝟏)
𝑷(𝒀 = 𝟎)⟧ = 𝜷𝟎+ 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟐+ ⋯ + 𝜷𝒊𝑿𝒊
Trong đó:
P (Y = 1) = P0: Xác suất xảy ra tình trạng nghèo
P (Y = 0) = 1 – P0: Xác suất khơng xảy ra tình trạng nghèo Ln: Log của cơ số e (e = 2,714)
𝛽𝑖: Các cơ số của các biến 𝑋𝑖
𝑋𝑖: Các yếu tố ảnh hưởng đến tình trạng nghèo
Hệ số Odds:
𝑷𝟎 𝟏 − 𝑷𝟎 =
𝑷 (𝒙á𝒄𝒔𝒖ấ𝒕𝒙ả𝒚𝒓𝒂𝒕ì𝒏𝒉𝒕𝒓ạ𝒏𝒈𝒏𝒈𝒉è𝒐) 𝑷 (𝒙á𝒄𝒔𝒖ấ𝒕𝒌𝒉ơ𝒏𝒈𝒙ả𝒚𝒓𝒂𝒕ì𝒏𝒉𝒕𝒓ạ𝒏𝒈𝒏𝒈𝒉è𝒐) Vậy, phương trình hồi quy Binary Logistics có thể viết dưới dạng:
𝑳𝒏(𝑶𝒅𝒅𝒔) = 𝜷𝟎 + 𝜷𝟏𝑿𝟏+ 𝜷𝟐𝑿𝟐 + ⋯ + 𝜷𝒊𝑿𝒊
Đây là một dạng hàm Logit. Từ đó suy ra, hàm Ln của hệ số Odds là một hàm
hồi quy tuyến tính với các biến độc lập Xi.
Hàm xác suất trên được gọi là hàm phân bố logistic. Trong hàm Binary Logistic này khi nhận các giá trị từ -∞ đến +∞ thì xác suất Pi nhận giá trị từ 0 đến 1. Do là phi tuyến đối với X và các tham số và Y chỉ nhận một trong hai giá trị 0 và 1, vì vậy chúng ta khơng thể áp dụng trực tiếp phương pháp bình phương nhỏ nhất (OLS) để ước lượng các tham số của phương trình, người ta dùng ước lượng hợp lý tối đa (Maximum Likelihood) để ước lượng βi.
Tóm tắt Chương 3:
Trong chương 3, tác giả đã cho thấy được phương pháp nghiên cứu, cũng như các vấn đề cần thiết trong việc thu thập dữ liệu từ bảng khảo sát và các bước phân tích như: Thiết kế bảng hỏi, các bước điều tra, thống kê mô tả dữ liệu và mơ hình hồi quy,...