CHƯƠNG 3 : MƠ HÌNH NGHIÊN CỨU
3.3. PHƯƠNG PHÁP PHÂN TÍCH SỐ LIỆU
3.3.1 Thống kê mô tả
Thống kê mơ tả là một trong hai hình thức của thống kê (thống kê mô tả và thống kê ứng dụng). Thống kê mô tả là tập hợp tất cả các phương pháp đo lường, mơ tả và trình bày số liệu bằng các phép tính và các chỉ số thống kê thơng thường như số trung bình (Mean), số trung vị (Median), phương sai (Variance), độ lệch chuẩn (Standard deviation) cho các biến số liên tục và các tỷ số (Proportion) cho các biến số không liên tục. Trong các phương pháp thống kê, các đại lượng thống kê mơ tả chỉ được tính đối với các biến định lượng.
3.3.2. Phân tích hồi quy đa biến
Mơ hình kinh tế lượng tổng quát được trình bày dưới dạng phương trình như sau:
School_rate i = α + β *Mien_giam_hpi + γ *Xi + ε i (1)
Mien_giam_hpi: là biến giả, nhận giá trị là 1 nếu đối tượng được miễn, giảm
học phí và 0 nếu khơng được miễn, giảm học phí. Giá trị của biến này được lấy từ mục 8 câu 2c trong VHLSS 2012
Xi: là các biến kiểm soát bao gồm các biến về đặc điểm hộ gia đình (tỷ lệ phụ
thuộc, thu nhập bình qn đầu người, tình trạng hơn nhân của chủ hộ, trình độ học vấn của chủ hộ, cơng việc chính của chủ hộ, giới tính của chủ hộ) và các biến về đặc điểm khác (dân tộc, khu vực sống, giới tính của trẻ em).
School_rate i: là tỷ lệ đến trường của trẻ em trong độ tuổi nghiên cứu
Đánh giá tác động là việc so sánh lợi ích mà nhóm người tham gia sẽ được/mất sau khi tham gia dự án/chính sách nào đó. Sự so sánh có thể thực hiện theo thời gian hoặc theo không gian hoặc kết hợp cả hai. Nếu thực hiện theo thời gian thì gọi là so sánh trước và sau dự án cịn theo khơng gian là so sánh giữa người tham gia và người không tham gia, và khi kết hợp được cả không gian và thời gian thì sự so sánh sẽ phản ánh đầy đủ nhất tác động của dự án. Nội dung trung tâm trong hoạt động đánh giá sự tác động là tạo ra được sự tương đồng trong quá trình so sánh, nghĩa là việc so sánh theo thời gian phải được thực hiện đối với cùng một người tham gia, còn so sánh theo không gian phải được diễn ra giữa những người tham gia và khơng tham gia có những đặc điểm tuơng tự nhau (Lương Vinh Quốc Duy, 2008)
Tuy nhiên, trong thực tế nhất là đối với lĩnh vực khoa học xã hội, để tạo ra sự tương đồng trong so sánh là rất khó. Chẳng hạn như trong bộ dữ liệu VHLSS 2012 này chúng ta khó có thể tìm được những hộ gia đình có đặc điểm giống nhau hồn tồn về nhân khẩu học, giá trị tài sản sở hữu, năng lực và kinh nghiệm trong sản xuất. Vì vậy, trên lý thuyết các phương pháp đánh giá sự tác động hướng đến việc tạo ra sự tương đồng trong khi so sánh.
Có nhiều phương pháp để tạo ra sự tương đồng trong so sánh, bao gồm so sánh theo không gian, so sánh theo thời gian và so sánh kết hợp không gian và thời gian. Trong đó phương pháp so sánh theo khơng gian mà cụ thể là phương pháp PSM (Propensity Score Matching) được đánh giá rất cao trong đánh giá tác động
của dự án/chính sách. Tính ưu việt của phương pháp PSM chính là tính khả thi của nó. Đối với các phương pháp so sánh có liên quan đến thời gian như so sánh phản thân hoặc sai biệt kép (DID) cần phải tổ chức khảo sát trong nội bộ người tham gia trước và sau khi tham gia dự án, sau đó so sánh kết quả của hai đợt khảo sát sẽ được so sánh để tìm ra tác động của dự án. Yêu cầu cơ bản của phương pháp này là cả hai đợt khảo sát phải được thực hiện đối với cùng một người tham gia để tạo ra sự tương đồng trong so sánh.
Bộ dữ liệu VHLSS 2012 là dữ liệu chéo thu thập tại một thời điểm trên nhiều đối tượng khác nhau vì thế việc so sánh theo khơng gian bằng phương pháp PSM trở nên khả thi và được tác giả lựa chọn thực hiện. Để trả lời cho các câu hỏi nghiên cứu đặt ra ở trên, tác giả tiến hành sắp xếp, cơ cấu lại phường trình kinh tế lượng (1) thành 2 phương trình kinh tế lượng với các phương pháp ước lượng khác nhau, cụ thể như sau:
3.3.2.1 Mơ hình Probit với phương pháp ước lượng PSM để đánh giá tác động của chính sách miễn, giảm học phí đến tỷ lệ đến trường của trẻ em
Xét mơ hình kinh tế lượng tổng quát sau:
Mien_giam_hpi = α + β *School_rate i + γ *Xi + ε i (2)
Trong đó:
y = Mien_giam_hpi: là biến giả, nhận giá trị là 1 nếu đối tượng được miễn,
giảm học phí và 0 nếu khơng được miễn, giảm học phí.
Xi: là các biến kiểm sốt bao gồm các biến về đặc điểm hộ gia đình (tỷ lệ phụ
thuộc, thu nhập bình quân đầu người, tình trạng hơn nhân của chủ hộ, trình độ học vấn của chủ hộ, cơng việc chính của chủ hộ, giới tính của chủ hộ) và các biến về đặc điểm khác (dân tộc, khu vực sống, giới tính của trẻ em).
School_rate i: là tỷ lệ đến trường của trẻ em trong độ tuổi nghiên cứu Theo như Lê Văn Chơn (2012) phương trình (2) được viết lại như sau:
Phương trình tổng quát: yi=¿ β Xi + εi Với
εi N(0,σ2 )
Gọi chỉ số hữu dụng: Ii = β Xi + εi , khi đó
yi={1nếu Ii>0 0nếu Ii≤0
y = 1 xảy ra sự kiện; y = 0 khi không xảy ra sự kiện, với các xác suất tương ứng P và (1 - P).
Xác suất xảy ra: Pi=P ( yi=¿ 1)
= Pr (β Xi + εi ¿0 ) = Pr ( εi ¿−β Xi ) = 1 1+e−Z i với: Zi = β Xi + εi Khi Zi → - ∞ e−Zi = ∞ Pi→0 Khi Zi→ ∞ e−Zi = −∞ Pi→1
Tỷ số khả năng: Odds Ratio – OR: so sánh giữa xác suất được miễn, giảm học phí và xác suất khơng được miễn, giảm học phí:
OR =
Pi
1−Pi .
Pi=P ( yi=¿ 1|X) = εPi≤¿ β Xi ) = F (β Xi )
Với F là hàm mật độ tích lũy có phân phối chuẩn
F (β Xi ) = √21π ∫
−∞
β Xi
e−z2/2
F (β Xi ) được gọi là hàm probit
Mơ hình này thường được ước lượng bằng phương pháp Maximum Likelihood Estimation (MLE). Tuy nhiên trong trường hợp nghiên cứu của tác giả do đặc điểm của bộ dữ liệu và mục tiêu nghiên cứu mà tác giả sử dụng phương pháp Propensity Score Matching (PSM).
Phương pháp ước lượng PSM
PSM là phương pháp mà ở đó nó tạo ra 2 nhóm: nhóm can thiệp và nhóm đối chứng (trong trường hợp của tác giả là nhóm những đối tượng có hưởng chính sách miễn, giảm học phí và nhóm những hộ khơng được hưởng) tương đồng nhau dựa vào giá trị xác suất của mỗi cá thể mà giá trị xác suất này được xác định từ các giá trị về đặc điểm của các cá thể ở 2 nhóm trước khi xác định hiệu quả tác động (Rosenbaum & Rubin, 1983)
Để ứng dụng phương pháp PSM trong ước lượng một cách có hiệu quả thì cần các điều kiện sau:
Cần phải có nhóm can thiệp và nhóm đối chứng (nhóm những đối tượng có hưởng chính sách miễn, giảm học phí và nhóm những hộ khơng được hưởng) để so sánh
Cỡ mẫu đủ lớn
Hình 3.2: Mật độ điểm xu hướng
Theo Baker (2000) và Ravallion (2001) Các bước cơ bản để thực hiện so sánh bằng PSM và được tác giả cụ thể hóa trong trường hợp nghiên cứu của tác giả như sau:
Phương pháp chọn đối tượng so sánh trong phương pháp PSM
Tại bước 5 chúng ta có nhiều cách để so sánh các đối tượng với nhau, tiêu biểu có một số cách như sau:
- So sánh cận gần nhất (Nearest Neighbor matching)
- So sánh trong phạm vi hay bán kính (Caliper or radius matching)
• Từ bộ dữ liệu tiến hành lọc hai nhóm: nhóm những hộ được hưởng chính sách miễn, giảm học phí và nhóm hộ khơng được miễn, giảm học phí thỏa mà mãn điều kiện nghiên cứu.
Bước 1
• Xây dựng mơ hình Probit trong đó biến miễn, giảm học phí nhận giá trị là 0 đối với hộ khơng được hưởng chính sách này và 1 đối với hộ được hưởng. Bước 2
• Tiến hành hồi quy mơ hình Probit rồi tính giá trị dự đốn hay xác suất dự đoán cho từng đối tượng nghiên cứu trong hai nhóm
Bước 3
• Loại bớt những đối tượng có xác suất dự đốn q thấp hoặc quá cao so với cả mẫu.
Bước 4
• Tương ứng với mỗi thành viên trong nhóm được hưởng chính sách miễn, giảm học phí, chúng ta tìm một hoặc một số thành viên trong nhóm khơng được hưởng mà có xác suất dự đốn gần giống nhau nhất rồi so sánh với nhau.
Bước 5
• Tính trung bình của tất cả so sánh để được giá trị trung bình chung của từng nhóm. Giá trị trung bình chung này chính là tác động của chính sách miễn, giảm học phí đối với các biến độc lập của các đối tượng được hưởng chính sách miễn, giảm học phí
- So sánh phân tầng hay từng khoảng (Stratification or interval matching) - Một số cách khác
Phương pháp so sánh cận gần nhất được sử dụng phổ biến nhất, trong đó mỗi đối tượng được hưởng chính sách miễn, giảm học phí được so sánh với các đối tượng khơng được hưởng chính sách miễn, giảm học phí mà có điểm xu hướng gần nhất. Ta cũng có thể chọn n đối tượng gần nhất để thực hiện so sánh (n=5 thường được sử dụng). So sánh có lặp lại - nghĩa là cùng một đối tượng được hưởng chính sách miễn, giảm học phí được so sánh với các đối tượng khơng được hưởng chính sách miễn, giảm học phí khác nhau.
Trong trường hợp nghiên cứu của tác giả, so sánh cận gần nhất (Nearest Neighbor matching) được tác giả lựa chọn để thực hiện. Tuần tự các bước cũng như việc so sánh ghép cặp được thực hiện trên bằng phần mềm Stata bằng lệnh “pscore.ado” do 2 tác giả Sascha O. Becker & Andrea Ichino xây dựng và công bố năm 2002