2.2. Phương pháp đánh giá tác động
2.2.1. Phương pháp hồi quy kết nối điểm số tương đồng
Phương pháp hồi quy kết nối điểm số tương đồng (từ đây về sau gọi là PSM) bao gồm hai giai đoạn: ước lượng mô hình hồi quy logit và tính toán tác động bằng các kỹ thuật ghép cặp phù hợp.
Giai đoạn thứ nhất là tính toán điểm tương đồng (hay còn gọi là điểm xu hướng) sử dụng mô hình hồi quy logit/probit được thực hiện cho biến kết quả là biến nhị phân. Kết quả này được sử dụng để so sánh sự tương đồng của hai nhóm hộ di cư và không di cư dựa trên những đặc điểm có thể quan sát được.
Gọi T là biến giả nhị phân chỉ tình trạng di cư của hộ với T=1 nếu hộ có người di cư (nhóm chịu tác động/can thiệp/tham gia-Treated), T=0 nếu hộ không có người di cư (nhóm không chịu tác động/không can thiệp/không tham gia/nhóm đối chứng/nhóm kiểm soát -Control/Untreated). Y là biến kết quả cần quan tâm, trong đó Y1i vàY0i là kết quả của hộ i khi hộ i di cư (Y1i) hoặc không di cư (Y0i).
Để tìm ra những hộ không di cư có đặc điểm tương đồng với hộ di cư trước hết cần ước lượng xác suất di cư của hộ hay còn gọi là ước lượng điểm xu hướng (propensity score). Biến phụ thuộc trong mô hình ước lượng điểm xu hướng là biến nhị phân (di cư/không di cư), vì vậy trong các mô hình phân tích có thể sử dụng hàm logit/probit với phương pháp ước lượng hợp lý tối đa (MLE - Maximum Likelihood Estimation). Đối với trường hợp biến nhị phân, khi ước lượng xác suất
theo mô hình logit và probit thường mang lại kết quả tương tự (Marco Caliendo & Sabin Kopeinig, 2005, trang 8). Nghiên cứu sử dụng mô hình logit để ước lượng điểm xu hướng. Khi đó, mô hình logit thể hiện xác suất di cư của hộ được viết như sau:
(2.1)
Trong đó X là vecto các biến kiểm soát trong mô hình ảnh hưởng đến quyết định di cư của hộ. Điểm số xu hướng được Rosenbaum và Rubin (1983) thiết lập trong nghiên cứu này như là một xác suất có điều kiện để gửi thành viên hộ di cư dựa trên các đặc điểm của hộ gia đình. Giá trị xác suất dự đoán sẽ nằm trong khoảng [0, 1]. Mỗi hộ tham gia trong mẫu sẽ có một điểm số xu hướng ước tính là:
P (X|T=1) = P(X) (2.2)
Khi đó, hiệu quả của quá trình di cư của hộ i được biểu thị trong biểu thức (2.3) do Heckman và cộng sự (1999) tính toán:
(2.3)
Hay nói cách khác ATT chính là chênh lệch giữa kết quả của hộ di cư và của hộ di cư trong điều kiện hộ không di cư. Tuy nhiên, ở cấp hộ là không quan sát được tại cùng một thời điểm. Vì vậy, giải pháp đưa ra cho vấn đề này là sẽ thay thế bằng cách sử dụng kết quả của hộ không di cư có đặc điểm tương đồng với hộ di cư sau đó ước lượng kết quả tác động này. Khi đó, công thức (2.4) trở thành:
(2.4)
Rõ ràng, cách tiếp cận này chỉ có giá trị nếu các hộ gia đình có và không có người di cư có đặc điểm tương tự nhau nhưng quyết định di cư sẽ khác nhau. Đồng thời quyết định di cư không tương quan với các biến không được kiểm soát trong phân tích. Trong thực tế, điều này đòi hỏi phải lựa chọn một nhóm đối chứng phù hợp. Để tìm được nhóm đối chứng phù hợp, cần tìm được kỹ thuật ghép cặp phù hợp. Sau khi ước lượng điểm xu hướng, bước tiếp theo là cần tìm ra các hộ tương đồng nhau về các đặc điểm có thể quan sát được dựa vào điểm xu hướng. Hay nói cách khác, bước này xây dựng nhóm đối chứng bằng cách ghép cặp hộ di cư với hộ không di cư sau đó ước lượng giá trị ATT bằng việc so sánh kết quả (xác suất nghèo đa chiều, điểm số thiếu hụt đa chiều và các biến kết quả khác phản ánh nghèo đơn
chiều của hộ) giữa nhóm di cư và nhóm không di cư. Có nhiều kĩ thuật sử dụng để ghép cặp trong PSM gồm ghép cặp cận gần nhất (NNM - Nearest Neighbors Matching), ghép cặp bán kính (RM - Radius Matching), ghép cặp phân tầng (SM - Stratification Matching) và ghép cặp hạt nhân (KM - Kernel Matching). Ngoài hai kỹ thuật được đa số nghiên cứu sử dụng gồm ghép cặp cận gần nhất và ghép cặp hạt nhân, nghiên cứu này còn sử dụng kỹ thuật ghép cặp bán kính. Kỹ thuật ghép cặp cận gần nhất sử dụng các đơn vị trong nhóm đối chứng để so sánh với một đơn vị chịu tác động có điểm xu hướng gần nhất, do đó có thể giảm sai lệch (Nannicini, 2007). Đối với kỹ thuật ghép cặp bán kính, tương tự cũng sẽ khắc phục được vấn đề trong ghép cặp cận gần nhất đó là có sự khác biệt rất lớn trong điểm xu hướng giữa đối tượng chịu tác động và không chịu tác động gần nhất. Điều này dẫn đến so sánh kém chất lượng và có thể được khắc phục bằng cách đặt ngưỡng hay mức “dung sai” trên khoảng cách điểm xu hướng tối đa. Tuy nhiên, kỹ thuật này có thể dẫn đến nhiều quan sát bị loại bỏ và do đó có khả năng làm tăng sai số chọn mẫu. Kỹ thuật ghép cặp hạt nhân sử dụng bình quân gia quyền của tất cả các đối tượng trong nhóm không chịu tác động để xây dựng kết quả phản thực, do đó độ biến thiên sẽ thấp hơn vì sử dụng tất cả các thông tin của nhóm không chịu tác động (Caliendo & Kopeinig, 2008). Như vậy, các kỹ thuật này bổ sung cho nhau. Mỗi phương pháp có điều kiện sử dụng riêng mà khi sử dụng từng phương pháp các nhà nghiên cứu cần cân nhắc. Hiệu quả tác động từ các kỹ thuật ghép cặp này khác nhau theo từng trường hợp và phụ thuộc vào cấu trúc dữ liệu. Dehejia và Wahba (2002) đã chứng minh rằng khi có sự trùng lặp đáng kể trong phân phối điểm xu hướng giữa nhóm chịu tác động và nhóm đối chứng, hầu hết các kỹ thuật ghép cặp sẽ cho kết quả tương tự. Trong nghiên cứu này, NNM sử dụng 5 đối tượng cận gần nhất để tìm ra đối chứng phù hợp (n=5), thì RM với caliper = 0,1 cho phép kết hợp các hộ gia đình chịu tác động với các hộ gia đình đối chứng có khoảng cách điểm xu hướng tối đa là 0,1 (Becker & Ichino, 2002). KM sử dụng mức trung bình có trọng số của những người không chịu tác động để xây dựng kết quả đối chứng với những người chịu tác động với độ rộng (bandwith) là 0,05.
Phương pháp PSM phụ thuộc vào hai giả định bao gồm tính độc lập có điều kiện và vùng hỗ trợ chung. Giả định về tính độc lập có điều kiện (CIA - Conditional Independent Asumption) cho rằng quyết định di cư phải được dựa trên các đặc điểm có thể quan sát được. Đồng thời các biến này không bị ảnh hưởng bởi di cư
và không phải là kết quả của di cư. Điều này có nghĩa, nếu đặc tính không được quan sát quyết định tình trạng di cư thì tính độc lập có điều kiện sẽ bị vi phạm và phương pháp PSM sẽ không phù hợp. Giả định vùng hỗ trợ chung (common support) cho rằng, chỉ so sánh các quan sát trong nhóm không di cư có đặc điểm giống với các quan sát trong nhóm di cư (Nannicini, 2007).
Để đánh giá chất lượng của các kỹ thuật ghép cặp, ba chỉ số cần được đánh giá. Thứ nhất, không có sự khác biệt có ý nghĩa thống kê về giá trị trung bình của các biến giải thích trong mô hình ước lượng điểm xu hướng giữa các nhóm (nhóm di cư và nhóm không di cư) trước và sau khi ghép cặp thông qua điểm xu hướng (Caliendo & Kopeinig, 2008). Cách kiểm tra của bước này là dựa vào kết quả kiểm định sự cân bằng của các biến trong mô hình trước và sau khi ghép cặp. Thứ hai, Rosenbaum và Rubin (1985) đã đề xuất sử dụng độ lệch tuyệt đối trung bình được chuẩn hóa (MASB - Mean absolute standardized bias) giữa nhóm bị tác động (hộ di cư) và nhóm đối chứng (hộ không di cư) để đánh giá chất lượng ghép cặp. Trong đó khuyến nghị rằng, độ lệch tuyệt đối trung bình được chuẩn hóa lớn hơn 20% bị coi là quá lớn và là một chỉ báo cho thấy quá trình ghép cặp đã thất bại. hay nói cách khác, để chất lượng ghép cặp được đảm bảo, MASB nên thấp hơn 20%. Thứ ba, giá trị Pseudo-R2 của mô hình ước lượng điểm xu hướng (mô hình logit) phải tương đối nhỏ sau khi ghép cặp. Điều này cho thấy, sự khác biệt giữa các biến giải thích ở hai nhóm hộ đã được loại bỏ (Sianesi 2004).
Một câu hỏi cơ bản khác cần được trả lời khi sử dụng phương pháp PSM đó là có hay không về hiệu quả tác động có thể bị thay đổi bởi các yếu tố không quan sát được. Hay nói cách khác, cần kiểm tra chất lượng của giá trị ATT được ước lượng. Đối với ước tính ATT, giá trị ước lượng này sẽ không hiệu quả đối với “sai lệch ẩn” (Hidden Bias), phát sinh từ các biến không quan sát được đồng thời ảnh hưởng đến biến can thiệp (treatment) và biến kết quả (outcome) (Diprete & Gangl, 2004). Vì vậy cần kiểm định độ tin cậy các kết quả ước lượng của PSM thông qua một công cụ có tên là “Kiểm định độ nhạy Rosenbaum” (Sentivity Rosenbaum test) được Rosembaum đề xuất (2002) hay còn gọi là giới hạn Rosenbaum (Rosenbaum bounds). Công cụ này cho phép đánh giá mức độ mạnh mẽ của biến không quan sát được ảnh hưởng đến việc lựa chọn đối tượng bị tác động và có thể làm suy giảm ý nghĩa tác động đến biến kết quả cần quan tâm (Rosenbaum, 2014). Giá trị để kiểm tra độ nhạy được thể hiện thông qua giá trị Γ (Theta). Giá trị Γ càng
lớn, tác động nhân quả càng không nhạy cảm trong nghiên cứu ghép cặp (Rosenbaum, 2014). Hay nói cách khác, kết quả ước lượng tác động càng đáng tin cậy và càng rõ rệt. Stata cung cấp các lệnh thực hiện kiểm định độ nhạy Rosenbaum nhờ sử dụng lệnh rbounds cho biến kết quả không phải là biến nhị phân và mhbounds đối với trường hợp biến kết quả là biến nhị phân (Becker and Caliendo, 2007).
Vậy nếu các giả thiết bị vi phạm trong phân tích PSM, có nên sử dụng phương pháp này để đánh giá tác động hay không? Câu hỏi này được Bryson và cộng sự (2002, trang 17) khẳng định “Ngay cả khi, trong một nghiên cứu cụ thể, một hoặc các giả định khác làm cơ sở cho việc so sánh có khả năng bị vi phạm, điều này không có nghĩa là nên loại bỏ việc sử dụng PSM. Điều quan trọng là phải xem xét mức độ vi phạm và xu hướng của bất kỳ sự sai lệch nào có thể xảy ra”. Mặt khác, Heckman & cộng sự (1998) cũng khẳng định “bằng chứng cho thấy việc kiểm soát sai lệch do các đặc điểm có thể quan sát được quan trọng hơn việc kiểm soát sai lệch do không quan sát được”. Nghiên cứu tổng hợp của Glazerman, Levy và Myers (2003) phát hiện ra rằng PSM là một trong những phương pháp đánh giá phi thực nghiệm (non - experimental evaluation) có thể làm giảm đáng kể sự sai lệch, đặc biệt khi được sử dụng kết hợp với các phương pháp khác (Glazerman, Levy and Myers, 2003). Để khắc phục một phần vấn đề này, Heckman, Ichimura và Todd (1997) đề xuất kết hợp công cụ ước lượng PSM với công cụ ước lượng DID. Nội dung của phương pháp này được trình bày trong phần 2.2. của chương này. Tuy nhiên, phương pháp này chỉ nhằm mục đích kiểm tra các kết quả ước lượng từ phương pháp PSM.
Quy trình đánh giá tác động của phương pháp PSM được mô tả trong Hình 2.1 dưới đây:
Hình 2.1: Các bước ước lượng hiệu quả tác động bằng PSM
(Nguồn: Li, 2012, trang 8)
Ước lượng tác động nhân quả:
1.Kỹ thuật ghép cặp
- Ghép cặp cận gần nhất (Nearest neighbor matching - NNM)
- Ghép cặp bán kính (Radius matching - RM) - Ghép cặp phân tầng (Stratified matching - SM) - Ghép cặp hạt nhân (Kernel matching - KM)
2.Điều chỉnh biến
Xác định các biến quan sát
Ước lượng điểm xu hướng: 1.Logit/probit
2. Probit thức bậc 3.Logit đa thức
4. Trò chơi may rủi (hazard)
Các biến được cân bằng
Kiểm tra độ nhạy:
1.So sánh các nhóm
2. Sự xác định (Specification) 3. Biến công cụ
4.Giới hạn Rosenbaum (Γ)
Bước 4 Kiểm tra độ nhạy
(Sentivity test)
Các biến bậc cao
Phân tầng điểm xu hướng thành các tầng khác nhau
Kiểm tra sự cân bằng của các biến
Các biến không được cân bằng
Bước 2
Kiểm tra phân phối điểm xu hướng
Bước 3 Ước lượng tác động
nhân quả Bước 1
Phương pháp này được rất nhiều nghiên cứu áp dụng bởi những ưu điểm của nó. Ưu điểm chính của phương pháp này so với các phương pháp dựa trên hồi quy khác là giúp tránh việc chỉ định mối quan hệ giữa các đặc tính và kết quả vì đây là phương pháp phi tham số. Điều này có nghĩa rằng, hiệu quả tác động ước tính dựa trên việc so sánh giữa nhóm chịu tác động với nhóm đối chứng thông qua xác suất tham gia (trong nghiên cứu này chính là ước tính xác suất di cư). Các đối tượng trong nhóm chịu tác động sau đó được ghép cặp dựa trên xác suất này (hay còn gọi là điểm xu hướng) với các đối tượng trong nhóm đối chứng bằng nhiều kỹ thuật ghép cặp khác nhau. Sau đó, các kết quả của nhóm bị can thiệp và nhóm đối chứng có điểm số xu hướng tương tự được so sánh để xác định hiệu quả tác động. Ưu điểm thứ hai là các cách thức so sánh nhấn mạnh vấn đề hỗ trợ chung (common support), hàm ý rằng chỉ so sánh hộ gia đình có và không có người di cư khi hai nhóm hộ có đặc điểm tương tự (hay tương đồng) (Nguyễn Việt Cường và cộng sự, 2009).
Lưu ý rằng PSM có thể làm giảm, nhưng không thể loại bỏ các sai lệch được tạo ra bởi các yếu tố kết hợp không được quan sát tương quan với cả hai biến phụ thuộc và biến độc lập. Mức độ giảm sai lệch phụ thuộc vào chất lượng của các biến kiểm soát được sử dụng trong phương pháp PSM và hiệu suất ghép cặp (Becker và Ichino, 2002). Phương pháp PSM đáng tin cậy hơn khi nó có thể kiểm soát một vài giai đoạn dữ liệu tiền xử lý. Mặc dù còn một số hạn chế (như không giúp giải quyết vấn đề nội sinh trong mô hình) nhưng phương pháp này được đánh giá là phương pháp đơn giản và cho kết quả đáng tin cậy.