Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
288,46 KB
Nội dung
Public Health Development Center ĐÁNH GIÁ MÔ HÌNH HỒI QUY LOGISTIC nguyenkinh@ytecongcong.com NỘI DUNG Sai lệch xác định mô hình Mức độ phù hợp (Goodness-of-fit) Đa cộng tuyến (Multicollinearity) 11 Ảnh hưởng đối tượng nghiên cứu (Influential observations) .14 Vấn đề với biến số định danh, thứ tự 27 Nguồn 27 Tài liệu chia sẻ miễn phí Ytecongcong.COM Góp ý gửi nguyenkinh@ytecongcong.com Ubuntu 12.04 :: LibreOffice :: Trang nguyenkinh@ytecongcong.com GIỚI THIỆU Dịch biên tập từ tài liệu mở UCLA Khi xây dựng mô hình hồi quy logistic (sau gọi tắt mô hình) nhằm xác định mối liên quan đa biến hay nhằm mục đích dự đoán không đáp ứng giả định mô hình - tức tiền đề phải thừa nhận để xây dựng mô hình - dẫn đến ước lượng sai hệ số mô hình cho sai số chuẩn hệ số ước lượng lớn đương nhiên dẫn đến suy diễn kết phân tích sai lệch Do trước sử dụng kết phân tích từ mô hình suy diễn giải thích kết cần phải kiểm tra xem mô hình xây dựng có đủ phù hợp không Bài viết tập trung vào cách làm để đánh giá phù hợp mô hình, vấn đề gây sai lệch phát đối tượng nghiên cứu có tác động đáng kể đến mức độ phù hợp mô hình hay đến ước lượng tham số mô hình Các giả định xem xét đánh giá bao gồm: • Hàm logistic phù hợp với biến thiên xác suất biến số độc lập • Không bỏ biến số quan trọng khỏi mô hình • Không thêm vào mô hình biến số không liên quan • Không có sai số đo lường biến số độc lập • Các đối tượng nghiên cứu độc lập với • Các biến số độc lập tương quan tuyến tính với Chú ý: Biến số độc lập đưa vào mô hình gọi biến số tiên đoán tài liệu Các ví dụ sử dụng kiện logistic.dta Việt hóa từ kiện trang UCLA (gõ lệnh use http://www.ytecongcong.com/logistic.dta ) Sai lệch xác định mô hình Khi xây dựng mô hình, giả định cần có logarit biến số phụ thuộc biến thiên tuyến tính với biến số độc lập (xem lại hàm logistic) logit(y) = ax1 + bx2 + e Giả định gồm hai phần, thứ tính đến hàm liên kết vế trái công thức, giả định hàm logit phù hợp với biến thiên biến số phụ thuộc Thứ hai vế phải phương trình, giả định đưa vào tất biến số có liên quan biến số không phù hợp đưa vào mô hình hàm logit kết hợp tuyến tính biến số độc lập Trên sở đó, có sai lệch dùng logit làm hàm liên kết để thể mối liên quan biến số phụ thuộc biến số độc lập không mối liên quan biến số tính tuyến tính Việc lựa chọn sai hàm liên kết thường không nghiêm trọng, trường hợp ta xét xây dựng mô hình logistic, mà thực tế cần quan tâm nhiều mô hình có đủ biến số độc lập có liên quan chưa liệu biến số có liên quan tuyến tính hay không Lệnh linktest Stata sử dụng để phát việc xác định sai mô hình, chạy sau thực lệnh logit hay logistic Cách kiểm tra lệnh linktest mô hình xác định hợp lý tìm thêm biến số tiên đoán có ý nghĩa thống kê trừ hội (xem lại Cơ hội - sai lệch - gây nhiễu; Dịch tễ học Nguyễn Đỗ Nguyên) Ubuntu 12.04 :: LibreOffice :: Trang nguyenkinh@ytecongcong.com Sau lệnh hồi quy logit hay logistic, linktest dùng giá trị tiên đoán - từ mô hình lập - (_hat) giá trị tiên đoán bình phương (_hatsq) làm biến số tiên đoán để xây dựng lại mô hình • Biến số _hat cần phải biến số tiên đoán có ý nghĩa thống kê giá trị dự đoán từ mô hình, không mô hình hoàn toàn bị xác định sai • Còn mô hình xác định biến số _hatsq phải nhiều lực lực tiên đoán, dĩ nhiên ngoại trừ hội Do đó, _hatsq có ý nghĩa thống kê lệnh linktest có ý nghĩa thống kê, nghĩa bỏ biến số có ảnh hưởng khỏi mô hình cho biết hàm liên kết không cần phải kiểm tra lại mô hình Ví dụ, kiện use http://www.ytecongcong.com/logistic.dta Bộ kiện UCLA cung cấp gồm kiện 707 trường học Trong mô hình ví dụ này, biến số giáo viên có cấp xếp loại trung bình thấp (bangcap1), học quanh năm (quanhnam), phần trăm bữa ăn cung cấp miễn phí (buaan) cho biến số tiên đoán tốt cho biến số số kết học tập trường xếp loại thành hai nhóm cao thấp (ketqua) Chạy hai lệnh lập mô hình logit linktest để kiểm tra mô hình logit ketqua quanhnam buaan bangcap1, nolo Logistic regression Log likelihood = -156.38516 Number of obs LR chi2(3) Prob > chi2 Pseudo R2 = = = = 707 385.27 0.0000 0.5519 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | -1.185658 5016301 -2.36 0.018 -2.168835 -.2024809 buaan | -.0932877 0084252 -11.07 0.000 -.1098008 -.0767746 bangcap1 | 7415144 3152037 2.35 0.019 1237266 1.359302 _cons | 2.411226 3987573 6.05 0.000 1.629676 3.192776 - linktest, nolo Logistic regression Log likelihood = -153.13783 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 707 391.76 0.0000 0.5612 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -_hat | 1.209837 1280198 9.45 0.000 9589229 1.460751 _hatsq | 0735317 0265482 2.77 0.006 0214983 1255651 _cons | -.1381412 1636432 -0.84 0.399 -.4588759 1825935 Trong kết lệnh logit cho thấy ba biến số thời gian học, bữa ăn cấp giáo viên biến số tiên đoán có ý nghĩa thống kê cho số kết học tập (p chi2 Pseudo R2 = = = = 707 390.13 0.0000 0.5589 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | -2.816989 8625013 -3.27 0.001 -4.50746 -1.126517 buaan | -.1014958 0098204 -10.34 0.000 -.1207434 -.0822483 bangcap1 | 7795475 3205748 2.43 0.015 1512325 1.407863 tuongtac | 0459029 0188068 2.44 0.015 0090422 0827635 _cons | 2.668048 429688 6.21 0.000 1.825875 3.510221 - linktest, nolo Logistic regression Log likelihood = -153.58393 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 707 390.87 0.0000 0.5600 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -_hat | 1.063142 1154731 9.21 0.000 8368188 1.289465 _hatsq | 0279257 031847 0.88 0.381 -.0344934 0903447 _cons | -.0605556 1684181 -0.36 0.719 -.390649 2695379 Từ kết mô hình lệnh logit ta viết phương trình hồi quy sau: Với mô hình không xét tương tác: logit(ketqua) = 2.411226 - 1.185658*quanhnam-.0932877*buaan+ 7415145*bangcap1 Trong phương trình ảnh hưởng biến số buaan giống dù trường có học quanh năm hay không -.0932877 logit ketqua (giải thích cách giá trị biến số vào mô hình) Với mô hình xét tương tác logit(ketqua)= 2.668048 - 2.816989*quanhnam-.1014958*buaan+ 7795476*bangcap1+ 0459029*tuongtac Lúc ảnh hưởng biến số buaan khác tùy thuộc vào trường có học quanh năm hay không Cụ thể trường không học quanh năm ảnh hưởng biến số buaan -.1014958 logit biến số đầu ketqua với trường học quanh năm ảnh hưởng -.1014958 +.0459029 = -.0555929 Điều hợp lý thực tế, trường học quanh năm thường có tỷ lệ sinh viên có bữa ăn miễn phí nhiều trường không học quanh năm Do đó, trường học quanh năm, biến số bữa ăn có giá trị tiên đoán không mạnh cho số kết Qua ví dụ thấy không xác định mô hình phù hợp, ảnh hưởng biến số bữa ăn tính toán sai lệch C ần lưu ý linkest công cụ giúp kiểm tra mô hình, có hạn chế định Tốt hết nhà nghiên cứu cần xây dựng mô hình theo lý thuyết, theo tổng quan tài liệu kinh nghiệm chuyên môn chuyên gia lĩnh vực người nghiên cứu, thông qua phép tính toán thống kê để kiểm tra mô hình so với lý thuyết nghiên cứu Ví dụ sau cho thấy không nên dựa vào linktest Lập mô hình để tiên đoán ketqua dựa hai biến số thời gian học quanh năm hay không (quanhnam) trường có giải thưởng hay không (giaithuong) Ubuntu 12.04 :: LibreOffice :: Trang nguyenkinh@ytecongcong.com logit ketqua quanhnam giaithuong, nolo Logistic regression Log likelihood = -699.85289 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 1200 115.15 0.0000 0.0760 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | -1.75562 2454361 -7.15 0.000 -2.236666 -1.274574 giaithuong | 9673149 1664374 5.81 0.000 6411036 1.293526 _cons | -1.260832 1513874 -8.33 0.000 -1.557546 -.9641186 - linktest, nolo Logistic regression Log likelihood = -699.84626 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 1200 115.16 0.0000 0.0760 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -_hat | 9588803 3737363 2.57 0.010 2263706 1.69139 _hatsq | -.0177018 1542421 -0.11 0.909 -.3200106 2846071 _cons | -.0121639 1400388 -0.09 0.931 -.2866349 2623071 Chú ý pseudo R-square mô hình thấp, 076 linktest lại cho kết ý nghĩa thống kê (p=.909) Ở kết trước ta biết biến số buaan có liên quan chặt chẽ với biến số đầu nên ta thử đưa thêm vào mô hình phía logit ketqua quanhnam giaithuong buaan, nolo Logistic regression Log likelihood = -305.51798 Number of obs LR chi2(3) Prob > chi2 Pseudo R2 = = = = 1200 903.82 0.0000 0.5966 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | -1.022169 3559296 -2.87 0.004 -1.719778 -.3245592 giaithuong | 5640354 2415158 2.34 0.020 0906733 1.037398 buaan | -.1060895 0064777 -16.38 0.000 -.1187855 -.0933934 _cons | 3.150059 3072509 10.25 0.000 2.547858 3.752259 - linktest, nolo Logistic regression Log likelihood = -300.07286 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 1200 914.71 0.0000 0.6038 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -_hat | 1.10886 0726224 15.27 0.000 9665228 1.251197 _hatsq | 062955 0173623 3.63 0.000 0289255 0969846 _cons | -.1864183 1190091 -1.57 0.117 -.4196718 0468352 Lần linktest cho kết có ý nghĩa thống kê Vậy nên lựa chọn mô hình nào? câu trả lời cần chọn mô hình có pseudo R-square lớn nhiều lần (.5966 so với 076) Ubuntu 12.04 :: LibreOffice :: Trang nguyenkinh@ytecongcong.com Chuyển đổi biến số Ví dụ trước cho thấy việc thiếu xem xét tương tác biến số dẫn đến xác định sai mô hình, trường hợp gây sai lệch xác định mô hình biến số tiên đoán chưa chuyển đổi thích hợp Điều cần thực thay đổi biến số phụ thuộc biến số tiên đoán không tuyến tính ta lại dùng điều kiện tuyến tính để tiên đoán mô hình logistic Vấn đề xử lý với lệnh boxtid Stata - mô hình Box-Tidwell, mô hình chuyển đổi biến số tiên đoán cách dùng chuyển đổi tìm lực để phù hợp mô hình dựa tối đa hóa xác suất Biến số tiên đoán x chuyển đổi thành B1 + B2xp giá trị p tốt báo cáo Để minh họa cho trường hợp này, ta quay lại thử với mô hình tiên đoán ketqua từ quanhnam buaan Kiểm tra linktest có ý nghĩa thống kê cho thấy có vấn đề cách xác định mô hình Chạy lệnh boxtid, kết thể cách chuyển đổi biến số tốt cần logit ketqua quanhnam buaan, nolo Logistic regression Log likelihood = -308.27755 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 1200 898.30 0.0000 0.5930 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | -.9908117 3545668 -2.79 0.005 -1.68575 -.2958736 buaan | -.1074156 0064857 -16.56 0.000 -.1201273 -.0947039 _cons | 3.61557 2418968 14.95 0.000 3.141461 4.089679 - linktest, nolo Logistic regression Log likelihood = -302.99327 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 1200 908.87 0.0000 0.6000 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -_hat | 1.10755 0724056 15.30 0.000 9656381 1.249463 _hatsq | 0622644 0174387 3.57 0.000 0280852 0964436 _cons | -.1841694 1185286 -1.55 0.120 -.4164812 0481423 - boxtid logit ketqua quanhnam buaan, nolo Box-Tidwell regression model Logistic regression Log likelihood = -304.31863 Number of obs LR chi2(3) Prob > chi2 Pseudo R2 = = = = 1200 906.22 0.0000 0.5982 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -Ibuaa | -12.13661 1.60761 -7.55 0.000 -15.28747 -8.985755 Ibuaa_p1 | 0016505 1.961413 0.00 0.999 -3.842647 3.845948 quanhnam | -.998601 3598947 -2.77 0.006 -1.703982 -.2932205 _cons | -1.9892 1502115 -13.24 0.000 -2.283609 -1.694791 -buaan | -.1074156 0064857 -16.562 Nonlin dev 7.918 (P = 0.005) p1 | 5535294 1622327 3.412 -Deviance: 608.637 Ubuntu 12.04 :: LibreOffice :: Trang nguyenkinh@ytecongcong.com Kết kiểm định tính “phi tuyến tính” biến số buaan có ý nghĩa thống kê với p=.005 Giả thuyết không kiểm định biến số buaan có tính tuyến tính, tương đương với p1 = Kết mô hình Box-Tidwell cho thấy p1 ~ 55 tốt Do đó, thử xây dựng lại mô hình với biến số buaan chuyển đổi buaan1=buaan^0.5 gen buaan1=buaan^.5 logit ketqua quanhnam buaan1, nolo Logistic regression Log likelihood = -304.48899 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 1200 905.87 0.0000 0.5980 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | -1.000602 3601437 -2.78 0.005 -1.706471 -.2947332 buaan1 | -1.245371 0742987 -16.76 0.000 -1.390994 -1.099749 _cons | 7.008795 4495493 15.59 0.000 6.127694 7.889895 - linktest, nolo Logistic regression Log likelihood = -304.47104 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 1200 905.91 0.0000 0.5980 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -_hat | 9957904 0629543 15.82 0.000 8724021 1.119179 _hatsq | -.0042551 0224321 -0.19 0.850 -.0482212 039711 _cons | 0120893 1237232 0.10 0.922 -.2304037 2545824 C ác ví dụ cho thấy logit biến số đầu liên quan tuyến tính với biến số tiên đoán có liên quan tuyến tính với biến số tiên đoán chuyển đổi, với biến số tương tác Trong thực tế ta cần có nắm rõ lý thuyết để xây dựng mô hình sau dùng công cụ thống kê để phát sai lệch xác định mô hình Ubuntu 12.04 :: LibreOffice :: Trang nguyenkinh@ytecongcong.com Mức độ phù hợp (Goodness-of-fit) Chúng ta thấy phần kết có chứa giá trị log likelihood pseudo R-square mô hình Các giá trị tiêu chí cho biết mô hình phù hợp với kiện đến mức logit ketqua quanhnam buaan bangcap1 tuongtac Iteration 0: log likelihood = -349.01971 Iteration 1: log likelihood = -192.43886 Logistic regression Log likelihood = -153.95333 Number of obs LR chi2(4) Prob > chi2 Pseudo R2 = = = = 707 390.13 0.0000 0.5589 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | -2.816989 8625013 -3.27 0.001 -4.50746 -1.126517 buaan | -.1014958 0098204 -10.34 0.000 -.1207434 -.0822483 bangcap1 | 7795475 3205748 2.43 0.015 1512325 1.407863 tuongtac | 0459029 0188068 2.44 0.015 0090422 0827635 _cons | 2.668048 429688 6.21 0.000 1.825875 3.510221 Log likelihood cho biết toàn mô hình có ý nghĩa thống kê hay không có độ lớn hai lần khác biệt log likelihood mô hình với mô hình biến số (chỉ có điểm chặn) Trong Stata, log likelihood Iteration log likelihood mô hình không biến số 2*(349.01917-153.95333) = 390.13168 pseudo R2 tính toán dựa số phần trăm thay đổi (349.01971-153.95333)/349.01971 =.55889789 Một kiểm định thường sử dụng để kiểm định mức độ phù hợp mô hình kiểm định HosmerLemeshow's Kiểm định so sánh mức độ khớp giá trị tiên đoán giá trị quan sát, giá trị khớp mô hình phù hợp, thống kê tính theo chi bình phương Pearson bảng phânbố giá trị quan sát giá trị mong đợi Giả thuyết không kiểm định giá trị quan sát giá trị mong đợi, mô hình khớp có giá trị p lớn (chấp nhận giả thuyết không) Nếu mô hình có biến số tiên đoán định lượng tạo nên bảng phân phối lớn dễ cho kết có ý nghĩa thống kê, thông thường kết hợp lớp tạo biến số tiên đoán thành 10 nhóm để tạo thành bảng 2x10 lfit, group(10) table Logistic model for ketqua, goodness-of-fit test (Table collapsed on quantiles of estimated probabilities) + + | Group | Prob | Obs_1 | Exp_1 | Obs_0 | Exp_0 | Total | | -+ + -+ -+ -+ -+ -| | | 0.0016 | | 0.1 | 71 | 70.9 | 71 | | | 0.0033 | | 0.2 | 73 | 73.8 | 74 | | | 0.0054 | | 0.3 | 74 | 73.7 | 74 | | | 0.0096 | | 0.5 | 64 | 64.5 | 65 | | | 0.0206 | | 1.0 | 69 | 69.0 | 70 | | -+ + -+ -+ -+ -+ -| | | 0.0623 | | 2.5 | 69 | 70.5 | 73 | | | 0.1421 | | 6.6 | 66 | 61.4 | 68 | | | 0.4738 | 24 | 22.0 | 50 | 52.0 | 74 | | | 0.7711 | 44 | 43.3 | 25 | 25.7 | 69 | | 10 | 0.9692 | 61 | 61.6 | | 7.4 | 69 | + + number of observations = 707 number of groups = 10 Hosmer-Lemeshow chi2(8) = 9.15 Prob > chi2 = 0.3296 Ubuntu 12.04 :: LibreOffice :: Trang nguyenkinh@ytecongcong.com Với p=.33 kiểm định Hosmer-Lemeshow's cho biết giá trị tiên đoán từ mô hình phù hợp với giá trị quan sát Có nhiều đo lường mức độ phù hợp mô hình khác AIC (Akaike Information Criterion) BIC (Bayesian Information Criterion) Lệnh fitstat cho thông số fitstat Measures of Fit for logit of ketqua Log-Lik Intercept Only: D(702): -349.020 307.907 McFadden's R2: 0.559 Maximum Likelihood R2: 0.424 McKelvey and Zavoina's R2: 0.715 Variance of y*: 11.546 Count R2: 0.904 AIC: 0.450 BIC: -4297.937 Log-Lik Full Model: LR(4): Prob > LR: McFadden's Adj R2: Cragg & Uhler's R2: Efron's R2: Variance of error: Adj Count R2: AIC*n: BIC': -153.953 390.133 0.000 0.545 0.676 0.585 3.290 0.507 317.907 -363.889 Lệnh fitstat dùng để so sánh mô hình với (lưu ý mô hình để so sánh khác số biến số dự đoán mô hình) tùy chọn saving using Ví dụ so sánh mô hình có biến số tương tác mô hình xét tương tác logit ketqua quanhnam buaan bangcap1, nolo Logistic regression Number of obs LR chi2(3) Prob > chi2 Pseudo R2 Log likelihood = -156.38516 = = = = 707 385.27 0.0000 0.5519 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | -1.185658 5016301 -2.36 0.018 -2.168835 -.2024809 buaan | -.0932877 0084252 -11.07 0.000 -.1098008 -.0767746 bangcap1 | 7415144 3152037 2.35 0.019 1237266 1.359302 _cons | 2.411226 3987573 6.05 0.000 1.629676 3.192776 - fitstat,saving(mh1) Measures of Fit for logit of ketqua Log-Lik Intercept Only: D(703): -349.020 312.770 McFadden's R2: 0.552 Maximum Likelihood R2: 0.420 McKelvey and Zavoina's R2: 0.742 Variance of y*: 12.753 Count R2: 0.909 AIC: 0.454 BIC: -4299.634 Log-Lik Full Model: LR(3): Prob > LR: McFadden's Adj R2: Cragg & Uhler's R2: Efron's R2: Variance of error: Adj Count R2: AIC*n: BIC': -156.385 385.269 0.000 0.540 0.670 0.587 3.290 0.536 320.770 -365.586 logit ketqua quanhnam buaan bangcap1 tuongtac, nolo Logistic regression Log likelihood = -153.95333 Number of obs LR chi2(4) Prob > chi2 Pseudo R2 = = = = 707 390.13 0.0000 0.5589 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | -2.816989 8625013 -3.27 0.001 -4.50746 -1.126517 buaan | -.1014958 0098204 -10.34 0.000 -.1207434 -.0822483 bangcap1 | 7795475 3205748 2.43 0.015 1512325 1.407863 tuongtac | 0459029 0188068 2.44 0.015 0090422 0827635 _cons | 2.668048 429688 6.21 0.000 1.825875 3.510221 Ubuntu 12.04 :: LibreOffice :: Trang nguyenkinh@ytecongcong.com fitstat,using(mh1) Measures of Fit for logit of ketqua Current Model: logit N: 707 Log-Lik Intercept Only: -349.020 Log-Lik Full Model: -153.953 D: 307.907(702) LR: 390.133(4) Prob > LR: 0.000 McFadden's R2: 0.559 McFadden's Adj R2: 0.545 Maximum Likelihood R2: 0.424 Cragg & Uhler's R2: 0.676 McKelvey and Zavoina's R2: 0.715 Efron's R2: 0.585 Variance of y*: 11.546 Variance of error: 3.290 Count R2: 0.904 Adj Count R2: 0.507 AIC: 0.450 AIC*n: 317.907 BIC: -4297.937 BIC': -363.889 Difference of Saved logit 707 -349.020 -156.385 312.770(703) 385.269(3) 0.000 0.552 0.540 0.420 0.670 0.742 0.587 12.753 3.290 0.909 0.536 0.454 320.770 -4299.634 -365.586 Difference 0.000 2.432 -4.864(-1) 4.864(1) 0.000 0.007 0.004 0.004 0.006 -0.027 -0.002 -1.207 0.000 -0.006 -0.029 -0.004 -2.864 1.697 1.697 1.697 in BIC' provides weak support for saved model Kết so sánh trình bày đo lường mô hình lưu mô hình thực Kết ủng hộ yếu cho mô hình - mô hình biến số tương tác - (dựa vào AIC hay BIC trường hợp không khả thi xấp xỉ mô hình, nhớ mô hình có AIC BIC nhỏ tốt hơn, xem thêm “AIC BIC so sánh mô hình ”) Mặt khác, ta biết biến số tương tác có ý nghĩa thống kê mô hình, xem xét thêm vào mô hình ta thấy hệ số biến số mô hình nhỏ (là 0459029 thang logit), chuyển thành thang tỉ số số chênh OR~1, xem bảng kết sau đây: logistic ketqua quanhnam buaan bangcap1 tuongtac, nolo Logistic regression Log likelihood = -153.95333 Number of obs LR chi2(4) Prob > chi2 Pseudo R2 = = = = 707 390.13 0.0000 0.5589 -ketqua | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ -quanhnam | 0597857 0515652 -3.27 0.001 0110264 3241603 buaan | 903485 0088725 -10.34 0.000 8862614 9210433 bangcap1 | 2.180485 6990086 2.43 0.015 1.163267 4.08721 tuongtac | 1.046973 0196902 2.44 0.015 1.009083 1.086285 _cons | 14.4118 6.192579 6.21 0.000 6.208223 33.45565 D o ta thấy có ý nghĩa thống kê biến số mô hình không hẳn có ý nghĩa nhiều dự đoán Ubuntu 12.04 :: LibreOffice :: Trang 10 nguyenkinh@ytecongcong.com Đa cộng tuyến (Multicollinearity) Đa cộng tuyến hay gọi tắt cộng tuyến xảy hai nhiều biến số độc lập mô hình kết hợp gần tuyến tính với biến số độc lập khác mô hình Ví dụ mô hình có hai biến số đo lường chiều cao centimét mét Mức độ cộng tuyến thay đổi ảnh hưởng khác lên mô hình Khi có cộng tuyến hoàn toàn xảy - biến số độc lập tương quan tuyến tính hoàn toàn với biến số độc lập khác - làm cho mô hình tính hệ số hồi qui cố định cho biến số tiên đoán mô hình Trong trường hợp Stata loại biến số có tương quan tuyến tính để lại biến số tương quan tuyến tính với biến số khác mô hình L ưu ý chưa phần mềm thống kê loại khỏi mô hình biến số, đó, cần dựa lý thuyết để xác định nên loại bỏ biến số Để làm ví dụ cho phân tích này, ta cố tình tạo biến tuyến tính hoàn toàn, ý nghĩa thực tế biến số tuongquan= quanhnam+buaan để tính toán thử (do quanhnam có giá trị nên biến số tuongquan tương quan hoàn toàn với biến số buaan) logit ketqua tuongquan buaan quanhnam note: quanhnam omitted because of collinearity Logistic regression Log likelihood = -308.27755 Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 1200 898.30 0.0000 0.5930 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -tuongquan | -.9908117 3545668 -2.79 0.005 -1.68575 -.2958736 buaan | 8833961 3542846 2.49 0.013 1890111 1.577781 quanhnam | (omitted) _cons | 3.61557 2418968 14.95 0.000 3.141461 4.089679 Đa cộng tuyến không hoàn toàn thường gặp tương quan biến số độc lập cộng tuyến Tuy nhiên xảy đa cộng tuyến nghiêm trọng sai số chuẩn hệ số hồi quy lớn ước lượng hệ số hồi quy logistic không Ví dụ ta dùng biến số thời gian dạy trung bình cha mẹ chame, quanhnam, buaan, tỷ lệ có cấp đầy đủ giáo viên bangcap, biến số tương tác quanhnam bangcap, tuongtac2 Sau kết lệnh logit ta chạy kiểm định tính phù hợp ý kiểm định cho thấy mô hình phù hợp tốt với kiện gen tuongtac2=quanhnam*bangcap logit ketqua chame quanhnam buaan bangcap tuongtac2, nolog or Logistic regression Number of obs = 1158 LR chi2(5) = 933.71 Prob > chi2 = 0.0000 Log likelihood = -263.83452 Pseudo R2 = 0.6389 -ketqua | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ -chame | 7.163137 2.041598 6.91 0.000 4.097306 12.52299 quanhnam | 70719.26 208021.8 3.80 0.000 221.674 2.26e+07 buaan | 9240607 0073503 -9.93 0.000 9097661 93858 bangcap | 1.051269 0152645 3.44 0.001 1.021773 1.081617 tuongtac2 | 8755202 0284635 -4.09 0.000 821473 9331234 Ubuntu 12.04 :: LibreOffice :: Trang 11 nguyenkinh@ytecongcong.com lfit,group(10) Logistic model for ketqua, goodness-of-fit test (Table collapsed on quantiles of estimated probabilities) number of observations number of groups Hosmer-Lemeshow chi2(8) Prob > chi2 = = = = 1158 10 5.50 0.7034 Tuy kiểm định độ phù hợp ủng hộ mô hình ta sử dụng mô hình này, nhìn vào tỉ số số chênh sai số chuẩn biến số quanhnam cực lớn, rõ ràng có sai! Một nguyên nhân việc tỉ số số chênh sai số chuẩn lớn đa cộng tuyến biến số tiên đoán mô hình Ta dùng lệnh collin để phát đa cộng tuyến collin chame quanhnam buaan bangcap tuongtac2 Collinearity Diagnostics SQRT RVariable VIF VIF Tolerance Squared -chame 3.28 1.81 0.3050 0.6950 quanhnam 35.53 5.96 0.0281 0.9719 buaan 3.80 1.95 0.2629 0.7371 bangcap 1.72 1.31 0.5819 0.4181 tuongtac2 34.34 5.86 0.0291 0.9709 -Mean VIF 15.73 - Các số đo bảng cho thấy độ mạnh mối liên quan lẫn biến số Hai số đo hay sử dụng sai số cho phép tolerance (cho biết mức cộng tuyến mà phân tích hồi quy chấp nhận) VIF (variance inflation factor- nhân tố lạm phát phương sai cho biết sai số chuẩn bị lạm phát (hay thổi phồng) lên cộng tuyến) Sai số cho phép biến số tolerance = 1- R-squared, VIF=1/tolerance Nếu biến số hoàn toàn không tương quan với sai số cho phép VIF 1, ngược lại sai số cho phép tiến 0, làm cho phương sai lạm phát lớn Ví dụ mô hình sai số VIF biến số quanhnam tuongtac2 M ột qui tắc ngầm sai số cho phép tolerance ≤ 0.1 ≈ VIF ≥ 10 cần phải xem lại mô hình Ta thấy ảnh hưởng cộng tuyến nghiêm trọng lên hệ số hồi qui, qua kiểm tra collin ta thấy số tolerance VIF cho thấy có xảy cộng tuyến nghiêm trọng Vậy phải xử lý nào? Trong mô hình phía trên, biến số quanhnam có hệ số hồi qui lớn, thông thường tạo biến số tương tác ta vô tình tạo biến số cộng tuyến (xem bảng kết tương quan phía dưới) corr tuongtac2 quanhnam bangcap (obs=1200) | tuongt~2 quanhnam bangcap -+ tuongtac2 | 1.0000 quanhnam | 0.9810 1.0000 bangcap | -0.1449 -0.2387 1.0000 Một cách để xử lý biến số cộng tuyến chuyển đổi biến số, ví dụ sau biến đổi cách định tâm biến số bangcap cách tạo biến số bangcap2=bangcap - trung bình(bangcap) Sau tạo biến số tương tác quanhnam bangcap2 tuongtac3 sum bangcap Variable | Obs Mean Std Dev Min Max -+ -bangcap | 1200 88.12417 13.39733 13 100 Ubuntu 12.04 :: LibreOffice :: Trang 12 nguyenkinh@ytecongcong.com gen bangcap2=bangcap-r(mean) gen tuongtac3=quanhnam*bangcap2 corr tuongtac3 quanhnam bangcap2 (obs=1200) | tuongt~3 quanhnam bangcap2 -+ tuongtac3 | 1.0000 quanhnam | -0.3910 1.0000 bangcap2 | 0.5174 -0.2387 1.0000 logit ketqua chame quanhnam buaan bangcap2 tuongtac3, nolo or Logistic regression Log likelihood = -263.83452 Number of obs LR chi2(5) Prob > chi2 Pseudo R2 = = = = 1158 933.71 0.0000 0.6389 -ketqua | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ -chame | 7.163137 2.041598 6.91 0.000 4.097306 12.52299 quanhnam | 5778193 212656 -1.49 0.136 2808812 1.18867 buaan | 9240607 0073503 -9.93 0.000 9097661 93858 bangcap2 | 1.051269 0152645 3.44 0.001 1.021773 1.081617 tuongtac3 | 8755202 0284635 -4.09 0.000 821473 9331234 - collin chame quanhnam buaan bangcap2 tuongtac3 (obs=1158) Collinearity Diagnostics SQRT RVariable VIF VIF Tolerance Squared -chame 3.28 1.81 0.3050 0.6950 quanhnam 1.24 1.11 0.8051 0.1949 buaan 3.80 1.95 0.2629 0.7371 bangcap2 1.72 1.31 0.5819 0.4181 tuongtac3 1.51 1.23 0.6608 0.3392 -Mean VIF 2.31 Biến số bangcap định tâm (bangcap2) xử lý cộng tuyến mô hình phù hợp Biến số quanhnam không ý nghĩa thống kê biến số tuongtac3 có ý nghĩa thống kê Với cách chuyển đổi biến số ta giữ tất biến số tiên đoán mô hình, phương pháp định tâm biến số cách đặc biệt trường hợp không hẳn áp dụng cho mô hình khác B iến đổi biến số cách tốt để xử lý đa cộng tuyến thành công, ta không biến số mô hình Tuy nhiên chọn cách biến đổi khó qui định cụ thể mà tùy vào kinh nghiệm người nghiên cứu, quan trọng biến số biến đổi phù hợp với mô hình phải xem liệu diễn giải kết biến số biến đổi thực tế hay không Các giải pháp khác hay sử dụng bỏ biến số tăng cỡ mẫu Cách bỏ biến số không tốt dẫn đến xây dựng mô hình sai cách tăng cỡ mẫu lúc làm Ubuntu 12.04 :: LibreOffice :: Trang 13 nguyenkinh@ytecongcong.com Ảnh hưởng đối tượng nghiên cứu (Influential obser vations) Sau số cách phát đối tượng mẫu nghiên cứu có ảnh hưởng đáng kể đến mô hình Do nhiều lí mà ta cần xem xét ảnh hưởng này, xem có nhập liệu sai hay không xem xét đối tượng có ảnh hưởng đến mô hình đem lại thông tin thú vị Trong mô hình có nhiều thông số phần dư đo lường ảnh hưởng khác giúp đánh giá ảnh hưởng đối tượng nghiên cứu mô hình, chẳng hạn số liệu đối tượng có nằm xa so với đối tượng khác hay đối tượng có ảnh hưởng nhiều đường hồi quy hay không Thông số phần dư Pearson phần dư Pearson chuẩn hóa, khác biệt chuẩn hóa giá trị quan sát (giá trị thu thập thực tế) giá trị dự đoán (giá trị tính từ công thức với hệ số mô hình) Thông số đo lường độ lệch tương đối giá trị quan sát giá trị dự đoán từ mô hình Thông số thứ hai độ lệch phần dư (deviance residual), đo lường khác tối đa cá giá trị quan sát hàm log xác suất giá trị dự đoán Do hồi quy logistic dựa nguyên tắc tối đa hóa xác suất nên mong muốn hồi quy logistic giảm tối thiểu tổng độ lệch phần dư Một thông số khác gọi đường chéo mũ (hat diagonal) - gọi ảnh hưởng đòn bẩy Pregibon (Pregibon leverage) - đường chéo ma trận mũ (hat matrix), đo lường ảnh hưởng đối tượng nghiên cứu Ma trận vẽ vector giá trị quan sát với giá trị dự đoán cho biết ảnh hưởng giá trị quan sát lên giá trị tiên đoán Những đường chéo ma trận đòn bẩy cho biết ảnh hưởng giá trị quan sát lên giá trị tiên đoán đối tượng Nếu vector giá trị quan sát y vector giá trị tiên đoán ŷ, ŷ = Hy đọc "y-hat", lập ma trận mũ gọi "lấy mũ y" Ba thông số xem ba thông số chẩn đoán mô hình hồi quy logistic Chúng ta vẽ biểu đồ giá trị với giá trị tiên đoán hay mã số đối tượng để xem phân bố thông số Ta dùng lại mô hình vừa thiết lập vẽ phần dư Pearson chuẩn hóa, độ lệch phần dư số hat với xác suất tiên đoán số thứ tự đối tượng nghiên cứu use http://www.ytecongcong.com/logistic.dta, clear logit ketqua chame quanhnam buaan bangcap2 tuongtac3, nolo Logistic regression Log likelihood = -263.83452 Number of obs LR chi2(5) Prob > chi2 Pseudo R2 = = = = 1158 933.71 0.0000 0.6389 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -chame | 1.968948 2850145 6.91 0.000 1.41033 2.527566 quanhnam | -.548494 368032 -1.49 0.136 -1.269823 1728354 buaan | -.0789775 0079544 -9.93 0.000 -.0945678 -.0633872 bangcap2 | 0499983 01452 3.44 0.001 0215396 078457 tuongtac3 | -.1329371 0325104 -4.09 0.000 -.1966562 -.0692179 _cons | -3.655163 1.016975 -3.59 0.000 -5.648396 -1.661929 - predict dudoan (option pr assumed; Pr(ketqua)) (42 missing values generated) predict phandu_chuan, rstand (42 missing values generated) Ubuntu 12.04 :: LibreOffice :: Trang 14 nguyenkinh@ytecongcong.com scatter phandu_chuan dudoan, scheme(sj) mlab(id) yline(0) ylab(-4(2) 16) Hình 1.Phân bố phần dư chuẩn hóa Pearson giá trị tiên đoán gen stt=_n scatter phandu_chuan stt, mlabel(id) yline(0) ylab(-4(2) 16) Hình 2.Phân bố phần dư chuẩn hóa Pearson số thứ tự đối tượng nghiên cứu Ubuntu 12.04 :: LibreOffice :: Trang 15 nguyenkinh@ytecongcong.com predict phandu_dolech, dev (42 missing values generated) scatter phandu_dolech dudoan, mlab(id) yline(0) ylab(-4(2) 16) scheme(sj) Hình 3.Phân bố độ lệch phần dư giá trị tiên đoán scatter phandu_dolech stt, mlab(id) yline(0) ylab(-4(2) 16) scheme(sj) Hình 4.Phân bố độ lệch phần dư số thứ tự đối tượng nghiên cứu Ubuntu 12.04 :: LibreOffice :: Trang 16 nguyenkinh@ytecongcong.com predict hat, hat (42 missing values generated) scatter hat dudoan, mlab(id) yline(0) scheme(sj) Hình 5.Phân bố ảnh hưởng đòn bẩy giá trị tiên đoán scatter hat stt, mlab(id) scheme(sj) Hình 6.Phân bố ảnh hưởng đòn bẩy số thứ tự đối tượng nghiên cứu Ubuntu 12.04 :: LibreOffice :: Trang 17 nguyenkinh@ytecongcong.com Ba thông số vẽ phân phối với giá trị tiên đoán với số thứ tự đối tượng nghiên cứu (index plot - tạm dịch biểu đồ số), hai biểu đồ truyền đạt thông tin Các điểm kiện phân tán rải rác biểu đồ số giúp dễ thấy số thứ tự đối tượng nghiên cứu có giá trị ngoại lai Ta thấy có đối tượng nghiên cứu nằm cách xa so với đối tượng nghiên cứu khác điểm cần xem xét đánh giá mô hình Trong biểu đồ ta thấy đối tượng nghiên cứu có số 1403 có phần dư Pearson độ lệch phần dư lớn so với đối tượng khác (các hình 1, 2, 3, 4), đối tượng có giá trị tiên đoán thấp gần (hình 1, 3) Tuy nhiên ảnh hưởng đòn bẩy đối tượng 1403 (hình 5, 6) có nghĩa loại đối tượng khỏi mẫu nghiên cứu ước lượng mô hình hồi quy logistic khác biệt lớn so với mô hình có đối tượng Ngược lại với đối tượng 1819 hay 1402, đối tượng có ảnh hưởng đòn bẩy lớn lên mô hình, nghĩa loại hai đối tượng khỏi mô hình kết ước lượng hệ số hồi quy Ta xem xét chất số liệu đối tượng này, ví dụ đối tượng số 1402 có giá trị ảnh hưởng đòn bẩy lớn, ta thấy giá trị bangcap đối tượng 36 nhỏ so với phân phối biến số bangcap (giới hạn 5% dãy số liệu 61) tabstat bangcap, s(mean sd p5 q) variable | mean sd p5 p25 p50 p75 -+ -bangcap | 88.12417 13.39733 61 81.5 93 100 - list bangcap if id==1402 + -+ | bangcap | | -| 1131 | 36 | + -+ Để xem ảnh hưởng đối tượng 1402 lên hệ số mô hình, ta lập hai mô hình có đối tượng để xem ảnh hưởng riêng đối tượng nhiều cỡ logit ketqua chame quanhnam buaan bangcap2 tuongtac3, nolo nohead -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -chame | 1.968948 2850145 6.91 0.000 1.41033 2.527566 quanhnam | -.548494 368032 -1.49 0.136 -1.269823 1728354 buaan | -.0789775 0079544 -9.93 0.000 -.0945678 -.0633872 bangcap2 | 0499983 01452 3.44 0.001 0215396 078457 tuongtac3 | -.1329371 0325104 -4.09 0.000 -.1966562 -.0692179 _cons | -3.655163 1.016975 -3.59 0.000 -5.648396 -1.661929 - logit ketqua chame quanhnam buaan bangcap2 tuongtac3 if id!=1402, nolo nohead -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -chame | 2.067168 29705 6.96 0.000 1.48496 2.649375 quanhnam | -.7849495 404428 -1.94 0.052 -1.577614 0077149 buaan | -.0767859 008003 -9.59 0.000 -.0924716 -.0611002 bangcap2 | 0504302 0145186 3.47 0.001 0219742 0788861 tuongtac3 | -.0765267 0421418 -1.82 0.069 -.1591231 0060697 _cons | -4.032019 1.056265 -3.82 0.000 -6.102262 -1.961777 Ta thấy đối tượng nghiên cứu làm biến số tuongtac3 từ có ý nghĩa thống kê thành ý nghĩa thống kê làm cho biến số quanhnam có giá trị p từ 0.136 thành 0.052, ta phát đối tượng ảnh hưởng đòn bẩy lớn lên mô hình hồi quy Các đối tượng nghiên cứu có ảnh hưởng đòn bẩy lớn khác cần xem xét cách lập hai mô hình có không đối tượng X lý đối tượng nghiên cứu phát nào? Câu trả lời tùy thuộc vào nhà nghiên cứu! quay lại kiểm tra xem có nhập liệu sai hay không? loại bỏ đối tượng này? Ubuntu 12.04 :: LibreOffice :: Trang 18 nguyenkinh@ytecongcong.com Ngoài ba thông số kể trên, có thông số dùng cho mục đích đánh giá khác Một yếu tố xây dựng mô hình ta cần phát có đối tượng nghiên cứu ảnh hưởng lớn lên kết kiểm định chi bình phương độ lệch kiểm tra mức độ phù hợp mô hình hay không, hai số thống kê dx2 dd dx2 khác biệt chi bình phương dd khác biệt độ lệch logit ketqua chame quanhnam buaan bangcap2 tuongtac3, nolo nohead predict khacbiet_chi2, dx2 predict khacbiet_dolech, dd scatter khacbiet_chi2 stt, mlab(id) scheme(sj) Hình 7: Phân bố khác biệt chi bình phương số thứ tự đối tượng scatter khacbiet_dolech stt, mlab(id) scheme(sj) Hình 8: Phân bố khác biệt độ lệch số thứ tự đối tượng Ubuntu 12.04 :: LibreOffice :: Trang 19 nguyenkinh@ytecongcong.com Hình vẽ cho thấy số liệu đối tượng nghiên cứu 1403 có ảnh hưởng quan trọng lên khác biệt chi bình phương độ lệch kiểm tra mức độ phù hợp mô hình Trong hình 7, dx2~216 cho đối tượng này, lại mẫu nghiên cứu dx2 chi2 Pseudo R2 = = = = 1158 933.71 0.0000 0.6389 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -chame | 1.968948 2850145 6.91 0.000 1.41033 2.527566 quanhnam | -.548494 368032 -1.49 0.136 -1.269823 1728354 buaan | -.0789775 0079544 -9.93 0.000 -.0945678 -.0633872 bangcap2 | 0499983 01452 3.44 0.001 0215396 078457 tuongtac3 | -.1329371 0325104 -4.09 0.000 -.1966562 -.0692179 _cons | -3.655163 1.016975 -3.59 0.000 -5.648396 -1.661929 - lfit Logistic model for ketqua, goodness-of-fit test number of observations = 1158 number of covariate patterns = 1152 Pearson chi2(1146) = 965.79 Prob > chi2 = 1.0000 logit ketqua chame quanhnam buaan bangcap2 tuongtac3 if id!=1403, nolo Logistic regression Log likelihood = -257.99083 Number of obs LR chi2(5) Prob > chi2 Pseudo R2 = = = = 1157 943.15 0.0000 0.6464 -ketqua | Coef Std Err z P>|z| [95% Conf Interval] -+ -chame | 2.030087 2915136 6.96 0.000 1.458731 2.601443 quanhnam | -.7044708 3864465 -1.82 0.068 -1.461892 0529503 buaan | -.0797143 0080848 -9.86 0.000 -.0955602 -.0638684 bangcap2 | 0504367 0146264 3.45 0.001 0217695 0791039 tuongtac3 | -.1078502 0372218 -2.90 0.004 -.1808036 -.0348969 _cons | -3.81956 1.035972 -3.69 0.000 -5.850029 -1.789092 - lfit Logistic model for ketqua, goodness-of-fit test number of observations = 1157 number of covariate patterns = 1151 Pearson chi2(1145) = 794.17 Prob > chi2 = 1.0000 Sự khác biệt chi bình phương đơn giản lấy giá trị từ hai mô hình trừ cho nhau, tương tự cho phương sai, kết cho thấy ảnh hưởng đối tượng nghiên cứu số 1403 di 965.79-794.17 171.62 di (263.83452 -257.99083)*2 //deviane=2*log likelihood 11.68738 Ubuntu 12.04 :: LibreOffice :: Trang 20 nguyenkinh@ytecongcong.com Ta thấy đối tượng 1403 có tác động lên số thống kê mức độ phù hợp mô hình lại không ảnh hưởng nhiều lên ước lượng hệ số mô hình hồi qui ảnh hưởng đòn bẩy đối tượng không nhiều (hình 5, ) Số thống kê cuối dùng để kiểm tra ảnh hưởng đối tượng nghiên cứu lên mô hình liên quan đến hệ số nhạy (coefficient sensitivity) cho biết đối tượng tác động lên ước lượng tham số mô hình Chạy lệnh ldfbeta sau logit tạo dfbeta cho biến số tiên đoán cho cụ thể biến số cách rõ cho lệnh biến số Ví dụ ta muốn biết đối tượng nghiên cứu ảnh hưởng lên ước lượng hệ số biến số buaan mô hình ldfbeta buaan DFbuaan: Dfbeta(buaan) scatter DFbuaan stt, mlab(id) scheme(sj) Một số thống kế khác Pregibon's dbeta cho biết tóm tắt ảnh hưởng mối đối tượng nghiên cứu lên ước lượng tham số) Dbeta tính lệnh predict sau tạo mô hình predict dbeta, dbeta scatter dbeta stt, mlab(id) Ubuntu 12.04 :: LibreOffice :: Trang 21 nguyenkinh@ytecongcong.com C húng ta xem qua thông số kiểm tra ảnh hưởng đối tượng nghiên cứu mô hình hồi quy Vậy giá trị thông số mức cần xem xét ảnh hưởng đối tượng nghiên cứu? Đầu tiên cần nhắc lại lần cần định dựa lý thuyết xây dựng mô hình kết phân tích Thứ hai, có qui tắc ngầm (rule-of-thumb) mức cần xem xét cỡ mẫu lớn cỡ mẫu lớn phân phối đo lường tuân theo phân phối chuẩn o bảng giá trị sau nên áp dụng có cỡ mẫu lớn, hay ta vẽ phân phân phối đo lường phân phối chuẩn Còn thông thường, ta xem độ lớn tương đối giá trị đo lường so với đối tượng nghiên cứu khác kiện, tức điểm kiện biểu đồ nằm cách xa điểm kiện khác hình ó thể xem thêm khoảng cách Cook's sử dụng để phát điểm kiện kiểm D C tra tính tin cậy ảnh hưởng tới mô hình hồi quy Ref Thông số Mức giá trị Ảnh hưởng đòn bẩy leverage (hat value) >2 đến lần trung bình Phần dư Pearson >2 Độ lệch phần dư >2 Ubuntu 12.04 :: LibreOffice :: Trang 22 nguyenkinh@ytecongcong.com Vấn đề với biến số định danh, thứ tự Khi có biến số thứ tự biến số tiên đoán ta gặp trường hợp ô bảng phân phối Quay lại số liệu ytcc.dta Sổ tay Y tế Công cộng v.1 ta có biến số viet điểm số viết, để minh họa cho vấn đề này, ta phân biến số thành biến số diemcao gồm hai nhóm (từ 67 điểm trở lên 67 điểm) Khi tạo bảng phân phối với biến số ktxh ta thấy có ô bảng Những trường hợp gây nên vấn đề tính toán mô hình hồi quy logistic với biến số diemcao biến số phụ thuộc ktxh biến số tiên đoán use http://www.ytecongcong.com/ytcc.dta (highschool and beyond (200 cases)) gen diemcao=viet>=67 ta diemcao ktxh | Kinh te xa hoi diemcao | Thap Trung Cao | Total -+ -+ -0 | 47 93 53 | 193 | | -+ -+ -Total | 47 95 58 | 200 xi: logit diemcao i.ktxh i.ktxh _Iktxh_1-3 Iteration Iteration Iteration Iteration Break-r(1); 0: 1: 2: (naturally coded; _Iktxh_1 omitted) log likelihood = -30.342896 log likelihood = -28.183949 log likelihood = -26.894653 263: log likelihood = -26.733291 (not concave) M ô hình lập trường hợp này, cần xử lý nào? Có hai cách, thứ bỏ biến số khỏi mô hình hồi quy cách không tốt biến số có ý nghĩa dự đoán thực tế Thứ hai phân nhóm lại biến số để loại bỏ ô Một trường hợp khác gặp hai biến số phân cách hoàn hảo Giả sử ta dùng biến số diemcao tạo từ điểm viết viet dùng biến điểm viết viet để dự đoán biến số diemcao? Ta có phương trình dự đoán hoàn hảo với viet>=67 diemcao=1 Trong trường hợp ta chạy mô hình Stata không cho kết mà thông báo: logit diemcao viet outcome = viet > 65 predicts data perfectly r(2000); Đánh giá mô hình kiểm tra giả định giúp ta tìm sai sót thiết lập mô hình không cho ta giải pháp xác phải làm Nguồn Logistic regresion diagnostic http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm Truy cập 11.07.2012 Ubuntu 12.04 :: LibreOffice :: Trang 23