Ứng dụng trong xã hội

Một phần của tài liệu hồi quy logistic và ứng dụng (Trang 41)

Theo Tổng điều tra dân số và nhà ở Việt Nam: “Một người được gọi là biết đọc, viết và hiểu những câu đơn giản bằng ngôn ngữ quốc gia hay ngôn ngữ dân tộc hoặc tiếng nước ngoài”. Phân tích tình trạng biết đọc, biết viết của dân số tại một số địa phương trên địa bàn TP. Cần Thơ dựa trên 4 yếu tố là giới tính, nơi cư trú, tuổi và dân tộc. Trong đó, giới tính là nam và nữ, nơi cư trú là thành thị và nông thôn, tuổi là từ 15 tuổi đến 35 tuổi và từ 35 tuổi trở lên (tuổi 35 được chọn làm điểm cắt vì chiến dịch xóa nạn mù chữ nhằm vào đối tượng từ 15 đến 35 tuổi), dân tộc là Kinh và dân tộc khác. Hãy tìm mối quan hệ giữa khả năng biết đọc, biết viết với các yếu tố

37

giới tính, nơi cư trú, tuổi và dân tộc. Bảng số liệu cụ thể được trình bày trong Phụ lục 4 (số liệu được trích từ Cục thống kê TP. Cần Thơ).

Giải

a)Mã hóa dữ liệu

 Gọi biến docviet (khả năng biết đọc, biết viết) là biến phụ thuộc. Các biến gtinh (giới tính), cutru (nơi cư trú), tuoi (tuổi) và dtoc (dân tộc) là các biến độc lập.

Mã hóa các biến như sau: biến docviet: biết = 1, không = 0; biến

gtinh: nam = 1, nữ = 0; biến cutru: thành thị = 1, nông thôn = 0; biến tuoi: từ 15 đến 35 tuổi = 1, từ 35 trở lên = 0; biến dtoc: Kinh = 1, khác = 0.

 Vì biến docviet là dữ liệu nhị phân và có nhiều hơn một biến độc lập nên mô hình cần tìm là mô hình hồi quy Logistic đa biến.

 Nhập dữ liệu vào SPSS như sau:

b)Thực hành trên SPSS

Xây dựng mô hình hồi quy Logistic đa biến với các thủ tục sau:

38

c) Kết quả và ý nghĩa

Tiến hành phân tích trên SPSS ta được các bảng kết quả sau:

Bảng 3.8: Case Processing Summary

Unweighted Cases(a) N Percent

Selected Cases Included in

Analysis 200 100.0

Missing Cases 0 .0

Total 200 100.0

Unselected Cases 0 .0

Total 200 100.0

Bảng 3.8 cho thấy dữ liệu nhập vào đã được xử lý hết không thiếu xót trường hợp nào.

Bảng 3.9: Omnibus Tests of Model Coefficients

Chi-square Df Sig. Step 1 Step 85.770 4 .000

Block 85.770 4 .000

39

Độ phù hợp của mô hình tổng thể được thể hiện qua Bảng 3.9. Ta thấy giá trị sig.0.000  0.05 nên ta bác bỏ giả thiết. Vì vậy có mối liên hệ giữa biến docviet với ít nhất một trong các biến gtinh, cutru, tuoidtoc.

Bảng 3.10: Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 145.519(a) .349 .509

Bảng 3.10 cho thấy giá trị 2LL145.519, giá trị này cũng không cao lắm, vì thế mô hình có độ phù hợp tương đối khá tốt. (adsbygoogle = window.adsbygoogle || []).push({});

Bảng 3.11: Contingency Table for Hosmer and Lemeshow Test

biet doc biet viet = khong biet doc biet viet = biet Total Observed Expected Observed Expected

Step 1 1 27 27.353 11 10.647 38 2 17 14.875 13 15.125 30 3 3 4.574 10 8.426 13 4 3 3.197 16 15.803 19 5 1 1.513 18 17.487 19 6 0 .922 29 28.078 29 7 2 .342 18 19.658 20 8 0 .223 32 31.777 32

Bảng 3.11 giúp ta kiểm tra dữ liệu nhập vào đã chính xác không có sai sót.

Bảng 3.12: Classification Table

Observed

Predicted

biet doc biet viet Percentage Correct khong biet

Step 1 biet doc biet viet khong 28 25 52.8

biet 11 136 92.5

Overall Percentage 82.0

Mức độ chính xác của dự báo được thể hiện qua Bảng 3.12. Ta thấy trong 53 trường hợp không biết đọc, biết viết thì mô hình dự báo đúng được 28 trường hợp với tỷ lệ đoán đúng là 52.8%. Còn trong 147 trường hợp biết đọc, biết viết thì mô hình dự báo đúng 136 trường hợp với tỷ lệ đúng là 92.5%. Như vậy trong 200 trường hợp thì mô hình dự đoán đúng được 164 trường hợp, từ đó ta tính được tỷ lệ đoán đúng của toàn bộ mô hình là 82%.

40

Bảng 3.13: Variables in the Equation

B S.E. Wald df Sig. Exp(B) 95.0% C.I.for EXP(B) Lower Upper Step 1 gtinh 1.543 .475 10.550 1 .001 4.679 1.844 11.873 cutru -.968 .413 5.502 1 .019 .380 .169 .853 tuoi 3.391 .635 28.555 1 .000 29.701 8.562 103.030 dtoc -.726 1.330 .298 1 .585 .484 .036 6.556 Constant .750 1.328 .319 1 .572 2.118

 Kiểm định ý nghĩa các hệ số hồi quy (Wald): Ta thấy biến dtoc có . 0.585 0.05

sig    nên ta chấp nhận giả thiết. Mặt khác các biến gtinhsig.0.001  0.05, biến cutrusig.0.019  0.05 và biến

tuoisig.0.000  0.05 nên ta bác bỏ giả thiết. Vì thế ta kết luận biến gtinh, biến cutru và biến tuoi có ý nghĩa thống kê trong mô hình còn biến dtoc không có ý nghĩa thống kê trong mô hình.

 Mô hình hồi quy Logistic đa biến:

ln 0.75 1.543 0.968 3.391

1

p

y gtinh cutru tuoi

p

 

     

 

Trong đó p là xác suất để docviet1. (adsbygoogle = window.adsbygoogle || []).push({});

 Mô hình hồi quy cho thấy biến gtinh và biến tuoi làm tăng khả năng biết đọc, biết viết; còn biến cutru làm giảm khả năng biết đọc, biết viết.

 Nếu các yếu tố cutru, tuoi không thay đổi thì yếu tố gtinh tăng lên 1 đơn vị sẽ làm tăng khả năng biết đọc, biết viết lên 1.543 đơn vị.

 Nếu các yếu tố gtinh, tuoi không thay đổi thì yếu tố cutru tăng lên 1 đơn vị sẽ làm giảm khả năng biết đọc, biết viết xuống 0.968 đơn vị.

 Nếu các yếu tố gtinh, cutru không thay đổi thì yếu tố tuoi tăng lên 1 đơn vị sẽ làm tăng khả năng biết đọc, biết viết lên 3.391 đơn vị.

 Nếu các yếu tố gtinh, cutru, tuoi bằng 0 thì khả năng biết đọc, biết viết sẽ tăng 0.75 đơn vị.

 Ta có 1 p odds p

 nên từ mô hình hồi quy ta được

 

exp 0.75 1.543 0.968 3.391

odds  gtinhcutrutuoi

 Tỷ số odds của biến gtinh: ORgtinhe0.75 1.5430.75 4.679

e

  thuộc

khoảng ước lượng C.I.for EXP(B): (1.844; 11.873).

 Tỷ số odds của biến cutru: ORcutrue0.75 0.9680.75 0.380

e

 thuộc

41

 Tỷ số odds của biến tuoi: ORtuoie0.75 3.3910.75 29.701

e

  thuộc

khoảng ước lượng C.I.for EXP(B): (8.562; 103.030).  Ước lượng các hệ số

 Hệ số tự do  0 có sai số chuẩn là: 1.328 và khoảng ước lượng với mức ý nghĩa 5% là: (-1.853; 3.353).

 Hệ số của biến gtinh  1 có sai số chuẩn là: 0.475 và khoảng ước lượng với mức ý nghĩa 5% là: (0.612; 2.474).

 Hệ số của biến cutru  2 có sai số chuẩn là: 0.413 và khoảng ước lượng với mức ý nghĩa 5% là: (-1.777; -0.159).

 Hệ số của biến tuoi  3 có sai số chuẩn là: 0.635 và khoảng ước lượng với mức ý nghĩa 5% là: (2.146; 4.636).

Tóm tắt ý nghĩa (adsbygoogle = window.adsbygoogle || []).push({});

Bảng 3.14: Tóm tắt ý nghĩa các hệ số

Yếu tố Tỷ số odds Khoảng ước lượng Sig. 0.05

gtinh 4.679 1.844-11.873 0.001

cutru 0.380 0.169-0.853 0.019

tuoi 29.701 8.562-103.030 0.000

dtoc 0.484 0.036-6.556 0.585

Kết luận: gtinh, tuoi, cutru là các yếu tố độc lập ảnh hưởng tới khả năng biết đọc, biết viết.

 Nếu một đối tượng là nam, cư trú ở nông thôn, 65tuổi và dân tộc Kinh thì khả năng biết đọc, biết viết của đối tượng này có xác suất là

    exp 0.75 1.543 1 0.968 0 3.391 0 0.908 1 exp 0.75 1.543 1 0.968 0 3.391 0 p               

Mô hình cho biết khả năng biết đọc, biết viết của đối tượng trên là 90.8% nhưng hãy chú ý đây chỉ là khả năng biết đọc, biết viết dự đoán và dự đoán này có khả năng đúng là 82%.

Một phần của tài liệu hồi quy logistic và ứng dụng (Trang 41)