Theo Tổng điều tra dân số và nhà ở Việt Nam: “Một người được gọi là biết đọc, viết và hiểu những câu đơn giản bằng ngôn ngữ quốc gia hay ngôn ngữ dân tộc hoặc tiếng nước ngoài”. Phân tích tình trạng biết đọc, biết viết của dân số tại một số địa phương trên địa bàn TP. Cần Thơ dựa trên 4 yếu tố là giới tính, nơi cư trú, tuổi và dân tộc. Trong đó, giới tính là nam và nữ, nơi cư trú là thành thị và nông thôn, tuổi là từ 15 tuổi đến 35 tuổi và từ 35 tuổi trở lên (tuổi 35 được chọn làm điểm cắt vì chiến dịch xóa nạn mù chữ nhằm vào đối tượng từ 15 đến 35 tuổi), dân tộc là Kinh và dân tộc khác. Hãy tìm mối quan hệ giữa khả năng biết đọc, biết viết với các yếu tố
37
giới tính, nơi cư trú, tuổi và dân tộc. Bảng số liệu cụ thể được trình bày trong Phụ lục 4 (số liệu được trích từ Cục thống kê TP. Cần Thơ).
Giải
a)Mã hóa dữ liệu
Gọi biến docviet (khả năng biết đọc, biết viết) là biến phụ thuộc. Các biến gtinh (giới tính), cutru (nơi cư trú), tuoi (tuổi) và dtoc (dân tộc) là các biến độc lập.
Mã hóa các biến như sau: biến docviet: biết = 1, không = 0; biến
gtinh: nam = 1, nữ = 0; biến cutru: thành thị = 1, nông thôn = 0; biến tuoi: từ 15 đến 35 tuổi = 1, từ 35 trở lên = 0; biến dtoc: Kinh = 1, khác = 0.
Vì biến docviet là dữ liệu nhị phân và có nhiều hơn một biến độc lập nên mô hình cần tìm là mô hình hồi quy Logistic đa biến.
Nhập dữ liệu vào SPSS như sau:
b)Thực hành trên SPSS
Xây dựng mô hình hồi quy Logistic đa biến với các thủ tục sau:
38
c) Kết quả và ý nghĩa
Tiến hành phân tích trên SPSS ta được các bảng kết quả sau:
Bảng 3.8: Case Processing Summary
Unweighted Cases(a) N Percent
Selected Cases Included in
Analysis 200 100.0
Missing Cases 0 .0
Total 200 100.0
Unselected Cases 0 .0
Total 200 100.0
Bảng 3.8 cho thấy dữ liệu nhập vào đã được xử lý hết không thiếu xót trường hợp nào.
Bảng 3.9: Omnibus Tests of Model Coefficients
Chi-square Df Sig. Step 1 Step 85.770 4 .000
Block 85.770 4 .000
39
Độ phù hợp của mô hình tổng thể được thể hiện qua Bảng 3.9. Ta thấy giá trị sig.0.000 0.05 nên ta bác bỏ giả thiết. Vì vậy có mối liên hệ giữa biến docviet với ít nhất một trong các biến gtinh, cutru, tuoi và dtoc.
Bảng 3.10: Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 145.519(a) .349 .509
Bảng 3.10 cho thấy giá trị 2LL145.519, giá trị này cũng không cao lắm, vì thế mô hình có độ phù hợp tương đối khá tốt.
Bảng 3.11: Contingency Table for Hosmer and Lemeshow Test
biet doc biet viet = khong biet doc biet viet = biet Total Observed Expected Observed Expected
Step 1 1 27 27.353 11 10.647 38 2 17 14.875 13 15.125 30 3 3 4.574 10 8.426 13 4 3 3.197 16 15.803 19 5 1 1.513 18 17.487 19 6 0 .922 29 28.078 29 7 2 .342 18 19.658 20 8 0 .223 32 31.777 32
Bảng 3.11 giúp ta kiểm tra dữ liệu nhập vào đã chính xác không có sai sót.
Bảng 3.12: Classification Table
Observed
Predicted
biet doc biet viet Percentage Correct khong biet
Step 1 biet doc biet viet khong 28 25 52.8
biet 11 136 92.5
Overall Percentage 82.0
Mức độ chính xác của dự báo được thể hiện qua Bảng 3.12. Ta thấy trong 53 trường hợp không biết đọc, biết viết thì mô hình dự báo đúng được 28 trường hợp với tỷ lệ đoán đúng là 52.8%. Còn trong 147 trường hợp biết đọc, biết viết thì mô hình dự báo đúng 136 trường hợp với tỷ lệ đúng là 92.5%. Như vậy trong 200 trường hợp thì mô hình dự đoán đúng được 164 trường hợp, từ đó ta tính được tỷ lệ đoán đúng của toàn bộ mô hình là 82%.
40
Bảng 3.13: Variables in the Equation
B S.E. Wald df Sig. Exp(B) 95.0% C.I.for EXP(B) Lower Upper Step 1 gtinh 1.543 .475 10.550 1 .001 4.679 1.844 11.873 cutru -.968 .413 5.502 1 .019 .380 .169 .853 tuoi 3.391 .635 28.555 1 .000 29.701 8.562 103.030 dtoc -.726 1.330 .298 1 .585 .484 .036 6.556 Constant .750 1.328 .319 1 .572 2.118
Kiểm định ý nghĩa các hệ số hồi quy (Wald): Ta thấy biến dtoc có . 0.585 0.05
sig nên ta chấp nhận giả thiết. Mặt khác các biến gtinh có sig.0.001 0.05, biến cutru có sig.0.019 0.05 và biến
tuoi có sig.0.000 0.05 nên ta bác bỏ giả thiết. Vì thế ta kết luận biến gtinh, biến cutru và biến tuoi có ý nghĩa thống kê trong mô hình còn biến dtoc không có ý nghĩa thống kê trong mô hình.
Mô hình hồi quy Logistic đa biến:
ln 0.75 1.543 0.968 3.391
1
p
y gtinh cutru tuoi
p
Trong đó p là xác suất để docviet1.
Mô hình hồi quy cho thấy biến gtinh và biến tuoi làm tăng khả năng biết đọc, biết viết; còn biến cutru làm giảm khả năng biết đọc, biết viết.
Nếu các yếu tố cutru, tuoi không thay đổi thì yếu tố gtinh tăng lên 1 đơn vị sẽ làm tăng khả năng biết đọc, biết viết lên 1.543 đơn vị.
Nếu các yếu tố gtinh, tuoi không thay đổi thì yếu tố cutru tăng lên 1 đơn vị sẽ làm giảm khả năng biết đọc, biết viết xuống 0.968 đơn vị.
Nếu các yếu tố gtinh, cutru không thay đổi thì yếu tố tuoi tăng lên 1 đơn vị sẽ làm tăng khả năng biết đọc, biết viết lên 3.391 đơn vị.
Nếu các yếu tố gtinh, cutru, tuoi bằng 0 thì khả năng biết đọc, biết viết sẽ tăng 0.75 đơn vị.
Ta có 1 p odds p
nên từ mô hình hồi quy ta được
exp 0.75 1.543 0.968 3.391
odds gtinh cutru tuoi
Tỷ số odds của biến gtinh: ORgtinh e0.75 1.5430.75 4.679
e
thuộc
khoảng ước lượng C.I.for EXP(B): (1.844; 11.873).
Tỷ số odds của biến cutru: ORcutru e0.75 0.9680.75 0.380
e
thuộc
41
Tỷ số odds của biến tuoi: ORtuoi e0.75 3.3910.75 29.701
e
thuộc
khoảng ước lượng C.I.for EXP(B): (8.562; 103.030). Ước lượng các hệ số
Hệ số tự do 0 có sai số chuẩn là: 1.328 và khoảng ước lượng với mức ý nghĩa 5% là: (-1.853; 3.353).
Hệ số của biến gtinh 1 có sai số chuẩn là: 0.475 và khoảng ước lượng với mức ý nghĩa 5% là: (0.612; 2.474).
Hệ số của biến cutru 2 có sai số chuẩn là: 0.413 và khoảng ước lượng với mức ý nghĩa 5% là: (-1.777; -0.159).
Hệ số của biến tuoi 3 có sai số chuẩn là: 0.635 và khoảng ước lượng với mức ý nghĩa 5% là: (2.146; 4.636).
Tóm tắt ý nghĩa
Bảng 3.14: Tóm tắt ý nghĩa các hệ số
Yếu tố Tỷ số odds Khoảng ước lượng Sig. 0.05
gtinh 4.679 1.844-11.873 0.001
cutru 0.380 0.169-0.853 0.019
tuoi 29.701 8.562-103.030 0.000
dtoc 0.484 0.036-6.556 0.585
Kết luận: gtinh, tuoi, cutru là các yếu tố độc lập ảnh hưởng tới khả năng biết đọc, biết viết.
Nếu một đối tượng là nam, cư trú ở nông thôn, 65tuổi và dân tộc Kinh thì khả năng biết đọc, biết viết của đối tượng này có xác suất là
exp 0.75 1.543 1 0.968 0 3.391 0 0.908 1 exp 0.75 1.543 1 0.968 0 3.391 0 p
Mô hình cho biết khả năng biết đọc, biết viết của đối tượng trên là 90.8% nhưng hãy chú ý đây chỉ là khả năng biết đọc, biết viết dự đoán và dự đoán này có khả năng đúng là 82%.