1 Thông tin chung Thông tin bộ số liệu Biến số phụ thuộc IMR infant mortality rate (tỷ lệ chết sơ sinh) Các biến số độc lập cal calorie consumption (mức tiêu thụ calo) urbanization urbanization rate (.
1 Thông tin chung Thông tin số liệu: Biến số phụ thuộc: IMR: infant mortality rate (tỷ lệ chết sơ sinh) Các biến số độc lập: cal: calorie consumption (mức tiêu thụ calo) urbanization: urbanization rate (tỷ lệ thị hóa) dm_history: mean number of diabetes in 1st (trung bình số bệnh nhân đái tháo đường typ 1) phc: number of primary health care centre (số sở chăm sóc sức khỏe ban đầu) bed: number of beds per 1000 (số giường bệnh 1000 dân) commune_id: mã xã/phường district_id: mã quận/huyện Làm số liệu tạo ghi Tải file data_thuchanh.xlsx Mở file số liệu: Stata, ta chọn File Import Excel spreadsheet Trỏ đến file data thực hành tích vào “Import first row as variable names” Số random: 300, tạo số liệu với 3000 ghi ta gõ lệnh: keep in 300/3299 Vậy ghi ứng với STT 300 ghi cuối ứng với STT 3299 Gắn nhãn tên biến: Câu lệnh: - la var cal “Mức tiêu thụ calo” - la var urbanization “Tỷ lệ đô thị hố” - la var dm_history “Trung bình số bệnh nhân đái tháo đường typ 1” - la var phc “Số sở CSSK ban đầu” - la var bed “Số giường bệnh 1000 dân” - la var commune_id “Mã xã phường” - la var district_id “Mã quận huyện” - la var IMR “Tỷ lệ chết sơ sinh” - codebook - graph box cal - graph box urbanization - graph box dm_history - graph box phc - graph box bed - graph box commune_id - graph box district_id - graph box IMR Phiên giải: Trước thực phân tích số liệu, ta gắn nhãn cho biến số Sau thực lệnh codebook để kiểm tra kiểu biến phát giá trị missing lệnh graph box để phát giá trị ngoại lai kiểm tra phân bố liệu, nhằm đảm bảo tính xác cho kết phân tích Kết quả: Khơng có biến có giá trị missing Khơng có biến có giá trị ngoại lai Trả lời câu hỏi Câu hỏi 1: Lập bảng mô tả thông tin chung đối tượng nghiên cứu, biến số cần phân tích: số sở chăm sóc sức khỏe ban đầu, số giường bệnh 1000 dân, tỷ lệ thị hóa Câu lệnh: - sum phc bed urbanization, d - hist phc, norm - hist bed, norm - hist urbanization, norm - sktest phc bed urbanization - swilk phc bed urbanization - sfrancia phc bed urbanization Phiên giải: Thống kê mô tả biến định lượng: số sở chăm sóc sức khoẻ ban đầu (phc), số giường bệnh 1000 dân (bed), tỷ lệ đô thị hoá (urbanization) - sum phc bed urbanization, d Kiểm định biến phân bố chuẩn hay không chuẩn, nhằm xác định giá trị cần mô tả Độ lệch độ gù: Các biến có độ lệch khơng xấp xỉ độ gù không xấp xỉ Sử dụng biểu đồ cột liên tục để xem hình dạng phân bố số liệu: - hist phc, norm - hist bed, norm - hist urbanization, norm Ta thấy biến có đường cong đối xứng hình chng Sử dụng test thống kê kiểm định phân bố chuẩn: Sử dụng kewness/Kurtosis test (sktest): Không cho kết giá trị p Sử dụng Shapiro-Francia test (sfrancia) (do Shapiro-Wilk test (swilk) dùng cho biến có số lượng quan sát từ 4-2000) - sfrancia phc bed urbanization Kết biến có p < 0.05, ta bác bỏ giả thuyết Ho chấp nhận giả thuyết Ha, có nghĩa phân bố số liệu biến phc, bed, urbanization phân bố không chuẩn Đối với biến ta mô tả giá trị trung vị tứ phân vị Kết quả: Bảng thông tin chung đối tượng nghiên cứu (n = 3000) Đặc điểm Trung vị Khoảng tứ phân vị 29 14 – 44 Số giường bệnh 1000 dân 3,30 2,86 – 3,75 Tỷ lệ thị hố 50,68 24,42 – 75,19 Số sở chăm sóc sức khoẻ ban đầu Biến số “Số sở chăm sóc sức khoẻ ban đầu” gồm 3000 quan sát, giá trị trung vị 29, khoảng tứ phân vị từ 14 đến 44 Biến số “Số giường bệnh 1000 dân” gồm 3000 quan sát, giá trị trung vị 3,30, khoảng tứ phân vị từ 2,86 đến 3,75 Biến số “Tỷ lệ thị hố” gồm 3000 quan sát, giá trị trung vị 50,68, khoảng tứ phân vị từ 24,42 đến 75,19 Câu hỏi 2: Lập bảng mô tả biến số mức tiêu thụ calo, số bệnh nhân đái tháo đường typ Câu lệnh: - sum cal dm_history, d - hist cal, norm - hist dm_history, norm - sktest cal dm_history - swilk cal dm_history - sfrancia cal dm_history Phiên giải: Thống kê mô tả biến định lượng: mức tiêu thụ calo (cal), số bệnh nhân đái tháo đường typ (dm_history) sum cal dm_history, d Kiểm định biến phân bố chuẩn hay không chuẩn, nhằm xác định giá trị cần mô tả Độ lệch độ gù: Các biến có độ lệch không xấp xỉ độ gù không xấp xỉ Sử dụng biểu đồ cột liên tục để xem hình dạng phân bố số liệu: - hist cal, norm - hist dm_history, norm Ta thấy biến có đường cong đối xứng hình chng Sử dụng test thống kê kiểm định phân bố chuẩn: Sử dụng kewness/Kurtosis test (sktest): Không cho kết giá trị p Sử dụng Shapiro-Francia test (sfrancia) (do Shapiro-Wilk test (swilk) dùng cho biến có số lượng quan sát từ 4-2000) - sfrancia cal dm_history Kết biến có p < 0.05, ta bác bỏ giả thuyết Ho chấp nhận giả thuyết Ha, có nghĩa phân bố số liệu biến cal, dm_history phân bố không chuẩn Đối với biến ta mô tả giá trị trung vị tứ phân vị Kết quả: Đặc điểm Trung vị Khoảng tứ phân vị Mức tiêu thụ calo 1921,37 1344,90 – 2464,03 1–4 Số bệnh nhân đái tháo đường typ Ta thấy biến số cal: Biến số “Mức tiêu thụ calo” gồm 3000 quan sát, giá trị trung vị 1921,37, khoảng tứ phân vị từ 1344,90 đến 2464.03 Biến số “Số bệnh nhân đái tháo đường typ 1” gồm 3000 quan sát, giá trị trung vị 3, khoảng tứ phân vị từ đến Câu hỏi 3: Tạo biến phân nhóm xã/phường dựa biến phc (nhóm xã phường có 30 sở chăm sóc sức khỏe ban đầu nhóm xã phường có nhiều 30 sở CSSKBD) Để tạo biến phân loại nhóm xã/phường dựa biến phc, ta dùng Câu lệnh: - gen nhomphc = phc - replace nhomphc = if phc < 30 - replace nhomphc = if phc >= 30 - label def a "duoi 30 phc" "tren hoac bang 30 phc" - label value nhomphc a Mơ tả tính toán ước lượng 95% khoảng tin cậy IMR Câu lệnh: - ci mean IMR Kết quả: Variable Obs Mean IMR 3,000 37.69521 Std Err [95% Conf Interval] 3205136 37.06676 38.32366 Với biến IMR, thấy giá trị trung bình khoảng 37,69, khoảng tin cậy ước lượng 95% chạy từ 37,06 đến 38,32 Như vậy, tịn tưởng 95% giá trị trung bình chạy khoảng từ 37,06 đến 38,32 Tính ước lượng 95% khoảng tin cậy IMR: Câu lệnh: by nhomphc, sort: ci mean IMR Kết quả: -> nhomphc = tren hoac bang 30 phc Variable Obs Mean IMR 1,472 37.70182 Std Err .456851 [95% Conf Interval] 36.80567 38.59797 -> nhomphc = duoi 30 phc Variable Obs Mean IMR 1,528 37.68885 Std Err [95% Conf Interval] 4499237 36.80631 38.57138 Với biến IMR nhóm phc 30, thấy giá trị trung bình khoảng 37,68, khoảng tin cậy ước lượng 95% chạy từ 36,8 đến 38,57 Như vậy, tin tưởng 95% giá trị trung bình chạy khoảng từ 36,8 đến 38,57 Với biến IMR nhóm 30, thấy giá trị trung bình khoảng 37,70, khoảng tin cậy ước lượng 95% chạy từ 36,80 đến 38,59 Như vậy, tin tưởng 95% giá trị trung bình chạy khoảng từ 36,80 đến 38,59 Câu hỏi 4: Tạo biến nhóm IMR theo bảng sau NhómIMR < 20 Nhóm 20-35 Nhóm >35 Nhóm Vẽ biểu đồ cột biểu diễn mối liên quan nhóm IMR nhóm phân loại xã phường (trong câu hỏi 3) Câu lệnh: - gen nhomIMR = irecode( IMR, 20, 35) - label variable nhomIMR "nhomIMR" - label define b "duoi 20 IMR" "tư 20 den 35 IMR" "tren 35 IMR" - label value nhomIMR b - tab nhomIMR nhomphc - graph bar, over (nhomIMR) over (nhomphc) asyvars blabel (bar) Kết quả: Bảng phân loại nhóm IMR: nhomIMR nhomphc tren hoac duoi 30 p Total duoi 20 IMR tư 20 den 35 IMR tren 35 IMR 295 374 803 316 399 813 611 773 1,616 Total 1,472 1,528 3,000 10 percent 20 30 27.1 26.7667 13.3 12.4667 10.5333 9.83333 duoi 30 phc duoi 20 IMR tren 35 IMR tren hoac bang 30 phc tư 20 den 35 IMR Đồ thị 1: Biểu đồ (%) mối liên quan nhóm IMR (nhomIMR) nhóm phân loại xã phường (nhomphc) Nhận xét: Ta thấy tỉ lệ chết sơ sinh (IMR) tập trung vào nhóm 30 sở chăm sóc sức khoẻ ban đầu nhiều 813 (chiếm 27,1%), địa phương có 30 sở chăm sóc sức khoẻ ban đầu có IMR thấp 295 (chiếm 9,8%).Nhưng so sánh qua biểu đồ nhóm 30 sở chăm sóc chữa bệnh ban đầu lớn 30 sở chăm sóc sức khoẻ ban đầu ta thấy chênh lệch nhóm phc không đáng kể Suy tỷ lệ chết sơ sinh không bị can thiệp nhiều số sở chăm sóc sức khoẻ ban đầu Câu hỏi 5: Kiểm định khác biệt tỷ lệ nhóm IMR theo phân nhóm loại xã phường Ta kiểm định tần số mong đợi tỉ lệ IMR Câu lệnh: tab nhomIMR nhomphc, expect Kết quả: Key frequency expected frequency nhomIMR nhomphc tren hoac duoi 30 p Total duoi 20 IMR 295 299.8 316 311.2 611 611.0 tư 20 den 35 IMR 374 379.3 399 393.7 773 773.0 tren 35 IMR 803 792.9 813 823.1 1,616 1,616.0 Total 1,472 1,472.0 1,528 1,528.0 3,000 3,000.0 Ta thấy tần số mong đợi >5 nên ta sử dụng test bình phương Câu lệnh: tabulate nhomIMR nhomphc, col chi2 Kết quả: Key frequency column percentage nhomIMR nhomphc tren hoac duoi 30 p Total duoi 20 IMR 295 20.04 316 20.68 611 20.37 tư 20 den 35 IMR 374 25.41 399 26.11 773 25.77 tren 35 IMR 803 54.55 813 53.21 1,616 53.87 Total 1,472 100.00 1,528 100.00 3,000 100.00 Pearson chi2(2) = 0.5470 Pr = 0.761 Kết test bình phương cho giá trị P = 0,761 > 0,05 bác bỏ giả thuyết Ho, khác biệt khơng có ý nghĩa thống kê chưa thể khác biệt tỷ lệ IMR đối chiếu theo phân loại xã phường Câu hỏi 6: Kiểm định khác biệt trung bình biến số IMR theo phân nhóm loại xã phường Đầu tiên, kiểm tra IMR phân loại theo nhóm xã phường có phải phân bố chuẩn hay khơng Câu lệnh: - swilk IMR if nhomphc == Kết quả: Shapiro-Wilk W test for normal data Variable Obs IMR 1,528 W V z Prob>z 0.95523 41.552 9.385 0.00000 Câu lệnh: - swilk IMR if nhomphc == Kết quả: Shapiro-Wilk W test for normal data Variable Obs IMR 1,472 W V z Prob>z 0.95491 40.452 9.305 0.00000 P = Phân bố không chuẩn, ta sử dụng công thức Mann – Whitney U test: Câu lệnh: - ranksum IMR, by (nhomphc) Kết quả: Two-sample Wilcoxon rank-sum (Mann-Whitney) test nhomphc obs rank sum expected duoi 30 phc tren hoac ba 1528 1472 2292243 2209257 2292764 2208736 combined 3000 4501500 4501500 unadjusted variance adjustment for ties 5.625e+08 adjusted variance 5.625e+08 Ho: IMR(nhomphc==duoi 30 phc) = IMR(nhomphc==tren hoac bang 30 phc) z = -0.022 Prob > |z| = 0.9825 Kết test Mann-Whitney cho P = 0,9825 > 0,05 Sự khác biệt nhóm xã phường khơng có ý nghĩa thống kê chưa thể khác biệt tỷ lệ IMR đối chiếu theo phân loại xã phường Câu hỏi 7: Vẽ biểu đồ tương quan biến số IMR cal Tính hệ số tương quan nhận xét Câu lệnh: 20 40 60 80 twoway (scatter IMR cal) (lfit IMR cal) Kết quả: 1000 1500 2000 cal IMR 2500 3000 Fitted values Biểu đồ 2: Biểu đồ biểu diễn mối tương quan tỉ suất chết sơ sinh (IMR) mức tiêu thụ calo (cal) Nhận xét: Nhìn biểu đồ ta thấy hai biến IMR cal có mối quan hệ tuyến tính khơng chặt chẽ với mối quan hệ tương quan nghịch đường fitted line xuống Từ điều ta dự đốn số số IMR số cal có mối tương quan nghịch, nhiên ta chưa biết độ lớn mối tương quan mối tương quan có ý nghĩa hay khơng Tính hệ số tương quan: Ta thấy biến IMR cal phân bố không chuẩn dùng hệ số tương quan spearman Câu lệnh: spearman IMR cal Kết quả: Number of obs = Spearman's rho = 3000 -0.0280 Test of Ho: IMR and cal are independent Prob > |t| = 0.1246 Hệ số tương quan r = – 0.0280 giá trị âm ta suy thể tương quan nghịch mối tương quan yếu, gần khơng có mối tương quan tỷ lệ chết sơ sinh mức tiêu thụ calo Kết P = 0,1246 > 0.05 Mối tương quan ý nghĩa thống kê, ta chưa thể kết luận ảnh hưởng việc tiêu thụ calo đến việc chết sơ sinh Câu hỏi 8: Xây dựng mơ hình hồi quy tuyến tính dự đốn biến IMR theo các biến số độc lập cho số liệu Trước tiên ta loại bỏ biến commune_id, district_id không thoả mãn điều kiện Câu lệnh: regress IMR cal urbanization dm_history phc bed Kết quả: Source SS df MS Model Residual 921388.334 2864.36033 2,994 184277.667 956700178 Total 924252.694 2,999 308.18696 IMR Coefficient Number of obs F(5, 2994) Prob > F R-squared Adj R-squared Root MSE P = > = = = = 3,000 99999.00 0.0000 0.9969 0.9969 97811 95% CI Mức tiêu thụ calo (cal) – 0.000971 0,000 – 0,0010257 – 0,0009164 Tỷ lệ thị hố (urbanization) – 0,5996071 0,000 – 0,6008061 – 0,5984082 Trung bình số bệnh nhân đái tháo 0,0460832 0,034 0,0254337 0,0667328 Số sở CSSK ban đầu (phc) – 0,0096012 0,000 – 0,0116215 – 0,007581 Số giường bệnh 1000 dân (bed) – 0, 0728735 0,000 – 0,1403783 – 0,0053686 _constant 69,93623 0,000 69.66977 70.20269 đường typ (dm_history) Phân tích: Ta thấy Prob > F = 0,0000 => Mức ý nghĩa kiểm định F bé 5% chứng tỏ R bình phương tổng thể khác Nói cách khác hệ số hồi quy phương trình hồi quy tổng thể khơng đồng thời 0. Adj R- squared= 0,9969 => R bình phương hiệu chỉnh, tức biến độc lập giải thích 99,69% biến thiên biến phụ thuộc Tất biến độc lập có P > |t| bé 0,05 nên mối quan hệ biến phụ thuộc IMR biến độc lập có ý nghĩa thống kê => Phương trình hồi quy tuyến tính: IMR = 69,93623 – 0,000971*cal – 0,5996071* urbanization + 0,0460832* dm_history – 0,0096012*phc – 0, 0728735*bed Giải thích ý nghĩa hồi quy (khi điều kiện khác không đổi): Khi biến cal tăng đơn vị IMR giảm 0,000971 đơn vị Khi biến urbanization tăng đơn vị IMR giảm 0,5996071 đơn vị Khi biến dm_history tăng đơn vị IMR tăng 0,0460832 đơn vị Khi biến phc tăng đơn vị IMR giảm 0,0096012 đơn vị Khi biến bed tăng đơn vị IMR giảm 0,0728735 đơn vị Vậy phương trình cho ta thấy biến “trung bình số bệnh nhân đái tháo đường typ 1” tăng biến “tỷ lệ chết trẻ sơ sinh” có chiều hướng tăng hệ số hồi quy mang giá trị dương Các biến “mức tiêu thụ calo”, “tỷ lệ thị hóa”, “số sở chăm sóc sức khỏe ban đầu”, số giường bệnh 1000 dân” tăng lên biến “tỷ lệ chết trẻ sơ sinh” có chiều hướng giảm hệ số hồi quy mang giá trị âm ... Total duoi 20 IMR 295 299.8 316 311 .2 611 611 .0 tư 20 den 35 IMR 374 379.3 399 393.7 773 773.0 tren 35 IMR 803 792.9 813 823 .1 1, 616 1, 616 .0 Total 1, 472 1, 472.0 1, 528 1, 528.0 3,000 3,000.0 Ta thấy... 316 20.68 611 20.37 tư 20 den 35 IMR 374 25. 41 399 26 .11 773 25.77 tren 35 IMR 803 54.55 813 53. 21 1, 616 53.87 Total 1, 472 10 0.00 1, 528 10 0.00 3,000 10 0.00 Pearson chi2(2) = 0.5470 Pr = 0.7 61. .. nhóm IMR: nhomIMR nhomphc tren hoac duoi 30 p Total duoi 20 IMR tư 20 den 35 IMR tren 35 IMR 295 374 803 316 399 813 611 773 1, 616 Total 1, 472 1, 528 3,000 10 percent 20 30 27 .1 26.7667 13 .3 12 .4667