Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,94 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ******* BÙI THỊ HUỆ PHƢƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA SINH VIÊN TRƢỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ******* BÙI THỊ HUỆ PHƢƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA SINH VIÊN TRƢỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI Chuyên ngành: Lý thuyết Xác suất Thống kê Toán học Mã số: 60 46 15 LUẬN VĂN THẠC SĨ KHOA HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: TS TRỊNH QUỐC ANH Hà Nội - 2013 LỜI CẢM ƠN Tôi xin bày tỏ lời cảm ơn chân thành, sâu sắc tới TS Trịnh Quốc Anh – người bên cạnh động viên, tận tình bảo, hướng dẫn giúp đỡ tơi q trình nghiên cứu hồn thành luận văn Tôi xin gửi lời cảm ơn đến thầy cô Bộ môn xác suất thầy khoa Tốn – Cơ – Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội cung cấp cho vốn kiến thức chuyên ngành suốt thời gian học trường giúp đỡ, tạo điều kiện để tơi hồn thành luận văn Tơi xin gửi lời cảm ơn tới anh chị phịng Cơng tác sinh viên trường Đại Học Thủy Lợi cung cấp cho số liệu sinh viên trường giúp hiểu rõ số liệu Nhân dịp này, xin gửi lời cảm ơn tới gia đình, bạn bè - người ln động viên, cổ vũ tạo điều kiện để tơi hồn thành luận văn Luận văn đánh giá kết lao động trình học tập nghiên cứu tơi Tơi hi vọng thể phần tâm nguyện mong ước mà muốn thực Vì thế, tơi mong nhận ủng hộ giúp đỡ nhiều để thực hóa ý tưởng Luận văn kết nghiên cứu nhỏ tác giả nên chắn cịn nhiều thiếu sót cần chỉnh sửa Tác giả mong nhận góp ý từ thầy bạn đọc Mọi liên hệ gửi hịm thư huebt@wru.edu.vn MỤC LỤC LỜI NÓI ĐẦU NộI DUNG CHƢƠNG : PHÂN TÍCH SỐNG SĨT 1.1Giới thiệu chung 1.2Kiểm duyệt loại kiểm duyệt 1.3Hàm sống sót hàm nguy 1.3.1Hàm sống sót 1.3.2Hàm nguy 1.3.3Mơ hình tham số 1.3.4Mơ hình phi tham số 11 1.3.5So sánh mơ hình tham số phi tham số 12 1.4Kiểm định mơ hình 12 1.4.1Ƣớc lƣợng Kaplan-Meier hàm sống sót 12 1.4.2Kiểm định Log-rank 16 1.4.3Giới thiệu sơ mơ hình Cox 18 CHƢƠNG : MƠ HÌNH NGUY CƠ THEO Tỷ Lệ 21 2.1Giới thiệu mô hình nguy theo tỷ lệ 21 2.1.1Giới thiệu 21 2.1.2Tác giả mô hình Cox 21 2.1.3Mơ hình Cox 22 2.1.4Hàm sống sót Cox PHM 23 2.1.5Ƣớc lƣợng tham số Cox PHM 24 2.2Hàm hợp lý phần 24 2.2.1Hàm hợp lý phần cho lần thất bại 24 2.2.2Hàm hợp lý phần cho lần thất bại lặp lặp lại 25 2.3Ƣớc lƣợng tham số 27 2.4Kiểm định giả thuyết cho PHM 29 CHƢƠNG 3: THựC NGHIệM PHÂN TÍCH Dữ LIệU SINH VIÊN TRƢờNG ĐạI HọC THủY LợI HÀ NộI BằNG PHƢƠNG PHÁP PHÂN TÍCH SốNG SĨT 31 3.1Giới thiệu 31 3.2Mô tả số liệu 32 3.2.1Các biến số mơ hình 32 3.2.2Mã hóa số liệu 37 3.3Mơ hình phân tích sống sót R 40 3.3.1Giới thiệu R 40 3.3.2Ƣớc lƣợng Kaplan-Meier R 41 3.3.3Kiểm định Log-rank R 53 3.3.4Mô hình Cox R 55 KẾT LUẬN 63 TÀI LIỆU THAM KHẢO 66 LỜI NÓI ĐẦU Quản lý sinh viên một tốn quan trọng khơng thể thiếu trường học nước ta Mỗi trường đại học, cao đẳng hay học nghề có phận thống kê số liệu sinh viên em nộp hồ sơ vào trường đến em thức trở thành sinh viên trường suốt trình em học tập trường tới em nhận tốt nghiệp mình.Và ngày nay, nhờ vào việc tin học hóa giúp cho cơng việc trở nên dễ dàng, xác, có tính chun nghiệp mang tính bảo mật cao người sử dụng khác Tuy nhiên nhà trường quản lý sinh viên mặt nổi, ví dụ như: họ tên, nơi sinh, mã sinh viên, …những điều mang tính hồ sơ Cái sâu mà quan tâm dựa thơng tin ban đầu này, liệu ta sử dụng phương pháp phân tích thống kê phù hợp kết hợp với phần mềm tốn học để phân tích số liệu đưa kết như: hàng năm lượng sinh viên đâu vào trường nhiều nhất?, sau khóa học số sinh viên tốt nghiệp trường phần trăm so với lượng sinh viên ban đầu vào trường? Nguyên nhân ảnh hưởng tới số lượng sinh viên trường? Yếu tố định nhiều tới lượng sinh viên trường Đó vấn đề mà trường Đại học Thủy Lợi đặt mục tiêu muốn giải Để làm sáng tỏ điều đó, phạm vi luận văn này, thu thập số liệu sinh viên trường Đại học Thủy Lợi Hà Nội phòng Quản lý Công tác sinh viên cung cấp sử dụng “phương pháp phân tích kiện dùng đánh giá biến động trình học tập sinh viên trường Đại học Thủy Lợi Hà Nội” Luận văn trình bày bốn nội dung bản: Trình bày phân tích sống sót, hàm sống sót, hàm nguy mối liên hệ chúng Xây dựng mơ hình Cox Sử dụng phần mềm R vào mô hình tham số, phi tham số phân tích sống sót Phân tích số liệu sinh viên trường Đại học Thủy Lợi Hà Nội Để thể nội dung đó, luận văn chia thành ba chương: Chương (Phân tích sống sót): Trong chương này, tác giả đưa vấn đề phân tích sống sót, cách ước lượng cho mơ hình tham số, phi tham số phân tích sống sót Chương (Mơ hình Cox): Đối với chương này, tác giả trình bày mơ hình Cox, tìm hệ số mơ hình phương pháp hợp lý phần kiểm định lại mơ hình Chương (Thực nghiệm phân tích liệu sinh viên trường Đại học Thủy Lợi Hà Nội phương pháp phân tích sống sót): Chương này, tác giả ứng dụng mơ hình tham số, phi tham số phân tích sống sót dựa phần mềm thống kê R vào số liệu sinh viên Đại học Thủy Lợi để đưa kết luận văn NộI DUNG CHƢƠNG PHÂN TÍCH SốNG SĨT 1.1 Giới thiệu chung Trong nghiên cứu khoa học, đặc biệt y học kĩ thuật, nhà nghiên cứu muốn tìm hiểu ảnh hưởng đến biến phụ thuộc mang tính thời gian Ởđây việc theo dõi hay mô tả biến thứ bậc sống hay chết, hay đánh giá ảnh hưởng thuật điều trị hay yếu tố nguy quan trọng có ý nghĩa lâm sàn định quan trọng thời gian dẫn đến việc kiện xảy Và thời gian bệnh nhân khác Mơ hình để thể mối liên hệ thời gian dẫn đến kiện xảy yếu tố nguy mô hình có tên “survival analysis” dịch phân tích sống sót (PTSS) hay phân tích kiện hay phân tích biến cố Ví dụ so sánh hai phương pháp điều trị bệnh có tần số tử vong cao bệnh AIDS, bệnh ung thư Nếu mơ hình phân tích phân tích hồi qui logistic, để ý đến biến kết cục (sống/chết khỏi bệnh/không khỏi bệnh) mà không quan tâm đến yếu tố thời gian đơi khơng tìm thấy khác biệt hai phương pháp điều trị tỉ lệ tử vong gần nhau, thời gian dẫn đến tử vong hai nhóm khác Một ví dụ khác, so sánh hai loại kháng sinh điều trị bệnh thương hàn, tỉ lệ khỏi bệnh hai loại kháng sinh thời gian cắt sốt hai nhóm khác nhau, phải sử dụng mơ hình PTSS thấy khác biệt Như mơ hình nghiên cứu mơ tả kết cục biến nhị phân (sống/chết-hết sốt/cịn sốt) quan trọng khơng xác Một ưu điểm PTSS xử lý trường hợp đối tượng nghiên cứu bỏ chừng (như dấu theo dõi, ngưng điều trị tác dụng phụ thuốc tử vong bệnh lý khác ) Trong mơ hình phân tích đối tượng sống kể đối tượng bỏ gọi censored kiện chưa xảy Các đối tượng tử vong hết sốt (ví dụ nghiên cứu bệnh thương hàn) gọi events kiện kết thúc Và phân bố thời gian sống sót gọi thời gian thất bại hay thời gian kiện Phép ước tính thường dùng để PTSS gọi ước lượng KaplanMeier (1958) Phép ước tính giúp ta tính xác suất sống sót tích lũy mốc thời gian khác Nếu muốn so sánh khác biệt hai nhóm điều trị, dùng kiểm định Log-rank, cách so sánh hai hàm xác suất tích lũy hai nhóm Và người ta sử dụng kiểm định Log-rank phân tích đơn biến, cịn phân tích đa biến ta tiến hành mơ hình Cox (1972) để hiệu chỉnh yếu tố nhiễu hiệp biến Tóm lại, phân tích sống sót (Survival analysis) dựa vào khác biệt thời gian sống sót hai nhóm thời gian dẫn đến kiện xảy (chết, ung thư tái phát, hết sốt ) Phân tích xử lý đối tượng bỏ dấu theo dõi Dùng kiểm định Log rank phân tích đơn biến mơ hình Cox phân tích đa biến (hiệu chỉnh yếu tố nhiễu hiệp biến) 1.2 Kiểm duyệt loại kiểm duyệt Để hiểu phân tích sống sót, trước hết ta cần hiểu “kiểm duyệt” Kiểm duyệt xảy có quan sát khơng đầy đủ số nguyên nhân ngẫu nhiên Nguyên nhân việc dẫn đến kiểm duyệt phải độc lập với kiện quan tâm Có ba tình kiểm duyệt: kiểm duyệt phải, kiểm duyệt trái kiểm duyệt khoảng Trong kiểm duyệt phải loại phổ biến Kiểm duyệt phải xuất đối tượng chết mà biết họ sống thời điểm kết thúc nghiên cứu thời gian sống họ kéo dài thời gian nghiên cứu Thời gian gọi thời gian kiểm duyệt Thời gian kiểm duyệt cho ta thấy thời gian quan sát cất trước kiện quan tâm xảy Diều bị ảnh hưởng đối tượng nghiên cứu không hợp tác, từ chối để lại hoc tập, chết nguyên nhân khác độc lập với nguyên nhân quan tâm, liên lạc với họ đường quan sát Hầu hết phần luận văn áp dụng kiểm duyệt phải Kiểm duyệt trái xuất Điều xảy kiện quan tâm xảy vào thời điểm quan sát, người ta chưa biết xác Ví dụ kiểm duyệt trái bao gồm: - Nhiễm bệnh lây truyền qua đường tình dục HIV / AIDS; - Khởi đầu bệnh trước có triệu chứng ung thư, - Thời gian mà thiếu niên bắt đầu uống rượu, sau lãng quên Kiểm duyệt khoảng loại kiểm duyệt xuất thời gian xác kiện xảy khơng biết xác, khoảng thời gian ranh giới xảy kiện biết đến Nếu khoảng thời gian ngắn, người ta thường bỏ qua hình thức kiểm duyệt Ví dụ khoảng thời gian kiểm duyệt nhiễm bệnh lây truyền qua đường tình dục HIV / AIDS với kiểm tra thường xuyên (ví dụ hàng năm) Phần trích dẫn [1], [7] 1.3 Hàm sống sót hàm nguy Hầu hết phân tích thống kê, ta thường quan tâm tới hàm mật độ xác suất hàm phân phối tích lũy biến ngẫu nhiên Mặc dù chúng quan trọng, phân tích tồn ngồi hai hàm có hai hàm nhấn mạnh hàm sống sót hàm nguy 1.3.1 Hàm sống sót Định nghĩa Nếu 𝑇 thời điểm thất bại, hàm sống sót 𝑆(𝑡) = 𝑝(𝑇 > 𝑡) xác suất mà đối tượng sống sót đến thời điểm 𝑡 Nó định nghĩa miền 𝑡 ∈ [0, ∞), 𝑆(𝑡) ∈ [0,1] Tính chất 𝑆 = lim𝑡→∞ 𝑆 𝑡 = 𝑆(𝑡𝑎 ) ≥ 𝑆(𝑡𝑏 ) ⇔ 𝑡𝑎 ≤ 𝑡𝑏 𝑆 𝑡 = − 𝐹 𝑡 = ∞ 𝑡 𝑓(𝜏)𝑑𝜏 Trong 𝑓(𝑡) hàm mật độ xác suất, 𝐹(𝑡) hàm phân phối tích lũy Tuổi có xác suất sống thâp tuổi 21 (63,2%), tuổi 27 (66,7%) Riêng tuổi 21 vào trường có 57 sinh viên lượn sinh viên tốt nghiệp lại 37 em Các tuổi 24 có xác suất sống sót 90% Các tuổi cịn lại có xác suất sống 70%, cụ thể tuổi 17 (85,7%), tuổi 18 khoảng (80%), tuổi 19 (78,4%), tuổi 20 (73,4%), tuổi 22 (khoảng 72,5%), tuổi 23 (khoảng 74%), tuổi 26 (75%) Các tuổi có nhiều kiện xảy 18, 19, 20 Trong tuổi 18, 19 tháng 11 có 56 sinh viên bỏ cuộc; tháng 23, tuổi 18 có 42 sinh viên bỏ cuộc, tuổi 19 có 39 sinh viên bỏ 0.90 0.85 0.80 0.75 0.70 Xác suất tích luy S(t) 0.95 1.00 Uoc tinh Kaplan-meier cho TUOI 17, 18, 19, 20 10 20 30 40 Thời gian (tháng) Tuổi 17Tuổi 18 Tuổi 19 52 50 60 3.3.3 Kiểm định Log-rank R 3.3.3.1 Kiểm định Log-rank cho tuổi a Tuổi survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ TUOI, data = thai) N Observed Expected (O-E)^2/E TUOI=17 14 3.137 TUOI=18 686 132 149.652 TUOI=19 555 120 121.153 TUOI=20 177 47 37.015 0.4121 2.0822 0.0110 2.6933 TUOI=21 57 21 11.400 8.0835 TUOI=22 51 14 10.823 0.9324 TUOI=23 27 TUOI=24 15 3.407 TUOI=25 TUOI=26 0.821 0.0391 TUOI=27 0.586 0.2932 TUOI=28 0.470 0.4703 TUOI=29 0.705 0.7054 5.889 0.2095 1.7007 0.941 0.9405 Chisq= 20 on 12 degrees of freedom, p= 0.0664 Kết phân tích cho ta thấy p= 0.0664, điều chưa khẳng định cho ta thấy ý nghĩa thống kê b Cho tuổi 18 + 19 survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ TUOI, data = thai, subset = TUOI == c(18, 19)) N Observed Expected (O-E)^2/E TUOI=18 343 72 69.1 0.122 TUOI=19 267 52 54.9 0.154 Chisq= 0.3 on degrees of freedom, p= 0.586 53 Ta thấy kết phân tích Log-rank cho tuổi (18, 19) có p=0.586 > 0.05 nên ta chưa khẳng định chắn tuổi 18 có lượng sinh viên tốt nghiệp nhiều so với tuổi 19 3.3.3.2 Kiểm định Log-ranh cho giới tính survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ GIOITINH, data = thai) N Observed Expected (O-E)^2/E GIOITINH=0 305 17 69.5 GIOITINH=1 1293 329 276.5 39.68 9.98 Chisq= 53.5 on degrees of freedom, p= 2.59e-13 Nhìn vào trị số p = 2.59e-13, ta thấy phân tích Log-rank cho độ tuổi có ý nghĩa thống kê p < 0.05 Nhưng điều cho phép so sánh xác suất sống sót giới tính 2, chưa cho ta thấy mức độ ảnh hưởng nhóm tới hàm nguy 3.3.3.3 Kiểm định Log-rank cho khu vực survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ KHUVUC, data = thai) N Observed Expected (O-E)^2/E KHUVUC=0 0.705 0.7054 KHUVUC=1 279 52 61.165 1.3732 KHUVUC=2 293 64 62.999 0.0159 KHUVUC=3 104 27 22.270 1.0047 KHUVUC=4 919 203 198.861 0.0862 Chisq= 3.4 on degrees of freedom, p= 0.488 Theo kết R phân tích Log-rank cho khu vực, ta chưa thấy ý nghĩa thống kê 3.3.3.4 Kiểm định Log-rank cho đối tƣợng a Đối tượng (5, 10) survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ DOITUONG, data = thai, subset = DOITUONG == c(5, 10)) N Observed Expected (O-E)^2/E DOITUONG=5 1 DOITUONG=10 646 0.114 6.88707 136 136.886 0.00573 Chisq= 7.6 on degrees of freedom, p= 0.00584 54 Trị số p = 0.00584 > 0.05, điều cho ta thấy phân tích Log-rank cho đối tượng đối tượng 10 chưa có ý nghĩa thống kê b Đối tượng Khi so sánh đối tượng 10 ta thấy có ý nghĩa thống kê, xem xét tồn đối tượng nói chung ta lại thấy chúng khơng có ý nghĩa thống kê kết R cho ta: survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ DOITUONG, data = thai) N Observed Expected (O-E)^2/E DOITUONG=0 0.705 0.70539 DOITUONG=1 131 20 28.769 2.67299 DOITUONG=3 1.171 0.58639 DOITUONG=4 18 3.923 0.00152 DOITUONG=5 0.350 1.20359 DOITUONG=6 138 31 29.763 0.05143 DOITUONG=10 1300 288 281.318 0.15871 Chisq= 5.8 on degrees of freedom, p= 0.446 Trong phân tích kiểm định Log-rank R so sánh 𝑆(𝑡) hai hay nhiều nhóm biết trị số p, ta chưa thấy mức độ ảnh hưởng yếu tố nguy (như giới tính, tuổi, hay tỉnh, …)đến hàm nguy (𝑡) Để thấy điều ta sang phân tích qua mơ hình Cox 3.3.4 Mơ hình Cox R Muốn tìm hiểu ảnh hưởng cụ thể biến tới lượng sinh viên tốt nghiệp trường Đại học học Thủy Lợi sau khóa học, ta đưa số liệu vào Mơ hình Cox phân tích mơ hình R 3.3.4.1 Mơ hình Cox cho giới tính n= 1598, number of events= 346 coef exp(coef) se(coef) GIOITINH 1.6204 z Pr(>|z|) 5.0549 0.2488 6.514 7.32e-11 exp(coef) exp(-coef) lower 95 upper 95 GIOITINH 5.055 0.1978 3.104 55 8.231 Concordance= 0.581 (se = 0.012 ) Rsquare= 0.043 (max possible= 0.957 ) Likelihood ratio test= 70.59 on df, p=0 Wald test = 42.43 on df, p=7.32e-11 Score (logrank) test = 52.56 on df, p=4.171e-13 Likelihood ratio test=70.6 on df, p=0 n= 1598, number of events= 346 Kết R cho ta: Cột (coef): giá trị ước lượng tham số 𝛽𝑖 mơ hình Cox Cột (exp(coef)): tỷ số nguy tăng biến GIOITINH lên đơn vị Cột 3(se(coef)): sai số tiêu chuẩn giá trị tương ứng cột coef Cột (𝑧):chỉ giá trị 𝑧 cho việc kiểm định toán 𝑝 − giá trị Cột 5(𝑃𝑟(> |𝑧|)): xác suất có ý nghĩa toán kiểm định 𝑝 giá trị, tức 𝑝 = 𝑝 − giá trị = 𝑝 (|𝑧 | < 𝜒 (1) ) Nếu 𝑝 < 𝛼 = 0.05 𝐻0 bị bác bỏ ngược lại Theo kết cho biết biến GIOITINH qua năm có(𝑡) tăng lên 5.05 lần với khoảng tin cậy 95% dao động từ 3.1 đến 8.2 trị số 𝑝=7.32e-11 cho ta biết GIOITINH có ảnh hưởng đến lượng sinh viên tốt nghiệp Đồng thời nam có nguy bỏ cao so với nữ Biểu đồ mơ hình Cox cho giới tính 56 0.90 0.85 0.75 0.80 Xác suất tích luy S(t) 0.95 1.00 Mơ hình Cox cho GIOITINH 10 20 30 40 50 60 Thời gian (tháng) 3.3.4.2 Mơ hình Cox tổng hợp cho sáu biến coxph(formula = Surv(THOIGIAN, SUKIEN) ~ LOP + TUOI + GIOITINH + DOITUONG + KHUVUC + TINH, data = thai) Theo kết R phân tích sơ đồng thời sáu biến ta thấyđối với biến lớp có ngànhcơng trình Thủy Lợi lớp 48C3 (p=0.0069), ngành máy xây dựng - thiết bị Thủy Lợi 48M2 (p = 0.013), ngành thủy nông - cải tạo đất 48NH (p = 0.015), ngành thủy văn – môi trường lớp S9 – 48V (p = 0.0023); với biến tuổi (p = 0.0033); với biến giới tính (p = 2.7e-08); cịn biến tỉnh có tỉnh Đắc Lak (p = 0.04), tỉnh Kiên Giang (p = 0.047) thành phần ảnh hưởng tới lượng sinh viên tốt nghiệp trường Đại học Thủy Lợi sau năm năm học 57 Cụ thể, lớp 48C3, 48M2, 48NH, S9 -48V, ta thấy lượng sinh viên bỏ học nhiều, đặc biệt lớp M2, S9 - 48V có 𝑐𝑜𝑒𝑓 dương, điều cho thấy lượng sinh viên vào lớp có nguy bỏ học chừng cao Đối với biến tuổi giới tính hai biến có ảnh hưởng lớn đến việc sinh viên tốt nghiệp trường, ta chưa biết rõ tuổi giới tính ảnh hưởng đến lượng sinh trường Thủy Lợi nhiều Ta biết điều phân tích sâu Cịn với biến tỉnh, có 53 tỉnh thành xem xét có hai tỉnh thành Đắc Lak Kiên Giang có ảnh hưởng nhiều tới lượng sinh viên tốt nghiệp Để biết rõ ta phân tích cụ thể 3.3.4.3 Mơ hình Cox cho tuổi a Cho tuổi coef exp(coef) se(coef) z Pr(>|z|) TUOI 0.04976 1.05102 0.03318 1.5 0.134 exp(coef) exp(-coef) lower 95 upper 95 TUOI 1.051 0.9515 0.9848 1.122 Concordance= 0.54 (se = 0.016 ) Rsquare= 0.001 (max possible= 0.957 ) Likelihood ratio test= 2.1 on df, p=0.147 Wald test = 2.25 on df, p=0.1337 Score (logrank) test = 2.25 on df, p=0.1335 Kết cho ta thấy mức độ ảnh hưởng tuổi chưa có ý nghĩa thống kê p = 0.134 > 0.05 58 0.85 0.70 0.75 0.80 Xác suất 0.90 0.95 1.00 Mơ hình Cox cho tuổi 10 20 30 40 50 60 Thời gian (tháng) b Cho tuổi (18, 19, 20, 21, 22) R cho ta biết lượng sinh viên tuổi có𝑐𝑜𝑒𝑓 = 0.234 > 0, 𝑝 = 0.017, có ý nghĩa sống Hệ số 𝑐𝑜𝑒𝑓 > cho ta thấy sinh viện độ tuổi có tỷ lệ bỏ cao 3.3.4.4 Mơ hình Cox cho giới tính, đối tƣợng coxph(formula = Surv(THOIGIAN, SUKIEN) ~ GIOITINH * DOITUONG, data = thai) n= 1598, number of events= 346 coef exp(coef) se(coef) z Pr(>|z|) GIOITINH 1.91126 6.76163 0.91777 2.083 0.0373 * DOITUONG 0.05709 1.05876 0.09561 0.597 0.5504 GIOITINH:DOITUONG -0.03342 0.96713 0.09816 -0.341 0.7335 59 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ exp(coef) exp(-coef) lower 95 upper 95 GIOITINH 6.7616 0.1479 1.1190 40.856 DOITUONG 1.0588 0.9445 0.8778 1.277 GIOITINH:DOITUONG 0.9671 1.0340 0.7979 1.172 Concordance= 0.587 (se = 0.014 ) Rsquare= 0.044 (max possible= 0.957 ) Likelihood ratio test= 72.18 on df, p=1.443e-15 Wald test = 43.4 on df, p=2.022e-09 Score (logrank) test = 54.01 on df, p=1.115e-11 Nhìn vào kết R, ta thấy GIOITINH có ảnh hưởng nhiều đến tồn sinh viên sau năm học DOITUONG Cụ thể GIOITINH (p = 0.0373), biến DOITUONG khơng có ý nghĩa thống kê (p = 0.5504) 3.3.4.5 Mơ hình Cox cho khu vực, đối tƣợng coxph(formula = Surv(THOIGIAN, SUKIEN) ~ DOITUONG * KHUVUC, data = thai) n= 1598, number of events= 346 coef exp(coef) se(coef) z Pr(>|z|) DOITUONG 0.12317 1.13108 0.04371 2.818 0.00483 ** KHUVUC 0.42864 1.53516 0.14651 2.926 0.00344 ** DOITUONG:KHUVUC -0.04629 0.95476 0.01617 -2.864 0.00419 ** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ exp(coef) exp(-coef) lower 95 upper 95 DOITUONG 1.1311 0.8841 1.038 1.2322 KHUVUC 1.5352 0.6514 1.152 2.0458 DOITUONG:KHUVUC 0.9548 1.0474 0.925 Concordance= 0.536 (se = 0.016 ) Rsquare= 0.007 (max possible= 0.957 ) Likelihood ratio test= 10.51 on df, p=0.01471 Wald test = 9.41 on df, p=0.02431 Score (logrank) test = 9.62 on df, p=0.02213 60 0.9855 coxph(formula = Surv(THOIGIAN, SUKIEN) ~ DOITUONG + KHUVUC, data = thai) n= 1598, number of events= 346 coef exp(coef) se(coef) z Pr(>|z|) DOITUONG 0.02653 1.02689 0.02311 1.148 0.251 KHUVUC 0.02809 1.02849 0.04852 0.579 0.563 exp(coef) exp(-coef) lower 95 upper 95 DOITUONG KHUVUC 1.027 1.028 0.9738 0.9723 0.9814 0.9352 1.074 1.131 Concordance= 0.506 (se = 0.016 ) Rsquare= 0.002 (max possible= 0.957 ) Likelihood ratio test= 2.59 on df, p=0.2745 Wald test = 2.43 on df, p=0.2966 Score (logrank) test = 2.44 on df, p=0.2951 Theo kết phân tích R cho khu vực đối tượng, ta có mơ hình Cox: 𝑡 𝐷𝑂𝐼𝑇𝑈𝑂𝑁𝐺, 𝐾𝐻𝑈𝑉𝑈𝐶) = 0 (𝑡)𝑒 0.02653(𝐷𝑂𝐼𝑇𝑈𝑂𝑁𝐺 )+0.02809(KHUVUC ) Vậy ta kết hợp DOITUONG với KHUVUC thành biến hai biến có ảnh hưởng tới trường sinh viên Thủy Lợi Nhưng ta phân tích chúng hai biến độc lập hai anh khơng có ý nghĩa thống kê 3.3.4.6 Mơ hình Cox cho giới tính, đối tƣợng, khu vực Khi theo ba biến GIOITINH, DOITUONG, KHUVUC biến có ảnh hưởng đến tồn sinh viên sau năm học biến GIOITINH (p=9.17e-11) Bảng kết chcuar R chạy kết hợp hai biến: LOP, TUOI, KHUVUC, GIOITINH, TINH, DOITUONG LOP LOP C3(p = 0.00668), K C2(p = 0.0476), KHUVUC LOP GIOITINH (p = 0.0404) C3(p=0.0078) (p = 1.02e- (p = 0.00197 ), M2 C3(p = 0.0267), M1:KHUVUC M2(p=0.036), 08 ) (p = 0.03777), N1 Đ1(p =0.0353), (p = 0.0165), (p = 0.04367), N2 K (p = 0.0216), TH:KHUVUC ) (p = 0.01190), NH M1 (p = 0.017), (p=0.0114 ), 61 NH(p=0.02326 S9-48V (p = 0.01159), V (p N2(p =0.0432), = 0.03021), S9- S9- (p= 0.00449) TH(p =0.0143), C1:KHUVUC 48V (p = 0.02515) V (p = 0.0441), (p = 0.0404), S9 - 48C1 S9 – 48H (p = 0.0116), (p =0.0357 ) S9-48H (p = 0.0166) TINH DT TINH BINHDINH HP:DT DACLAK(p (p = 0.027), (p=0.011) =0.0023) KV TINH GT DACLAK (p=0.0029) DACLAK (p = 0.023), HAIPHONG (p = 0.027), PHUTHO (p = 0.023) TUOI DOITUONG TUOI KHUVUC p = 0.011 p = 0.023 p = 0.0073 p = 0.018 Tóm lại, phân tích số liệu qua mơ hình Cox R, ta thấy mức độ ảnh hưởng biến hay kết hợp biến có thay đổi hay ảnh hưởng định đến ý nghĩa thống kê Phần trích dẫn [1], [2], [8] 62 KẾT LUẬN Mục đích luận văn sử dụng phương pháp phân tích sống sót thơng qua sáu biến,đánh giá biến động trình học tập sinh viên trường Đại học Thủy Lợi Hà Nội Qua giúp trường thấy rõ lượng sinh viên khu vực nào, thuộc đối tượng nào, tỉnh thành nào, nam hay nữ tốt nghiệp trường nhiều Sinh viên có đặc điểm bỏ chừng nhiều Các kết luận văn: Biến GIOITINH, đặc thù ngành nên lượng sinh viên vào trường Thủy Lợi chủ yếu nam sinh viên, nữ sinh viên chiến khoảng 20% tổng số sinh viên Và lượng sinh viên trường nhiều sinh viên nữ, sinh viên nam có xác suất sống sót thấphơn khoảng 75% lượng sinh viên nam tốt nghiệp thời hạn Cịn phân tích biến giới tính biến khác đối tượng, khu vực, lớp, tuổi hay kết hợp sáu biến biến giới tính có ảnh hưởng mạnh Bên cạnh ta kết hợp biến tuổi với biến tỉnh tỉnh Đăc Lak tác động mạnh đến lượng sinh viên trường Biến TUOI, lượng sinh viên vào trường chủ yếu độ tuổi 18, 19 chiếm khoảng 40% Nhưng trường Đại học Thủy Lợi có nhiều hệ chức, liên thơng nên có lượng nhỏ sinh viên già độ tuổi 25, 26, 27, 28, 29 Mặt dù tuổi 21 có xác suất sống tương đối thấp (khoảng 60%) kết hợp phân tích biến tuổi với biến khác đối tượng, khu vực biến tuổi khơng có ảnh hưởng lớn đến lượng sinh viên trường sau năm năm học Biến LOP, sinh viên K48 có 24 lớp tổng số 19 chuyên ngành đặc thù Trong lượng sinh viên lớp C2, C3 (chun ngành cơng trình Thủy Lợi), lớp K, lớp M, lớp NH, lớp S9-48V, S9-48N lớp có lượng sinh viên bỏ học nhiều nhất, lớp có p < 0.05 phân tích riêng theo biến lớp kết hợp với tuổi, khu vực, đối tượng, giới tính hay kết hợp đồng thời chúng Biến DOITUONG, có bảy đối tượng, gồm đối tượng 0, 1, 3, 4, 5, 6, 10 Trong lượng sinh viên trường Đại học Thủy Lợi chủ yếu thuộc đối tượng 10 chiếm khoảng 80%, lượng sinh viên thuộc diện ưu tiên đối tượng 1, chiếm khoảng 8% Khi phân tích đối tượng theo Kaplan- Meier đối tượng có xác suất 63 sống thấp (khoảng 50%), kiểm định Log – rank cho đối tượng 10 đối tượng có ý nghĩa thống kê Cịn dùng mơ hình Cox, ta phân tích đối tượng với khu vực hai tác động mạnh tới lượng sinh viên tốt nghiệp Biến KHUVUC, sinh viên trường Đại học Thủy Lợi thuộc khu vực (tính khu vực 0), khu vực 2-NT (khu vực 4) khoảng 57,51% tổng số sinh viên; lại phân bố khu vực 1, 2; khu vực có lượng sinh viên Khu vực có xác suất thấp (tầm 70%) Và khu vực biến có ý nghĩa thống kê kết hợp khu vực tuổi, khu vực đối tượng Nhưng kết hợp khu vực với tỉnh khơng cịn có ý nghĩa đến thống kê Biến TINH,sinh viên trường Đại học Thủy Lợi Hà Nội có mặt 53 tỉnh thành nước ta, lượng sinh viên trường K48 tập chung nhiều Đồng Sông Hồng Trung du – miền núi phía bắc Trong sinh viên thuộc tỉnh Kiên Giang, Đăc Lak, Ninh Thuận, Bình Phước xác suất sống tương đối thấp Khi phân tích mơ hình Cox kết hợp biến tỉnh với biến khác tỉnh có ý nghĩa thống kê, tỉnh có ảnh hưởng lớn tỉnh Đăc Lak Tóm lại, biến GIOITINH (nam) biến TINH (tỉnh Đăc Lak), biến LOP (C3, NH, S9-48V) có định nhiều đến lượng sinh viên tốt nghiệp Và K48 nói riêng có tổng số sinh viên 1598 em với 346 kiện, chiến 21,65% lượng sinh viên vào trường ban đầu Đó số không nhỏ khiến quan tâm tìm cách hạn chế Luận văn đưa kết mà mục tiêu ban đầu luận văn đặt Mặt khác luận văn kết q trình tích lũy, học hỏi nội dung phân tích sống sót kết hợp với kiến thức xác suất, tác giả hi vọng luận văn góp phần nhỏ vào kiến thức phương pháp phân tích số liệu R giúp ích cho trường Thủy Lợi Hà Nội thống kê số sinh viên tốt nghiệp trường sau khóa học, biết yếu tố ảnh hưởng nhiều đến số lượng tốt nghiệp sinh viên Bên cạch đó, luận văn nghiên cứu sâu mở rộng tác giả có thêm số liệu điểm thi đầu vào sinh viên, điểm tốt nghiệp sinh viên môn; lý sinh viên bỏ chừng Khi tác giả 64 phân tích yếu tố ảnh hưởng tới điểm học tập sinh viên, sinh viên có đặc điểm trường với kết tốt, tìm hiểu sâu vào chuyên ngành mà sinh viên đạt điểm tốt, xấu Qua với trường khắc phục nhược điểm để cho lượng sinh viên trường nhiều đạt kết tốt Tác giả hi vọng làm tiếp nghiên cứu sâu phân tích sống sót sử dụng phần mềm R vàò nghiên cứu tiếp luận văn mở rộng Hi vọng giúp ích cho trường Đại học Thủy Lợi để trường ngày có nhiều học sinh giỏi giúp ích cho đất nước việc phòng lũ quét, xây đê, thủy điện…và hi vọng luận văn làm tài liệu tham khảo cho độc giả quan tâm tới lĩnh vực 65 TÀI LIỆU THAM KHẢO Nguyễn Văn Tuấn (2006), phân tích liệu tạo biểu đồ R, NXB Khoa học kỹ thuật Thành phố Hồ Chí Minh Paul Murrell (2005), R Graphics, NXB Chapman & Hall/CRC Yanagimoto, T and Kamakura, T (1984), The maximum full and partial likelihood estimators in the proportional hazard model, Annals of the Institute of Statistical Mathematics, 36, tr.363–373 Cox, D R (1972), Regression models and life tables (with discussion), Journal of Royal Statistical Society:B, 34, tr.187–220 Cox, D R (1975), Partial likelihood, Biometrika, 62, tr.269–276 Kaplan, E L and Meier, P (1958), Nonparametric estimation from incomplete observations, Journal of American Statistical Association, 53, tr.457–481 Oaks, D (2001),“Biometrika centenary: Survival analysis”, Biometrika, 88, tr.99– 142 Đào Hữu Hồ, Nguyễn Văn Hữu (chủ biên), Hoàng Hữu Như (2004), Thống kê Toán học, NXB ĐHQGHN 66 ... sinh viên trường Đại học Thủy Lợi Hà Nội phịng Quản lý Cơng tác sinh viên cung cấp sử dụng ? ?phương pháp phân tích kiện dùng đánh giá biến động trình học tập sinh viên trường Đại học Thủy Lợi Hà Nội? ??...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ******* BÙI THỊ HUỆ PHƢƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA SINH VIÊN TRƢỜNG ĐẠI HỌC THỦY... sống sót Phân tích số liệu sinh viên trường Đại học Thủy Lợi Hà Nội Để thể nội dung đó, luận văn chia thành ba chương: Chương (Phân tích sống sót): Trong chương này, tác giả đưa vấn đề phân tích