PHÂN TÍCH SỐNG SÓT
Giới thiệu chung
Trong nghiên cứu khoa học, đặc biệt trong y học và kỹ thuật, các nhà nghiên cứu tập trung vào việc phân tích ảnh hưởng của các biến phụ thuộc theo thời gian Việc theo dõi các biến như sống hay chết, cũng như đánh giá tác động của các phương pháp điều trị hay yếu tố nguy cơ, là rất quan trọng Tuy nhiên, điều quan trọng hơn là thời gian dẫn đến sự kiện xảy ra, và thời gian này có thể khác nhau giữa các bệnh nhân.
Mô hình chính để thể hiện mối liên hệ giữa thời gian dẫn đến sự kiện và các yếu tố nguy cơ là phân tích sống sót, hay còn gọi là PTSS, phân tích sự kiện hoặc phân tích biến cố.
Khi so sánh hiệu quả của hai phương pháp điều trị cho các bệnh có tần suất tử vong cao như AIDS và ung thư, việc chỉ sử dụng mô hình phân tích hồi quy logistic để xem xét biến kết cục (sống/chết hoặc khỏi bệnh/không khỏi bệnh) mà không chú ý đến yếu tố thời gian có thể dẫn đến kết quả không chính xác Mặc dù tỷ lệ tử vong có thể tương đương, thời gian dẫn đến tử vong giữa hai nhóm có thể khác nhau Tương tự, khi so sánh hai loại kháng sinh điều trị bệnh thương hàn, tỷ lệ khỏi bệnh có thể giống nhau, nhưng thời gian cắt sốt lại có thể khác biệt Do đó, việc áp dụng mô hình PTSS là cần thiết để phát hiện sự khác biệt này Vì vậy, mô hình nghiên cứu chỉ dựa vào kết cục nhị phân (sống/chết hoặc hết sốt/còn sốt) là không đủ để phản ánh chính xác hiệu quả điều trị.
Một trong những ưu điểm của phương pháp phân tích thời gian sống sót (PTSS) là khả năng xử lý các trường hợp đối tượng nghiên cứu bỏ cuộc giữa chừng, như mất dấu theo dõi, ngưng điều trị do tác dụng phụ hoặc tử vong do bệnh lý khác Trong mô hình này, những đối tượng còn sống, bao gồm cả những người bỏ cuộc, được gọi là censored, trong khi những đối tượng tử vong hoặc đã hết sốt trong nghiên cứu bệnh thương hàn được xem là events Thời gian sống sót được phân bố và gọi là thời gian thất bại hay thời gian sự kiện.
Phép ước lượng Kaplan-Meier, được phát triển vào năm 1958, thường được sử dụng để tính toán xác suất sống sót tích lũy tại các mốc thời gian khác nhau trong nghiên cứu PTSS Để so sánh sự khác biệt giữa hai nhóm điều trị, kiểm định Log-rank được áp dụng nhằm so sánh hai hàm xác suất tích lũy Kiểm định Log-rank thường được sử dụng trong phân tích đơn biến, trong khi phân tích đa biến được thực hiện bằng mô hình Cox (1972) để điều chỉnh các yếu tố nhiễu và hiệp biến.
Phân tích sống sót (Survival analysis) tập trung vào việc so sánh thời gian sống sót giữa hai nhóm hoặc thời gian xảy ra sự kiện như tử vong, tái phát ung thư, hoặc hết sốt Phương pháp này có khả năng xử lý các trường hợp đối tượng bỏ cuộc hoặc mất dấu trong quá trình theo dõi Trong phân tích đơn biến, kiểm định Log rank được áp dụng, trong khi mô hình Cox được sử dụng trong phân tích đa biến để điều chỉnh các yếu tố nhiễu và các hiệp biến.
Kiểm duyệt và các loại kiểm duyệt
Để nắm bắt khái niệm phân tích sống sót, trước tiên cần hiểu về "kiểm duyệt", hiện tượng xảy ra khi có sự thiếu hụt trong quan sát do các nguyên nhân ngẫu nhiên.
Nguyên nhân của việc dẫn đến kiểm duyệt phải độc lập với sự kiện quan tâm
Có ba tình huống kiểm duyệt: là kiểm duyệt phải, kiểm duyệt trái và kiểm duyệt trong khoảng Trong đó kiểm duyệt phải là loại phổ biến nhất
Kiểm duyệt là khái niệm quan trọng trong nghiên cứu khi chúng ta không biết chính xác thời điểm một đối tượng sẽ qua đời, mà chỉ biết họ còn sống tại thời điểm kết thúc nghiên cứu Thời gian sống của họ có thể kéo dài hơn thời gian nghiên cứu, được gọi là thời gian kiểm duyệt Điều này cho thấy rằng thời gian quan sát đã kết thúc trước khi sự kiện quan tâm xảy ra Các yếu tố như sự không hợp tác của đối tượng, từ chối tham gia, chết vì nguyên nhân không liên quan, hoặc mất liên lạc trong quá trình quan sát có thể ảnh hưởng đến thời gian kiểm duyệt.
Hầu hết các phần trong luận văn áp dụng kiểm duyệt phải
Kiểm duyệt trái ít xảy ra hơn, thường xuất hiện khi các sự kiện quan trọng đã diễn ra nhưng thời điểm cụ thể chưa được xác định Ví dụ về kiểm duyệt trái bao gồm những tình huống mà thông tin không đầy đủ về thời gian xảy ra sự kiện.
- Nhiễm một căn bệnh lây truyền qua đường tình dục như HIV / AIDS;
- Khởi đầu của một căn bệnh trước khi có triệu chứng như ung thư, và
- Thời gian mà thanh thiếu niên bắt đầu uống rượu, sau đó lãng quên
Kiểm duyệt trong khoảng là hình thức kiểm duyệt khi thời gian chính xác của sự kiện không xác định, nhưng khoảng thời gian xảy ra sự kiện thì được biết Nếu khoảng thời gian này ngắn, kiểm duyệt thường bị bỏ qua Ví dụ điển hình là việc nhiễm bệnh lây truyền qua đường tình dục như HIV/AIDS, trong đó việc kiểm tra định kỳ hàng năm giúp xác định khoảng thời gian kiểm duyệt.
Phần này được trích dẫn trong [1], [7].
Hàm sống sót và hàm nguy cơ
Trong phân tích thống kê, hàm mật độ xác suất và hàm phân phối tích lũy của biến ngẫu nhiên thường được chú trọng Tuy nhiên, bên cạnh hai hàm này, hàm sống sót và hàm nguy cơ cũng đóng vai trò quan trọng và cần được nhấn mạnh trong các nghiên cứu phân tích.
Nếu 𝑇 là thời điểm thất bại, thì hàm sống sót 𝑆(𝑡) = 𝑝(𝑇 > 𝑡) là xác suất mà đối tượng còn sống sót đến thời điểm 𝑡 Nó được định nghĩa trên miền 𝑡 ∈ [0, ∞), và 𝑆(𝑡) ∈ [0,1]
Trong đó 𝑓(𝑡) là hàm mật độ xác suất, 𝐹(𝑡) là hàm phân phối tích lũy
Ước lượng hàm sống sót
Chúng ta có thể ước lượng hàm sống sót qua dữ liệu quan sát Và có hai phương pháp chính có thể thực hiện điều đó
Nếu bạn sở hữu một mô hình tham số hoàn chỉnh cho 𝑇 với các tham số 𝜃, bạn có thể ước lượng 𝑆 (𝑡) dựa trên ước lượng 𝜃 Các tham số này có thể được xác định thông qua các phương pháp tiêu chuẩn, như ước lượng hợp lý cực đại.
Nếu không thể giải thích một mô hình tham số, có thể áp dụng phương pháp phi tham số, chẳng hạn như ước lượng Kaplan-Meier để ước lượng hàm sống sót 𝑆(𝑡).
Nếu 𝑇~𝑊𝑒 𝑘, 𝜆 (phân phối Weibull) với 𝑓 𝑡 = 𝜆𝑘𝑡 𝑘−1 exp −𝜆𝑡 𝑘 khi đó
Hàm nguy cơ (𝑡) là xác suất mà đối tượng xảy ra sự kiện ngay tại thời điểm 𝑡
Lưu ý rằng nếu 𝑡 = = 𝑐𝑜𝑛𝑠𝑡, ∀ 𝑡 ≥ 0 thì 𝑆 𝑡 = exp{−𝑡}
Nếu 𝑋 ~ exp(𝜆)thì 𝑝 𝑋 ≤ 𝑥 = 1 − exp −𝜆𝑥 → 𝑆 𝑡 = exp −𝜆𝑡 → 𝑡 𝜆
Trong tính chất hai, 𝑡 𝑑𝑡 = 𝐻 < ∞ → 𝑆 ∞ = 𝑒 0 ∞ −𝐻 > 0, do (𝑡) không là xác suất nên (𝑡) > 1
Hình ảnh của hàm nguy cơ
(𝑡) là hàm tăng và giảm t t t
Các hàm thường gặp trong phân phối sống sót
Exponential Gompertz Weibull log-logistic
𝑓(𝑡) 𝜆 exp(−𝜆𝑡) 𝜆𝜅 𝑡 exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅 𝜆𝜅𝑡 𝜅−1 exp(−𝜆𝑡 𝜅 ) 𝜆𝜅𝑡 𝑘−1 /(1 + 𝜆𝑡 𝜅 ) 2 𝐹(𝑡) 1 − exp(−𝜆𝑡) 1 − exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅 1 − exp(−𝜆𝑡 𝜅 ) 1 − 1/1 + 𝜆𝑡 𝜅 𝑆(𝑡) exp(−𝜆𝑡) exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅 exp(−𝜆𝑡 𝜅 ) 1/1 + 𝜆𝑡 𝜅
Các mô hình phân phối quan trọng và phổ biến trong phân tích sống sót bao gồm phân phối mũ, phân phối Weibull, phân phối log-normal, phân phối log-logistic và phân phối gamma.
Chúng ta sẽ phân tích hai mô hình phân phối là phân phối mũ và phân phối Weibull Phân phối mũ nổi bật với tính đơn giản và dễ dàng trong việc xử lý, đặc biệt với hàm mật độ của nó.
𝑓 𝑡, 𝜆 = 𝜆𝑒 −𝜆𝑡 (𝜆, 𝑡 > 0) Còn phân phối Weibull là một sự tổng quát của phân phối mũ và cho phép bao gồm nhiều loại hình dạng, với hàm mật độ:
Tham số 𝜆 là tỷ lệ thất bại trong độ tin cậy, với γ là ngưỡng tham số thì hàm mật độ Weibull có dạng:
Khi 𝑚 = 1 theo công thức (1), hàm mật độ xác suất Weibull trở thành hàm mật độ của phân phối mũ với 𝜆 = 1/𝜂, cho thấy rằng không có lần thất bại nào được quan sát trước thời gian ngưỡng (𝑡 < 𝛾) Phân phối Weibull hoàn toàn bao gồm các phân phối mũ, vì vậy chúng ta sẽ tập trung vào mô hình Weibull Mô hình này được ứng dụng rộng rãi trong lĩnh vực độ tin cậy và kỹ thuật y sinh nhờ vào khả năng phù hợp với dữ liệu và dễ dàng trong xử lý.
Phân phối Weibull, với tham số hình dạng 𝑚, mô tả mối quan hệ giữa tỷ lệ thất bại và thời gian 𝑡, cho thấy rằng tỷ lệ thất bại tỷ lệ thuận với thời gian.
Khi 𝑚 > 1, tỷ lệ thất bại sẽ gia tăng theo thời gian, cho thấy có sự xuất hiện của quá trình lão hóa và khả năng cao hơn về việc xảy ra thất bại trong khoảng thời gian đó.
- Nếu 𝑚 = 1: tỷ lệ thất bại không đổi theo thời gian Điều đó cho thấy sự kiện bên ngoài ngẫu nhiên đang gây ra tỷ lệ tử vong
- Nếu 𝑚 < 1: tỷ lệ thất bại giảm theo thời gian
Và về hình dáng thì hàm mật độ Weibull thay đổi đáng kể với giá trị của𝑚
0 < 𝑚 < 1: hàm mật độ giảm nghiêm ngặt, tiến ra vô cùng
𝑚 = 1: hàm mặt độ tiến về 0
Khi 𝑚 > 1, hàm mật độ tiến đến 1/λ Ước lượng hợp lý cực đại (MLE) là một phương pháp nổi tiếng nhưng không có biểu thức rõ ràng trong dạng đóng, dẫn đến việc phải thực hiện nhiều tính toán lặp lại Menon (1963) đã cung cấp một ước lượng đơn giản cho 1/𝑚, được coi là một ước tính phù hợp với độ thiên lệch giảm dần khi kích thước mẫu tăng lên Tiếp theo, Cohen (1965; Cohen và Whitten, 1988) đã trình bày một biểu đồ thực tế hữu ích để có được một xấp xỉ tốt cho các tham số hình dạng, trong đó các hệ số biến đổi của phân bố Weibull là hàm của các tham số hình dạng 𝑚, không phụ thuộc vào 𝜂.
Vậy chứng tỏ hàm mật độ cho 𝑡 là tích của hàm nguy cơ và hàm sống sót, như:
𝑑𝑡𝑆 𝑡 = 𝑡 𝑆(𝑡) Cho các quan sát không bị kiểm duyệt, phân phối hợp lý của đối tượng 𝑖 là
Trong mô hình xác suất, hàm \( f(t_i) = h(t_i)S(t_i) \) thể hiện xác suất không có sự kiện xảy ra cho đến thời điểm \( t_i \) (được ký hiệu là \( S(t_i) \)) và số thất bại tức thời tại thời điểm đó (ký hiệu là \( h(t_i) \)) Tổng hàm hợp lý cho các tham số \( \theta \) của mô hình thời gian \( T \) được tính là \( f_t(\theta) = \prod_{i=1}^{n} f(t_i) \) Hàm này có thể được tối đa hóa thông qua các phương pháp tính toán hoặc ước lượng để tìm giá trị ước lượng cực đại (MLE) của \( \theta \), hoặc có thể được gán vào một phân phối quen thuộc.
Cho 𝑡 = 𝑎𝑒 𝑏𝑡 (𝑎 > 0, 𝑏 > 0) và không kiểm duyệt log 𝑓 𝑡 𝑎, 𝑏 = log 𝑓 𝑡 𝑖
1.3.4 Mô hình phi tham số
Trong phân tích tồn tại, chúng ta giả định rằng các thiết lập dữ liệu quan sát bao gồm thời gian chết 𝑡 𝑖 và chỉ số kiểm duyệt 𝛿 𝑖, với δ chỉ ra trường hợp đối tượng đã chết mà không có kiểm duyệt Chương trình kiểm duyệt là khái niệm quan trọng, cho phép chúng ta quan sát một phần thông tin liên quan đến biến ngẫu nhiên tồn tại, do các hạn chế như mất theo dõi, chết, hoặc chấm dứt nghiên cứu Phương pháp Kaplan-Meier (Kaplan và Meier, 1958) là tiêu chuẩn để ước tính hàm sống sót phi tham số Trong trường hợp không có quan sát kiểm duyệt, ước tính chính xác được rút ra từ phân bố thực nghiệm Các bộ dữ liệu thường được sắp xếp theo dạng bảng.
Bảng 1: Dữ liệu thời gian thất bại
Số đối tượng thất bại 𝑑 1 𝑑 2 … 𝑑 𝑖 …𝑑 𝑘
Số đối tượng có nguy cơ được ký hiệu là 𝑛 1, 𝑛 2, …, 𝑛 𝑖, …, 𝑛 𝑘, trong đó 𝑡 1 ≤ 𝑡 2 ≤ ⋯ ≤ 𝑡 𝑁 Tại mỗi thời điểm 𝑡 𝑖, số lượng "nguy cơ" hay số đối tượng nghiên cứu là 𝑛 𝑖, và số ca tử vong tại thời điểm 𝑡 𝑖 là 𝑑 𝑖 Dựa vào ký hiệu này, ước lượng Kaplan-Meier được xác định.
Hay ta nói ước tính Kaplan-Meier của 𝑆(𝑡) là 𝑆 𝑡 = 𝑆 𝑡 − 𝑝 (𝑇 > 𝑡|𝑇 ≥ 𝑡) Khi không có sự kiện xảy ra thì 𝑝 𝑇 > 𝑡 𝑇 ≥ 𝑡 = 1
Khi có một hay nhiều sự kiện xảy ra thì
1.3.5 So sánh mô hình tham số và phi tham số
Việc giả định một hình thức tham số cho hàm nguy cơ, hàm sống sót hay hàm mật độ (𝑡) và 𝑆(𝑡) giúp ước tính trơn tru các hàm này, đồng thời cung cấp sức mạnh từ các thực nghiệm và kiểm tra sự khác biệt về thông số Tuy nhiên, nhược điểm là dễ dẫn đến sự quá tự tin vào mô hình, gây ra kết luận không chính xác do bóp méo tín hiệu qua các khoảng thời gian khác nhau Để khắc phục nhược điểm này, phương pháp phi tham số trở nên phổ biến trong phân tích tồn tại, trong khi phương pháp bán tham số thực hiện một số giả định kiểm chứng và cho phép mô hình hóa tác động của các biến số.
Phần này được trích dẫn trong [7].
Kiểm định của các mô hình
1.4.1 Ƣớc lƣợng Kaplan-Meier của hàm sống sót
1.4.1.1 Giới thiệu Ước lượng Kaplan-Meier của hàm sống còn là một phương pháp thực nghiệm hay phương pháp phi tham số của ước lượng 𝑆 (𝑡) từ không hay kiểm duyệt phải dữ liệu Nó rất phổ biến vì nó đòi hỏi những giả định rất yếu và chưa sử dụng nội dung thông tin của dữ liệu quan sát đầy đủ và dữ liệu kiểm duyệt phải Nó đến như tiêu chuẩn trong hầu hết các phần mềm thống kê (như R) và cũng có thể tính bằng tay
1.4.1.2 Tác giả Kaplan và Meier
Cả hai sinh viên nổi tiếng John Tukey, Paul Meier và Edward Kaplan, đã có những đóng góp quan trọng trong nghiên cứu thống kê Năm 1952, Paul Meier bắt đầu nghiên cứu thời gian mắc bệnh ung thư tại Đại học Johns Hopkins, trong khi Edward Kaplan làm việc về ống chân không trong các loại cáp điện thoại tiểu đại dương tại phòng thí nghiệm Bell Họ đã độc lập gửi nghiên cứu về thời gian tồn tại đến tạp chí của Hiệp hội thống kê Mỹ, và được khuyến khích gửi một bài chung, dẫn đến việc xuất bản bài báo nổi tiếng vào năm 1958 với tựa đề "Ước lượng phi tham số từ quan sát không đầy đủ" Bài viết này hiện có hơn 20.000 trích dẫn trên Google Scholar, chứng tỏ tầm ảnh hưởng của nó trong lĩnh vực thống kê.
S(t) là xác suất sống sót của một đối tượng trong nhóm đến thời điểm t Kích thước mẫu N đại diện cho số lượng thành viên trong nhóm được xem xét Thời điểm xảy ra sự kiện liên quan đến N thành viên trong nhóm là yếu tố quan trọng trong phân tích.
𝑡 1 ≤ 𝑡 2 ≤ ⋯ ≤ 𝑡 𝑁 ứng với mỗi 𝑡 𝑖 , có 𝑛 𝑖 là số “nguy hiểm” hay số đối tượng nghiên cứu ngay trước thời gian 𝑡 𝑖 và 𝑑 𝑖 là số ca tử vong ngay tại thời điểm 𝑡 𝑖
Một tập dữ liệu nhỏ có thể bắt đầu với 10 trường hợp, trong đó có 1 trường hợp tử vong vào ngày thứ 3, hai trường hợp tử vong vào ngày 11 và một trường hợp bị mất theo dõi (kiểm duyệt) vào ngày 9 Dữ liệu sẽ được cập nhật sau 11 ngày theo các thông tin này.
2 11 2 8 Ước lượng Kaplan-Meier là ước lượng phi tham số cực đại của 𝑆(𝑡)
Số phụ nữ lúc bắt đầu thời điểm (𝑛 𝑡 )
Số phụ nữ ngưng sử dụng (𝑑 𝑡 )
Xác suất ngưng sử dụng (𝑡)
Xác suất còn sử dụng (𝑝 𝑡 )
Cột 1 là khoảng thời gian tính bằng tuần,
Cột 2 là số phụ nữ trong nghiên cứu bắt đầu một khoảng thời gian Như trong ví dụ, khoảng thời gian 0 – 9, tại thời điểm bắt đầu 0 có 18 phụ nữ, hay khoảng thời gian 19 – 29, ngay tại thời điểm bắt đầu 19, ta có 15 phụ nữ…
Cột 3 là số phụ nữ ngưng sử dụng y cụ (hay biến cố xảy ra) trong một khoảng thời gian Chẳng hạn trong khoảng thời gian 10 – 18 có 1 phụ nữ ngưng sử dụng (tại tuần10)…
Cột 4 là xác suất nguy cơ trong một khoảng thời gian, 𝑡 được ước tính bằng cách lấy 𝑑 𝑡 chia cho 𝑛 𝑡 Ví dụ trong khoảng thời gian 10 – 18 có 1 phụ nữ ngưng sử dụng nên xác suất nguy cơ là 1/18=0.0555 Xác suất này được ước tính cho từng khoảng thời gian
Cột 5 là xác suất còn sử dụng cho một khoảng thời gian 𝑝 𝑡 = 1 − (𝑡)
Cột 6 là xác suất tích lũy còn sử dụng y cụ Đây là cột số liệu quan trọng nhất trong phân tích Vì tính chất tích lũy cho nên cách ước tính được nhân từ hai hay nhiều xác suất Ví dụ trong khoảng thời gian 10 – 18, xác suất tích lũy được ước tính bằng cách lấy xác suất còn sử dụng trong thời gian 0 – 9 nhân với xác suất còn sử sụng trong khoảng thời gian 10 – 18, tức là 1.000 x 0.9445=0.9445 Ý nghĩa của ước tính này là xác suất còn sử dụng cho đến thời gian 9 tuần là 94.45%
Dựa vào R, ta có biểu đồ đường cong sống sót sau:
Biểu đồ này thể hiện mối quan hệ giữa thời gian (tính bằng tuần) và xác suất tích lũy sử dụng y cụ Trục hoành biểu diễn thời gian, trong khi trục tung thể hiện xác suất tích lũy 𝑆 (𝑡) Đường chính giữa biểu diễn xác suất tích lũy, và hai đường nét đứt thể hiện khoảng tin cậy 95% của 𝑆 (𝑡) Kết quả phân tích cho thấy xác suất sử dụng y cụ đạt khoảng 25% vào tuần thứ 107.
1.4.1.4 Hạn chế của Kaplan-Meier
0 0 0 2 0 4 0 6 0 8 1 0 thời gian (tuần) xá c su ấ t số n g só t
Phân tích Kaplan-Meier chủ yếu được sử dụng để ước lượng hàm sống sót 𝑆(𝑡) cho một nhóm đối tượng cụ thể Tuy nhiên, trong nhiều nghiên cứu thực tế, mục tiêu thường là so sánh hàm sống sót 𝑆(𝑡) giữa hai hoặc nhiều nhóm khác nhau.
Phương pháp ước lượng 𝑆(𝑡) cho từng nhóm theo từng khoảng thời gian có thể so sánh hai nhóm bằng kiểm định thống kê, nhưng nó không cung cấp cái nhìn tổng quát cho tất cả các khoảng thời gian Hơn nữa, việc so sánh giữa hai nhóm qua nhiều khoảng thời gian khác nhau làm cho kết quả trở nên khó diễn giải Để khắc phục những nhược điểm của phương pháp Kaplan-Meier, kiểm định Log-rank đã được phát triển như một giải pháp phân tích hiệu quả.
Kiểm định Log-rank là một phương pháp phân tích phi tham số dùng để so sánh sự phân phối sống sót của hai mẫu, thường được áp dụng trong các thử nghiệm lâm sàng nhằm chứng minh hiệu quả của phương pháp điều trị mới Nó đo thời gian đến khi xảy ra sự kiện, như thời gian điều trị cho một cơn đau tim Kiểm định này, còn được gọi là kiểm định Mantel-Cox, được đặt theo tên của Nathan Mantel và David Cox Ngoài ra, kiểm định Log-rank cũng có thể được coi là một thời gian phân tầng kiểm định Cochran-Mantel-Haenszel Phương pháp này lần đầu tiên được đề xuất bởi Nathan Mantel và được Richard cùng Julian Peto đặt tên là kiểm định Log-rank.
Kiểm định thống kê Log-rank được sử dụng để so sánh ước tính hàm nguy cơ giữa hai nhóm tại mỗi thời điểm sự kiện quan sát Phương pháp này tính toán số lượng sự kiện quan sát và dự đoán trong từng nhóm tại mỗi thời điểm, sau đó tổng hợp để tạo ra một cái nhìn tổng quát về tất cả các thời điểm có sự kiện xảy ra.
Phần này được trích dẫn trong [6]
Thời gian được chia thành các khoảng 𝑡 1 , 𝑡 2 , … , 𝑡 𝑘, trong đó mỗi khoảng 𝑡 𝑗 (𝑗 = 1, … , 𝑘) thể hiện thời điểm j khi một hoặc nhiều đối tượng của hai nhóm được cộng lại Số lượng đối tượng nguy cơ tại thời điểm bắt đầu khoảng thời gian 𝑡 𝑗 được ký hiệu là 𝑛 1𝑗 và 𝑛 2𝑗, trong đó 𝑛 𝑗 = 𝑛 1𝑗 + 𝑛 2𝑗 là tổng số đối tượng của hai nhóm tại thời điểm đó.
Gọi 𝑜 𝑖𝑗 (𝑖 = 1, 2) là số quan sát các sự kiện của nhóm i xảy ra trong khoảng thời gian 𝑡 𝑗, và 𝑜 𝑗 = 𝑜 1𝑗 + 𝑜 2𝑗 là tổng số sự kiện xảy ra trên cả hai nhóm sau thời gian 𝑡 𝑗 Giả thiết rằng hai nhóm có sự tồn tại như nhau và cùng mức độ nguy cơ Với 𝑗 = 1, 2, … , 𝑘, chúng ta có thể tiến hành ước tính các giá trị liên quan.
𝑛 𝑗 Trong đó 𝑒 1𝑗 , 𝑒 1𝑗 là xác suất trung bình
Ngoài ra chúng ta có thể ước tính tổng số sự kiện xảy ra của nhóm một và hai
Tổng số sự kiện dự kiến xảy ra của từng nhóm là:
Khi đó kiểm định Log-rank được định nghĩa như sau:
𝐸 2 Nếu 𝜒 2 > 𝜒 1 2 (𝛼) (trong đó 𝜒 1 2 (𝛼) là trị số khi bình phương với mức ý nghĩa thống kê 𝛼 = 0,05), từ đó chúng ta có thể kết luận độ khác biệt về 𝑆(𝑡) giữa hai nhóm
1.4.2.3 Hạn chế của kiểm định Log-rank
MÔ HÌNH NGUY CƠ THEO Tỷ Lệ
Giới thiệu về mô hình nguy cơ theo tỷ lệ
Trong chương trước, chúng ta đã tìm hiểu về phân tích sống sót cùng với các mô hình tham số và phi tham số Mô hình phi tham số sử dụng ước lượng Kaplan – Meier, trong khi mô hình tham số áp dụng kiểm định Log – rank Ngoài ra, còn có mô hình bán tham số, được biết đến là "mô hình Cox", kết hợp cả hai loại mô hình trên.
“the Cox proportional hazards model”, ta dịch là mô hình Cox (hay mô hình nguy cơ theo tỷ lệ (Cox PHM hay Coxph)
Mô hình này sẽ giúp chúng ta sẽ đi tìm hiểu hai vấn đề:
• Kết hợp các biến số liên tục vào phân tích sự tồn tại của đối tượng
• Phân tích tác động của các biến đến sự tồn tại
2.1.2 Tác giả mô hình Cox
David Roxbee Cox, nhà thống kê người Anh sinh ngày 15 tháng 7 năm 1924, đã có những đóng góp quan trọng trong lĩnh vực thống kê và xác suất ứng dụng Ông nghiên cứu toán học tại trường Cao đẳng St John, Cambridge, và nhận bằng tiến sĩ từ Đại học Leeds vào năm 1949, sau đó trở thành Giáo sư thống kê tại Brikbeck College, London Cox nổi tiếng với mô hình tỷ lệ nguy cơ, được sử dụng rộng rãi trong phân tích dữ liệu tồn tại, và ông đã xuất bản hơn 300 bài báo và sách về nhiều chủ đề khác nhau Ông cũng đã tư vấn cho chính phủ và được phong tước hiệp sĩ vì những đóng góp của mình cho khoa học, cùng với nhiều học bổng và giải thưởng danh giá.
Vào giữa thập niên 1970, David R Cox, giáo sư thống kê tại Đại học Imperial College London, đã phát triển một phương pháp phân tích dựa trên mô hình hồi quy và bảng sống, phương pháp này sau này được biết đến với tên gọi là phân tích Cox.
Mô hình Cox, được coi là một trong những tiến bộ quan trọng nhất trong khoa học thế kỷ 20, đã giới thiệu tỷ lệ nguy cơ và suy luận liên quan, cùng với các mô hình hồi quy và bảng sống Bài viết của ông, xuất bản năm 1972 trên tạp chí JRStat.Soc.B, đã nhận được hơn 12.000 trích dẫn theo Google Học giả.
Với 𝑋 là biến nguy cơ (hay biến giải thích),có thể liên tục hay không liên tục
Mô hình Cox phát biểu rằng :
Hàm nguy cơ tại thời điểm 𝑡 được ký hiệu là 𝑡, trong khi hàm nguy cơ cơ bản tại thời điểm 𝑡 là 0 (𝑡), và 𝛽 là hệ số nguy cơ liên quan đến biến 𝑋 Mô hình Cox Proportional Hazards Model (Cox PHM) cho phép phân tích ảnh hưởng của các biến mà không cần xác định hình dạng của 0 (𝑡) Điều này giúp đơn giản hóa quá trình ước lượng 𝛽 Mô hình này được gọi là bán tham số, và khi xem xét hai đối tượng với các biến số 𝑋 1 và 𝑋 2, tỷ lệ nguy cơ của họ tại thời điểm 𝑡 có thể được tính toán.
Hàm nguy cơ 0 𝑡 được xác định bởi công thức exp(𝛽 𝑇 𝑋 2 ) và exp(𝛽 𝑇 𝑋 1 ) cho thấy rằng 𝑡, 𝑋 1 tỷ lệ thuận với 𝑡, 𝑋 2, đồng thời tỷ lệ các hàm nguy cơ không phụ thuộc vào thời gian Nguy cơ của đối tượng với biến 𝑋 1 là exp 𝛽(𝑥 1 − 𝑥 2 ) lần nguy cơ của đối tượng với biến 𝑋 2, trong đó exp 𝛽(𝑥 1 − 𝑥 2 ) được gọi là tỷ lệ nguy cơ giữa hai biến này.
Nếu 𝛽 = 0, tỷ lệ nguy cơ giữa các biến là 1, cho thấy rằng các biến không ảnh hưởng đến sự sống còn Vì vậy, chúng ta có thể áp dụng khái niệm tỷ lệ nguy cơ để kiểm tra xem các biến số có ảnh hưởng đến sự sống còn hay không.
Tuy nhiên lưu ý rằng đây là một mô hình đó có thể là sai Có thể có một tương tác giữa biến số và thời gian
Ta đi xem xét hàm nguy cơ theo tỷ lệ trong các trường hợp sau :
• Hai biến số liên tục; a Một biến đơn liên tục
Cho biến 𝑥 ∈ ℝ, tham số 𝛽 ∈ ℝ ta có hàm nguy cơ
Và hàm nguy cơ theo tỷ lệ cho hai đối tượng với hai biến 𝑥 1 , 𝑥 2 là exp 𝛽(𝑥 1 −
𝑥 2 ) Nếu 𝑥 1 = 𝑥 + 1, 𝑥 2 = 𝑥 thì tỷ lệ nguy cơ
Do đó chúng ta có thể giải thích β như sự gia tăng trong 𝑙𝑜𝑔 của tỷ lệ nguy cơ
Ví dụ : Tuổi của người nghiện ma túy Cho 𝑥 𝑖 là tuổi của đối tượng nghiện ma túy i khi bắt đầu kiểm duyệt và tỷ lệ nguy hiểm là:
𝑡, 𝑥 = 0 𝑡 exp(−0,013𝑥) Như vậy, tỷ lệ nguy cơ về tuổi của người nghiện ma túy qua mỗi năm gấp
𝑒 −0,013 = 0,99 b Hai biến số liên tục
Cho hai biến độc lập (𝑥 1 , 𝑥 2 ) ∈ ℝ 2 (𝑥 1 , 𝑥 2 không có sự tương tác), tham số (𝛽 1 , 𝛽 2 ) ∈ ℝ 2 , hoặc tham số (𝛽 1 , 𝛽 2 , 𝛽 12 ) ∈ ℝ 3 nếu có sự tương tác giữa 𝑥 1 , 𝑥 2
Khi không có sự tương tác
Hàm nguy cơ là 𝑡, 𝑥 1 , 𝑥 2 = 0 𝑡 exp(𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 ) và
Tỷ lệ nguy cơ của hai đối tượng với các biến (𝑥 1 1 , 𝑥 1 ), (𝑥 2 2 , 𝑥 2 ) : exp{𝛽 1 (𝑥 1 − 𝑥 2 )}
Tăng 𝑥 1 lên một đơn vị, giữ cố định 𝑥 2 = 𝑥 1 ta có tỷ lệ nguy cơ là exp 𝛽 1 Ngược lại ta có exp 𝛽 1
Khi có sự tương tác, hàm nguy cơ
2.1.4 Hàm sống sót của Cox PHM
Tổng quát cho Cox PHM ta có
𝑆 0 𝑡 là hàm sống sót ban đầu
2.1.5 Ƣớc lƣợng các tham số của Cox PHM
Trong mô hình hàm hợp lý tổng quát, chúng ta xác định 𝛿 𝑖 = 1 nếu đối tượng 𝑖 không bị kiểm duyệt và 𝛿 𝑖 = 0 nếu đối tượng 𝑖 bị kiểm duyệt, với 𝑖 = 1, 2, … , 𝑚 Mô hình này sử dụng các tham số 𝛼 và 𝛽 để phân tích dữ liệu một cách hiệu quả.
Cụ thể, đối với Cox PHM chúng ta có 𝑖=1
Để tối đa hóa hàm này, cần có dạng xác định của hàm nguy cơ ban đầu Chúng ta sẽ phân tích hàm hợp lý từng phần Tập nguy cơ ℛ(𝑡) được xác định là tập hợp tất cả các đối tượng 𝑖 với 𝑡 𝑖 > 𝑡, tức là những người chưa chết hoặc đã qua kiểm duyệt.
Nếu thời gian sống sót được duy trì liên tục, chúng ta có thể hy vọng rằng tại bất kỳ thời điểm nào, chỉ có một đối tượng có khả năng thất bại ngay lập tức Tuy nhiên, do phần lớn các quan sát diễn ra trong thực tế, sẽ có những khoảng thời gian bị kiểm duyệt.
Hàm hợp lý từng phần
2.2.1 Hàm hợp lý từng phần cho lần thất bại là duy nhất
Ta ký hiệu 𝜓 𝑖 = exp 𝛽 𝑇 𝑥 𝑖 (đây là ký hiệu từ Collett, 1994, p 64), 𝜓 𝑖 là tỷ lệ thuận với tỷ lệ nguy hiểm cho đối tượng 𝑖 Hàm hợp lý từng phần cho 𝛽 là
Giá trị 𝛿 𝑖 phản ánh sự đóng góp từ cái chết và số lần thất bại của đối tượng 𝑖, mà không tính đến số lần kiểm duyệt phải Tử số đại diện cho mức độ nguy hiểm của đối tượng 𝑖, trong khi mẫu số thể hiện tổng nguy cơ của tất cả các đối tượng có khả năng thất bại tại thời điểm 𝑡 𝑖 Do đó, phân số này được coi là xác suất để đối tượng 𝑖 thất bại so với các đối tượng khác tại thời điểm 𝑡 𝑖.
Có hai lý do tại sao nó là hợp lý từng phần:
• Nó không phải là hợp lý toàn phần cho 𝛽;
Nó không sử dụng dữ liệu đầy đủ, vì thời gian xảy ra sự kiện không quan trọng, chỉ cần xếp hạng của chúng Nếu các đối tượng 𝑖, 𝑗 và 𝑘 lần lượt thất bại ở lần 1, 2 và 3, thì các ước lượng tham số sẽ tương tự như khi chúng thất bại ở các lần 100, 300 và 1500.
Vì thế, ít mạnh mẽ hơn một mô hình đầy đủ tham số Tuy nhiên, nó đòi hỏi giả định ít hơn và như vậy là mạnh hơn
2.2.2 Hàm hợp lý từng phần cho lần thất bại lặp đi lặp lại
Khi hai hoặc nhiều đối tượng cùng thất bại trong một khoảng thời gian, tình huống trở nên phức tạp hơn Để giải quyết vấn đề này, hàm hợp lý từng phần cho 𝛽 sẽ được xem xét Đầu tiên, chúng ta sẽ tiến hành hai lần xấp xỉ, và việc sử dụng các ký hiệu đơn giản sẽ giúp việc tính toán trở nên dễ dàng hơn.
𝑡 (𝑖) là đặt thời gian thất bại duy nhất thứ 𝑖 (ví dụ nếu bốn thất bại xảy ra tại lần 1, 1, 3, 3 thì 𝑡 1 = 1, 𝑡 2 = 3;
𝐼 là tổng số thời gian thất bại duy nhất;
𝒟(𝑡) là tập các đối tượng thất bại tại thời gian 𝑡
Có ba phương pháp xác định hàm hợp lý từng phận:
Phương pháp Breslow được sử dụng để phân tích số lượng đối tượng thất bại tại thời gian t(i), và là phương pháp mặc định trong nhiều phần mềm thống kê như SAS Tuy nhiên, nó không phải là mặc định cho tất cả các phần mềm thống kê khác.
R R sử dụng hàm hợp lý từng phần của Efron, vì nó được coi là một xấp xỉ với một hợp lý từng phần chính xác Hàm hợp lý từng phần chính xác yêu cầu thời gian là liên tục, các mối quan hệ là một kết quả đo không chính xác thời gian
3) Phương pháp chính xác (Exact method):
Trong đó 𝒬 𝑖 là tập tất cả 𝒟(𝑡 (𝑖) ) - bộ dữ liệu có thể được lựa chọn từ ℛ(𝑡 (𝑖) ) và Φ 𝑞 là tích của 𝜓 𝑗 với tất cả các 𝑗 của 𝒟(𝑡 (𝑖) ) – dữ liệu 𝑞
Giả sử các đối tượng có nhãn từ 1 đến 5 có nguy cơ tại thời điểm 𝑡(𝑖) trong ℛ(𝑡(𝑖)), trong đó các đối tượng từ 1 đến 3 đã thất bại tại thời điểm 𝑡(𝑖) Do đó, hàm hợp lý từng phần của từng phương pháp sẽ có dạng cụ thể.
𝜓 1 𝜓 2 𝜓 3 (𝜓 1 + 𝜓 2 + 𝜓 3 + 𝜓 4 + 𝜓 5 ) 3 Phương pháp Efron đưa ra
𝜓 1 𝜓 2 𝜓 3 (𝜓 1 + 𝜓 2 + 𝜓 3 + 𝜓 4 + 𝜓 5 ) 2 3 𝜓 1 + 2 3 𝜓 2 + 2 3 𝜓 3 + 𝜓 4 + 𝜓 5 1 3 𝜓 1 + 1 3 𝜓 2 + 1 3 𝜓 3 + 𝜓 4 + 𝜓 5 Trong khi đó phương pháp chính xác đưa ra :
Ta có thể thấy rằng các phương pháp chính xác nhanh chóng trở nên tính toán chuyên sau khi có một số lượng lớn các mối quan hệ.
Ước lượng các tham số
Phương pháp hàm hợp lý toàn phần có thể khó khăn trong việc phân tích, nhưng phần mềm R giúp chúng ta thực hiện điều này R sử dụng phương pháp Newton-Raphson để ước tính các tham số, tuy nhiên, phương pháp này thường không hội tụ tới ước lượng hợp lý cực đại Do đó, mặc dù không phải lúc nào cũng thành công, nó vẫn cung cấp cái nhìn tổng quan về phương pháp.
Phương pháp Newton-Raphson là một quy trình xác định và lặp lại, không có yếu tố ngẫu nhiên trong việc tìm kiếm các giải pháp tối ưu Quy trình này bao gồm nhiều bước lặp, với mục tiêu cải thiện độ chính xác của các ước lượng qua từng lần lặp.
Nói chung, nếu chúng ta có một véc tơ tham số 𝜃 của kích thước 𝑝 và muốn tìm
𝜃 ta cực đại hóa hàm 𝑙 𝜃 = 𝑙𝑜𝑔 (hàm hợp lý) (đăng nhập hàm hợp lý), thuật toán là:
5 Quay lại bước 3 và lặp lại cho đến khi hội tụ Ở đây ta đã sử dụng các ký hiệu :
𝜃 (𝑘) là giá trị của tham số tại lần lặp 𝑘
𝜃 𝑞 là phần tử thứ 𝑞 của 𝜃
Mặc dù chọn 𝜃 (0) là bất kì, hơn nữa nó từ 𝜃 , ít khả năng cho thuật toán là hội tụ về𝜃
𝑙(𝜃) có thể được thay thế bởi log ℒ 𝑝 (𝜃)
Trong trường hợp Cox PHM, chúng ta có thể viết 𝛽 thay vì 𝜃
Xem xét biến 𝑥 𝑖 liên tục cho 9 đối tượng mắc bệnh đau tim, với 𝑡 𝑖 đại diện cho thời gian chết của từng đối tượng trong thời gian theo dõi, được tính bằng ngày.
Để phù hợp với mô hình 𝑡, 𝑥 𝑖 = 0 (𝑡)𝑒 𝛽 𝑥 𝑖, chúng tôi cần sử dụng dữ liệu một cách hợp lý tối đa Do không có mối quan hệ trong thời gian tồn tại, việc áp dụng hàm log hợp lý từng phần đơn giản nhất là khả thi.
Mặc dù nhìn phức tạp nhưng chúng ta có thể dễ dàng tính toán chúng khi cho giá trị cụ thể của 𝛽 Nếu ta cho 𝑈 𝛽 = 𝑑𝑙(𝛽)/𝑑𝛽 và 𝐼 𝛽 = 𝑑 2 𝑙(𝛽)/𝑑𝛽 2 , công thức
Newton-Raphson đơn giản là
𝛽 (𝑘+1) − 𝛽 𝑘 = 𝑈(𝛽 𝑘 )/𝐼(𝛽 (𝑘) ) Cho 𝛽 (0) = 0, ta có 𝑈 0 = −2.51; 𝐼 0 = 77.13 Khi đó
Giá trị 72.70 = −0.0335 = 𝛽 (2) Phương pháp này có thể dừng lại nếu độ chính xác đạt yêu cầu Nó hoạt động hiệu quả khi giá trị khởi đầu gần với mục tiêu, nhưng nếu không, có thể xảy ra sự nhảy vọt lớn khỏi mục tiêu Để giảm thiểu vấn đề này, chúng ta nên điều chỉnh bước nhảy.
𝐼 𝜃 𝑘 𝜃 (𝑘+1) − 𝜃 (𝑘) = 𝜉𝑈(𝜃 (𝑘) ) Với 𝜉 < 1 nhằm hạn chế kích thước của bước nhảy Điều này làm tăng số lần lặp cần thiết để đạt được giá trị mục tiêu.
Kiểm định giả thuyết cho PHM
Có ba cách kiểm tra thường được sử dụng để giải bài toán kiểm định giả thuyết
𝑉 (𝛽 ) = 𝛽 2 𝐼(𝛽 ) Nếu 𝐻 0 đúng, 𝑧 2 ~ 𝜒 1 2 Giá trị lớn nhất của 𝑧 2 chịu sự thay thế của giả thuyết
Các số liệu thống kê (the score test statistic) là
Tỷ lệ hợp lý (the likelihood ratio test statistic) là 𝐺 = 2 𝑙 𝛽 − 𝑙(0)
Cả ba cách kiểm tra trên đều đưa ra giá trị 𝑝 (p-values)
Chúng ta không nhất thiết phải sử dụng cả ba phương pháp kiểm tra, nhưng chúng tôi đề cập đến chúng vì thường được cung cấp trong các gói phần mềm Phương pháp kiểm tra tỷ lệ hàm hợp lý sẽ được áp dụng vì tính tổng quát và dễ sử dụng của nó.
Chúng ta xem xét vectơ 𝛽 có 𝑝 chiều và kiểm tra giả thuyết rằng thành phần đầu tiên 𝑞 (1 ≤ 𝑞 ≤ 𝑝) của 𝛽 bằng 𝛽 𝑗 ∗ 𝑗 0, với các thành phần còn lại từ 𝑞 đến 𝑝 − 𝑞 là tham số tự do Đồng thời, giả thuyết khác cho rằng ít nhất một trong các 𝑞 tham số không đạt giá trị giả thuyết.
• Các trường hợp đặc biệt nêu trên có thể được xảy ra khi 𝑝 = 𝑞 = 1, 𝛽 𝑗 ∗ = 0
• Kiểm tra này cũng có thể được sử dụng cho 𝑙𝑜𝑔(hàm hợp lý) cũng như 𝑙𝑜𝑔(hàm hợp lý từng phần)
• Nó cho phép chúng ta kiểm tra xem tỷ lệ nguy cơ là một số hằng số đặc biệt
Phần này được trích dẫn trong [3], [5], [8].
THựC NGHIệM PHÂN TÍCH Dữ LIệU SINH VIÊN TRƯờNG ĐạI HọC THủY LợI HÀ NộI BằNG PHƯƠNG PHÁP PHÂN TÍCH SốNG SÓT
Giới thiệu
Trường Đại học Thủy Lợi, thành lập năm 1959, là trường đại học hàng đầu tại Việt Nam trong lĩnh vực đào tạo kỹ sư quản trị nguồn nước và các ngành liên quan Đây là trường duy nhất tại Việt Nam chuyên đào tạo nguồn nhân lực trình độ cao về thủy lợi, thủy điện và tài nguyên nước, phục vụ cho các ngành công nghiệp, nông nghiệp và phát triển nông thôn Từ khi thành lập, trường đã không ngừng mở rộng chuyên ngành để đáp ứng nhu cầu ngày càng cao của xã hội, đặc biệt từ năm 1985, khi khái niệm về thủy lợi chuyển sang khai thác tài nguyên nước với nội dung đa dạng hơn Mục tiêu đào tạo của trường đã được mở rộng với 7 ngành và 9 chuyên ngành, góp phần phát triển bền vững trong môi trường đất, nước, rừng, gắn kết hữu cơ trong nền nông nghiệp sinh thái.
Trường Đại học Thủy lợi đã phát triển chương trình đào tạo với hai bộ duyệt, bao gồm 9 ngành và 20 chuyên ngành, nhằm bao quát toàn bộ nội dung liên quan đến kỹ thuật tài nguyên nước tại Việt Nam Mặc dù là một trường chuyên ngành, nhưng chương trình đào tạo của trường đang dần trở nên đa lĩnh vực và liên ngành.
Trường Đại học Thủy Lợi là một trong những đơn vị hàng đầu tại Việt Nam trong lĩnh vực nghiên cứu khoa học công nghệ, đặc biệt tập trung vào thủy lợi Gần đây, số lượng các đề tài nghiên cứu ứng dụng tăng lên đáng kể, cùng với sự đa dạng trong các lĩnh vực nghiên cứu.
Hàng năm, trường Đại học Thủy Lợi thu hút đông đảo nam sinh viên từ các khu vực miền núi và nông thôn trên toàn quốc, nơi có nhiều di sản và đặc trưng liên quan đến thủy lợi Số liệu sinh viên của trường sẽ làm rõ hơn về sự thu hút này.
Mô tả số liệu
3.2.1 Các biến số trong mô hình
Trong nghiên cứu này, chúng tôi sẽ theo dõi 1.598 sinh viên khóa 2006-2011 (K48) của trường Đại học Thủy Lợi trong suốt 5 năm học Các biến được xem xét bao gồm lớp, tuổi, khu vực, đối tượng, giới tính và tỉnh Độ tuổi của sinh viên nhập học dao động từ 17 đến 29 tuổi, cho thấy sự đa dạng trong độ tuổi của sinh viên trong khóa này.
Trong số các sinh viên, độ tuổi chủ yếu là 18 và 19, với sự hiện diện của họ trên hơn 53 tỉnh thành trong cả nước Khu vực có đông sinh viên nhất là miền Bắc và các vùng núi, bao gồm các tỉnh như Thanh Hóa, Hà Nội, Thái Bình, Nam Định, Ninh Bình và Hòa Bình.
Trong bản luận văn này, tác giả mô tả mỗi sinh viên bằng một véctơ 𝑋 với 6 thành phần: 𝑋 𝑇 = (𝑋 1 , 𝑋 2 , 𝑋 3 , 𝑋 4 , 𝑋 5 , 𝑋 6 ) Các thành phần này bao gồm: 𝑋 1 là LOP, 𝑋 2 là TUOI, 𝑋 3 là GIOITINH, 𝑋 4 là TINH, 𝑋 5 là ĐOITUONG, và 𝑋 6 là KHUVUC Phân bố theo lớp sẽ được phân tích trong nội dung tiếp theo.
71 38 72 42 62 60 54 54 b Phân bố theo giới tính và độ tuổi của sinh viên Thủy lợi
Ta quan sát biểu đồ giới tính của sinh viên K48
Tại Đại học Thủy lợi, tỷ lệ sinh viên nữ chỉ chiếm 19,09%, trong khi sinh viên nam chiếm 80,91% tổng số sinh viên của khóa học Điều này phản ánh đặc thù của trường, khi mà số lượng sinh viên nam vượt trội hơn nữ do tính chất là một trường kỹ thuật.
Còn về phân bố theo độ tuổi, do nhà trường có các hệ liên thông, tại chức nên lượng sinh viên già hàng năm vào trường vẫn còn
Biểu đồ độ tuổi cho thấy sinh viên trong độ tuổi 18 và 19 chiếm tỷ lệ cao nhất, tiếp theo là sinh viên 20 tuổi, trong khi sinh viên từ 26 đến 29 tuổi có số lượng rất thấp Bên cạnh đó, cũng có một số ít sinh viên nhập học ở độ tuổi 17 Phân bố sinh viên theo đối tượng và khu vực cũng cần được xem xét.
Biểu đồ phân bố theo đối tượng của sinh viên ĐHTL K48
Trong biểu đồ này, ta thấy sinh viên thuộc đối tượng 10, chiếm 81,35% tổng số sinh viên; đối tượng 1 và 6 có lượng sinh viên tương đương; còn các đối tượng 0,
3, 5 có lượng sinh viên khá ít
Biểu đồ phân bố theo khu vực của sinh viên ĐHTL K48
Theo biểu đồ phân bố sinh viên theo khu vực, khu vực 4 chiếm ưu thế với 57,51% tổng số sinh viên K48 Khu vực 1 và 2 có tỷ lệ sinh viên gần như bằng nhau, mỗi khu vực chiếm khoảng 17,5% Trong khi đó, khu vực 3 có số lượng sinh viên thấp nhất, chỉ chiếm 6,5%.
Biểu đồ phân bố sinh viên Đại học Thủy Lợi cho thấy, hàng năm, trường chủ yếu tuyển sinh từ khu vực 2 - nông thôn, đồng thời có một lượng lớn sinh viên thuộc diện ưu tiên.
Biểu đồ phân bố theo tỉnh của K48
THANHHOA THAIBINH NAMDINH HATAY NGHEAN
TP.HANOI HAIDUONG BACNINH BACGIANG HAIPHONG
HATINH NINHBINH HANAM HOABINH HUNGYEN
VINHPHUC TUYENQUANG CAOBANG BINHDINH PHUTHO
BINHTHUAN DONGNAI KHANHHOA LAOCAI QUANGTRIJ
TIENGIANG BINHPHUOC GIALAI KIENGIANG PHUYEN
SONLA DIENBIEN QUANGNINH DAKLAK HABAC
LAICHAU QUANGBINH TAYNINH TP.HOCHIMINH DAKNONG
HAGIANG LAMDONG QUANGNAM YENBAI BINHDUONG
DANANG HUE LANGSON NINHTHUAN QUANGNGAI
Biểu đồ phân bố theo tỉnh thành cho thấy sinh viên Thủy lợi có mặt rộng khắp từ Bắc vào Nam Tuy nhiên, khu vực tập trung lượng sinh viên lớn nhất là khu vực đồng bằng Bắc Bộ, bao gồm các tỉnh như Hà Nam, Nam Định, Thái Bình, Hà Tây, Ngoài ra, khu vực trung du - miền núi phía Bắc cũng có số lượng sinh viên đáng kể, điển hình là các tỉnh Thái Nguyên, Tuyên Quang, Hòa Bình.
Sinh viên K48 trường Đại học Thủy lợi chủ yếu đến từ khu vực 2 – nông thôn, với nguồn gốc từ các tỉnh đồng bằng sông Hồng và Trung du - miền núi Bắc Bộ Khu vực Trung du - miền núi Bắc Bộ có tài nguyên thiên nhiên phong phú, tiềm năng đa dạng hóa kinh tế với lợi thế về khai thác khoáng sản, thủy điện và nông nghiệp nhiệt đới Hệ thống sông Hồng với trữ năng thủy điện lớn (11 triệu kW) chiếm hơn 1/3 tổng trữ năng của cả nước, cùng với nhiều nhà máy thủy điện lớn như Hòa Bình, góp phần quan trọng cho ngành Thủy lợi Đồng bằng sông Hồng, với đất đai màu mỡ và thuận lợi cho phát triển nông nghiệp, đặc biệt là cây lúa nước, cũng hỗ trợ cho nghề nuôi trồng và đánh bắt thủy hải sản, phù hợp với đặc thù của ngành học này.
Các biến trong dữ liệu:
N1, N2: Thủy nông – cải tạo đất
NH: Hệ cử tuyển ngành thủy nông – cải tạo đất
B: Kỹ thuật xây dựng công trình (kỹ thuật bờ biển)
M: Máy xây dựng và thiết bị Thủy lợi
TH: Công nghệ thông tin
TNC: Công trình Thủy lợi (tài năng)
CĐHN (cao đẳng Hà Nội), CĐTH (cao đẳng Thanh Hóa): Cao đẳng chính quy ngành công trình Thủy lợi – thủy điện
S9-C: Công trình Thủy lợi cơ sở 2
S9-H: Cấp thoát nước cơ sở 2
S9-N: Thủy nông – cải tạo đất cơ sở 2
S9-V: Thủy văn – môi trường cơ sở 2
2) Biến tuổi (TUOI): đo độ tuổi của sinh viên khi bắt đầu vào trường, nhận giá trị nguyên dương
3) Biến tỉnh (TINH): các tỉnh thành của nước Việt Nam, được viết hoa, liền nhau, không dấu Ngoài ra còn các sinh viên của nước Lào (LAO) gửi sang
4) Biến giới tính (GIOITINH): được mã hóa như sau: số 1 là ứng với sinh viên giới tính nam (NAM), số 0 ứng với sinh viên nữ (NU)
5) Biến khu vực (KHUVUC): có 5 khu vực (0, 1, 2, 3, 4) Trong đó:
Khu vực 0: là các sinh viên người Lào
Khu vực 1 bao gồm các xã, thị trấn nằm trong miền núi, vùng cao, vùng sâu và hải đảo, trong đó có những xã thuộc khu vực có điều kiện kinh tế - xã hội đặc biệt khó khăn theo quy định của chính phủ.
Khu vực 2 bao gồm các thành phố trực thuộc tỉnh, các thị xã và các huyện ngoại thành của các thành phố trực thuộc trung ương.
Khu vực 3: Các quận nội thành của các thành phố trực thuộc Trung ương
Khu vực 4(là khu vực 2- nông thôn “KV2-NT”): bao gồm các xã, thị trấn không thuộc KV1, KV2, KV3
6) Biến đối tượng (DOITUONG): có 7 nhóm đối tượng (0, 1, 3, 4, 5, 6, 10)
Đối tượng 0: gồm các sinh viên Lào
Đối tượng 1: Công dân Việt Nam có cha hoặc mẹ là người dân tộc thiểu số
Đối tượng 3 bao gồm những công nhân ưu tú trực tiếp tham gia sản xuất, có thời gian làm việc liên tục từ 5 năm trở lên Trong đó, ít nhất 2 năm họ đã đạt danh hiệu chiến sĩ thi đua được công nhận và cấp bằng khen bởi cơ quan cấp tỉnh trở lên.
Thương bệnh binh, quân nhân
+ Thương binh, bệnh binh, người có thẻ chứng nhận được hưởng chính sách như thương binh;
+ Quân nhân, công an nhân dân tại ngũ được cử đi học có thời gian phục vụ từ
12 tháng trở lên tại khu vực 1;
+ Quân nhân, công an nhân dân tại ngũ được cử đi học có thời gian phục vụ từ
+ Quân nhân, công an nhân dân hoàn thành nghĩa vụ đã xuất ngũ có thời gian phục vụ từ 18 tháng trở lên;
Con liệt sĩ, thương, bệnh binh nặng:
+ Con thương binh mất sức lao động 81% trở lên;
+ Con bệnh binh mất sức lao động 81% trở lên;
+ Con của người được cấp “Giấy chứng nhận người hưởng chính sách như thương binh“, làm suy giảm khả năng lao động 81% trở lên;
+ Con của Bà mẹ Việt Nam anh hùng, con của Anh hùng lực lượng vũ trang, con của Anh hùng lao động
+ Con của người hoạt động cách mạng trước ngày 01/01/1945 hoặc con của người hoạt động cách mạng từ ngμy 01/01/1945 đến trước Tổng khởi nghĩa 19/8/1945
Con đẻ của người hoạt động kháng chiến bị nhiễm chất độc hóa học sẽ được Uỷ ban nhân dân cấp tỉnh công nhận nếu họ bị dị dạng, dị tật hoặc suy giảm khả năng tự lực trong sinh hoạt và học tập do hậu quả của chất độc này.
+ Thanh niên xung phong tập trung được cử đi học;
+ Quân nhân, công an nhân dân tại ngũ được cử đi học có thời gian phục vụ dưới 18 tháng không ở khu vực 1;
+ Con thương binh mất sức lao động dưới 81%;
+ Con bệnh binh mất sức lao động dưới 81%;
+ Con của người được cấp “Giấy chứng nhận người hưởng chính sách như thương binh“, làm suy giảm khả năng lao động dưới 81%;
+ Bố mẹ là công nhân, nông nhân lao động tốt, ý thức tốt ở địa phương;
Người lao động ưu tú từ mọi thành phần kinh tế, được công nhận danh hiệu thợ giỏi và nghệ nhân từ cấp tỉnh, thành phố, Bộ trở lên, sẽ nhận được bằng và huy hiệu Lao động sáng tạo của Tổng Liên đoàn Lao động Việt Nam hoặc Trung ương Đoàn TNCS Hồ Chí Minh.
+ Giáo viên đã giảng dạy đủ 3 năm trở lên thi vào các ngành sư phạm;
+ Y tá, dược tá, hộ lý, kỹ thuật viên, y sĩ, dược sĩ trung cấp đã công tác đủ 3 năm trở lên thi vào các ngành y, dược
7) Thời gian (THOIGIAN): tính bằng tháng, nguyên dương (0 ≤ 𝑡 ≤ 60)
8) Sự kiện (SUKIEN): được mã hóa (“1” – là sự kiện xảy ra, tức là học sinh thôi học hay dừng vì một lý do nào đó trong khoảng thời gian quan sát; “0” – là không quan sát thấy sự kiện xảy ra trong khoảng thời gian quan sát.
Mô hình của phân tích sống sót trong R
R là phần mềm mạnh mẽ cho phân tích thống kê và đồ thị, đồng thời cũng là ngôn ngữ lập trình đa năng Nó có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm tính toán đơn giản, toán học giải trí, tính toán ma trận, và thực hiện các phân tích thống kê phức tạp.
R là phần mềm thống kê miễn phí và mã nguồn mở, được sáng lập bởi Ross Ihaka và Robert Gentleman, và đã nhận được sự ủng hộ từ nhiều nhà nghiên cứu trên toàn cầu Với khả năng xử lý dữ liệu mạnh mẽ, R không thua kém bất kỳ phần mềm phân tích thương mại nào Người dùng có thể tự viết chương trình theo nhu cầu cá nhân sau khi nắm vững ngôn ngữ R, và tài liệu tham khảo luôn được cập nhật, giúp việc tra cứu trở nên dễ dàng Nhờ những đặc điểm này, R là công cụ lý tưởng và tiện dụng cho việc phát triển nghiên cứu khoa học tại Việt Nam.
Trong R có một package tên là survival (do Terry Thernean và Thomas
Lumley phát triển có thể được sử dụng để phân tích biến cố Để ước tính Kaplan-Meier, chúng ta sử dụng hai hàm Surv và survfit trong gói survival Để ước tính hệ số 𝛽 𝑗 trong mô hình Cox, ta áp dụng hàm coxph trong gói này.
Trong bản luận văn này, để phân tích số liệu tác giả sẽ sử dụng R vào mô hình Cox để làm rõ mục tiêu của bản luận văn
3.3.2 Ƣớc lƣợng Kaplan-Meier trong R Để tìm hiểu xem qua 5 năm học lượng sinh viên trường Đại học Thủy Lợi tốt nghiệp đúng thời hạn sẽ là bao nhiêu theo từng biến, chúng ta đi xét mô hình đường cong sống sót của các sinh viên này qua ước lượng Kaplan-Meier bằng R theo các biến
3.3.2.1 Ƣớc lƣợng Kaplan-Meier cho đối tƣợng a Đối tượng 1
DOITUONG=1 time n.risk n.event survival std.err lower 95% CI upper 95% CI
35 112 1 0.847 0.0314 0.788 0.911 Kết quả của R trả cho ta:
Cột 1: Mốc thời gian xảy ra sự kiện
Cột 2 : Số đối tượng nguy cơ ban đầu ngay tại từng mốc thời gian ở cột 1
Cột 3 : Các đối tượng bỏ cuộc tại thời điểm cột 1 tương ứng
Cột 4 : Xác suất sống sót tại thời điểm tương ứng ở cột 1
Cột 5, 6 tương ứng là khoảng tin cậy trên và dưới ứng với độ tin cậy 95%
Biểu đồ thể hiện trục hoành là thời gian theo tháng và trục tung là xác suất sống sót của sinh viên thuộc đối tượng 1 sau 60 tháng học Đường cong chính giữa biểu diễn xác suất tích lũy 𝑆 (𝑡), cho thấy xác suất sinh viên tốt nghiệp ở tháng thứ 60 khoảng 85%, với khoảng tin cậy từ 78,8% đến 91,1% Khoảng tin cậy này ngắn, cho thấy ước số có độ dao động nhỏ.
Uoc luong Kaplan-meier cua DOITUONG 1
X á c su ấ t số n g S (t ) b Đối tượng Đối tượng 0 Đối tượng1Đối tượng 3 Đối tượng4 Đối tượng5Đối tượng 6Đối tượng 10
Theo đường cong sống sót trên của từng đối tượng, ta thấy phân là làm bốn nhóm:
Nhóm 1: là nhóm có xác suất sống cao nhất thuộc đối tượng 0 (các sinh viên người Lào)
Nhóm 2: nhóm có xác suất sống trong khoảng trên dưới 0,8 thuộc đối tượng
4, 10, 6; cụ thể,có xác suất sống như nhau là đối tượng 4 và 10 (khoảng 79%), đối tượng 6 ( khoảng 78%)
Uoc luong Kaplan-meier cua DOITUONG
Nhóm có xác suất sống dưới 0,7 thuộc đối tượng 3 (khoảng 67%)
Nhóm 4: nhóm có xác suất sống thấp nhất (0,5) thuộc đối tượng 5
Đối tượng 4 có khoảng tin cậy từ 60,8% đến 99,6%, trong khi đối tượng 5 có khoảng tin cậy từ 12,5% đến 100% Khoảng tin cậy này khá rộng do số sinh viên thuộc hai đối tượng này tương đối ít.
3.3.2.2 Ƣớc tính Kaplan-meier cho khu vực a Khu vực 1, 3, 4
Khu vực 1Khu vực3 khu vưc4
Khi so sánh giữa khu vực miền núi – dân tộc, thành phố và khu vực 2 – nông thôn, ta thấy:
Uoc tinh Kaplan-meier cho KHUVUC 1, 3, 4
Khu vực 3, có các mốc sự kiện xảy ra ít hơn so với khu vực 1, 4 nhưng xác suất sống lại thấp nhất, chỉ có 0.675
Khu vực 1, 4 có xác suất sống xấp xỉ như nhau ( khoảng 80%), nhưng khu vực 1 có nhiều mốc sự kiện xảy ra nhất
Khu vực 1 ở tháng thứ 11có nhiều học sinh bỏ cuộc nhất; khu vực 4 có mốc thời gian 11, 23 xảy ra nhiều sự kiện hơn cả b Khu vực
Khu vực0Khu vực1 Khu vưc2 Khu vực3 Khu vực 4 Theo biểu đồ cả 5 khu vực ta thấy:
Uoc tinh Kaplan-meier cho KHUVUC
Xác suất sống của cả 5 khu vực đều lớn hơn 0.7, khu vực 0 không xảy ra sự kiện nào
Khu vực 2, 4 có xác suất sống gần nhau (khoảng 78%), khu vực 1 có xác suất sống cao nhất (trên 80%), và khu vực 3 có xác suất sống thấp nhất (dưới 75%)
3.3.2.3 Ƣớc tính Kaplan-meier cho tỉnh a Daclak
Biểu đồ đường cong sống sót của tỉnh Đắk Lắk cho thấy xác suất sống của sinh viên tại đây chỉ khoảng 20%, với ít mốc thời gian xảy ra sự kiện Điều này cho thấy số lượng sinh viên từ Đắk Lắk theo học tại Thủy Lợi không lớn, nhưng tỷ lệ bỏ cuộc lại cao.
Uoc tinh Kaplan-meier cho DACLAK
Theo biểu đồ sống của 5 tỉnh Đăc Lăk, Lạng Sơn, Nghệ An, Thái Bình và TP Hà Nội, Đăc Lăk dẫn đầu về số sự kiện với 50% sinh viên ra trường sau 5 năm học Tiếp theo, nhóm 2 gồm Lạng Sơn và Nghệ An có tỷ lệ tốt nghiệp khoảng 70%.
Và nhóm 3 (gồm các sinh viên thuộc tỉnh Thái Bình, Hà Nội) có lượng sinh viên tốt nghiệp ra trường cao hơn cả (khoảng 90%)
Uoc tinh Kaplan-meier cho 5 TINH
Theo biểu đồ đường cong Kaplan-meier của tỉnh, ta thấy có 8 nhóm
Nhóm 1: gồm các sinh vên người Lào, Lào Cai, Đak Nông, có xác suất sống sót là 1 (đường sống sót của họ nằm ngang)
Nhóm 2: là nhóm kết thúc ở tháng 23 (tức sau tháng 23 không còn sinh viên nào theo học ở trường nữa), đó là tỉnh Kiên Giang
Nhóm 3: là nhóm có xác suất sống sót thấp nhất (sau nhóm 2) khoảng trên 20%, gồm các sinh viên thuộc tỉnh Đăc Lăk
Nhóm 4: gồm các tỉnh như Ninh Thuận, Bình Phước,…có xác suất sống khoảng 50%
Uoc tinh Kaplan-meier cho TINH
Nhóm 5: có xác suất sống khoảng 60%, như Lạng Sơn, Phú Thọ, Khánh Hòa
Nhóm 6: có xác suất sống khoảng trên70% , trong khoảng này tập trung khá nhiều tỉnh như Tp Hồ Chí Minh, Yên Bái, Thanh Hóa, Thái Nguyên, Bình Định
Nhóm 7: có xác suất sống khoảng 80%, như Bắc Giang, Bắc Ninh, Cao Bằng, Hà Tây, Hòa Bình, Tp.Hà Nội, Vĩnh Phúc…
Nhóm 8: là các tỉnh có xác suất sống khoảng 90% như Tuyên Quang, Hải Phòng, Hà Nam
3.3.2.4 Giới tính t< - survfit (Surv(THOIGIAN, SUKIEN) ~ GIOITINH, data = thai)
GIOITINH=0 time n.risk n.event survival std.err lower 95% CI upper 95% CI
GIOITINH=1 time n.risk n.event survival std.err lower 95% CI upper 95% CI
Uoc tinh Kaplan-meier cho GIOITINH
Biểu đồ cho thấy xác suất sống của nam giới thấp hơn nữ giới, với tỷ lệ tốt nghiệp của sinh viên nữ đạt trên 90% sau 60 tháng, trong khi nam chỉ khoảng 75% Ngoài ra, số lượng sự kiện xảy ra với sinh viên nam cũng cao hơn nữ Đặc biệt, vào các mốc thời gian 11 tháng, 23 tháng và 35 tháng, có nhiều sinh viên nam bỏ học, cụ thể là 152 sinh viên nam bỏ cuộc vào tháng 11 (chiếm 11,76% tổng số sinh viên nam), 105 sinh viên dừng lại ở tháng 23, và 28 sinh viên bỏ học vào tháng 35.
Khi so sánh giữa các độ tuổi vào trường, ta thấy
Một số tuổi không có sự kiện xảy ra: tuổi 28, 29, 25lứa tuổi này vào trường khá là ít, xác suất sống cao(100%)
Uoc tinh Kaplan-meier cho TUOI
Tuổi 21 có xác suất sống thấp nhất với tỷ lệ 63,2%, tiếp theo là tuổi 27 với tỷ lệ 66,7% Trong số 57 sinh viên nhập học ở tuổi 21, chỉ còn lại 37 em tốt nghiệp.
Các tuổi 24 có xác suất sống sót trên 90%
Các tuổi còn lại có xác suất sống trên 70%, cụ thể tuổi 17 (85,7%), tuổi 18 khoảng (80%), tuổi 19 (78,4%), tuổi 20 (73,4%), tuổi 22 (khoảng 72,5%), tuổi 23 (khoảng 74%), tuổi 26 (75%)
Trong số các độ tuổi, 18, 19 và 20 là những năm có nhiều sự kiện quan trọng nhất Cụ thể, trong tháng 11, có 56 sinh viên ở tuổi 18 và 19 đã quyết định bỏ cuộc Đến tháng 23, số lượng sinh viên bỏ cuộc ở tuổi 18 là 42 và ở tuổi 19 là 39.
Uoc tinh Kaplan-meier cho TUOI 17, 18, 19, 20
3.3.3 Kiểm định Log-rank bằng R
3.3.3.1 Kiểm định Log-rank cho tuổi a Tuổi survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ TUOI, data = thai)
TUOI! 57 21 11.400 8.0835 TUOI" 51 14 10.823 0.9324 TUOI# 27 7 5.889 0.2095 TUOI$ 15 1 3.407 1.7007 TUOI% 4 0 0.941 0.9405 TUOI& 4 1 0.821 0.0391 TUOI' 3 1 0.586 0.2932 TUOI( 2 0 0.470 0.4703 TUOI) 3 0 0.705 0.7054 Chisq= 20 on 12 degrees of freedom, p= 0.0664
Kết quả phân tích cho thấy giá trị p là 0.0664, điều này chưa đủ để khẳng định ý nghĩa thống kê Đối với nhóm tuổi 18 và 19, sử dụng hàm survdiff với công thức Surv(THOIGIAN, SUKIEN) ~ TUOI trong bộ dữ liệu thai, với điều kiện TUOI thuộc tập hợp {18, 19}.
N Observed Expected (O-E)^2/E TUOI 343 72 69.1 0.122 TUOI 267 52 54.9 0.154 Chisq= 0.3 on 1 degrees of freedom, p= 0.586
Phân tích Log-rank cho độ tuổi 18 và 19 cho thấy p=0.586, lớn hơn 0.05, do đó chưa thể khẳng định rằng số lượng sinh viên tốt nghiệp ở tuổi 18 nhiều hơn so với tuổi 19.
3.3.3.2 Kiểm định Log-ranh cho giới tính survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ GIOITINH, data = thai)
Kết quả phân tích cho thấy giá trị p = 2.59e-13, cho thấy phân tích Log-rank về độ tuổi có ý nghĩa thống kê với p < 0.05 Điều này cho phép so sánh xác suất sống sót giữa hai giới tính, tuy nhiên, chưa thể xác định mức độ ảnh hưởng của từng nhóm đối với hàm nguy cơ.
3.3.3.3 Kiểm định Log-rank cho khu vực survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ KHUVUC, data = thai)
N Observed Expected (O-E)^2/E KHUVUC=0 3 0 0.705 0.7054 KHUVUC=1 279 52 61.165 1.3732 KHUVUC=2 293 64 62.999 0.0159 KHUVUC=3 104 27 22.270 1.0047 KHUVUC=4 919 203 198.861 0.0862 Chisq= 3.4 on 4 degrees of freedom, p= 0.488
Theo kết quả của R trong phân tích Log-rank cho khu vực, ta cũng chưa thấy ý nghĩa thống kê ở đây
3.3.3.4 Kiểm định Log-rank cho đối tƣợng a Đối tượng (5, 10) survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ DOITUONG, data = thai, subset = DOITUONG == c(5, 10))
N Observed Expected (O-E)^2/E DOITUONG=5 1 1 0.114 6.88707 DOITUONG 646 136 136.886 0.00573 Chisq= 7.6 on 1 degrees of freedom, p= 0.00584
Trị số p = 0.00584 > 0.05, điều này cho ta thấy phân tích Log-rank cho đối tượng 5 và đối tượng 10 cũng chưa có ý nghĩa thống kê b Đối tượng
Khi so sánh hai đối tượng 5 và 10, chúng ta nhận thấy có sự khác biệt có ý nghĩa thống kê Tuy nhiên, khi xem xét toàn bộ đối tượng, kết quả lại cho thấy không có ý nghĩa thống kê Phân tích này được thực hiện thông qua hàm survdiff với công thức Surv(THOIGIAN, SUKIEN) ~ DOITUONG trong bộ dữ liệu thai.
N Observed Expected (O-E)^2/E DOITUONG=0 3 0 0.705 0.70539 DOITUONG=1 131 20 28.769 2.67299 DOITUONG=3 6 2 1.171 0.58639 DOITUONG=4 18 4 3.923 0.00152 DOITUONG=5 2 1 0.350 1.20359 DOITUONG=6 138 31 29.763 0.05143 DOITUONG 1300 288 281.318 0.15871 Chisq= 5.8 on 6 degrees of freedom, p= 0.446