Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
364,66 KB
Nội dung
13 Phân tích kiện (event history hay survival analysis) Qua ba chương trước, làm quen với mơ hình thống kê cho biến phụ thuốc liên tục (như áp suất máu) biến bậc thứ (như có/khơng, bệnh hay khơng bệnh) Trong nghiên cứu khoa học, đặc biệt y học kĩ thuật, có nhà nghiên cứu muốn tìm hiểu ảnh hưởng đến biến phụ thuộc mang tính thời gian Nhà kinh tế học John Maynard Keynes nói câu có liên quan đến chủ đề mà tơi mơ tả chương sau: “Về lâu dài tất chết, khác chết sớm hay chết muộn mà thôi.” Thành ra, việc theo dõi hay mô tả biến bậc thứ sống hay chết quan trọng, … khơng xác Cái biến số quan trọng xác thời gian dẫn đến việc kiện xảy Trong nghiên cứu y học, kể nghiên cứu lâm sàng, nhà nghiên cứu thường theo dõi bệnh nhân thời gian, có lên đến vài mươi năm Biến cố xảy thời gian có bệnh hay khơng có bệnh, sống hay chết, v.v… biến cố có ý nghĩa lâm sàng định, thời gian dẫn đến bệnh nhân mắc bệnh hay chết quan trọng cho việc đánh giá ảnh hưởng thuật điều trị hay yếu tố nguy Nhưng thời gian khác bệnh nhân Chẳng hạn thời điểm từ lúc điều trị ung thư đến thời điểm bệnh nhân chết khác bệnh nhân, độ khác biệt tùy thuộc vào yếu tố độ tuổi, giới tính, tình trạng bệnh, yếu tố mà có không/chưa đo lường tương tác gen Mơ hình để thể mối liên hệ thời gian dẫn đến bệnh (hay không bệnh) yếu tố nguy (risk factors) mơ hình có tên “survival analysis” (có thể tạm dịch phân tích sống sót) Cụm từ “survival analysis” xuất phát từ nghiên cứu bảo hiểm, giới nghiên cứu y khoa từ dùng cụm từ cho mơn Nhưng nói trên, sống/chết khơng phải biến nhất, thực tế có biến có bệnh hay khơng bệnh, xảy hay khơng xảy ra, đó, giới tâm lí học, người ta dùng cụm từ “event history analysis” (phân tích biến cố) mà tơi thấy thích hợp phân tích sống sót Ngồi ra, môn kĩ thuật, người ta dùng cụm từ khác, reliability analysis (phân tích độ tin cậy), khái niệm survival analysis Tuy nhiên, chương tơi dùng cụm từ phân tích biến cố 13.1 Mơ hình phân tích số liệu mang tính thời gian Ví dụ Thời gian dẫn đến ngưng sử dụng IUD Một nghiên cứu hiệu y cụ ngừa thai 18 phụ nữ, tuổi từ 18 đến 35 Một số phụ nữ ngưng sử dụng y cụ bị chảy máu Cịn số khác tiếp tục sử dụng Bảng số liệu sau thời gian (tính tuần) kể từ lúc bắt đầu sử dụng y cụ đến chảy máu (tức ngưng sử dụng) hay đến kết thúc nghiên cứu (tức sử dụng đến chấm dứt nghiên cứu) Bảng 13.1 Thời gian dẫn đến ngưng sử dụng hay tiếp tục sử dụng y cụ IUD Mã số bệnh nhân Thời gian (tuần) 10 11 12 13 14 15 16 17 18 18 10 13 30 19 23 38 54 36 107 104 97 107 56 59 107 75 93 Câu hỏi đặt mô tả thời gian ngưng sử dụng y cụ Thuật ngữ “mô tả” có nghĩa ước tính số trung vị thời gian dẫn đến ngưng sử dụng, hay xác suất mà phụ nữ ngưng sử dụng vào thời điểm Tình trạng tiếp tục sử dụng có gọi “survival” (tức “sống sót”) Tình trạng (ngưng=1 hay tiếp tục=0) 1 0 1 0 1 Để giải vấn đề trên, đối phụ nữ ngưng sử dụng vấn để ước tính thời gian khơng phải khó Nhưng vấn đề quan trọng liệu mang tính thời gian số phụ nữ cịn tiếp tục sử dụng, khơng biết họ cịn sử dụng nữa, nghiên cứu phải “đóng sổ” theo thời điểm định trước Những trường hợp gọi thuật ngữ khó hiểu “censored” hay “survival” (tức sống, hay tiếp tục sử dụng, hay biến cố chưa xảy ra) Gọi T thời gian tiếp tục sử dụng (có gọi survival time) T biến ngẫu nhiên, với hàm mật độ (probability density distribution) f(t), hàm phân phối tích lũy (cumulative distribution) là: F (t ) = ∫ t −∞ f ( s ) ds Đây xác suất mà cá nhân ngưng sử dụng (hay kinh qua biến cố) thời điểm t Hàm bổ sung S(t) = – F(t) thường gọi hàm “sống sót” (survival function) Số liệu thời gian T thường mô hai hàm xác suất: hàm sống sót hàm nguy (hazard function) Hàm sống sót định nghĩa xác suất cá nhân “sống sót” (hay ví dụ trên, cịn sử dụng y cụ) đến thời điểm t Hàm nguy cơ, thường viết kí hiệu h(t) hay λ(t) xác suất mà cá nhân ngưng sử dụng (hay xảy biến cố) thời điểm t Pr ( t ≤ T < t + ∆t ) | T ≥ t f ( t ) = ∆→0 ∆t S (t ) h ( t ) = lim cho h(t) δt xác suất cá nhân ngưng sử dụng khoảng thời gian ngắn δt với điều kiện cá nhân sống đến thời điểm t Từ mối liên hệ: Pr(sống sót đến t+δt) = Pr(sống sót đến t) Pr(sống sót đến δt | sống đến t) có: − F ( t + δ t ) = (1 − F ( t ) ) × (1 − h ( t ) δ t ) Từ đó, có: δ tF ' ( t ) = (1 − F ( t ) ) h ( t ) δ t Thành ra, hàm nguy là: h (t ) = f (t ) − F (t ) Và hàm nguy tích lũy: t Λ ( t ) = ∫ λ ( u ) du −∞ Từ định nghĩa hàm nguy − h ( t ) = − f (t ) − F (t ) , viết: Λ ( t ) = − log (1 − F ( t ) ) Một số hàm nguy ứng dụng để mô tả thời gian Hàm đơn giản số, dẫn đến mơ hình Poisson (thuộc nhóm luật phân phối mũ): f ( t ) = λ e − λt Do đó: (t ≥ 0) F ( t ) = − e − λt Thành ra: h(t) = λ Những lí thuyết đầu xem qua tương đối rắc rối, với số liệu thực tế dễ theo dõi Bây quay lại với số liệu từ Ví dụ Để tiện việc theo dõi tính tốn, cần phải xếp lại liệu theo thứ tự thời gian, thời gian ngưng sử dụng hay tiếp tục sử dụng: 10 13* 56* 59 18* 75 19 93 23* 30 36 38* 54* 97 104* 107 107* 107* Trong dãy số liệu dấu “*” để đánh dấu thời gian censored (tức tiếp tục sử dụng IUD) Cách đơn giản chia thời gian từ 10 tuần (ngắn nhất) đến 107 tuần (lâu nhất) thành nhiều khoảng thời gian bảng phân tích sau đây: Bảng 13.2 Ước tính xác suất tích lũy cho khoảng thời gian Mốc thời gian (t) Khoảng thời gian (tuần) 10 0–9 10 – 18 19 – 29 30 – 35 36 – 58 59 – 74 75 – 92 93 – 96 97 – 106 107 – Số phụ nữ Số phụ nữ lúc bắt đầu thời ngưng sử điểm (nt) dụng (dt) 18 18 15 13 12 Xác suất ngưng sử dụng h(t) 0.0000 0.0555 0.0667 0.0769 0.0833 0.1250 0.1428 0.1667 0.2000 0.3333 Xác suất sử dụng pt 1.0000 0.9445 0.9333 0.9231 0.9167 0.8750 0.8572 0.8333 0.8000 0.6667 Xác suất tích lủy S(t) 1.0000 0.9445 0.8815 0.8137 0.7459 0.6526 0.5594 0.4662 0.3729 0.2486 Trong bảng tính tốn trên, có: • Cột thứ mốc thời gian (tạm kí hiệu t) Cột khơng có ý nghĩa gì, ngoại trừ sử dụng để làm số; • Cột thứ khoảng thời gian (duration) tính tuần Như đề cập trên, chia thời gian thành nhiều khoảng để tính toán, chẳng hạn từ đến tuần, 10 đến 18 tuần, v.v… Chú ý thực tế, khơng có số liệu cho thời gian từ đến tuần, khoảng thời gian đặt để làm mốc khởi đầu để tiện cho việc ước tính sau Đây phân chia tương đối tùy tiện có tính cách minh họa; thực tế máy tính làm việc cho chúng ta; • Cột thứ số đối tượng nghiên cứu nt (hay cụ thể số phụ nữ nghiên cứu này) bắt đầu khoảng thời gian Chẳng hạn khoảng thời gian 0-9, thời điểm bắt đầu 0, có 18 phụ nữ (hay hiểu số phụ nữ theo dõi/quan sát tuần 18 người) Trong khoảng thời gian 10–18, thời điểm bắt đầu 10, có 18 phụ nữ; khoảng thời gian 19–29, thời điểm bắt đầu 19, có 15 phụ nữ (cụ thể là: 19 23* 30 36 38* 54* 56* 59 75 93 97 104* 107 107* 107*); vân vân Nói cách khác, cột thể số đối tượng với thời gian quan sát tối thiểu t Do đó, khoảng thời gian 97 – 106, có phụ nữ với thời gian theo dõi từ 97 tuần trở lên (97 104* 107 107* 107*) • Cột thứ trình bày số phụ nữ ngưng sử dụng y cụ dt (hay biến cố xảy ra) khoảng thời gian Chẳng hạn khoảng thời gian 10–18 tuần, có phụ nữ ngưng sử dụng(tại 10 tuần); khoảng thời gian 19 – 29 tuần có trường hợp ngưng sử dụng (tại 19 tuần), v.v… • Cột thứ xác suất nguy h(t) khoảng thời gian Một cách đơn giản, h(t) ước tính cách lấy dt chia cho nt Ví dụ khoảng thời gian 10-18 có phụ nữ ngưng sử dụng (trong sô 18 phụ nữ), xác suất nguy 1/18 = 0.0555 Xác suất ước tính cho khoảng thời gian • Cột thứ xác suất sử dụng cho khoảng thời gian, tức lấy trừ cho h(t) cột thứ Xác suất không cung cấp nhiều thơng tin, trình bày để dễ theo dõi tính tốn cột • Cột thứ xác suất tích lũy cịn sử dụng y cụ S(t) (hay cumulative survival probability) Đây cột số liệu quan trọng cho phân tích Vì tính chất “tích lũy”, cách ước tính nhân từ hai hay nhiều xác suất Trong khoảng thời gian 0-9, xác suất tích lũy xác suất cịn sử dụng cột 6, (vì khơng có ngưng sử dụng) Trong khoảng thời gian 10-18, xác suất tích lũy ước tính cách lấy xác suất cịn sử dụng thời gian 0-9 nhân cho xác suất sử dụng thời gian 10-18, tức là: 1.000 x 0.9445 = 0.9445 Ý nghĩa ước tính là: xác suất sử dụng thời gian tuần 94.45% Tương tự, khoảng thời gian 19-29 tuần, xác suất tích lũy cịn sử dụng tính cách lấy xác suất tích lũy cịn sử dụng đến tuần 10-18 nhân cho xác suất sử dụng khoảng thời gian 19-29: 0.9445 x 0.9333 = 0.8815 Tức là, xác suất sử dụng đến tuần 29 88.15% k n − dt Nói chung, cơng thức ước tính S(t) Sˆ ( t ) = ∏ t Chú ý dấu mũ “^” nt t =1 S(t) để nhắc nhở ước số Nếu gọi xác suất sử dụng khoảng thời gian t pt (tức cột 6), S(t) tính cơng thức: k Sˆ ( t ) = ∏ pt t =1 Phép ước tính mơ tả thường gọi ước tính Kaplan-Meier (Kaplan-Meier estimates), hay gọi product-limit estimate 13.2 Ước tính Kaplan-Meier R Tất tính tốn trên, tất nhiên, tiến hành R Trong R có package tên survival (do Terry Therneau Thomas Lumley phát triển) ứng dụng để phân tích biến cố Trong phần sau hướng dẫn cách sử dụng package Quay lại với Ví dụ 1, việc mà cần làm nhập liệu vào R Nhưng trước hết, phải nhập package survival vào môi trường làm việc: > library(survival) Kế đến, tạo hai biến số: biến thứ gồm thời gian (hãy gọi weeks cho trường hợp này), biến thứ hai số cho biết đối tượng ngưng sữ dụng y cụ (cho giá trị 1) hay tiếp tục sử dụng (cho giá trị 0) đặt tên biến status Sau nhập hai biến vào dataframe (và gọi data) để tiện việc phân tích > weeks status data survtime survtime [1] 10 13+ [15] 104+ 107 18+ 19 23+ 107+ 107+ 30 36 38+ 54+ 56+ 59 75 93 97 có survtime biến với thời gian dấu “+” (chỉ cịn sống sót, hay censored observation, hay trường hợp sử dụng y cụ) Biến số có giá trị ý nghĩa cho phân tích R, thực tế, có lẽ khơng cần Cịn hàm survfit đơn giản, cần cung cấp hai thông số: thời gian số ví dụ sau đây: > survfit(Surv(weeks, status==1)) Hay có object survtime đơn giản “gọi”: > survfit(survtime) Call: survfit(formula = survtime) n events median 0.95LCL 0.95UCL 18 93 59 Inf Kết chẳng có hấp dẫn, cung cấp thơng tin mà chún ta biết: có biến cố (ngưng sử dụng y cụ) số 18 đối tượng Thời gian (median - trung vị) ngưng sử dụng 93 tuần, với khoảng tin cậy 95% từ 59 tuần đến vô cực (Inf = infinity) Để có thêm kết cần phải đưa kết phân tích vào object chẳng hạn kp dùng hàm summary để biết thêm chi tiết: > kp summary(kp) Call: survfit(formula = Surv(weeks, status == 1)) time n.risk n.event survival std.err lower 95% CI upper 95% CI 10 18 0.944 0.0540 0.844 1.000 19 15 0.881 0.0790 0.739 1.000 30 13 0.814 0.0978 0.643 1.000 36 12 0.746 0.1107 0.558 0.998 59 0.653 0.1303 0.441 0.965 75 0.559 0.1412 0.341 0.917 93 0.466 0.1452 0.253 0.858 97 0.373 0.1430 0.176 0.791 107 0.249 0.1392 0.083 0.745 Một phần kết (cột time, n.risk, n.event, survival) tính tốn “thủ cơng” bảng Tuy nhiên R cung cấp cho sai số chuẩn (standard error) S(t) khoảng tin cậy 95% Khoảng tin cậy 95% ước tính từ cơng thức Sˆ ( t ) ± 1.96 × se Sˆ ( t ) , mà k dt đó, se Sˆ ( t ) = Sˆ ( t ) × ∑ Cơng thức sai số chuẩn cịn gọi t =1 nt ( nt − dt ) cơng thức Greenwood (hay Greenwood’s formula) Chúng ta thể kết biểu đồ hàm plot sau: > plot(kp, xlab="Time (weeks)", ylab="Cumulative survival probability") 1.0 0.8 0.6 0.4 0.2 0.0 Cumulative survival probability 20 40 60 80 100 Time (weeks) Trong biểu đồ trên, trục hồnh thời gian (tính tuần) trục tung xác suất tích lũy cịn sử dụng y cụ Đường xác suất tích lũy Sˆ ( t ) , hai đường chấm khoảng tin cậy 95% Sˆ ( t ) Qua kết phân tích này, phát biểu xác suất sử dụng y cụ đến tuần 107 khoảng 25% khoảng tin cậy từ 8% đến 74.5% Khoảng tin cậy rộng cho biết ước số có độ dao động cao, đơn giản số lượng đối tượng nghiên cứu cịn tương đối thấp 13.3 So sánh hai hàm xác suất tích lũy: kiểm định log-rank (log-rank test) Phân tích áp dụng cho nhóm đối tượng, mục đích ước tính S(t) cho khoảng thời gian Trong thực tế, nhiều nghiên cứu có mục đích so sánh S(t) hai hay nhiều nhóm khác Chẳng hạn nghiên cứu lâm sàng, nghiên cứu chữa trị ung thư, nhà nghiên cứu thường so sánh thời gian sống sót hai nhóm bệnh nhân để đánh giá mức độ hiệu nghiệm thuật điều trị Ví dụ Một nghiên cứu 48 bệnh nhân với bệnh mụn giộp (herpes) phận sinh dục nhằm xét nghiệm hiệu loại vắc-xin (tạm gọi mã danh gd2) Bệnh nhân chia thành nhóm cách ngẫu nhiên: nhóm điều trị gd2 (gồm 25 người), 23 người cịn lại nhóm hai nhận giả dược (placebo) Tình trạng bệnh theo dõi vịng 12 tháng Bảng số liệu sau trình bày thời gian (tính tuần gọi tắt time) đến bệnh tái phát Ngồi ra, bệnh nhân cịn cung cấp số liệu số lần bị nhiễm vịng 12 tháng trước tham gia cơng trình nghiên cứu (episodes) Theo kinh nghiệm lâm sàng, episodes có liên hệ mật thiết đến xác suất bị nhiễm (và quay lại với cách phân tích biến số một phần sau) Câu hỏi đặt gd2 có hiệu nghiệm làm giảm nguy bệnh tái phát hay không Bảng 13.1 Thời gian đến nhiễm trùng bệnh nhân với bệnh mụn giộp cho nhóm gd2 giả dược id 10 12 14 15 18 20 23 24 26 28 31 33 34 36 39 40 42 44 46 48 episodes 12 10 10 8 11 13 13 12 13 10 16 14 13 13 16 13 id 11 13 16 17 19 21 22 25 27 29 30 32 35 37 38 41 43 45 47 time infected 12 52 28 44 14 52 35 12 52 52 36 52 11 52 15 13 21 24 52 28 episodes 10 12 7 7 11 16 16 15 10 17 8 8 14 13 15 time infected 15 44 12 52 21 19 10 15 27 1 12 20 32 15 35 28 Chú thích: biến infected (nhiễm), có nghĩa bị nhiễm, khơng bị nhiễm Trong trường hợp có hai nhóm để so sánh Một cách phân tích đơn giản ước tính S(t) cho nhóm khoảng thời gian, so sánh hai nhóm kiểm định thống kê thích hợp Song, phương pháp phân tích có nhược điểm khơng cung cấp cho “bức tranh” chung tất khoảng thời gian Ngoài ra, vấn đề so sánh hai nhóm nhiều khoảng thời gian khác làm cho kết khó diễn dịch Để khắc phục hai nhược điểm so sánh trên, phương pháp phân tích phát triển có tên log-rank test (kiểm định log-rank) Đây phương pháp phân tích phi thơng số để kiểm định giả thiết hai nhóm có S(t) Phương pháp chia thời gian thành k khoảng thời gian, t1, t2, t3, …, tk, mà khoảng thời gian tj (j = 1, 2, 3…, k) phản ánh thời điểm j hay nhiều đối tượng hai nhóm cộng lại Gọi dij số bệnh nhân nhóm i (i=1, 2) bị bệnh khoảng thời gian tj Gọi d j = d1 j + d 2i tổng số bệnh nhân mắc bệnh đặt n j = n1 j + n2 j tổng số bệnh nhân hai nhóm khoảng thời gian tj Với j = 1, 2, 3…, k, ước tính: e1 j = n1 j d j nj e2 j = n2 j d j nj vj = n1 j n2 j d j ( n j − d j ) n 2j ( n j − 1) (ở đây, e1 j , e2 j số bệnh nhân nhóm mà tiên đoán mắc bệnh có xác suất mắc bệnh hai nhóm (tức xác suất trung bình), v j phương sai) Ngồi ra, ước tính tổng số bệnh nhân mắc bệnh cho nhóm 2: k O1 = ∑ d1 j j =1 k O2 = ∑ d j j =1 Và tổng số bệnh nhân mắc bệnh có chung xác suất mắc bệnh cho hai nhóm: k E1 = ∑ v j j =1 k V = ∑vj j =1 Gọi Ti biến ngẫu nhiên phản ánh thời gian từ điều trị đến mắc bệnh cho nhóm i, gọi Si ( t ) = Pr (Ti ≥ t ) , kiểm định log-rank định nghĩa sau: (O − E ) χ = 1 2 V Nếu χ > χ (trong đó, χ trị số Chi bình phương với độ ý nghĩa thống kê α=0.95), có chứng để kết luận độ khác biệt S(t) hai nhóm có ý nghĩa thống kê 2 1,α 1,α 13.4 Kiểm định log-rank R Ví dụ (tiếp tục) Chúng ta quay lại với ví dụ sử dụng R để tính tốn kiểm định log-rank Trước hết, phải nhập liệu cần thiết lệnh thông thường sau: > group episode time infected data library(survival) > kp.by.group summary(kp.by.group) Call: survfit(formula = Surv(time, infected == 1) ~ group) group=1 time n.risk n.event survival std.err lower 95% CI upper 95% CI 25 0.960 0.0392 0.886 1.000 24 0.920 0.0543 0.820 1.000 22 0.878 0.0660 0.758 1.000 21 0.836 0.0749 0.702 0.997 12 19 0.792 0.0829 0.645 0.973 13 17 0.746 0.0902 0.588 0.945 14 16 0.699 0.0958 0.534 0.915 15 15 0.653 0.1001 0.483 0.882 21 14 0.606 0.1033 0.434 0.846 28 12 0.505 0.1080 0.332 0.768 35 10 0.454 0.1083 0.285 0.725 36 0.404 0.1074 0.240 0.680 44 0.353 0.1052 0.197 0.633 52 0.303 0.1016 0.157 0.584 group=2 time n.risk n.event survival std.err lower 95% CI upper 95% CI 23 0.957 0.0425 0.8767 1.000 21 0.911 0.0601 0.8004 1.000 20 0.865 0.0723 0.7346 1.000 19 0.774 0.0889 0.6183 0.970 17 0.729 0.0946 0.5650 0.940 10 15 0.680 0.1000 0.5099 0.907 12 14 0.583 0.1067 0.4072 0.835 15 12 0.486 0.1088 0.3132 0.754 19 0.432 0.1093 0.2630 0.709 20 0.378 0.1082 0.2156 0.662 21 0.324 0.1053 0.1712 0.613 27 0.270 0.1007 0.1300 0.561 28 0.216 0.0939 0.0921 0.506 35 0.144 0.0859 0.0447 0.463 Và vẽ biểu đồ Kaplan-Meier cho nhóm sau: > plot(kp.by.group, 0.6 0.4 0.0 0.2 Cum survival probability 0.8 1.0 xlab="Time", ylab="Cum survival probability", col=c(“black”, “red”)) 10 20 30 40 50 Time Qua biểu đồ trên, thấy rõ nhóm điều trị gd2 (đường màu đen phía trên) có xác suất nhiễm (hay bệnh tái phát) thấp nhóm giả dược (đường màu đỏ, phía dưới) Nhưng phân tích khơng cung cấp trị số p để phát biểu kết luận (b) Để có trị số p, cần phải sử dụng hàm survdiff sau: > survdiff(Surv(time, infected==1) ~ group) Call: survdiff(formula = Surv(time, infected == 1) ~ group) N Observed Expected (O-E)^2/E (O-E)^2/V group=1 25 15 20.0 1.26 3.65 group=2 23 17 12.0 2.11 3.65 Chisq= 3.7 on degrees of freedom, p= 0.056 Kết phân tích log-rank cho trị số p=0.056 Vì p > 0.05, chưa có chứng thuyết phục để kết luận gd2 thật có hiệu nghiệm giảm nguy tái phát bệnh 13.5 Mơ hình Cox (hay Cox’s proportional hazards model) Kiểm định log-rank phương pháp cho phép so sánh S(t) hai hay nhiều nhóm Nhưng thực tế, S(t) hay hàm nguy h(t) khơng khác nhóm, mà chịu chi phối yếu tố khác Vấn đề đặt ước tính mức độ ảnh hưởng yếu tố nguy (risk factors) đến h(t) Chẳng hạn nghiên cứu trên, số lần bệnh nhân bị nhiễm (biến episode) xem có ảnh hưởng đến nguy bệnh tái phát Do đó, vấn đề đặt xem xét điều chỉnh cho ảnh hưởng episode mức độ khác biệt S(t) hai nhóm có thật tồn hay khơng? Vào khoảng thập niên 1970s, David R Cox, giáo sư thống kê học thuộc Đại học Imperial College (London, Anh) phát triển phương pháp phân tích dựa vào mơ hình hồi qui (regression) để trả lời câu hỏi (D.R Cox, Regression models and life tables (with discussion), Journal of the Royal Statistical Society series B, 1972; 74:187220) Phương pháp phân tích đó, sau gọi Mơ hình Cox Mơ hình Cox đánh giá phát triển quan trọng khoa học nói chung (không khoa học thống kê) kỉ 20! Khơng thể kể hết số lần trích dẫn báo David Cox, báo gây ảnh hưởng cho toàn hoạt động nghiên cứu khoa học Vì mơ tả chi tiết mơ hình Cox nằm ngồi phạm vi chương sách này, nên tơi phát hoạ vài nét để bạn đọc nắm vấn đề Gọi x1, x2, x3, … xp p yếu tố nguy x biến liên tục hay khơng liên tục Mơ hình Cox phát biểu rằng: h (t ) = λ (t ) e β1 x1 + β x2 + β3 x3 + + β p x p h(t) định nghĩa phần (tức hàm nguy cơ), βj (j = 1, 2, 3, …, p) hệ số ảnh hưởng liên quan đến xj, λ(t) hàm số nguy yếu tố nguy x không tồn (cịn gọi baseline hazard function) Vì mức độ ảnh hưởng yếu tố nguy xj thường thể tỉ số nguy (hazard ratio, HR, tương tự odds ratio phân tích hồi qui logistic), hệ số exp(βj) HR cho xj tăng đơn vị Hàm coxph package R ứng dụng để ước tính hệ số βj Trong lệnh sau đây: > analysis summary(analysis) Call: coxph(formula = Surv(time, infected == 1) ~ group) n= 48 coef exp(coef) se(coef) z p group 0.684 1.98 0.363 1.88 0.06 group exp(coef) exp(-coef) lower 95 upper 95 1.98 0.505 0.973 4.04 Rsquare= 0.071 (max possible= 0.986 ) Likelihood ratio test= 3.55 Wald test = 3.55 Score (logrank) test = 3.67 on df, on df, on df, p=0.0597 p=0.0596 p=0.0553 Nên nhớ nhóm điều trị cho mã số 1, nhóm giả dược có mã số Do đó, kết phân tích cho biết group tăng đơn vị h(t) tăng 1.98 lần (với khoảng tin cậy 95% dao động từ 0.97 đến 4.04) Nói cách khác, nguy bệnh tái phát nhóm giả dược cao nhóm điều trị gd2 gần lần Tuy nhiên khoảng tin cậy 95% bao gồm trị số p = 0.06, kết luận mức độ ảnh hưởng có ý nghĩa thống kê Nhưng cần phải xem xét (và điều chỉnh) cho ảnh hưởng trình bệnh khứ đo lường biến số episode Để tiến hành phân tích này, cho thêm episode vào hàm coxph sau: > analysis summary(analysis) Call: coxph(formula = Surv(time, infected == 1) ~ group + episode) n= 48 coef exp(coef) se(coef) z p group 0.874 2.40 0.3712 2.35 0.0190 episode 0.172 1.19 0.0648 2.66 0.0079 group episode exp(coef) exp(-coef) lower 95 upper 95 2.40 0.417 1.16 4.96 1.19 0.842 1.05 1.35 Rsquare= 0.196 (max possible= Likelihood ratio test= 10.5 on Wald test = 10.4 on Score (logrank) test = 10.6 on 0.986 ) df, p=0.00537 df, p=0.00555 df, p=0.00489 Kết phân tích cho diễn dịch khác có lẽ xác Mơ hình h(t) là: h ( t | group, episode ) = λ ( t ) e0.874( group )+ 0.172( episode ) Nếu episode tạm thời giữ cố định, tỉ số h(t) hai nhóm là: h ( t | group = ) h ( t | group = 1) = e0.874( 2−1) = 2.40 Tương tự, group tạm thời giữ cố định, episode tăng đơn vị, tỉ số nguy tăng 1.14 lần Nói cách khác, lần mắc bệnh khứ (tức episode tăng đơn vị) làm tăng nguy tái phát bệnh 19% (với khoảng tin cậy 95% dao động từ 5% đến 35%) Nhóm giả dược có nguy bệnh tái phát tăng gấp 2.4 lần so với nhóm điều trị gd2 (và khoảng tin cậy 95% từ 1.2 đến gần lần) Cả hai yếu tố (nhóm điều trị) episode có ý nghĩa thống kê, trị số p Cox.model plot(Cox.model, xlab="Time", ylab="Cumulative survival probability", col=c(“black”, “red”)) hay đơn giản hơn: 0.6 0.4 0.0 0.2 Cumulative survival probability 0.8 1.0 > plot(survfit(coxph(Surv(time, infected==1)~episode+strata(group))), xlab="Time", ylab="Cumulative survival probability", col=c(“black”, “red”)) 10 20 30 40 50 Time 13.6 Xây dựng mơ hình Cox Bayesian Model Average (BMA) Cũng trường hợp phân tích hồi qui tuyến tính đa biến phân tích hồi qui logistic đa biến, vấn đề tìm mơ hình “tối ưu” để tiên đốn biến cố trong điều kiện có nhiều biến độc lập vấn đề nan giải Phần lớn sách giáo khoa thống kê học trình bày ba phương án để tìm mơ hình tối ưu: forward algorithm, backward algorithm, tiêu chuẩn AIC Với phương án forward algorithm, khởi đầu tìm biến độc lập x có ảnh hướng lớn đến biến phụ thuộc y, bước thêm biến độc lập khác x mơ hình khơng cịn cải tiến thêm Với phương án backward algorithm, khởi đầu cách xem xét tất biến độc lập x liệu có ảnh hướng lớn đến biến phụ thuộc y, bước loại bỏ biến độc lập x mơ hình cịn lại biến có ý nghĩa thống kê Hai phương án (forward backward algorithm) dựa vào phần dư (residual) trị số P để xét mơ hình tối ưu Một phương án thứ ba dựa vào tiêu chuẩn Aikaike Information Criterion (AIC) mà tơi trình bày chương trước Để hiểu phương pháp xây dựng mơ hình dựa vào AIC tơi lấy ví dụ thực tế sau Giả dụ muốn từ tỉnh A đến tỉnh B qua huyện C, tuyến đường có lựa chọn: xe hơi, đường thủy, xe gắn máy Tất nhiên, xe đắt tiền xe gắn máy, Mặt khác, đường thủy tốn chậm xe hay xe gắn máy Nếu có tất phương án đi, vấn đề đặt muốn tìm phương án cho tốn nhất, tiêu thời gian ngắn nhất! Tương tự, phương pháp xây dựng mơ hình dựa vào tiêu chuẩn AIC tìm mơ hình cho thơng số có khả tiên đốn biến phụ thuộc đầy đủ Nhưng ba phương án có vấn đề mơ hình “tối ưu” xem mơ hình sau cùng, tất suy luận khoa học dựa vào ước số mơ hình Trong thực tế, mơ hình (kể mơ hình “tối ưu”) có độ bất định nó, có thêm số liệu, mơ hình tối ưu chưa mơ hình sau cùng, suy luận sai lầm Một cách tốt có triển vọng để xem xét đến yếu tố bất định Bayesian Model Average (BMA) Với phân tích BMA, thay hỏi yếu tố độc lập x ảnh hưởng đến biến phụ thuộc có ý nghĩa thống kê hay không, hỏi: xác suất mà biến độc lập x có ảnh hưởng đến y Để trả lời câu hỏi BMA xem xét tất mơ hình có khả giải thích y, xem mơ hình đó, biến x xuất lần Ví dụ Trong ví dụ sau đây, mô nghiên cứu với biến độc lập x1, x2, x3, x4, x5 Ngoại trừ x1, biến mô theo luật phân phối chuẩn Biến y thời gian kèm theo biến tử vong (death) Trong biến x này, có biến x1 có liên hệ với xác suất tử vong mối liên hệ exp(3*x1 + 1), biến x2, x3, x4, x5 mơ tồn độc lập với nguy tử vong Chúng ta sử dụng phương pháp xây dựng mô hình theo tiêu chuẩn AIC BMA để so sánh # Nhập package survival BMA để phân tích > library(survival) > library(BMA) # > > > > > Tạo biến số độc lập x1 survfit(Surv(weeks, status==1)) Hay có object survtime đơn giản “gọi”: > survfit(survtime) Call: survfit(formula = survtime) n events median 0.95LCL 0.95UCL... chẳng hạn kp dùng hàm summary để biết thêm chi tiết: > kp summary(kp) Call: survfit(formula = Surv(weeks, status == 1)) time n.risk n.event survival std.err lower