Phương pháp nghiên cứu khoa học - thống kê y học 1

TRƯỜNG ĐẠI HỌC Y KHOA PHẠM NGỌC THẠCH DỰ ÁN U-PNT-03 PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC (LỚP CƠ BẢN 3) PHẦN THỐNG KÊ Y HỌC Tháng 3/2010 Bài KHÁI NIỆM THỐNG KÊ Y HỌC CÁCH SẮP XẾP & TỔ CHỨC SỐ LIỆU ThS BS Nguyễn Thế Dũng MỤC TIÊU: Sau học xong này, học viên có thể: 1/ Phân biệt loại biến số thường dùng thống kê y học 2/ Phân biệt thang đo lường dùng thống kê y học 3/ Biết cách thiết lập bảng phân phối tần số, tần số tương đối, tần số dồn, tần số tương đối dồn 4/ Phát biểu ý nghóa số liệu bảng phân phối tần số, tần số tương đối, tần số dồn, tần số tương đối dồn I MỘT SỐ KHÁI NIỆM CƠ BẢN : Thống kê học (Statistics): môn học cách : thu thập, tổ chức, tóm tắt phân tích số liệu rút suy diễn cho toàn (số liệu) từ kết khảo sát phần số liệu Thống kê sinh học (Biostatistics): thống kê học có số liệu phân tích có nguồn gốc sinh y học Biến số (Variable): đặc tính mang nhiều giá trị khác người, nơi chốn, vật khác – Biến số định lượng (Quantitative variable): biến số đo đạc phép đo lường thông thường Số đo thực biến số định lượng chuyển tải thông tin số (khối) lượng – Biến số định tính (Qualitative variable) : biến số đo phép đo lường thông thường, mà nhóm loại (categorized) Số đo thực biến số định tính chuyển tải thông tin thuộc tính – Biến số ngẫu nhiên (Random variable): biến số mà giá trị có kết yếu tố mang tính hội (chance factors) tiên đoán xác trước Các giá trị có qua phương pháp đo lường gọi quan sát (observations) số đo easurements) – Biến số ngẫu nhiên rời (Discrete random variable): biến số đặc trưng khoảng trống giá trị ⎯ Biến số ngẫu nhiên liên tục (Continous random variable): biến số khoảng trống giá trị DÂN SỐ (Quần thể – Population): tập hợp lớn thực thể mà ta quan tâm thời điểm xác định Nếu đo biến số thực thể dân số, có dân số giá trị biến số Dân số giá trị tập hợp lớn giá trị biến số ngẫu nhiên mà ta quan tâm thời điểm xác định MẪU (Sample): phần (bộ phận) dân số II SỰÏ ĐO LƯỜNG THANG ĐO LƯỜNG (Measurement & Measurement Scale) Sự đo lường định nghóa gán số cho vật thể biến cố theo hệ thống qui tắc Do việc đo lường thực với nhiều hệ thống qui tắc khác nên phải có nhiều thang đo lường khác Thang định danh (Nominal Scale): thang đo lường (ở mức độ) thấp bao gồm việc “đặt tên” cho quan sát phân loại chúng vào nhóm độc lập hỗ tương (mutually exclusive) Thí dụ: chẩn đoán y khoa (bệnh cao huyết áp, bệnh nội tiết, v.v.), thực thể nhị phân nam-nữ, bệnh-khỏe, v v Thang thứ tự (Ordinal Scale): thang đo lường bao gồm không việc định danh mà phân hạng (rank) nhóm loại theo số tiêu chuẩn Thí dụ: bệnh (rất nặng, nặng, vừa, nhẹ), tình trạng kinh tế (cao, vừa, kém), v v Lưu ý mức độ khác biệt số đo thuộc nhóm loại phân hạng Thang khoảng (Interval Scale): tinh vi thang thứ tự chỗ khoảng cách hai số đo biết rõ Thí dụ: hiệu số đo 20 30 với hiệu số đo 30 40 Thang khoảng dùng đơn vị khoảng cách điểm zero chọn tùy ý Tuy nhiên điểm zero trường hợp zero thật (chỉ thị hoàn toàn khối lượng đo) Thí dụ rõ thang khoảng cách đo nhiệt độ, 00 C không đồng nghóa với việc hoàn toàn nhiệt lượng nào.Thang khoảng thang định lượng Thang Tỉ số (Ratio Scale): thang đo lường mức độ cao nhất, đặc trưng tỉ số khoảng định rõ Điểm thang tỉ số có điểm zero thật Thí dụ: chiều cao, cân nặng, chiều dài,v.v III CHUỖI THỐNG KÊ (Ordered array) : danh mục giá trị tập hợp số liệu xếp theo thứ tự từ giá trị nhỏ đến giá trị lớn IV PHÂN PHỐI TẦN SỐ (quency Distribution) Phân nhóm số liệu: số liệu tổ chức, xếp cách phân vào nhiều nhóm (Khoảng cách lớp – KCL) Cách tính số KCL Số KCL tập hợp số liệu thường không nên nhỏ không lớn 15 Để xác hơn, dùng công thức Sturges để tính soá KCL : k = + 3,322 (log10 n) với k : số KCL & n : số giá trị có Thí du: có tập hợp số liệu gồm 57 giá trị, nên phân vào KCL vừa? n = 57 log10 57 = 1,7559 k = + 3,322 (1,7559) ≈ Cách tính độ rộng KCL w : độ rộng KCL w = R k với R: biên độ chuỗi số liệu Thí dụ: có tập hợp số liệu gồm 57 giá trị, giá trị lớn 79 giá trị nhỏ 12 Tính độ rộng KCL? 79 − 12 = 9, ≈ 10 Tập hợp 57 giá trị cân nặng tính ounces 57 khối u ác tính lấy từ bụng 57 bệnh nhân : w 68 24 28 31 49 63 25 25 50 28 42 44 45 38 23 = 27 65 12 21 19 30 43 57 16 46 36 25 51 24 30 28 74 12 69 43 32 51 32 47 49 79 36 49 23 12 27 42 38 22 22 28 42 43 23 31 27 27 Lập bảng phân phối tần số KCL 10 20 30 40 50 60 70 – – – – – – – Tần số 19 29 39 49 59 69 79 19 10 13 4 57 Lập bảng phân phối tần số, tần số dồn, tần số tương đối, tần số tương đối dồn KCL 10 20 30 40 50 60 70 – – – – – – – Taàn soá 19 29 39 49 59 69 79 19 10 13 4 57 Tần số dồn 24 34 47 51 55 57 Tần số tương đối 0,0877 0,3333 0,1754 0,2281 0,0702 0,0702 0,0351 Tần số tương đối dồn 0,0877 0,4210 0,5964 0,8245 0,8947 0,9649 1,0000 1,0000 Lưu ý: Tùy theo nhu cầu mà chọn cột (tần số, tần số tương đối, tần số dồn, tần số tương đối dồn) để trình bày Thông thường trình bày tần số tần số tương đối (tính %) bảng Lập biểu đồ Histogram Histogram biểu đồ phân phối tần số hình que (cột) đặc biệt biến số liên tục Do biểu đồ biến số liên tục nên trình bày cần phải dùng giới hạn thật KCL Tìm giới hạn thật KCL cách trừ ½ đơn vị giới hạn cộng thêm ½ đơn vị giới hạn Bảng phân phối tần số dùng giới hạn thật (để vẽ histogram) Giới hạn thật KCL Tần số 9,5 – 19,5 19,5 – 29,5 29,5 – 39,5 39,5 – 49,5 49,5 – 59,5 59,5 – 69,5 69,5 – 79,5 19 10 13 4 Tần số 20 18 16 14 12 10 9,5 19,5 29,5 39,5 49,5 59,5 69,5 79,5 X Lập biểu đồ đa giác tần số Biểu đồ đa giác tần số thiết lập dựa histogram Bằng cách nối trung điểm mặt ô chữ nhật tượng trưng cho tần số KCL, ta có đa giác tần số Tần ố 20 18 16 14 12 10 9,5 29,5 39,5 49,5 59,5 69,5 19,5http://www.ebook.edu.vn 79,5 X Lập biểu đồ thân–và–lá (Stem-and-leaf) Thân Lá 2 0 2 2 3 4 5 7 7 8 8 2 6 8 3 9 9 Bài TÓM TẮT SỐ LIỆU MỤC TIÊU: Sau học xong này, học viên có thể: 1/ Biết cách tính số đo khuynh hướng tập trung phát biểu ý nghóa số đo 2/ Biết cách tính số đo khuynh hướng phân tán phát biểu ý nghóa số đo 3/ Biết cách thiết lập biểu trình bày số đo khuynh hướng tập trung phân tán I GIỚI THIỆU : Số đo mô tả (descriptive measure) phương tiện tóm tắt số liệu (TTSL) – Số đo mô tả tính từ số liệu mẫu gọi số thống kê (statistic) – Số đo mô tả tính từ số liệu dân số gọi thông số (parameter) II SỐ ĐO KHUYNH HƯỚNG TẬP TRUNG (Measures of Central Tendency) : Số đo khuynh hướng tập trung chuyển tải thông tin giá trị trung bình (average value) tập hợp số liệu Ba số đo khuynh hướng tập trung thường dùng là: số trội số trung vị , số trung bình Số trội (Mode) : Số trội tập hợp giá trị giá trị xuất nhiều lần Một tập hợp giá trị số trội nào, có nhiều số trội Đặc điểm số trội Số trội sử dụng để mô tả số liệu định tính Số trung vị (Median) Số trung vị tập hợp số liệu giá trị đứng phần tập hợp (số giá trị lớn số trung vị với số giá trị nhỏ số trung vị) Nếu số giá trị số lẻ, số trung vị giá trị đứng chuỗi thống kê Nếu số giá trị số chẵn, số trung vị số trung bình giá trị đứng chuỗi thống kê Đặc điểm số trung vị: – Độc (đối với tập hợp số liệu có số trung vị) – Đơn giản (dễ hiểu dễ tính toán) – Giá trị cực (extreme values) không gây ảnh hưởng nhiều đến số trung vị Số trung bình toán học (Arithmatic Mean) : Trung bình (của) dân số (Population Mean) : ∑x N i µ = i =1 N N: số giá trị dân số Trung bình (của) mẫu (Sample Mean) : ∑x n i x = i =1 n n: số giá trị mẫu Đặc điểm số trung bình: – Độc (đối với tập hợp số liệu có số trung bình) – Đơn giản (dễ hiểu dễ tính toán) – Giá trị cực (extreme values) gây ảnh hưởng nhiều đến số trung bình Số trung bình gia trọng (Weighted mean) Là số trung bình tính phân tích số liệu từ nhiều mẫu loại thông tin thu thập thời điểm khác có cỡ mẫu khác Số trung bình gia trọng tính sau: Weighted x = ∑ ni x i/N ni số giá trị mẫu i số trung bình mẫu i xI N tổng số giá trị mẫu Trimmed mean (số trung bình gọn) Winsorized mean (số trung bình gán) Là hai phép tính lại số trung bình nhằm hạn chế tác động giá trị cực – Trimmed mean: số trung bình tính sau “gọt bỏ” giá trị đầu giá trị cuối chuỗi thống kê – Winsorize mean: số trung bình tính sau gán 5% số giá trị đầu chuỗi thống kê (các giá trị cực thấp) với giá trị thấp (so với 5% giá trị cực thấp), 5% số giá trị cuối chuỗi thống kê (các giá trị cực cao) với giá trị cao (so với 5% giá trị cực cao) III SỐ ĐO KHUYNH HƯỚNG PHÂN TÁN (Measures of Dispersion) : Số đo phân tán chuyển tải thông tin khối lượng (mức độ) biến thiên diện tập hợp số liệu Biên độ(Range) : R = xL – xs Công dụng biên độ giới hạn (vì dùng có giá trị) Phương sai (Variance) : Phương sai tập hợp số liệu số đo độ phân tán tương đối giá trị (thuộc tập hợp) xung quanh số trung bình (của tập hợp số liệu) + Phương sai (của) dân số (Population Variance) ∑ (x N σ2 = − µ) i i =1 N N: số giá trị dân số + Phương sai (của) mẫu (Sample Variance) Trường hợp mẫu nhỏ : ∑ (x n i S2 = − x) i =1 n −1 n: số giá trị mẫu Trường hợp mẫu lớn : n× ∑ xi2 n S = i =1 − ⎛⎜ ∑ xi ⎞⎟ ⎝ i =1 ⎠ n n(n −1) Độ lệch chuẩn (Standard Deviation) ĐLC số đo độ phân tán giống phương sai, diễn tả đơn vị đo ban đầu ĐLC tính cách rút phương sai ĐLC dân số có ký hiệu σ (sigma), ĐLC mẫu có ký hiệu s IV Bách phân vị Tứ phân vị (Percentiles and Quartiles) Cho tập hợp có n giá trị x1, x2, …… , xn, bách phân vị thứ p (gọi P) giá trị X mà theo có ≤ p% số giá trị nhỏ P (100–p)% số giá trị lớn P P10 bách phân vị thứ 10, P50 bách phân vị thứ 50, v v Thông thường, bách phân vị tính trường hợp tập hợp số liệu lớn Để tính Spearman rho, chuỗi thống kê xếp hạng từ thấp đến cao Các giá trị (tied observations) xếp hạng ngang nhau, tính trung bình thứ hạng chúng Thí dụ : Giá trị đo : Xếp hạng(dự kiến) : 5 Xếp hạng (đúng) : 3 Sau xếp hạng, hiệu thứ hạng biến số X Y tính, tổng lại, bình phương lên, sử dụng để tính số TKKĐ rrho rrho = 1– [(6 ΣD2)/n(n2 – 1)] Spearman rho có biến thiên cách diễn đạt giống Pearson r Thí dụ minh hoạ 1: Khảo sát 08 bệnh nhân Số điếu thuốc hút Độ nặng bệnh B/n R1 R2 D(R1 – R2) D2 1 –1 2 –2 3 0 4 5 –2 6 1 7 –1 8 Hiệu thứ hạng R1 : thứ hạng b/n xét theo số điếu thuốc hút, thấp (=1), nhiều (=8) R2 : thứ hạng b/n xét theo độ nặng bệnh, nhẹ (=1), nặng (=8) Giả thuyết : H0 : Khơng có mối liên quan số điếu thuốc hút độ nặng bệnh HA : Có mối liên quan số điếu thuốc hút độ nặng bệnh Tính Spearman rho: rrho = 1– [(6 ΣD2)/n(n2 – 1)] = 1– [6 (24)]/[8(64 – 1)] = 0,71 Kiểm định Spearman rho dân số Số TKKĐ : t = rho n − / − rho = 0,71 / − 0, 712 = 1,74/0,7 = 2,49 Với 06 độ tự do, α = 0,05, giá trị tới hạn t 2,447 20 Từ chối H0 số TKKĐ lớn giá trị tới hạn (2,49 > 2,447) Kết luận : Có mối liên quan thuận chiều (có ý nghĩa thống kê) số điếu thuốc hút độ nặng bệnh Spearman rho test sử dụng trường hợp có biến số thang khoảng Tuy nhiên, giá trị biến số phải chuyển thành thứ hạng trước tính tốn X Y Hiệu thứ hạng B/n R1 8,5 135 6,5 8,5 120 140 130 135 6,5 145 150 2,5 1,5 150 2,5 1,5 160 R2 D(R1 – R2) D2 V SIGN TEST Thường sử dụng để đánh giá số liệu dạng cặp đôi (matched pairs) mẫu khảo sát Sign test không địi hỏi dân số khảo sát phải phân phối bình thường Giả thuyết trống sign test phát biểu: P(Xi > Yi) = P(Xi < Yi) = 0,5 Trong cặp, lấy Xi trừ cho Yi Nếu Yi nhỏ Xi, dấu hiệu số dấu cộng (+), Yi lớn Xi, dấu hiệu số dấu trừ (–) Nếu số trung vị hiệu 0, số dấu (+) số dấu (–) bên số trung vị Như vậy, giả thuyết trống phát biểu : H0 : P(+) = P(–) = 0,5 Số TKKĐ S số dấu (+) đếm hiệu tính từ cặp Nếu H0 đúng, S có phân phối nhị phân với n p=0,5 p(S=x) = Cxn (0,5) x (0,5) n − x 21 Thí dụ minh họa: Một nhóm nghiên cứu muốn biết liệu việc hướng dẫn chải cách có mang lại hiệu khơng 12 cặp b/n đến khám khoa Nha chọn kỹ để bắt cặp với theo tuổi, phái, trình độ học vấn, điểm vệ sinh khám lúc ban đầu Một thành viên cặp hướng dẫn cách chải vấn đề vệ sinh khác Sáu tháng sau, 24 đối tượng khám chấm điểm vệ sinh nha sĩ đối tượng hướng dẫn Điểm vệ sinh thấp cho thấy tình trạng vệ sinh cao Đi m v sinh Được hướng dẫn (Xi) 1,5 2,0 3,5 3,0 3,5 2,5 2,0 1,5 1,5 2,0 3,0 2,0 Cặp số 10 11 12 Không hướng dẫn (Yi) 2,0 2,0 4,0 2,5 4,0 3,0 3,5 3,0 2,5 2,5 2,5 2,5 Giả thuyết H0 : Số trung vị hiệu zero [P(+) = P(–)] HA : Số trung vị hiệu số âm [P(+) < P(–)] Tính số TKKĐ : với np n(1–p) lớn 5, dùng z test với z = S − 0,5n ± 0,5 n = 11 (do có hiệu 0) 0,5 n ± 0,5 hệ số điều chỉnh chuyển từ PP Nhị phân sang PPBT Khi S 0,5n, dùng –0,5 Cặp 10 11 12 Dấu – hiệu – + – – – – – – + – − (0,5 x11) − 0,5 = –1,809 0,5 11 P(z ≤ –1,809) = 0,0359 < 0,05 (ά) z = Từ chối H0 với p = 0,035 Trung vị hiệu số âm Việc hướng dẫn có hiệu 22 VI MANN-WHITNEY WILCOXON TEST Khi so sánh mẫu độc lập mà giả định để sử dụng student’s t test không thỏa Mann-Whitney Wilcoxon test (Mann-Whitney U test) lựa chọn thay Trong test này, số trung vị dân số, X Y, so sánh với Test sử dụng thứ hạng (ranks) giá trị đo từ mẫu xếp lại mẫu Trong Mann-Whitney U test, giả thuyết trống phát biểu: H0: MX = MY Thí dụ minh họa: nhà nghiên cứu thiết kế thí nghiệm nhằm đánh giá tác dụng việc hít dài lâu chất Cadmium Oxide Nhà nghiên cứu sử dụng 15 vật thí nghiệm cho nhóm thực nghiệm 10 tương tự làm nhóm chứng Biến số có liên quan nồng độ hemoglobin Nhà nghiên cứu muốn biết liệu kết luận việc hít dài lâu cadmium oxide có làm giảm nồng độ hemoglobin Nồng độ Hemoglobin (grams) 25 vật thí nghiệm Nhóm thực nghiệm (X) Nhóm chứng (Y) 14,4 14,2 13,8 16,5 14,1 16,6 15,9 15,6 14,1 15,3 15,7 16,7 13,7 15,3 14,0 17,4 16,2 17,1 17,5 15,0 16,0 16,9 15,0 16,3 16,8 Giả thuyết: H0: MX ≥ MY HA: MX < MY α = 0,05 MX số trung vị dân số vật thí nghiệm cho hít cadmium oxide MY số trung vị dân số vật thí nghiệm khơng cho hít cadmium oxide 23 Số liệu ban đầu thứ hạng (Nồng độ Hemoglobin (grams) 25 vật thí nghiệm) X Rank 13,7 13,8 14,0 14,1 14,1 14,2 14,4 4,5 4,5 15,3 15,3 15,6 15,7 15,9 16,5 16,6 16,7 Tổng Y Rank 15,0 15,0 8,5 8,5 16,0 16,2 16,3 15 16 17 16,8 16,9 17,1 17,4 17,5 21 22 23 24 25 10,5 10,5 12 13 14 18 19 20 180 145 Nếu H0 đúng, tổng thứ hạng 325 chia cho nhóm (trường hợp cỡ mẫu nhau– tổng thứ hạng nhóm 325/2 (MX = MY) ; tổng thứ hạng X lớn tổng thứ hạng Y (MX > MY) Số TKKĐ: T= S− n(n + 1) n: số mẫu X S : tổng số thứ hạng thuộc mẫu X (S chọn tùy ý X Y) Qui tắc định: Từ chối H0 giá trị tính T nhỏ giá trị tới hạn ωα (tra được) n = 15, m =10, α = 0,05 ωα = 45 Tính T: T = 145 − 15(15 + 1) = 25 Từ chối H0 Việc hít cadmium oxide kéo dài làm giảm nồng độ hemoglobin 0,005 > p > 0,001 24 Trường hợp n m lớn cỡ mẫu bảng tra ( > 15–20), chuyển sang z: z= T − mn / nm(n + m + 1) /12 (z = 25 − 150 / = −2, 78 ) 150 (26 ) / 12 P(z < -2,78) = 0,0027 Các vùng từ chối Mann-Whitney test theo giả thuyết 25 VII KRUSKAL-WALLIS TEST Khi so sánh mẫu độc lập mà giả định để sử dụng One-way ANOVA test không thỏa Kruskal-Wallis lựa chọn thay Kruskal-Walis test địi hỏi mẫu phải độc lập lập có ≥ nhóm (k ≥ 3) Trong test này, số trung vị dân số so sánh với Test sử dụng thứ hạng (ranks) giá trị đo từ mẫu xếp lại mẫu Trong Kruskal-Wallis test, giả thuyết trống phát biểu: H0: M1 = M2 = M3 = ……… = Mn Thí dụ minh hoạ: Tác dụng loại thuốc thời gian phản ứng đ/v kích thích định khảo sát mẫu động vật thí nghiệm Mẫu III mẫu chứng, mẫu I cho dùng thuốc A mẫu II cho dùng thuốc B trước áp dụng kích thích Thời gian phản ứng đo giây Có thể kết luận có khác biệt thời gian phản ứng dân số đại diện mẫu động vật thí nghiệm khơng? Thời gian phản ứng 13 đ ng vật thí nghi m Mẫu I II III 17 20 40 31 35 Giả thuyết: H0: Số trung vị dân số HA: Có cặp số trung vị (từ dân số ) khác α = 0,01 Thời gian phản ứng thay ranks Mẫu I II III 10 13 11 12 6,5 6,5 R1= 55 R2 = 26 R3 = 10 26 Số TKKĐ: k R 12 j H= Σ − 3(n + 1) n(n + 1) j =1 n j k: số mẫu (khảo sát) Rj: tổng thứ hạng mẫu thứ j nj: số giá trị (đo được) mẫu thứ j n: tổng số giá trị (đo được) mẫu Qui tắc định: Từ chối H0 giá trị tính H lớn đến mức giá trị p tìm thấy nhỏ α (0,01) Giả thuyết trống hàm ý tất giá trị đo mẫu hình thành nên mẫu đơn có n = 13 rút từ dân số đơn Nếu điều đúng, thứ hạng phải phân phối nhóm, điều mong đợi tổng (toàn bộ) thứ hạng chia nhóm theo tỉ lệ cỡ mẫu Sự khác biệt (không đồng đều) có phản ánh qua độ lớn H Tính H: ⎡ (55) (26) (10) ⎤ 12 + + − 3(13 + 1) 13(13 + 1) ⎢⎣ 4 ⎥⎦ = 10,68 Tra bảng với nj 5, 4, 4, xác suất tìm thấy giá trị H ≥ 10,68 nhỏ 0,009 H= Từ chối H0 ngưỡng (có ý nghĩa thống kê) 0,01 Có khác biệt thời gian phản ứng dân số p < 0,009 Khi có mẫu mẫu có ≤ giá trị, giá trị p (của H tính được) tìm cách tra bảng Khi có > giá trị hay nhiều mẫu, H xem phân phối χ2 dạng đặc biệt với k–1 độ tự - / 27 Bài 11 (TKYH) HỒI QUI LOGISTIC (Logistic Regression) I GIỚI THIỆU Hồi qui logistic kỹ thuật phân tích hồi qui biến số phụ thuộc (Y) biến số nhị phân (dichotomous – binary variable), theo Y thường mã hố (Y = 1, thành công; Y = 0, thất bại) Biến số độc lập hồi qui logistic biến số rời liên tục, biến số đơn đa biến số Phần trình bày nguyên lý hiểu biết hồi qui logistic II MƠ HÌNH HỒI QUI LOGISTIC Phương trình hồi qui tuyến tính: µ y / x = β + β1 X β + β1 µ y / x số trung bình tiểu dân số Y X biết trước β số nơi đường hồi qui cắt trục Y, ước lượng giá trị trung bình Y X = β1 số ước lượng độ dốc, cho biết thay đổi trung bình Y kèm với thay đổi x biến thiên từ −∞ đến +∞ Khi Y biến số nhị phân, phương trình khơng sử dụng giá trị mong đợi (số trung bình) Y xác suất để Y = với giới hạn biến thiên từ đến Nếu đặt p = P(Y=1) tỉ số (p/1–p) biến thiên khoảng đến +∞ Ngoài ra, logarithm tự nhiên (ln) p/(1-p) biến thiên khoảng −∞ đến +∞ Như vậy: ⎡ p ⎤ Ln ⎢ ⎥ = β + β1 X (1) ⎣1 − p ⎦ (1) gọi mơ hình hồi qui logistic chuyển dạng µ y / x (hoặc p) thành ln [p/(1–p)] gọi chuyển dạng logit (logit transformation) (1) trình bày sau: p= exp( β + β1 X ) + exp( β + β1 X ) exp: nghịch đảo ln III HỒI QUI LOGISTIC VỚI BIẾN SỐ ĐỘC LẬP NHỊ PHÂN Sử dụng bảng 2x2 với số TKKĐ Tỉ số chênh (Odds Ratio) 28 IV HỒI QUI LOGISTIC VỚI BIẾN SỐ ĐỘC LẬP LIÊN TỤC Thí dụ minh hoạ: Xác định mối tương quan tuổi nồng độ Cholesterol toàn phần (TC) thực cộng đồng người Mỹ gốc Mỹ La tinh (Hispanic Americans), dựa để tiên đốn khả người Hispanic American có nồng TC ≥ 240 biết trước tuổi người Hispanic Americans với nồng độ TC ≥ 240 mg% phân bố theo Tuổi Số khám (ni) Nhóm tuổi (năm) 25 – 34 35 – 44 45 – 54 55 – 64 65 – 74 Số có TC ≥ 240 (ni1) 522 330 344 219 114 41 51 81 81 50 Biến số độc lập biến số liên tục (Tuổi) Do khơng có số liệu tuổi cá nhân nên việc phân tích Biến số phụ thuộc biến số nhị phân (TC ≥ 240 TC < 240) Kết quả: β฀0 = −4, 04 PT Hồi qui: β฀1 = 0, 06 ฀y = −4, 04 + 0, 06 x i ฀y = ln(n / n ) ni1: số người nhóm tuổi thứ I có TC ≥ 240 i i1 i2 ni1 + ni2 = ni Kiểm định giả thuyết H0: β1 = cho kết p < 0,0001 (Chisquare test vói df) Kết luận: Phương trình hồi qui thích hợp để sử dụng Sử dụng hồi qui logistic để tiên đốn: tìm xác suất để Hispanic American độ tuổi 29,5 có TC ≥ 240 p= exp[−4, 04 + (0, 06)(29,5)] = 0, 087 + exp[−4, 04 + (0, 06)(29,5)] V HỒI QUI LOGISTIC VỚI ĐA BIẾN SỐ ĐỘC LẬP RỜI Mơ hình hồi qui logistic (với biến số độc lập rời – discrete independent variables) PX = 1 + exp[− ( β0 + β1 X + β X + β X )] - 29 Bài 12 (TKYH) PHƯƠNG PHÁP CƠ BẢN CỦA PHÂN TÍCH THỜI GIAN SỐNG (Basic methods for Survival Analysis) I GIỚI THIỆU Trong nghiên cứu thử nghiệm lâm sàng, nhà nghiên cứu muốn theo dõi tiến triển bệnh nhân (b/n) từ thời điểm định (như thời điểm tiến hành phẫu thuật bắt đầu chế độ điều trị) đến xảy biến cố xác định rõ (như tử vong triệu chứng bệnh chấm dứt) Thí dụ: nghiên cứu tiến hành người bị nhồi máu tim (NMCT) lần thứ nhằm đánh giá hiệu loại thuốc phòng chống NMCT lần thứ hai Nghiên cứu tiếp tục bệnh nhân (trong mẫu nghiên cứu) trải qua biến cố sau: có NMCT lần thứ hai (biến cố quan tâm), theo dõi số lý tử vong không đột quỵ tim, dời nhà nơi khác (với lần gặp cuối khơng có NMCT lần hai), cịn sống khơng có NMCT lần hai thời điểm chấm dứt nghiên cứu Trên b/n mẫu nghiên cứu, nhà nghiên cứu ghi nhận lượng thời gian (tính tháng, ngày, năm,…) từ lúc bắt đầu tham gia vào nghiên cứu đến trải qua biến cố kết thúc Thời gian đo b/n gọi thời gian sống (survival time) Tập hợp tất thời gian sống đo nghiên cứu gọi số liệu thời gian sống (survival data) Số liệu thời gian sống bao gồm loại: + Loại “cắt” (censored) bao gồm số liệu thu từ b/n theo dõi b/n cịn s ng khơng có NMCT lần 2; + Loại “khơng cắt” (uncensored) bao gồm số liệu thu từ b/n có NMCT lần Với thông tin loại thuốc phòng chống NMCT (A B), thời gian theo dõi b/n, tình trạng “cắt” “khơng cắt” b/n, tính ước lượng so sánh số trung vị thời gian sống nhóm đối tượng nghiên cứu để trả lời câu hỏi: + Có thể kết luận loại điều trị (A B) giúp kéo dài thời gian (trung bình) xảy NMCT lần 2? + Xác suất (ước lượng) để b/n, bị NMCT lần 1, dùng thuốc A sống năm (mà không bị NMCT lần 2) bao nhiêu? Phương pháp thống kê, sử dụng thông tin thu thập từ nghiên cứu tiền cứu (follow-up studies), dùng để trả lời câu hỏi gọi Phân tích thời gian sống (Survival Analysis) Bài giới hạn việc giới thiệu phương pháp Phân tích thời gian sống Kaplan-Meier (Kaplan-Meier survival analysis) phương pháp thường sử dụng thử nghiệm lâm sàng II PHÂN TÍCH THỜI GIAN SỐNG KAPLAN-MEIER Trong phân tích thời gian sống Kaplan-Meier (gọi tắt phương pháp Kaplan-Meier), biến số kết (phụ thuộc) phải dạng nhị phân (sống/chết, cải thiện/không cải thiện,….) 30 Thí dụ minh hoạ: Để đánh giá kết xác định số tiên đoán thời gian sống (predictors of survival) b/n bị u ác tính nguyên phát xương ức, nhóm nghiên cứu phân b/n thành nhóm: nhóm có u mức độ thấp (low-grade), nhóm có u mức độ cao (high-grade) với số liệu Chúng ta muốn so sánh thời gian sống năm (5-year survival experience) nhóm b/n phương pháp Kaplan-Meier 1/ Số liệu: L: low-grade; H: high-grade 31 Sắp xếp giải thích số liệu: Số liệu xếp thành chuỗi thống kê theo thời gian sống ghi nhận (Time), số b/n có nguy số b/n sống sót tính theo thời điểm, xác suất sống sót tính cho b/n tương ứng với thời điểm, xác suất (nhân) dồn tính thời điểm Cột 3: số b/n có nguy thời điểm có b/n tử vong Cột 4: số b/n cịn sống sau nhiều cas tử vong Cột 5: Xác suất có điều kiện (ước lượng) tình trạng sống sót (tính cách lấy số cột chia cho số cột 3) Lưu ý: cas tử vong thời điểm tính lần (gộp 2) 32 Cột 6: Xác suất dồn tình trạng sống sót (xác suất cột nhân cho xác suất dồn cột ) Nhận định kết quả: dựa vào bảng trên, ta dễ dàng so sánh thời gian sống nhóm 2/ Tìm số trung vị thời gian sống (Median survival time): cách tìm vị trí tháng mà xác suất dồn 50% Trong nhóm low-grade, xác suất dồn thay đổi từ 0,619 xuống 0,31 tháng thứ 212, median survival time nhóm 212 tháng Trong nhóm high-grade, xác suất dồn thay đổi từ 0,57 xuống 0,43 tháng thứ 9, median survival time nhóm tháng 3/ Tìm tỉ suất sống sót sau năm (five-year survival rate): Bằng cách tìm trực tiếp cột xác suất dồn xác suất tương ứng với tháng thứ 60 Trong nhóm low-grade, five-year survival rate 73%, nhóm high-rate, tỉ suất 7% 4/ Tính tỉ suất nguy hại trung bình (Average hazard rate) Là số đo khả khơng sống sót Tỉ suất sử dụng để so sánh mức độ nguy hại nhóm Tính tỉ suất ( h ) cách lấy số b/n tử vong chia cho tổng thời gian sống ghi nhận 33 Average hazard rate nhóm low-grade: h L = / 2201 = 0, 004 Average hazard rate nhóm high-grade: h H = 13 / 257 = 0, 05 Tỉ suất nguy hại trung bình nhóm high-grade cao nhiều so với tỉ suất nhóm low-grade cho thấy hội sống sót b/n thuộc nhóm high-rate nhỏ 5/ Kaplan-Meier survival curve (Đường cong Thời gian sống Kaplan-Meier) Trục dọc: xác suất dồn Trục ngang: Thời gian (tháng) Các bậc thang xuống cho biết thời điểm có tử vong Đường cong cho thấy Median survival times Five-year survival rates nhóm 6/ Kết luận: quan sát cho thấy trải nghiệm tình trạng sống b/n thuộc nhóm lowgrade thuận lợi nhiều so với b/n thuộc nhóm high-grade (Thời gian sống lowgrade b/n dài high-grade b/n) III LOGRANK TEST Là test kiểm định giả thuyết khác biệt thời gian sống dân số Là ứng dụng phương pháp Mantel-Haenszel ) Số TKKĐ: Logrank statistic Mantel-Haenszel statistic ( χ MH - 34 ... theo giả thuyết σ/ n Công thức chung để tính số TKKĐ Số thống kê sát hợp – thông số theo giả thuyết Số TK kiểm định = sai số chuẩn số thống kê sát hợp 3.5 Phân phối số TKKĐ (Distribution of the. .. thường dân số, phương sai nhau, mẫu độc lập 3.3 Giả thuyết (Hypothesis): Trong KĐGT có giả thuyết thống kê, Giả thuyết trống (Null hypothesis): giả thuyết cần kiểm định Ký hiệu H0 Đôi gọi giả thuyết... lập theo biểu thức (1)] chứa trung bình dân số Có thể tổng quát hóa diễn giải đặt toàn phần diện tích đường cong x nằm khoảng µ ± 2σ x α, phần diện tích nằm khoảng µ ± 2σ x (1– α) Diễn giải theo

Định dạng
Số trang	86
Dung lượng	880,57 KB