Bài giảng Ứng dụng mô hình hồi quy Logistic

24 48 0
Bài giảng Ứng dụng mô hình hồi quy Logistic

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng trình bày ứng dụng mô hình hồi quy Logistic; ba ứng dụng hình hồi quy logistic; đánh giá mối liên quản, ảnh hưởng, hiệu chỉnh, tiên lượng; mô hình hiệu chỉnh cho yếu tố nhiễu; áp dụng BMA vào nghiên cứu thiếu cân; diễn giải kết quả BMA...

Ứng dụng mơ hình hồi qui logistic Tuan V Nguyen Senior Principal Research Fellow, Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích liệu ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V Nguyen Ba ứng dụng hình hồi qui logistic • Đánh giá mối liên quan, ảnh hưởng (association) • Hiệu chỉnh (adjustment) cho yếu tố nhiễu • Tiên lượng (prediction) Ứng dụng 1: Đánh giá mối liên quan, ảnh hưởng Cân nặng trẻ sơ sinh mẹ hút thuốc • Câu hỏi nghiên cứu: có mối liên quan mẹ hút thuốc trọng lượng sơ sinh? • Nghiên cứu cắt ngang 189 bà mẹ trẻ sơ sinh • Biến outcome: low, biến tiên lượng: smoke bw = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 62019/Datasets/birthwt.csv") head(bw) id low age lwt race smoke ptl ht ui ftv bwt 85 19 182 0 2523 86 33 155 0 0 2551 87 20 105 1 0 2557 Hiển thị mối liên quan biểu đồ Summary: bw$smoke = as.factor(bw$smoke) estimate bs$low = as.factor(bw$low) lwr.ci upr.ci' library(DescTools) odds ratio 2.022 1.081 3.783 rel risk (col1) 1.258 1.013 1.561 rel risk (col2) 0.622 0.409 0.945 bw$low Sum Desc(bw$smoke ~ bw$low) Mơ hình hồi qui logistic Mơ hình liên quan smoke low sau: gọi P xác suất trọng lượng thấp  P  log   = α + β smoke  1− P  # Triển khai R m = glm(low ~ smoke, family=binomial, data=bw) summary(m) # tính odds ratio library(epiDisplay) logistic.display(m) Kết phân tích Mơ hình liên quan smoke low sau: gọi P xác suất trọng lượng thấp  P  log   = α + β smoke  1− P  Coefficients: Estimate Std Error z value Pr(>|z|) (Intercept) -1.0871 0.2147 0.7041 0.3196 smoke1 -5.062 4.14e-07 *** 2.203 0.0276 * Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’  P  log   = −1.087 + 0.704 × smoke  1− P  Kết phân tích > logistic.display(m) Logistic regression predicting low : vs OR(95%CI) smoke: vs 2.02 (1.08,3.78) P(Wald's test) P(LR-test) 0.028 0.027 Log-likelihood = -114.9023 No of observations = 189 AIC value = 233.8046 Diễn giải: có mối liên quan bà mẹ hút thuốc sinh thiếu cân Tính trung bình, bà mẹ hút thuốc có odds sinh thiếu cân cao lần (KTC 95%: 1.1 đến 3.8) so với bà mẹ không hút thuốc Ứng dụng 2: Hiệu chỉnh cho yếu tố nhiễu Yếu tố nhiễu (confounding factors) • • • • Câu hỏi nghiên cứu: có mối liên quan bà mẹ hút thuốc sinh thiếu cân ? Yếu tố nhiễu: có liên quan đến yếu tố nguy (risk factor) outcome Mối liên quan hút thuốc thiếu cân yếu tố chủng tộc độ tuổi? Câu hỏi mới: mối liên quan hút thuốc thiếu cân có độc lập với yếu tố chủng tộc độ tuổi? Yếu tố nhiễu: chủng tộc > Desc(factor(bw$race) ~ bw$low) bw$low > Desc(factor(bw$race) ~ bw$smoke) bw$smoke Sum factor(bw$race) Sum factor(bw$race) freq p.row p.col 73 76.0% 56.2% 23 24.0% 39.0% 96 freq p.row p.col 44 45.8% 38.3% 52 54.2% 70.3% 96 freq p.row p.col 15 57.7% 11.5% 11 42.3% 18.6% 26 freq p.row p.col 16 61.5% 13.9% 10 38.5% 13.5% 26 freq p.row p.col 42 62.7% 32.3% 25 37.3% 42.4% 67 freq p.row p.col 55 82.1% 47.8% 12 17.9% 16.2% 67 Mô hình hiệu chỉnh cho yếu tố nhiễu • Câu hỏi mới: mối liên quan hút thuốc thiếu cân có độc lập với yếu tố chủng tộc độ tuổi? • Giải pháp: phân tích mơ hình hồi qui logistic • Mơ hình mới:  P  log   = α × β1smoke + β2 race + β3age  1− P  m = glm(low ~ smoke + factor(race) + age, family = binomial, data=bw) logistic.display(m) Kết phân tích > m = glm(low ~ smoke + factor(race) + age, family = binomial, data=bw) > logistic.display(m) OR lower95ci upper95ci Pr(>|Z|) smoke1 3.0058203 1.4499820 6.231081 0.003087348 factor(race)2 2.7494834 1.0453178 7.231924 0.040385185 factor(race)3 2.8769483 1.2983141 age 0.9657186 0.9045206 6.375061 0.009239817 1.031057 0.296337134 Diễn giải: Sau hiệu chỉnh cho yếu tố chủng tộc tuổi, bà mẹ hút thuốc có odds sinh thiếu cân tăng gấp lần (KTC 95%: 1.45 đến 6.23) so với bà mẹ không hút thuốc Những bà mẹ da đen (OR 2.7; KTC95: 1.05 – 7.23) Hispanics (OR 2.88; 95% CI: 1.30 – 6.37) có odds sinh thiếu cân cao bà mẹ da trắng Độ tuổi có mẹ khơng có liên quan có ý nghĩa thống kê với sinh thiếu cân Yếu tố có liên quan đến sinh thiếu cân? • Có yếu tố nguy nghiên cứu: age, race, lwt, smoke, ptl, ht, ui, ftv • Câu hỏi mới: yếu tố có liên quan đến sinh thiếu cân? • Có 2^8 = 256 mơ hình ! • Giải pháp: tìm mơ hình tối ưu (model selection, feature selection) • Phương pháp: Bayesian model averaging (BMA) Tiêu chí cho mơ hình đa biến tối ưu • Đơn giản (simplicity): biến số • Đầy đủ (adequacy): mô tả liệu cách thỏa đáng • Có ý nghĩa thực tế (practicality): phải yểm trợ lí thuyết hay có ý nghĩa sinh học Thách thức: Tìm mơ hình với biến số giải thích nhiều liệu (nguyên tắc parsimony) Tiêu chuẩn thống kê: AIC • AIC = Akaike Information Criterion AIC = Deviance + 2x(thông số mô hình) • • • Mơ hình tối ưu có AIC thấp AIC “phạt” mơ hình có nhiều thơng số Nhiều thuật tốn thống kê phát triển tìm mơ hình với k thơng số cho AIC thấp Tìm mơ hình tối ưu thách thức lớn! Thuật tốn tìm mơ hình tối ưu • • • • Stepwise (forward) algorithm – Bắt đầu với mơ hình thơng số – Từng bước thêm vào thông số deviance khơng cịn giảm Backward algorithm – Bắt đầu với mơ hình gồm k thơng số – Loại bỏ bước thơng số khơng có ý nghĩa thống kê deviance thấp AIC based algorithm: Tìm tất mơ hình với AIC thấp Bayesian model average (BMA) Tìm tổ thơng số cho BIC thấp Áp dụng BMA vào nghiên cứu thiếu cân # Gọi package "BMA" Nếu chưa có, cần phải cài đặt trước library(BMA) # Chuẩn bị liệu, biến y biến x, loại bỏ biến id (cột số 1) y (cột 2) bwt (cột xvars = bw[, -c(1, 2, 11)] yvar = bw[, 2] # Tìm mơ hình tối ưu BMA m = bic.glm(xvars, yvar, strict=F, OR=20, glm.family="binomial") summary(m) imageplot.bma(m) Kết phân tích BMA > summary(m) 84 models were selected Best models (cumulative posterior probability = p!=0 EV SD model Intercept 100 -0.390128 1.575728 age 10.4 -0.004815 0.018070 lwt 54.8 -0.008473 0.009253 race 44.3 0.212462 smoke 52.1 ptl model model model -0.35754 -0.01865 -0.01707 -0.01535 -0.01692 0.280368 0.55898 0.48955 0.484523 0.552668 1.11668 1.08002 41.2 0.291512 0.410590 ht 59.7 1.011382 0.999519 ui 30.0 0.263111 0.470489 ftv 2.0 -0.001015 0.024588 nVar BIC -753.82285 -753.75940 -753.62525 -753.44086 -753.11035 0.058 0.056 0.052 0.048 0.040 1.85551 1.09291 model -2.32488 post prob 1.45068 0.2531 ): 0.72560 1.85604 1.74427 1.06795 1.96157 0.93000 BMA phân tích tất 84 mơ hình, báo cáo mơ hình tốt Diễn giải kết BMA p!=0 EV SD Intercept 100 -0.390128 1.575728 age 10.4 -0.004815 0.018070 lwt 54.8 -0.008473 0.009253 race 44.3 0.212462 0.280368 smoke 52.1 0.484523 0.552668 ptl 41.2 0.291512 0.410590 ht 59.7 1.011382 0.999519 ui 30.0 0.263111 0.470489 ftv 2.0 -0.001015 0.024588 Cột biến số tiên lượng p!=0 xác suất biến số có liên quan với y EV expected value: giá trị trung bình hệ số hồi qui logistic (𝛃) SD standard deviation: độ lệch chuẩn 𝛃 Intercept age lwt race smoke ptl ht ui ftv nVar BIC post prob p!=0 100 10.4 54.8 44.3 52.1 41.2 59.7 30.0 2.0 EV -0.390128 -0.004815 -0.008473 0.212462 0.484523 0.291512 1.011382 0.263111 -0.001015 SD 1.575728 0.018070 0.009253 0.280368 0.552668 0.410590 0.999519 0.470489 0.024588 model 1.45068 -0.01865 1.85551 model 1.09291 -0.01707 0.72560 1.85604 model -2.32488 0.55898 1.11668 model -0.35754 -0.01535 0.48955 1.08002 1.74427 model 1.06795 -0.01692 1.96157 0.93000 -753.82285 0.058 -753.75940 0.056 -753.62525 0.052 -753.44086 0.048 -753.11035 0.040 nVar số biến tiên lượng mô hình BIC Bayesian information criterion (càng thấp tốt) post prob Xác suất hậu định (posterior probability) Model bao gồm biến lwt (cân nặng mẹ) ht (cao huyết áp) Mơ hình có xác suất hậu định ~6% xem tốt mô hình Model BMA 'đề nghị' biến lwt, ptl, ht Model nhận dạng với biến race smoke Kết BMA qua biểu đồ Models selected by BMA age lwt race smoke ptl ht ui ftv 10 12 14 17 Model # 20 23 27 31 36 42 48 56 65 76 Phương pháp BMA • • • • Khơng đưa mơ hình nhất, mà đề nghị mơ hình tốt Mơ hình tốt tuỳ thuộc vào kiến thức chuyên ngành BMA 'chứng minh' phương pháp tốt chọn mơ hình tối ưu Dựa vào kết quả, chọn mơ hình để đánh giá mối liên quan yếu tố nguy nguy sinh thiếu cân? Chọn mơ hình" tối ưu" • • • • • Xây dựng mơ hình đa biến vừa nghệ thuật, vừa khoa học Một mơ hình đẹp mơ hình mơ tả sát với thực tế Một mơ hình phản ánh 100% thực tế khơng cịn “mơ hình” nữa, hay phức tạp ứng dụng Ngược lại mơ hình mơ tả thực tế khoảng 1% khơng thể sử dụng “Mơ hình sai so với thực tế, số mơ hình sai đó, có vài mơ hình có ích (George Box)” ... cịn “mơ hình? ?? nữa, hay q phức tạp ứng dụng Ngược lại mơ hình mơ tả thực tế khoảng 1% khơng thể sử dụng “Mơ hình sai so với thực tế, số mô hình sai đó, có vài mơ hình có ích (George Box)” ...Ba ứng dụng hình hồi qui logistic • Đánh giá mối liên quan, ảnh hưởng (association) • Hiệu chỉnh (adjustment) cho yếu tố nhiễu • Tiên lượng (prediction) Ứng dụng 1: Đánh giá mối... cân? Chọn mơ hình" tối ưu" • • • • • Xây dựng mơ hình đa biến vừa nghệ thuật, vừa khoa học Một mơ hình đẹp mơ hình mơ tả sát với thực tế Một mơ hình phản ánh 100% thực tế khơng cịn “mơ hình? ?? nữa,

Ngày đăng: 24/10/2020, 00:18

Mục lục

    Ba ứng dụng hình hồi qui logistic

    Cân nặng của trẻ sơ sinh và mẹ hút thuốc lá

    Hiển thị mối liên quan bằng biểu đồ

    Mô hình hồi qui logistic

    Kết quả phân tích

    Kết quả phân tích

    Yếu tố nhiễu (confounding factors)

    Yếu tố nhiễu: chủng tộc

    Mô hình hiệu chỉnh cho yếu tố nhiễu

    Kết quả phân tích

Tài liệu cùng người dùng

Tài liệu liên quan