Nội dung của bài giảng bao gồm: mô hình hồi quy tuyến tính đa biến; đánh giá mối liên quan; hiệu chỉnh cho yếu tố nhiễu; mô hình tiên lượng.
Tuan V Nguyen Senior Principal Research Fellow, Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích liệu ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 â Tuan V Nguyen Ni dung ã Mụ hỡnh hồi qui tuyến tính đa biến • Ứng dụng 1: đánh giá mối liên quan (association / assessment) • Ứng dụng 2: hiệu chỉnh cho yếu tố nhiễu (adjustment) • Ứng dụng 3: mơ hình tiên lượng (prediction) Mơ hình hồi qui tuyến tính đa biến • Mơ hình hồi qui tuyến tính đơn giản: Y = β + β 1X • Mơ hình hồi qui tuyến tính đa biến: Y = β0 + β1X1 + β2X2 + β3X3 + + βpXp • Các biến X biến liên tục hay phân nhóm Mơ hình hồi qui tuyến tính đa biến • Mơ hình Y = b + b1 X + b X + + b p X p + e • Y biến phụ thuộc (dependent variable), biến liên tục • X1, X2, X3, …, Xp : biến tiên lượng β1, β2, β3, , βp : regression coefficients (hệ số hồi qui ) ε ~ phân bố chuẩn (normal), độc lập, trung bình 0, phương sai σ2 ε ~ (0, σ2) Hàm lm R • Trong R, có hàm lm (linear models) – giải phương trình để ước tính tham số – tính tốn số thống kê liên quan đến mơ hình – đánh giá thích hợp mơ hình • Cơng thức chung lm(y ~ x1 + x2 + x3 + ) Mục tiêu mơ hình hồi qui đa biến • Hiểu đánh giá tác động yếu tố liên quan (assessment) • Hiệu chỉnh (adjustment) • Tiên lượng (prediction) Nghiên cứu thực tế: tìm mơ hình tiên lượng tỉ trọng mỡ • Nghiên cứu béo phì 1217 người Việt • Đo tỉ trọng mỡ máy DXA (pcfat) • Mục tiêu – Ảnh hưởng tuổi đến tỉ trọng mỡ – Khác biệt tỉ trọng mỡ nam nữ – Ảnh hưởng tuổi có độc lập với giới tính – Xây dựng mơ hình dùng số liệu nhân trắc để tiên lượng tỉ trọng mỡ > ob = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 6-2019/Datasets/obesity data.csv") > head(ob) id gender height weight bmi age WBBMC 1 F 150 49 21.8 53 1312 2 M 165 52 19.1 65 1309 3 F 157 57 23.1 64 1230 4 F 156 53 21.8 56 1171 5 M 160 51 19.9 54 1681 6 F 153 47 20.1 52 1358 bmd 0.88 0.84 0.84 0.80 0.98 0.91 fat 17802 8381 19221 17472 7336 14904 lean pcfat 28600 37.3 40229 16.8 36057 34.0 33094 33.8 40621 14.8 30068 32.2 Câu hỏi nghiên cứu • Có mối liên quan độ tuổi cân nặng với mật độ xương (bmd) • Yếu tố có liên quan đến mật độ xương • Có thể xây dựng mơ hình tiên lượng tỉ trọng mỡ (pcfat) – Mơ hình gồm biến nào? Ứng dụng mơ hình HQTT 1: đánh giá mối liên quan Package “relaimpo” R • relaimpo – ước tính R2 cho biến • Phương pháp bootstrap • lmg = Lindermann, Merenda, Gold (một thước đo tốt) • Phương pháp lmg "tách" R2 cho biến tiên lượng summary(lm(pcfat ~ gender + age + bmi + height + weight, data=ob)) Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 9.677701 15.611478 0.620 0.5354 genderM -11.441050 0.343970 -33.262 < 2e-16 *** age 0.054933 0.007404 7.420 2.2e-13 *** bmi 0.858035 0.337409 2.543 0.0111 * height -0.010991 0.099609 -0.110 0.9122 weight 0.093949 0.136641 0.688 0.4919 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ m = lm(pcfat ~ gender + age + bmi + height + weight, data=ob) library(relaimpo) calc.relimp(m, type="lmg", rela=T, rank=T) > calc.relimp(m, type="lmg", rela=T, rank=T) Response variable: pcfat Total response variance: 51.5935 Analysis based on 1217 observations Regressors: gender age bmi height weight Proportion of variance explained by model: 69.66% Metrics are normalized to sum to 100% (rela=TRUE) Relative importance metrics: lmg gender 0.50802351 age 0.05465515 bmi 0.19175889 height 0.15217127 weight 0.09339118 Đánh giá mơ hình hồi qui tuyến tính • Sau mơ hình đáp ứng giả định (tuyến tính, phương sai bất biến, độc lập, phân bố chuẩn) • Đánh giá dựa vào số – Hệ số xác định – Residual mean square (phương sai mơ hình) – "Relative importance" biến tiên lượng Ứng dụng mơ hình HQTT 2: hiệu chỉnh Hiệu chỉnh • Câu hỏi nghiên cứu: mật độ xương có khác nam nữ sau hiệu chỉnh cho độ tuổi bmi? • Biến outcome: bmd • Biến so sánh: gender • Biến covariates: age, bmi • Triển khai R m1 = lm(bmd ~ gender, data=ob) m2 = lm(bmd ~ gender + age + bmi, data=ob) summary(m1); summary(m2) Kiểm định giả thuyết nam = nữ (BMD) m1 = lm(bmd ~ gender, data=ob) summary(m1) Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 0.987587 0.003687 267.85