Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
1,31 MB
Nội dung
COURSE Xây dựng hồi quy đa biến Phân tích thống kê Nhóm NCV trẻ Khương Quỳnh Long Hà Nội, 04/2020 https://gitlab.com/LongKhuong Mục tiêu • • • • Một số số lựa chọn mơ hình Ngun tắc chung xây dựng hồi quy đa biến Một số phương pháp xây dựng hồi quy đa biến Ưu điểm, nhược điểm Correlation Inference modeling Causation Statistics Predictive modeling Correlation ≠ Causation Source of bias • Sai lệch tiềm tàng mơ hình Sai lệch hệ thống (systematic) Không hiệu chỉnh nhiễu Interaction/Effect modification Cộng tuyến (collinearity) … “All model are wrong, but some are useful” ! Hồi quy đa biến • Phương trình: y = α + β1x1 + β2x2 + … + βnxn +ε • Mơ hình y theo x1, x2,…, xn • Kiểm soát yếu tố gây nhiễu Chỉ yếu tố gây nhiễu thêm vào mơ hình Mơ hình q phức tạp/dư thừa Cách 1: Khái niệm + thống kê Biến gây nhiễu (khái niệm) • Yếu tố bên ngồi, tác động đồng thời lên yếu tố phơi nhiễm kết • Khơng nằm đường từ phơi nhiễm kết Giới tính Hút thuốc K phổi Biến gây nhiễu • Theo thống kê: so sánh hệ số phương trình sai số (standard error) z y Rule of thumb: o Nếu z làm thay đổi beta > 10% (hoặc 15%) z biến gây nhiễu Giữ Z mơ hình o Khơng thay đổi beta, SE Z predictor y Tùy tình o Tăng SE Z X cộng tuyến (collinear) Loại Z khỏi mơ hình Khái niệm + thống kê 10 Hồi quy logistic đa biến • Hồi quy logistic: log(p/(1-p)) = α + β1x1 + β2x2 + … + βnxn • Xây dựng mơ hình giải thích dựa vào “log-odds” • Kiểm sốt yếu tố gây nhiễu 28 Hồi quy logistic đa biến • Quy trình tương tự hồi quy tuyến tính • Xác định biến gây nhiễu: Khái niệm Sự thay đổi beta & SE (Chú ý: beta = log(odds), OR) • So sánh mơ hình Likelihood ratio test # Partial F test (nested models) AIC/BIC 29 Hồi quy logistic đa biến • Data “WCGS.dta” Age ? Smoke CHD • Về lý thuyết tuổi ảnh hưởng smoke? 30 Hồi quy logistic đa biến chd ~ smoke chd ~ smoke + age • Thay đổi beta – log(odds): log-likelihood(reduce) 32 AIC/BIC logistic chd smoke age estat ic 33 Bài tập nhóm • HERS data (“HERS.dta”) • Nghiên cứu thử nghiệm lâm sàng đánh giá liệu pháp điều trị hormone thay phòng ngừa nhồi máu tim tử vong Dữ liệu thu thập baseline 2763 phụ nữ mãn kinh có bệnh CHD • Mục đích (của ví dụ này) Có mối liên quan luyện tập thể dục đến đường huyết? 34 HERS data 35 Framework 36 bước xây dựng mơ hình • Bước 1: • Bước 2: • Bước 3: • Bước 4: 37 Một số phương pháp khác 38 Một số phương pháp lựa chọn biến • Dựa vào kinh nghiệm/y văn • Dựa vào p-value1 Phân tích đơn biến Những biến có p < 0.2 (0.25…) đơn biến mơ hình đa biến ban đầu Những biến p