Trong các chương trước về phân tích hồi qui tuyến tính và phân tích phương sai, chúng ta tìm mô hình và mối liên hệ giữa một biến phụ thuộc liên tục (continuous dependent variable) và một hay nhiều biến độc lập (independent variable) hoặc là liên tục hoặc là không liên tục. Nhưng trong nhiều trường hợp, biến phụ thuộc không phải là biến liên tục mà là biến mang tính đo lường nhị phân: có/không, mắc bệnh/không mắc bệnh, chết/sống, xảy ra/không xảy ra, v.v…, còn các biến độc lập có thể là liên tục hay không...
12 Phân tích hồi qui logistic Trong chương trước phân tích hồi qui tuyến tính phân tích phương sai, tìm mơ hình mối liên hệ biến phụ thuộc liên tục (continuous dependent variable) hay nhiều biến độc lập (independent variable) liên tục không liên tục Nhưng nhiều trường hợp, biến phụ thuộc biến liên tục mà biến mang tính đo lường nhị phân: có/khơng, mắc bệnh/khơng mắc bệnh, chết/sống, xảy ra/khơng xảy ra, v.v…, cịn biến độc lập liên tục hay không liên tục Chúng ta muốn tìm hiểu mối liên hệ biến độc lập biến phụ thuộc Ví dụ Trong nghiên cứu tác giả tiến hành để tìm hiểu mối liên hệ nguy gãy xương (fracture, viết tắt fx) mật độ xương số số sinh hóa khác, 139 bệnh nhân nam (hay nói đối tượng nghiên cứu) tuổi từ 60 trở lên Năm 1990, số liệu sau thu thập cho đối tượng: độ tuổi (age), tỉ trọng thể (body mass index hay BMI), mật độ chất khoáng xương (bone mineral density hay BMD), số hủy xương ICTP, số tạo xương PINP Các đối tượng nghiên cứu theo dõi vòng 15 năm Trong thời gian theo dõi, bệnh nhân bị gãy xương hay không gãy xương ghi nhận Câu hỏi đặt ban đầu có mối liên hệ BMD nguy gãy xương hay khơng Số liệu nghiên cứu trình bày phần cuối chương này, trình bày phần để bạn đọc nắm vấn đề Bảng 12.1 Một phần số liệu nghiên cứu yếu tố nguy cho gãy xương id 10 137 138 139 fx 1 1 0 0 age 79 89 70 88 85 68 70 69 74 79 64 80 67 bmi 24.7252 25.9909 25.3934 23.2254 24.6097 25.0762 19.8839 25.0593 25.6544 19.9594 38.0762 23.3887 25.9455 bmd ictp pinp 0.818 9.170 37.383 0.871 7.561 24.685 1.358 5.347 40.620 0.714 7.354 56.782 0.748 6.760 58.358 0.935 4.939 67.123 1.040 4.321 26.399 1.002 4.212 47.515 0.987 5.605 26.132 0.863 5.204 60.267 1.086 0.875 0.983 5.043 4.086 4.328 32.835 23.837 71.334 219 Ở đây, biến phụ thuộc (gãy xương) khơng đo lường theo tính liên tục (mà có hay khơng), phương pháp phân tích hồi qui tuyến tính để phân tích mối liên hệ biến phụ thuộc biến độc lập Một phương pháp phân tích phát triển tương đối gần (vào thập niên 1970s) có tên logistic regression analysis (hay phân tích hồi qui logistic) áp dụng cho trường hợp Trong nghiên cứu này, sau 15 năm theo dõi, có 38 bệnh nhân bị gãy xương Tính theo phần trăm, tỉ lệ gãy xương 38 / 139 = 0.273 (hay 27.3%) 12.1 Mơ hình hồi qui logistic Cho tần số biến cố x ghi nhận từ n đối tượng, tính xác suất biến cố là: p= x n p xem số đo lường nguy biến cố Một cách thể nguy khác odds, tạm dịch khả Khả biến cố định nghĩa đơn giản tỉ số xác suất biến cố xảy xác suất biến cố không xảy ra: odds = p 1− p [1] Hàm logit odds định nghĩa sau: p l ogit ( p ) = log 1− p [2] Mối liên hệ p logit(p) mối liên hệ liên tục theo dạng sau: 220 logit(p) -2 -4 0.0 0.2 0.4 0.6 0.8 1.0 p Biểu đồ 12.1 Mối liên hệ logit(p) p, cho 1