• OR=eb– Nguy cơ giữa nhóm phơi nhiễm 1 so với nhóm không phơi nhiễm 0 khi biến phơi nhiễm là biến nhị giá – thí dụ: biến bcgscar – So sánh nguy cơ khi biến phơi nhiễm tăng một đơn vị kh
Trang 1Hồi quy logistic
Trang 2phương (cc,
cs, ir)
Chi bình phương (mhodds, tab2) Hồi quy logisticHồi quy Poisson
tổng quát Logrank
Wilcoxon tổng quát
Logrank
Hồi quy Cox
Generalized linear model
Trang 3Nội dung
• Đại cương về hồi quy logistic
– Tại sao phải sử dụng hồi quy logistic cho biến
Trang 4Chọn lựa kiểm định phù hợp
Biến phụ thuộc Biến độc lập
Nhị giá Danh định Thứ tự -Định lượng
Wilcoxon tổng quát
Logrank
Hồi quy Cox
Trang 5Hồi quy logistic
• Hồi quy tuyến tính đa biến
Y= a + b1X1+ b2X2 + … + bnXn
• Miền xác định : (- đến + ) sử dụng cho biến số kết cuộc là biến định lượng
• Với biến nhị giá miền xác định có giá trị
(0,1)
• Sử dụng phép biến đổi logit = log(odds)
Trang 7• Logit=ln(odds)=ln{nguy cơ/(1-nguy cơ)}
• Odds = tỉ lệ đánh cược
Odds= Nguy cơ / (1- Nguy cơ)
Nguy cơ = odds /(1+odds)
• Trong N người có a người bị bệnh và b người không bị bệnh
– Nguy cơ = a/N
N
a N
N a
N a
N a
Trang 8Phương trình hồi quy
b x
b a
y r
n n
x b x
b x b a
n n
x b x
b x b a Y
e e
e e
x b x
b x
b a
e e
odds
)
exp(
2 2 1
1
2 2 1 1
2 2 1
Trang 9Kết luận
• Hồi quy logistic là một loại hồi quy tuyến tính tổng quát (generalized linear model) với phép biến đổi logit (hàm link là hàm logit)
• logit=ln(odds) odds = exp(logit)
• Hồi quy logistic cho chúng ta xác định
odds của từng nhóm và OR
Trang 11logit caco bcgscar
Iteration 4: log likelihood = -588.33127
Logit estimates Number of obs = 1260
LR chi2(1) = 84.35 Prob > chi2 = 0.0000 Log likelihood = -588.33127 Pseudo R2 = 0.0669
caco | Coef Std Err z P>|z| [95% Conf Interval] -+ - bcgscar | -1.490249 .1804267 -8.26 0.000 -1.843879 -1.13662 _cons | -.9332883 .0814528 -11.46 0.000 -1.092933 -.7736437 -
-Hãy cho biết
- Giá trị của hằng số a trong biểu thức tuyến tính
- Giá trị của hệ số b của bcgscar trong biểu thức tuyến tính
- Phương trình hồi quy
Trang 12Hãy cho biết
- Giá trị của hằng số a trong biểu thức tuyến tính
- Giá trị của hệ số b của bcgscar trong biểu thức tuyến tính
- Phương trình hồi quy
- Giá trị của hằng số a trong biểu thức tuyến tính=
Trang 13Hãy cho biết
- Odds ở nhóm tiêm chủng
- Odds ở nhóm không tiêm chủng
- OR
Trang 14Hãy cho biết
- Odds ở nhóm tiêm chủng
- Odds ở nhóm không tiêm chủng
- Phương trình hồi quy
Trang 15)
(
1
1
) 0 (
) 1
x b a
x b b
a
e e
e x
Odds
x
Odds OR
n n
n n
Trang 16Tỉ số Nguy cơ (RR)
)
1
1 1
1 1
1 Y Y a b x b n x n
Y
e e
e
e odds
(
)
( )
(
)
( 1
1
1
1
1 (
1 )
1 /(
1
) 1
/(
1 )
0 (
) 1 (
n n
n n
n n
n n
x b b
a
x b a x
b a
x b b
a
e
e e
e b
Trang 17eb còn được kí hiệu Exp(p)
Trang 19• Độ khả dĩ (likelihood) là xác suất xảy ra số liệu nếu mô hình đúng
• Độ khả dĩ càng lớn mô hình càng hợp lí
• Mức độ cải thiện tương đối của log độ khả
dĩ của mô hình được gọi là là pseudo R2
• 2 lần mức độ cải thiện tuyệt đối của log độ khả dĩ có phân phối chi2
2 X log(likelihood1/likelihood0) =
2( log likelihood1 - log likelihood0)
Trang 20• OR=eb
– Nguy cơ giữa nhóm phơi nhiễm (1) so với nhóm
không phơi nhiễm (0) (khi biến phơi nhiễm là biến nhị giá – thí dụ: biến bcgscar
– So sánh nguy cơ khi biến phơi nhiễm tăng một đơn vị (khi biến phơi nhiễm là biến thứ tự): thí dụ biến
school và biến agegrp
– khi biến phơi nhiễm tăng n đơn vị thì odds thay đổi
ORn
• Trong stata và khi sử dụng biến nhị giá 0: không phơi nhiễm và 1: phơi nhiễm
Trang 21• Logit(caco) = -0.9332883 + -1.490249 * BCG
• OR=e1,490249 = 0,2253
Trang 22logit caco agegrp
Logit estimates Number of obs = 1260
LR chi2(1) = 65.21 Prob > chi2 = 0.0000 Log likelihood = -597.90407 Pseudo R2 = 0.0517
caco | Coef Std Err z P>|z| [95% Conf Interval] -+ - agegrp | .3804372 .0494225 7.70 0.000 2835708 .4773035 _cons | -2.669279 .1939513 -13.76 0.000 -3.049416 -2.289141 -
Trang 23-Hãy cho biết
- Giá trị của hằng số a trong biểu thức tuyến tính
- Giá trị của hệ số b của agegrp trong biểu thức tuyến tính
- Phương trình hồi quy
- Giá trị của hằng số a trong biểu thức tuyến tính=
Trang 25Hồi quy Logistic với biến số thứ tự
• Chỉ có một tham số duy nhất: OR biến số
• OR Giữa các mức giá trị kế tiếp nhau của biến số
thứ tự = OR biến số = eb
• OR giữa các mức giá trị cách nhau k khoảng = ORk
= ekb
• Phù hợp khi có mối quan hệ liều lượng – đáp ứng: tỉ
lệ mắc bệnh cao nếu mức độ phơi nhiễm gia tăng:
Trang 26Hãy so sánh
- OR của nhóm tuổi 2 so với nhóm tuổi 1
- OR của nhóm tuổi 3 so với nhóm tuổi 2
- OR của nhóm tuổi 3 so với nhóm tuổi 1
- Phương trình hồi quy
logit=-2.667 + 0.3804 x agegrp
Ta biết:
3804
0 3804
0 3804
0 669 2
3804 0 3804
0 3804 0 669 2
2 3
3804
0 3804
0 669 2
3804
0 3804 0 669 2
1 2
e e
e odd
odds
e e
e odd
odds
age age age age
Trang 27Biến thứ tự hay danh định
• Khi phơi nhiễm tăng
N đơn vị thì nguy cơ
thay đổi ORN
Biến danh định
• Có nhiều OR khác nhau
• Không có mối quan
hệ liều lượng đáp ứng
Trang 29• Có 5 biến số được quan tâm: tuổi (age), cholesterol toàn phần, hút thuốc lá, HDL cholesterol và huyết áp Trong các biến
tác với biến số nào
• Trong các biến số không tương tác, biến
tác động không đều (phân loại)
Trang 30mhodds caco agegrp
logistic caco agegrp
Trang 31mhodds caco agegrp, compare(L1 - L0) = 2 × 28,513 = 57,0262,1)
mhodds caco agegrp, compare(L1 - L0) = 2 × 28,513 = 57,0263,1)
mhodds caco agegrp, compare(L1 - L0) = 2 × 28,513 = 57,0264,1)
mhodds caco agegrp, compare(L1 - L0) = 2 × 28,513 = 57,0265,1)
xi: logistic caco i.agegrp
Trang 32• Data :: Create or change variable :: other variable
creation commands :: interaction expansion
Trang 34• Khi biến agegrp có 5 giá trị
• Tạo biến giả cho biến agegrp nghĩa là tạo thêm 4 biến mới Mỗi biến đánh dấu cho các đối tượng có giá trị 2, 3, 4, và 5
_Iagegrp_2 byte %8.0g agegrp==2
_Iagegrp_3 byte %8.0g agegrp==3
_Iagegrp_4 byte %8.0g agegrp==4
_Iagegrp_5 byte %8.0g agegrp==5
Trang 36logit caco _Iagegrp_2 _Iagegrp_3 _Iagegrp_4 _Iagegrp_5
Iteration 0: log likelihood = -630.50705
Iteration 1: log likelihood = -596.39673
Iteration 2: log likelihood = -595.12
Iteration 3: log likelihood = -595.11838
Iteration 4: log likelihood = -595.11838
Logit estimates Number of obs = 1260
LR chi2(4) = 70.78 Prob > chi2 = 0.0000 Log likelihood = -595.11838 Pseudo R2 = 0.0561
caco | Coef Std Err z P>|z| [95% Conf Interval] -+ - _Iagegrp_2 | .2243928 .2707926 0.83 0.407 -.306351 .7551366 _Iagegrp_3 | .1031071 .3076035 0.34 0.737 -.4997846 .7059989 _Iagegrp_4 | 1.001847 .2514286 3.98 0.000 509056 1.494638 _Iagegrp_5 | 1.40446 .2167876 6.48 0.000 9795643 1.829356 _cons | -2.121513 .1870704 -11.34 0.000 -2.488164 -1.754862 -
Trang 37-Hãy so sánh
- OR của nhóm tuổi 2 so với nhóm tuổi 1
- Phương trình hồi quy
logit=-2.12 + 0.224 x agegrp_2 + 0.103 x agegrp_3 + 1.00 x agegrp_4 + 1.40 x agegrp_5
Ta biết:
224
0 12
2
224 0 12 2
1
2
e e
e odd
Trang 39logit caco _Iagegrp_2 _Iagegrp_3 _Iagegrp_4 _Iagegrp_5, or
Iteration 0: log likelihood = -630.50705
Iteration 1: log likelihood = -596.39673
Iteration 2: log likelihood = -595.12
Iteration 3: log likelihood = -595.11838
Iteration 4: log likelihood = -595.11838
Logit estimates Number of obs = 1260
LR chi2(4) = 70.78 Prob > chi2 = 0.0000 Log likelihood = -595.11838 Pseudo R2 = 0.0561
caco | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - _Iagegrp_2 | 1.251563 .3389139 0.83 0.407 7361282 2.127902 _Iagegrp_3 | 1.10861 .3410123 0.34 0.737 6066613 2.025869 _Iagegrp_4 | 2.723307 .6847174 3.98 0.000 1.66372 4.457723 _Iagegrp_5 | 4.073327 .8830465 6.48 0.000 2.663295 6.229872
Trang 40-Khoảng tin cậy của OR
• Khoảng tin cậy của b:
se Z
b
CI ( ) 1
• Khoảng tin cậy của OR - EF: error factor (thừa số sai số)
EF OR
e e
e CI
OR
CI
se Z b
se Z b
exp(
) (
Trang 41z
Trang 46Hồi quy logistic 2
Trang 47Bài tập
• Làm câu số 5-trg 215: đánh giá tác động của biến nhị giá (BCGSCAR)
• Bỏ câu 4b-trg217 và câu 5-trg 218 (đã làm rồi)
• Làm câu 8-trg 220: đánh giá tác động liều lượng đáp
ứng (Trend) của biến school
• Làm câu 9-trg 221: đánh giá tác động (J curve) của biến school
• Câu 11-trg 225: so sánh 2 mô hình Trend và mô hình J curve
• Lưu ý: Nếu các anh chị đã chấp nhận OR=ehệ số thì
không cần làm lại các tính toán để tính toán odds
Trang 48Nội dung
• Hồi quy Logistic với biến số thứ tự
• Hồi quy với biến danh định – biến giả
• Hồi quy logistic để khử biến số gây nhiễu
• Hồi quy logistic trong nghiên cứu bệnh chứng
Trang 49Hồi quy Logistic với biến số thứ tự
• Giả sử biến nhóm tuổi (ntuoi) có 3 giá trị:
– Trẻ (mã hóa ntuoi=0)
– Trung niên (mã hóa ntuoi=1)
– Cao tuổi (mã hóa ntuoi=2)
• Phương trình hồi quy logistic nguy cơ mắc bệnh
theo nhóm tuổi
ntuoi b
a y
b a
b a
b a ntuoi
b a
ntuoi b
a ntuoi
ntuoi
e
e
e OR
e e
e e
e OR
ntuoi ntuoi ntuoi
1
2 0 1
Trang 50Hồi quy Logistic với biến số thứ tự
• Chỉ có một tham số duy nhất: OR biến số
• OR Giữa các mức giá trị kế tiếp nhau của biến số
thứ tự = OR biến số
• OR giữa các mức giá trị cách nhau k khoảng = Ork
• Phù hợp khi có mối quan hệ liều lượng – đáp ứng: tỉ
lệ mắc bệnh cao nếu mức độ phơi nhiễm gia tăng:
Trang 52Hồi quy Logistic với biến số danh định
• Phù hợp khi không có mối quan hệ liều lượng – đáp
ứng : Thí dụ khi ORtrung niên/ trẻ ≠ ORcao tuổi/rung niên
• Biến số có n mức phơi nhiễm cần n-1 tham số (n-1 các
Trang 53• Tạo biến giả theo menu
– Data - Create or change variables – Other
variable creation commands – Interaction
expansion
• Biến danh định với n giá trị sẽ được mô tả bằng n-1 biến giả (biến giả là biến nhị giá 0-1)
• Trừ giá trị đầu tiên, mỗi giá trị của biến
danh định sẽ được mô tả bằng một biến giả
Trang 54Hồi quy Logistic với biến số danh định
• Phù hợp khi có mối quan hệ liều lượng – đáp ứng
không đều: Thí dụ khi ORtrung niên/ trẻ ≠ Orcao tuổi/rung niên
• Biến số có n mức phơi nhiễm cần n-1 tham số (n-1 các
số OR)
• Thể hiện các mức phơi nhiễm bằng biến giả (biến
school với 4 giá trị được thể hiện bằng 3 biến:
_Ischool_2, _Ischool_3, _Ischool_4
Ntuoi _Ischool_2, _Ischool_3, _Ischool_4
1 (L1 - L0) = 2 × 28,513 = 57,026không học) 0 0 0
2 (L1 - L0) = 2 × 28,513 = 57,0261-3 năm) 1 0 0
3 (L1 - L0) = 2 × 28,513 = 57,0264-6) 0 1 0
4 (L1 - L0) = 2 × 28,513 = 57,0267+ năm) 0 0 1
Trang 56• Chỉ số likelihood (hay likelihood ratio – LR) để đánh giá mức độ phù hợp của mô hình
• So sánh 2 mô hình nghĩa là so sánh 2
likelihood của mô hình
Trang 57Phương pháp so sanh LR của 2
mô hình
• Thực hiện mô hình 1
• Lưu kết quả của mô hình 1 với menu
– statistic - general post estimation – Manage estimation results – store estimation results
– Đặt tên mô hình là mhdanhdinh
• Thực hiện mô hình 2
• Lưu kết quả của mô hình 2 với menu
– statistic - general post estimation – Manage estimation results – store estimation results
– Đặt tên mô hình là mhthutu
• So sánh 2 mô hình mhdanhdinh (1) và mhthutu với
menu (2)
– statistic - general post estimation – test – Likelihood ratio test
Trang 58Nghiên cứu “Ibuprofen in Sepsis”
• Có 455 đối tượng bị sepsis được đưa vào nghiên cứu và được chăm sóc tiêu chuẩn cho sepsis và được theo dõi nhiệt độ mỗi 2 giờ (trong 8 giờ đầu) mỗi 4 giờ (trong
vòng 44 giờ) và mỗi ngày trong ngày 3, 4, 5 Ngoài ra có những bệnh nhân được chia ngẫu nhiên vào nhóm can thiệp được tiêm ibuprofen theo đường tĩnh mạch (treat) Lúc nhập viện bệnh nhân được đánh giá trên thang đo APACHE (apache) Có khoảng 37% bệnh nhân “nặng” được đặt catheter động mạch phổi để đo lường lượng oxy được cung cấp do phổi (o2del) Biến phụ thuộc là
bệnh nhân có bị tử vong trong 30 ngày đầu hay không (fate) Chủng tộc (race) là biến số gây nhiễu
Trang 59Nghiên cứu “Nguy cơ di truyền
trong xuất huyết trong não tái hồi”
• O’Donnel nghiên cứu tác động của gen
apolipoprotein E lên nguy cơ xuất huyết
trong não tái hồi ở bệnh nhân sống sót
sau xuất huyết não
• Theo dõi 70 bệnh nhân sống sót sau xuất huyết não và đã biết kiểu gen Có 3 alleles cho gen apolipoprotein E: e2, e3 và e4
Bệnh nhân được phân thành nhóm đồng hợp tử e3 và các nhóm còn lại
Trang 64Kết luận
• Khi biến phụ thuộc là biến nhị giá phải sử dụng hồi quy logistic
• Hồi quy logistic cho OR (=eb ) đồng nhất với OR có được
từ bảng 2 x 2 khi biến độc lập là biến nhị giá (câu 7)
• Hồi quy logistic có thể đưa vào mô hình biến có tính
khuynh hướng (nếu đưa vào biến agegrp) và biến không
có tính khuynh hướng (nếu đưa vào biến i.agegrp)
• Hồi quy logistic giúp so sánh mức độ hợp lí giữa các mô hình bằng cách so sanh likelihood
• Hồi quy logistic có thể đưa được nhiều biến số vào mô hình để loại trừ tác động do sự chênh lệch của yếu tố
gây nhiễu (câu 13)
Trang 65Phân loại câu hỏi nghiên cứu
Trang 66• Để đánh giá giá trị của một test
– Sử dụng Độ nhạy, độ chuyên nếu tiêu chuẩn vàng và test là nhị giá
– Sử dụng đường cong ROC nếu tiêu chuẩn vàng là nhị giá và test là định lượng
– Sử dụng hệ số tương quan (và phân tán đồ) nếu tiêu chuẩn vàng và test là định lượng
Trang 67Thiết kế nghiên cứu đoàn hệ
Trang 68• Một bác sĩ nhi khoa tại một bệnh viên muốn chẩn
đoán sớm và phân biệt chính xác bệnh viêm màng não mủ và viêm màng não siêu vi bằng xét nghiệm sinh hóa dịch não tủy do việc chẩn đoán căn nguyên bằng cấy vi sinh thường bị chậm Để nghiên cứu tác giả loại bỏ những trường hợp đã rõ viêm màng não siêu vi hay viêm màng não mủ và thực hiện xét
nghiệm sinh hóa cho tất cả các đối tượng có chẩn đoán nghi ngờ Sau đó theo dõi mẫu cấy của các
bệnh nhân này nhằm phân biệt đối tượng bị viêm
màng não mủ hay siêu vi.
Trang 69• Một bác sĩ nhi khoa tại bệnh viện Nhi đồng 1
quan tâm đến việc chẩn đoán sớm và chính xác bệnh viêm màng não mủ ở trẻ em Theo thường quy bệnh viện, việc chẩn đoán viêm màng não
mủ dựa vào tế bào trong dịch não tủy, Chlor
dịch não tủy và Glucose dịch não tủy Dựa vào các y văn được tổng quan, bác sĩ này cho rằng Lactate trong dịch não tủy cũng có thể góp
phần cho chẩn đoán viêm màng não mủ.
Trang 70Câu hỏi nghiên cứu
• Trong số các xét nghiệm tế bào, chlor và
glucose dịch não tủy, xét nghiệm nào có giá trị tốt nhất và xét nghiệm nào có giá trị kém nhất.
• Bổ sung xét nghiệm Lactate có làm tăng hiệu
quả chẩn đoán hay không?
• Nếu xét nghiệm Lactate dịch não tủy được sử dụng nó nên sử dụng đồng thời với các xét
nghiệm khác hay sử dụng một mình
• Nếu xét nghiệm Lactate dịch não tủy được sử dụng, ngưỡng để chẩn đoán viêm màng não là bao nhiêu? Với ngưỡng này, độ nhạy cảm và độ đặc hiệu là bao nhiêu?
Trang 71• Để trả lời các câu hỏi nghiên cứu, người bác sĩ tiến hành một nghiên cứu trên 113 trẻ em nhập Bệnh viện Nhi đồng 1 với
chẩn đoán t/d viêm màng não (trong số đó
có 57 trẻ bị viêm màng não mủ) và ghi
nhận lượng tế bào, chlor, glucose và
lactate dịch não tủy Số liệu này được đặt trong tập tin lact_vmn.dta trong thư mục c:\data
Trang 72– Cl: clo dịch não tủy
– G_dntmd: glucose dịch não tủy
– Lactate: lactate dịch não tủy
– Prn_dnt: Protein dịch não tủy
– Tb_dnt: tế bào dịch não tủy
– Ten_tat: tên tắt của bệnh nhân
– Vmn_mu: có viêm màng não mủ