1. Trang chủ
  2. » Giáo án - Bài giảng

Hồi quy Logistic

88 2,7K 7

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 1,03 MB

Nội dung

• OR=eb– Nguy cơ giữa nhóm phơi nhiễm 1 so với nhóm không phơi nhiễm 0 khi biến phơi nhiễm là biến nhị giá – thí dụ: biến bcgscar – So sánh nguy cơ khi biến phơi nhiễm tăng một đơn vị kh

Trang 1

Hồi quy logistic

Trang 2

phương (cc,

cs, ir)

Chi bình phương (mhodds, tab2) Hồi quy logisticHồi quy Poisson

tổng quát Logrank

Wilcoxon tổng quát

Logrank

Hồi quy Cox

Generalized linear model

Trang 3

Nội dung

• Đại cương về hồi quy logistic

– Tại sao phải sử dụng hồi quy logistic cho biến

Trang 4

Chọn lựa kiểm định phù hợp

Biến phụ thuộc Biến độc lập

Nhị giá Danh định Thứ tự -Định lượng

Wilcoxon tổng quát

Logrank

Hồi quy Cox

Trang 5

Hồi quy logistic

• Hồi quy tuyến tính đa biến

Y= a + b1X1+ b2X2 + … + bnXn

• Miền xác định : (- đến + ) sử dụng cho biến số kết cuộc là biến định lượng

• Với biến nhị giá miền xác định có giá trị

(0,1)

• Sử dụng phép biến đổi logit = log(odds)

Trang 7

• Logit=ln(odds)=ln{nguy cơ/(1-nguy cơ)}

• Odds = tỉ lệ đánh cược

Odds= Nguy cơ / (1- Nguy cơ)

Nguy cơ = odds /(1+odds)

• Trong N người có a người bị bệnh và b người không bị bệnh

– Nguy cơ = a/N

N

a N

N a

N a

N a

Trang 8

Phương trình hồi quy

b x

b a

y r

n n

x b x

b x b a

n n

x b x

b x b a Y

e e

e e

x b x

b x

b a

e e

odds

)

exp(

2 2 1

1

2 2 1 1

2 2 1

Trang 9

Kết luận

• Hồi quy logistic là một loại hồi quy tuyến tính tổng quát (generalized linear model) với phép biến đổi logit (hàm link là hàm logit)

• logit=ln(odds)  odds = exp(logit)

• Hồi quy logistic cho chúng ta xác định

odds của từng nhóm và OR

Trang 11

logit caco bcgscar

Iteration 4: log likelihood = -588.33127

Logit estimates Number of obs = 1260

LR chi2(1) = 84.35 Prob > chi2 = 0.0000 Log likelihood = -588.33127 Pseudo R2 = 0.0669

caco | Coef Std Err z P>|z| [95% Conf Interval] -+ - bcgscar | -1.490249 .1804267 -8.26 0.000 -1.843879 -1.13662 _cons | -.9332883 .0814528 -11.46 0.000 -1.092933 -.7736437 -

-Hãy cho biết

- Giá trị của hằng số a trong biểu thức tuyến tính

- Giá trị của hệ số b của bcgscar trong biểu thức tuyến tính

- Phương trình hồi quy

Trang 12

Hãy cho biết

- Giá trị của hằng số a trong biểu thức tuyến tính

- Giá trị của hệ số b của bcgscar trong biểu thức tuyến tính

- Phương trình hồi quy

- Giá trị của hằng số a trong biểu thức tuyến tính=

Trang 13

Hãy cho biết

- Odds ở nhóm tiêm chủng

- Odds ở nhóm không tiêm chủng

- OR

Trang 14

Hãy cho biết

- Odds ở nhóm tiêm chủng

- Odds ở nhóm không tiêm chủng

- Phương trình hồi quy

Trang 15

)

(

1

1

) 0 (

) 1

x b a

x b b

a

e e

e x

Odds

x

Odds OR

n n

n n

Trang 16

Tỉ số Nguy cơ (RR)

)

1

1 1

1 1

1 Y Y a b x b n x n

Y

e e

e

e odds

(

)

( )

(

)

( 1

1

1

1

1 (

1 )

1 /(

1

) 1

/(

1 )

0 (

) 1 (

n n

n n

n n

n n

x b b

a

x b a x

b a

x b b

a

e

e e

e b

Trang 17

eb còn được kí hiệu Exp(p)

Trang 19

• Độ khả dĩ (likelihood) là xác suất xảy ra số liệu nếu mô hình đúng

• Độ khả dĩ càng lớn mô hình càng hợp lí

• Mức độ cải thiện tương đối của log độ khả

dĩ của mô hình được gọi là là pseudo R2

• 2 lần mức độ cải thiện tuyệt đối của log độ khả dĩ có phân phối chi2

2 X log(likelihood1/likelihood0) =

2( log likelihood1 - log likelihood0)

Trang 20

• OR=eb

– Nguy cơ giữa nhóm phơi nhiễm (1) so với nhóm

không phơi nhiễm (0) (khi biến phơi nhiễm là biến nhị giá – thí dụ: biến bcgscar

– So sánh nguy cơ khi biến phơi nhiễm tăng một đơn vị (khi biến phơi nhiễm là biến thứ tự): thí dụ biến

school và biến agegrp

– khi biến phơi nhiễm tăng n đơn vị thì odds thay đổi

ORn

• Trong stata và khi sử dụng biến nhị giá 0: không phơi nhiễm và 1: phơi nhiễm

Trang 21

• Logit(caco) = -0.9332883 + -1.490249 * BCG

• OR=e1,490249 = 0,2253

Trang 22

logit caco agegrp

Logit estimates Number of obs = 1260

LR chi2(1) = 65.21 Prob > chi2 = 0.0000 Log likelihood = -597.90407 Pseudo R2 = 0.0517

caco | Coef Std Err z P>|z| [95% Conf Interval] -+ - agegrp | .3804372 .0494225 7.70 0.000 2835708 .4773035 _cons | -2.669279 .1939513 -13.76 0.000 -3.049416 -2.289141 -

Trang 23

-Hãy cho biết

- Giá trị của hằng số a trong biểu thức tuyến tính

- Giá trị của hệ số b của agegrp trong biểu thức tuyến tính

- Phương trình hồi quy

- Giá trị của hằng số a trong biểu thức tuyến tính=

Trang 25

Hồi quy Logistic với biến số thứ tự

• Chỉ có một tham số duy nhất: OR biến số

• OR Giữa các mức giá trị kế tiếp nhau của biến số

thứ tự = OR biến số = eb

• OR giữa các mức giá trị cách nhau k khoảng = ORk

= ekb

• Phù hợp khi có mối quan hệ liều lượng – đáp ứng: tỉ

lệ mắc bệnh cao nếu mức độ phơi nhiễm gia tăng:

Trang 26

Hãy so sánh

- OR của nhóm tuổi 2 so với nhóm tuổi 1

- OR của nhóm tuổi 3 so với nhóm tuổi 2

- OR của nhóm tuổi 3 so với nhóm tuổi 1

- Phương trình hồi quy

logit=-2.667 + 0.3804 x agegrp

Ta biết:

3804

0 3804

0 3804

0 669 2

3804 0 3804

0 3804 0 669 2

2 3

3804

0 3804

0 669 2

3804

0 3804 0 669 2

1 2

e e

e odd

odds

e e

e odd

odds

age age age age

Trang 27

Biến thứ tự hay danh định

• Khi phơi nhiễm tăng

N đơn vị thì nguy cơ

thay đổi ORN

Biến danh định

• Có nhiều OR khác nhau

• Không có mối quan

hệ liều lượng đáp ứng

Trang 29

• Có 5 biến số được quan tâm: tuổi (age), cholesterol toàn phần, hút thuốc lá, HDL cholesterol và huyết áp Trong các biến

tác với biến số nào

• Trong các biến số không tương tác, biến

tác động không đều (phân loại)

Trang 30

mhodds caco agegrp

logistic caco agegrp

Trang 31

mhodds caco agegrp, compare(L1 - L0) = 2 × 28,513 = 57,0262,1)

mhodds caco agegrp, compare(L1 - L0) = 2 × 28,513 = 57,0263,1)

mhodds caco agegrp, compare(L1 - L0) = 2 × 28,513 = 57,0264,1)

mhodds caco agegrp, compare(L1 - L0) = 2 × 28,513 = 57,0265,1)

xi: logistic caco i.agegrp

Trang 32

• Data :: Create or change variable :: other variable

creation commands :: interaction expansion

Trang 34

• Khi biến agegrp có 5 giá trị

• Tạo biến giả cho biến agegrp nghĩa là tạo thêm 4 biến mới Mỗi biến đánh dấu cho các đối tượng có giá trị 2, 3, 4, và 5

_Iagegrp_2 byte %8.0g agegrp==2

_Iagegrp_3 byte %8.0g agegrp==3

_Iagegrp_4 byte %8.0g agegrp==4

_Iagegrp_5 byte %8.0g agegrp==5

Trang 36

logit caco _Iagegrp_2 _Iagegrp_3 _Iagegrp_4 _Iagegrp_5

Iteration 0: log likelihood = -630.50705

Iteration 1: log likelihood = -596.39673

Iteration 2: log likelihood = -595.12

Iteration 3: log likelihood = -595.11838

Iteration 4: log likelihood = -595.11838

Logit estimates Number of obs = 1260

LR chi2(4) = 70.78 Prob > chi2 = 0.0000 Log likelihood = -595.11838 Pseudo R2 = 0.0561

caco | Coef Std Err z P>|z| [95% Conf Interval] -+ - _Iagegrp_2 | .2243928 .2707926 0.83 0.407 -.306351 .7551366 _Iagegrp_3 | .1031071 .3076035 0.34 0.737 -.4997846 .7059989 _Iagegrp_4 | 1.001847 .2514286 3.98 0.000 509056 1.494638 _Iagegrp_5 | 1.40446 .2167876 6.48 0.000 9795643 1.829356 _cons | -2.121513 .1870704 -11.34 0.000 -2.488164 -1.754862 -

Trang 37

-Hãy so sánh

- OR của nhóm tuổi 2 so với nhóm tuổi 1

- Phương trình hồi quy

logit=-2.12 + 0.224 x agegrp_2 + 0.103 x agegrp_3 + 1.00 x agegrp_4 + 1.40 x agegrp_5

Ta biết:

224

0 12

2

224 0 12 2

1

2

e e

e odd

Trang 39

logit caco _Iagegrp_2 _Iagegrp_3 _Iagegrp_4 _Iagegrp_5, or

Iteration 0: log likelihood = -630.50705

Iteration 1: log likelihood = -596.39673

Iteration 2: log likelihood = -595.12

Iteration 3: log likelihood = -595.11838

Iteration 4: log likelihood = -595.11838

Logit estimates Number of obs = 1260

LR chi2(4) = 70.78 Prob > chi2 = 0.0000 Log likelihood = -595.11838 Pseudo R2 = 0.0561

caco | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - _Iagegrp_2 | 1.251563 .3389139 0.83 0.407 7361282 2.127902 _Iagegrp_3 | 1.10861 .3410123 0.34 0.737 6066613 2.025869 _Iagegrp_4 | 2.723307 .6847174 3.98 0.000 1.66372 4.457723 _Iagegrp_5 | 4.073327 .8830465 6.48 0.000 2.663295 6.229872

Trang 40

-Khoảng tin cậy của OR

• Khoảng tin cậy của b:

se Z

b

CI (  )   1

• Khoảng tin cậy của OR - EF: error factor (thừa số sai số)

EF OR

e e

e CI

OR

CI

se Z b

se Z b

exp(

) (

Trang 41

z 

Trang 46

Hồi quy logistic 2

Trang 47

Bài tập

• Làm câu số 5-trg 215: đánh giá tác động của biến nhị giá (BCGSCAR)

• Bỏ câu 4b-trg217 và câu 5-trg 218 (đã làm rồi)

• Làm câu 8-trg 220: đánh giá tác động liều lượng đáp

ứng (Trend) của biến school

• Làm câu 9-trg 221: đánh giá tác động (J curve) của biến school

• Câu 11-trg 225: so sánh 2 mô hình Trend và mô hình J curve

• Lưu ý: Nếu các anh chị đã chấp nhận OR=ehệ số thì

không cần làm lại các tính toán để tính toán odds

Trang 48

Nội dung

• Hồi quy Logistic với biến số thứ tự

• Hồi quy với biến danh định – biến giả

• Hồi quy logistic để khử biến số gây nhiễu

• Hồi quy logistic trong nghiên cứu bệnh chứng

Trang 49

Hồi quy Logistic với biến số thứ tự

• Giả sử biến nhóm tuổi (ntuoi) có 3 giá trị:

– Trẻ (mã hóa ntuoi=0)

– Trung niên (mã hóa ntuoi=1)

– Cao tuổi (mã hóa ntuoi=2)

• Phương trình hồi quy logistic nguy cơ mắc bệnh

theo nhóm tuổi

ntuoi b

a y

b a

b a

b a ntuoi

b a

ntuoi b

a ntuoi

ntuoi

e

e

e OR

e e

e e

e OR

ntuoi ntuoi ntuoi

1

2 0 1

Trang 50

Hồi quy Logistic với biến số thứ tự

• Chỉ có một tham số duy nhất: OR biến số

• OR Giữa các mức giá trị kế tiếp nhau của biến số

thứ tự = OR biến số

• OR giữa các mức giá trị cách nhau k khoảng = Ork

• Phù hợp khi có mối quan hệ liều lượng – đáp ứng: tỉ

lệ mắc bệnh cao nếu mức độ phơi nhiễm gia tăng:

Trang 52

Hồi quy Logistic với biến số danh định

• Phù hợp khi không có mối quan hệ liều lượng – đáp

ứng : Thí dụ khi ORtrung niên/ trẻ ≠ ORcao tuổi/rung niên

• Biến số có n mức phơi nhiễm cần n-1 tham số (n-1 các

Trang 53

• Tạo biến giả theo menu

– Data - Create or change variables – Other

variable creation commands – Interaction

expansion

• Biến danh định với n giá trị sẽ được mô tả bằng n-1 biến giả (biến giả là biến nhị giá 0-1)

• Trừ giá trị đầu tiên, mỗi giá trị của biến

danh định sẽ được mô tả bằng một biến giả

Trang 54

Hồi quy Logistic với biến số danh định

• Phù hợp khi có mối quan hệ liều lượng – đáp ứng

không đều: Thí dụ khi ORtrung niên/ trẻ ≠ Orcao tuổi/rung niên

• Biến số có n mức phơi nhiễm cần n-1 tham số (n-1 các

số OR)

• Thể hiện các mức phơi nhiễm bằng biến giả (biến

school với 4 giá trị được thể hiện bằng 3 biến:

_Ischool_2, _Ischool_3, _Ischool_4

Ntuoi _Ischool_2, _Ischool_3, _Ischool_4

1 (L1 - L0) = 2 × 28,513 = 57,026không học) 0 0 0

2 (L1 - L0) = 2 × 28,513 = 57,0261-3 năm) 1 0 0

3 (L1 - L0) = 2 × 28,513 = 57,0264-6) 0 1 0

4 (L1 - L0) = 2 × 28,513 = 57,0267+ năm) 0 0 1

Trang 56

• Chỉ số likelihood (hay likelihood ratio – LR) để đánh giá mức độ phù hợp của mô hình

• So sánh 2 mô hình nghĩa là so sánh 2

likelihood của mô hình

Trang 57

Phương pháp so sanh LR của 2

mô hình

• Thực hiện mô hình 1

• Lưu kết quả của mô hình 1 với menu

– statistic - general post estimation – Manage estimation results – store estimation results

– Đặt tên mô hình là mhdanhdinh

• Thực hiện mô hình 2

• Lưu kết quả của mô hình 2 với menu

– statistic - general post estimation – Manage estimation results – store estimation results

– Đặt tên mô hình là mhthutu

• So sánh 2 mô hình mhdanhdinh (1) và mhthutu với

menu (2)

– statistic - general post estimation – test – Likelihood ratio test

Trang 58

Nghiên cứu “Ibuprofen in Sepsis”

• Có 455 đối tượng bị sepsis được đưa vào nghiên cứu và được chăm sóc tiêu chuẩn cho sepsis và được theo dõi nhiệt độ mỗi 2 giờ (trong 8 giờ đầu) mỗi 4 giờ (trong

vòng 44 giờ) và mỗi ngày trong ngày 3, 4, 5 Ngoài ra có những bệnh nhân được chia ngẫu nhiên vào nhóm can thiệp được tiêm ibuprofen theo đường tĩnh mạch (treat) Lúc nhập viện bệnh nhân được đánh giá trên thang đo APACHE (apache) Có khoảng 37% bệnh nhân “nặng” được đặt catheter động mạch phổi để đo lường lượng oxy được cung cấp do phổi (o2del) Biến phụ thuộc là

bệnh nhân có bị tử vong trong 30 ngày đầu hay không (fate) Chủng tộc (race) là biến số gây nhiễu

Trang 59

Nghiên cứu “Nguy cơ di truyền

trong xuất huyết trong não tái hồi”

• O’Donnel nghiên cứu tác động của gen

apolipoprotein E lên nguy cơ xuất huyết

trong não tái hồi ở bệnh nhân sống sót

sau xuất huyết não

• Theo dõi 70 bệnh nhân sống sót sau xuất huyết não và đã biết kiểu gen Có 3 alleles cho gen apolipoprotein E: e2, e3 và e4

Bệnh nhân được phân thành nhóm đồng hợp tử e3 và các nhóm còn lại

Trang 64

Kết luận

• Khi biến phụ thuộc là biến nhị giá phải sử dụng hồi quy logistic

• Hồi quy logistic cho OR (=eb ) đồng nhất với OR có được

từ bảng 2 x 2 khi biến độc lập là biến nhị giá (câu 7)

• Hồi quy logistic có thể đưa vào mô hình biến có tính

khuynh hướng (nếu đưa vào biến agegrp) và biến không

có tính khuynh hướng (nếu đưa vào biến i.agegrp)

• Hồi quy logistic giúp so sánh mức độ hợp lí giữa các mô hình bằng cách so sanh likelihood

• Hồi quy logistic có thể đưa được nhiều biến số vào mô hình để loại trừ tác động do sự chênh lệch của yếu tố

gây nhiễu (câu 13)

Trang 65

Phân loại câu hỏi nghiên cứu

Trang 66

• Để đánh giá giá trị của một test

– Sử dụng Độ nhạy, độ chuyên nếu tiêu chuẩn vàng và test là nhị giá

– Sử dụng đường cong ROC nếu tiêu chuẩn vàng là nhị giá và test là định lượng

– Sử dụng hệ số tương quan (và phân tán đồ) nếu tiêu chuẩn vàng và test là định lượng

Trang 67

Thiết kế nghiên cứu đoàn hệ

Trang 68

• Một bác sĩ nhi khoa tại một bệnh viên muốn chẩn

đoán sớm và phân biệt chính xác bệnh viêm màng não mủ và viêm màng não siêu vi bằng xét nghiệm sinh hóa dịch não tủy do việc chẩn đoán căn nguyên bằng cấy vi sinh thường bị chậm Để nghiên cứu tác giả loại bỏ những trường hợp đã rõ viêm màng não siêu vi hay viêm màng não mủ và thực hiện xét

nghiệm sinh hóa cho tất cả các đối tượng có chẩn đoán nghi ngờ Sau đó theo dõi mẫu cấy của các

bệnh nhân này nhằm phân biệt đối tượng bị viêm

màng não mủ hay siêu vi.

Trang 69

• Một bác sĩ nhi khoa tại bệnh viện Nhi đồng 1

quan tâm đến việc chẩn đoán sớm và chính xác bệnh viêm màng não mủ ở trẻ em Theo thường quy bệnh viện, việc chẩn đoán viêm màng não

mủ dựa vào tế bào trong dịch não tủy, Chlor

dịch não tủy và Glucose dịch não tủy Dựa vào các y văn được tổng quan, bác sĩ này cho rằng Lactate trong dịch não tủy cũng có thể góp

phần cho chẩn đoán viêm màng não mủ.

Trang 70

Câu hỏi nghiên cứu

• Trong số các xét nghiệm tế bào, chlor và

glucose dịch não tủy, xét nghiệm nào có giá trị tốt nhất và xét nghiệm nào có giá trị kém nhất.

• Bổ sung xét nghiệm Lactate có làm tăng hiệu

quả chẩn đoán hay không?

• Nếu xét nghiệm Lactate dịch não tủy được sử dụng nó nên sử dụng đồng thời với các xét

nghiệm khác hay sử dụng một mình

• Nếu xét nghiệm Lactate dịch não tủy được sử dụng, ngưỡng để chẩn đoán viêm màng não là bao nhiêu? Với ngưỡng này, độ nhạy cảm và độ đặc hiệu là bao nhiêu?

Trang 71

• Để trả lời các câu hỏi nghiên cứu, người bác sĩ tiến hành một nghiên cứu trên 113 trẻ em nhập Bệnh viện Nhi đồng 1 với

chẩn đoán t/d viêm màng não (trong số đó

có 57 trẻ bị viêm màng não mủ) và ghi

nhận lượng tế bào, chlor, glucose và

lactate dịch não tủy Số liệu này được đặt trong tập tin lact_vmn.dta trong thư mục c:\data

Trang 72

– Cl: clo dịch não tủy

– G_dntmd: glucose dịch não tủy

– Lactate: lactate dịch não tủy

– Prn_dnt: Protein dịch não tủy

– Tb_dnt: tế bào dịch não tủy

– Ten_tat: tên tắt của bệnh nhân

– Vmn_mu: có viêm màng não mủ

Ngày đăng: 02/10/2014, 20:15

Xem thêm

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w