Bài giảng Thống kê y học - Bài 16: Tương quan và hồi quy tuyến tính

10 17 0
Bài giảng Thống kê y học - Bài 16: Tương quan và hồi quy tuyến tính

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong đây cũng có các đường hồi quy..[r]

(1)

TƯƠNG QUAN VÀ H I QUY TUY N TÍNH Mục tiêu:

Sau khi nghiên c u ch  đ  h c viên có kh  năng:ứ ủ ề ọ ả

­ V  phân tán đ   và s  d ng phân tán đ   đ  lí gi i s  tẽ ụ ể ả ự ương quan gi a hai bi n sữ ế ố ­ Trình bày được cơng th c và tính đứ ược  h  s  tệ ố ương quan c a hai bi n s  đ nh lủ ế ố ị ượng ­ Xây d ng đự ược phương trình h i quy tuy n tính c a bi n s  ph  thu c theo m tồ ế ủ ế ố ụ ộ ộ  bi n s  đ c l p.ế ố ộ ậ

­ Trình bày cơng th c và lí gi i ý nghĩa c a sai s  chu n h i quy.ứ ả ủ ố ẩ

­ Trình bày cơng th c c a sai s  chu n c a h  s  tứ ủ ố ẩ ủ ệ ố ương quan, h  s  góc, đi m ch nệ ố ể ặ   và giá tr  tiên đóan th  và áp d ng trong ki m đ nh và ị ể ụ ể ị ướ ược l ng các s  th ng kê trên.ố ố M c tiêu:

Sau khi nghiên c u bài này h c viên có kh  năng:ứ ọ ả

­ Nêu được 2 phương pháp mơ t  s  quan h  gi a hai bi n s  đ nh lả ự ệ ữ ế ố ị ượng: đồ  th  và h  s  tị ệ ố ương quan

­ Trình bày và lí gi i đả ược m i quan h  gi a hai bi n s  b ng phân tán đố ệ ữ ế ố ằ ­ Nêu được ý nghĩa c a h  s  tủ ệ ố ương quan, tính h  s  tệ ố ương quan gi a hai bi nữ ế   s  (trong trố ường h p s  li u đ n gi n) v i máy tính c m tayợ ố ệ ả ầ

­ Xây d ng phự ương trình h i quy gi a hai bi n s  s  d ng máy tính c m tayồ ữ ế ố ụ ầ ­ Ki m đ nh gi  thuy t h  s  góc c a phể ị ả ế ệ ố ủ ương trình h i quy tuy n tính b ng khơng.ồ ế ằ

1 Giới thiệu

Trong bài này chúng ta quan tâm đ n liên h  gi a hai bi n s  đ nh lế ệ ữ ế ố ị ượng  và t p trungậ   ch  y u đ n phủ ế ế ương pháp tương quan và h i quy tuy n tính đ  xác đ nh m i liên hồ ế ể ị ố ệ  n tính (linear) gi a hai bi n liên t c. Tế ữ ế ụ ương quan (correlation) đo lường s  ch tự ặ  ch  c a m i liên h  trong khi h i quy tuy n tính (linear regression) cho bi t phẽ ủ ố ệ ế ế ương  trình đường th ng mơ t  s  liên h  t t nh t và cho phép tiên đoán bi n s  này t  bi nẳ ả ự ệ ố ấ ế ố ế   s  khác.ố

Bảng 9.1 Thể tích huyết tương trọng lượng thể người đàn ông khỏe mạnh Ðối

tượng

trọng lượng thể (kg)

Thể tích huyết tương (lít)

1 58,0 2,75

2 70,0 2,86

3 74,0 3,37

4 63,5 2,76

5 62,0 2,62

6 70,5 3,49

7 71,0 3,05

(2)

2.5 2.7 2.9 3.1 3.3 3.5

55 60 65 70 75

trọng lượng cơ thể

th

 tí

ch

 h

uy

ế

t t

ươ

ng

(3)

2 Tương quan

B ng 9.1 trình bày tr ng lả ọ ượng c  th  và th  tích huy t tơ ể ể ế ương c a 8 ngủ ười đàn ông  kh e m nh. Đ  đánh giá s  liên quan gi a hai bi n s  đ nh lỏ ể ự ữ ế ố ị ượng tr ng lọ ượng c  thơ ể  và th  tích huy t tể ế ương chúng ta có th  s  d ng phân tán đ  hay h  s  tể ụ ệ ố ương quan r: Phân tán đ

Phân tán đ  là đ  th   th  hi n các giá tr  c a các quan sát  b ng kí hi u trên h  to  đồ ị ể ệ ị ủ ằ ệ ệ ộ  g m hai tr c: tr c hoành th  hi n cho bi n s  đ c l p và tr c tung th  hi n bi n sồ ụ ụ ể ệ ế ố ộ ậ ụ ể ệ ế ố  ph  thu c.  Hình 9.1 trình bày phân tán đ  c a th  tích huy t tụ ộ ủ ể ế ương l n có liên quanớ   đ n tr ng lế ọ ượng c  th  cao.ơ ể

– – –

(a) Không tương quan (b) m i liên h  khơng tuy n tínhố ệ ế

– – –

––––

(c) Tương quan dương khơng hồn tồn

(d) Tương quan dương hoàn toàn

– –

––––

(e) Tương quan âm không hoàn toàn

(f) Tương quan âm hoàn toàn

(4)

Hình d ng c a phân tán đ  th  hi n m i liên h  gi a hai bi n s  N u phân tán đ  cóạ ủ ể ệ ố ệ ữ ế ố ế   d ng m t đám mây n m ngang thì khơng có s  liên h  gi a hai bi n s  (hình 9.2 a).ạ ộ ằ ự ệ ữ ế ố   N u phân tán đ  có hình d ng ellipse đi t  dế ưới bên trái lên phía trên bên ph i thì haiả   bi n s  có liên h  thu n (hình 9.2 c và d). N u phân tán đ  có hình d ng ellipse đi tế ố ệ ậ ế ừ  phía trên bên trái xu ng phía dố ưới bên ph i thì hai bi n s  có liên h  ngh ch (hình 9.2 eả ế ố ệ ị   và f). Tr c ng n c a ellipse càng ng n thì m i liên h  càng m nh và n u ellipse bụ ắ ủ ắ ố ệ ế ị  bi n thành m t đế ộ ường th ng thì m i tẳ ố ương quan được xem nh  là hồn tồn (hình 9.2ư   d và f). N u hình d ng c a phân tán đ  khơng ph i là d ng ellipse hay đế ủ ả ường th ng thìẳ   hai bi n s  cũng có m i liên h  nh ng s  tế ố ố ệ ự ương quan này được g i là khơng tuy ế   tính (hình 9.2 b)

Áp d ng lí lu n trên chúng ta có th  xác đ nh gi a th  tích huy t tụ ậ ể ị ữ ể ế ương và tr ng lọ ượng  c  th  có tơ ể ương quan tuy n tính, thu n và khơng hồn tồn.ế ậ

H  s  tệ ố ương quan

N u hai bi n s  đ nh lế ế ố ị ượng có quan h  tuy n tính thì chúng ta có th  đo lệ ế ể ường m   đ  tộ ương quan m t cách chính xác h n b ng cách tính h  s  tộ ằ ệ ố ương quan (correllation  coefficient), r. Cơng th c tính r th  hi n b n ch t c a h  s  tứ ể ệ ả ấ ủ ệ ố ương quan nh  sau:ư

2

2 ( )

) (

) )( (

y y x

x

y y x x r

Đ  tính h  s  tể ệ ố ương quan d  dàng h n Chúng ta  có th  s  d ng cơng th c tính h  sễ ể ụ ứ ệ ố  tương quan nh  sau:ư

1 /

) ( ) ( ) (

) )( (

2

2 n

n s

s

y x n xy y

y x

x

y y x x r

y x i

i

i i

Trong đó x là bi n s  đ c l p (tr ng lế ố ộ ậ ọ ượng), y là bi n s  ph  thu c (th  tích huy tế ố ụ ộ ể ế   tương), x và y là các s  trung bình tố ương  ng. Phân tán đ  minh h a nh ng h  sứ ọ ữ ệ ố  tương quan khác nhau đươc trình bày trong hình 9.2. 

S  d ng cơng th c này đ  tính tốn r, trử ụ ứ ể ước tiên chúng ta hãy tính trung bình và độ  l ch chu n c a bi n s  x và y:ệ ẩ ủ ế ố

Tr ng lọ ượng c  th : ơ ể x=66.875  s=5.4166  n=8

Th  tích huy t tể ế ương  x=3.0025  s=0.31121  n=8 Tích c a hai bi n s  ủ ế ố x=201.91  s=34.849  n=8

Sau đó hãy tính tốn h  s  tệ ố ương quan

758 311 417

086375

1 /

) (

n n s

s

y x n xy r

y x

Lí gi i ý nghĩa c a h  s  tả ủ ệ ố ương quan: 

(5)

­ H  s  tệ ố ương quan r dương ch ng t  hai bi n s  là đ ng bi n; h  s  tứ ỏ ế ố ế ệ ố ương quan r âm  ch ng t  hai bi n s  là ngh ch bi n; h  s  tứ ỏ ế ố ị ế ệ ố ương quan b ng zero n u hai bi n khôngằ ế ế   liên h  ệ

­ Tr  s  tuy t đ i c a h  s  tị ố ệ ố ủ ệ ố ương quan r nói lên m c đ  liên quan gi a hai bi n s ứ ộ ữ ế ố   N u tr  tuy t đ i c a r b ng 1 (r=1 hay r=­1), quan h  hồn tồn tuy n tính nghĩa là t tế ị ệ ố ủ ằ ệ ế ấ   c  các đi m n m trên đả ể ằ ường h i quy (Hình 9.2 d và 9.2f). N u tr  tuy t đ i c a r nhồ ế ị ệ ố ủ ỏ  h n 1 s  có các đi m s  li u phân tán chung quanh đơ ẽ ể ố ệ ường h i quy (hình 9.2 c và 9.2e).ồ ­ Bình phương c a h  s  tủ ệ ố ương quan (r2) th  hi n t  l  bi n thiên c a bi n s  phể ệ ỉ ệ ế ủ ế ố ụ  thu c độ ược gi i thích b ng s  bi n thiên c a bi n s  đ c l p (n u m i liên h  này làả ằ ự ế ủ ế ố ộ ậ ế ố ệ   nhân qu )ả

­ N u r=0, khơng có m i liên h  tuy n tính gi a hai bi n s  Ði u này có nghĩa là (1)ế ố ệ ế ữ ế ố ề   khơng có m i liên h  gì gi a hai bi n s  ho c (hình 9.2a) (2) m i liên h  gi a hai bi nố ệ ữ ế ố ặ ố ệ ữ ế   s  khơng ph i là tuy n tính (hình 9.2b)ố ả ế

­ Theo quy ước, quan h  v i  r t  0,1 đ n 0,3 là quan h  y u, t  0,3 đ n 0,5 quan hệ ế ệ ế ế ệ  trung bình và trên 0,5 là quan h  m nh. Ði u quan tr ng là s  tệ ề ọ ự ương quan gi a haiữ   bi n s  cho th y s  liên h  nh ng khơng nh t thi t có nghĩa là cá quan h  'nhân qu '. ế ố ấ ự ệ ấ ế ệ ả

3 Hồi quy tuyến tính

H i quy tuy n tính cho phồ ế ương trình đường th ng mơ t  n u bi n x tăng thì bi n yẳ ả ế ế ế   tăng nh  th  nào. Không gi ng nh  tư ế ố ương quan, vi c l a ch n bi n nào đ  làm bi n yệ ự ọ ế ể ế   là quan tr ng b i vì hai phọ ương pháp khơng cùng cho m t k t qu , y thộ ế ả ường được g iọ  là bi n s  ph  thu c (dependent variable) và x là bi n s  đ c l p hay gi i thíchế ố ụ ộ ế ố ộ ậ ả   (independent or explanatory variable). Trong thí d  này, rõ ràng chúng ta c n quan tâmụ ầ   s  ph  thu c th  tích huy t tự ụ ộ ể ế ương và tr ng lọ ượng c  th ể

Phương trình h i quy làồ y = a + bx

a:  là đi m ch n (intercept) hay h ng s  (constant) ể ặ ằ ố

b: là đ  d c (slope) c a độ ố ủ ường th ng hay h  s  (coefficient) c a phẳ ệ ố ủ ương trình (Hình  9.3). 

Giá tr  đ i v i a và b đị ố ược tính sao cho c c ti u hóa bình phự ể ương kho ng cách theoả   chi u đ ng t  các đi m s  li u t i đề ể ố ệ ường th ng. Nó đẳ ược g i là phù h p bìnhọ ợ   phương t i thi u (least squares fit) (Hình 9.4). Ð  d c b đơi khi đố ể ộ ố ược g i là h  s  h iọ ệ ố ồ  quy (regression coefficient). Nó có cùng d u v i h  s  tấ ệ ố ương quan. Khi khơng có sự  tương quan, b b ng zero, tằ ương  ng v i m t đứ ộ ường th ng h i quy n m ngang đi quaẳ ằ   m y.ể

x y s s r x

x

y y x x

b 2

) (

(6)

và a = y - bx

a y

x

b

Hình 9.3 Giao điểm độ dốc phương trình hồi quy y = a + bx Giao điểm a điểm mà đường thẳng cắt trục y cho giá trị y x = Ðộ dốc b mức tăng y tương ứng với sự gia tăng đơn vị x.

Trong thí d  nàyụ

b = 8,96/205,38 = 0,0435 Và:

a = 3,0025 - 0,04354 × 66,875 = 0,0907

Do đó s  ph  thu c c a th  tích huy t tự ụ ộ ủ ể ế ương vào tr ng lọ ượng c  th  đơ ể ược mơ tả  b ngằ

Thể tích huyết tương = 0,0907 + 0,0435 × trọng lượng và được v  trên Hình 9.1. ẽ

Ðường h i quy đồ ược v  b ng cách tính t a đ  c a hai đi m c a đẽ ằ ọ ộ ủ ể ủ ường th ng. Thí dẳ ụ  chúng ta có th   tính to  đ  c a để ộ ủ ường th ng t i giá tr  x = 60 và x = 70 ẳ ị

x = 60, y = 0,0907 + 0,0435 × 60 = 2,7032 Và

x = 70, y = 0,0907 + 0,0435 × 70 = 3,1386

(7)

4 Kiểm định ước lượng tương quan hồi quy

Khái ni m v  ph ương sai ph n d ư

2.5 2.7 2.9 3.1 3.3 3.5

55 60 65 70 75

trọng lượng cơ thể th ể  tí ch  h uy ế t t ươ ng

Hình 9.4 Ðường thẳng hồi quy tuyến tính, y = a + bx, làm phù hợp bình phương tối thiểu, a b tính để cực tiểu hóa tổng bình phương độ lệch thẳng đứng (vẽ đường thẳng đứng) điểm đường thẳng, độ lệch hiệu số số y quan sát tiểm tương ứng đường thẳng a + bx

Do các giá tr  c a các  quan sát không n m trên m t đị ủ ằ ộ ường th ng nên chúng có m tẳ ộ   kho ng cách áo v i phả ương trình h i quy. Con s  th  hi n m c đ  phân tán c a sồ ố ể ệ ứ ộ ủ ố  li u quanh đệ ường th ng h i quy đẳ ược g i là sai s  chu n c a h i quy (standard errorọ ố ẩ ủ   of regression). 

Sai s  chu n c a h i quy đố ẩ ủ ược tính theo cơng th c sau:ứ

) (

2 )

( 2

n bx a y n y y s

Sai s  chu n c a h i quy còn đố ẩ ủ ược tri n khai thêm nh  sauể

) ( ) ( ) ( ) ( ) ) (

( 2 2

n x x b y y n bx x b y y s ) ( 1 ) ( )

( 2 2 2

n r y y n r n s n n r s n n s b s

s y x y y

2 )

( 2

n r y

y s

s là đ  l ch chu n c a các đi m s  li u so v i độ ệ ẩ ủ ể ố ệ ường th ng, có (n­2) đ  t  do.ẳ ộ ự

(8)

ho c     ặ 0.21855 ) 417 0436 311 ( )

( 2 2 2

n n s b s

s y x

0.218321 265 311 1 n r n s s y

Đi u này có nghĩa là n u ta áp d ng phề ế ụ ương trình h i quy đ  tiên đốn th  tích huy tồ ể ể ế   tương thì chúng ta khơng th  tiên đốn m t cách chính xác: chúng ta s  m c m t sai sể ộ ẽ ắ ộ ố  trung bình là 0.218

Bình phương c a sai s  h i quy đủ ố ược g i là phọ ương sai ph n d :ầ ) ( )

( 2 2

2 n r n s n n s b s

s y x y

Ki m đ nh ý nghĩa h  s  t ệ ố ương quan

Khi chúng ta đã có h  s  tệ ố ương quan, có hai phương pháp ki m đ nh h  s  tể ị ệ ố ương quan  này. M t phộ ương pháp đ  ki m đ nh gi  thuy t Ho: h  s  tể ể ị ả ế ệ ố ương quan r = 0  và m tộ   phương pháp ki m đ nh gi  thuy t Ho: h  s  tể ị ả ế ệ ố ương quan r = ρ (v i ớ ρ ≠ 0)

 ­ Ki m đ nh t để ị ược dùng đ  xem r có khác zero m t cách có ý nghĩa hay khơng. Nóiể ộ   cách khác đi, ki m đ nh này đ  xem s  tể ị ể ự ương quan quan sát được có ph i là th c sả ự ự  này ch  do tình c  Vi c ki m đ nh này d a trên c  s  c a công th c ỉ ệ ể ị ự ủ ứ ướ ược l ng sai số  chu n c a r: s.e.(r) = (1­rẩ ủ 2)/(n­2)

2 ) ( ) ( y y s n r r e s ,

2 d f n

r n r t

Thí d  đ  ki m đ nh gi  thuy t h  s  tụ ể ể ị ả ế ệ ố ương quan gi a th  tích huy t tữ ể ế ương và tr ngọ   lượng c  th  b ng khơng, chúng ta ti n hành các tính tốn sau:ơ ể ằ ế

0.265 76 ) (

2

n r r e s , 86 76 76

0 2 d f

t

Ði u này có ý nghĩa   m c 5% xác nh n ý nghĩa c a s  liên h  gi a th  tích huy tề ứ ậ ủ ự ệ ữ ể ế   tương và tr ng lọ ượng c  thơ ể

(9)

­ Ki m đ nh z đ   ki m đ nh gi  thuy t Ho: h  s  tể ị ể ể ị ả ế ệ ố ương quan r = ρ (v i ớ ρ ≠ 0)

Trước tiên chúng ta tìm hi u v  phép bi n đ i z c a Fisher. Fisher đã ch ng minh z(r)ể ề ế ổ ủ ứ   (đ c là hàm s  z c a h  s  tọ ố ủ ệ ố ương quan r):

r r r z 1 ln ) (

s  có phân ph i bình thẽ ố ường v i trung bình là z(ớ ρ) và đ  l ch chu n là ộ ệ ẩ √1/(n­3) Nh  v y đ  ki m đ nh h  s  tư ậ ể ể ị ệ ố ương quan r = ρ (v i ớ ρ ≠ 0), chúng ta ph i tính:ả

r r r z 1 ln ) ( 1 ln ) ( z

 (chúng ta l u ý n u ư ế ρ = 0 thì hàm s  z c a ố ủ ρ s  tr  thànhẽ   không xác đ nh)ị

và  ) ( ) ( ) /( ) ( )

( z r r n

n r r z z  

Thí d  gi  s    tác gi  X tìm đụ ả ả ược h  s  tệ ố ương quan gi a th  tích huy t tữ ể ế ương và  tr ng lọ ượng c  th  là 0.4, hãy ki m đ nh xem h  s  tơ ể ể ị ệ ố ương quan chúng ta đã tìm ra có  th c s  l n h n h  s  tự ự ệ ố ương quan được báo cáo do tác gi  X hay không:ả

Chúng ta tính được:

9962 76 76 ln 1 ln ) ( r r r z 4236 ln 1 ln ) ( z   và  280 ) /( 4236 9962 ) /( ) ( ) ( n r r z z  

Tra b ng phân ph i chu n m t đi chúng ta tính đả ố ẩ ộ ược giá tr  p > 0.05 vì v y chúng taị ậ   khơng có b ng ch ng th ng kê đ  cho r ng h  s  tằ ứ ố ể ằ ệ ố ương quan c a chúng ta tìm ra th củ ự   s  l n h n 0.4.ự

Sai s  chu n c a các  ướ ược l ng dùng phương trình h i quy

Đường th ng h i quy cũng tẳ ương t  nh  các giá tr  th ng kê  các đ u có kh  năng bự ị ố ề ả ị  sai s  và phố ương trình  h i quy đồ ược tính t  m t m u  ch  là ừ ộ ẫ ỉ ướ ược l ng cho phương  trình h i quy th c s  c a tồn b  dân s  ồ ự ự ủ ộ ố

Giá tr  a và b là các ị ướ ược l ng m u c a giá tr  giao đi m và đ  d c c a đẫ ủ ị ể ộ ố ủ ường th ngẳ   h i quy mô t  m i liên h  tuy n tính gi a x và y trong tồn b  dân s  Do đó chúng bồ ả ố ệ ế ữ ộ ố ị  các bi n thiên l y m u và đ  chính xác c a chúng có th  đo lế ấ ẫ ộ ủ ể ường b ng sai s  chu n.ằ ố ẩ   T  sai s  chu n chúng ta có th  d  dàng tính đừ ố ẩ ể ễ ược kho ng tin c y c a các ả ậ ủ ướ ược l ng  này hay ki m đ nh chúng có khác v i m t giá tr  c  th  nào hay khơngể ị ộ ị ụ ể

(10)

Sai s  chu n c a a đố ẩ ủ ược tính theo cơng th c sauứ 2 ) ( ) ( x x x n s a e s

kho ng tin c y c a a :ả ậ ủ a ± tc × s.e.(a)

Và đ  ki m đ nh a có khác so v i ể ể ị α , ) (

.e a d f n s

a t

Áp d ng vào thí d    trên ta có ụ ụ

3197 38 205 66 2819

0 .

. . .

s.e.(a) Kho ng tin c y 95% c a đi m ch n a b ng:ả ậ ủ ể ặ ằ

Kho ng tin c y 95% :  a ± tả ậ c × s.e.(a)  = 0.0857 ± 2.45 × 1.3197 = ­3.148 – 3.319

M t nghiên c u trộ ứ ước đây đã báo cáo phương trình h i quy c a th  tích huy t tồ ủ ể ế ương  theo cân n ng v i giá tr  đi m ch n a là 2.1.  Có th  ki m đ nh giá tr  đi m ch n trongặ ị ể ặ ể ể ị ị ể ặ   nghiên c u c a chúng ta có khác v i giá tr  2.1 đã báo cáo hay khơng b ng phép ki m t:ứ ủ ị ằ ể

2 , 53 3197 0301 3197 1158 0857 ) (

.e a d f n

s a t

tra b ng ta có p >0.05 (p = 0.177) chúng ta khơng th  bác b  gi  thuy t Ho và nh  v yả ể ỏ ả ế ậ   chúng ta có th  k t lu n khơng có s  khác bi t có ý nghĩa th ng kê v  giá tr  đi mể ế ậ ự ệ ố ề ị ể   ch n c a nghiên c u c a chúng ta và nghiên c u đã báo cáo.ặ ủ ứ ủ ứ

Sai s  chu n c a bố ẩ ủ

Sai s  chu n c a b đố ẩ ủ ược tính theo cơng th c sauứ ) ( ) ( x x s b e s

kho ng tin c y c a b :ả ậ ủ b ± tc × s.e.(b)

Và đ  ki m đ nh b có khác so v i ể ể ị β , ) (

.e b d f n s

b t Thí d :ụ

Áp d ng vào trụ ường h p phợ ương trình h i quy c a th  tích huy t tồ ủ ể ế ương theo cân n ngặ   ta được:  

0153 38 205 2189 ) ( ) ( x x s b e s

Ngày đăng: 09/03/2021, 07:34

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan