1. Trang chủ
  2. » Y Tế - Sức Khỏe

Bài giảng Thống kê y học - Bài 16: Tương quan và hồi quy tuyến tính

10 18 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 407,36 KB

Nội dung

Trong đây cũng có các đường hồi quy..[r]

(1)

TƯƠNG QUAN VÀ H I QUY TUY N TÍNH Mục tiêu:

Sau khi nghiên c u ch  đ  h c viên có kh  năng:ứ ủ ề ọ ả

­ V  phân tán đ   và s  d ng phân tán đ   đ  lí gi i s  tẽ ụ ể ả ự ương quan gi a hai bi n sữ ế ố ­ Trình bày được cơng th c và tính đứ ược  h  s  tệ ố ương quan c a hai bi n s  đ nh lủ ế ố ị ượng ­ Xây d ng đự ược phương trình h i quy tuy n tính c a bi n s  ph  thu c theo m tồ ế ủ ế ố ụ ộ ộ  bi n s  đ c l p.ế ố ộ ậ

­ Trình bày cơng th c và lí gi i ý nghĩa c a sai s  chu n h i quy.ứ ả ủ ố ẩ

­ Trình bày cơng th c c a sai s  chu n c a h  s  tứ ủ ố ẩ ủ ệ ố ương quan, h  s  góc, đi m ch nệ ố ể ặ   và giá tr  tiên đóan th  và áp d ng trong ki m đ nh và ị ể ụ ể ị ướ ược l ng các s  th ng kê trên.ố ố M c tiêu:

Sau khi nghiên c u bài này h c viên có kh  năng:ứ ọ ả

­ Nêu được 2 phương pháp mơ t  s  quan h  gi a hai bi n s  đ nh lả ự ệ ữ ế ố ị ượng: đồ  th  và h  s  tị ệ ố ương quan

­ Trình bày và lí gi i đả ược m i quan h  gi a hai bi n s  b ng phân tán đố ệ ữ ế ố ằ ­ Nêu được ý nghĩa c a h  s  tủ ệ ố ương quan, tính h  s  tệ ố ương quan gi a hai bi nữ ế   s  (trong trố ường h p s  li u đ n gi n) v i máy tính c m tayợ ố ệ ả ầ

­ Xây d ng phự ương trình h i quy gi a hai bi n s  s  d ng máy tính c m tayồ ữ ế ố ụ ầ ­ Ki m đ nh gi  thuy t h  s  góc c a phể ị ả ế ệ ố ủ ương trình h i quy tuy n tính b ng khơng.ồ ế ằ

1 Giới thiệu

Trong bài này chúng ta quan tâm đ n liên h  gi a hai bi n s  đ nh lế ệ ữ ế ố ị ượng  và t p trungậ   ch  y u đ n phủ ế ế ương pháp tương quan và h i quy tuy n tính đ  xác đ nh m i liên hồ ế ể ị ố ệ  n tính (linear) gi a hai bi n liên t c. Tế ữ ế ụ ương quan (correlation) đo lường s  ch tự ặ  ch  c a m i liên h  trong khi h i quy tuy n tính (linear regression) cho bi t phẽ ủ ố ệ ế ế ương  trình đường th ng mơ t  s  liên h  t t nh t và cho phép tiên đoán bi n s  này t  bi nẳ ả ự ệ ố ấ ế ố ế   s  khác.ố

Bảng 9.1 Thể tích huyết tương trọng lượng thể người đàn ông khỏe mạnh Ðối

tượng

trọng lượng thể (kg)

Thể tích huyết tương (lít)

1 58,0 2,75

2 70,0 2,86

3 74,0 3,37

4 63,5 2,76

5 62,0 2,62

6 70,5 3,49

7 71,0 3,05

(2)

2.5 2.7 2.9 3.1 3.3 3.5

55 60 65 70 75

trọng lượng cơ thể

th

 tí

ch

 h

uy

ế

t t

ươ

ng

(3)

2 Tương quan

B ng 9.1 trình bày tr ng lả ọ ượng c  th  và th  tích huy t tơ ể ể ế ương c a 8 ngủ ười đàn ông  kh e m nh. Đ  đánh giá s  liên quan gi a hai bi n s  đ nh lỏ ể ự ữ ế ố ị ượng tr ng lọ ượng c  thơ ể  và th  tích huy t tể ế ương chúng ta có th  s  d ng phân tán đ  hay h  s  tể ụ ệ ố ương quan r: Phân tán đ

Phân tán đ  là đ  th   th  hi n các giá tr  c a các quan sát  b ng kí hi u trên h  to  đồ ị ể ệ ị ủ ằ ệ ệ ộ  g m hai tr c: tr c hoành th  hi n cho bi n s  đ c l p và tr c tung th  hi n bi n sồ ụ ụ ể ệ ế ố ộ ậ ụ ể ệ ế ố  ph  thu c.  Hình 9.1 trình bày phân tán đ  c a th  tích huy t tụ ộ ủ ể ế ương l n có liên quanớ   đ n tr ng lế ọ ượng c  th  cao.ơ ể

– – –

(a) Không tương quan (b) m i liên h  khơng tuy n tínhố ệ ế

– – –

––––

(c) Tương quan dương khơng hồn tồn

(d) Tương quan dương hoàn toàn

– –

––––

(e) Tương quan âm không hoàn toàn

(f) Tương quan âm hoàn toàn

(4)

Hình d ng c a phân tán đ  th  hi n m i liên h  gi a hai bi n s  N u phân tán đ  cóạ ủ ể ệ ố ệ ữ ế ố ế   d ng m t đám mây n m ngang thì khơng có s  liên h  gi a hai bi n s  (hình 9.2 a).ạ ộ ằ ự ệ ữ ế ố   N u phân tán đ  có hình d ng ellipse đi t  dế ưới bên trái lên phía trên bên ph i thì haiả   bi n s  có liên h  thu n (hình 9.2 c và d). N u phân tán đ  có hình d ng ellipse đi tế ố ệ ậ ế ừ  phía trên bên trái xu ng phía dố ưới bên ph i thì hai bi n s  có liên h  ngh ch (hình 9.2 eả ế ố ệ ị   và f). Tr c ng n c a ellipse càng ng n thì m i liên h  càng m nh và n u ellipse bụ ắ ủ ắ ố ệ ế ị  bi n thành m t đế ộ ường th ng thì m i tẳ ố ương quan được xem nh  là hồn tồn (hình 9.2ư   d và f). N u hình d ng c a phân tán đ  khơng ph i là d ng ellipse hay đế ủ ả ường th ng thìẳ   hai bi n s  cũng có m i liên h  nh ng s  tế ố ố ệ ự ương quan này được g i là khơng tuy ế   tính (hình 9.2 b)

Áp d ng lí lu n trên chúng ta có th  xác đ nh gi a th  tích huy t tụ ậ ể ị ữ ể ế ương và tr ng lọ ượng  c  th  có tơ ể ương quan tuy n tính, thu n và khơng hồn tồn.ế ậ

H  s  tệ ố ương quan

N u hai bi n s  đ nh lế ế ố ị ượng có quan h  tuy n tính thì chúng ta có th  đo lệ ế ể ường m   đ  tộ ương quan m t cách chính xác h n b ng cách tính h  s  tộ ằ ệ ố ương quan (correllation  coefficient), r. Cơng th c tính r th  hi n b n ch t c a h  s  tứ ể ệ ả ấ ủ ệ ố ương quan nh  sau:ư

2

2 ( )

) (

) )( (

y y x

x

y y x x r

Đ  tính h  s  tể ệ ố ương quan d  dàng h n Chúng ta  có th  s  d ng cơng th c tính h  sễ ể ụ ứ ệ ố  tương quan nh  sau:ư

1 /

) ( ) ( ) (

) )( (

2

2 n

n s

s

y x n xy y

y x

x

y y x x r

y x i

i

i i

Trong đó x là bi n s  đ c l p (tr ng lế ố ộ ậ ọ ượng), y là bi n s  ph  thu c (th  tích huy tế ố ụ ộ ể ế   tương), x và y là các s  trung bình tố ương  ng. Phân tán đ  minh h a nh ng h  sứ ọ ữ ệ ố  tương quan khác nhau đươc trình bày trong hình 9.2. 

S  d ng cơng th c này đ  tính tốn r, trử ụ ứ ể ước tiên chúng ta hãy tính trung bình và độ  l ch chu n c a bi n s  x và y:ệ ẩ ủ ế ố

Tr ng lọ ượng c  th : ơ ể x=66.875  s=5.4166  n=8

Th  tích huy t tể ế ương  x=3.0025  s=0.31121  n=8 Tích c a hai bi n s  ủ ế ố x=201.91  s=34.849  n=8

Sau đó hãy tính tốn h  s  tệ ố ương quan

758 311 417

086375

1 /

) (

n n s

s

y x n xy r

y x

Lí gi i ý nghĩa c a h  s  tả ủ ệ ố ương quan: 

(5)

­ H  s  tệ ố ương quan r dương ch ng t  hai bi n s  là đ ng bi n; h  s  tứ ỏ ế ố ế ệ ố ương quan r âm  ch ng t  hai bi n s  là ngh ch bi n; h  s  tứ ỏ ế ố ị ế ệ ố ương quan b ng zero n u hai bi n khôngằ ế ế   liên h  ệ

­ Tr  s  tuy t đ i c a h  s  tị ố ệ ố ủ ệ ố ương quan r nói lên m c đ  liên quan gi a hai bi n s ứ ộ ữ ế ố   N u tr  tuy t đ i c a r b ng 1 (r=1 hay r=­1), quan h  hồn tồn tuy n tính nghĩa là t tế ị ệ ố ủ ằ ệ ế ấ   c  các đi m n m trên đả ể ằ ường h i quy (Hình 9.2 d và 9.2f). N u tr  tuy t đ i c a r nhồ ế ị ệ ố ủ ỏ  h n 1 s  có các đi m s  li u phân tán chung quanh đơ ẽ ể ố ệ ường h i quy (hình 9.2 c và 9.2e).ồ ­ Bình phương c a h  s  tủ ệ ố ương quan (r2) th  hi n t  l  bi n thiên c a bi n s  phể ệ ỉ ệ ế ủ ế ố ụ  thu c độ ược gi i thích b ng s  bi n thiên c a bi n s  đ c l p (n u m i liên h  này làả ằ ự ế ủ ế ố ộ ậ ế ố ệ   nhân qu )ả

­ N u r=0, khơng có m i liên h  tuy n tính gi a hai bi n s  Ði u này có nghĩa là (1)ế ố ệ ế ữ ế ố ề   khơng có m i liên h  gì gi a hai bi n s  ho c (hình 9.2a) (2) m i liên h  gi a hai bi nố ệ ữ ế ố ặ ố ệ ữ ế   s  khơng ph i là tuy n tính (hình 9.2b)ố ả ế

­ Theo quy ước, quan h  v i  r t  0,1 đ n 0,3 là quan h  y u, t  0,3 đ n 0,5 quan hệ ế ệ ế ế ệ  trung bình và trên 0,5 là quan h  m nh. Ði u quan tr ng là s  tệ ề ọ ự ương quan gi a haiữ   bi n s  cho th y s  liên h  nh ng khơng nh t thi t có nghĩa là cá quan h  'nhân qu '. ế ố ấ ự ệ ấ ế ệ ả

3 Hồi quy tuyến tính

H i quy tuy n tính cho phồ ế ương trình đường th ng mơ t  n u bi n x tăng thì bi n yẳ ả ế ế ế   tăng nh  th  nào. Không gi ng nh  tư ế ố ương quan, vi c l a ch n bi n nào đ  làm bi n yệ ự ọ ế ể ế   là quan tr ng b i vì hai phọ ương pháp khơng cùng cho m t k t qu , y thộ ế ả ường được g iọ  là bi n s  ph  thu c (dependent variable) và x là bi n s  đ c l p hay gi i thíchế ố ụ ộ ế ố ộ ậ ả   (independent or explanatory variable). Trong thí d  này, rõ ràng chúng ta c n quan tâmụ ầ   s  ph  thu c th  tích huy t tự ụ ộ ể ế ương và tr ng lọ ượng c  th ể

Phương trình h i quy làồ y = a + bx

a:  là đi m ch n (intercept) hay h ng s  (constant) ể ặ ằ ố

b: là đ  d c (slope) c a độ ố ủ ường th ng hay h  s  (coefficient) c a phẳ ệ ố ủ ương trình (Hình  9.3). 

Giá tr  đ i v i a và b đị ố ược tính sao cho c c ti u hóa bình phự ể ương kho ng cách theoả   chi u đ ng t  các đi m s  li u t i đề ể ố ệ ường th ng. Nó đẳ ược g i là phù h p bìnhọ ợ   phương t i thi u (least squares fit) (Hình 9.4). Ð  d c b đơi khi đố ể ộ ố ược g i là h  s  h iọ ệ ố ồ  quy (regression coefficient). Nó có cùng d u v i h  s  tấ ệ ố ương quan. Khi khơng có sự  tương quan, b b ng zero, tằ ương  ng v i m t đứ ộ ường th ng h i quy n m ngang đi quaẳ ằ   m y.ể

x y s s r x

x

y y x x

b 2

) (

(6)

và a = y - bx

a y

x

b

Hình 9.3 Giao điểm độ dốc phương trình hồi quy y = a + bx Giao điểm a điểm mà đường thẳng cắt trục y cho giá trị y x = Ðộ dốc b mức tăng y tương ứng với sự gia tăng đơn vị x.

Trong thí d  nàyụ

b = 8,96/205,38 = 0,0435 Và:

a = 3,0025 - 0,04354 × 66,875 = 0,0907

Do đó s  ph  thu c c a th  tích huy t tự ụ ộ ủ ể ế ương vào tr ng lọ ượng c  th  đơ ể ược mơ tả  b ngằ

Thể tích huyết tương = 0,0907 + 0,0435 × trọng lượng và được v  trên Hình 9.1. ẽ

Ðường h i quy đồ ược v  b ng cách tính t a đ  c a hai đi m c a đẽ ằ ọ ộ ủ ể ủ ường th ng. Thí dẳ ụ  chúng ta có th   tính to  đ  c a để ộ ủ ường th ng t i giá tr  x = 60 và x = 70 ẳ ị

x = 60, y = 0,0907 + 0,0435 × 60 = 2,7032 Và

x = 70, y = 0,0907 + 0,0435 × 70 = 3,1386

(7)

4 Kiểm định ước lượng tương quan hồi quy

Khái ni m v  ph ương sai ph n d ư

2.5 2.7 2.9 3.1 3.3 3.5

55 60 65 70 75

trọng lượng cơ thể th ể  tí ch  h uy ế t t ươ ng

Hình 9.4 Ðường thẳng hồi quy tuyến tính, y = a + bx, làm phù hợp bình phương tối thiểu, a b tính để cực tiểu hóa tổng bình phương độ lệch thẳng đứng (vẽ đường thẳng đứng) điểm đường thẳng, độ lệch hiệu số số y quan sát tiểm tương ứng đường thẳng a + bx

Do các giá tr  c a các  quan sát không n m trên m t đị ủ ằ ộ ường th ng nên chúng có m tẳ ộ   kho ng cách áo v i phả ương trình h i quy. Con s  th  hi n m c đ  phân tán c a sồ ố ể ệ ứ ộ ủ ố  li u quanh đệ ường th ng h i quy đẳ ược g i là sai s  chu n c a h i quy (standard errorọ ố ẩ ủ   of regression). 

Sai s  chu n c a h i quy đố ẩ ủ ược tính theo cơng th c sau:ứ

) (

2 )

( 2

n bx a y n y y s

Sai s  chu n c a h i quy còn đố ẩ ủ ược tri n khai thêm nh  sauể

) ( ) ( ) ( ) ( ) ) (

( 2 2

n x x b y y n bx x b y y s ) ( 1 ) ( )

( 2 2 2

n r y y n r n s n n r s n n s b s

s y x y y

2 )

( 2

n r y

y s

s là đ  l ch chu n c a các đi m s  li u so v i độ ệ ẩ ủ ể ố ệ ường th ng, có (n­2) đ  t  do.ẳ ộ ự

(8)

ho c     ặ 0.21855 ) 417 0436 311 ( )

( 2 2 2

n n s b s

s y x

0.218321 265 311 1 n r n s s y

Đi u này có nghĩa là n u ta áp d ng phề ế ụ ương trình h i quy đ  tiên đốn th  tích huy tồ ể ể ế   tương thì chúng ta khơng th  tiên đốn m t cách chính xác: chúng ta s  m c m t sai sể ộ ẽ ắ ộ ố  trung bình là 0.218

Bình phương c a sai s  h i quy đủ ố ược g i là phọ ương sai ph n d :ầ ) ( )

( 2 2

2 n r n s n n s b s

s y x y

Ki m đ nh ý nghĩa h  s  t ệ ố ương quan

Khi chúng ta đã có h  s  tệ ố ương quan, có hai phương pháp ki m đ nh h  s  tể ị ệ ố ương quan  này. M t phộ ương pháp đ  ki m đ nh gi  thuy t Ho: h  s  tể ể ị ả ế ệ ố ương quan r = 0  và m tộ   phương pháp ki m đ nh gi  thuy t Ho: h  s  tể ị ả ế ệ ố ương quan r = ρ (v i ớ ρ ≠ 0)

 ­ Ki m đ nh t để ị ược dùng đ  xem r có khác zero m t cách có ý nghĩa hay khơng. Nóiể ộ   cách khác đi, ki m đ nh này đ  xem s  tể ị ể ự ương quan quan sát được có ph i là th c sả ự ự  này ch  do tình c  Vi c ki m đ nh này d a trên c  s  c a công th c ỉ ệ ể ị ự ủ ứ ướ ược l ng sai số  chu n c a r: s.e.(r) = (1­rẩ ủ 2)/(n­2)

2 ) ( ) ( y y s n r r e s ,

2 d f n

r n r t

Thí d  đ  ki m đ nh gi  thuy t h  s  tụ ể ể ị ả ế ệ ố ương quan gi a th  tích huy t tữ ể ế ương và tr ngọ   lượng c  th  b ng khơng, chúng ta ti n hành các tính tốn sau:ơ ể ằ ế

0.265 76 ) (

2

n r r e s , 86 76 76

0 2 d f

t

Ði u này có ý nghĩa   m c 5% xác nh n ý nghĩa c a s  liên h  gi a th  tích huy tề ứ ậ ủ ự ệ ữ ể ế   tương và tr ng lọ ượng c  thơ ể

(9)

­ Ki m đ nh z đ   ki m đ nh gi  thuy t Ho: h  s  tể ị ể ể ị ả ế ệ ố ương quan r = ρ (v i ớ ρ ≠ 0)

Trước tiên chúng ta tìm hi u v  phép bi n đ i z c a Fisher. Fisher đã ch ng minh z(r)ể ề ế ổ ủ ứ   (đ c là hàm s  z c a h  s  tọ ố ủ ệ ố ương quan r):

r r r z 1 ln ) (

s  có phân ph i bình thẽ ố ường v i trung bình là z(ớ ρ) và đ  l ch chu n là ộ ệ ẩ √1/(n­3) Nh  v y đ  ki m đ nh h  s  tư ậ ể ể ị ệ ố ương quan r = ρ (v i ớ ρ ≠ 0), chúng ta ph i tính:ả

r r r z 1 ln ) ( 1 ln ) ( z

 (chúng ta l u ý n u ư ế ρ = 0 thì hàm s  z c a ố ủ ρ s  tr  thànhẽ   không xác đ nh)ị

và  ) ( ) ( ) /( ) ( )

( z r r n

n r r z z  

Thí d  gi  s    tác gi  X tìm đụ ả ả ược h  s  tệ ố ương quan gi a th  tích huy t tữ ể ế ương và  tr ng lọ ượng c  th  là 0.4, hãy ki m đ nh xem h  s  tơ ể ể ị ệ ố ương quan chúng ta đã tìm ra có  th c s  l n h n h  s  tự ự ệ ố ương quan được báo cáo do tác gi  X hay không:ả

Chúng ta tính được:

9962 76 76 ln 1 ln ) ( r r r z 4236 ln 1 ln ) ( z   và  280 ) /( 4236 9962 ) /( ) ( ) ( n r r z z  

Tra b ng phân ph i chu n m t đi chúng ta tính đả ố ẩ ộ ược giá tr  p > 0.05 vì v y chúng taị ậ   khơng có b ng ch ng th ng kê đ  cho r ng h  s  tằ ứ ố ể ằ ệ ố ương quan c a chúng ta tìm ra th củ ự   s  l n h n 0.4.ự

Sai s  chu n c a các  ướ ược l ng dùng phương trình h i quy

Đường th ng h i quy cũng tẳ ương t  nh  các giá tr  th ng kê  các đ u có kh  năng bự ị ố ề ả ị  sai s  và phố ương trình  h i quy đồ ược tính t  m t m u  ch  là ừ ộ ẫ ỉ ướ ược l ng cho phương  trình h i quy th c s  c a tồn b  dân s  ồ ự ự ủ ộ ố

Giá tr  a và b là các ị ướ ược l ng m u c a giá tr  giao đi m và đ  d c c a đẫ ủ ị ể ộ ố ủ ường th ngẳ   h i quy mô t  m i liên h  tuy n tính gi a x và y trong tồn b  dân s  Do đó chúng bồ ả ố ệ ế ữ ộ ố ị  các bi n thiên l y m u và đ  chính xác c a chúng có th  đo lế ấ ẫ ộ ủ ể ường b ng sai s  chu n.ằ ố ẩ   T  sai s  chu n chúng ta có th  d  dàng tính đừ ố ẩ ể ễ ược kho ng tin c y c a các ả ậ ủ ướ ược l ng  này hay ki m đ nh chúng có khác v i m t giá tr  c  th  nào hay khơngể ị ộ ị ụ ể

(10)

Sai s  chu n c a a đố ẩ ủ ược tính theo cơng th c sauứ 2 ) ( ) ( x x x n s a e s

kho ng tin c y c a a :ả ậ ủ a ± tc × s.e.(a)

Và đ  ki m đ nh a có khác so v i ể ể ị α , ) (

.e a d f n s

a t

Áp d ng vào thí d    trên ta có ụ ụ

3197 38 205 66 2819

0 .

. . .

s.e.(a) Kho ng tin c y 95% c a đi m ch n a b ng:ả ậ ủ ể ặ ằ

Kho ng tin c y 95% :  a ± tả ậ c × s.e.(a)  = 0.0857 ± 2.45 × 1.3197 = ­3.148 – 3.319

M t nghiên c u trộ ứ ước đây đã báo cáo phương trình h i quy c a th  tích huy t tồ ủ ể ế ương  theo cân n ng v i giá tr  đi m ch n a là 2.1.  Có th  ki m đ nh giá tr  đi m ch n trongặ ị ể ặ ể ể ị ị ể ặ   nghiên c u c a chúng ta có khác v i giá tr  2.1 đã báo cáo hay khơng b ng phép ki m t:ứ ủ ị ằ ể

2 , 53 3197 0301 3197 1158 0857 ) (

.e a d f n

s a t

tra b ng ta có p >0.05 (p = 0.177) chúng ta khơng th  bác b  gi  thuy t Ho và nh  v yả ể ỏ ả ế ậ   chúng ta có th  k t lu n khơng có s  khác bi t có ý nghĩa th ng kê v  giá tr  đi mể ế ậ ự ệ ố ề ị ể   ch n c a nghiên c u c a chúng ta và nghiên c u đã báo cáo.ặ ủ ứ ủ ứ

Sai s  chu n c a bố ẩ ủ

Sai s  chu n c a b đố ẩ ủ ược tính theo cơng th c sauứ ) ( ) ( x x s b e s

kho ng tin c y c a b :ả ậ ủ b ± tc × s.e.(b)

Và đ  ki m đ nh b có khác so v i ể ể ị β , ) (

.e b d f n s

b t Thí d :ụ

Áp d ng vào trụ ường h p phợ ương trình h i quy c a th  tích huy t tồ ủ ể ế ương theo cân n ngặ   ta được:  

0153 38 205 2189 ) ( ) ( x x s b e s

Ngày đăng: 09/03/2021, 07:34

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w