Trong đây cũng có các đường hồi quy..[r]
(1)TƯƠNG QUAN VÀ H I QUY TUY N TÍNHỒ Ế Mục tiêu:
Sau khi nghiên c u ch đ h c viên có kh năng:ứ ủ ề ọ ả
V phân tán đ và s d ng phân tán đ đ lí gi i s tẽ ụ ể ả ự ương quan gi a hai bi n sữ ế ố Trình bày được cơng th c và tính đứ ược h s tệ ố ương quan c a hai bi n s đ nh lủ ế ố ị ượng Xây d ng đự ược phương trình h i quy tuy n tính c a bi n s ph thu c theo m tồ ế ủ ế ố ụ ộ ộ bi n s đ c l p.ế ố ộ ậ
Trình bày cơng th c và lí gi i ý nghĩa c a sai s chu n h i quy.ứ ả ủ ố ẩ
Trình bày cơng th c c a sai s chu n c a h s tứ ủ ố ẩ ủ ệ ố ương quan, h s góc, đi m ch nệ ố ể ặ và giá tr tiên đóan th và áp d ng trong ki m đ nh và ị ể ụ ể ị ướ ược l ng các s th ng kê trên.ố ố M c tiêu:ụ
Sau khi nghiên c u bài này h c viên có kh năng:ứ ọ ả
Nêu được 2 phương pháp mơ t s quan h gi a hai bi n s đ nh lả ự ệ ữ ế ố ị ượng: đồ th và h s tị ệ ố ương quan
Trình bày và lí gi i đả ược m i quan h gi a hai bi n s b ng phân tán đố ệ ữ ế ố ằ Nêu được ý nghĩa c a h s tủ ệ ố ương quan, tính h s tệ ố ương quan gi a hai bi nữ ế s (trong trố ường h p s li u đ n gi n) v i máy tính c m tayợ ố ệ ả ầ
Xây d ng phự ương trình h i quy gi a hai bi n s s d ng máy tính c m tayồ ữ ế ố ụ ầ Ki m đ nh gi thuy t h s góc c a phể ị ả ế ệ ố ủ ương trình h i quy tuy n tính b ng khơng.ồ ế ằ
1 Giới thiệu
Trong bài này chúng ta quan tâm đ n liên h gi a hai bi n s đ nh lế ệ ữ ế ố ị ượng và t p trungậ ch y u đ n phủ ế ế ương pháp tương quan và h i quy tuy n tính đ xác đ nh m i liên hồ ế ể ị ố ệ n tính (linear) gi a hai bi n liên t c. Tế ữ ế ụ ương quan (correlation) đo lường s ch tự ặ ch c a m i liên h trong khi h i quy tuy n tính (linear regression) cho bi t phẽ ủ ố ệ ế ế ương trình đường th ng mơ t s liên h t t nh t và cho phép tiên đoán bi n s này t bi nẳ ả ự ệ ố ấ ế ố ế s khác.ố
Bảng 9.1 Thể tích huyết tương trọng lượng thể người đàn ông khỏe mạnh Ðối
tượng
trọng lượng thể (kg)
Thể tích huyết tương (lít)
1 58,0 2,75
2 70,0 2,86
3 74,0 3,37
4 63,5 2,76
5 62,0 2,62
6 70,5 3,49
7 71,0 3,05
(2)2.5 2.7 2.9 3.1 3.3 3.5
55 60 65 70 75
trọng lượng cơ thể
th
ể
tí
ch
h
uy
ế
t t
ươ
ng
(3)2 Tương quan
B ng 9.1 trình bày tr ng lả ọ ượng c th và th tích huy t tơ ể ể ế ương c a 8 ngủ ười đàn ông kh e m nh. Đ đánh giá s liên quan gi a hai bi n s đ nh lỏ ể ự ữ ế ố ị ượng tr ng lọ ượng c thơ ể và th tích huy t tể ế ương chúng ta có th s d ng phân tán đ hay h s tể ụ ệ ố ương quan r: Phân tán đồ
Phân tán đ là đ th th hi n các giá tr c a các quan sát b ng kí hi u trên h to đồ ị ể ệ ị ủ ằ ệ ệ ộ g m hai tr c: tr c hoành th hi n cho bi n s đ c l p và tr c tung th hi n bi n sồ ụ ụ ể ệ ế ố ộ ậ ụ ể ệ ế ố ph thu c. Hình 9.1 trình bày phân tán đ c a th tích huy t tụ ộ ủ ể ế ương l n có liên quanớ đ n tr ng lế ọ ượng c th cao.ơ ể
– – –
–
–
–
(a) Không tương quan (b) m i liên h khơng tuy n tínhố ệ ế
– – –
––––
(c) Tương quan dương khơng hồn tồn
(d) Tương quan dương hoàn toàn
–
– –
––––
(e) Tương quan âm không hoàn toàn
(f) Tương quan âm hoàn toàn
(4)Hình d ng c a phân tán đ th hi n m i liên h gi a hai bi n s N u phân tán đ cóạ ủ ể ệ ố ệ ữ ế ố ế d ng m t đám mây n m ngang thì khơng có s liên h gi a hai bi n s (hình 9.2 a).ạ ộ ằ ự ệ ữ ế ố N u phân tán đ có hình d ng ellipse đi t dế ưới bên trái lên phía trên bên ph i thì haiả bi n s có liên h thu n (hình 9.2 c và d). N u phân tán đ có hình d ng ellipse đi tế ố ệ ậ ế ừ phía trên bên trái xu ng phía dố ưới bên ph i thì hai bi n s có liên h ngh ch (hình 9.2 eả ế ố ệ ị và f). Tr c ng n c a ellipse càng ng n thì m i liên h càng m nh và n u ellipse bụ ắ ủ ắ ố ệ ế ị bi n thành m t đế ộ ường th ng thì m i tẳ ố ương quan được xem nh là hồn tồn (hình 9.2ư d và f). N u hình d ng c a phân tán đ khơng ph i là d ng ellipse hay đế ủ ả ường th ng thìẳ hai bi n s cũng có m i liên h nh ng s tế ố ố ệ ự ương quan này được g i là khơng tuy ế tính (hình 9.2 b)
Áp d ng lí lu n trên chúng ta có th xác đ nh gi a th tích huy t tụ ậ ể ị ữ ể ế ương và tr ng lọ ượng c th có tơ ể ương quan tuy n tính, thu n và khơng hồn tồn.ế ậ
H s tệ ố ương quan
N u hai bi n s đ nh lế ế ố ị ượng có quan h tuy n tính thì chúng ta có th đo lệ ế ể ường m đ tộ ương quan m t cách chính xác h n b ng cách tính h s tộ ằ ệ ố ương quan (correllation coefficient), r. Cơng th c tính r th hi n b n ch t c a h s tứ ể ệ ả ấ ủ ệ ố ương quan nh sau:ư
2
2 ( )
) (
) )( (
y y x
x
y y x x r
Đ tính h s tể ệ ố ương quan d dàng h n Chúng ta có th s d ng cơng th c tính h sễ ể ụ ứ ệ ố tương quan nh sau:ư
1 /
) ( ) ( ) (
) )( (
2
2 n
n s
s
y x n xy y
y x
x
y y x x r
y x i
i
i i
Trong đó x là bi n s đ c l p (tr ng lế ố ộ ậ ọ ượng), y là bi n s ph thu c (th tích huy tế ố ụ ộ ể ế tương), x và y là các s trung bình tố ương ng. Phân tán đ minh h a nh ng h sứ ọ ữ ệ ố tương quan khác nhau đươc trình bày trong hình 9.2.
S d ng cơng th c này đ tính tốn r, trử ụ ứ ể ước tiên chúng ta hãy tính trung bình và độ l ch chu n c a bi n s x và y:ệ ẩ ủ ế ố
Tr ng lọ ượng c th : ơ ể x=66.875 s=5.4166 n=8
Th tích huy t tể ế ương x=3.0025 s=0.31121 n=8 Tích c a hai bi n s ủ ế ố x=201.91 s=34.849 n=8
Sau đó hãy tính tốn h s tệ ố ương quan
758 311 417
086375
1 /
) (
n n s
s
y x n xy r
y x
Lí gi i ý nghĩa c a h s tả ủ ệ ố ương quan:
(5) H s tệ ố ương quan r dương ch ng t hai bi n s là đ ng bi n; h s tứ ỏ ế ố ế ệ ố ương quan r âm ch ng t hai bi n s là ngh ch bi n; h s tứ ỏ ế ố ị ế ệ ố ương quan b ng zero n u hai bi n khôngằ ế ế liên h ệ
Tr s tuy t đ i c a h s tị ố ệ ố ủ ệ ố ương quan r nói lên m c đ liên quan gi a hai bi n s ứ ộ ữ ế ố N u tr tuy t đ i c a r b ng 1 (r=1 hay r=1), quan h hồn tồn tuy n tính nghĩa là t tế ị ệ ố ủ ằ ệ ế ấ c các đi m n m trên đả ể ằ ường h i quy (Hình 9.2 d và 9.2f). N u tr tuy t đ i c a r nhồ ế ị ệ ố ủ ỏ h n 1 s có các đi m s li u phân tán chung quanh đơ ẽ ể ố ệ ường h i quy (hình 9.2 c và 9.2e).ồ Bình phương c a h s tủ ệ ố ương quan (r2) th hi n t l bi n thiên c a bi n s phể ệ ỉ ệ ế ủ ế ố ụ thu c độ ược gi i thích b ng s bi n thiên c a bi n s đ c l p (n u m i liên h này làả ằ ự ế ủ ế ố ộ ậ ế ố ệ nhân qu )ả
N u r=0, khơng có m i liên h tuy n tính gi a hai bi n s Ði u này có nghĩa là (1)ế ố ệ ế ữ ế ố ề khơng có m i liên h gì gi a hai bi n s ho c (hình 9.2a) (2) m i liên h gi a hai bi nố ệ ữ ế ố ặ ố ệ ữ ế s khơng ph i là tuy n tính (hình 9.2b)ố ả ế
Theo quy ước, quan h v i r t 0,1 đ n 0,3 là quan h y u, t 0,3 đ n 0,5 quan hệ ế ệ ế ế ệ trung bình và trên 0,5 là quan h m nh. Ði u quan tr ng là s tệ ề ọ ự ương quan gi a haiữ bi n s cho th y s liên h nh ng khơng nh t thi t có nghĩa là cá quan h 'nhân qu '. ế ố ấ ự ệ ấ ế ệ ả
3 Hồi quy tuyến tính
H i quy tuy n tính cho phồ ế ương trình đường th ng mơ t n u bi n x tăng thì bi n yẳ ả ế ế ế tăng nh th nào. Không gi ng nh tư ế ố ương quan, vi c l a ch n bi n nào đ làm bi n yệ ự ọ ế ể ế là quan tr ng b i vì hai phọ ương pháp khơng cùng cho m t k t qu , y thộ ế ả ường được g iọ là bi n s ph thu c (dependent variable) và x là bi n s đ c l p hay gi i thíchế ố ụ ộ ế ố ộ ậ ả (independent or explanatory variable). Trong thí d này, rõ ràng chúng ta c n quan tâmụ ầ s ph thu c th tích huy t tự ụ ộ ể ế ương và tr ng lọ ượng c th ể
Phương trình h i quy làồ y = a + bx
a: là đi m ch n (intercept) hay h ng s (constant) ể ặ ằ ố
b: là đ d c (slope) c a độ ố ủ ường th ng hay h s (coefficient) c a phẳ ệ ố ủ ương trình (Hình 9.3).
Giá tr đ i v i a và b đị ố ược tính sao cho c c ti u hóa bình phự ể ương kho ng cách theoả chi u đ ng t các đi m s li u t i đề ể ố ệ ường th ng. Nó đẳ ược g i là phù h p bìnhọ ợ phương t i thi u (least squares fit) (Hình 9.4). Ð d c b đơi khi đố ể ộ ố ược g i là h s h iọ ệ ố ồ quy (regression coefficient). Nó có cùng d u v i h s tấ ệ ố ương quan. Khi khơng có sự tương quan, b b ng zero, tằ ương ng v i m t đứ ộ ường th ng h i quy n m ngang đi quaẳ ằ m y.ể
x y s s r x
x
y y x x
b 2
) (
(6)và a = y - bx
a y
x
b
Hình 9.3 Giao điểm độ dốc phương trình hồi quy y = a + bx Giao điểm a điểm mà đường thẳng cắt trục y cho giá trị y x = Ðộ dốc b mức tăng y tương ứng với sự gia tăng đơn vị x.
Trong thí d nàyụ
b = 8,96/205,38 = 0,0435 Và:
a = 3,0025 - 0,04354 × 66,875 = 0,0907
Do đó s ph thu c c a th tích huy t tự ụ ộ ủ ể ế ương vào tr ng lọ ượng c th đơ ể ược mơ tả b ngằ
Thể tích huyết tương = 0,0907 + 0,0435 × trọng lượng và được v trên Hình 9.1. ẽ
Ðường h i quy đồ ược v b ng cách tính t a đ c a hai đi m c a đẽ ằ ọ ộ ủ ể ủ ường th ng. Thí dẳ ụ chúng ta có th tính to đ c a để ộ ủ ường th ng t i giá tr x = 60 và x = 70 ẳ ị
x = 60, y = 0,0907 + 0,0435 × 60 = 2,7032 Và
x = 70, y = 0,0907 + 0,0435 × 70 = 3,1386
(7)4 Kiểm định ước lượng tương quan hồi quy
Khái ni m v phệ ề ương sai ph n dầ ư
2.5 2.7 2.9 3.1 3.3 3.5
55 60 65 70 75
trọng lượng cơ thể th ể tí ch h uy ế t t ươ ng
Hình 9.4 Ðường thẳng hồi quy tuyến tính, y = a + bx, làm phù hợp bình phương tối thiểu, a b tính để cực tiểu hóa tổng bình phương độ lệch thẳng đứng (vẽ đường thẳng đứng) điểm đường thẳng, độ lệch hiệu số số y quan sát tiểm tương ứng đường thẳng a + bx
Do các giá tr c a các quan sát không n m trên m t đị ủ ằ ộ ường th ng nên chúng có m tẳ ộ kho ng cách áo v i phả ương trình h i quy. Con s th hi n m c đ phân tán c a sồ ố ể ệ ứ ộ ủ ố li u quanh đệ ường th ng h i quy đẳ ược g i là sai s chu n c a h i quy (standard errorọ ố ẩ ủ of regression).
Sai s chu n c a h i quy đố ẩ ủ ược tính theo cơng th c sau:ứ
) (
2 )
( 2
n bx a y n y y s
Sai s chu n c a h i quy còn đố ẩ ủ ược tri n khai thêm nh sauể
) ( ) ( ) ( ) ( ) ) (
( 2 2
n x x b y y n bx x b y y s ) ( 1 ) ( )
( 2 2 2
n r y y n r n s n n r s n n s b s
s y x y y
2 )
( 2
n r y
y s
s là đ l ch chu n c a các đi m s li u so v i độ ệ ẩ ủ ể ố ệ ường th ng, có (n2) đ t do.ẳ ộ ự
(8)ho c ặ 0.21855 ) 417 0436 311 ( )
( 2 2 2
n n s b s
s y x
0.218321 265 311 1 n r n s s y
Đi u này có nghĩa là n u ta áp d ng phề ế ụ ương trình h i quy đ tiên đốn th tích huy tồ ể ể ế tương thì chúng ta khơng th tiên đốn m t cách chính xác: chúng ta s m c m t sai sể ộ ẽ ắ ộ ố trung bình là 0.218
Bình phương c a sai s h i quy đủ ố ược g i là phọ ương sai ph n d :ầ ) ( )
( 2 2
2 n r n s n n s b s
s y x y
Ki m đ nh ý nghĩa h s tể ị ệ ố ương quan
Khi chúng ta đã có h s tệ ố ương quan, có hai phương pháp ki m đ nh h s tể ị ệ ố ương quan này. M t phộ ương pháp đ ki m đ nh gi thuy t Ho: h s tể ể ị ả ế ệ ố ương quan r = 0 và m tộ phương pháp ki m đ nh gi thuy t Ho: h s tể ị ả ế ệ ố ương quan r = ρ (v i ớ ρ ≠ 0)
Ki m đ nh t để ị ược dùng đ xem r có khác zero m t cách có ý nghĩa hay khơng. Nóiể ộ cách khác đi, ki m đ nh này đ xem s tể ị ể ự ương quan quan sát được có ph i là th c sả ự ự này ch do tình c Vi c ki m đ nh này d a trên c s c a công th c ỉ ệ ể ị ự ủ ứ ướ ược l ng sai số chu n c a r: s.e.(r) = (1rẩ ủ 2)/(n2)
2 ) ( ) ( y y s n r r e s ,
2 d f n
r n r t
Thí d đ ki m đ nh gi thuy t h s tụ ể ể ị ả ế ệ ố ương quan gi a th tích huy t tữ ể ế ương và tr ngọ lượng c th b ng khơng, chúng ta ti n hành các tính tốn sau:ơ ể ằ ế
0.265 76 ) (
2
n r r e s , 86 76 76
0 2 d f
t
Ði u này có ý nghĩa m c 5% xác nh n ý nghĩa c a s liên h gi a th tích huy tề ứ ậ ủ ự ệ ữ ể ế tương và tr ng lọ ượng c thơ ể
(9) Ki m đ nh z đ ki m đ nh gi thuy t Ho: h s tể ị ể ể ị ả ế ệ ố ương quan r = ρ (v i ớ ρ ≠ 0)
Trước tiên chúng ta tìm hi u v phép bi n đ i z c a Fisher. Fisher đã ch ng minh z(r)ể ề ế ổ ủ ứ (đ c là hàm s z c a h s tọ ố ủ ệ ố ương quan r):
r r r z 1 ln ) (
s có phân ph i bình thẽ ố ường v i trung bình là z(ớ ρ) và đ l ch chu n là ộ ệ ẩ √1/(n3) Nh v y đ ki m đ nh h s tư ậ ể ể ị ệ ố ương quan r = ρ (v i ớ ρ ≠ 0), chúng ta ph i tính:ả
r r r z 1 ln ) ( 1 ln ) ( z
(chúng ta l u ý n u ư ế ρ = 0 thì hàm s z c a ố ủ ρ s tr thànhẽ không xác đ nh)ị
và ) ( ) ( ) /( ) ( )
( z r r n
n r r z z
Thí d gi s tác gi X tìm đụ ả ả ược h s tệ ố ương quan gi a th tích huy t tữ ể ế ương và tr ng lọ ượng c th là 0.4, hãy ki m đ nh xem h s tơ ể ể ị ệ ố ương quan chúng ta đã tìm ra có th c s l n h n h s tự ự ệ ố ương quan được báo cáo do tác gi X hay không:ả
Chúng ta tính được:
9962 76 76 ln 1 ln ) ( r r r z 4236 ln 1 ln ) ( z và 280 ) /( 4236 9962 ) /( ) ( ) ( n r r z z
Tra b ng phân ph i chu n m t đi chúng ta tính đả ố ẩ ộ ược giá tr p > 0.05 vì v y chúng taị ậ khơng có b ng ch ng th ng kê đ cho r ng h s tằ ứ ố ể ằ ệ ố ương quan c a chúng ta tìm ra th củ ự s l n h n 0.4.ự
Sai s chu n c a các ố ẩ ủ ướ ược l ng dùng phương trình h i quyồ
Đường th ng h i quy cũng tẳ ương t nh các giá tr th ng kê các đ u có kh năng bự ị ố ề ả ị sai s và phố ương trình h i quy đồ ược tính t m t m u ch là ừ ộ ẫ ỉ ướ ược l ng cho phương trình h i quy th c s c a tồn b dân s ồ ự ự ủ ộ ố
Giá tr a và b là các ị ướ ược l ng m u c a giá tr giao đi m và đ d c c a đẫ ủ ị ể ộ ố ủ ường th ngẳ h i quy mô t m i liên h tuy n tính gi a x và y trong tồn b dân s Do đó chúng bồ ả ố ệ ế ữ ộ ố ị các bi n thiên l y m u và đ chính xác c a chúng có th đo lế ấ ẫ ộ ủ ể ường b ng sai s chu n.ằ ố ẩ T sai s chu n chúng ta có th d dàng tính đừ ố ẩ ể ễ ược kho ng tin c y c a các ả ậ ủ ướ ược l ng này hay ki m đ nh chúng có khác v i m t giá tr c th nào hay khơngể ị ộ ị ụ ể
(10)Sai s chu n c a a đố ẩ ủ ược tính theo cơng th c sauứ 2 ) ( ) ( x x x n s a e s
kho ng tin c y c a a :ả ậ ủ a ± tc × s.e.(a)
Và đ ki m đ nh a có khác so v i ể ể ị α , ) (
.e a d f n s
a t
Áp d ng vào thí d trên ta có ụ ụ
3197 38 205 66 2819
0 .
. . .
s.e.(a) Kho ng tin c y 95% c a đi m ch n a b ng:ả ậ ủ ể ặ ằ
Kho ng tin c y 95% : a ± tả ậ c × s.e.(a) = 0.0857 ± 2.45 × 1.3197 = 3.148 – 3.319
M t nghiên c u trộ ứ ước đây đã báo cáo phương trình h i quy c a th tích huy t tồ ủ ể ế ương theo cân n ng v i giá tr đi m ch n a là 2.1. Có th ki m đ nh giá tr đi m ch n trongặ ị ể ặ ể ể ị ị ể ặ nghiên c u c a chúng ta có khác v i giá tr 2.1 đã báo cáo hay khơng b ng phép ki m t:ứ ủ ị ằ ể
2 , 53 3197 0301 3197 1158 0857 ) (
.e a d f n
s a t
tra b ng ta có p >0.05 (p = 0.177) chúng ta khơng th bác b gi thuy t Ho và nh v yả ể ỏ ả ế ậ chúng ta có th k t lu n khơng có s khác bi t có ý nghĩa th ng kê v giá tr đi mể ế ậ ự ệ ố ề ị ể ch n c a nghiên c u c a chúng ta và nghiên c u đã báo cáo.ặ ủ ứ ủ ứ
Sai s chu n c a bố ẩ ủ
Sai s chu n c a b đố ẩ ủ ược tính theo cơng th c sauứ ) ( ) ( x x s b e s
kho ng tin c y c a b :ả ậ ủ b ± tc × s.e.(b)
Và đ ki m đ nh b có khác so v i ể ể ị β , ) (
.e b d f n s
b t Thí d :ụ
Áp d ng vào trụ ường h p phợ ương trình h i quy c a th tích huy t tồ ủ ể ế ương theo cân n ngặ ta được:
0153 38 205 2189 ) ( ) ( x x s b e s