Sở dĩ gọi là hồi qui tuyến tính vì kỹ thuật chỉ giúp đo đạc các mối liên quan tuyến tính theo đường thẳng.. Khái niệm về đường thẳng vừa khít nhất line of best fit Giống như trường hợp
Trang 1
HỒI QUI TUYẾN TÍNH (Linear regression)
I GIỚI THIỆU
Phân tích hồi qui (Regression) là kỹ thuật rất thường dùng trong thống kê y học nhằm tiên đoán giá trị của một đặc điểm khi đã biết giá trị của một đặc điểm khác Như vậy, phân tích hồi qui chỉ giúp tiên đoán (hoặc ước lượng) khi 2 biến số có mối tương quan khá tốt
Sở dĩ gọi là hồi qui tuyến tính vì kỹ thuật chỉ giúp đo đạc các mối liên quan tuyến tính (theo đường thẳng) Sở dĩ gọi là hồi đơn biến (simple linear regression) vì chỉ dùng 1
biến số này (gọi là biến số độc lập – independent variable hay biến số giải thích –
explanatory variable) để tiên đoán (hay ước lượng) ra biến số kia (biến số phụ thuộc – dependent variable) Trong hồi qui đa biến – multiple regression có nhiều hơn 1
independent variable được sử dụng để tiên đoán
II THIẾT LẬP PHƯƠNG TRÌNH HỒI QUI MẪU (Sample regression equation)
Phương trình (pt) hồi qui mẫu là pt được thiết lập từ số liệu của 1 mẫu (rút ra từ dân số) và sẽ được suy diễn như 1 pt hồi qui cho dân số (nếu thích hợp)
Trang 2
Khái niệm về đường thẳng vừa khít nhất (line of best fit)
Giống như trường hợp với Pearson r, giả định quan trọng nhất trong hồi qui tuyến tính
là 2 biến số được xem xét có mối liên quan tuyến tính với nhau Nghĩa là một đường thẳng có thể được sử dụng để mô tả mối liên quan này Công thức đại số của pt đường thẳng là:
y = a + bx
theo đó b là độ dốc (slope) của đường thẳng và a là điểm cắt (intercept) của đường thẳng vào trục y
Độ dốc cho biết sự thay đổi trung bình ở y có được khi x thay đổi Độ dốc càng nhiều (đường thẳng dựng đứng hơn) thì y cũng thay đổi nhiều hơn tương ứng với mỗi thay đổi của x, và mối tương quan của 2 biến số cũng mạnh hơn
Giá trị tại điểm cắt a cho biết giá trị trung bình của y khi x = 0
y
Trang 3
x
Với 2 điểm bất kỳ, rất dễ để xác định phương trình đường thẳng Tuy nhiên, khi có nhiều điểm hơn (≥ 3 điểm), khó có thể tìm thấy 1 đường thẳng đi qua các điểm này cùng 1 lúc ngoại trừ khi có mối tương quan tuyệt đối ± 1 Như vậy, trong hồi qui tuyến tính, cần phải tìm một đường thẳng “vừa khít nhất” với các điểm Đó cũng chính là đường hồi qui (regression line)
Công thức của pt đường thẳng cho thấy tương ứng với mỗi giá trị của x, chỉ có 1 giá trị của Y, và đây cũng là phép đo chính xác, nghĩa là không có sai số Trong thực tế, hầu hết các khảo sát về mối tương quan đều không chính xác Do vậy, pt hồi qui lẽ ra nên được viết là:
y = a + bx + e
theo đó e (error) là sai số Chính điều này đã thừa nhận là pt tiên đoán không thể giúp tiên đoán y chính xác tuyệt đối được Như vậy, với một x cho trước, có thể có nhiều hơn một y
Thí dụ chứng minh:
x Y x Y
Trang 4
Với mỗi giá trị của x biết trước, có 3 giá trị khác nhau của y Như vậy, đường hồi qui không thể đi qua tất cả các điểm có tọa độ (x, y)
Trang 5
Đường thẳng trong đồ thị phân tán là đường “vừa khít nhất” cho tất cả các điểm Khoảng cách giữa các điểm và đường hồi qui tiêu biểu cho sai số (e) trong công thức Khoảng cách giữa các điểm và đường “vừa khít nhất” được tính:
di = yi –
y
y là giá trị tiên đoán được của Y từ x
là số trung bình của dân số (bao gồm) các Y có thể
có
tương ứng với một x đã cho trước
Tính tổng độ lệch (từ đường hồi qui) bình phương (sum of the squared deviations) để
đo tổng độ vừa khít của đường hồi qui:
(Sum of Squared Errors) SSE =
Đường hồi qui đi qua các số trung bình của các giá trị Y có thực (observed) tương ứng với x đã cho trước
Trang 6
Phương trình hồi qui mẫu
Pt hồi qui mẫu có thể được viết như sau:
0 1
Y x
Y là giá trị ước lượng được của Y cho bởi đường hồi qui
0
là hằng số chỉ nơi đường hồi qui cắt trục Y, và ước
lượng giá trị trung bình của Y khi x=0
1
là số ước lượng độ dốc, cho biết sự thay đổi trung
bình của Y đi kèm với 1 sự thay đổi ở x
Trang 7
0
và
1
đều được suy diễn cho hệ số hồi qui dân số (thay đổi từ mẫu này qua mẫu khác)
Công thức tính:
2
1 xy/ x
0 Y 1x
Thí dụ minh họa
Cao (inches)
Y
Cân nặng (lbs)
Trang 8
x= 63,6
sx = 3,13
y= 104,6
sy = 12,1
2 36.432
X
2
78, 2
x
2 178.975
Y
2 1.172, 2
y
80.670
XY
272, 2
xy
Pearson r = 0,973
Trang 9
2
1 xy/ x
0 Y 1x
Như vậy, để tiên đoán trọng lượng từ chiều cao, pt hồi qui là:
80, 7 3,84
III KIỂM ĐỊNH GIẢ THUYẾT
Trước khi sử dụng pt hồi qui để tiên đoán, cần phải tiến hành kiểm định để xem
độ dốc của đường hồi qui (thuộc dân số) có khác không (zero) hay không
Kiểm định H 0 : β 1 = 0 với số TKKĐ t (t statistic)
+ Số liệu: (sử dụng thí dụ minh họa)
+ Giả định: 1 Đối với mỗi giá trị của X có 1 tiểu dân số (các giá trị) Y Các tiểu dân số
Y
phân phối bình thường
2 Các tiểu dân số Y có phương sai bằng nhau
3 Số trung bình của các tiểu dân số Y cùng nằm trên 1 đường thẳng
4 Các giá trị của Y độc lập về mặt thống kê
Trang 10
+ Giả thuyết
H0: 1 0
HA: 1 0 α = 0,05
+ Số TKKĐ:
2
1 / ( yx/ )
t s x
+ Phân phối của số TKKĐ: PP t với df = n–2 khi H0 đúng và các giả định được thỏa
+ Qui tắc quyết định: giá trị tới hạn của t ở 7 df bằng 2,365
+ Tính số TKKĐ: Standard error syx = sy 2
1 r =12,1 1 0, 808 =5,30
3, 48 / (5, 30 / 78, 2 ) 3, 84 / 0, 60
= 5,84
+ Quyết định thống kê: Từ chối H0 vì số TKKĐ bằng 5,84 (> 2,365)
+ Kết luận: Độ dốc của đường hồi qui không phải bằng zero
Kiểm định H 0 : β 1 = 0 với số TKKĐ F (F statistic)
Dùng ANOVA với số TKKĐ là tỉ số phương sai V.R
Trang 11
-