HỒI QUI TUYẾN TÍNH (Linear regression) pdf

11 514 5
HỒI QUI TUYẾN TÍNH (Linear regression) pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỒI QUI TUYẾN TÍNH (Linear regression) I. GIỚI THIỆU Phân tích hồi qui (Regression) là kỹ thuật rất thường dùng trong thống kê y học nhằm tiên đoán giá trị của một đặc điểm khi đã biết giá trị của một đặc điểm khác. Như vậy, phân tích hồi qui chỉ giúp tiên đoán (hoặc ước lượng) khi 2 biến số có mối tương quan khá tốt. Sở dĩ gọi là hồi qui tuyến tính vì kỹ thuật chỉ giúp đo đạc các mối liên quan tuyến tính (theo đường thẳng). Sở dĩ gọi là hồi đơn biến (simple linear regression) vì chỉ dùng 1 biến số này (gọi là biến số độc lập – independent variable hay biến số giải thích – explanatory variable) để tiên đoán (hay ước lượng) ra biến số kia (biến số phụ thuộc – dependent variable). Trong hồi qui đa biến – multiple regression có nhiều hơn 1 independent variable được sử dụng để tiên đoán. II. THIẾT LẬP PHƯƠNG TRÌNH HỒI QUI MẪU (Sample regression equation) Phương trình (pt) hồi qui mẫu là pt được thiết lập từ số liệu của 1 mẫu (rút ra từ dân số) và sẽ được suy diễn như 1 pt hồi qui cho dân số (nếu thích hợp). Khái niệm về đường thẳng vừa khít nhất (line of best fit) Giống như trường hợp với Pearson r, giả định quan trọng nhất trong hồi qui tuyến tính là 2 biến số được xem xét có mối liên quan tuyến tính với nhau. Nghĩa là một đường thẳng có thể được sử dụng để mô tả mối liên quan này. Công thức đại số của pt đường thẳng là: y = a + bx theo đó b là độ dốc (slope) của đường thẳng và a là điểm cắt (intercept) của đường thẳng vào trục y. Độ dốc cho biết sự thay đổi trung bình ở y có được khi x thay đổi. Độ dốc càng nhiều (đường thẳng dựng đứng hơn) thì y cũng thay đổi nhiều hơn tương ứng với mỗi thay đổi của x, và mối tương quan của 2 biến số cũng mạnh hơn. Giá trị tại điểm cắt a cho biết giá trị trung bình của y khi x = 0. y x Với 2 điểm bất kỳ, rất dễ để xác định phương trình đường thẳng. Tuy nhiên, khi có nhiều điểm hơn (≥ 3 điểm), khó có thể tìm thấy 1 đường thẳng đi qua các điểm này cùng 1 lúc ngoại trừ khi có mối tương quan tuyệt đối ± 1. Như vậy, trong hồi qui tuyến tính, cần phải tìm một đường thẳng “vừa khít nhất” với các điểm. Đó cũng chính là đường hồi qui (regression line). Công thức của pt đường thẳng cho thấy tương ứng với mỗi giá trị của x, chỉ có 1 giá trị của Y, và đây cũng là phép đo chính xác, nghĩa là không có sai số. Trong thực tế, hầu hết các khảo sát về mối tương quan đều không chính xác. Do vậy, pt hồi qui lẽ ra nên được viết là: y = a + bx + e theo đó e (error) là sai số. Chính điều này đã thừa nhận là pt tiên đoán không thể giúp tiên đoán y chính xác tuyệt đối được. Như vậy, với một x cho trước, có thể có nhiều hơn một y. Thí dụ chứng minh: x Y x Y 0 4 3 10 0 5 3 11 0 6 3 12 1 6 4 12 1 7 4 13 1 8 4 14 2 8 5 14 2 9 5 15 2 10 5 16 Với mỗi giá trị của x biết trước, có 3 giá trị khác nhau của y. Như vậy, đường hồi qui không thể đi qua tất cả các điểm có tọa độ (x, y). Đường thẳng trong đồ thị phân tán là đường “vừa khít nhất” cho tất cả các điểm. Khoảng cách giữa các điểm và đường hồi qui tiêu biểu cho sai số (e) trong công thức. Khoảng cách giữa các điểm và đường “vừa khít nhất” được tính: d i = y i –  y  y là giá trị tiên đoán được của Y từ x là số trung bình của dân số (bao gồm) các Y có thể có tương ứng với một x đã cho trước. Tính tổng độ lệch (từ đường hồi qui) bình phương (sum of the squared deviations) để đo tổng độ vừa khít của đường hồi qui: (Sum of Squared Errors) SSE =  2 2 ( ) i i d y y     Đường hồi qui đi qua các số trung bình của các giá trị Y có thực (observed) tương ứng với x đã cho trước. Phương trình hồi qui mẫu Pt hồi qui mẫu có thể được viết như sau:    0 1 Y x      Y là giá trị ước lượng được của Y cho bởi đường hồi qui  0  là hằng số chỉ nơi đường hồi qui cắt trục Y, và ước lượng giá trị trung bình của Y khi x=0  1  là số ước lượng độ dốc, cho biết sự thay đổi trung bình của Y đi kèm với 1 sự thay đổi ở x.  0  và  1  đều được suy diễn cho hệ số hồi qui dân số (thay đổi từ mẫu này qua mẫu khác). Công thức tính:  2 1 / xy x      0 1 Y x     Thí dụ minh họa b/n X Cao (inches) Y Cân nặng (lbs) X 2 Y 2 XY 1 60 135 3.600 18.225 8.100 2 60 120 3.600 14.400 7.200 3 62 140 3.844 19.600 8.680 4 62 130 3.844 16.900 8.060 5 62 135 3.844 18.225 8.370 6 64 145 4.096 21.025 9.280 7 66 150 4.356 22.500 9.900 8 68 150 4.624 22.500 10.200 9 68 160 4.624 25.600 10.880 Total 572 1.265 36.432 178.975 80.670 x = 63,6 s x = 3,13 y = 104,6 s y = 12,1 2 36.432 X  2 78,2 x  2 178.975 Y  2 1.172,2 y  80.670 XY   272,2 xy   Pearson r = 0,973  2 1 / xy x      0 1 Y x     = 272,2/78,2 = 140,6 – 3,48(63,3) = 3,48 = –80,7 Như vậy, để tiên đoán trọng lượng từ chiều cao, pt hồi qui là:  80,7 3,84 Y X    III. KIỂM ĐỊNH GIẢ THUYẾT Trước khi sử dụng pt hồi qui để tiên đoán, cần phải tiến hành kiểm định để xem độ dốc của đường hồi qui (thuộc dân số) có khác không (zero) hay không. Kiểm định H 0 : β 1 = 0 với số TKKĐ t (t statistic) + Số liệu: (sử dụng thí dụ minh họa) + Giả định: 1 Đối với mỗi giá trị của X có 1 tiểu dân số (các giá trị) Y. Các tiểu dân số Y phân phối bình thường 2 Các tiểu dân số Y có phương sai bằng nhau 3 Số trung bình của các tiểu dân số Y cùng nằm trên 1 đường thẳng 4 Các giá trị của Y độc lập về mặt thống kê. + Giả thuyết H 0 : 1 0   H A : 1 0   α = 0,05 + Số TKKĐ:  2 1 / ( / ) yx t s x    + Phân phối của số TKKĐ: PP. t với df = n–2 khi H 0 đúng và các giả định được thỏa. + Qui tắc quyết định: giá trị tới hạn của t ở 7 df bằng 2,365. + Tính số TKKĐ: Standard error s yx = s y 2 1 r  =12,1 1 0,808  =5,30 3,48 / (5,30 / 78,2) 3,84 / 0,60 t   = 5,84 + Quyết định thống kê: Từ chối H 0 vì số TKKĐ bằng 5,84 (> 2,365). + Kết luận: Độ dốc của đường hồi qui không phải bằng zero. Kiểm định H 0 : β 1 = 0 với số TKKĐ F (F statistic) Dùng ANOVA với số TKKĐ là tỉ số phương sai V.R. . HỒI QUI TUYẾN TÍNH (Linear regression) I. GIỚI THIỆU Phân tích hồi qui (Regression) là kỹ thuật rất thường dùng trong thống kê y. phân tích hồi qui chỉ giúp tiên đoán (hoặc ước lượng) khi 2 biến số có mối tương quan khá tốt. Sở dĩ gọi là hồi qui tuyến tính vì kỹ thuật chỉ giúp đo đạc các mối liên quan tuyến tính (theo. trình hồi qui mẫu Pt hồi qui mẫu có thể được viết như sau:    0 1 Y x      Y là giá trị ước lượng được của Y cho bởi đường hồi qui  0  là hằng số chỉ nơi đường hồi qui cắt

Ngày đăng: 26/07/2014, 16:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan