Bài giảng Thống kê y học Bài 16 Tương quan và hồi quy tuyến tính

20 574 2
Bài giảng Thống kê y học  Bài 16 Tương quan và hồi quy tuyến tính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng cung cấp các kiến thức giúp người học có thể: Vẽ phân tán đồ và sử dụng phân tán đồ để lí giải sự tương quan giữa hai biến số, trình bày được công thức và tính được hệ số tương quan của hai biến số định lượng, xây dựng được phương trình hồi quy tuyến tính của biến số phụ thuộc theo một biến số độc lập,... Mời các bạn cùng tham khảo.

TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH Mục tiêu: Sau nghiên cứu chủ đề học viên có khả năng: - Vẽ phân tán đồ sử dụng phân tán đồ để lí giải tương quan hai biến số - Trình bày cơng thức tính hệ số tương quan hai biến số định lượng - Xây dựng phương trình hồi quy tuyến tính biến số phụ thuộc theo biến số độc lập - Trình bày cơng thức lí giải ý nghĩa sai số chuẩn hồi quy - Trình bày công thức sai số chuẩn hệ số tương quan, hệ số góc, điểm chặn giá trị tiên đóan thể áp dụng kiểm định ước lượng số thống kê Mục tiêu: Sau nghiên cứu học viên có khả năng: - Nêu phương pháp mô tả quan hệ hai biến số định lượng: đồ thị hệ số tương quan - Trình bày lí giải mối quan hệ hai biến số phân tán đồ - Nêu ý nghĩa hệ số tương quan, tính hệ số tương quan hai biến số (trong trường hợp số liệu đơn giản) với máy tính cầm tay - Xây dựng phương trình hồi quy hai biến số sử dụng máy tính cầm tay - Kiểm định giả thuyết hệ số góc phương trình hồi quy tuyến tính khơng Giới thiệu Trong quan tâm đến liên hệ hai biến số định lượng tập trung chủ yếu đến phương pháp tương quan hồi quy tuyến tính để xác định mối liên hệ tuyến tính (linear) hai biến liên tục Tương quan (correlation) đo lường chặt chẽ mối liên hệ hồi quy tuyến tính (linear regression) cho biết phương trình đường thẳng mô tả liên hệ tốt cho phép tiên đoán biến số từ biến số khác Bảng 9.1 Thể tích huyết tương trọng lượng thể người đàn ông khỏe mạnh Ðối tượng trọng lượng thể (kg) Thể tích huyết tương (lít) 58,0 2,75 70,0 2,86 74,0 3,37 63,5 2,76 62,0 2,62 70,5 3,49 71,0 3,05 66,0 3,12 t hể t ích huyết t ương 3.5 3.3 3.1 2.9 2.7 2.5 55 60 65 70 75 trọng lượng thể Hình 9.1 Phân tán đồ thể tích huyết tương trọng lượng thể với đường hồi quy tuyến tính – – – – – – (a) Không tương quan – – – (c) Tương quan dương khơng hồn tồn – – – (e) Tương quan âm khơng hồn tồn (b) mối liên hệ khơng tuyến tính – (d) Tương quan dương hồn tồn – (f) Tương quan âm hồn tồn Hình 9.2 phân tán đồ minh họa giá trị khác số tương quan Trong có đường hồi quy Tương quan Bảng 9.1 trình bày trọng lượng thể thể tích huyết tương người đàn ông khỏe mạnh Để đánh giá liên quan hai biến số định lượng trọng lượng thể thể tích huyết tương sử dụng phân tán đồ hay hệ số tương quan r: Phân tán đồ Phân tán đồ đồ thị thể giá trị quan sát kí hiệu hệ toạ độ gồm hai trục: trục hoành thể cho biến số độc lập trục tung thể biến số phụ thuộc Hình 9.1 trình bày phân tán đồ thể tích huyết tương lớn có liên quan đến trọng lượng thể cao Hình dạng phân tán đồ thể mối liên hệ hai biến số Nếu phân tán đồ có dạng đám mây nằm ngang khơng có liên hệ hai biến số (hình 9.2 a) Nếu phân tán đồ có hình dạng ellipse từ bên trái lên phía bên phải hai biến số có liên hệ thuận (hình 9.2 c d) Nếu phân tán đồ có hình dạng ellipse từ phía bên trái xuống phía bên phải hai biến số có liên hệ nghịch (hình 9.2 e f) Trục ngắn ellipse ngắn mối liên hệ mạnh ellipse bị biến thành đường thẳng mối tương quan xem hồn tồn (hình 9.2 d f) Nếu hình dạng phân tán đồ dạng ellipse hay đường thẳng hai biến số có mối liên hệ tương quan gọi khơng tuyến tính (hình 9.2 b) Áp dụng lí luận xác định thể tích huyết tương trọng lượng thể có tương quan tuyến tính, thuận khơng hồn tồn Hệ số tương quan Nếu hai biến số định lượng có quan hệ tuyến tính đo lường mức độ tương quan cách xác cách tính hệ số tương quan (correllation coefficient), r Cơng thức tính r thể chất hệ số tương quan sau: ∑( x − x )( y − y ) r= ∑ ( x − x ) ∑( y − y ) Để tính hệ số tương quan dễ dàng Chúng ta sử dụng cơng thức tính hệ số tương quan sau: r= ∑ ( x − x )( y − y ) ∑ ( x − x) ∑ ( y − y) i i i i = (Σxy) / n − x × y n × sx × sy n −1 Trong x biến số độc lập (trọng lượng), y biến số phụ thuộc (thể tích huyết tương), x y số trung bình tương ứng Phân tán đồ minh họa hệ số tương quan khác đươc trình bày hình 9.2 Sử dụng cơng thức để tính tốn r, trước tiên tính trung bình độ lệch chuẩn biến số x y: Trọng lượng thể: x=66.875 s=5.4166 n=8 Thể tích huyết tương x=3.0025 s=0.31121 n=8 Tích hai biến số x=201.91 s=34.849 n=8 Sau tính tốn hệ số tương quan (Σxy ) / n − x × y n 1.086375 r= × = × = 0.758 sx × s y n − 5.417 × 0.311 Lí giải ý nghĩa hệ số tương quan: - Hệ số tương quan luôn nằm đoạn [-1,1] - Hệ số tương quan r dương chứng tỏ hai biến số đồng biến; hệ số tương quan r âm chứng tỏ hai biến số nghịch biến; hệ số tương quan zero hai biến không liên hệ - Trị số tuyệt đối hệ số tương quan r nói lên mức độ liên quan hai biến số Nếu trị tuyệt đối r (r=1 hay r=-1), quan hệ hồn tồn tuyến tính nghĩa tất điểm nằm đường hồi quy (Hình 9.2 d 9.2f) Nếu trị tuyệt đối r nhỏ có điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c 9.2e) - Bình phương hệ số tương quan (r 2) thể tỉ lệ biến thiên biến số phụ thuộc giải thích biến thiên biến số độc lập (nếu mối liên hệ nhân quả) - Nếu r=0, khơng có mối liên hệ tuyến tính hai biến số Ðiều có nghĩa (1) khơng có mối liên hệ hai biến số (hình 9.2a) (2) mối liên hệ hai biến số khơng phải tuyến tính (hình 9.2b) - Theo quy ước, quan hệ với r từ 0,1 đến 0,3 quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình 0,5 quan hệ mạnh Ðiều quan trọng tương quan hai biến số cho thấy liên hệ khơng thiết có nghĩa cá quan hệ 'nhân quả' Hồi quy tuyến tính Hồi quy tuyến tính cho phương trình đường thẳng mơ tả biến x tăng biến y tăng Không giống tương quan, việc lựa chọn biến để làm biến y quan trọng hai phương pháp khơng cho kết quả, y thường gọi biến số phụ thuộc (dependent variable) x biến số độc lập hay giải thích (independent or explanatory variable) Trong thí dụ này, rõ ràng cần quan tâm phụ thuộc thể tích huyết tương trọng lượng thể Phương trình hồi quy y = a + bx a: điểm chặn (intercept) hay số (constant) b: độ dốc (slope) đường thẳng hay hệ số (coefficient) phương trình (Hình 9.3) Giá trị a b tính cho cực tiểu hóa bình phương khoảng cách theo chiều đứng từ điểm số liệu tới đường thẳng Nó gọi phù hợp bình phương tối thiểu (least squares fit) (Hình 9.4) Ðộ dốc b gọi hệ số hồi quy (regression coefficient) Nó có dấu với hệ số tương quan Khi khơng có tương quan, b zero, tương ứng với đường thẳng hồi quy nằm ngang qua điểm y sy ∑( x − x )( y − y ) b= =r sx ∑( x − x ) a = y - bx y b a x Hình 9.3 Giao điểm độ dốc phương trình hồi quy y = a + bx Giao điểm a điểm mà đường thẳng cắt trục y cho giá trị y x = Ðộ dốc b mức tăng y tương ứng với gia tăng đơn vị x Trong thí dụ b = 8,96/205,38 = 0,0435 Và: a = 3,0025 - 0,04354 × 66,875 = 0,0907 Do phụ thuộc thể tích huyết tương vào trọng lượng thể mô tả Thể tích huyết tương = 0,0907 + 0,0435 × trọng lượng vẽ Hình 9.1 Ðường hồi quy vẽ cách tính tọa độ hai điểm đường thẳng Thí dụ tính toạ độ đường thẳng giá trị x = 60 x = 70 x = 60, y = 0,0907 + 0,0435 × 60 = 2,7032 Và x = 70, y = 0,0907 + 0,0435 × 70 = 3,1386 Như đường thẳng hồi quy phải qua điểm (60, 2.7) (70, 3.1) Hiển nhiên đường thẳng phải qua điểm (x,y) = (66.9 , 3.0) Kiểm định ước lượng tương quan hồi quy t hể t ích huyết t ương Khái niệm phương sai phần dư 3.5 3.3 3.1 2.9 2.7 2.5 55 60 65 70 75 trọng lượng thể Hình 9.4 Ðường thẳng hồi quy tuyến tính, y = a + bx, làm phù hợp bình phương tối thiểu, a b tính để cực tiểu hóa tổng bình phương độ lệch thẳng đứng (vẽ đường thẳng đứng) điểm đường thẳng, độ lệch hiệu số số y quan sát tiểm tương ứng đường thẳng a + bx Do giá trị quan sát khơng nằm đường thẳng nên chúng có khoảng cách áo với phương trình hồi quy Con số thể mức độ phân tán số liệu quanh đường thẳng hồi quy gọi sai số chuẩn hồi quy (standard error of regression) Sai số chuẩn hồi quy tính theo cơng thức sau: s= ∑ ( y − y ′) ∑ ( y − a − bx) = n−2 n−2 Sai số chuẩn hồi quy triển khai thêm sau  ∑( y − ( y − bx ) − bx)   ∑ ( y − y ) − b ∑( x − x )  s=  =    ( n − 2) ( n − 2)     s = ( s y2 − b s x2 ) n −1 n −1 1− r2 1− r2 = s y (1 − r ) = sy n −1 = ∑( y − y ) n−2 n−2 n−2 n−2 s = ∑( y − y ) 1− r2 n−2 s độ lệch chuẩn điểm số liệu so với đường thẳng, có (n-2) độ tự s= 0.6780 − 0.0436 × 205.38 = 0.2189 s = sy s = ( s y2 − b s x2 ) n −1 −1 = (0.3112 − 0.0436 5.417 ) = 0.21855 n−2 8−2 1− r2 n −1 = 0.311 × × 0.265 = 0.218321 n−2 Điều có nghĩa ta áp dụng phương trình hồi quy để tiên đốn thể tích huyết tương khơng thể tiên đốn cách xác: mắc sai số trung bình 0.218 Bình phương sai số hồi quy gọi phương sai phần dư: n −1 1− r2 s = (s − b s ) = s y × (n − 1) × n−2 n−2 2 y 2 x Kiểm định ý nghĩa hệ số tương quan Khi có hệ số tương quan, có hai phương pháp kiểm định hệ số tương quan Một phương pháp để kiểm định giả thuyết Ho: hệ số tương quan r = phương pháp kiểm định giả thuyết Ho: hệ số tương quan r = ρ (với ρ ≠ 0) - Kiểm định t dùng để xem r có khác zero cách có ý nghĩa hay khơng Nói cách khác đi, kiểm định để xem tương quan quan sát có phải thực tình cờ Việc kiểm định dựa sở công thức ước lượng sai số chuẩn r: s.e.(r) = (1-r2)/(n-2) s.e.( r ) = 1− r2 = n−2 s ∑( y − y ) n−2 t=r  , d f = n − 2 1 − r  Thí dụ để kiểm định giả thuyết hệ số tương quan thể tích huyết tương trọng lượng thể khơng, tiến hành tính tốn sau: s.e.(r ) = 1− r2 − 0.76 = = 0.265 n−2 8−2  8−2  t = 0.76  = 2.86, d f = 1 − 0.76  Ðiều có ý nghĩa mức 5% xác nhận ý nghĩa liên hệ thể tích huyết tương trọng lượng thể Mức ý nghĩa phụ thuộc vào độ lớn mối tương quan số quan sát Lưu ý tương quan yếu có ý nghĩa thống kê dựa số lớn quan sát, tương quan mạnh khơng đạt mức ý nghĩa có quan sát - Kiểm định z để kiểm định giả thuyết Ho: hệ số tương quan r = ρ (với ρ ≠ 0) Trước tiên tìm hiểu phép biến đổi z Fisher Fisher chứng minh z(r) (đọc hàm số z hệ số tương quan r): 1+ r  z (r ) = ln  1− r  có phân phối bình thường với trung bình z(ρ) độ lệch chuẩn √1/(n-3) Như để kiểm định hệ số tương quan r = ρ (với ρ ≠ 0), phải tính: 1+ r  z (r ) = ln  1− r  1+ ρ   ln  − ρ  (chúng ta lưu ý ρ = hàm số z ρ trở thành không xác định) z (r ) − r ( ρ ) z= = [ z ( r ) − r ( ρ )] × n − /(n − 3) Thí dụ giả sử tác giả X tìm hệ số tương quan thể tích huyết tương trọng lượng thể 0.4, kiểm định xem hệ số tương quan tìm có thực lớn hệ số tương quan báo cáo tác giả X hay khơng: Chúng ta tính được:  + r   + 0.76  z (r ) = ln  = ln  = 0.9962  − r   − 0.76  z( ρ ) = z( ρ ) = z=  + ρ   + 0.4   = ln ln  = 0.4236  − ρ   − 0.4  z (r ) − r ( ρ ) /(n − 3) = 0.9962 − 0.4236 /(8 − 3) = 1.280 Tra bảng phân phối chuẩn tính giá trị p > 0.05 khơng có chứng thống kê hệ số tương quan tìm thực lớn 0.4 Sai số chuẩn ước lượng dùng phương trình hồi quy Đường thẳng hồi quy tương tự giá trị thống kê có khả bị sai số phương trình hồi quy tính từ mẫu ước lượng cho phương trình hồi quy thực toàn dân số Giá trị a b ước lượng mẫu giá trị giao điểm độ dốc đường thẳng hồi quy mơ tả mối liên hệ tuyến tính x y tồn dân số Do chúng bị biến thiên lấy mẫu độ xác chúng đo lường sai số chuẩn Từ sai số chuẩn dễ dàng tính khoảng tin cậy ước lượng hay kiểm định chúng có khác với giá trị cụ thể hay không Sai số chuẩn a Sai số chuẩn a tính theo cơng thức sau 1  x2 s.e.( a ) = s  + 2  n ∑( x − x )  khoảng tin cậy a : a ± tc × s.e.(a) Và để kiểm định a có khác so với α a −α t= , d f = n − s.e.(a )  66.9  s.e.(a) = 0.2819  +  = 1.3197 205 38   Áp dụng vào thí dụ ta có Khoảng tin cậy 95% điểm chặn a bằng: Khoảng tin cậy 95% : a ± tc × s.e.(a) = 0.0857 ± 2.45 × 1.3197 = -3.148 – 3.319 Một nghiên cứu trước báo cáo phương trình hồi quy thể tích huyết tương theo cân nặng với giá trị điểm chặn a 2.1 Có thể kiểm định giá trị điểm chặn nghiên cứu có khác với giá trị 2.1 báo cáo hay không phép kiểm t: a −α 0.0857 − 2.1158 − 2.0301 t= = = = 1.53, d f = n − s.e.(a ) 1.3197 1.3197 tra bảng ta có p >0.05 (p = 0.177) bác bỏ giả thuyết Ho kết luận khơng có khác biệt có ý nghĩa thống kê giá trị điểm chặn nghiên cứu nghiên cứu báo cáo Sai số chuẩn b Sai số chuẩn b tính theo công thức sau s s.e.(b) = ∑( x − x ) khoảng tin cậy b : b ± tc × s.e.(b) Và để kiểm định b có khác so với β b−β t= , d f = n − s.e.(b) Thí dụ: Áp dụng vào trường hợp phương trình hồi quy thể tích huyết tương theo cân nặng ta s 0.2189 s.e.(b) = = = 0.0153 205.38 ∑ ( x − x ) được: Giả sử muốn kiểm định xem b có khác biệt có ý nghĩa với zero hay khơng Kiểm định cho kết t= b − β 0.0436 = = 2.85 s.e.(b) 0.0153 Lưu ý kết giống kết kiểm định hệ số tương quan có kác khơng hay khơng Với giá trị 2,85 kết luận thể tích huyết tương tăng có ý nghĩa (P0.05 (p = 0.41) bác bỏ giả thuyết Ho kết luận khơng có khác biệt hệ số góc phương trình hồi quy với tài liệu nêu Khoảng tin cậy 95% hệ số góc b bằng: Khoảng tin cậy 95% : b ± tc × s.e.(b) = 0.0436 ± 2.45 × 0.0153 = 0.006 – 0.081 Tiên đốn Trong số tình huống, sử dụng phương trình hồi quy để tiên đoán giá trị y cho giá trị đặc biệt x gọi x' Giá trị tiên đoán là: y' = a + bx' Và sai số chuẩn  ( x'− x )  s.e.( y ' ) = s 1 + + 2  n ∑( x − x )  Sai số chuẩn tối thiểu x' gần với trung bình x Nói chung phải thận trọng sử dụng đường hồi quy để tính giá trị ngồi phạm vi x số liệu gốc, quan hệ tuyến tính khơng thiết ngồi phạm vi mà làm phù hợp Khoảng tin cậy tiên đốn: y' ± tc × s.e.(y') với tc tra từ bảng t (student) với n-2 độ tự Trong thí dụ này, đo lường thể tích huyết tương tốn nhiều thời gian số trường hợp, tiên đốn từ trọng lượng thể Thí dụ thể tích plasma huyết tương người đàn ông nặng 66 kg 0,0832 + 0,0436 × 66 = 2,96 lít Và sai số chuẩn   (66 − 66.9)  ( x'− x )  s.e.( y ' ) = s 1 + + = 0.218 1 + +  = 0.23l  205.38   n ∑( x − x )   Khoảng tin cậy 95% giá trị tiên đoán y' y ± tc×s.e.(y') với tc tra từ bảng t (hai đuôi) với n-2 độ tự Giả thiết Có hai giả thiết tảng phương pháp hồi quy tuyến tính Giả thiết thứ giá trị x nào, y có phân phối bình thường Giả thiết thứ hai độ phân tán điểm quanh đường thẳng suốt đoạn thẳng Ðộ phân tán đo lường độ lệch chuẩn s điểm số liệu so với đường thẳng định nghĩa Sự thay đổi thang đo thích hợp giả thuyết không thỏa hay quan hệ dường phi tuyến tính (xem Chương 19) Các quan hệ phi tuyến thảo luận chương 10 Bài tập Bài tập1: Một nhà nghiên cứu tìm hiểu mối liên hệ hai biến số: biến số giải thích x lượng chì máu tính µm /100mL biến số phụ thuộc y: số bất thường nhiễm sắc thể 100 tế bào (Forni et al., 1995) 30 nữ công nhân nhà máy acquy Số liệu ghi nhận sau: x = 36.37; y = 5,97; Σxy=6974,237; Σx2 = 42986,28 ; Σy2 = 1502,20 a H ãy tính hệ số tương quan r b Kiểm định hệ số tương quan có thực khác khơng hay khơng? c Viết phương trình hồi quy số bất thường nhiễm sắc thể 100 tế bào theo lượng chì máu d Tính sai số chuẩn độ dốc phương trình hồi quy e Kiểm định giả thuyết: độ dốc phương trình hồi quy zero (hai đuôi) Bài làm tập a Từ thơng tin kể xây dựng bảng giá trị thống kê sau: n=30; Σxy=6974,237 ước lượng Trung bình Biến độc lập: Lượng chì máu Biến phụ thuộc: Số đột biến nhiễm sắc thể 36.67 5.97 độ lệch chuẩn 9.5513 3.8639 Căn Tổng bình phương độ lệch 51.435 20.808 tính hệ số tương quan r (Σxy ) / n − x × y n 6974.237 / 30 − 36.67 × 5.97 30 r= × = × = 0.37995 sx × s y n −1 9.5513 × 3.8639 29 b Kiểm định r=0 - Xây dựng giả thuyết Ho: r=0; đối thuyết Ha: r0 - Sử dụng kiểm định t đuôi với độ tự = 28; Ta xác định t tới hạn: tc=2,05 - Tính giá trị t 1− r2 − 0,38 = = 0,0306 = 0,175 n−2 28 r 0,385 t= = = 2,20 s.e.(r ) 0,175 s.e.(r ) = - Tìm p: tra bảng t (bảng student) với 28 độ tự ta có p tc= 2.05 ta kết luận p

Ngày đăng: 22/05/2017, 15:37

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan