Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
677,17 KB
Nội dung
11/18/2011 Nội dung PHÂN TÍCH HỒI QUY Hồi quy đơn (Simple linear regression) Hồi quy bội (Multiple regression) Hồi quy đa thức (Polynomial regression) Xây dựng mô hình tuyến tính từ nhiều biến PHÂN TÍCH TƯƠNG QUAN Hệ số tương quan (Correlation coefficient) Biểu đồ tương quan 18/11/2011 Biostatistics - Bùi Tấn Anh PHÂN TÍCH HỒI QUY Hồi quy đơn (Simple linear regression) • Khái niệm: • Hàm hồi quy: – Phân tích hồi qui nghiên cứu phụ thuộc biến (biến phụ thuộc) vào hay nhiều biến khác (biến độc lập) y = 0 + 1 x – b0 (intercept) gọi tung độ góc = hệ số chặn (giá trị lúc xi = 0) – b1 (slope) gọi độ dốc – x biến độc lập (còn gọi predictors) – y biến phụ thuộc (còn gọi response) • Mục đích: – ước lượng (hay dự đoán) giá trị trung bình biến phụ thuộc sở giá trị biết biến độc lập 18/11/2011 Biostatistics - Bùi Tấn Anh Hồi quy đơn (Simple linear regression) 18/11/2011 Biostatistics - Bùi Tấn Anh Hồi quy đơn (Simple linear regression) • Các tham số ước lượng từ hai điểm bất kỳ, chẳng hạn (x1, y1) (x2, y2): 1 y2 y1 x2 x1 y1 1 x1 y2 1 x2 18/11/2011 Biostatistics - Bùi Tấn Anh 18/11/2011 Biostatistics - Bùi Tấn Anh 11/18/2011 Hồi quy đơn (Simple linear regression) Hồi quy đơn (Simple linear regression) • Thí dụ: trọng lượng (kg) tuổi (tháng) bê • Biểu đồ phân tán (scatter plot) cho thấy trọng lượng tuổi có mối tương quan tuyến tính dương Tuổi (x) 12 18/11/2011 Trọng lượng (y) 18 32 64 45 91 127 164 Biostatistics - Bùi Tấn Anh 18/11/2011 Biostatistics - Bùi Tấn Anh Hồi quy đơn (Simple linear regression) Hồi quy đơn (Simple linear regression) • Mô hình: yi = 0 Trọng lượng = • Các giả định (Assumptions): Dữ liệu + + 1xi + 1*Tuổi + = [Thành phần tuyến tính] + – liệu có phân bố chuẩn – phương sai không đổi (s2) – mô hình tuyến tính đúng: ei ei [Sai số] yi ~ N( + xi , s2) ei ~ N(0, s2) • Như với giá trị xác định x, y có phân bố chuẩn với: • liệu có dạng (x1, y1), (x2, y2), , (xn, yn) 18/11/2011 Biostatistics - Bùi Tấn Anh – trung bình + 1xi – phương sai s2 Hồi quy đơn (Simple linear regression) 18/11/2011 Biostatistics - Bùi Tấn Anh 10 Ước lượng tham số • Nếu gọi ước lượng 0 b0 ước lượng 1 b1 mô hình hiệu chỉnh là: yˆ i b0 b1 xi • Sai số là: resi yi yˆi yi b0 b1 xi • Phương pháp thường dùng chọn giá trị b0 b1 cho tổng bình phương sai số (SSE) nhỏ Phương pháp gọi ước lượng bình phương tối thiểu (least square estimates) 18/11/2011 Biostatistics - Bùi Tấn Anh 11 18/11/2011 Biostatistics - Bùi Tấn Anh 12 11/18/2011 Ước lượng tham số Ước lượng b0 b1 y n y5 res5 i 1 res4 y1 i 1 i 1 ( x x )( y y ) y4 i b1 i i 1 n (x x ) res2 res1 n • Để tổng bình phương sai số nhỏ nhất, ta n chọn: y3 res3 n SSE resi2 ( yi yˆi )2 ( yi b0 b1 xi )2 i i 1 y2 b0 y b1 x x 18/11/2011 Biostatistics - Bùi Tấn Anh 13 Ước lượng b0 b1 Tuổi (xi) Trọng lượng (yi) 18 32 64 45 91 127 12 164 35 541 X i xi x Yi yi y X i2 –5 –3 –2 –1 –59.29 –45.29 –13.29 –32.29 13.71 49.71 86.71 0.00 25 1 49 98 Yi X iYi 3,514.80 296.43 2,050.80 135.86 176.51 26.57 1,042.37 32.29 188.08 13.71 2,471.51 149.14 7,519.37 607.00 16,963.43 1,261.00 b1 = 1261/98 = 12.867 b0 = 77.286 – 12.867*5.00 = 12.94 18/11/2011 Biostatistics - Bùi Tấn Anh 14 Ước lượng b0 b1 y 77.286 x 5.00 18/11/2011 Biostatistics - Bùi Tấn Anh 15 • Phương trình hồi quy: yˆ 12.95 12.87 x • Tung độ góc: b0 = 12.95 (khi x = 0) • Độ dốc: b1 = 12.87 • Giá trị hiệu chỉnh trọng lượng trung bình bê ước lượng cho độ tuổi định • Thí dụ: bê 10 tháng tuổi có trọng lượng trung bình ước lượng là: 12.95 + 12.87*10 = 141.62 kg 18/11/2011 Biostatistics - Bùi Tấn Anh 16 Ước lượng s2 Kiểm định giả thuyết • Ước lượng s2 s2 ( sY2 X ) s2 = SSE/(n-2) • Tung độ góc (Intercept) H0 : b = (đường thẳng hồi quy qua trục tung) H1 : b ≠ • Độ dốc (Slope) H0 : b = (không có tương quan tuyến tính) H1 : b ≠ n ( y yˆ ) i = i i 1 n2 • Trong thí dụ trên: s2 = 737.70/5 = 147.54 s = 12.15 kg 18/11/2011 Biostatistics - Bùi Tấn Anh 17 18/11/2011 Biostatistics - Bùi Tấn Anh 18 11/18/2011 Kiểm định tung độ góc t • Trong thí dụ trên: b0 se(b0 ) se(b0 ) 12.15* df = n – n i 1 n i 1 18/11/2011 • t = 12.95/7.66 = 1.69 với df = – = • P-value: P = 2*P (T5 > 1.69) = 0.15 > 0.05 Không thể bác bỏ H0 đường thẳng hồi quy qua trục tung i x n ( x x ) se (b0 ) s * 273 7.66 7*98 i Biostatistics - Bùi Tấn Anh 19 18/11/2011 Biostatistics - Bùi Tấn Anh 20 Kiểm định độ dốc • Trong thí dụ trên: b t se(b1 ) se (b1 ) df = n – se(b1 ) • t = 12.87/1.23 = 10.49 với df = – = • P-value: P = 2*P (T5 > 10.49) = 0.00 < 0.05 Bác bỏ H0 trọng lượng bê tăng có ý nghĩa theo độ tuổi s n i 1 ( xi x ) 18/11/2011 Biostatistics - Bùi Tấn Anh 21 Bảng ANOVA 18/11/2011 Biostatistics - Bùi Tấn Anh 22 Bảng ANOVA Nguồn Tổng Độ tự biến động Bình phương Regression SSR Residual SSE n–2 Total SST n–1 18/11/2011 12.15 1.23 98 Biostatistics - Bùi Tấn Anh • Trong thí dụ Trung bình Bình phương MSR = SSR MSE = SSE/(n – 2) 23 Nguồn biến động Regression Residual Total 18/11/2011 Tổng Bình phương 16,226 738 16,964 Độ tự Biostatistics - Bùi Tấn Anh Trung bình Bình phương 16,226 147.5 24 11/18/2011 Áp dụng Minitab Bảng ANOVA • Nhập liệu: • Trong hồi quy tuyến tính đơn, có mối liên hệ t-test F-test: t2 = F • Tỉ lệ biến thiên giải thích mô hình: R2 18/11/2011 Regression SS SSR Total SS SST Biostatistics - Bùi Tấn Anh 25 Phân tích 18/11/2011 Biostatistics - Bùi Tấn Anh 26 Biostatistics - Bùi Tấn Anh 28 Phân tích 18/11/2011 Biostatistics - Bùi Tấn Anh 27 Kết 18/11/2011 Giải thích • s = 12.1466 sai số chuẩn ước lượng (standard error of estimate s= 18/11/2011 Biostatistics - Bùi Tấn Anh 29 18/11/2011 SSE n-2 Biostatistics - Bùi Tấn Anh 30 11/18/2011 Giải thích Giải thích • Phương trình hồi qui đơn : y (trọng lượng) = 12.949 + 12.867 x (độ tuổi) • Tỉ lệ biến động chung trọng lượng theo độ tuổi là: R-sq = RSS / TSS = 16226 / 16963 = 0.957 = 95.7% gọi hệ số xác định R2 (coefficient of determination) • R2 = 95.7%, có nghĩa phương trình tuyến tính giải thích khoảng 96% khác biệt trọng lượng độ tuổi • Trị số R2 có giá trị từ đến 100% (hay 1) • R2 cao dấu hiệu cho thấy mối liên hệ hai biến số độ tuổi trọng lượng chặt chẽ 18/11/2011 Biostatistics - Bùi Tấn Anh 31 18/11/2011 Biostatistics - Bùi Tấn Anh 32 Biostatistics - Bùi Tấn Anh 34 Biostatistics - Bùi Tấn Anh 36 Biểu đồ Giải thích • R-sq (adj) = Adjusted R squared = hệ số xác định hiệu chỉnh Đây hệ số cho ta biết mức độ cải tiến phương sai sai số (residual variance) yếu tố độ tuổi có mặt mô hình tuyến tính n 1 R-sq(adj) = (1 R ) n k 18/11/2011 Biostatistics - Bùi Tấn Anh 33 Biểu đồ 18/11/2011 18/11/2011 Biểu đồ Biostatistics - Bùi Tấn Anh 35 18/11/2011 11/18/2011 Biểu đồ Thí dụ • Khi nuôi loài bọ cánh cứng Tribolium confusum môi trường có độ ẩm khác nhau, người ta nhận thấy trọng lượng chúng bị giảm nước • 25 bọ chia thành nhóm Lượng nước bị (mg) ghi nhận nhóm sau tuần nuôi (không cho ăn) bảng bên • Liệu nước có liên quan đến độ ẩm môi trường hay không? 18/11/2011 Biostatistics - Bùi Tấn Anh 37 18/11/2011 Biostatistics - Bùi Tấn Anh 38 Biostatistics - Bùi Tấn Anh 40 Biểu đồ độ ẩm tương đối 12 29.5 43 53 62.5 75.5 85 93 18/11/2011 Giảm trọng 8.89 8.14 6.67 6.08 5.90 5.83 4.68 4.20 3.72 Biostatistics - Bùi Tấn Anh 39 18/11/2011 Kết phân tích hồi qui Hồi qui bội Predictor Constant X • Phương trình hồi qui: Ŷ = a + b1x1 + b2x2 + + bk xk + ei • Các hệ số b1, b2, bk phương trình hồi quy bội gọi độ dốc phần (partial slope) Coef SE Coef T P 8.6665 0.1844 46.99 0.000 -0.052676 0.003135 -16.80 0.000 S = 0.285635 R-Sq = 97.6% R-Sq(adj) = 97.2% • Dựa kết thu sau phân tích thiết lập phương trình hồi quy, rút nhận xét kết luận Từ phương trình hồi quy, ước lượng xem bọ bị mg độ ẩm tương đối 50% 18/11/2011 Biostatistics - Bùi Tấn Anh 41 18/11/2011 Biostatistics - Bùi Tấn Anh 42 11/18/2011 Hồi qui bội Thí dụ 1: • Bảng kết nghiên cứu nhà hoá học giảm khối lượng (y) hợp chất theo thời gian tiếp xúc với không khí (x1) độ ẩm môi trường (x2) 18/11/2011 Biostatistics - Bùi Tấn Anh 43 Sự giảm khối lượng (pound) Thời gian (giờ) Độ ẩm tương đối 4.3 0.2 5.5 0.2 6.8 0.2 8.0 0.2 4.0 0.3 5.2 0.3 6.6 0.3 7.5 0.3 2.0 0.4 4.0 0.4 5.7 0.4 6.5 0.4 18/11/2011 Biostatistics - Bùi Tấn Anh 44 Kết phân tích Minitab Kết phân tích Minitab • The regression equation is Khối lượng = 0.667 + 1.32 Thời gian - 8.00 Độ ẩm • Hãy dự đoán xem khối lượng hợp chất bị giảm thời gian tiếp xúc với không khí 6.5 độ ẩm tương đối môi trường 0.35 Predictor Coef Constant 0.6667 Thời gian 1.31667 Độ ẩm -8.000 SE Coef T 0.6942 0.96 0.09981 13.19 1.367 -5.85 P 0.362 0.000 0.000 S = 0.386580 R-Sq = 95.9% R-Sq(adj) = 94.9% 18/11/2011 Biostatistics - Bùi Tấn Anh 45 18/11/2011 Biostatistics - Bùi Tấn Anh 46 Thí dụ Heat • Dưới kết nghiên cứu Woods, Steinour & Starke lượng nhiệt phát cho tác dụng bột hàn với bốn loại hóa chất: 78.5 104.3 95.9 102.7 93.1 113.3 74.3 87.6 109.2 72.5 115.9 83.8 109.4 – X1 = tricalcium aluminate – X2 = tricalcium silicate – X3 = tetracalcium aluminoferrite – X4 = beta-dicalcium silicate 18/11/2011 Biostatistics - Bùi Tấn Anh 47 18/11/2011 X1 X2 11 11 11 11 21 10 X3 26 56 52 71 54 66 29 31 55 31 47 40 68 Biostatistics - Bùi Tấn Anh X4 17 18 15 22 23 60 20 33 22 12 52 47 22 44 26 34 12 48 11/18/2011 Hồi qui đa thức Hồi qui đa thức bậc • Phương trình hồi qui: Ŷ = a + bX + cX2 + dX3 + • Khi X Y có mối liên hệ phụ thuộc bậc 2: Ŷ = a + bX + cX2 • Khi X Y có mối liên hệ phụ thuộc bậc 3: Ŷ = a + bX + cX2 + dX3 • Để nghiên cứu khả sinh sản châu chấu, nhà côn trùng học thí nghiệm mẫu gồm 30 châu chấu Chỉ tiêu nghiên cứu trọng lượng (g) số lượng trứng đẻ • Dữ liệu ghi nhận bảng sau: 18/11/2011 Biostatistics - Bùi Tấn Anh 49 18/11/2011 Biostatistics - Bùi Tấn Anh 50 Hồi qui đa thức bậc SL trứng TL 27 2.1 32 2.3 39 2.4 48 2.5 59 2.9 67 3.1 71 3.2 65 3.3 73 3.4 67 3.4 78 3.5 72 3.5 81 3.5 74 3.6 83 3.6 18/11/2011 Mẫu Hàm lượng gỗ cứng (x) Độ căng (y) 6.3 1.0 11.1 1.5 20.0 2.0 24.0 3.0 26.1 4.0 30.0 4.5 33.8 5.0 34.0 5.5 38.1 6.0 39.9 6.5 10 42.0 7.0 11 46.1 8.0 12 53.1 9.0 13 52.0 10.0 14 52.5 11.0 15 48.0 12.0 16 42.8 13.0 17 27.8 14.0 18 21.9 15.0 19 SL trứng TL 75 3.6 84 3.6 77 3.7 83 3.7 76 3.7 82 3.8 75 3.9 78 77 4.3 75 4.4 73 4.7 71 4.8 70 4.9 68 65 5.1 Biostatistics - Bùi Tấn Anh 51 18/11/2011 Biostatistics - Bùi Tấn Anh Hồi quy phi tuyến (Nonlinear Regression) Hồi quy phi tuyến (Nonlinear Regression) • Ngoài dạng hồi quy tuyến tính trình bày trên, thực tế nghiên cứu ta gặp phải nhiều dạng liên hệ phi tuyến • Trong trường hợp này, trước tiên ta phải chuyển chúng thành dạng liên hệ tuyến tính để phân tích tính hệ số • Trong số trường hợp sau phải chuyển biến số thực để thiết lập phương trình hồi quy phi tuyến tắc • Thí dụ: Y = a + ebX • Có thể tuyến tính hóa cách chuyển dạng biến phụ thuộc Y thành Ln Y Do phương trình tuyến tính có dạng là: Y' = a' + b X 18/11/2011 18/11/2011 Biostatistics - Bùi Tấn Anh 53 52 – Y' = Ln Y a' = Ln a Biostatistics - Bùi Tấn Anh 54 11/18/2011 Thí dụ Tương quan tỉ lệ triền quang số diện tích X 75.0 72.0 42.0 29.0 27.0 10.0 9.0 5.0 2.0 2.0 1.0 0.9 • Tương quan tỉ lệ triền quang (Y) số diện tích (X) giống lúa IR8 ghi nhận bảng (theo Gomez, 1987) 18/11/2011 Biostatistics - Bùi Tấn Anh 55 18/11/2011 Y 1 3 10 10 12 Biostatistics - Bùi Tấn Anh 56 Regression Analysis: LnY versus X • The regression equation is LnY = 4.46 - 0.403 X • Từ kết ta có a = 4.45789 b = -0.40342 • Dùng kết để lập phương trình phi tuyến tắc Predictor Coef SE Coef T P Constant 4.45789 0.07817 57.03 0.000 X -0.40342 0.01153 - 34.99 0.000 S = 0.152682 R-Sq = 99.2% R-Sq(adj) = 99.1% 18/11/2011 Biostatistics - Bùi Tấn Anh 57 18/11/2011 Biostatistics - Bùi Tấn Anh 58 Phân tích tương quan • Hệ số tương quan (correlation coefficient) dùng để đo mức độ liên hệ tuyến tính hai biến • Hệ số tương quan (HSTQ) có giá trị nằm -1 +1 • Nếu biến có xu hướng tăng biến lại giảm HSTQ có giá trị âm Ngược lại hai biến tăng HSTQ có giá trị dương Fitted Line Plot Y = 89.6025 * exp(-0.403 * X) 80 70 60 Y 50 40 30 20 10 0 10 12 X 18/11/2011 Biostatistics - Bùi Tấn Anh 59 18/11/2011 Biostatistics - Bùi Tấn Anh 60 10 11/18/2011 Hệ số tương quan (r) Biểu đồ tương quan • Stat > Basic Statistics > Correlation • r = mối tương quan tuyến tính x y • r = +1 –1 tương quan hoàn hảo đường thẳng • r gần = +1 –1 cho thấy tương quan chặt • Tổng quát: Tương quan chặt r > < –0.7 18/11/2011 Biostatistics - Bùi Tấn Anh 61 18/11/2011 Biostatistics - Bùi Tấn Anh 62 11 [...]... tương quan hoàn hảo đường thẳng • r gần = +1 hoặc –1 cho thấy tương quan rất chặt • Tổng quát: Tương quan rất chặt khi r > 0 7 hoặc < –0.7 18/11/2011 Biostatistics - Bùi Tấn Anh 61 18/11/2011 Biostatistics - Bùi Tấn Anh 62 11