Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 15 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
15
Dung lượng
770 KB
Nội dung
PHÂN TÍCH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN 17.1 Phương trình hồi qui tuyến tính Phân tích hồi qui tuyến tích đơn giản (Simple Linear Regression Analysis) tìm liên hệ biến số liên tục: biến độc lập (biến dự đốn) trục hồnh x với biến phụ thuộc (biến kết cục) trục tung y Sau vẽ đường thẳng hồi qui từ phương trình đường thẳng ta dự đốn biến y (ví dụ: cân nặng) có x (ví dụ: tuổi) Ví dụ 1: Ta có mẫu gồm trẻ từ 1-6 tuổi, có cân nặng bảng sau: Tuổi Cân nặng (kg) 10 12 14 16 18 20 Nối cặp (x,y) ta thấy có dạng phương trình bậc nhất: y=2x+8 (trong độ dốc điểm cắt trục tung y x=0) Trong thống kê phương trình đường thẳng (bậc nhất) viết dạng: y=x + [1] TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:1 Đây phương trình hồi qui tuyến tính, đó gọi độ dốc (slope) và chặn (intercept), điểm cắt trục tung x=0 Thực phương trình hồi qui tuyến tính có lý thuyết, nghĩa trị số xi (i=1,2,3,4,5,6) yi tương ứng, liên hệ với 100% (hoặc hệ số tương quan R=1) Trong thực tế có liên hệ 100% mà thường có sai lệch trị số quan sát yi trị số yi’ ước đoán nằm đường hồi qui 17.1.1 Mơ hình hồi qui tuyến tính Ví dụ 2: Ta có mẫu gồm trẻ em khác có cân nặng theo bảng sau: Tuổi Cân nặng (kg) 11 11 14 16 18 20 Khi vẽ đường thẳng hồi qui, ta thấy trị số quan sát y 3, y4, y5, y6 nằm đường thẳng, y1 y2 không nằm đường thẳng liên hệ x i yi TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:2 khơng cịn 100% mà cịn 97% có sai lệch y y2 Sự sai lệch thống kê gọi phần dư (residual) errors Gọi y1, y2, y3, y4, y5, y6 trị số quan sát y’1, y’2, y’3, y’4, y’5, y’6 trị số ước đoán nằm đường hồi qui, 1,2,3,4,5,6 phần dư Như 1= y1 –y’1 2 = y2 –y’2 3 = y3 –y’3 4 = y4 –y’4 5 = y5 – y’5 6 = y6 –y’6 Khi phương trình hồi qui tuyến tính viết dạng tổng quát sau: y’= βxi +i+i [2] Như phần dưi nhỏ liên hệ x,y lớn ngược lại Phần liên hệ đượi gọi phần hồi qui Mơ hình hồi qui tuyến tích mơ tả sau: Dữ liệu= Hồi qui (Regression) + Phần dư (Residual) 17.1.2 Ước tính hệ số tương quan chặn Muốn vẽ phương trình hồi qui tuyến tính cần phải ước tính độ dốc và chặn trục tung Ví dụ 3: Nếu chọn mẫu thực tế gồm 30 em từ 1-6 tuổi kết cân nặng tương ứng 30 em vẽ biểu đồ sau: TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:3 Lúc ta nối 30 điểm biểu đồ mà phải vẽ đường thẳng gần với tất điểm tốt Như đường thẳng biểu đồ ta chọn đường thẳng nào? Nguyên tắc chọn đường thẳng gần 30 điểm, có nghĩa để tổng phần dưi nhỏ nhất: i= (yi- βx – α) tổng bình phương phần dư: (i) = (yi- βx – α) Đây phương trình bậc theo x Trong tốn học, muốn tìm trị cực tiểu phương trình bậc 2, người ta lấy đạo hàm cho đạo hàm triệt tiêu (bằng 0) tìm trị cực tiểu x Giải phương trình này, ta tính thông số và từ thông số ta vẽ đường thẳng hồi qui Phương pháp tốn học gọi phương pháp bình phương nhỏ (least square method) Giải phương trình ta có: = r Sy Sx (r hệ số tương quan; Sy độ lệch chuẩn y Sx độ lệch chuẩn x) r= ( xi- x ) (yi- y ) n-1 Sx Sy = y -x phương trình hồi qui tuyến tính y theo x (bình phương nhỏ nhất) là: y’ = βxi + 17.2 Phân tích hồi qui tuyến tính SPSS Nhập số liệu tuổi cân nặng cân 30 trẻ 1-6 tuổi vào SPSS: Cột 1: tuổi; cột 2: cân nặng TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:4 Vào menu: >Analyze> Regression> Linear TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:5 Bảng 17.1 Tóm tắt mơ hình Hệ số tương quan R=0,918 R =0,843 Bảng 17 Phân tích ANOVA với biến phụ thuộc cân nặng Tổng bình phương phần hồi qui (Regression)=336,14 TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:6 Tổng bình phương phần dư (Residual)=62,8 Trung bình bình phương hồi qui: 336,14/ (bậc tự do)=336,14 Trung bình bình phương phần dư: 62,8/ 28(bậc tự do=n-2)=2,24 F= 336,14 = 149,8 p Curve Estimation TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:9 Vào hình Curve Estimation Nhắp chuyển BEDAYNTM (Bề dày nội trung mạc) vào ô Dependent (s) CHOLESTEROL vào ô Variable Đánh dấu nháy vào ô Include constant in equation, ô Plot models ô Linear (nếu muốn ước lượng liên hệ biến theo dạng phương trình bậc đánh thêm dấu nháy vào Quadratic) Nhấn OK, ta có biểu đồ sau: TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:10 Đây phương trình hồi qui tuyến tính với y= 0,748 + 0,062x Giả định x ( cholesterol máu) biến cố định, khơng có sai sót đo lường Giả định khơng có vấn đề bệnh nhân đo phịng thí nghiệm chuẩn Các giả định lại thực SPSS sau: Vào menu: Analyze> Regression> Linear TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:11 Vào hình Linear, Nhắp chuyển BEDAYNTM qua ô Dependent CHOLESTEROL qua ô Independent(s) Nhấn nút Plots, mở hộp thoại Plots: Nhấp chuyển phần dư *ZRESID vào X (trục hồnh) giá trị dự đốn vào Y (trục tung) để xem phân dư có phân bố ngẫu nhiên phương sai có cố định cho trị xi Nhấn dấu nháy vào ô Histogram ô Normal probability plot để xem phần dư có phân phối chuẩn TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:12 Nhấn Continue, sau nhấn OK cho kết sau: Như phần dư có trung bình (mean)=0 độ lệch chuẩn (SD)=0,394 Biểu đồ phân bố phần dư có dạng hình chng bên, trị trung bình gần zero SD gần Như giả định phần dư có phân phối chuẩn khơng bị vi phạm Hoặc xem biểu đồ P-P plot so sánh phân phối tích lũy phần dư quan sát (Observed Cum Prob) trục hồnh phân phối tích lũy kỳ TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:13 vọng (Expected Cum Prob) trục tung Nếu điểm nằm gần đường chéo phân phối phần dư coi gần chuẩn Cuối để xem giả định phương sai không đổi với giá trị x (cholesterol máu) gọi homoscedasticity Nếu trị phần dư phân tán ngẫu nhiên quanh giá trị zero (đường ngang) coi phương sai khơng thay đổi, giả định homoscedasticity không bị vi phạm TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:14 Nếu phương sai thay đổi (lớn dần nhỏ dần theo giá trị x) gọi Heteroscedascity (giả định phương sai cố định bị vi phạm) Ví dụ hình đây: Tóm lại, với ví dụ giả định phân tích hồi qui tuyến tính thỏa mãn ta kết luận bề dày nội trung mạc động mạch cảnh có liên hệ tuyến tính với nồng độ cholesterol máu theo phương trình : Y (Bề dày nội trung mạc)= 0,062 X cholesterol + 0,748 Như nồng độ cholesterol tăng lên mmol/L bề dày nội trung mạc động mạch cảnh tăng lên 0,062mm Tài liệu tham khảo: McClave J T and Sincich T 2000 Simple linear regression in Statistics, th edition, Prentice-Hall, USA, pp 505-557 Moore D S and McCabe G P 1999 Looking at Data-Relationships (Chapter 2), in Introduction to the Practice of Statistics, W.H Freeman and Company, New York, pp 102-145 TS Nguyen Ngoc Rang; Email: rangbvag@yahoo.com; Website: bvag.com.vn; Trang:15