Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
1,46 MB
Nội dung
HỒI QUI TUYẾN TÍNH Bùi Thị Tú Quyên MỤC TIÊU BÀI HỌC Sau học xong học viên có khả sau: Phân biệt hồi qui tuyến tính đơn giản hồi qui tuyến tính đa biến Mô tả ứng dụng thường gặp phân tích hồi quy tuyến tính Trình bày kiểm chứng giả định cho phân tích hồi qui Sử dụng SPSS xây dựng mô hình hồi qui tuyến tính từ đơn biến đến đa biến phiên giải NỘI DUNG Hồi qui tuyến tính phương pháp phân tích thống kê y sinh học hay sử dụng Trong thống kê học tương quan hồi qui tuyến tính đơn, hai biến có tương quan với thông qua phương trình hồi qui đơn dự đoán giá trị biến phụ thuộc dựa biến độc lập Hồi qui tuyến tính đa biến mô hình mở rộng hồi qui tuyến tính đơn giản dự đoán biến (biến phụ thuộc) dựa số biến độc lập Hồi qui tuyến tính đơn giản Hệ số tương quan hồi qui tuyến tính đơn mô tả mối liên quan hai biến định lượng, hai biến có tương quan với biến thay đổi kéo theo thay đổi biến Khi tính hệ số tương quan hai biến, hai biến có phân bố chuẩn dùng hệ số tương quan Pearson; hai biến có phân bố không chuẩn, tính hệ số tương quan Kendall Speaman Phương trình hồi qui tuyến tính đơn mô tả mối liên quan biến phụ thuộc (y) biến độc lập (x) có dạng: y=a+bx+ε Các giá trị a, b, ε ước tính từ số liệu mẫu, phương pháp ước tính đại lượng thống kê phương pháp Bình phương tối thiểu (least square method) (Xem lại sách Thống kê bản- Đại học Y tế công cộng) Trong phân tích hồi qui tuyến tính, phương trình hồi qui có ý nghĩa hệ số b khác Có thể sử dụng kiểm định t cho kiểm định giả thuyết β=0, không bác bỏ giả thuyết H0 (β=0) lúc hai biến quan hệ tuyến tính mà có mối quan hệ khác Hồi qui tuyến tính đa biến Trên thực tế, mô hình đa biến hay sử dụng quan tâm đến hành vi hay sức khỏe người hành vi, kiến thức, thái độ, sức khỏe người chịu ảnh hưởng nhiều yếu tố khác không môt yếu tố (đơn biến) Sử dụng mô hình hồi qui đa biến kiểm định giả thuyết (mô hình) cách xác mối liên quan số biến lên hành vi sức khỏe Phương trình tổng quát hồi qui tuyến tính đa biến: y = α + β1x1 + β2x2 + +βkxk + ε Trong đó: - α, β1 , β2 hệ số hồi qui - εi sai số - y: Biến phụ thuộc - xk: Các biến độc lập 2.1 Ứng dụng mô hình hồi qui tuyến tính đa biến 2.1.1 Cung cấp mô tả tốt biến phụ thuộc Khi mục đích đơn giản mô tả thay đổi biến phụ thuộc cần quan tâm đến loại bỏ biến khỏi mô hình, không cần quan tâm đến mối quan hệ nhân hay tính thực mô hình Sự mô tả biến phụ thuộc tốt thông qua tổng bình phương phần dư dựa mô hình đầy đủ (bao gồm tất biến độc lập) không cần quan tâm biến có mối quan hệ hay không mô hình có thực tế hay không 2.1.2 Dự đoán giá trị biến phụ thuộc tính toán giá trị trung bình biến phụ thuộc Với mục tiêu này, loại bỏ hay giữ lại biến phù hợp trở nên quan trọng cho mục đính tính toán đường bình phương tối thiểu Các mô hình hồi qui với biến độc lập đơn giản kinh tế việc thu thập thông tin cần thiết để đưa vào mô hình Mục đích việc loại bỏ biến có tương xứng phù hợp mục tiêu nghiên cứu đáp ứng mô hình Bất kỳ biến cung cấp thông tin để dự đoán biến phụ thuộc thông tin thu thập với nguồn lực hợp lý biến đưa vào mô hình hồi qui Tất nhiên việc xác định biến phù hợp đưa vào mô hình phụ thuộc vào y văn, kinh nghiệm nhà nghiên cứu mối quan hệ mặt y sinh học biến phụ thuộc biến độc lập 2.1.3 Ngoại suy cho quần thể Khi nhà phân tích mà muốn ngoại suy kết phân tích từ mẫu nghiên cứu cho quần thể cần lưu ý đến việc lựa chọn biến đưa vào mô hình Việc ngoại suy nguy hiểm phương trình hồi qui xây dựng lại mô hình thích hợp Chính vậy, nhà nghiên cứu cần phải cập nhật phương trình hồi qui muốn dùng phương trình cho mục đích ngoại suy (ví dụ dùng dự báo) 2.1.4 Ước lượng tham số Khi dùng mô hình để ước lượng tham số quần thể phải thận trọng việc đưa biến vào mô hình Cần phải hạn chế sai số biến thích hợp mô hình (bị đưa khỏi mô hình) Ngược lại, biến độc lập thực liên quan đến biến phụ thuộc bỏ khỏi mô hình phương sai/ biến thiên ước lượng giảm, mô hình trở nên tốt 2.1.5 Khống chế biến nhiễu Đây ứng dụng phổ biến cần thiết xây dựng mô hình hồi qui đa biến, khống chế biến độc lập vai trò biến nhiễu giúp loại trừ ảnh hưởng nhiễu đến ước lượng giá trị quần thể Như phân tích với mục tiêu khống chế nhiễu, cần quan tâm đến vai trò biến độc lập đưa vào để khống chế nhiễu phải đóng vai trò yếu tố thứ ba lên mối quan hệ nhân biến độc lập (nguyên nhân) biến phụ thuộc (hậu quả) - Xem thêm Nhiễu kiểm soát nhiễu 2.1.6 Phát triển mô hình thực tế Mục tiêu nghiên cứu thường liên quan đến việc xây dựng mô hình, hầu hết giai đoạn ban đầu trình xây dựng mô hình Để xây dựng, phát triển mô hình cần phân loại biến theo mối quan hệ nhân quả, điều giúp cho nghiên cứu sau áp dụng kiểm chứng lại lý thuyết Với mục đích này, mô hình hồi qui đa biến xây dựng trở thành định hướng cho trình hiểu biết, nhấn mạnh vào mô hình phát triển dựa thực tế kinh nghiệm Mỗi mục tiêu dùng mô hình hồi qui có ý nghĩa khác mức độ quan tâm đến đưa biến số khỏi mô hình, mức độ quan trọng biến giữ lại với biến phụ thuộc cố gắng để mô hình mang tính thực tế 2.2 Một số câu hỏi nghiên cứu dùng hồi qui tuyến tính đa biến Hồi qui tuyến tính đa biến dùng để xác định mối quan hệ số biến độc lập đến biến phụ thuộc: Liệu cân nặng, lượng calo ăn vào, lượng chất béo ăn vào tuổi có liên quan đến lượng cholesterol máu không? Để trả lời câu hỏi nhà nghiên cứu phải đo lường cân nặng, lượng calo, lượng chất béo ăn vào đối tượng NC tuổi đối tượng NC (các biến độc lập), lượng cholesterol máu (biến phụ thuộc- y) Hồi qui tuyến tính đa biến xem xét biến độc lập ảnh hưởng đến biến phụ thuộc Hồi qui tuyến tính đa biến dùng để dự đoán giá trị biến phụ thuộc: Dự đoán tuổi sống kỳ vọng dựa số lượng điếu thuốc hút ngày số tập thể dục ngày Nhóm nghiên cứu quan sát số lượng điếu thuốc đối tượng hút, thói quen tập thể dục tuổi tử vong đối tượng mẫu nghiên cứu Dựa phương trình hồi qui (xây dựng dựa hệ số hồi qui): y=β0+β1*x1+β2*x2, biết tuổi sống kỳ vọng đối tượng quần thể nghiên cứu biết số lượng điếu thuốc đối tượng hút (x1) số tập thể dục ngày (x2) Hồi qui tuyến tính dùng để dự báo xu hướng: Nhà nghiên cứu muốn biết tuổi sống kỳ vọng giảm cân nặng bị thừa cân đối tượng hút thêm điếu thuốc? Các nhà nghiên cứu thu thập số liệu số lượng điếu thuốc hút trung bình, số cân nặng thừa cân tuổi tử vong đối tượng nghiên cứu Phân tích hồi qui đa biến dùng để dự báo xu hướng, ví dụ điếu thuốc hút làm tuổi sống kỳ vọng giảm giờ, kg cân nặng bị thừa làm tuổi sống kỳ vọng giảm tháng Điều đặc biệt có ích phân tích hồi qui cho thấy điểm cắt (β0) ý nghĩa thống kê Lúc hệ số hồi qui cho phép dự báo xu hướng (nếu hệ số hồi qui có ý nghĩa thống kê) Một ích lợi phương pháp hồi qui đa biến cho phép đánh giá tác động riêng phần yếu tố giải thích cho biến phụ thuộc 2.3 Các giả định để xây dựng mô hình hồi qui đa biến Để tiến hành phân tích, xây dựng mô hình hồi qui tuyến tính đa biến cần phải đáp ứng số tiêu chí giả định sau: Cỡ mẫu Hồi qui tuyến tính đa biến yêu cầu phải có biến mô hình, muốn làm hồi qui tuyến tính đa biến cần phải tính toán xem cỡ mẫu có đủ để phân tích không Các nhà nghiên cứu cho cần 20 đối tượng cho biến số độc lập mô hình hồi qui để đưa vào phân tích, mô hình hồi qui đa biến đơn giản cần cỡ mẫu n >40 (2 biến độc lập) Ngoài nhiều nhà nghiên cứu cho với số phương pháp hồi qui tuyến tính yêu cầu 40 đối tượng cho biến độc lập đưa vào mô hình hồi qui Quan hệ tuyến tính Hồi qui tuyến tính đa biến yêu cầu biến độc lập biến phụ thuộc phải có mối quan hệ tuyến tính Ngoài cần kiểm tra giá trị cực trị (outlier) mô hình hồi qui tuyến tính đa biến nhạy cảm với giá trị cực trị Giả định mối quan hệ tuyến tính hai biến kiểm tra thông qua biểu đồ mây/ tán xạ/ đồ thị chấm điểm Hình 1: Không có mối quan hệ tuyến tính Hình 2: Quan hệ tuyến tính lỏng Phân bố chuẩn Hồi qui tuyến tính đa biến yêu cầu tất biến đưa vào mô hình phải có phân bố chuẩn Giả định kiểm định thông qua biểu đồ histogram đường phân phối chuẩn biểu đồ P-P-plot (Xem lại giáo trình Phân tích số liệu- Thống kê IIĐại học Y tế công cộng) Phân bố chuẩn kiểm định thông qua kiểm định tính phù hợp mô hình (goodness of fit) ví dụ kiểm định phi tham số Kolmogorov-Smirnof Nếu phân bố biến không chuẩn mà nhà nghiên cứu muốn đưa biến vào mô hình hồi qui sử dụng phép đổi biến: log, square….tuy nhiên điều dẫn đến ảnh hưởng/ tác động tượng đa đồng tuyến tính biến (Xem thêm phần đa cộng tuyến) Ngoài nhiều tình cỡ mẫu lớn việc tính toán kiểm định t hay F có giá trị cho dù phân bố biến không chuẩn Trong trường hợp phân bố không chuẩn, tính toán mô hình theo likelihood Hình 3: Biểu đồ Histogram với đường cong phân bố chuẩn (Normal curve) Hình 4: Biểu đồ PP-plot kiểm tra phân phối chuẩn Đa cộng tuyến (multicollinear) Hồi qui tuyến tính đa biến có giả định có tượng đa cộng tuyến số liệu Đa cộng tuyến xảy biến độc lập mô hình có liên quan với biến độc lập khác mô hình Giả định tính độc lập quan trọng thứ hai sai số giá trị trung bình không tương quan với Điều có nghĩa sai số chuẩn giá trị trung bình biến độc lập độc lập với sai số chuẩn biến khác có mô hình Tương quan nội sinh (autocorrelation) Phân tích hồi qui tuyến tính đa biến yêu cầu có tương quan nội sinh số liệu Tương quan nội sinh xảy phần dư không độc lập với Nói cách khác, giá trị y(x+1) không độc lập với giá trị y(x) Ví dụ tương quan nội sinh xảy tính toán diễn biến thị trường chứng khoán, giá ngày hôm có liên quan đến giá ngày hôm qua Hình 5: Biểu đồ biểu diễn diễn biến thị trường chứng khoán Đồ thị scatter plot cho phép kiểm định tính tương quan nội sinh, làm kiểm định d Durbin-Watson để kiểm định giả thuyết H0 phần dư tương quan tuyến tính Giá trị d khoảng 0-4, giá trị gần tương quan nội sinh, nhà nghiên cứu cho rằng, giá trị d nằm khoảng 1,5-2,5 cho phép kết luận tương quan nội sinh số liệu dùng phân tích hồi qui tuyến tính đa biến Hình 6:Tương quan nội sinh Hình 7: Biểu đồ scatter plot biểu thị tương quan nội sinh Sự đồng phương sai Giả định đồng phương sai, biểu đồ scatter plot phương pháp tốt để nhận định xem có đồng phương sai hay không Nếu có tượng phương sai đồng nên chuyển sang mô hình phân tích hồi qui không tuyến tính Hình 8: Phương sai đồng Sai số đo lường biến độc lập Khi đo lường biến độc lập không xác (có sai số lý gì) mô hình hồi qui không phù hợp bỏ sót số biến quan trọng không đưa vào mô hình kết mô hình không xác, ước lượng đường bình phương tối thiểu bị sai chệch Trong trường hợp này, ước lượng phương sai không xác Các sai số tương quan Khi số liệu thu thập theo chuỗi thời gian sai số có liên quan đến quan sát điểm thời gian sai số xảy với quan sát liền kề Khi sai số có tương quan với nhau, tính toán đường bình phương tối thiểu sai chệch nhiên không ước lượng tốt mối liên quan biến Ngoài ra, trường hợp này, tính toán phương sai có sai chệch cần phải dùng phân tính mối liên quan khác hồi qui tuyến tính Trước tiến hành xây dựng mô hình hồi qui cần phải kiểm tra xem giả định có thỏa mãn hay không (vẽ đồ thị Regression- phân tích phần dư).[1] 2.4 Chiến lược xây dựng mô hình hồi qui tuyến tính đa biến a Đi từ mô hình tổng quát tới đơn giản Nhìn chung chiến lược xây dựng mô hình nên từ tổng quát tới đơn giản tốt từ đơn giản tới tổng quát Các bước là: - Sử dụng khung lý thuyết, kết nghiên cứu trước, kiến thức kinh nghiệm nhà nghiên cứu để xác định mô hình tổng quát (trong trường hợp này, "tổng quát" có nghĩa mô hình bao gồm tất biến có liên quan mà số liệu có) - Ước lượng mô hình thông qua kết phân tích từ phần mềm máy tính - Nếu hệ số hệ số ước lượng ý nghĩa thống kê, nên bỏ biến ý nghĩa ước lượng lại mô hình với biến số lại Nên loại bỏ biến loại bỏ biến có ảnh hưởng lên phương sai biến lại Nếu hồi qui lần thứ cho thấy có hai biến ý nghĩa thống kê, biến ý nghĩa bị bỏ trước, điều làm tăng mức ý nghĩa biến mô hình Khi cân nhắc để bỏ biến khỏi mô hình nhìn vào giá trị Partial SS biến đó, bỏ biến có giá trị Partial SS nhỏ khỏi mô hình - Sử dụng kiểm định Ward để kiểm tra mô hình cuối (mô hình giới hạn) so với mô hình tổng quát ban đầu (mô hình không giới hạn) b Ma trận tương quan Khi phân tích hồi qui đa biến, nhiều tác giả bắt đầu phân tích ma trận tương quan tất biến định sử dụng mô hình hồi qui kể biến phụ thuộc Sự phân tích cho phép tìm hiểu nhanh mối liên quan tuyến tính đơn giản cặp biến- giả định để xây dựng mô hình hồi qui Khi hai biến độc lập có mối tương quan cao cho dù thuận hay nghịch vai trò dự báo biến với biến phụ thuộc bị lấn át biến có mặt hai biến (có tương quan với nhau) mô hình biến độc lập quan trọng ý nghĩa mô hình ngược lại, biến không quan trọng lại trở nên có ý nghĩa Đây tượng đa cộng tuyến (Multicollinear) c Tiếp cận dựa mục đích Tùy thuôc vào mục tiêu khác mô hình mà cách tiếp cận lựa chọn biến đưa vào mô hình khác Ngoài việc nghiên cứu viên kết luận tầm quan trọng biến độc lập đến mức độ mối liên quan đến biến phụ thuộc phải tùy thuộc vào chất, thông tin mà số liệu cung cấp Các kết hồi qui đường bình phương tối thiểu phản ánh cấu trúc tương quan số liệu phân tích kết phân tích đường bình phương tối thiểu dùng để xây dựng mối quan hệ nhân Các mối quan hệ nhân xác định thông qua nghiên cứu thực nghiệm có nhóm chứng giá trị biến độc lập thay đổi lượng giá thay đổi biến phụ thuộc Các kết từ trình chọn biến nào, đặc biệt cách chọn biến tự động cần phải nghiên cứu cách cẩn thận để đảm bảo mô hình gợi ý phù hợp với kiến thức trình mô hình hóa Các nhà nghiên cứu, phân tích số liệu nên nhớ trình chọn biến thay hiểu biết sâu sắc nhà nghiên cứu d Tính toán tất phương trình hồi qui Về mặt lý thuyết, đảm bảo mô hình chọn mô hình tốt xây dựng so sánh tất mô hình hồi qui có khả dựa số liệu có Điều thực số lượng biến định đưa vào mô hình không nhiều, nhiên mặt tính toán có khó khăn cho dù số lượng biến độc lập Ví dụ, có 10 biến độc lập chọn, theo lý thuyết tổ hợp xây dựng 210- 1=1.023 mô hình Vì thế, thực tế phương án không sử dụng e Lựa chọn mô hình tốt Ngày nay, nhà nghiên cứu hay lựa chọn mô hình hồi qui dựa việc so sánh thân mô hình không tính toán xây dựng tất mô hình Phương pháp sử dụng đường bình phương tối thiểu phù hợp mà tổng bình phương phần dư giảm bỏ biến khỏi mô hình Dựa nguyên tắc này, cần so sánh tổng bình phương phần dư mô hình sử dụng có mặt mô hình không Đây điều nhà nghiên cứu hay quan tâm để có ước lượng tốt để hiểu phiên giải chất vấn đề tốt a Collinearity Diagnostics Model a Dimension 2 Condition Index 1.000 7.984 1.000 5.253 11.566 Eigenvalue 1.969 031 2.874 104 021 (Constant) 02 98 00 01 99 Variance Proportions Luong calorine an hang 02 98 01 21 78 So phut tap the duc tuan 01 61 38 Dependent Variable: Chi so BMI Bảng dùng để nhận định/ chẩn đoán tượng đồng tuyến tính, condition index >15 Æ có tượng đồng tuyến tính, condition index > 30 gợi ý có tượng đồng tuyến tính trầm trọng xảy Trong mô hình này, giá trị Condition Index nhỏ 15 (giá trị lớn 11,566) Casewise Diagnostics Case Number 30 43 66 108 113 136 138 153 180 225 273 300 338 348 378 485 518 538 541 552 582 621 644 670 693 730 845 859 863 Std Residual -3.201 -4.105 -3.335 5.408 -4.173 5.329 -3.763 5.573 6.040 4.706 5.716 -3.229 5.300 5.329 -4.398 6.297 -3.452 5.572 -3.624 5.577 5.478 -3.641 -3.201 5.463 -3.137 -4.319 -3.119 5.419 6.000 a Dependent Variable: Chi so BMI Chi so BMI 23.51 23.52 23.51 26.85 23.52 26.75 23.52 27.02 27.65 28.31 27.25 23.51 26.73 26.76 23.53 27.85 23.52 27.00 23.52 27.12 26.92 23.52 23.49 26.90 23.49 23.52 23.48 26.84 27.47 a Predicted Value 25.9748 26.6867 26.0837 22.6737 26.7415 22.6432 26.4207 22.7208 22.9924 24.6748 22.8371 26.0009 22.6395 22.6457 26.9213 22.9941 26.1785 22.7050 26.3114 22.8214 22.6945 26.3269 25.9587 22.6861 25.9075 26.8545 25.8892 22.6547 22.8444 Residual -2.46920 -3.16713 -2.57253 4.17245 -3.21978 4.11152 -2.90288 4.29938 4.65960 3.63045 4.40996 -2.49109 4.08898 4.11161 -3.39332 4.85820 -2.66336 4.29878 -2.79580 4.30232 4.22633 -2.80933 -2.46939 4.21447 -2.42044 -3.33176 -2.40629 4.18073 4.62907 Bảng cho danh sách giá trị cực trị phần dư (hiệu số giá trị dự đoán giá trị quan sát) giá trị nằm khoảng giá trị TB phần dư ± SD Nhà nghiên cứu cần xem xét giá trị cực trị ảnh hưởng nhiều đến mô hình, tác động giá trị cực trị lên mô hình lớn cân nhắc bỏ ghi có giá trị cực trị mà không đưa vào phân tích Residuals Statistics Minimum 21.8080 -3.39332 -2.193 -4.398 Predicted Value Residual Std Predicted Value Std Residual Maximum 26.9213 4.85820 2.770 6.297 a Mean 24.0674 00000 000 000 Std Deviation 1.03026 77071 1.000 999 N 1000 1000 1000 1000 a Dependent Variable: Chi so BMI Bảng cho kết qủa phân tích phần dư (là khác biệt, chênh giá trị dự đoán giá trị thực) Các giá trị lớn nhất, nhỏ trung bình…của giá trị dự đoán giá trị phần dư 600 500 Frequency 400 300 200 100 Mean =2.31E-14 Std Dev =0.999 N =1,000 -4 -2 Regression Standardized Residual Hình 11: Biểu đồ Histogram phần dư chuẩn hóa Biểu đồ histogram cho nhận định phân bố phần dư, qua biểu đồ thấy phân bố phần dư xấp xỉ chuẩn 1.0 Expected Cum Prob 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Observed Cum Prob Hình 12: Biểu đồ QQ plot nhận định phân bố phần dư chuẩn hóa Biểu đồ QQ plot cho thấy đường phân bố gần với đường thẳng góc 450, thấy phân bố phần dư chuẩn hóa chuẩn Regression Standardized Residual -2 -4 -3 -2 -1 Regression Standardized Predicted Value Hình 13: Biểu đồ chấm điểm (scatter plot) nhận định phân bố phần dư chuẩn hóa Biểu đồ scatter plot phần dư cho thấy phần lớn giá trị nằm khoảng TB±2SD (-2 đến 2) phân bố phần dư đáp ứng yêu cầu này, điều hợp lý với việc mô hình giải thích tỷ lệ tương đối lớn (hơn 60%) biến thiên biến phụ thuộc (BMI) Cần lưu ý - Xây dựng mô hình lý thuyết trước phát triển mô hình hồi qui tuyến tính quan trọng - Nếu biến quan trọng mối liên quan với biến phụ thuộc mô hình (thông qua lý thuyết) bạn nên đưa chúng vào mô hình cho dù hệ số hồi qui ý nghĩa thống kê (tất nhiên cách thận trọng để phát triển mô hình hồi qui) d) Báo cáo kết phân tích Trong báo cáo kết phân tích hồi qui tuyến tính đa biến, báo cáo giá trị Ajusted R2, kiểm định F, giá trị p toàn mô hình sau báo cáo cụ thể giá trị mô hình xây dựng Kết phân tích hồi qui tuyến tính (mô hình 2) với phương pháp stepwise cho giá trị Ajusted R2= 0,64; F= 890,7; p[...]... hình hồi qui đơn biến (chỉ có một biến độc lập) thì hệ số beta chính là hệ số tương quan giữa biến độc lập và biến phụ thuộc Trong mô hình hồi qui tuyến tính đa biến, chúng ta không thể so sánh mức độ đóng góp của từng biến độc lập lên biến phụ thuộc bằng cách so sánh các hệ số hồi qui Vì thế hệ số hồi qui beta được tính toán cho phép chúng ta so sánh và đánh giá độ mạnh của mối liên quan giữa từng biến. .. Nếu cân đối là tốt 2.8 Các bước tiến hành hồi qui tuyến tính đa biến Sử dụng bộ số liệu: BMI.sav Bộ số liệu bao gồm các biến: biến phụ thuộc BMI (y); các biến độc lập (x) là: Lượng calorine ăn hàng ngày, Số phút tập thể dục trong tuần, a) Kiểm tra mối liên quan tuyến tính giữa các biến độc lập với biến phụ thuộc định đưa vào mô hình hồi qui tuyến tính đa biến qua biểu đồ scatter plot (Xem lại cách... tương quan để kiểm tra nhanh hiện tượng đa đồng tuyến tính của các biến độc lập Nếu giá trị tuyệt đối của hệ số tương quan Pearson > 0,8 có hiện tượng đa đồng tuyến tính giữa hai biến Nếu hệ số tương quan Pearson gần với 0,8 cần nghĩ đến khả năng đa đồng tuyến tính và kiểm tra, xem xét các giá trị khác như condition index, VIF… (Xem chi tiết trong phần Đa đồng tuyến tính) Variables Entered/Removeda Model... những biến có giá trị p < 0,2 hoặc cao hơn vì các biến này có thể đóng góp vào mô hình hồi qui đa biến theo chiều hướng khó biết trước dựa trên mức độ phức tạp của các mối liên quan trong bản thân các biến Ví dụ, một biến độc lập có thể cho giá trị p = 0,27 trong mối liên quan với một biến phụ thuộc, tuy nhiên khi đưa biến đó vào mô hình đa biến thì giá trị p lại là 0,019 Vì thế, đôi khi số lượng biến. .. giữ các biến phù hợp và có thể giải thích cho biến phụ thuộc lại trong mô hình Chọn biến phụ thuộc đưa vào ô Dependent Chọn các biến độc lập đưa vào ô Independent(s) Chọn phương pháp hồi qui bạn muốn sử dụng (Enter/ stepwise/ forward/ backward) Chọn phương pháp stepwise, cho phép cho thêm biến phù hợp và loại bỏ những biến không phù hợp với mô hình Giữ lại những biến làm giảm giá trị F