Nếu kết luận 2 biến có mối quan hệ chặt chẽ với nhau qua hệ số tương quan r, đồng thời giả định rằng đã cân nhắc kỹ mối liên hệ tiềm ẩn giữa 2 biến, và xem như đã xác định đúng hướng của mối quan hệ nhân quả có thật giữa chúng thì ta có thể mô hình hóa mối quan hệ nhân quả của chúng bằng mô hình hồi quy tuyến tính trong đó một biến được gọi là biến phụ thuộc (hay biến được giải thích - Y) và biến kia là biến độc lập (hay biến giải thích - X). Mô hình này sẽ mô tả hình thức của mối liên hệ và qua đó giúp ta dự đoán được mức độ của biến phụ thuộc (với độ chính xác trong phạm vi giới hạn) khi biết trước giá trị của biến độc lập.
• Mô hình hồi qui tuyến tính bội
Mô hình hồi qui bội mở rộng mô hình hồi qui tuyến tính hai biến bằng cách thêm vào một số biến độc lập để giải thích tốt hơn cho biến phụ thuộc.
Mô hình có dạng như sau:
Yi = ß0 + ß1 X1i + ß2 X2i +…..+ ßp Xpi + ei
− Xpi: biểu hiện giá trị của biến độc lập thứ p tại quan sát thứ i
− ßk: hệ số hồi quy riêng phần
− ei : là một biến độc lập ngẫu nhiên có phân phối chuẩn với trung bình là 0 và phương sai không đổi X2.
Mô hình hồi quy tuyến tính bội giả định rằng biến phụ thuộc có phân phối chuẩn đối với bất kỳ kết hợp nào của các biến độc lập trong mô hình.
• Đánh giá độ phù hợp của mô hình
Hệ số xác định R2 được chứng minh là hàm không giảm theo số biến độc lập được đưa vào mô hình, càng đưa thêm nhiều biến độc lập vào mô hình thì R2 càng tăng, tuy nhiên điều này cũng không có nghĩa là càng có nhiều biến sẽ càng phù hợp hơn với dữ liệu (tức là tốt hơn).
Nên trong phần này, chúng ta dùng R điều chỉnh (Adjusted R square) để đánh giá độ phù hợp của mô hình vì hệ số này phản ảnh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến (R2 điều chỉnh không nhất thiết phải tăng lên khi nhiều biến được đưa vào phương trình, và không phụ thuộc vào độ lệch phóng đại của R2).
• Kiểm định độ phù hợp của mô hình
Kiểm định F sử dụng trong bảng phân tích phương sai vẫn là một phép kiểm định giả thuyết về độ phù hợp của mô hình hồi qui tuyến tính tổng thể. Ở đây biến phụ thuộc có liên hệ tuyến tính với toàn bộ tập hợp các biến độc lập hay không.
Giả thuyết H0 là: ß1 = ß2 = ß3 = ß4
Nếu giả thuyết H0 bị bác bỏ thì ta kết luận rằng: kết hợp các biểu hiện có trong mô hình có thể giải thích được những thay đổi của Y, điều này có nghĩa là mô hình ta xây dựng là phù hợp với tập dữ liệu.
Đa cộng tuyến là trạng thái trong đó các biến độc lập có tương quan chặt chẽ với nhau, làm tăng độ lệch chuẩn của các hệ số hồi quy và giảm giá trị thống kê t của kiểm định ý nghĩa nên các hệ số có khuynh hướng kém ý nghĩa hơn.
• Xác định tầm quan trọng của các biến trong mô hình
Sau khi chạy mô hình hồi quy, chúng ta sẽ dễ dàng xác định được mức độ ảnh hưởng của các biến độc lập đối với biến phụ thuộc thông qua hệ số hồi B.