5.1. Khái niệm cơ bản về hồi qui tuyến tính đơn giản
Mô hình hồi qui tuyến tính đơn giản (Simple Linear Regression Model).
Để mô hình hoá quan hệ tuyến tính trong đó diễn tả sự thay đổi của biến Y theo biến X cho trước người ta sử dụng mô hình hồi qui tuyến tính đơn giản.
Mô hình hồi qui tuyến tính đơn giản Y theo X có dạng sau: Y = A + B * X + ei
A: Là thông số diễn tả tung độ gốc của đường hồi qui của tập hợp chính, hay A là giá trị trung bình của biến phụ thuộc Y khi biến độc lập X thay đổi 1 đơn vị.
B: Là thông số diễn tả độ dốc của đường hồi qui của tập hợp chính hay B diễn tả sự thay đổi của giá trị trung bình của biến phụ thuộc Y khi biến độc lập X thay đổi 1 đơn vị.
Yi : Giá trị của biến phụ thuộc Y trong lần quan sát thứ i. Xi : Giá trị của biến độc lập X trong lần quan sát thứ i.
ei : Giá trị đối với sự giao động ngẫu nhiên hay sai số trong lần quan sát thứ i
Trong lý thuyết cũng như trên thực tế nhiều khi biến phụ thuộc không chỉ được giải thích bằng mô hình hồi qui tuyến tính đơn giản, chúng phụ thuộc vào nhiều biến, xem xét cụ thể đến giá đất có thể thấy nó phụ thuộc vào rất nhiều yếu tố như vị trí, chất đất, an ninh, cơ sở hạ tầng… chính vì vậy việc tìm hiểu mô hình hồi qui tuyến tính bội giúp cho việc giải thích biến phụ thuộc là rất cần thiết và có ý nghĩa.
5.2. Mô hình hồi qui tuyến tính bội dựa trên quan hệ nhân quả
Thuật ngữ hồi qui được Francis Galton đưa ra lần đầu tiên. Trong một bài viết, Galton tìm ra rằng mặc dù có xu hướng bố mẹ cao đẻ con cao và bố mẹ thấp đẻ con thấp, chiều cao trung bình của trẻ em do những ông bố bà mẹ cùng một chiều cao sinh ra có xu hướng tiến tới hay “hồi qui” ở chiều cao trung bình của toàn bộ dân số. Nói cách khác, chiều của trẻ em của những ông bố bà mẹ cao hay thấp một cách bất thường có xu hướng tiến tới chiều cao trung bình của toàn dân số. Quy luật hồi qui chung của Galton được xác nhận bởi bạn ông là Karl Pearson, người thu thập hơn một ngàn số liệu về chiều cao của các thành viên trong các nhóm gia đình. Karl Pearson tìm ra rằng chiều cao trung bình của các cháu trai trong một nhóm những người cha thấp lớn hơn nhiều chiều cao của những người cha, và như vậy “hồi qui” chiều cao của trẻ em trai cao và thấp về chiều cao trung bình của tất cả đàn ông. Theo cách nói của Galton đó là “hồi qui về trung bình” (Regression to mediocrity).
Mặc dù phân tích hồi qui tập trung vào sự phụ thuộc của một biến vào các biến khác, nó không nhất thiết bao hàm quan hệ nhân quả. Theo cách nói của Kendall và Stuart “Một quan hệ thống kê, mặc dù mạnh và mặc dù có tính gợi ý, không bao giờ có thể thiết lập mối quan hệ nhân quả: các quan điểm của chúng ta về quan hệ nhân quả phải nằm ngoài thống kê, nó phải đến từ lý thuyết khác”. Trong ví dụ về sản lượng vụ mùa, không có nguyên nhân thống kê để giả sử rằng lượng mưa không phụ thuộc vào sản lượng vụ mùa. Thực tế chúng ta xem sản lượng vụ mùa phụ thuộc vào lượng mưa (giữa những yếu tố khác) là do những xem xét phi thống kê: ý niệm chung cho thấy rằng quan hệ này không thể đảo ngược do ta không thể kiểm soát được lượng mưa bằng cách thay đổi sản lượng vụ mùa.
Trong tất cả các ví dụ, điểm cần chú ý là một quan hệ thống kê tự nó không thể bao hàm quan hệ nhân quả một cách logíc. Để quy mối quan hệ nhân quả, người ta phải cần tới các xem xét có trước hay xem xét lý thuyết.