3. 5 Kết luận
3.4.1. Giới thiệu bài toán hồi quy
Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được thuyết minh) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến thuyết minh) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập. Hay trong địa thống kê nó là một nhóm các kỹ thuật sử dụng để nội suy giá trị của trường ngẫu nhiên (như độ cao z của địa hình) tại điểm không được đo đạc thực tế từ những điểm được đo đạc gần đó.
Bài toán hồi quy tổng quát được đưa ra như sau. Cho trước một tập mẫu (gồm N điểm) đã gán nhãn L = {(x1, y1), …, (x|L|, y|L|)} = N
k k k y
x , 1, trong đó xk được cho là biến độc lập (biến thuyết minh) gồm d thuộc tính, ( xRd), yk là nhãn mang giá trị thực của xi tương ứng, hay được gọi là biến phụ thuộc (biến được thuyết minh), ( yRn). |L| = N, là số mẫu đã được gán nhãn, U là tập mẫu chưa được gán nhãn, U = M
j j j y x 1 , , xRd, yRn và chưa biết nhãn, |U| = M là số lượng mẫu chưa gán nhãn trong tập U. Yêu cầu đặt ra: Phân tích sự phụ thuộc của biến yk (biến phụ thuộc) vào biến xk (biến độc lập), ( k = 1,...,N), từ tập mẫu L để tìm các giá trị nhãn yj cho các biến độc lập xj ( j = 1,...,M) tương ứng trong tập U.
Vd1: Công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một ngôi nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp không,...
Vd2: Ta xem xét đồ thị phân tán sau đây mô tả phân phối về chiều cao của học sinh nam tính theo những độ tuổi cố định.
Hình 29. Đồ thị biểu diễn sự phụ thuộc chiều cao –tuổi
Không mất tính tổng quát ta xét bài toán hồi quy nhiều biến, tức là biến độc lập
x là một vector (xRd), biến phụ thuộc y mang giá trị thực (real-value), yRn.