Dễ dàng thấy được ý nghĩa các độ lệch tối thiểu qua đồ thị sau:... Độ lệch của các giá trị quan sát so với giá trị ước lượng Giải thích đồ thị: lượng của Y mà độ lệch trung bình giữa chú
Trang 1Công thức trên được chứng minh từ phương pháp hồi quy các bình phương tối thiểu của các hiệu số (độ lệch : Deviation) giữa các giá trị quan sát và giá trị
i
độ lệch, ta có:
1 i 1( i i) 1( i i)
2
1 i
n
i
Min ê
=
Giải hệ phương trình vi phân để tìm giá trị các thông số
Lấy đạo hàm riêng phần theo a và cho bằng 0:
2
n i
Y a bX
a =
Lấy đạo hàm riêng phần theo b và cho bằng 0:
2
n i
Y a bX
b =
Lấy đạo hàm rồi cùng chia cho -2 (hay nhân cho -1/2), ta có hệ phương trình chuẩn, với n quan sát:
2
Dùng phương pháp khử, giải hệ phương trình có 2 ẩn số, ta lần lược có được giá trị các thông số a, b như các công thức (1.3) và (1.4) nên trên
Dễ dàng thấy được ý nghĩa các độ lệch tối thiểu qua đồ thị sau:
Trang 2Đồ thị 1.2 Độ lệch của các giá trị quan sát so với giá trị ước lượng Giải thích đồ thị:
lượng của Y mà độ lệch trung bình giữa chúng và giá trị quan sát thực là nhỏ nhất (tối thiểu)
Các độ lệch nằm phía trên đường ước lượng nhìn từ gốc của trục toạ độ, gọi là độ lệch dương (Positive deviation); các độ lệch nằm phía dưới đường ước lượng nhìn từ gốc của trục toạ độ, gọi là độ lệch âm (Negative deviation)
Tại sao là bình phương tối thiểu?
Mục đích cuối cùng của phương pháp hồi quy là dùng để giải thích hoặc dự báo một đối tượng cần nghiên cứu Cụ thể là đi tìm giá trị các thông số a, b để xây dựng phương trình hồi quy tuyến tính (đường thẳng) có dạng tổng quát:
Y = + a bX Mỗi giá trị ước lượng (ước lượng điểm) là giá trị ước lượng trung bình điểm
X i
0
Y
Y i
Y
°
°
°
X
Đường hồi quy bình quân tối thiểu:
Y = + a bX
Trang 3bằng với giá trị ước lượng điểm Y i là bằng 0, hay nói cách khác là rất khó có khả năng xảy ra
Ý nghĩa của phương pháp bình phương tối thiểu là làm sao cho độ lệch
Khi ấy, giá trị ước lượng “gần với” giá trị quan sát thực và phương trình hồi quy dùng để dự báo sẽ trở nên khả thi, thích hợp nhất và chính xác nhất trong điều kiện có thể
i
Y X i Y i X X i − Y Y i − ( )
.
i
i
X X
Y Y
−
i
i
Y Y −
Bảng 1.7 Các trị số cơ sở thống kê Tính giá trị trung bình (mean) của các biến X, Y với 6 quan sát:
11.292 1.882 6
2.267 377,83 378 6
X Y
Trước hết, xét mức độ tương quan (correlation) giữa biến số phụ thuộc và biến số độc lập bằng công thức:
Trang 4( )( )
1
n
i
R
X X Y Y
=
=
∑
R = +1: tương quan hoàn toàn và đồng biến;
R = -1: tương quan hoàn toàn và nghịch biến;
Theo số liệu trên, độ tương quan đo được:
270.282 6.575
Ý nghĩa của độ tương quan nói lên cường độ của mối quan hệ tuyến tính của hai biến X và Y
Trở lại, thay các giá trị đã tính ở bảng 1.7 vào công thức (1.3) và (1.4) ở trên, ta có:
1
2 1
270.282
n
i n i i
b
X X Y Y
=
=
−
∑
377,83 0,155 1882 86,12
a Y bX= − = − × = Vậy phương trình hồi quy có dạng Y = a + bX sẽ là:
Y = 86,12 + 0,155X Tính trên phần mềm Microsoft Excel:
Có 2 cách thực hiện trên Excel:
Cách 1: dùng hàm Fx: Paste function
Trang 5Tìm trị số b (slope), sử dụng lệnh: Insert / Fx / Statistical (select a category:
chọn loại hàm) / slope (select a function: lựa chọn tên hàm) / OK / quét đánh dấu khối cột dữ liệu Y và cột dữ liệu X / OK
Tìm trị số a (intercept), sử dụng lệnh giống như tìm trị số a, chỉ thay đổi bằng tên hàng Slope bằng tên hàm Intercept (function name)
Tìm trị số R (correlation), dùng lệnh: Insert / Fx / Statistical (select a category: lựa chọn loại hàm) / Correl (select a function: lựa chọn tên hàm) / OK / quét đánh dấu khối cột dữ liệu X và cột dữ liệu Y / OK
Cách 2: Dùng Regression (thường dùng để chạy hồi quy đa biến) Khi thao tác trên Microsoft Excel, ta sử dụng lệnh:
Tools / Data Analysis / Regression / OK
Trong phần Input (nhập đầu vào):
Nhập dữ liệu Y vào ô: Input Y Range;
Nhập dữ liệu X vào ô: Input X Range;
Trong phần Output options (vị trí đầu ra) có 2 lựa chọn:
Chọn sheet mới: dùng New worksheet ply;
Chọn sheet hiện hành: dùng Output Range
Chương trình Microsoft Excel sẽ cho bảng kết quả sau: