Khái niệm
Một mô hình thống kê tuyến tính đơn (Simple linear regression model) liên quan đến một biến ngẫu nhiên Y và một biến giải thích X là phương trình có dạng:
+ 0 , 1 là các tham số chưa biết, gọi là các hệ số hồi quy.
+ X là biến độc lập, giải thích cho Y
+ là thành phần sai số, được giả sử có phân phối chuẩn với
.Với ( x 1 , y 1 ), , ( x n , y n ) là n cặp giá trị quan trắc của một mẫu từ phương trình ta có: y 0
Giả định của các sai số ngẫu nhiên
Các sai số ngẫu nhiên i , i = 1, 2,
+ Các sai số i độc lập với nhau.
+ Các sai số có phân phối chuẩn: i n trong mô hình ( * ) được giả sử thỏa các điều kiện
N (0, 2 ) với phương sai không đổi Với quan trắc
Ước lượng các hệ số hồi quy trong mô hình hồi quy tuyến tính đơn
Phương trình hồi quy tuyến tính Y theo X với các hệ số ước lượng (fitted regression line) có dạng: yˆ = ˆ
Các hệ số ước lượng 0 và 1 được xác định từ phương pháp bình phương cực tiểu, tạo ra đường hồi quy mẫu tối ưu nhất cho dữ liệu Phương pháp này giúp tìm ra các hệ số ước lượng bằng cách tối thiểu hóa sai số giữa giá trị thực tế và giá trị dự đoán.
Với S xx và S xy xác định bởi: n 2 n 2 n x i
Các ước lượng ˆ ˆ tìm được gọi là các ước lượng bình phương bé nhất Phương
X gọi là đường thẳng bình phương bé nhất, thỏa các tính chất trình hồi quy Y = 0 + 1 sau: n
+ SSE = ( y i ˆ đạt giá trị bé nhất, với SSE là tổng bình phương sai số (Sum of
= 0, với SE là tổng các sai số (Sum of Errors).
Cách trình bày khác của bài toán ước lượng các hệ số hồi quy trong mô hình hồi quy tuyến tính đơn
Phương trình hồi quy mẫu Y theo X có dạng: ˆ ˆ yˆ =
Độ đo sự biến thiên của dữ liệu
Tổng bình phương toàn phần (Total Sum of Squares), kí hiệu SST n
: Đo sự biến thiên của các giá trị y i xung quanh giá trị trung tâm của dữ liệu
Tổng bình phương hồi quy (Regression Sum of Squares), kí hiệu SSR y. n
SSR = ( i=1 Ý nghĩa : Giải thích sự biến thiên liên quan đến mối quan hệ tuyến tính của X
Tổng bình phương sai số (Error Sum of Squares), kí hiệu SSE và Y n
SSE = i i=1 Ý nghĩa : Giải thích sự biến thiên của các yếu tố khác (không liên quan đến mối quan hệ tuyến tính của X và Y Ta có: SS
Hệ số xác định
Hệ số xác định, hay còn gọi là R², là tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình Nó phản ánh mức độ phù hợp của mô hình với dữ liệu, cho thấy sự biến thiên tổng thể của biến giải thích so với tổng sự biến.
R - bình phương (R-squared), ký hiệu
Hệ số xác định của một mô hình hồi quy cho thích tốt cho mối liên hệ giữa biến phụ thuộc phép ta đánh giá mô
Y và biến phụ thuộc hình tìm được có giải
Phân tích tương quan
Phân tích tương quan (Correlation Analysis) là phương pháp đo lường độ mạnh của mối liên hệ tuyến tính giữa hai biến ngẫu nhiên Để thực hiện phân tích này, chúng ta thường sử dụng hiệp phương sai và hệ số tương quan Đối với hai biến ngẫu nhiên X và Y, hiệp phương sai (Covariance) giữa chúng được ký hiệu là Cov(X, Y) và được định nghĩa cụ thể để thể hiện mối quan hệ giữa hai biến.
Và hệ số tương quan (Correlation coefficient) của hai biến ngẫu nhiên X và Y , ký hiệu
XY , được xác định như sau: = Cov ( X ,Y )
Với mẫu ngẫu nhiên cỡ n : ( X i ,Y i ), i =1, , n Hệ số tương quan mẫu, ký hiệu r XY , được xác định như sau: r XY S
Hệ số xác định R 2 của mô hình hồi quy tuyến tính đơn bằng với bình phương của hệ số tương quan mẫu: R
Khoảng tin cậy cho các hệ số hồi quy
Khoảng tin cậy cho hệ số chặn ˆ
Khoảng tin cậy cho hệ số góc :
–PHẦN2– BÀI TẬP ỨNG DỤNG
Phần chung
Đọc dữ liệu (Import Data)
Dùng lệnh gia_nha