Nói chung sẽ có sự sai lệch giữa các giá trị mẫu của biến phụ thuộc Yi và các ước lượng của nó. Nếu sai lệch là nhỏ, ta nói rằng hàm hồi quy mẫu khá phù hợp với số liệu mẫu, còn nếu sai lệch là lớn thì hàm hồi quy mẫu là phù hợp thấp với số liệu mẫu, như được minh họa trong hình dưới đây.
Hình (a) Hình (b)
Hình (a) cho thấy sai lệch giữa các giá trị mẫu và giá trị ước lượng của biến phụ thuộc là khá nhỏ: các điểm quan sát nằm khá gần với đường hồi quy mẫu, hàm hồi quy mẫu có độ phù hợp cao. Trong khi đó, hình (b) cho thấy điều ngược lại: sự sai lệch là khá lớn, các điểm quan sát nằm cách xa với đường hồi quy mẫu, hàm hồi quy mẫu có độ phù hợp thấp. Nếu hàm hồi quy mẫu là khá phù hợp với số liệu mẫu thì ta kỳ vọng rằng nó phản ánh tốt quan hệ giữa các biến số trong tổng thể.
Để đánh giá một cách định lượng sự phù hợp của hàm hồi quy mẫu đổi với số liệu mẫu, người ta đưa ra khái niệm hệ số xác định, ký hiệu là R2 và được xác định như sau:
Ta có: ∑ ( − ) = ∑ − + − = + − + 2 − Ta đặt: TSS =∑ ( − ) ESS = ∑ − RSS= ∑ Do ∑ − = 0 (Vì ∑ = 0 ; ∑ = 0) Ta có thể viết TSS= ESS+ RSS Ý nghĩa của các thành phần:
TSS=Tổng bình phương toàn phần (Total Sum of Squares): là tổng bình phương của tất cả các sai lệch giữa giữa các giá trị quan sát Yi và giá trị trung bình, thể hiện sự biến đổi của biến Y quanh giá trị trung bình mẫu của nó.
ESS = Tổng bình phương giải thích được (Explained Sum of Squares): là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhân được từ hàm hỗi quy mẫu và giá trị trung bình của của chúng. Phần này đo độ chính xác của hàm hồi quy.
RSS = Tổng bình phương phần dư (Residual Sum of Squares): Độ dao động của giá trị ước lượng, là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
Như vậy sự biến đổi của biến Y là tổng của hai thành phần: (1) sự biến đổi của phần dư RSS – thể hiện cho các yếu tố không đưa vào mô hình và (2) sự biến đổi được thể hiện bởi mô hình, ký hiệu bởi ESS.
Chia 2 vế cho TSS ta có:
1 = +
thể hiện tỷ lệ phần trăm sự biến đổi của biến Y trong mẫu được giải thích bởi mô hình, còn gọi là hệ số xác định của hàm hồi quy và được ký hiệu là R2 .
= = 1 −
Ý nghĩa của R2: Giá trị R2 thể hiện sự thay đổi của biến phụ thuộc được giải thích bởi bao nhiêu % các biến độc lập trong mô hình.
Trường hợp đặc biệt, khi hoàn toàn không có sai lệch giữa giá trị quan sát và giá trị ước lượng, khi đó RSS = 0 và R2 = 1: biến X giải thích được 100% sự thay đổi của biến phụ thuộc.
Khi R2 = 0: biến X hoàn toàn không giải thích được sự thay đổi của biến Y, khi đó ta nói rằng mô hình là không phù hợp, có nghĩa là quan hệ giữa biến X và biến Y được thể hiện bởi mô hình hồi quy mẫu là hoàn toàn không phù hợp với số liệu mẫu. Như vậy, có thể cho rằng mô hình hồi quy tổng thể cũng không phù hợp.
Nội dung bài tập:
Thực hành ước lượng mô hình dựa trên dữ liệu GDP, vốn của các tỉnh. Bước 1: Đưa ra giả thuyết
Dựa vào lý thuyết, vốn là yếu tố đầu vào của sản xuất, vốn tăng có thể giúp tăng sản lượng đầu ra, tức tăng GDP. Vậy giả thuyết đưa ra là: Vốn (K) có tác động cùng chiều tới GDP.
Bước 2: Thiết lập mô hình:
GDP= + +
Bước 3: Thu thập dữ liệu
Ở đây, ta có dữ liệu GDP và vốn đầu tư của 27 tỉnh thành Bước 4: Ước lượng tham số của mô hình
Nhập dữ liệu vào phần mềm:
Sau đó chọn biến phụ thuộc và biến độc lập=> OK
Bước 5:
Phân tích kết quả:
Ước lượng hệ số chặn = 729659 > 0: có nghĩa là khi vốn đầu tư bằng 0 thì trung bình GDP là 729.659. Tuy nhiên có thể cho rằng vốn đầu tư trong thực tế là khác 0 nên hệ số này không thực sự có ý nghĩa.
= 2190.22 > 0: có nghĩa là khi vốn đầu tư tăng 1 đơn vị thì trung bình GDP tăng 2190.22 đơn vị. Kết quả này là phù hợp với lý thuyết và giả thuyết được đưa ra.
Cột Std. Err chứa các sai số chuẩn tương ứng với các hệ số ước lượng: = 134.2461
= 280795.9
Các giá trị này cho biết độ dao động của các hệ số ước lượng tương ứng. Sai số chuẩn của ; lớn ngụ ý rằng nếu lấy một mẫu ngẫu nhiên khác thì giá trị ước lượng thu được có thể sẽ khác biệt khá lớn so với hệ số ; thu được trong bảng trên. Tuy nhiên lưu ý rằng sai số chuẩn lớn hay nhỏ cần được hiểu theo nghĩa tương đối, tức là so sánh với bản thân giá trị của ; .
Cột t-Statistic: còn được gọi là thống kê t, giá trị của cột này bằng giá trị trên cột hệ số chia cho giá trị trên cột sai số chuẩn:
= = 729659
= = 2190,22
134,2464= 2,6
Cột P>|t|: chứa các giá trị xác suất tương ứng với con số bên cột t (t-statistic), được hiểu như sau:
P(|t | > 16,31) = 0.000 P(|t | > 2.6) = 0.015
Trong đó t là biến ngẫu nhiên tuân theo quy luật phân phối Student với bậc tự do là (n-2), với n là kích thước mẫu.
R-squared=0.9141, ngụ ý rằng biến vốn đầu tư giả thích được 91,41% sự thay đổi trong GDP.
Tổng bình phương các phần dư RSS=3,8404x1013
ESS= 4,0889*1013
TSS=4,4729x1014
Khoảng tin cậy 95% của hệ số là (151349.1;1307969)
Khoảng tin cậy 95% của hệ số là (1913.736; 2466.705) cho biết khi biến vốn đầu tư tăng 1 đơn vị thì giá trị trung bình của biến phụ thuộc thay đổi trong khoảng (1913.736; 2466.705).
Tài liệu tham khảo
Mamu Ramanathan (2002), Introductory Econometrics with applications, (5th edition), Harcourt College Publishers, Chương 3
Ngô Văn Thứ (2015), Giáo trình thống kê thực hành, NXB Đại học Kinh tế quốc dân, Chương 6