2.3.1 Phương pháp OLS
Phương pháp OLS lần đầu tiên được giới thiệu bởi Gauss vào những năm cuối thế kỷ 18 (Harper 1974–1976) và đã được sử dụng rộng rãi trong nhiều lĩnh vực. Cho đến nay, người ta đã phát triển thêm các phương pháp ước lượng mới, nhưng OLS vẫn là một phương pháp thông dụng được nhiều người sử dụng do các ưu việt của nó.
Xét mô hình hồi quy tổng thể:
= + + u
Khi đó ta có thể viết hàm hồi quy mẫu như sau:
= +
Ta cần ước lượng các hệ số ,
Gọi sai lệch giữ giá trị thực tế và giá trị ước lượng tương ứng từ hàm hồi quy mẫu là phần dư (residuals), ký hiệu bởi ei:
= − = − −
Khi đó ta có thể minh họa hàm hồi quy mẫu và phần dư như trong hình vẽ dưới đây:
Ta cần phải tìm sao cho nó gần với giá trị thực của nhất có thể, tức là sao cho sai lệch tổng hợp giữa các giá trị thực tế và từ hàm hồi quy mẫu là nhỏ nhất.
Sai lệch này có thể được định nghĩa bởi: 1. Tổng các phần dư ei
2. Tổng các giá trị tuyệt đối của phần dư ∑ | | 3. Tổng bình phương các phần dư ∑
Vì ei có thể âm, có thể dương do vậy cần phải tìm sao cho tổng bình phương của các phần dư đạt cực tiểu, tức là:
= −
= ∑ − − => min
Như vậy phương pháp OLS thực chất là bài toán cực trị với 2 ẩn β1 , β2, sao cho
∑ − − => min
Điều kiện cần để hàm số trên đạt giá trị min là:
⎩ ⎪ ⎨ ⎪ ⎧ ( , ) = 0 ( , ) = 0 Sau một vài phép toán biến đổi, ta sẽ tính được:
= −
= . ∑ − ∑ ∑
∑ − (∑ ) = 0
Trong đó = ∑ ; = ∑
Khi sử dụng phương pháp OLS để ước lượng các tham số cần các giả thiết cơ bản sau để đảm bảo các hệ số ước lượng được là đáng tin cậy:
Giả thiết 1: Mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên W kích thước n.
Giả thiết 2: Kỳ vọng của sai số ngẫu nhiên với điều kiện X bằng 0: E (u|X)=0
Khi giả thiết 2 thỏa mãn thì ta có:
E(u)=0 và Cov(X ,u)=0
Giả thiết 3: Phương sai của sai số ngẫu nhiên là bằng nhau tại mọi giá trị:
Var(u|X)=
Giả thiết 4: Không có sự tương quan giữa các Ui
Cov(Ui,Uj)=0 với ∀ ≠
Giả thiết 5: Ui và Xi không tương quan với nhau: Cov(Ui,Xi)=0
Giả thiết 6: Ui có phân bố N(0, )
Độ chính xác của các ước lượng
Định lý 1.1.: Khi giả thiết 2 thỏa mãn thì các ước lượng , là các ước lượng không chệch của , nghĩa là:
E( ) = ; E( )=
Định lý 1.2: Khi các giả thiết 1 – 3 được thỏa mãn thì phương sai của các hệ số ước lượng bằng:
=
∑
=
∑
Ước lượng của phương sai sai số ngẫu nhiên :
Trong công thức trên có thành phần σ2 là chưa biết và ta cần ước lượng nó để có thể ước lượng được phương sai các hệ số ước lượng theo công thức sau:
= + + ⋯ +
− 2
Thống kê còn được gọi là phương sai sai số của hàm hồi quy. Lấy căn bậc hai ta được gọi là sai số chuẩn của hồi quy (Standard Error of Regression).
= ∑ ∑
= 1
∑
Với = −
2.3.3 Tính chất của các ước lượng
Với các giả thiết trên, các ước lượng , được xác định bằng phương pháp bình phương nhỏ nhất có các tính chất là các ước lượng tuyến tính, không chệch tốt nhất (có phương sai nhỏ nhất), cụ thể như sau:
1. Đây là các ước lượng tuyến tính
Tuyến tính được hiểu là tuyến tính theo tham số. là tuyến tính theo Y
2. Là các ước lượng không chệch và có phương sai nhỏ nhất trong các ước lượng tuyến tính không chệch (Có phương sai cực tiểu)
Điều này có nghĩa là khi lấy các mẫu khac nhau, các nhận được tuy là khác nhau nhưng trung bình của chúng sẽ bằng với giá trị cần tìm .
3. “Tốt nhất”- điều này có nghĩa là ước lượng có phương sai nhỏ nhất trong tất cả các lớp ước lượng tuyến tính không chệch.
2.4 KIỂM ĐỊNH GIẢ THUYẾT
2.4.1 Kiểm định giả thuyết về hệ số hồi quy
Giả thuyết thống kê là một giả sử hay một phát biểu có thể đúng, có thể sai liên quan đến tham số của tổng thể. Khi thực hiện kiểm định, người ta thiết lập cặp giả thiết thống kê, Giả thuyết không và giả thuyết ngược lại (giả thuyết đối).
+ Giả thuyết không: là giả sử mà chúng ta muốn kiểm định thường được ký hiệu là H0
+ Giả thuyết ngược lại: Việc bác bỏ giả thuyết không sẽ dẫn đến việc chấp nhận giả thuyết ngược lại. Giả thuyết ngược lại thường được ký hiệu là H1.
Ví dụ: H0: = 0.5 H1: ≠ 0.5
Miền bác bỏ và miền chấp nhận:
Tất cả các giá trị có thể có của các đại lượng thống kê trong kiểm định có thể chia làm 2 miền: miền bác bỏ và miền chấp nhận.
+ Miền bác bỏ là miền chứa các giá trị làm cho giả thuyết H0 bị bác bỏ.
+ Miền chấp nhận là miền chứa các giá trị giúp cho giả thuyết H0 không bị bác bỏ. Trong thực tế khi H0 không bị bác bỏ cũng có nghĩa là nó được chấp nhận. Giá trị chia đôi hai miền được gọi là giá trị giới hạn (Critical value).
Giả thiết không và giả thiết đối có thể là giả thiết đơn hay giả thiết kép. Một giả thiết được gọi là đơn nếu nó đưa ra 1 giá trị cụ thể cho tham số (Ví dụ H0: = 0.5). Một giả thiết được gọi là kép nếu nó đưa ra một khoảng giá trị của phân bố xác suất (ví dụ H0: > 0.5). Liên quan đến vấn đề này người ta có kiểm định hai phía và kiểm định một phía.
Các bước kiểm định giả thuyết thống kê:
Bước 1: Thành lập giả thuyết H0
Ví dụ: H0: = 0.5
Bước 2: Thành lập giả thuyết H1
Ví dụ: H1: ≠ 0.5
Bước 3: Xác định mức ý nghĩa
Bước 4: Chọn các tham số thống kê thích hợp cho việc kiểm định và xác định các miền bác bỏ, miền chấp nhận và giá trị giới hạn.
Bước 5: Tính toán biến ngẫu nhiên của kiểm định như biến Z (trong phân phối chuẩn), t (trong phân phối Student t) hay (Trong phân phối Chi bình phương).
Bước 6: Ra quyết định: Nếu các giá trị tính toán rơi vào miền bác bỏ H0 thì ra quyết định bác bỏ Ho. Ngược lại sẽ chấp nhận H0.
Kiểm định giả thiết đối với βj, ví dụ = ∗. Nếu giả thiết này đúng thì:
= − ~ ( − 2)
Ta có bảng sau đây:
Loại giả thiết Giả thiết H0 Giả thiết H1 Miền bác bỏ Hai phía = ∗ = ∗ t > t (n − 2) Phía phải ≤ ∗ > ∗ t > t (n − 2) Phía trái ≥ ∗ < ∗ t < −t (n − 2) Kiểm định : H0: = 0 không tác động H1: ≠ 0 có tác động < 0 tác động ngược chiều > 0 tác động cùng chiều
2.4.2 Kiểm định tính phù hợp của mô hình
Nói chung sẽ có sự sai lệch giữa các giá trị mẫu của biến phụ thuộc Yi và các ước lượng của nó. Nếu sai lệch là nhỏ, ta nói rằng hàm hồi quy mẫu khá phù hợp với số liệu mẫu, còn nếu sai lệch là lớn thì hàm hồi quy mẫu là phù hợp thấp với số liệu mẫu, như được minh họa trong hình dưới đây.
Hình (a) Hình (b)
Hình (a) cho thấy sai lệch giữa các giá trị mẫu và giá trị ước lượng của biến phụ thuộc là khá nhỏ: các điểm quan sát nằm khá gần với đường hồi quy mẫu, hàm hồi quy mẫu có độ phù hợp cao. Trong khi đó, hình (b) cho thấy điều ngược lại: sự sai lệch là khá lớn, các điểm quan sát nằm cách xa với đường hồi quy mẫu, hàm hồi quy mẫu có độ phù hợp thấp. Nếu hàm hồi quy mẫu là khá phù hợp với số liệu mẫu thì ta kỳ vọng rằng nó phản ánh tốt quan hệ giữa các biến số trong tổng thể.
Để đánh giá một cách định lượng sự phù hợp của hàm hồi quy mẫu đổi với số liệu mẫu, người ta đưa ra khái niệm hệ số xác định, ký hiệu là R2 và được xác định như sau:
Ta có: ∑ ( − ) = ∑ − + − = + − + 2 − Ta đặt: TSS =∑ ( − ) ESS = ∑ − RSS= ∑ Do ∑ − = 0 (Vì ∑ = 0 ; ∑ = 0) Ta có thể viết TSS= ESS+ RSS Ý nghĩa của các thành phần:
TSS=Tổng bình phương toàn phần (Total Sum of Squares): là tổng bình phương của tất cả các sai lệch giữa giữa các giá trị quan sát Yi và giá trị trung bình, thể hiện sự biến đổi của biến Y quanh giá trị trung bình mẫu của nó.
ESS = Tổng bình phương giải thích được (Explained Sum of Squares): là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhân được từ hàm hỗi quy mẫu và giá trị trung bình của của chúng. Phần này đo độ chính xác của hàm hồi quy.
RSS = Tổng bình phương phần dư (Residual Sum of Squares): Độ dao động của giá trị ước lượng, là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
Như vậy sự biến đổi của biến Y là tổng của hai thành phần: (1) sự biến đổi của phần dư RSS – thể hiện cho các yếu tố không đưa vào mô hình và (2) sự biến đổi được thể hiện bởi mô hình, ký hiệu bởi ESS.
Chia 2 vế cho TSS ta có:
1 = +
thể hiện tỷ lệ phần trăm sự biến đổi của biến Y trong mẫu được giải thích bởi mô hình, còn gọi là hệ số xác định của hàm hồi quy và được ký hiệu là R2 .
= = 1 −
Ý nghĩa của R2: Giá trị R2 thể hiện sự thay đổi của biến phụ thuộc được giải thích bởi bao nhiêu % các biến độc lập trong mô hình.
Trường hợp đặc biệt, khi hoàn toàn không có sai lệch giữa giá trị quan sát và giá trị ước lượng, khi đó RSS = 0 và R2 = 1: biến X giải thích được 100% sự thay đổi của biến phụ thuộc.
Khi R2 = 0: biến X hoàn toàn không giải thích được sự thay đổi của biến Y, khi đó ta nói rằng mô hình là không phù hợp, có nghĩa là quan hệ giữa biến X và biến Y được thể hiện bởi mô hình hồi quy mẫu là hoàn toàn không phù hợp với số liệu mẫu. Như vậy, có thể cho rằng mô hình hồi quy tổng thể cũng không phù hợp.
Nội dung bài tập:
Thực hành ước lượng mô hình dựa trên dữ liệu GDP, vốn của các tỉnh. Bước 1: Đưa ra giả thuyết
Dựa vào lý thuyết, vốn là yếu tố đầu vào của sản xuất, vốn tăng có thể giúp tăng sản lượng đầu ra, tức tăng GDP. Vậy giả thuyết đưa ra là: Vốn (K) có tác động cùng chiều tới GDP.
Bước 2: Thiết lập mô hình:
GDP= + +
Bước 3: Thu thập dữ liệu
Ở đây, ta có dữ liệu GDP và vốn đầu tư của 27 tỉnh thành Bước 4: Ước lượng tham số của mô hình
Nhập dữ liệu vào phần mềm:
Sau đó chọn biến phụ thuộc và biến độc lập=> OK
Bước 5:
Phân tích kết quả:
Ước lượng hệ số chặn = 729659 > 0: có nghĩa là khi vốn đầu tư bằng 0 thì trung bình GDP là 729.659. Tuy nhiên có thể cho rằng vốn đầu tư trong thực tế là khác 0 nên hệ số này không thực sự có ý nghĩa.
= 2190.22 > 0: có nghĩa là khi vốn đầu tư tăng 1 đơn vị thì trung bình GDP tăng 2190.22 đơn vị. Kết quả này là phù hợp với lý thuyết và giả thuyết được đưa ra.
Cột Std. Err chứa các sai số chuẩn tương ứng với các hệ số ước lượng: = 134.2461
= 280795.9
Các giá trị này cho biết độ dao động của các hệ số ước lượng tương ứng. Sai số chuẩn của ; lớn ngụ ý rằng nếu lấy một mẫu ngẫu nhiên khác thì giá trị ước lượng thu được có thể sẽ khác biệt khá lớn so với hệ số ; thu được trong bảng trên. Tuy nhiên lưu ý rằng sai số chuẩn lớn hay nhỏ cần được hiểu theo nghĩa tương đối, tức là so sánh với bản thân giá trị của ; .
Cột t-Statistic: còn được gọi là thống kê t, giá trị của cột này bằng giá trị trên cột hệ số chia cho giá trị trên cột sai số chuẩn:
= = 729659
= = 2190,22
134,2464= 2,6
Cột P>|t|: chứa các giá trị xác suất tương ứng với con số bên cột t (t-statistic), được hiểu như sau:
P(|t | > 16,31) = 0.000 P(|t | > 2.6) = 0.015
Trong đó t là biến ngẫu nhiên tuân theo quy luật phân phối Student với bậc tự do là (n-2), với n là kích thước mẫu.
R-squared=0.9141, ngụ ý rằng biến vốn đầu tư giả thích được 91,41% sự thay đổi trong GDP.
Tổng bình phương các phần dư RSS=3,8404x1013
ESS= 4,0889*1013
TSS=4,4729x1014
Khoảng tin cậy 95% của hệ số là (151349.1;1307969)
Khoảng tin cậy 95% của hệ số là (1913.736; 2466.705) cho biết khi biến vốn đầu tư tăng 1 đơn vị thì giá trị trung bình của biến phụ thuộc thay đổi trong khoảng (1913.736; 2466.705).
Tài liệu tham khảo
Mamu Ramanathan (2002), Introductory Econometrics with applications, (5th edition), Harcourt College Publishers, Chương 3
Ngô Văn Thứ (2015), Giáo trình thống kê thực hành, NXB Đại học Kinh tế quốc dân, Chương 6