Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 CHƯƠNG 3: HỒI QUI ĐƠN BIẾN 3.1 Bản chất thống kê mơ hình hồi quy đơn biến Phương pháp ước lượng LS, thực chất, vẽ đường hồi quy xuyên qua “đám bụi” liệu, cho tổng bình phương phần dư [hay sai số] ESS nhỏ Nhưng việc đo lường mang tính túy đại số chưa có bảo đảm chắn cho ^ ^ ước lượng α , β tốt tham số tổng thể α , β theo tiêu chuẩn xác định mặt thống kê Để đánh giá cụ thể độ tốt ước lượng, cần xem xét sâu chất thống kê mơ hình hồi quy Để dễ hình dung, bắt đầu giả định phi thực rằng, quan hệ biến X Y [chẳng hạn thu nhập tiêu dùng] tuân theo quy luật xác định, hồn tồn khơng bị chi phối yếu tố ngẫu nhiên Khi đó, quan sát {x n , y n }nN=1 nằm gọn đường thẳng mô tả xu thực tổng thể: Y =α +β ⋅X x x x x x x yn x βˆ ≡ β Không có yếu tố ngẫu nhiên tác động R2 = x xn Đồ thị 3.1a: quy luật xác định X Y ^ ^ Khi đó, việc ước lượng trở nên tầm thường, ta ln có α = α , β = β , R = Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Bây giờ, cho phép yếu tố ngẫu nhiên tác động lên quan hệ X , Y Như nêu, nhân tố khiến cho quan sát {x n , y n }nN=1 bị lệch cách ngẫu nhiên khỏi đường xu tổng thể Vì vậy, thay nhìn thấy đường xu thẳng tuyến tính hình 3.1a, ta nhìn thấy đám bụi liệu bám xung quanh xu mà ta muốn ước lượng x x x x x x x x Đồ thị 3.1b: Quan hệ X Y bị nhiễu yếu tố ngẫu nhiên Trên Đồ thị 3.1b, ta thấy điểm quan sát {x n , y n }nN=1 , trước nằm đường thẳng hình 3.1a, bị “thổi bay” lên thành “đám bụi” liệu, mà việc “chụp ảnh” chúng [tức thu thập liệu], vẽ đường hồi quy chạy xuyên qua chúng không thiết trùng với quy luật tổng thể (mô tả gạch chấm) Điều ^ gợi ý ước lượng β chịu quy định tham số tổng thể β , bị lái ^ ^ biến ngẫu nhiên [Tương tự, ta nói α ] Vì vậy, β biến ngẫu nhiên Vấn đề đặt là, trung bình mà nói [tức sau nhiều lần chụp ảnh ^ đám bụi liệu], liệu ước lượng β β hay khơng? Và liệu phương pháp ước lượng bình phương cực tiểu có hiệu hay khơng? Về mặt tốn học, phương pháp bình phương cực tiểu cho ta ước lượng sau: Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng βˆ = S XY = S XX ∑ (x n ©2007 − x )( y n − y ) (3.1) S XX Hay vậy, βˆ = [điều ∑ ∑ (x n − x )yn (3.2) S XX − ( xn − x ) y = , chương 1, phần ôn tập] n − ( x − x) Trong (3.2), ta đặt c n = n , nhận xét rằng, tham số phụ thuộc vào quan S XX sát {x n }nN=1 Do vậy, không chịu ảnh hưởng yếu tố ngẫu nhiên Khi đó, cơng thức (3.2) viết lại sau: ^ β = ∑n c n y n = ∑n c n [α + β x n + ε n ] = α ∑ cn + β ∑ cn xn + ∑ cnε n Chúng ta dễ dàng rằng, ∑c n n = ∑c n n x n = Và vậy: βˆ = β + ∑ cnε n (3.3) Phương trình (3.3) khẳng định nhận định trước βˆ đúng: Ước lượng βˆ bị ảnh hưởng yếu tố ngẫu nhiên ε n , làm giá trị khơng trùng khít với β tổng thể Và vậy, βˆ biến ngẫu nhiên Chúng ta gọi βˆ ước lượng không chệch, Eβˆ = β Và gọi ước lượng hiệu ^ nhất, sai số ước lượng Varβˆ = E ( β − β ) nhỏ lớp tất ước lượng tuyến tính, khơng chệch Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Để trả lời xem βˆ có phải ước lượng khơng chệch hiệu hay không, ta phải xét đến chất thống kê trình ngẫu nhiên {ε n }nN=1 [mà ta ví chúng “cơn gió”, ngẫu nhiên “thổi bay” quan sát khỏi đường xu xác định tổng thể] 3.2 Các yếu tố ngẫu nhiên Chúng ta nêu lên giả định trình ngẫu nhiên Hãy nhìn vào đồ thị sau: Đồ thị 3.2: Quy luật phân phối xác suất nhiễu {ε n }nN=1 Như nhận xét từ Đồ thị 3.1a 3.1b, khơng có tác động ngẫu nhiên, hay ε n = , quan sát {x n , y n }nN=1 nằm đường xu tổng thể Dưới tác động yếu tố ngẫu nhiên, quan sát {x n , y n }nN=1 nằm rải ra, “bám” xung quanh đường xu Rất có quan sát bị “thổi” mạnh tới nỗi “bay” xa so với đường xu Điều dẫn đến hai giả thiết sau: Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 A1 Eε n = 0, với n [Bụi giữ liệu bay xa, mà bám xung quanh đường tổng thể] A2 Varε n = σ , với n [Độ tán xạ đám bụi liệu thể độ lớn σ ] Chúng ta coi quy luật tác động “cơn gió”, tức phân bố xác suất yếu tố ngẫu nhiên ε n (identical), theo phân bố chuẩn Hơn nữa, yếu tố ngẫu nhiên độc lập (independent) Vì vậy, kết hợp với giả thiết A1 A2, ta có: iid A3 ε n ~ N (0, σ ) với n Cuối cùng, ta coi ta coi x n xác định trước Từ giả thiết A1 dạng mơ hình y n = α + βx n + ε n , điều bao hàm rằng: A4 E ( y n | x n ) = α + βx n , với n Hai giả thiết cuối quan trọng A3 tóm tắt đặc trưng thống kê nhiễu ngẫu nhiên, A4 mô tả xu tổng thể, mà ta ước lượng theo phương pháp bình phương cực tiểu 3.3 Những đặc trưng thống kê ước lượng bình phương cực tiểu Bây ta nói đến tính tốt ước lượng theo tiêu chuẩn thống kê Từ phương trình (3.3), ta có: βˆ = β + ∑ cnε n Bây giờ, áp dụng toán tử kỳ vọng vào hai vế (3.3): Eβˆ = E ( β + ∑ c n ε n ) = β + ∑ c n Eε n =β [ở đây, ta sử dụng giả thiết A1: Eε n = ].Ta đến kết luận rằng, ước lượng βˆ không chệch: Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Eβˆ = β (3.4) Tiếp theo, sử dụng công thức: Var ( x) = Var ( x − Ex) [xem chương 1, phần ơn tập], lưu ý (3.3), (3.4), ta có: ^ Varβˆ = Var ( β − β ) = Var (∑ c n ε n ) Sử dụng giả thiết A3 tính độc lập yếu tố ngẫu nhiên, cuối ta nhận được: Varβˆ = ∑ c n2Varε n = σ ∑ c n2 , hay ^ Var β = σ2 (3.5) S XX − ⎡ ⎤ − ( x x )⎥ S n (ở đây, ta sử dụng điều ∑ c n = ∑ ⎢ = XX = ) ⎢ S XX ⎥ S XX S XX ⎣ ⎦ Định Lý Gauss - Markov: Phương pháp bình phương cực tiểu có sai số ước lượng, đo ^ lường Var β , nhỏ lớp tất ước lượng tuyến tính khơng chệch Định lý Gauss-Markov quan trọng Nó nêu lên rằng, có tính chất tốt cho ước lượng theo phương pháp bình phương cực tiểu, mà địi hỏi có trung bình zero, tính độc lập, phương sai giống yếu tố ngẫu nhiên – tức giả thiết A3 Chúng ta nên nói thêm là, phương trình (3.5) có ý nghĩa thực tiễn đáng lưu ý Nó ^ nói sai số ước lượng Var β nhỏ đi, hay hiệu ước lượng tăng lên, độ đa dạng thông tin quan sát, đo S XX , tăng lên Điều bao hàm rằng, làm nghiên cứu, ta không thiết phải tăng lớn số quan sát (sample size) N Nếu giả thiết tính tuyến tính đường hồi quy đúng, việc tăng độ đa dạng thông tin quan sát, Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 − hay biên độ giao động biến giải thích, S XX = ∑n ( x n − x) , làm cho ước lượng có độ xác cao Hãy xét ví dụ sau: A x x x x x x x Đồ thị 3.3a: Ước lượng có độ xác thấp, S XX nhỏ Trên Đồ thị 3.3a, giả sử ta có số quan sát N lớn, với biên độ giao động S XX nhỏ Khi đó, cần bỏ quan sát ứng với điểm A thơi, đủ làm hệ số ước ^ ^ lượng {α , β } thay đổi mạnh [từ đường mầu đỏ chuyển sang đường tô mầu da cam] ^ Điều chứng tỏ sai số ước lượng, đo Var β , lớn Ta xét kỹ vấn đề chương đa cộng tuyến (multicollinearity) A x x x x x x x x x x x Đồ thị 3.3b: Ước lượng có độ xác cao hơn, ứng với S XX lớn Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Trên Đồ thị 3.3b, việc loại bỏ vài quan sát, điểm A, làm thay đổi hệ số ước lượng Kết ước lượng có độ ổn định cao xác Tuy nhiên, nhận xét đúng, giả thuyết tuyến tính đường hồi quy Đôi khi, giá trị lớn S XX lại hàm ý giả thuyết tuyến tính đáng nghi vấn: x x x x x x x x x x x Đồ thị 3.3c: Quy luật tổng thể khơng phải tuyến tính (gây nên S XX lớn) Đồ thị 3.3c thể rằng, việc hiểu sai chất kinh tế gây nên việc áp dụng sai mơ hình hồi quy tuyến tính Những sai lầm kiểu dẫn đến yêu cầu phải kiểm định giả thuyết thống kê tính có ý nghĩa tham số mơ hình Đó chủ đề phần 3.4.2 chương Việc sử dụng dạng hàm khác (functional forms) để mô tả quy luật chi phối liệu quan sát {x n , y n }nN=1 chủ đề khác nữa, mà đề cập chương 3.4 Kiểm định giả thuyết thống kê Để có màu sắc kinh tế, ta xét vấn đề kiểm định thơng qua ví dụ cụ thể Ví dụ 3.5: Một công ty bảo hiểm Mỹ muốn kinh doanh bảo hiểm nhân thọ Họ tiến hành nghiên cứu tiềm thị trường sở Lý luận kinh tế rằng, yêu cầu mua bảo hiểm tăng lên với khả xẩy rủi ro, với quy mơ tổn thất tài rủi ro xẩy ra, với tâm lý ngại rủi ro cá nhân Họ nhận định rằng, gia đình giầu có nhờ kinh doanh, người chủ gia đình chịu nhiều stress Tức là, người lệ thuộc ngại rủi ro gây nên stress cho người chủ gia đình, gia đình có thu Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 nhập thấp, tham dự vào kinh doanh Vì vậy, ban nghiên cứu thị trường công ty bảo hiểm đề xuất mơ hình sau: INS = α + βINC Trong đó, INS giá trị hợp đồng bảo hiểm, trả cho bên mua bảo hiểm, xẩy rủi ro Và INC thu nhập Cả hai biến lượng tính nghìn dollars Dữ liệu điều tra kết ước lượng ghi lại bảng obs 10 INSUR 90 165 220 145 114 175 145 192 395 339 INC 25 40 60 30 29 41 37 46 105 81 obs 11 12 13 14 15 16 17 18 19 20 INSUR 230 262 570 100 210 243 335 299 305 205 INC 57 72 140 23 55 58 87 72 80 48 Bảng 3.1: Số liệu điều tra nhu cầu mua bảo hiểm Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 INSUR vs INC 600 500 INSUR 400 300 200 100 20 40 60 80 100 120 140 160 INC Đồ thị 3.4: Nhu cầu mua bảo hiểm Sử dụng eviews, nhận kết hồi quy đây: Dependent Variable: INSUR Method: Least Squares Date: 04/21/07 Time: 21:41 Sample: 20 Included observations: 20 Variable Coefficient Std Error t-Statistic Prob C INC 6.854991 3.880186 7.383473 0.112125 0.928424 34.60601 0.3655 0.0000 R-squared Adjusted R-squared S.E of regression Sum squared resid Log likelihood Durbin-Watson stat 0.985192 0.984370 14.35730 3710.375 -80.61033 3.175965 Mean dependent var S.D dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 236.9500 114.8383 8.261033 8.360606 1197.576 0.000000 Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com 10 https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Bảng 3.2: Kết ước lượng tham số mơ hình Kết ước lượng tóm tắt lại sau: INS = 6.85 + 3.88 INC (3.6) (7.38) (0.11) N = 20, R = 0.98, ESS = 3710 Vấn đề nhà hoạch định chiến lược công ty liệu họ nói sức mua bảo hiểm tương ứng với lớp thu nhập Điều giúp cho cơng ty định kinh doanh Ví dụ, thu nhập gia đình tăng thêm ngàn dollars, chi cho bảo hiểm tăng lên khỏang từ ngàn tới ngàn dollars với độ tin cậy bao nhiêu? Nghĩa công ty cần xác định khoảng tin cậy β tổng thể 3.4.1 Khoảng tin cậy Chúng ta sử dụng đặc trưng thống kê ước lượng αˆ , βˆ để đánh giá tính chất tham số thực (tổng thể) α , β Từ quan hệ (3.3), βˆ = β + ∑ cnε n , giả thuyết A3 tính phân bố chuẩn yếu tố ngẫu nhiên ε , ta biết βˆ có phân bố chuẩn Hơn nữa, từ đánh giá trung n bình phương sai βˆ , ghi phương trình (3.4) (3.5), ta viết lại σ2 βˆ − β rằng: βˆ ~ N ( β , ) Điều có nghĩa là, sau chuẩn hóa, Z = ~ N (0,1) S XX σ S XX Để công thức có ý nghĩa ứng dụng, ta thay σ , ức lượng khơng trệch 1 s2 = e ESS Khi đó, thống kê Z chuyển thành thống kê = ∑ n N −2 n N −2 ^ βˆ − β β− β t= = ~ t ( N − 2) Đồ thị phân bố thống kê t , trông tương tự ^ s S XX se( β ) thống kê Z: Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com 11 https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 ^ Đồ thị 3.5: Phân bố t = β− β ^ se( β ) ~ t ( N − 2) Như Đồ thị 3.5, khoảng tin cậy (Confidence interval) (1 − λ ) % thống kê ^ t= β− β ^ se( β ) vùng mà t rơi vào khoảng với xác suất (1 − λ ) Tức là: ^ Pr ob{−t λ ( N − 2) ≤ β− β ^ se( β ) ≤ t λ ( N − 2)} = (1 − λ ) Nói khác đi, ta có: ^ ^ β ∈ {β ± se( β )t λ ( N − 2)} với độ tin cậy (1 − λ ) % ^ (3.7) ^ Chẳng hạn, ví dụ cơng ty bảo hiểm (3.6), ta có: β = 3.88 ; se( β ) = 0.112 Lưu ý t 0.025 [18] = 2.101 , độ tin cậy 95% β tổng thể là: β ∈ {3.88 ± 0.112 × 2.101} (3.8) 3.4.2 Kiểm định giả thuyết thống kê Thơng thường, kết ước lượng mơ hình (3.6) đánh giá độ tin cậy (3.8) đính kèm báo cáo đưa lên cho ban giám đốc công ty để định chiến lược kinh doanh Tuy nhiên, công việc nghiên cứu thị trường khơng dừng lại Chúng ta Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com 12 https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 tiếp tục ví dụ bảo hiểm việc nói rằng, ban giám đốc công ty họp để đánh giá báo cáo Sau ghi chép từ họp: Nhà quản lý M1 nói rằng, theo kinh nghiệm ông, thu nhập thể chế hóa qua tài sản tài chính, cổ phiếu, địa ốc, vân vân Và ảnh hưởng thu nhập tiền mặt tới chi tiêu cho bảo hiểm nhân thọ yếu Thành viên khác ban giám đốc, nhà quản lý M2 lại cho rằng, thu nhập tiền có ảnh hưởng mạnh tới nhu cầu mua bảo hiểm nhân thọ Kinh nghiệm làm ăn ông cho thấy, 1000 dollars tăng thêm thu nhập kéo theo giá trị gói bảo hiểm mua hộ gia đình tăng lên 5000 dollars Cuối cùng, ơng M3 nêu lại rằng, thu nhập tiền có ảnh hưởng, không mạnh tới Cứ 1000 dollars tăng thêm thu nhập kéo theo nhu cầu bảo hiểm tăng lên 4000 dollars Vậy số họ đúng? Và nhận định nhà quản lý M1 đúng, thật đáng tiếc Vì vậy, cần tiến hành kiểm định lại nhận định Một cách tổng quát, ta tiến hành kiểm định giả thiết thống kê sau: H : β = β vs H : β ≠ β Ví dụ, theo nhận định nhà quản lý cơng ty M1, ta có: H : β = vs H : β ≠ Logic chung vấn đề kiểm định giả thuyết sau: Nếu nhận định anh đúng, phải phù hợp với phần lớn trường hợp quan sát thấy thực tế Tức là, giá trị ^ thống kê t = β − β0 ^ phải rơi vào khoảng tin cậy, chẳng hạn 95% Trong trường hợp đó, se( β ) ta khơng bác bỏ giả thuyết H (hay ký hiệu tiếng Anh: DNRH ) Nếu giá trị ^ t0 = β − β0 ^ nằm khoảng tin cậy, tức rơi vào vùng quan sát thấy thực tế, se( β ) ta bác bỏ H (hay ký hiệu RH ) Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com 13 https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Đồ thị 3.6: Vùng chấp nhận bác bỏ H ^ Đồ thị 3.6 thể rằng, bác bỏ ( RH ), | t |= β− β ^ se( β ) ≥ t λ ( N − 2) , ^ không bác bỏ ( DNRH ), β− β ^ se( β ) ≤ t λ ( N − 2) Trong ví dụ nêu trên, nhận định nhà quản lý M1, ta tiến hành kiểm định sau: | t |= 3.88 = 34.6 ≥ 2.01 = t 0.025 [18] 0.112 Như vậy, dựa kết kiểm định, ta bác bỏ mạnh mẽ giả định nhà quản lý M1 Bây thử tự kiểm định xem nhận định nhà quản lý M2 M3 có khơng Cuối cùng, tiện sử dụng, software ứng dụng eviews, người ta thường cho biết giá trị p-value, định nghĩa sau: P − value = Pr ob{| t ( N − 2) |≥| t |) Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com 14 https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Đồ thị 3.7: biểu diễn p-value Vì vậy, bác bỏ giả thuyết ( RH ), nếu: p − value ≤ λ , [như đồ thị 3.7] Và khơng bác bỏ giả thuyết ( DNRH ) , p − value ≥ λ Lê Hồng Nhật Trần Thiện Trúc Phượng CuuDuongThanCong.com 15 https://fb.com/tailieudientucntt ... 40 60 30 29 41 37 46 105 81 obs 11 12 13 14 15 16 17 18 19 20 INSUR 23 0 26 2 570 100 21 0 24 3 335 29 9 305 20 5 INC 57 72 140 23 55 58 87 72 80 48 Bảng 3.1: Số liệu điều tra nhu cầu mua bảo hiểm Lê... https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ? ?20 07 INSUR vs INC 600 500 INSUR 400 300 20 0 100 20 40 60 80 100 120 140 160 INC Đồ thị 3.4: Nhu cầu mua bảo hiểm Sử dụng eviews, nhận kết hồi quy đây:... https://fb.com/tailieudientucntt Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ? ?20 07 Bảng 3 .2: Kết ước lượng tham số mô hình Kết ước lượng tóm tắt lại sau: INS = 6.85 + 3.88 INC (3.6) (7.38) (0.11) N = 20 , R = 0.98, ESS