Để kiểm định sự phù hợp của mô hình hồi quy tuyến tính so với số liệu, ta có thể tính các tổng bình phương sai số ESS, RSS và TSS, từ đó xác định thống kê F có phân phối Fisher rồi tiến [r]
(1)Bài 3: Mô hình hồi quy tuyến tính đơn BÀI MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN Mục tiêu Sau kết thúc bài, học viên hiểu vấn đề sau đây: Ý tưởng phương pháp bình phương tối thiểu (OLS) và cách sử dụng OLS để ước lượng các hệ số hồi quy Ý nghĩa các hệ số hồi quy ước lượng Các giả thiết phương pháp OLS Hệ số xác định r2 đo độ phù hợp hàm hồi quy Khoảng tin cậy và kiểm định giả thuyết cho các hệ số hồi quy Phân tích phương sai – kiểm định phù hợp mô hình Dự báo Nội dung Hướng dẫn học • Phương pháp OLS Đề nghị học viên ôn lại phần ước lượng • Các giả thiết phương pháp bình phương tối thiểu và kiểm định giả thiết môn lý thiết xác suất và thống kê toán Theo dõi kỹ bài giảng Xem các ví dụ cho phần bài giảng Làm các ví dụ và trả lời câu hỏi trắc nghiệm • Hệ số xác định r2 đo độ phù hợp hàm hồi quy mẫu • Ước lượng khoảng cho hệ số hồi quy • Kiểm định giả thuyết các hệ số hồi quy • Phân tích phương sai mô hình hồi quy • Dự báo STA301_Bài 3_v1.0013101214 23 (2) Bài 3: Mô hình hồi quy tuyến tính đơn TÌNH HUỐNG DẪN NHẬP Tình Công ty dầu ăn Tường An xem xét việc giảm giá bán sản phẩm (loại bình lít) để tăng lượng hàng bán ra, đồng thời quảng bá sản phẩm mình đến khách hàng Người quản lí công ty muốn tính toán xem sản phẩm này giảm giá 1000 đồng/lít thì lượng hàng trung bình bán thay đổi nào Đồng thời, giảm giá 1000 đồng cho lít mà lượng hàng bán thêm là nhiều 50000 sản phẩm thì công ty tiến hành chiến dịch khuyến mại tháng với giá giảm là 10000/lít Để tiến hành nghiên cứu này, phòng marketing công ty đã dựa vào các số liệu bán hàng công ty vòng 15 tháng qua (n =15 quan sát) để thu thập số liệu giá bán (P) và lượng bán (Q) cho loại dầu ăn này Nghiên cứu viên sau tiến hành các thống kê mô tả đã định dùng hàm cầu dạng tuyến tính để xem xét ảnh hưởng giá đến lượng bán: Qi 1 2 Pi u i Dùng số liệu mẫu, ước lượng hàm hồi quy mẫu có dạng Q̂i 6227 30.43Pi Câu hỏi Theo kết mô hình, giá giảm đơn vị, lượng hàng bán thay đổi nào? Liệu giá giảm 1000 đồng lít thì lượng hàng bán thêm lớn 50000 sản phẩm các nhà nghiên cứu muốn kiểm tra không? Giá bán định bao nhiêu % thay đổi lượng bán? Nếu giá bán là 150000 đồng bình thì lượng bán dự báo là bao nhiêu? 24 STA301_Bài 3_v1.0013101214 (3) Bài 3: Mô hình hồi quy tuyến tính đơn Nội dung bài này giới thiệu mô hình hồi quy đơn giản và đưa các phương pháp ước lượng, kiểm định giả thiết và dự báo Đó là mô hình hồi quy tuyến tính đơn hay còn gọi là mô hình hồi quy biến, mô hình đề cập đến biến độc lập X và biến phụ thuộc Y Trong bài này chúng ta ước lượng hàm hồi quy tổng thể PRF dựa trên thông tin mẫu Mặc dù có nhiều phương pháp ước lượng hàm hồi quy tổng thể chúng ta sử dụng phương pháp thường dùng là phương pháp bình phương tối thiểu (OLS) (Ordinary Least Square) 3.1 Ước lượng tham số hồi quy phương pháp bình phương tối thiểu BÀI TOÁN Cho biến độc lập X và biến phụ thuộc Y, giả sử ta có hàm hồi quy tổng thể (PRF) có dạng tuyến tính: Yi E(Y | X i ) u i 1 2 X i u i (3.1) Với mẫu quan sát (X1 , Y1 ),(X , Y2 ), ,(X n , Yn ) Ta có: hàm hồi quy mẫu (SRF) Ŷi ˆ ˆ X i (3.2) ˆ uˆ và: Yi ˆ ˆ X i uˆ i Y i i (3.3) x Xi x , û i là ước lượng ˆ , ˆ là các ước lượng i yi Yi y u i , û i coi là phần dư ˆ Từ (3.3) ta có: û i Yi Y i Vấn đề đặt là sử dụng các liệu X và Y để tìm ước lượng tốt cho 1 , 2 thỏa mãn tổng bình phương các phần dư đạt giá trị nhỏ Tức là ta cần phải xác định ˆ , ˆ cho: n n i 1 i 1 f (ˆ , ˆ ) uˆ i (Yi ˆ ˆ X i ) đạt Trong các bài giảng giải tích nhiều biến ta đã trang bị phương pháp tìm giá trị cực tiểu, cực đại hàm f (X, Y) Vậy để hàm f (ˆ , ˆ ) đạt giá trị nhỏ thì ˆ , ˆ phải là nghiệm hệ phương trình Suy ra: f (ˆ , ˆ ) n 2(Yi ˆ ˆ X i ) i 1 ˆ n f (ˆ , ˆ ) 2X (Y ˆ ˆ X ) i i i ˆ i 1 (3.4) n ˆ ˆ n n X i Yi i 1 i 1 n n n ˆ ˆ X X X i Yi i i 1 i i 1 i 1 (3.5) 25 (4) Bài 3: Mô hình hồi quy tuyến tính đơn Ta có: n n n X ; Y Y ; XY i i Xi Yi n i 1 n i 1 n i 1 n n X X i2 ; Y Yi2 n i 1 n i 1 X Phương trình (3.5) dẫn đến: ˆ ˆ X Y ˆ 1X ˆ X XY (3.6) Giải hệ phương trình (3.6) ta thu nghiệm ˆ XY (X)(Y) 2 X (X) ˆ ˆ 1 Y 2 X Ta đặt (3.7) n n i 1 i 1 n n i 1 i 1 SYY (Yi Y) Yi2 n(Y) nY n(Y) SXX (X i X) X i2 n(X) nX n(X) n n i 1 i 1 SXY (X i X)(Yi Y) X i Yi n(X)(Y) nXY n(X)(Y) Khi đó (3.7) có thể viết lại là SXY ˆ 2 S XX ˆ Y ˆ X Phương pháp tìm các ước lượng ˆ , ˆ trên gọi là phương pháp bình phương tối thiểu 3.1.1 Tính chất tham số hồi quy mẫu ước lượng phương pháp bình phương tối thiểu Phương pháp bình phương tối thiểu đem lại các ước lượng với các tính chất sau: Ứng với mẫu ((X , Y ), (X , Y ), (X , Y )) cho trước, hệ số ˆ , ˆ xác 1 2 n n định Đường thẳng phương trình hồi quy mẫu (SRF) Ŷi ˆ ˆ X i qua điểm có toạ độ giá trị trung bình (X, Y) Giá trị trung bình các ước lượng Ŷi giá trị trung bình các quan sát Yi tức là: Ŷi Y hay n n Ŷ Yi i n n i 1 i 1 26 STA301_Bài 3_v1.0013101214 (5) Bài 3: Mô hình hồi quy tuyến tính đơn Giá trị trung bình các phần dư û i n û i 1 i Các phần dư û i và Ŷi không tương quan, tức là: n û Yˆ i i 1 i Các phần dư û i và X i không tương quan, tức là: n û X i i 1 i Bây ta chứng minh số tính chất trên: o Hiển nhiên vì hệ phương trình (3.6) có nghiệm Hiển nhiên vì giá trị ˆ , ˆ là hàm mẫu o Thay điểm (X, Y) vào phương trình hồi quy mẫu, ta có: o Y ˆ ˆ X ˆ Y ˆ X o n n ˆ Y ˆ ˆ ˆ X Ta có: Y i i n i 1 n i 1 ˆ ˆ X Y o ˆ Suy Ta có: û i Yi Y i n n n n i 1 i 1 i 1 i 1 û i (Yi Yˆ i ) Yi Yˆ i nY nYˆ o Rõ ràng từ: n n n n i 1 i 1 i 1 i 1 û i Yˆ i (Yi Yˆ i )Yˆ i Yi Yˆ i Yˆ i2 n n i 1 i 1 Yi (ˆ ˆ X i ) (ˆ ˆ X i ) nˆ 1Y nˆ XY n(ˆ 12 2ˆ 1ˆ X ˆ 22 X ) Vậy n ˆ ˆ (ˆ ˆ X) ˆ (ˆ X ˆ X ) (ˆ 2ˆ ˆ X ˆ X ) û i Y i 1 2 1 2 n i 1 n û Yˆ i 1 i i (3.8) 27 (6) Bài 3: Mô hình hồi quy tuyến tính đơn o Dễ dàng thấy n n i 1 i 1 uˆ i Yˆ i uˆ i (ˆ ˆ Xi ) n n i 1 i 1 ˆ uˆ i ˆ uˆ i X i Từ tính chất và ta có n n uˆ uˆ Yˆ i 1 i i i 1 n û X Vậy ta có: i 1 i i i VÍ DỤ 3.1 Thu thập số liệu điểm học tập học sinh và mức thu nhập hàng năm bố mẹ ta có bảng số liệu sau: Thu nhập (x) (triệu/năm) 45 60 30 90 75 45 105 60 Điểm trung bình (y) 8.75 7.5 6.25 8.75 7.5 5.0 9.5 6.5 Hãy tìm hàm hồi quy mẫu và tính các đặc trưng nó 3.1.2 Các giả thiết phương pháp bình phương tối thiểu Khi phân tích hồi quy, mục đích chúng ta là tìm phương trình hồi quy mẫu thông qua việc ước lượng các hệ số 1 , 2 Dựa vào liệu mẫu ta thu các ước lượng tương ứng là ˆ , ˆ Nhưng ˆ , ˆ là các ước lượng điểm 1 , 2 Vì ta chưa biết chất lượng các ước lượng này nào Ta cần đưa số các giả thiết phương trình bình phương tối thiểu để thu các ước lượng tốt cho 1 , 2 Từ đó ta thu giá trị Ŷi là ước lượng tốt cho E(Y | X i ) Chất lượng các ước lượng phụ thuộc vào các yếu tố sau: Dạng hàm mô hình chọn Phụ thuộc vào các X i và u i Phụ thuộc vào cỡ mẫu Vấn đề dạng hàm mô hình lựa chọn chúng ta xem xét bài Ta đưa các giả thiết cho X i và u i để các ước lượng thu không chệch và có phương sai nhỏ Giả thiết 1: Biến giải thích X có giá trị quan sát Xi khác với ít giá trị còn lại, tức là phương sai mẫu hiệu chỉnh không suy biến: S'2X 28 n (Xi X)2 n i 1 STA301_Bài 3_v1.0013101214 (7) Bài 3: Mô hình hồi quy tuyến tính đơn Giả thiết 2: Giá trị trung bình sai số có thể mang dấu âm dương giá trị quan sát mặt trung bình thì Giả thiết 3: Các giá trị X cho trước và không ngẫu nhiên, tức là X i cho trước và không phải là biến ngẫu nhiên Điều đó có nghĩa là X i và u i là không tương quan với CoV(Xi , u i ) E(X i u i ) E(X i ) E(u i ) X i E(u i ) X i E(u i ) Giả thiết này có ý nghĩa quan trọng là X và u có tương quan thì X thay đổi, u thay đổi Vì giá trị kỳ vọng Y khác 1 2 X Giả thiết 4: Phương sai sai số (không đổi) Var(u i ) Var(u j ) 2 i j Giả thiết 5: Không có tương quan các u i , tức là: CoV(u i , u j ) i j Với các giả thiết đã nêu, đó ta có tính chất các ước lượng theo phương pháp bình phương tối thiểu sau: Định lý Gauss-Markov Giả sử ta có mô hình hồi quy tuyến tính, đó với các giả thiết 1-5 ta có ước lượng bình phương tối thiểu là các ước lượng tuyến tính không chệch và có phương sai nhỏ lớp các ước lượng tuyến tính không chệch Định lý Gauss-Markov cho khẳng định là các ước lượng ˆ , ˆ 1 , 2 có phương pháp bình phương tối thiểu là các ước lượng không chệch và có phương sai tối thiểu các ước lượng không chệch 1 , 2 3.1.3 Sai số phương pháp bình phương tối thiểu Trong phần 3.1 ta có các ước lượng ˆ , ˆ 1 , 2 theo phương pháp bình phương tối thiểu là XY (X)(Y) ˆ X (X) ˆ Y ˆ X Đặt: x i X i X yi Yi Y 29 (8) Bài 3: Mô hình hồi quy tuyến tính đơn Khi đó ta có: ˆ Y ˆ X n n ˆ x i yi x i 1 i 1 i Với các giả thiết 1-5 phương pháp bình phương nhỏ nhất, ta có phương sai và độ lệch chuẩn các ước lượng là 2 ; Var(ˆ ) n xi se(ˆ ) i 1 n x i 1 x n Xi2 i 1 n n i 1 n Var(ˆ ) i ; se(ˆ ) ; i X i 1 n i n x i 1 , i với Var(u i ) , se: sai số tiêu chuẩn (standard error) Do 2 chưa biết nên dựa vào liệu mẫu đã cho ta thu ước lượng 2 là ̂2 xác định công thức sau: n ˆ uˆ i 1 n i uˆ ˆ n2 i 1 i n2 ̂ là sai số tiêu chuẩn ước lượng (standard error of the estimate) 3.2 Hệ số xác định r đo độ phù hợp hàm hồi quy mẫu: Cho hai biến X và Y, để xác định mối quan hệ X và Y có dạng tuyến tính hay không ta đưa đại lượng để đo mức độ phụ thuộc tuyến tính X và Y ˆ uˆ Ta có: Y Y i i i ˆ Y uˆ Y ˆ Y ˆ uˆ Yi Y Y i i i i yi yˆ i uˆ i (3.9) Bình phương hai vế (3.9) ta có: n n n n i 1 i 1 i 1 i 1 n n i 1 i 1 yi2 yˆ i2 uˆ i2 2 yˆ i uˆ i yˆ i2 uˆ i2 n n i 1 i 1 ˆ 22 x i2 uˆ i2 30 (3.10) STA301_Bài 3_v1.0013101214 (9) Bài 3: Mô hình hồi quy tuyến tính đơn Đặt: n n i 1 i 1 TSS yi2 (Yi Y) (3.11) TSS (Total sum of squares) gọi là tổng bình phương các sai lệch Yi với giá trị trung bình Y n n n i 1 i 1 i 1 ˆ Y ˆ ) yˆ ˆ x ESS (Y i i i i (3.12) ESS (Explained sum of squares) là tổng bình phương các sai lệch giá trị Ŷi và trung bình nó n RSS uˆ i2 (3.13) (3.12) i 1 RSS (Residual sum of squares) là tổng tất các bình phương sai lệch giá trị quan sát Yi và giá trị Ŷi nhận từ hàm hồi quy hay gọi là tổng các phần dư Từ (3.10), (3.11), ( 3.12), (3.13) ta có: TSS ESS RSS (3.14) Chia hai vế cho TSS ta có: 1 ESS RSS TSS TSS n (Yˆ i Y)2 i 1 n n uˆ i 1 n (Y Y) (Y Y) i i 1 n ESS Đặt: r i 1 TSS n ˆ Y) (Y i i 1 i Từ (3.14) và (3.15) ta có: r n Ta có: r ŷ i 1 n i S2X i RSS TSS n y i 1 đó: (3.15) i i 1 (Y Y) 2 i ˆ 22 x i2 i 1 n y i 1 i (3.16) n ˆ 22 (X i X) i 1 n (Y Y) i 1 i ˆ S2X S2Y (3.17) n n (X i X) ; S2Y (Yi Y) n i 1 n i 1 31 (10) Bài 3: Mô hình hồi quy tuyến tính đơn n là phương sai mẫu X và Y Ngoài vì ˆ x y i 1 n i x i 1 i nên (3.17) có thể viết i lại sau: n x i yi r n i 1 n x i2 yi2 i 1 (3.18) i 1 Từ (3.18) ta có: n r n x i yi i 1 n x i 1 i n y i 1 n n X Y ( X )( Yi ) i i i n i 1 i 1 i 1 n n i 1 i 1 (Xi X)2 (Yi Y)2 i n n n n X i Yi ( X i )( Yi ) i 1 i 1 i 1 n 2 n X ( X ) n Y ( Yi ) i i i i 1 i 1 i 1 i 1 n n n Ta thấy r chính là hệ số tương quan mẫu X và Y Các tính chất hệ số tương quan: r có thể âm dương 1 r r có tính chất đối xứng r(X, Y) r(Y, X) Nếu X aX c và Y bY d, a, b > 0, c, d là số ta có r(X, Y) r(Y, X) Nếu X,Y độc lập thì r = r đo độ phụ thuộc tuyến tính X và Y 3.3 Phân bố xác suất các tham số hồi quy mẫu Trong phần trước ta đã thu các ước lượng điểm 1 và 2 theo phương pháp bình phương nhỏ (OLS) dựa trên các giả thiết sai số ngẫu nhiên u i là: 32 E(u i ) Var(u i ) 2 Cov(u i , u j ) , i j STA301_Bài 3_v1.0013101214 (11) Bài 3: Mô hình hồi quy tuyến tính đơn Khi đó các ước lượng điểm thu tương ứng là ˆ , ˆ có tính chất không chệch và có phương sai nhỏ Tuy nhiên, các ước lượng điểm không cho ta biết độ sai lệch chúng so với giá trị thực, vì ước lượng khoảng cho ta nhiều thông tin so với ước lượng điểm Để có thể tìm ước lượng khoảng cho các tham số 1 , 2 chúng ta cần xác định phân phối xác suất ̂1 và ̂2 Các phân phối xác suất này phụ thuộc vào phân phối xác suất u i Vậy ta đưa thêm giả thiết phân phối xác suất u i sau: Giả thiết: u i có phân phối chuẩn N(0; 2 ) , Với giả thiết thêm vào đó, ˆ , ˆ còn có các tính chất sau: ˆ , ˆ là các ước lượng vững, tức là cỡ mẫu đủ lớn thì chúng hội tụ đến giá trị 1 , 2 ̂1 có phân phối chuẩn với n E(ˆ ) 1 , Var(ˆ ) 12 X i 1 n i n x i 1 2 (3.19) i tức là ˆ N(1 ; 12 ) Từ đó biến ngẫu nhiên Z ˆ 1 1 có phân phối chuẩn tắc N(0;1) 2 có phân phối chuẩn với: E(ˆ ) 2 , Var(ˆ ) 22 2 n x i 1 (3.20) i ˆ 2 tức là ˆ N(2 ; 22 ) Do đó biến ngẫu nhiên Z có phân phối chuẩn tắc 2 N(0;1) (n 2)ˆ có phân phối khi-bình phương với n bậc tự 2 Các ước lượng ˆ , ˆ có phương sai nhỏ số các ước lượng không chệch Thống kê 1 , 2 Ta có Yi 1 2 X i u i Từ giả thiết u i ta thu các thống kê Z và có quy luật phân phối chuẩn tắc và bình phương với (n 2) bậc tự Vậy ta có thể tìm khoảng ước lượng cho các tham số 1 , 2 và 33 (12) Bài 3: Mô hình hồi quy tuyến tính đơn 3.4 Ước lượng khoảng cho hệ số hồi quy Trong mục 3.3 với giả thiết phân phối chuẩn N(0; ) u i ta có: ˆ N(1 ; 12 ) ˆ N(2 ; 22 ) với các phương sai 12 , 22 xác định (3.19) và (3.20) Tuy nhiên vì phương sai chưa biết, nên các phương sai 12 , 22 chưa biết, vì ta dùng ước lượng không chệch là: n ˆ û i 1 i n2 RSS n2 Khi đó các thống kê: T1 ˆ 1 ˆ 2 và T2 Se(ˆ ) Se(ˆ ) với: Se(ˆ ) Var(ˆ ) ; se(ˆ ) Var(ˆ ) Các thống kê này có phân phối student với (n – 2) bậc tự Đồng thời, thống kê ˆ (n 2) có phân phối bình phương với (n – 2) bậc tự 3.4.1 Khoảng ước lượng cho β1 Với độ tin cậy 1 cho trước, ta có: 2) P t (n 2) T1 t (n 1 , 2 2) với t (n là phân vị mức phân phối Student T1 , tức là: 2) P{ t (n ˆ 1 (n 2) t2 } 1 se(ˆ ) Từ đó dẫn đến 2) 2) P{ˆ t (n se(ˆ ) 1 ˆ t (n se(ˆ )} 2 Vậy với mẫu cụ thể ta có khoảng ước lượng cho 1 là: 2) 2) se(ˆ ); ˆ t (n se(ˆ )) 1 (ˆ t (n 2 34 STA301_Bài 3_v1.0013101214 (13) Bài 3: Mô hình hồi quy tuyến tính đơn 3.4.2 Khoảng ước lượng cho β Tương tự trên ta có, với độ tin cậy 1 cho trước thì: ˆ 2 2) t (n 1 P t (n 2) T2 Se(ˆ ) Từ đó, 2) P ˆ t (n 2)Se(ˆ ) 2 ˆ t (n Se(ˆ ) 2 Vậy với mẫu cụ thể ta có khoảng ước lượng cho 2 là: 2) Se(ˆ ) 2 ˆ t (n 2)Se(ˆ ); ˆ t (n 3.4.3 2 Khoảng ước lượng cho σ Ta thấy thống kê (n 2)ˆ 2 có phân phối khi-bình phương với (n-2) bậc tự Do đó: P{ 1 / 2;n (n 2)ˆ 2 / 2;n } với 12 / 2;n và 2 / 2;n là các giá trị phân vị mức / và / phân phối (n 2) Từ đó ta có: (n 2)ˆ (n 2)ˆ P 2 1 1 / 2;n / 2;n Vậy với mẫu cụ thể và độ tin cậy 1 , ta có khoảng ước lượng cho là: 2 ( 3.5 (n 2)ˆ (n 2)ˆ ; ) 2 / 2;n 12 / 2;n Kiểm định giả thuyết các hệ số hồi quy Kiểm định giả thuyết thống kê là nhiệm vụ quan trọng nhà kinh tế lượng Chẳng hạn, mô hình hồi quy (3.1) ta thấy 2 thì Y độc lập với X, tức là X không ảnh hưởng tới thay đổi Y Tuy nhiên, ta lại chưa biết 2 có hay không vì ta cần kiểm định giả thuyết này Trong các mục trước, chúng ta đã đưa các ước lượng điểm và ước lượng khoảng cho hệ số hồi quy 1 , 2 Các ước lượng khoảng này giúp ta giải bài toán kiểm định giả thuyết 1 , 2 35 (14) Bài 3: Mô hình hồi quy tuyến tính đơn Ta đã biết bài toán kiểm định giả thuyết gồm các bước sau: Bước 1: Thiết lập giả thuyết H và đối thuyết H1 Bước 2: Xây dựng tiêu chuẩn thống kê để kiểm định, xác định quy luật phân phối xác suất tiêu chuẩn thống kê giả thuyết H cho là đúng Bước 3: Xây dựng miền bác bỏ giả thiết W ứng với mức ý nghĩa cho trước Bước 4: So sánh giá trị mẫu (quan sát được) tiêu chuẩn thống kê bước thứ với miền bác bỏ giả thuyết W bước để đưa kết luận bác bỏ hay chấp nhận giả thuyết H 3.5.1 Kiểm định giả thuyết cho β1 Ta đưa giả thuyết H : 1 1* và đối thuyết H1 : 1 1* H1 : 1 1* H1 : 1 1* Chú ý giả thiết H0 là đúng thì: thống kê ˆ T1 1 có phân phối Student với n – bậc Se(ˆ ) tự Ta dựa vào thống kê này để tiến hành kiểm định giả thuyết cho 1 Ta có các bài toán kiểm định giả thuyết sau: Bài toán 1: Kiểm định hai phía * H : 1 1 * H1 : 1 1 (n-2) (n-2) là phân vị mức p (p = /2) Miền bác bỏ: W (; t (n-2) / ) (t / ; ) với t p phân phối Student T1 Bài toán 2: Kiểm định phía (phải) H : 1 1* * H1 : 1 1 (n-2) Miền bác bỏ: W= t (n-2) là phân vị ; , với t mức phân phối Student T1 Bài toán 3: Kiểm định phía (trái) H : 1 1* * H1 : 1 1 ) Miền bác bỏ: W (; t (n-2) 3.5.2 Kiểm định giả thuyết cho β Ta có giả thuyết H : 2 *2 với đối thuyết H1 : 2 *2 H1 : 2 *2 H1 : 2 *2 36 STA301_Bài 3_v1.0013101214 (15) Bài 3: Mô hình hồi quy tuyến tính đơn Trong mục 3.4 ta thấy giả thuyết H đúng thì thống kê T2 ˆ 2 Se(ˆ ) có phân phối Student với n – bậc tự Do đó, ta có thể tiến hành các bài toán kiểm định giả thuyết sau cho 2 : Bài toán 1: Kiểm định hai phía H : 2 *2 * H1 : 2 2 (n-2) Miền bác bỏ: W (; t (n-2) / ) (t / ; ) là phân vị mức p phân phối Student T2 t (n-2) p Bài toán 2: Kiểm định phía (phải) H : 2 *2 * H1 : 2 2 Miền bác bỏ: W (t (n-2) ; ) , với t (n-2) là phân vị mức phân phối Student T2 Bài toán 3: Kiểm định phía (trái) H : 2 *2 * H1 : 2 2 Miền bác bỏ: W (; t (n-2) ) 3.5.3 Kiểm định giả thuyết cho phương sai σ Giả thuyết H : 02 , với các đối thuyết H1 : 02 , H1 : 2 02 , H1 : 02 Ta có H đúng thì thống kê 2 (n 2)ˆ 2 có phân phối bình phương với n – bậc tự Áp dụng kết đó, ta có thể giải các bài toán kiểm định sau: Bài toán 1: Kiểm định hai phía H : 02 2 H1 : 0 37 (16) Bài 3: Mô hình hồi quy tuyến tính đơn Miền bác bỏ: W (0; 1-2 / 2;n ) ( 2 / 2;n ; ) đó 2p;n là phân vị mức p phân phối Bài toán 2: Kiểm định phía (phải) 2 H : 0 2 H1 : 0 Miền bác bỏ W= 2 ;n ;+ Bài toán 3: Kiểm định phía (trái) H : 02 2 H1 : 0 Miền bác bỏ: W= 0; 1-2 ;n CHÚ Ý Phương pháp kiểm định trên gọi là phương pháp kiểm định theo miền tiêu chuẩn mà ta đã biết giáo trình xác suất thống kê Ngoài phương pháp trên ta còn có phương pháp kiểm định giả thuyết theo p-value xác suất ý nghĩa, phương pháp này đã giới thiệu giáo trình xác suất-thống kê 3.5.4 Phương pháp xác suất ý nghĩa (p-value) Với mẫu cụ thể ta có giá trị quan sát thống kê Ti (i 1, 2) là: t iqs Ta có: p-value P Ti t iqs ˆ i *i Se(ˆ i ) i 1, Xác suất này gọi là xác suất ý nghĩa, đây chính là xác suất mắc sai lầm loại (tức là xác suất để bác bỏ H H đúng) Ta thấy xác suất ý nghĩa càng cao thì hậu việc bác bỏ H H đúng càng nghiêm trọng, xác suất ý nghĩa càng nhỏ thì hậu việc bác bỏ sai H càng ít nghiêm trọng Vậy đã cho trước mức ý nghĩa (đây là xác suất giới hạn để bác bỏ H ), xác suất ý nghĩa không vượt quá thì ta có thể bác bỏ H mà không sợ phạm sai lầm nghiêm trọng, còn xác suất ý nghĩa lớn thì chưa có sở để bác bỏ H Bây ta có thể sử dụng xác suất ý nghĩa để tiến hành các bài toán kiểm định các tham số 1 , 2 Kiểm định hai phía H : i *i * H1 : i i 38 i = 1, STA301_Bài 3_v1.0013101214 (17) Bài 3: Mô hình hồi quy tuyến tính đơn Bước 1: Tính t iqs ˆ i *i ; Se(ˆ ) i Bước 2: Tính p-value p-value = P Ti t iqs Ti t iqs 2P Ti t iqs Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa đã xác định từ trước, p-value thì bác bỏ H , còn p-value thì chấp nhận giả thuyết H Kiểm định phía (phải) H : i *i * H1 : i i i =1, Bước 1: Từ mẫu số liệu có được, thành lập thống kê t iqs ˆ i *i ; Se(ˆ i ) Bước 2: Từ thống kê đó, tính xác suất ý nghĩa p-value = P Ti t iqs Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa đã xác định từ trước, p-value thì bác bỏ giả thuyết H , còn p-value thì chấp nhận giả thuyết H Kiểm định phía (trái) * H : i i * H1 : i i Bước 1: Tính t iqs i = 1, ˆ i *i ; Se(*i ) Bước 2: Tính p-value = P T t iqs Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa đã xác định từ trước, p-value thì bác bỏ giả thuyết H , còn p-value thì chấp nhận giả thuyết H VÍ DỤ 3.2 Từ ví dụ 3.1 hãy: a) Tìm khoảng ước lượng cho các hệ số hồi quy với độ tin cậy 95% b) Với mức ý nghĩa 5% có thể kết luận thu nhập bố, mẹ có ảnh hưởng tới kết học tập cái hay không? c) Tính ESS, TSS 39 (18) Bài 3: Mô hình hồi quy tuyến tính đơn Giải: Theo báo cáo Eviews cho ví dụ 3.1 ta có: a) Ta có các giá trị ước lượng 1 , 2 là ˆ 4.785256, ˆ 0.042094 và sai số chuẩn là: Se(ˆ ) 1.195385, Se(ˆ ) 0.017601 Vì cỡ mẫu n = 8, với mức tin cậy 0.05 , tra bảng phân phối student ta có: t (7) 0.025 2.364624 Vậy ta có các khoảng ước lượng cho 1 , 2 là: 1 4.785265 2.364624x1.195385; 4.786265 2.36462x1.195385 1 1.958629; 7.611901 Tương tự ta có: 2 2.78634; 2.86693 b) Ta cần kiểm định bài toán sau: H : 2 H1 : 2 Cách 1: Ta có giá trị tiêu chuẩn thống kê bài toán trên là: t2 ˆ 0.042094 0.0539 Se(ˆ ) 0.017601 Với mức ý nghĩa 5%, tra bảng phân phối student ta có: t (7) 0.025 2.364624 Vậy miền bác bỏ bài toán là: W = ; 2.364624 2.364624; Ta thấy giá trị tiêu chuẩn thống kê t W , đó chưa bác bỏ H0 Như có thể kết luận thu nhập bố mẹ không ảnh hưởng đến kết học tập cái cách có ý nghĩa Cách 2: Ta thấy giá trị p- value = 0.0539 > 0.05 vì chưa thể bác bỏ H0 40 STA301_Bài 3_v1.0013101214 (19) Bài 3: Mô hình hồi quy tuyến tính đơn c) Từ kết bảng ta có r2 = 0.488035, RSS = 8.155499, đó theo công thức r2 1 RSS TSS ta có : TSS = RSS/(1– r2) = 8.155499/ (1– 0.488035) = 15.9288 Đồng thời ta lại có công thức: TSS = ESS + RSS, đó ta có: ESS = TSS – RSS = 15.9288 – 8.155499 = 7.774301 3.6 Phân tích phương sai phương trình hồi quy Trong phần này chúng ta xét bài toán kiểm định giả thuyết hệ số hồi quy 2 theo phương pháp khác, đó là phương pháp phân tích phương sai H : Ta xét bài toán kiểm định H1 : 2 (*) Giả thuyết H nói lên biến X không ảnh hưởng tới Y, đó ta bác bỏ giả thuyết H có nghĩa là ta bác bỏ giả thuyết cho biến X không có ảnh hưởng tới biến Y Trong các phần trước ta thấy giả thuyết H là đúng, tức là: 2 , thì thống kê (n 2)ˆ RSS 2 có phân phối - bình phương với n – bậc tự do, còn thống kê ESS 2 có có phân phối khi-bình phương với bậc tự Mặt khác hai thống kê đó độc lập với nhau, thống kê F ESS TSSr r2 n2 2 RSS 1 r (1 r ) TSS n2 n2 có phân phối Fisher với số bậc tự là: 1; n Từ đó, với mức ý nghĩa cho trước, miền bác bỏ cho bài toán kiểm định xét là W= f 1; n ; Ý nghĩa: Cách tiếp cận theo hướng phân tích phương sai trên cho phép ta đưa các phán đoán độ phù hợp mô hình hồi quy xét Cụ thể, thống kê F có giá trị lớn (ứng với xác suất ý nghĩa nhỏ) thì ta có thể kết luận mô hình lập phù hợp với số liệu quan sát Còn thống kê F có giá trị nhỏ đến mức xác suất ý nghĩa tương ứng nó lớn mức ý nghĩa đã định (bằng 5% chẳng hạn) thì rõ ràng mô hình là không phù hợp với số liệu, lúc đó cần tìm mô hình khác Ta có bảng phân tích phương sai ngắn gọn sau: 41 (20) Bài 3: Mô hình hồi quy tuyến tính đơn Nguồn biến thiên Tổng bình phương X ˆ2 x i2 ESS Bậc tự Phương sai n ESS i 1 RSS Phần dư n i 1 Tổng 3.7 n2 u i TSS RSS n2 n 1 Ứng dụng phân tích hồi quy, bài toán dự báo Một các ứng dụng phân tích hồi quy là dự báo cho biết giá trị X là X , ta cần dự báo giá trị Y là Y0 , đó thay giá trị X vào phương trình hồi quy mẫu ta nhận giá trị ước lượng Y là Ŷ0 thỏa mãn phương trình: Ŷ0 ˆ ˆ X Giá trị thực Y0 thỏa mãn phương trình Y0 1 2 X u , với u là sai số Ta có : Ŷ0 Y0 (ˆ 1 ) (ˆ 2 )X u Đồng thời E(ˆ ) 1 ; E(ˆ ) 2 và E(u ) ˆ Y ) E(Y ˆ )Y Do đó: E(Y 0 0 Vậy ước lượng Ŷ0 là ước lượng không chệch Y0 Ngoài ra, phương sai Ŷ0 Y0 tính theo ˆ Y ) Var[(ˆ ) (ˆ )X u ] Var(Y 0 1 2 0 Var(ˆ 1 ) (X ) Var(ˆ 2 ) 2X Cov(ˆ 1 ; ˆ 2 ) Var(u ) X2 2 n Sxx X x0 2x 2 Sxx Sxx (X X) 1 X Sxx n n n n i 1 i 1 i 1 đó: Sxx X i2 (X i X) X i2 n(X) Do phương sai 2 chưa biết, ta thay 2 ước lượng không chệch ̂2 Khi đó ta có thống kê t Ŷ0 Y0 có phân phối Student với n – bậc tự ˆ Y ) Se(Y 0 Vậy với mức ý nghĩa cho trước ta có khoảng ước lượng Y0 là: 42 STA301_Bài 3_v1.0013101214 (21) Bài 3: Mô hình hồi quy tuyến tính đơn ỨNG DỤNG ˆ t n 2Se(Y ˆ Y )Y Y ˆ t n 2Se(Y ˆ Y ) Y 0 0 0 (3.21) Công thức (3.21) cho ta khoảng ước lượng giá trị Y0 Y cho biết trước giá trị X X Bài toán trên có thể phát biểu dạng tương đương khác sau (Bài toán dự báo giá trị trung bình): Cho trước giá trị X X, cần ước lượng giá trị trung bình Y X X , tức là ước lượng giá trị E(Y | X X ) Ta có: E(Y | X ) 1 2 X , Ŷ0 ˆ ˆ X Từ đó, kết hợp với (3.19) và (3.20), ta thấy Ŷ0 E(Y | X ) (ˆ 1 ) (ˆ 2 )X (X X) 1 ˆ Var(Y0 E(Y | X )) Sxx n Do chưa biết, ta dùng ước lượng ̂ , dẫn đến: 2 ˆ E(Y | X )) ˆ (X X) Var(Y 0 Sxx n Ký hiệu: ˆ E(Y | X )) , S2Yˆ Var(Y 0 thống kê t Ŷ0 E(Y | X ) SŶ có phân phối Student với n – bậc tự Áp dụng kết trên, ta có thể ước lượng giá trị trung bình có điều kiện E(Y | X ) biểu thức sau: ỨNG DỤNG ˆ t n 2S ˆ E(Y | X ) Y ˆ t n 2S ˆ Y 0 Y Y 2 (3.22) 43 (22) Bài 3: Mô hình hồi quy tuyến tính đơn TÓM LƯỢC CUỐI BÀI Phương pháp OLS Giả sử có mẫu biến X và Y Ta cần ước lượng các tham số mô hình PRF: Yi E Y | X i u i 1 2 X i u i ˆ uˆ tức là tìm các hệ số mô hình: Yi ˆ i ˆ i X i uˆ i Y i i Ý tưởng phương pháp OLS là tìm đường SRF cho các giá trị ước lượng Ŷi càng gần với các giá trị quan sát Yi càng tốt Vì vậy, ta tìm cho hàm sau: n n i 1 i 1 f ˆ , ˆ u i2 (Yi ˆ ˆ X i ) Như phương pháp OLS tối thiểu hóa tổng bình phương các phần dư: n RSS uˆ i2 i 1 n Ta có công thức cho các hệ số ước lượng là: ˆ Y ˆ X ; ˆ x y i 1 n i x i 1 i i với x i X i X, yi Yi Y Các hệ số ước lượng mô hình Hệ số ˆ , ˆ xác định ứng với mẫu Xi , Yi ˆ , ˆ là các ước lượng điểm 1 , 2 Các giả thiết phương pháp OLS và các khuyết tật tương ứng mô hình Dưới đây là các giả thiết cần lưu ý: Giả thiết 1: Mô hình hồi quy phải có dạng tuyến tính Giả thiết 2: Các giá trị X giả thiết là phi ngẫu nhiên và không tương quan với các sai số ngẫu nhiên, tức là : CoV X i , u i E X i u i E X i E u i X i E u i X i E u i Giả thiết 3: Trung bình các nhiễu ngẫu nhiên 0: E( u i /Xi) = Giả thiết 4: Phương sai các nhiễu ngẫu nhiên là không đổi: Var u i Var u j Chú ý: Giả thiết không thoả mãn, ta nói có tương phương sai sai số thay đổi Giả thiết 5: Không có tương quan các nhiễu ngẫu nhiên: CoV u i , u j Chú ý: Giả thiết không thoả mãn, ta nói có tương tự tương quan Giả thiết 6: Số quan sát n phải lớn tổng số tham số mô hình 44 STA301_Bài 3_v1.0013101214 (23) Bài 3: Mô hình hồi quy tuyến tính đơn Định lí Gaus-Markov: Với các giả thiết đã cho phương pháp bình phương tối thiểu thoả mãn, ước lượng bình phương tối thiểu là các ước lượng tuyến tính không chệch và có phương sai nhỏ lớp các ước lượng tuyến tính không chệch r2 đo độ phù hợp hàm hồi quy, giá trị r2 cho nhiêu phần trăm biến thiên biến Y giải thích biến X hàm hồi quy mẫu Ý nghĩa khoảng tin cậy: KTC cho β1: 1 ˆ t na 2Se ˆ ; ˆ t na Se ˆ 2 KTC cho β1 cho biết trung bình Y thay đổi nào X = KTC cho β2: 2 ˆ t na 2 2Se ˆ ; ˆ t na 2 Se ˆ KTC cho β2 cho biết trung bình Y thay đổi nào biến X thay đổi đơn vị Kiểm định giả thiết: Trong mô hình E(Y/Xi) = β1 + β2Xi: Ta muốn kiểm tra H0: βj = βj* (j = 1,2) Kiểm định Gt cho β1 = β1* cho biết trung bình Y có β1* X = hay không Kiểm định Gt cho β2 = β2* cho biết tốc độ thay đổi trung bình Y biến X thay đổi đơn vị có β2* hay không Phân tích phương sai – kiểm định phù hợp mô hình Để kiểm định phù hợp mô hình hồi quy tuyến tính so với số liệu, ta có thể tính các tổng bình phương sai số ESS, RSS và TSS, từ đó xác định thống kê F có phân phối Fisher tiến hành kiểm định giả thuyết thống kê đó Dự báo Từ số liệu mẫu, ta ước lượng mô hình hồi quy thực nghiệm, từ đó có thể dự báo giá trị biến phụ thuộc có giá trị biến độc lập 45 (24) Bài 3: Mô hình hồi quy tuyến tính đơn CÂU HỎI THƯỜNG GẶP Ngoài phương pháp OLS thì có phương pháp nào khác để ước lượng mô hình hồi quy mẫu không? Trong phương pháp OLS, trường hợp, ta phải giải hệ phương trình để tìm các ước lượng đúng không? Nếu mô hình hồi quy bội với nhiều biến thì việc dùng phương pháp OLS có thuận tiện không? Khi ước lượng các hệ số OLS, làm nào để đánh giá chất lượng chúng? Tại phải xem xét các giả thiết phương pháp OLS? Để đánh giá độ phù hợp mô hình hồi quy với các số liệu mẫu, ta dùng tiêu chí nào? Có thiết phải xây dựng mô hình hồi quy mẫu với r2 phải lớn? Trong kiểm định giả thiết, việc dùng phương pháp xác suất ý nghĩa (p-value) có thể thay cho phương pháp kiểm định thông thường hay không? CÂU HỎI TRẮC NGHIỆM Công thức nào sau đây thể phương pháp bình phương tối thiểu (OLS)? û ˆ Yi Y i û ˆ Yi Y i n A i 1 C n i 1 n i i i 1 n i 1 B i 1 û Yˆ Y n D n i i 1 û n i 1 i n i 1 i i ˆ Yi Y i max Cho mô hình hồi quy: Ŷ = 20 + 0.75X Tính giá trị phần dư điểm X = 100, Y = 90 A B–5 C D 15 Bậc tự kiểm định t với mô hình biến và có 20 quan sát là: A 20 B 22 C 18 D R2 cho biết: A Tương quan X và Y B Sự biến thiên Y C Hiệp phương sai X và Y D Phần biến thiên Y giả thích X Cho mô hình với TSS = 0.9243, RSS = 0.2137 Tìm r2 46 A 0.7688 B 0.2312 C 0.3007 D STA301_Bài 3_v1.0013101214 (25)