1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo Đề tài: Mô hình hồi quy tuyến tính

26 661 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 585,94 KB

Nội dung

Báo cáo cuối kì môn Phân tích số liệu đề tài Mô hình hồi quy tuyến tính hay Linear Regression ModelFile báo cáo được soạn thảo bằng LaTex nên khá đẹp, nội dung chi tiết có chứng minh công thức định lý.Tài liệu sử dụng kiến thức chuẩn theo giáo trình nha các bạn yên tâm

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC Báo cáo mơn Phân tích số liệu Đề tài: Mơ hình hồi quy tuyến tính Giảng viên hướng dẫn: TS Lê Xuân Lý Nhóm sinh viên thực hiện: Nhóm Vũ Thị Tâm Phạm Thị Thu Hương Nguyễn Thị Diệu Linh Nguyễn Thị Nga Phạm Huy Hồng Nguyễn Quang Hiếu Nguyễn Bình Ngun Nguyễn Quang Minh Hoàng Thế Văn 20185403 20185367 20180815 20185387 20185361 20185351 20185389 20185385 20185425 Hà Nội, tháng 12/2020 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Bảng phân cơng nhiệm vụ Giới thiệu mơ hình hồi quy tuyến tính Ước lương bình phương cực tiểu - Mệnh đề 2.1 - Tính chất ước lương bình phương cực tiểu - Định lý Gauss - Hệ số xác định R - Khoảng tin cậy hệ số hồi quy(ví dụ) Ví dụ - Bài tập , Excel - Kiểm định hệ số - Ước lương hàm hồi quy Kiểm định giả thiết hệ số hồi quy - Tiêu chuẩn F - Khảo sát phần dư Mơ hình hồi quy tuyến tính với sai số tương quan Các bước tiến hành phân tích hồi quy - Chuẩn bị nội dung, thuyết trình - Chuẩn bị nội dung thuyết trình, làm slide -Chứng minh định lý/ mệnh đề - Chuẩn bị nd, thuyết trình Vũ Thị Tâm Vũ Thị Tâm Nguyễn Thị Diệu Linh Nguyễn Quang Minh - Giải thích, chứng minh Nguyễn Quang Minh - Trình bày ví dụ - Chuẩn bị nd tập - Trình bày VD, Chạy Excel - Chuẩn bị nd slide - Thuyết trình - Giải thích chứng minh Vũ Thị Tâm Nguyễn Quang Hiếu - Nguyễn Bình Nguyên Nguyễn Quang Hiếu Nguyễn Thị Nga Phạm Huy Hồng Chuẩn bị nd, thuyết trình Làm slide Chứng minh giải thích Thuyết trình Phạm Thị Thu Hương Nguyễn Quang Hiếu Phạm Thị Thu Hương Nguyễn Quang Hiếu Chuẩn bị nội dung Nguyễn Thị Nga - Thuyết trình Hồng Thế Văn Tổng hợp slide làm báo cáo Vũ Thị Tâm Trang Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Mục lục Giới thiệu mơ hình hồi quy tuyến tính cổ điển Ước lượng bình phương cực tiểu 2.1 Mệnh đề ước lượng bình phương cực tiểu 2.2 Tính chất ước lượng phương pháp bình phương cực tiểu 2.3 Định lý Gauss ước lượng bình phương cực tiểu 2.4 Hệ số xác định R 2.5 Khoảng tin cậy hệ số hồi quy βj 2.5.1 Ví dụ 2.5.1 2.5.2 Bài tập 2.5.1 2.5.3 Bài tập 2.5.2 2.6 Kiểm định giả thiết hệ số hồi quy 2.7 Ước lượng hàm hồi quy tuyến tính Kiểm tra phù hợp mơ hình 3.1 Tiêu chuẩn F 3.1.1 Ví dụ 3.1(Xét ví dụ 2.1) 3.2 Khảo sát phần dư 3.2.1 Tiêu chuẩn Student 3.2.2 Khảo sát đồ thị phần dư 3.2.3 Kiểm định tính khơng tương quan εj theo thời gian 3.2.4 Khảo sát tính đa cộng tuyến tính X1 , , Xk 9 12 13 14 16 17 18 18 19 20 20 21 21 23 Mơ hình hồi quy tuyến tính với sai số có tương quan 24 Các bước tiến hành phân tích hồi quy 25 Trang Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Giới thiệu mơ hình hồi quy tuyến tính cổ điển Giả sử X1 , X2 , , Xk k biến độc lập dùng để dự báo (Predictor variables) Y biến phụ thuộc cần dự báo (Response Variables) Mơ hình hồi quy tuyến tính sau: Y = β0 + β1 X1 + β2 X2 + + βk Xk + với (1.1) sai số ngẫu nhiên, hệ số β1 , β2 , , βk hệ số chưa biết Ta tiến hành n quan sát độc lập k + biến X1 , , Xk , Y y1 = β0 + β1 x11 + · · · + βk x1k + y2 = β0 + β1 x21 + · · · + βk x2k + yn = β0 + β1 xn1 + · · · + βk xnk + (1.2) n Mơ hình (2) viết dạng ma trận sau:        y1 x11 x12 · · · x1k β0  y2  1 x21 x22 · · · x2k   β1             =     +           yn xn1 xn2 · · · xnk βk n đơn giản hơn: Y = n×1 với X β n×(k+1) (k+1)×1 + (1.3) n×1   x11 x12 · · · x1k 1 x21 x22 · · · x2k    X =     xn1 xn2 · · · xnk gọi ma trận thiết kế Y = [y1 , , yn ]T ; β = [β0 , , βk ]T ; [ε1 , , εn ]T E(ε) = cov(ε) = E(εεT ) = σ In Trang Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Ước lượng bình phương cực tiểu Bài toán đặt dựa vào số liệu quan sát X, Y ước lượng tham số β, σ Nếu ta sử dụng giá trị b giá trị thử cho β quan sát yj b0 + b1 xj1 + + bk xjk có độ lệch (sai số): yj − b0 − (b1 xj1 + + bk xjk ) Phương pháp bình phương tối thiểu cách chọn giá trị véctơ b cho: n (yj − b0 − b1 xj1 − · · · − bk xjk )2 S(b) = j=1 = (Y − Xb)T (Y − Xb) → (2.1) Đại lượng βˆ làm cực tiểu hóa phiếm hàm S(b) gọi ước lượng bình phương cực tiểu β, Ta có: ε“j = yj − (β“0 + β“1 xj1 + · · · + β“k xjk ), j = ÷ n (2.2) gọi phần dư phép hồi quy Vì biểu thức theo X1 , , Xk tuyến tính nên phương trình: “ = β“0 + β“1 X1 + · · · + β“k Xk Y (2.3) gọi phương trình hồi quy tuyến tính mẫu Đặt: y“j = β“0 + β“1 xj1 + · · · + β“k xjk Y = (“ y1 , , y“n ) (2.4) T Trang Nhóm 4: Phân tích số liệu 2.1 Mơ hình hồi quy tuyến tính Mệnh đề ước lượng bình phương cực tiểu Mệnh đề 2.1 Nếu ma trận thiết kế X không ngẫu nhiên có hạng k + ≤ n ước lượng bình phương cực tiểu có dạng: β = (XT X)−1 XT Y (2.5) “ = Xβ = X(XT X)−1 Y = HY Y (2.6) Khi đó: H = X(XT X)−1 XT cấp (n × n) “ = (In − H)Y ε=Y−Y (2.7) “T ε = 0, (β T XT ε = 0) XT ε = Y (2.9) (2.8) thỏa mãn: Tổng phần dư: n ε“2j = εT ε = YT Y − YT Xβ (2.10) j=1 Chứng minh mệnh đề n (yj − b0 − b1 xj1 − · · · − bk xjk )2 hàm bậc hai theo b nên dễ thấy β Vì phiếm hàm S(b) = j=1 tìm từ hệ phương trình sau: ∂S = 0, i = ÷ k ∂bi ta có kết quả: n n (b0 + b1 xj1 + · · · + bk xjk ) = j=1 n n b0 xj1 + b1 j=1 n b0 n x2j1 + · · · + bk j=1 n xjk xj1 = j=1 j=1 j=1 yi xj1 j=1 n n x2jk = xj1 xjk + · · · + bk xj1 + b1 yi j=1 n j=1 yi xjk j=1 Nếu đặt xj0 = 1, j = ÷ n ta có phương trình sau:  n x2j0  j=1  n   xj1 xj0 j=1   ···  n  xjk xj0 j=1 n n xj0 xj1 · · · j=1 n x2j1 j=1 ··· n xjk xj1 j=1   n yj xj0  xj0 xjk      j=1   b0 n     y x   ··· xj1 xjk  b1  j=1 j j1   =    j=1        ··· ···    n  n bk    ··· x2jk yj xjk j=1 n j=1 j=1 Trang Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính dạng ma trận: XT Xb = XT Y (2.11) Phương trình (2.11) gọi phương trình chuẩn Do rank(X) = k + nên XT X có nghịch đảo, ta suy nghiệm: b = β = (XT X)−1 XT Y Ta thấy β biểu thức tuyến tính theo Y Để chứng minh β cực tiểu hóa S(b) thỏa mãn (2.9), (2.10) ta ý ma trận H có tính chất sau: (I − H) ma trận đối xứng: (I − H)T = (I − H) (I − H)2 = (I − H) tức I − H ma trận lũy đẳng (2.12) X(I − H) = XT (I − X(XT X)−1 XT ) = XT − XT = (2.13) Dễ dàng thấy rằng: S(b) = (Y − Xb)T (Y − Xb) = (Y − Xβ + Xβ − Xb)T (Y − Xβ + Xβ − Xb) = (Y − Xβ)T (Y − Xβ) + (β − b)T XT X(β − b) +(β − b)T XT (I − H)Y + YT (I − H)T X(β − b) = (Y − Xβ)T (Y − Xβ + (β − b)T XT X(β − b) ≥ (Y − Xβ)T (Y − Xβ) = S(β) Dấu "=" xảy β = b Hơn nữa: n j=1 ε“j = S(β) = (Y − Xβ)T (Y − Xβ) = YT (I − H)(I − H)Y = YT (I − H)Y(tính chất 2) = YT Y − YT HY = YT Y − (YT X)β Đây cơng thức (2.10) n Từ (2.8),(2.9),(2.10) ta nhận được: YT Y = yj2 = YT Y + εT ε j=1 hoặc: n n yj2 j=1 2.2 n yj2 = j=1 ε2j + (2.14) j=1 Tính chất ước lượng phương pháp bình phương cực tiểu ❼ Ước lượng β ước lượng không chệch với: ❼ Phần dư ε có tính chất: E(β) = β; cov(β) = σ (XT X)−1 (2.15) E(ε) = 0; cov(ε) = σ (I − H) (2.16) n ε2j εT ε ❼ σ = = ước lượng không chệch σ , tức E(σ ) = σ n − k − j=1 n − k − ❼ β, ε không tương quan, tức là: cov(β, ε) = 0; cov(β, σ ) = (2.17) Trang Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Chứng minh mệnh đề 1) E β = E(XT X)−1 XT Y = (XT X)−1 XT E(Y) = (XT X)−1 XT Xβ = β cov(β) = (XT X)−1 XT cov(Y)X(XT X)−1 = σ (XT X)−1 XT IX(XT X)−1 = σ (XT X)−1 2) Do ε = (I − H)Y (theo (2.8)) nên: E(ε) = (I − H)E(Y) = (I − H)Xβ = 0, cov(ε) = (I − H)I(I − H)σ = σ (I − H) 3) Từ (2) ta suy ra: n T E ε“2j = tr(cov(ε)) = σ tr(In − H) E(ε ε) = = σ (n − tr(H)) Mặt khác, tr(H) = tr(X(XT X)−1 XT ) = tr((XT X)−1 XT X) = tr(Ik+1 ) = k + ⇒ E(εT ε) = σ (n − k − 1) 4) Ta có: cov(β, ε) = cov((XT X)−1 XT Y(In − H)Y) = (XT X)−1 XT cov(Y)(In − H) = σ (XT X)−1 XT (In − H) = Trang Nhóm 4: Phân tích số liệu 2.3 Mơ hình hồi quy tuyến tính Định lý Gauss ước lượng bình phương cực tiểu Định lý 2.1 (Định lý Gauss) rong mơ hình tuyến tính cổ điển (??),(??) với hạng đầy đủ k + ≤ n ước lượng: cT β = c0 β“0 + c1 β“1 + · · · + ck β“k (2.18) cT β = c0 β0 + c1 β1 + · · · + c0 β0 ước lượng không chệch với phương sai bé so với ước lượng tuyến tính khơng chệch dạng aT Y = a1 y1 + · · · + an yn Nếu thêm giả thiết ε có phân bố chuẩn Nn (0, σ In ) cT β ước lượng không chệch với phương sai cực tiểu cT β so với ước lượng không chệch khác Chứng minh Định lý Gauss 1) Do tính chất tuyến tính kỳ vọng nên rõ ràng cT β ước lương không chệch cT β Hơn giả sử aT Y ước lượng khơng chệch cT β thì: E(aT Y) = aT E(Y) = aT Xβ ≡ cT β ⇔ (aT X − cT )β ≡ với β, đặc biệt β T = aT X − cT ta có: β T β = ⇔ aT X − cT = ⇔ aT X = cT (2.19) cT β = cT (XT X)−1 XT Y = a∗ T Y (2.20) Chú ý với a∗ T = cT (XT X)−1 XT Y ⇔ a∗ = X(XT X)−1 c D(aT Y) = aT cov(Y)a = σ aT a = σ (a − a∗ + a∗ )T (a − a∗ + a∗ ) = σ (a − a∗ )T (a − a∗ ) + σ (a∗ T a∗ ) + 2(a − a∗ )T a∗ σ = σ (a − a∗ )T (a − a∗ ) + σ a∗ T a∗ ≥ D(a∗ Y) (2.21) Vì (a − a∗ )T a∗ = aT a∗ − a∗ T a∗ = aT X(XT X)−1 c − cT (XT X)−1 XT X(XT X)−1 c = cT (XT X)−1 c − cT (XT X)−1 c = cT (XT X)−1 c − cT (XT X)−1 c = Trong (2.21) dấu"=" xảy a = a∗ 2) Xem Thống kê toán - Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như Trang Nhóm 4: Phân tích số liệu 2.4 Mơ hình hồi quy tuyến tính Hệ số xác định R Đại lượng “T Y “ − n(y)2 Σn1 yj2 − n(y)2 Y = n R := T Y Y − n(y)2 Σ1 yj − n(y)2 (2.22) gọi bình phương hệ số xác định, tỷ lệ biến thiên biến yj giải thích biến xj1 , , xjk Từ (2.14) ta có: n n ε2j j=1 yj2 − n(y)2 (1 − R2 ) = ns2y (1 − R2 ) = (2.23) j=1 ta nhận phương trình để tính sai số bình phương trung bình 2.5 Khoảng tin cậy hệ số hồi quy βj Trong phần ta xét mơ hình hồi quy cổ điển (??),(??), với giả thiết thêm rằng: εj có phân phối chuẩn N (0, σ ) độc lập, tức ε = (ε1 , , εn )T có phân bố chuẩn Nn (0, σ In ) Mệnh đề 2.2 β có phân bố chuẩn Nk+1 (β, σ (XT X)−1 ) Σnj=1 ε2j (n − k − 1)σ 2 = có phân bố χ2 với (n-k-1) bậc tự 2 σ σ β, σ độc lập Chứng minh mệnh đề 2.2 Theo (2.7), (2.10) β = (XT X)−1 XT Y; ε = (I − H)Y tổ hợp tuyến tính vecto Y có phân bố chuẩn Nn (Xβ, σ In ) −1 Vì vậy, β có phân bố chuẩn Nk+1 (β, σ (XT X )), ε có phân bố chuẩn N (0, σ (I − H)), cov(β, ε) = (β, ε)T có phân bố chuẩn đồng thời chuẩn Nên theo tính chất phân bố chuẩn, ta có : εT ε = σ2 n j=1 εj σ2 có phân bố χ2 với n − k − bậc tự Thật vậy, Trang Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Hơn khoảng tin cậy đồng thời mức (1 − α) βi , i = ÷ k xác định mút: » “ βi )(k + 1)Fk+1,n−k−1 (α) βi ± D( (2.25) “ βi ) ký hiệu phần tử thứ i đường chéo ma trận D( σ (XT X)−1 ước lượng không chệch D(β) Chứng minh mệnh đề 2.3 Xét ma trận bậc hai đối xứng (X T X)1/2 đặt U = (X T X)1/2 (β − β) Ta có: E(U ) = cov(U ) = (X T X)1/2 cov(β)(X T X)1/2 = σ (X T X)1/2 (X T X)−1 (X T X)1/2 = σ Ik+1 Vậy U có phân bố chuẩn N (0, σ Ik+1 ) Do β) có phân phối χ2 với k + bậc tự T U U = (β − β)T (X T X)(β − 2 σ σ σ2 Hơn nữa, theo mệnh đề 2.1, (n − k − 1) có phân bố χ2 với n − k − 1bậc σ tự độc lập với β, tức độc lập với U T U Vì đại lương (β − β)T XT X(β − β)/(k + 1) U T U/(k + 1)σ F = = σ2 (n − k − 1)σ /(n − k − 1)σ có phân bố F với k + n − k − bậc tự Từ P {F ≤ Fk+1,n−k−1 (α)} = − α P (β − β)T XT X(β − β) ≤ (k + 1)σ Fk+1,n−k−1 (α) = − α Å ã α α Mệnh đề 2.4 Giả sử tn−k−1 phân vị mức 2(k + 1) 2(k + 1) phân bố Student với n − k − bậc tự Khi đồng thời ta có khoảng tin cậy βi , với mức tin cậy (1 − α) cho đầu mút: Å ã» α “i ± tn−k−1 “ βi ) β D( (2.26) 2(k + 1) Trang 11 Nhóm 4: Phân tích số liệu 2.5.1 Mơ hình hồi quy tuyến tính Ví dụ 2.5.1 Để nghiên cứu phụ thuộc doanh thu Y chi phí sản xuất X1 , chi phí tiếp thị X2 người ta điều tra ngẫu nhiên doanh thu 12 công ty 12 thời kỳ, kết ta có bảng sau: STT x0 x1 x2 y STT x0 x1 x2 y 1 18 10 127 25 14 161 25 11 149 16 12 128 19 106 17 12 139 24 16 163 10 23 12 144 15 102 11 22 14 159 26 17 180 12 15 15 138 Giả sử chi phí tn theo mơ hình tuyến tính cổ điển, đó: yj = β0 + β1 xj1 + β2 xj2 + εj , j = ÷ 12 Ta ước lượng hệ số hồi quy phương pháp bình phương cực tiểu     n nx1 nx2 12 245 146 XT X =  nx21 nx1 x2  =  5195 3055 1900 nx22   2, 439963 −0, 883875 −0, 045374 (XT X)−1 =  0, 006765 −0, 004040 0, 010509     ny 1696 T X Y = nx1 y  = 3546 nx y 2140     β“0 32, 2777   β = β“1  = (XT X)−1 XT Y =  2, 5057  4, 7587 β“2 Vậy phương trình hồi quy tuyến tính mẫu là: y = 32, 2777 + 2, 5057x1 + 4, 7587x2 n Tổng bình phương phần dư là: ε“j = n yj2 − YT Xβ = 144, 3734 n 144, 3734 ε“j = = 16, 0415 σ = n−k−1 Ta thấy mơ hình phù hợp sai số bình phương trung bình 144,3734 ≈ 12 nhỏ (so với giá trị y nhận từ 102 đến 180) 12 Sau bảng tính giá trị y“j , ε“j n “j 12 Σi ε = Trang 12 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính STT yj y“j ε“j STT yj y“j ε“j 127 124,9666 2,033 161 161,5420 -0,542 149 147,2659 1,734 128 129,4733 -1,473 106 108,4382 -2,438 139 131,979 7,021 163 168,5537 -5,554 10 144 147,0132 -3,013 102 103,1741 -1,174 11 159 154,0249 4,975 180 178,3238 1,676 12 138 141,2437 -3,244 Tổng phần dư 0,002 12 Từ tính trực tiếp ta ε“j = 144, 2298 Ta có: » “ β“0 ) = 6, 2562 D( » “ “ “ β“1 ) = 0, 3287 D(β1 ) = 16, 0415 × 0, 006765 = 0, 10830 ⇒ D( » “ “ “ β“3 ) = 0, 4106 D(β2 ) = 16, 0415 × 0, 010509 = 0, 16860 ⇒ D( “ β“0 ) = 16, 0415 × 2, 439963 = 39, 1407 ⇒ D( Khoảng tin cậy β0 , β1 , β2 mức 0,95: (theo (2.4)) Å ã» 0, 05 “ β“0 ) = 32, 2777 ± 2, 933 × 6, 2562 = 32, 2777 ± 18, 3494 D( β“0 ± t9 2×3 Å ã» 0, 05 “ β“1 ) = 2, 5057 ± 2, 933 × 0, 3287 = 2, 5057 ± 0, 9641 β“1 ± t9 D( 2×3 ã» Å 0, 05 “ β“2 ) = 4, 7587 ± 2, 933 × 0, 3287 = 4, 7578 ± 1, 2043 β“2 ± t9 D( 2×3 Do ta có kết quả: β0 ∈ (13, 9283; 50, 6271) β1 ∈ (1, 5416; 3, 4698) β2 ∈ (3, 5544; 5, 963) 2.5.2 Bài tập 2.5.1 Cho dãy số liệu thống kê: x1 10 19 11 y 15 25 13 Hãy xác định ước lượng β“0 , β“1 hệ số hồi quy tuyến tính mơ hình đây: yj = β0 + β1 xj1 + εj , j = ÷ Trang 13 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính n Tính giá trị y“j , ε“j , từ tính j=1 ε“j ï ị ï ị 60 −0, 08333333 T −1 X X= → (X X) = 60 720 −0, 08333333 0, 08333333 ï ò 72 XT Y = 872 ï ò ï −2 ò −0.66666667 → β = (XT X)−1 XT Y = = 19 1.26666667 15 19 Vậy phương trình hồi quy tuyến tính mẫu là: y = −2 + 15 x n ε“2j = YT Y − YT Xβ = 101, 46666667 σ = Tổng bình phương phần dư: T j=1 n 101, 46666667 ε“j = = 25, 36666667 n−k−1 Bảng tính giá trị y“j , ε“j STT yj y“j ε“j STT yj y“j ε“j 15 12 25 23,4 1,6 5,6666667 3,333333 13,266667 -6,26666667 3 8,2 -5.2 13 9,4666667 3,5333333 Tổng phần dư 0,00000037 12 Từ tính trực tiếp ta ε“j = 101, 4666643 Ta có: » “ β“0 ) = 5, 036533 “ β“0 ) = 25, 36666667 × = 25, 36666667 ⇒ D( D( » “ β“1 ) = 25, 36666667 × 0, 08333333 = 2, 11388 ⇒ D( “ β“1 ) = 1, 453921 D( Khoảng tin cậy β0 , β1 mức 0,95: Å ã» 0, 05 “ β“0 ) = −0, 6666667 ± 3, 56 × 5, 036533 = −0, 6666667 ± 17, 93005 β“0 ± t4 D( 2×2 Å ã» 0, 05 “ “ β“1 ) = 1, 26666667 ± 3, 56 × 1, 453921 = 1, 26666667 ± 5, 175965 β1 ± t4 D( 2×2 2.5.3 Cho x1 x2 y Bài tập 2.5.2 dãy 10 15 số liệu thống kê: 19 11 25 13 Trang 14 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Hãy xác định ước lượng phương pháp bình phương cực tiểu hệ số hồi quy tuyến tính mơ hình đây: yj = β0 + β1 xj1 + β2 xj2 + εj , j = ÷ n Tính giá trị y“j , ε“j , từ tính j=1 ε“j     60 30 72 T T    X X = 60 720 319 , X Y = 872 30 319188 382   1, 33361118 −0, 0678733 −0, 0976423 → (XT X)−1 = −0, 0678733 0, 00904977 −0, 00452489 −0, 0976423 −0, 00452489 0, 02857823   −0, 46487259 → β = (XT X)−1 XT Y =  1, 2760181  −0, 05906168 Vậy phương trình hồi quy tuyến tính mẫu là: y = −0, 46487 + 1, 276018x1 − 0, 05906x2 n ε“2 = YT Y − YT Xβ = 101, 3444605 σ = Tổng bình phương phần dư: j=1 j n 101, 3444605 = 38, 781486 ε“j = n−k−1 Bảng tính giá trị y“j , ε“j STT yj y“j ε“j STT yj y“j ε“j 15 12,17718504 2,822815 25 23.42510121 1,57489879 5,73803286 3,26196714 13.15789474 -6,15789474 3 8.29006906 -5,290069 13 9.21171708 3,78828292 Tổng phần dư 0,000000011 12 Từ tính trực tiếp ta ε“j = 101, 3446055 Ta có: » “ β“0 ) = 7, 1916217 D( » “ “ “ β“1 ) = 0, 5924217 D(β1 ) = 38, 781486 × 0, 0090497 = 0, 3509635 ⇒ D( » “ “ β“1 ) = 1.05276 “ D(β1 ) = 38, 781486 × 0, 0285782 = 1, 108305 ⇒ D( “ β“0 ) = 38, 781486 × 1, 33361118 = 51, 719423 ⇒ D( KhoảngÅtin cậyã β0 , β1 mức 0,95: » 0, 05 “ β“0 ) = −0, 46487259 ± 5, 061 × 7, 1916217 = −0, 464873 ± β“0 ± t3 D( 2×3 36, 39679 Trang 15 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Å ã 0, 05 » “ “ D(β1 ) = 1, 2760181 ± 5, 061 × 0, 5924217 = 1, 276018 ± 2×3 2, 998246 Å ã» 0, 05 “ β“2 ) = −0, 059061681 ± 5, 061 × 1.05276 = −0, 05906168 ± β“2 ± t3 D( 2×3 5, 32801 β“1 ± t3 2.6 Kiểm định giả thiết hệ số hồi quy Xét mơ hình HQTT cổ điển Y = β0 + β1 X1 + β2 X2 + + βk Xk + ε (2.27) Khi thiết lập phương trình, ta giả sử biến độc lập X1 , , Xk tham gia phương trình hồi quy Tuy nhiên, thực tế, có vài biến khơng tham gia vào phương trình hồi quy, tức hệ số βi Tuy vậy, hệ số ước lượng khác Bài tốn đặt kiểm định xem hệ số ước lượng xem thực Ta có toán kiểm định giả thiết H0 : βp+1 = = βk = 0(0 < p < k) (2.28) với đối thiết K : ∃i ∈ {p + 1, , k} cho βi = Giả thiết H0 có nghĩa biến độc lập không tham gia vào biểu thức tuyến tính, ngược lại đối thiết K nói có biến có liên quan đên mơ hình Tổng qt ta xét toán kiểm định giả thiết dạng:  c10 β0 + c11 β1 + · · · + c1k βk = a1    c20 β0 + c21 β1 + · · · + c2k βk = a2 ⇔ Cβ = a H0 : · · ·    ck−p,0 β0 + ck−p,1 β1 + · · · + ck−p,k βk = ak−p (2.29) C = [cij ]k−p,k+1 ; a = [a1 , , ak−p ]T Bài toán  xét ((2.28)) trường  hợp riêng ((2.29)) với: 0 ··· ···   0 · · · · · · 0  C=   = [0.Ik−p ]   0 ··· 0 ··· Quy tắc kiểm định: Bác bỏ giả thiết H0 : Cβ = nếu: (C β)(C(XT X)−1 C T )−1 C β/σ > (k − p)Fk−p,n−k−1 (α) (2.30) Trang 16 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Ta sử dụng khoảng tin cậy βp+1 , , βk Å mệnh đềã(2.4) » α “i ± tn−k−1 “ βi ) để kiểm định giả thiết (2.24) D( với đầu mút β 2(k + 1) Điều có nghĩa tồn số i ∈ {p + 1, , k} thỏa mãn: Å ã» α “i | > tn−k−1 “ βi ) |β D( 2(k − p) Nhận xét ta coi βi = 2.7 Ước lượng hàm hồi quy tuyến tính Bài tốn đặt ước lượng hàm hồi quy tuyến tính: E(Y |X) = β0 + β1 X1 + + βk Xk điểm X = (1, X10 , , Xk0 ) tức ước lượng tổ hợp tuyến tính sau: T E(Y |X) = β0 + β1 X10 + + βk Xk0 = X β (2.31) T Theo định lý Gauss, X β ước lượng tuyến tính với phương sai cực tiểu T T T Nếu ε ∼ N (0, In σ ) X β ∼ N (X β, σ X (XT X)−1 X ) khoảng T tin cậy mức (1 − α) X β là: α » T T −1 0T X β ± tn−k−1 ( ) σ X (X X) X (2.32) √ T “ β) D(X » α “ T β) X β ± tn−k−1 ( ) D(X 0T (2.33) Ta xét lại ví dụ sau: Để nghiên cứu phụ thuộc doanh thu Y chi phí sản xuất X1 , chi phí tiếp thị X2 người ta điều tra ngẫu nhiên doanh thu 12 công ty 12 thời kỳ, kết ta có bảng sau: STT x0 x1 x2 y STT x0 x1 x2 y 1 18 10 127 25 14 161 25 11 149 16 12 128 19 106 17 12 139 24 16 163 10 23 12 144 15 102 11 22 14 159 26 17 180 12 15 15 138 Giả sử: Trang 17 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính yj = β0 + β1 xj1 + β2 xj2 + εj , j = ÷ n, n = 12 với {εj } dãy độc lập có phân bố chuẩn N (0, σ ) Khi ta dùng phương trình hồi quy tuyến tính mẫu: y = 32, 777 + 2, 5057x1 + 4, 7587x2 T để dự đoán hàm hồi quy E(Y |X1 = 20, X2 = 13) = β0 + 20β1 + 13β2 = X β, T X = (1, 20, 13) Ta có:    2, 439963 −0, 883875 −0, 045374 0T T −1    X (X X) X = [1, 20, 13] −0, 883875 0, 006765 −0, 004040 20 −0, 045374 −0, 004040 0, 010509 13 = 0,0946 Ta có: T σ X (XT X)−1 X = 16, 0415 × 0, 0946 = 1, 5175259 Mặt khác: y“0 = 32, 777 + 2, 5057 × 20 + 4, 7587 × 13 = 144, 2548 T Vì khoảng tin cậy mức 0,95 X β là: » y“0 ± t9 (0, 05/2) σ X T (XT X)−1 X = 144, 2548 ± 2, 262 1, 5175259 = 144, 2548 ± 2, 7865 3.1 Kiểm tra phù hợp mơ hình Tiêu chuẩn F Kiểm tra phù hợp mơ hình Xét mơ hình HQTT (1.2) Mơ hình QHTT phụ hợp với dãy số liệu quan sát sai số εi thật yếu tố ngẫu nhiên tạo nên, tức chúng dãy biến ngẫu nhiên độc lập có phân phối Vì mơ hình xét có phân phối chuẩn nên ta cần phải kiểm tra xem sai số có phân phối chuẩn N (0, σ In ) hay không? Để kiểm tra ta xét tiêu chuẩn sau: Tiêu chuẩn F Xét đại lượng: (n − k − 1)R2 F = k(1 − R2 ) (3.34) Trang 18 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Mệnh đề 3.1 Nếu sai số ε có phân bố chuẩn N (0, σ In ) βi = 0, i = 1÷k F cho (3.1) có phân bố F với k, n − k − bậc tự Từ mệnh đề ta đưa quy tắc: Nếu F lớn gần ta cần bác bỏ giả thiết ε có phân bố chuẩn N (0, σ In ) hay bác bỏ giả thiết β1 = · · · = βk = Cấu trúc tiêu chuẩn F mức ý nghĩa α = 0, 02 ❼ Tra bảng phân phối F với bậc tự k n − k − ta giá trị Fk,n−k−1 (α/2) = Fk,n−k−1 (0, 01) ❼ Nếu F > Fk,n−k−1 (0, 01) F < Fk,n−k−1 (0, 01) ta cần bác bỏ giả thiết β1 = β2 = · · · = βk = 3.1.1 Ví dụ 3.1(Xét ví dụ 2.1) Để nghiên cứu phụ thuộc doanh thu Y chi phí sản xuất X1 , chi phí tiếp thị X2 người ta điều tra ngẫu nhiên doanh thu 12 công ty 12 thời kỳ, kết ta có bảng sau: STT x0 x1 x2 y STT x0 x1 x2 y 1 18 10 127 25 14 161 25 11 149 16 12 128 19 106 17 12 139 24 16 163 10 23 12 144 15 102 11 22 14 159 26 17 180 12 15 15 138 Giả sử chi phí tn theo mơ hình tuyến tính cổ điển, đó: y = 32, 2777 + 2, 5057x1 + 4, 7587x2 ε“j T ε“j = s2y n ε“j = 144, 3734 Å ã2 245626 1696 − = 493, 7222 = y − (y) = 12 12 Vậy 144, 3734 = 12 ∗ 493, 7222(1 − R2 ) → (1 − R2 ) = 0, 0224 → R = 0, 9756 F = 0, 9756 × (12 − − 1) = 179, 6292 ∗ 0, 0244 Trang 19 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Tra bảng F ta được: F2,9 (0, 01) = 8, 02 Ta thấy F > F2,9 (0, 01), ta cần bác bỏ giả thiết β1 = · · · = βk = 0, tức có phụ thuộc tuyến tính vào biến độc lập 3.2 Khảo sát phần dư 3.2.1 Tiêu chuẩn Student Ta biết phần dư phép hồi quy thể qua công thức “ = (I − H)ε ε=Y −Y Nếu giả thiết H0 nói ε có phân phối chuẩn N (0, σ In ) ε có phân phối chuẩn N (0, σ (I − H)) Tuy nhiên, ta nhận thấy ma trận (I −H) ma trận suy biến có hạng n−k−1 n − k − giá trị riêng 1; k + giá trị riêng cịn lại ⇒ Do đó, khơng thể biểu diễn ε qua ε Ta ký hiệu sau: - e1 , , en−k−1 (n − k − 1) véctơ riêng ứng với giá trị riêng - en−k , , en k + véctơ riêng ứng với giá trị riêng {e1 , , en } tạo thành sở trực chuẩn Rn Khi ta có: I − H = P ΛP T Λ = diag{1, 1, , 1, 0, , 0} ma trận chéo có đường chéo gồm n − k − số k + số 0, P = [e1 , , en ] = [eij ]n×n Xét véctơ ngẫu nhiên: ε∗ = P T ε = (ε∗1 , , ε∗n ) (3.35) Khi với ε có phân bố chuẩn N (0, σ In ) ta có: E(ε∗ ) = P T E(ε) = cov(ε∗ ) = P T cov(σ [In − H])P = σ P T P ΛP T P = σ Λ Do H0 ε∗1 , , ε∗n−k−1 biến ngẫu nhiên độc lập có phân bố chuẩn N (0, σ ) ε∗n−k = · · · = ε∗n = hầu chắn Vì n−k−1 j=1 Đặt n ε∗j , ε∗j = j=1 n ε∗ = j=1 Ta có nε∗ n−k−1 n ε∗j = j=1 ε∗j hầu chắn j=1 ε∗j /n; ε‹∗ n−k−1 = = (n − k − ε∗j /(n − k − 1) j=1 1)ε‹∗ H0 Trang 20 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Xét thống kê: n(n − k − 2)1/2 ε∗ T = (n − k − 1)1/2 ỵ Σnj=1 ε∗j − n2 (ε∗ )2 /(n − k − 1) ó1/2 (3.36) Tổng hợp lại: giả thiết H0 thì: (n − k − 1)(n − k − 2)1/2 ε‹∗ T = ó1/2 ỵ n−k−1 ∗ εj − n − k − 12 (ε‹∗ )2 /(n − k − 1) (n − k − 1)1/2 Σj=1 (n − k − 1)1/2 ε‹∗ = ỵ ó1/2 ∗−ε ∗ )2 /(n − k − 2) ‹ Σn−k−1 (ε j=1 j có phân bố Student với n − k − bậc tự Vậy tiêu chuẩn với mức ý nghĩa α là: α bác bỏ H0 |T | > tn−k−2 3.2.2 Khảo sát đồ thị phần dư Khi sử dụng tiêu chuẩn dẫn đến việc bác bỏ giả thiết ε khơng có phân bố chuẩn N (0, σ In ) xảy khả sau: ❼ Các sai số εj khơng có phương sai số ❼ Các sai số εj tương quan với ❼ sai số εj khơng có phân bố chuẩn Để đánh giá xem mơ hình có khả rơi vào dạng nào, người ta tiến hành khảo sát đồ thị điểm (“ εj , y“j ) Để kiểm tra xem εj có độc lập có phân bố chuẩn N (0, σ ), ta kiểm tra tính chuẩn εj dựa vào hệ số tương quan: r= Σn1 (qj − q)(ε(j) − ε) Σn1 (qj − q)2 Σn1 (ε(j) − ε2 1/2 = Σn1 (qj − q)ε Σn1 (qj − q)2 Σn1 ε“2j 1/2 qj nghiệm phương trình Φ(qj ) = (j − 1/2)/n 3.2.3 Kiểm định tính khơng tương quan εj theo thời gian Giả sử yj theo dõi theo thời gian j = 1, 2, Trường hợp thường xảy khảo sát đại lượng kinh tế Khi thường xảy trường hợp εj có tương quan với (Auto correlation) Trang 21 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Để phát tính tự tương quan sai số ε ta sử dụng tiêu chuẩn DurbinWatson sau: Đặt: Σnj=2 ε‘ “j j−1 ε r1 = (3.37) Σnj=1 ε“j Khi đại lượng: n n ε“j = 2(1 − r1 ) (“ εj − ε‘ j−1 ) / DW = j=2 (3.38) j=2 tuân theo phân phối Durbin-Watson Tra bảng Durbin- Watson ứng với mức ý nghĩa α ta tìm hai số d1 (k, n, α) < d2 (k, n, α), so sánh DW với d1 , d2 ta rút kết luận sau: ❼ Nếu ≤ DW < d1 εj có tự tương quan dương ❼ Nếu d1 ≤ DW ≤ d2 khơng thể nói ❼ Nếu d2 < DW < − d2 εj khơng có tự tương quan ❼ Nếu − d2 ≤ DW ≤ − d1 khơng thể kết luận ❼ Nếu − d1 < DW ≤ εj có tự tương quan âm Ta xét lại ví dụ sau: Để nghiên cứu phụ thuộc doanh thu Y chi phí sản xuất X1 , chi phí tiếp thị X2 người ta điều tra ngẫu nhiên doanh thu 12 công ty 12 thời kỳ, kết ta có bảng sau: Tính tốn có sai lầm bỏ sót thành phần β0 Phương sai D(εj ) thay đổi theo j Sai số εj số sai số hồn tồn ngẫu nhiên Trang 22 Nhóm 4: Phân tích số liệu STT x0 1 x1 18 25 19 24 15 26 x2 10 11 16 17 Mơ hình hồi quy tuyến tính y STT x0 127 149 106 163 10 102 11 180 12 Ta tính được: n Tổng bình phương phần dư ⇒ r1 = Σnj=2 ε‘ “j j−1 ε x1 25 16 17 23 22 15 x2 14 12 12 12 14 15 y 161 128 139 144 159 138 ε“j = 144, 2298 −45,3437 144,2298 = −0, 3144 Σnj=1 ε“j ⇒ DW = 2(1 − r1 ) = 2, 6288 Với α = 0, 05; n = 12; k = 2, tra bảng phân phối Durbin-Watson ta tìm được: = d1 = 0, 81; d2 = 1, 58 − d1 = 3, 19; − d2 = 2, 42 Vậy − d2 = 2, 42 < DW = 2, 6288 < − d1 = 3, 19 nên ta khơng thể kết luận 3.2.4 Khảo sát tính đa cộng tuyến tính X1 , , Xk Các biến X1 , , Xk gọi đa cộng tuyến tồn số c0 , c1 , , ck k k không đồng thời thỏa mãn c0 + ci Xi = c0 + i=1 ci Xji = i=1 với j = 1, 2, , n Trong trường hợp X có hạng ≤ k khơng tồn ma trận nghịch đảo (XT X)−1 Trên thực tế, |XT X| ≈ 0, người ta coi X1 , , Xk có tượng đa cộng tuyến tính Khi ước lượng β = (XT X)−1 XT Y thường khơng ổn định có phương sai lớn hay khoảng tin cậy rộng Hiện tượng đa cộng tuyến thường thể qua dấu hiệu sau: +) Một số phần tử đường chéo ma trận V = (XT X)−1 tỏ lớn √ +) Các hệ số tương quan tuyến tính mẫu cặp Xi , Xj rij = sij / sii sjj tỏ lớn (|rij ≥ 0, 7| Để khắc phục tượng đa cộng tuyến người ta làm sau: Trang 23 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Đặt r0i hệ số tương quan tuyến tính mẫu Y Xi , cụ thể là: √ r0i = s0i / sii s00 n yj xji − y × xi n j=1 Khi thấy |rij | ≥ 0, thì: loại biến Xi khỏi mơ hình |r0i | < |r0j |, loại biến Xj khỏi mơ hình |r0i | > |r0j | s0 = s2y ; s0i = Thực hồi quy theo thành phần véctơ (X1 , , Xk ) Thực hồi quy bước Mơ hình hồi quy tuyến tính với sai số có tương quan Xét mơ hình (3.1.3): Y = βX + ε với giả thiết sai số có tương quan khác khơng Ta giả thiết hiệp phương sai sai số có dạng: cov(ε) = σ Σ (4.1) Σ = [σij ]n×n ma trận xác định dương biết Nhân vế với Σ−1/2 ta được: Σ−1/2 Y = Σ−1/2 Xβ + Σ−1/2 ε (4.2) hay là: Y = Xβ + ε (4.3) với Y = Σ−1/2 Y, X = Σ−1/2 X, ε = Σ−1/2 ε Khi ta có: cov(ε) = Σ−1/2 εΣ−1/2 = σ Σ−1/2 ΣΣ−1/2 = σ In (3.4.3) mô hình hồi quy tuyến tính cổ điển ta áp dụng kết mục 3.2 3.3 Hơn X có hạng k + X có hạng k + ta có ước lượng phương pháp bình phương cực tiểu mơ hình (3.4.3) là: β = (XT X)−1 XT Y = (XT Σ−1/2 Σ−1/2 X)−1 XT Σ−1/2 Σ−1/2 Y tức là: β = (XT Σ−1 X)−1 (XT Σ−1 Y) (4.4) Từ biểu thức dễ dàng tính được: D(β) = σ (XT Σ−1 X)−1 (4.5) Thông thường mơ hình thực tế hay gặp ma trận Σ đường chéo Σ = diag(σ11 , , σnn ) (4.6) tức εj khơng tương quan lý độ xác kỹ thuật nên phương sai thay đổi Trang 24 Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Các bước tiến hành phân tích hồi quy Việc phân tích hồi quy tiến thành theo bước sau: Xác định ước lượng β phương pháp bình phương cực tiểu, tức giải phương trình chuẩn sau: Bước XT Xβ = XT Y Bước ❼ Tính phần dư ε = Y − Y = Y − Xβ ❼ Tính n j=1 ε“j = n yj2 − (XT Y)T β j=1 ❼ Tính hệ số xác định R từ phương trình: n j=1 ε“j = ns2y (1 − R2 ) Bước Kiểm định phù hợp mơ hình ❼ Sử dụng tiêu chuẩn F để kiểm tra giả thiết β1 = · · · = βk = ❼ khảo sát phần dư: Vẽ đồ thị (ε, y“j ), j = ÷ n, Dùng tiêu chuẩn Durbin Watson để kiểm tra xem sai số có tự tương quan cấp hay không, Dùng tiêu chuẩn T để kiểm tra giả thiết ε ∼ N (0, σ In ) hay khơng? ❼ Kiểm tra tính đa cộng tuyến mơ hình Nếu mơ hình xây dựng tỏ mơ hình HQTT cổ điển chuyển sang bước Bước Xác định khoảng tin cậy hệ số hồi quy Bước Kiểm định xem βi có khác hay khơng với i = 1, , k Bước Dùng phương trình hồi quy tuyến tính mẫu: “ = β“0 + β“1 X1 + β“k Xk Y để xác định giá trị dự đoán E(Y |X = X ) = β0 + β1 X01 + · · · + βk X0k giá trị Y (X ) Trang 25 ... Mơ hình hồi quy tuyến tính với sai số có tương quan 24 Các bước tiến hành phân tích hồi quy 25 Trang Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Giới thiệu mơ hình hồi quy tuyến tính. .. slide làm báo cáo Vũ Thị Tâm Trang Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Mục lục Giới thiệu mơ hình hồi quy tuyến tính cổ điển Ước lượng bình phương cực tiểu 2.1 Mệnh đề ước lượng...Nhóm 4: Phân tích số liệu Mơ hình hồi quy tuyến tính Bảng phân cơng nhiệm vụ Giới thiệu mơ hình hồi quy tuyến tính Ước lương bình phương cực tiểu - Mệnh đề 2.1 - Tính chất ước lương bình phương

Ngày đăng: 28/02/2021, 00:17

TỪ KHÓA LIÊN QUAN

w