Bài 4: Mô hình hồi quy bội Trong bài trước chúng ta đã nghiên cứu mô hình hồi quy tuyến tính đơn giản, đó là hồi quy tuyến tính đơn, trong mô hình này chúng ta đã nghiên cứu các mối quan
Trang 1Bài 4: Mô hình hồi quy bội
BÀI 4 MÔ HÌNH HỒI QUY BỘI
Mục tiêu
Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây:
• Mô hình hồi quy bội có 2 biến và mô hình tổng quát k biến
• Ý nghĩa của các hệ số hồi quy ước lượng
• Hệ số xác định bội và hệ số xác định bội đã hiệu chỉnh
• Khoảng tin cậy và kiểm định giả thiết cho các hệ số hồi quy
• Kiểm định về sự phù hợp của mô hình hay ảnh hưởng của tất cả các biến độc lập
• Dự báo trong mô hình hồi quy bội
• Mô hình hồi quy bội gồm 2 biến độc lập
• Mô hình hồi quy bội gồm k biến (k-1 biến
độc lập)
• Phương pháp OLS cho mô hình hồi quy bội
• Hệ số xác định bội và hệ số xác định bội đã
hiệu chỉnh
• Ước lượng khoảng tin cậy và kiểm định giả
thuyết cho hệ số hồi quy
• Kiểm định về sự phù hợp của mô hình
hồi quy
• Dự báo trong mô hình hồi quy bội
Thời lượng
• 8 tiết
• Đề nghị học viên ôn lại phần ước lượng và kiểm định giả thiết trong môn
lý thuyết xác suất và thống kê toán
• Theo dõi kỹ bài giảng
• Xem các ví dụ cho mỗi phần bài giảng
• Làm các ví dụ và trả lời câu hỏi trắc nghiệm
Trang 2Bài 4: Mô hình hồi quy bội
TÌNH HUỐNG DẪN NHẬP
Tình huống
Hội đồng quản trị của công ty may Đức Giang đang muốn xem xét
ảnh hưởng của 2 yếu tố đầu vào của sản xuất là Vốn (V, tỉ đồng) và
Lao động (L, người) lên sản lượng (SL, triệu sản phẩm) của công ty
Cụ thể, họ muốn đưa ra quyết định về việc có nên tiếp tục mở rộng
sản xuất, thu hẹp lại hay giữ nguyên như hiện tại Để tiến hành nghiên
cứu này, phòng kế hoạch của công ty thu thập số liệu về vốn đầu tư,
lao động sử dụng và sản lượng sản xuất ra trong 30 tháng qua tại công ty (có n = 30 quan sát)
Mô hình dùng để nghiên cứu có dạng
log(SLi) = β1 + β2log(Vi) + β3log(Li)+ui Dùng số liệu của mẫu, ước lượng được hàm hồi quy mẫu có dạng,
log(SL ) 0.424816 0.7358log(V ) 0.9489log(L ).= + +
Câu hỏi
• Vậy công ty Đức Giang nên tăng, giảm hay giữ nguyên quy mô sản xuất?
• Liệu cả 2 biến vốn và lao động cùng không có ảnh hưởng đến sản lượng có đúng không?
• Giả sử trong tháng tới, công ty quyết định sử dụng lượng vốn là 10 tỉ đồng và lao động là
3000 thì sản lượng dự báo là bao nhiêu?
Trang 3Bài 4: Mô hình hồi quy bội Trong bài trước chúng ta đã nghiên cứu mô hình hồi quy tuyến tính đơn giản, đó là hồi quy tuyến tính đơn, trong mô hình này chúng ta đã nghiên cứu các mối quan hệ giữa một biến được giải thích là Y và một biến giải thích X Bài này chúng ta mở rộng nghiên cứu sang mô hình hồi quy tuyến tính bội với một biến được giải thích Y và (k – 1) biến giải thích X , , X Trong thực tế 2 k
mô hình hồi quy tuyến tính bội được sử dụng rộng rãi vì đối với nhiều trường hợp nó giải thích
về hành vi của biến phụ thuộc (biến được giải thích) Y tốt hơn mô hình hồi quy tuyến tính đơn
Ví dụ trong bài trước chúng ta xét mối quan hệ giữa thu nhập và chi tiêu nhưng thực tế chi tiêu không chỉ phụ thuộc vào thu nhập mà nó còn phụ thuộc vào các yếu tố khác, chẳng hạn như: niềm tin vào nền kinh tế, độ tuổi, nghề nghiệp, địa lý… Vì vậy mô hình hồi quy đơn khó giải thích được hành vi của biến phụ thuộc Y Do đó việc mở rộng mô hình hồi quy tuyến tính bội sẽ giúp chúng ta giải thích được rõ hơn về biến phụ thuộc Y
BÀI TOÁN
Mô hình hồi quy tuyến tính bội là mô hình nghiên cứu mối quan hệ giữa một biến phụ thuộc Y và (k – 1) biến độc lập X ,X , ,X có dạng: 2 3 k
i 1 2 2i 3 3i k k i
Y = β + β X + β X + + β X + u Trong đó E(u ) 0,E(u | X ,X , ,X ) 0i = i 2i 3i ki =
( i j) Cov u ,u = ∀ ≠ 0 i j
Cov(X ,u ) 0;Cov(X ,u ) 0; ,Cov X ,u = = = 0
2 i
Var(u ) = σ ∀ , i
4.1 Mô hình hồi quy với hai biến giải thích
Định nghĩa: Mô hình hồi quy tổng thể (PRF) với hai biến giải thích có dạng như sau:
i 1 2 2i 3 3i i
Y = β + β X + β X + u (4.1) với Y là biến phụ thuộc; X , X là các biến độc lập, 2 3 Y , X , X là các quan sát thứ i i 2i 3i của Y, X , X ; u là nhiễu ngẫu nhiên, 2 3 u là nhiễu tại quan sát thứ i; i β là hệ số chặn 1 (hệ số tự do), bằng giá trị trung bình của Y khi X2 =X3 = ; 0 β β là các hệ số hồi 2, 3 quy riêng hay còn gọi là hệ số của các biến độc lập, β chỉ sự thay đổi của Y khi 2 X 3
cố định và X tăng hoặc giảm 1 đơn vị, còn 2 β chỉ sự thay đổi của Y khi 3 X tăng 3 hoặc giảm 1 đơn vị và X cố định 2
Trong mô hình hồi quy hai biến (4.1) ta có các giả thiết sau:
• E(u ) 0, E(u | X , X ) 0.i = i 2i 3i =
• Các u không tương quan, tức là i
i j Cov(u , u ) 0, i= ∀ ≠ j
• u không tương quan với i X , X , tức là 2i 3i
Cov(X ,u ) 0;Cov(X , u ) 0.= =
• u có phương sai không thay đổi, tức là: i 2
i Var(u )= σ ∀ , i
Trang 4Bài 4: Mô hình hồi quy bội
4.2 Ước lượng tham số của mô hình hồi quy
Tương tự trong bài 3, bài toán đặt ra là từ các dữ liệu quan sát chúng ta cần ước lượng
các hệ số hồi quyβ β β của mô hình (4.1) Phương pháp ta sẽ sử dụng sau đó chính 1, ,2 3
là phương pháp bình phương tối thiểu OLS Hàm hồi quy mẫu (SRF) được xây dựng
từ n quan sát (Y , X , X ) có dạng: i 2 3
i ˆ1 ˆ2 2i ˆ3 3i
ˆY = β + β X + β X (4.2)
Và Yi = β + βˆ1 ˆ2X2i + βˆ3X3i +uˆi =Y uˆi+ˆi
trong đó β β βˆ ˆ ˆ1, ,2 3 là ước lượng của β β β , 1, ,2 3 ˆu là ước lượng của i u , phần dư của i
quan sát thứ i
Từ (4.2) ta có:
2
i i 1 2 2i 3 3i
i 1 i 1
Ta cần xác định β β βˆ ˆ ˆ1, ,2 3 sao cho n 2
i
i 1
ˆu
=
∑ trong (4.3) đạt giá trị nhỏ nhất
Theo lý thuyết giải tích nhiều biến, ta thấy để n 2
i
i 1
ˆu
=
∑ đạt giá trị nhỏ nhất thì β β βˆ ˆ ˆ1, ,2 3
phải là nghiệm của hệ phương trình
1 2 2 3 3
2
2
1 3i 2 2i 3i 3 3i i 3i
⎧
⎪
⎨
⎪
⎪
⎪
⎩
(4.4)
trong đó
n i
i 1
1
n =
Hệ phương trình (4.4) được gọi là hệ phương trình chuẩn và phương pháp xác định
1 2 3
ˆ ˆ ˆ, ,
β β β như trên được gọi là phương pháp bình phương tối thiểu (OLS)
Nghiệm của phương trình (4.4) là:
ˆ Y ˆ X ˆ X
β = − β − β
2
i 2i 3i i 3i 2i 3i
i 1 i 1 i 1 i 1
2i 3i 2i 3i
i 1 i 1 i 1
y x x y x x x ˆ
x x x x
−
β =
− ⎜⎝ ⎟⎠
2
i 3i 3i i 3i 2i 3i
i 1 i 1 i 1 i 1
2i 3i 2i 3i
i 1 i 1 i 1
ˆ
−
β =
−
Trang 5Bài 4: Mô hình hồi quy bội
2 23
i 1 i 1
r
ˆ ˆ Cov ;
−σ
β β =
⎛ ⎞⎛ ⎞
⎝∑ ⎠⎝∑ ⎠
với yi =Y Y, xi− 2i =X2i−X , x2 3i =X3i−X 3
Ta thấy rằng σ là phương sai của 2 u và i σ là chưa biết Vì vậy ta thay 2 σ bằng ước 2 lượng không chênh lệch của nó là
n 2 i
2 i 1
ˆu RSS ˆ
=
∑
CHÚ Ý
( )( )
2 3
2 n
2
2i 3i
2
X X
2i 3i
i 1 i 1
x x
r
S S
=
∑
4.3 Phương sai và độ lệch chuẩn của các ước lượng bình phương tối thiểu
Ta đã thu được các ước lượng cho các hệ số hồi quy bằng phương pháp OLS Để tìm các ước lượng khoảng và tiến hành kiểm định các hệ số hồi quy, ta cần xác định phương sai và độ lệch chuẩn của các ước lượng thu được trên đây
Phương sai và độ lệch chuẩn của các ước lượng hệ số hồi quy theo phương pháp bình phương tối thiểu được cho bởi các công thức
( )
2
2 n
2i 23
i 1
ˆ Var
x 1 r
=
σ
β =
−
( )
2
3 n
3i 23
i 1
ˆ Var
x 1 r
=
σ
β =
−
với r là hệ số tương quan giữa 23 X và 2 X 3
4.4 Mô hình hồi quy bội
4.4.1 Khái niệm:
Mô hình hồi quy bội là mô hình có hàm hồi quy tổng
thể (PRF) gồm một biến phụ thuộc Y và k – 1 biến độc
lập X , X , , X có dạng như sau: 2 3 k
i 1 2 2i 3 3i k ki i
Y = β + β X + β X + + β X + (4.5) u
trong đó β là hệ số chặn, hệ số tự do, nó cho ta biết 1
trung bình của Y khi X , X , , X bằng 0 2 3 k
Trang 6Bài 4: Mô hình hồi quy bội
j ( j 1, 2, , k)
β = là các hệ số hồi quy riêng, nó cho ta biết sự thay đổi của Y khi X j
thay đổi một đơn vị còn các X hh( ≠ j) bằng 0,
i
u là các nhiễu ngẫu nhiên
Phương trình (4.5) có thể được viết chi tiết dưới dạng hệ phương trình sau:
1 1 2 21 3 31 k k1 1
2 1 2 22 3 32 k k 2 2
n 1 2 2n 3 3n k kn n
= β + β + β + + β +
⎧
⎪ = β + β + β + + β +
⎪
⎨
⎪
⎪ = β + β + β + + β +
⎩
Đặt
1
2
n
1 X X X Y
1 X X X Y
Y ; X
Y
⎛ ⎞
⎜ ⎟
⎜ ⎟
⎜ ⎟
⎜ ⎟
⎜ ⎟
u u
u ;
u
β
⎛ ⎞ ⎛ ⎞
⎜ ⎟ ⎜ ⎟β
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
= β =
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟β
⎝ ⎠ ⎝ ⎠
khi đó hệ phương trình (4.6) có thể viết dưới dạng phương trình ma trận
Y X= β + (4.7) u
4.4.2 Các giả thiết cơ bản
Ta đưa ra các giả thiết cơ bản cho mô hình hồi quy nội
bội như sau:
Giả thiết 1:
Ma trận ngẫu nhiên u có kỳ vọng bằng 0, tức là:
( )
( ) ( ) ( )
1 2
n
⎜ ⎟
Giả thiết 2:
Các thành phần trong ma trận u là không tương quan, tức là:E u u( )i j = i j0 ≠
( ) 2
i i
E u u = σ
hoặc ta có thể viết dưới dạng: E uu( )T = σ , với I là ma trận đơn vị cấp n 2I
Trang 7Bài 4: Mô hình hồi quy bội
Giả thiết 3: Các u có phân bố chuẩn i N 0,( σ i 1, n2) ∀ =
Giả thiết 4: Các X , X , , X không có quan hệ tuyến tính 2 3 k
4.4.3 Ước lượng các tham số bằng OLS
Với giả thiết trên, ta cần dựa vào dữ liệu
(Y , X , X , , X , i 1, ni 2i 3i ki) ( = ) quan sát được để tìm ước
lượng véc tơ hệ số ( )T
1, , ,2 k
β = β β β của mô hình hồi quy bội (4.7)
1 2 k
ˆ ˆ ˆ, , ,ˆ
β = β β β là ước lượng của β , khi đó ta có phương trình hồi quy mẫu (SRF)
i ˆ1 ˆ2 2i ˆ3 3i ˆk ki ˆi
Y = β + β X + β X + + β X +u (i 1, n = )
Ta cần tìm các hệ số (β βˆ ˆ1, , ,2 β sao cho tổng các phần dư ˆk) n 2
i
i 1
ˆu
=
∑ đạt giá trị nhỏ nhất
Kết quả của phương pháp giải tích cho thấy véc tơ ước lượng trên đây thỏa mãn
phương trình ma trận
trong đó X , Y′ ′ tương ứng là các ma trận chuyển vị của X và Y Từ giả thiết 4 dẫn
đến sự tồn tại ma trận nghịch đảo của X X′ và do đó
( ) 1
ˆ X X′ − X Y.′
β = Biểu thức này được gọi là phương trình cơ bản của phương pháp OLS
4.5 Các tính chất của ước lượng bình phương nhỏ nhất
Xét mô hình hồi quy bội
i 1 2 2i 3 3i k ki i
Y = β + β X + β X + + β X + u Giống như mô hình hồi quy đơn, mô hình hồi quy bội này có
các tính chất sau:
• Đường hồi quy bội đi qua điểm (Y, X , X , , X 2 3 k)
• ˆY Y=
• n i
i 1
=
=
• u không tương quan vớii X , pi (p 2,3, , k= ), n i pi
i 1
=
=
Trang 8Bài 4: Mô hình hồi quy bội
• Các u không tương quan với i ˆYi: n i i
i 1
ˆ
u Y 0
=
=
• ˆβi là các ước lượng tuyến tính không chệch và có phương sai nhỏ nhất cho các i
β (i 1, k= )
4.6 Hệ số xác định bội R2 và hệ số xác định hiệu chỉnh
Trong mô hình hồi quy tuyến tính đơn ta đã đưa ra hệ
số xác định
Từ công thức trên ta thấy khi r càng lớn thì tổng bình 2
phương sai số dự báo càng nhỏ, do đó mô hình hồi quy
càng phù hợp Vì vậy hệ số r còn được dùng để đo độ 2
phù hợp của mô hình Tương tự cho mô hình hồi quy bội ta cũng xây dựng hệ số xác định ký hiệu là R được xác định bởi công thức: 2 2 ESS RSS
Dễ dàng chứng minh được rằng
2 2
2
ˆ X Y nY R
Y Y nY
′ ′
=
′ − (4.9)
Từ các công thức trên có thể thấy hệ số xác định R có tính chất sau: 2
• 0 R≤ 2 ≤ 1
• Nếu R2 = khi đó đường hồi quy giải thích 100% sự thay đổi của Y bởi vì khi đó: 1 n
2 i
i 1
ˆu 0
=
=
• Nếu R2 = khi đó mô hình không giải thích được sự thay đổi của Y 0
• Nếu số biến độc lập càng tăng thì hệ số R càng lớn, hay nói cách khác2 R là một 2 hàm tăng theo các biến giải thích
Như vậy, tính phù hợp của mô hình hồi quy tăng lên
khi có nhiều biến giải thích trong mô hình hơn Tuy
nhiên, người ta luôn muốn dùng một số lượng biến
giải thích vừa đủ sao cho vẫn có được mô hình phù
hợp mà không quá tốn kém khi phải thu thập thông
tin của quá nhiều biến giải thích Hơn nữa, nhiều
khi đưa thêm một số biến độc lập vào mô hình thì
tác động riêng phần của các biến độc lập đó tới biến phụ thuộc lại không thực sự có ý nghĩa thống kê Vậy cần có tiêu chuẩn đánh giá sự phù hợp của mô hình, trong đó có cân nhắc đến số lượng biến giải thích của mô hình Một trong số các tiêu chuẩn như vậy
là hệ số xác định hiệu chỉnh R của 2 R , cho bằng biểu thức 2
Trang 9Bài 4: Mô hình hồi quy bội n
2 i
2 i 1
n 2 i
i 1
ˆu /(n k)
y /(n 1)
=
=
−
= −
−
∑
trong đó n là số quan sát, k – 1 là số biến độc lập trong mô hình
Dễ dàng thấy có mối quan hệ giữa R và 2 R , cụ thể là: 2
R 1 (1 R )
(n k)
−
= − −
−
Từ đó R có các tính chất sau: 2
• Nếu k > 1 thì R2≤R2 ≤ ; 1
• Khi số biến độc lập k –1 tăng lên thì R cũng tăng lên nhưng tăng chậm hơn so với 2 R ; 2
• R2 ≥ , nhưng 0 R có thể âm Khi 2 R nhận giá trị âm thì để cho tiện, thường thì 2
người ta gán lại cho nó giá trị bằng 0
Trong thực hành, khi muốn đánh giá sự phù hợp của mô hình thì R hay được dùng 2
hơn so với R , vì nếu dùng 2 R ta dễ đưa ra một hình ảnh lạc quan quá mức về sự phù 2
hợp của mô hình, nhất là đối với các bài toán mà số lượng biến giải thích không nhỏ
hơn nhiều lắm so với số lượng quan sát Tuy nhiên, quan điểm này còn được điều
chỉnh tùy theo bài toán cụ thể Hơn nữa, ngoài hai thống kê R và 2 R , người ta còn 2
dùng một số tiêu chuẩn khác để đánh giá tính phù hợp của mô hình, chẳng hạn như:
quy tắc thông tin Akaike hay quy tắc dự báo Amemiya
4.7 Quan hệ giữa hệ số xác định và tiêu chuẩn kiểm định F
Xét mô hình hồi quy bội (4.5):
i 1 2 2i 3 3i k ki i
Y = β + β X + β X + + β X + , i 1, nu =
Mô hình được gọi là không có hiệu lực giải thích, hay nói cách khác không giải thích
được sự thay đổi của biến Y, nếu toàn bộ các hệ số hồi quy riêng đều bằng 0 Vì vậy để
kiểm định sức mạnh hay mức ý nghĩa của mô hình ta cần kiểm định bài toán sau:
1 i
H : 0
H : 0
β = β = = β =
⎧
⎨ ∃β ≠
Để giải quyết bài toán kiểm định trên, ta dùng tiêu chuẩn thống kê sau:
2 ˆ
( X Y nY ) / k
(Y Y X Y) /(n k 1)
′ ′
Khi giả thiết thống kê F có phân phối Fisher với k – 1 và n – k bậc tự do Vậy với
mức ý nghĩa α ta có quy tắc kiểm định:
• Nếu Fqs >F k 1, n kα( − − ) thì bác bỏ H 0
• Nếu Fqs ≤F k 1, n kα( − − ) thì chưa bác bỏ H 0
Quan hệ giữa hệ số xác định R và thống kê F được diễn giải như sau: Từ (4.5) và 2
(4.9), ta thấy bài toán kiểm định (4.10) tương đương với bài toán kiểm định
2 0 2 1
H : R 0
H : R 0
⎪
⎨
≠
Trang 10Bài 4: Mô hình hồi quy bội
Mặt khác:
2 2
2
ˆ X Y nY R
Y Y nY
′ ′
=
Do đó ta có: 2 ( )
2
R / k 1
(1 R ) /(n k)
−
=
Vậy thống kê F cũng là tiêu chuẩn thống kê cho bài toán kiểm định (4.11)
Ví dụ 1
Một công ty muốn mở rộng thị trường kinh doanh tại
một thành phố Trước khi quyết định mở chi nhánh tại
thành phố đó, công ty đã tiến hành nghiên cứu thị
trường bằng cách tiến hành quảng cáo và chào bán sản
phẩm của mình từ đó xem xét khả năng tiêu thụ sản
phẩm Thu thập số liệu trong 10 tuần về số sản phẩm
bán được trong một tuần, giá sản phẩm X và chi phí 2
cho quảng cáo X ta có bảng số liệu sau: 3
4.92 4.79 425 5.5 3.61 467 5.54 5.49 296 5.11 2.78 626 5.62 5.74 165 5.24 1.34 515 4.15 5.81 270 4.02 3.39 689 5.77 3.74 413 4.57 3.59 561
Phân tích số liệu bằng Evievs ta thu được báo cáo:
Trang 11Bài 4: Mô hình hồi quy bội Dựa vào kết quả báo cáo trong Evievs ta xây dựng được mô hình hồi quy tuyến tính 3 biến chỉ sự phụ thuộc của sản phẩm bán được Y với chi phí quảng cáo X và giá thành sản 3 phẩm X qua biểu thức 2
1 2 2 3 3
ˆ ˆ ˆ
ˆY= β + β X + β X
với β =ˆ1 1360.84, β = −ˆ2 110.2952, β = −ˆ3 89.82406 Ngoài ra còn có hệ số xác định bội R2 =0.772974, hệ số xác định hiệu chỉnh (Adjusted R-Squared) R2 =0.708110, giá trị tiêu chuẩn thống kê F (F-Static) 2
qs
F =11.91675 Vậy mô hình hồi quy cụ thể là:
ˆY 1360.84 110.2952X 89.82406X= − − Đối với mô hình này, ta cần đặt ra câu hỏi: Với mức ý nghĩa α =0.05 thì giá bán và chi phí quảng cáo có ảnh hưởng đến số lượng sản phẩm bán ra hay không?
Để trả lời cho câu hỏi này, ta cần kiểm định bài toán:
0 2 3
1 2 3
H : , 0
β = β =
⎧
⎨ ∃β β ≠
⎩
hoặc kiểm định bài toán tương đương là:
2 0 2 1
H : R 0
H : R 0
⎪
⎨
>
⎪⎩
Cả hai bài toán trên đều có thể giải quyết bằng cách sử dụng thống kê F Ta có qs
F =11.91675 Với n = 10, k = 2, tra bảng phân phối Fisher hoặc dùng lệnh Excel ta tìm được phân vị F0.05( )2;7 =4.77 Rõ ràng Fqs >F0.05( )2;7 , vậy ta bác bỏ H , kết 0 luận giá bán của sản phẩm và chi phí cho quảng cáo có ảnh hưởng đến số lượng sản phẩm bán ra
Hai bài toán kiểm định trên còn có thể giải quyết bằng cách so sánh xác suất ý nghĩa tương ứng với mức ý nghĩa đã định Kết quả của Eviews cho thấy xác suất ý nghĩa của
thống kê F (Prob(F-statistic)) có giá trị bằng 0.005575, nhỏ hơn 0.05, vậy có thể bác
bỏ giả thuyết H 0
4.8 Ước lượng khoảng cho hệ số hồi quy
Giả sử trong mô hình hồi quy (4.7), véc tơ nhiễu ngẫu nhiên u có phân phối chuẩn 2
N(0;σ Khi đó ta có véc tơ hệ số hồi quy ˆβ có phân phối chuẩn ) ( 2( ) 1)
N ,β σ X X′ − , các thành phần của véc tơ đó cũng có phân phối chuẩn ( 2)
i
ˆ ~ N ;
β β σ , (i 1, k)= , với 2
σ chưa biết và nó có ước lượng không chệch là:
( )
n
i
i 1
=