GV: Th.S Trần Kim NgọcChương 4 Hồi quy tuyến tính đơn giản Q Mô hình hồi quy tuyến tính đơn giản Q Phương pháp bình phương bé nhất Q Hệ số xác định Q Các giả định của mô hình Q Kiểm địn
Trang 1GV: Th.S Trần Kim Ngọc
Chương 4 Hồi quy tuyến tính đơn giản
Q Mô hình hồi quy tuyến tính đơn giản
Q Phương pháp bình phương bé nhất
Q Hệ số xác định
Q Các giả định của mô hình
Q Kiểm định ý nghĩa
Q Công cụ hồi quy của Excel
Q Dùng phương trình hồi quy ước lượng để ước lượng
và dự đoán
Q Phân tích phần dư: Xác nhận tính hợp lệ của các
giả định của mô hình
Q Các phần tử bất thường và các quan sát có ảnh hưởng
Trang 2GV: Th.S Trần Kim Ngọc
Phân tích hồi quy
Q Phân tích hồi quy nghiên cứu mối liên hệ phụ
thuộc của một biến (gọi là biến phụ thuộc hay biến được giải thích) vào một hay nhiều biến khác
(được gọi là (các) biến độc lập hay giải thích) với
ý tưởng là ước lượng hoặc dự báo biến phụ thuộc trên cơ sở giá trị đã cho của (các) biến độc lập
Q Biến phụ thuộc là biến ngẫu nhiên, có quy luật
phân phối xác suất
Q (Các) biến độc lập không phải là biến ngẫu nhiên, giá trị của chúng đã được cho trước
Trang 3GV: Th.S Trần Kim Ngọc
Mối liên hệ tuyến tính
Lượng cầu
về thịt bò,
(1)Giá thịt bò (x1)(2)Giá của mặt hàng thay thế (x2)(3)Thu nhập của người tiêu dùng (x3)(4)Tập quán, thị hiệu, sở thích của
người tiêu dùng (x4)(5)Quy mô thị trường (x5)Biểu diễn dưới dạng toán học,
y = f(x1, x2, x3, x4, x5) + ε
Trang 4GV: Th.S Trần Kim Ngọc
Mối liên hệ tuyến tính (tiếp theo)
Nếu y phụ thuộc vào các x theo dạng tuyến tính
(dạng đường thẳng)
Nếu y phụ thuộc vào các x theo dạng phi tuyến tính (dạng đường cong)
y = β + β x + β x + β x + β x + β x + ε
y ≠ β + β x + β x + β x + β x + β x + ε
Trang 5GV: Th.S Trần Kim Ngọc
Mô hình hồi quy tuyến tính đơn giản
Q Mô hình hồi quy tuyến tính đơn giản
Trang 6GV: Th.S Trần Kim Ngọc
1
Mô tả phương trình hồi quy
tuyến tính đơn giản
Phương trình hồi quy tuyến tính đơn giản chỉ mối liên hệ tuyến
tính chính xác giữa giá trị kỳ
vọng hay giá trị trung bình của
y, biến phụ thuộc, và x, biến độc lập hay biến dự báo:
E[yi]=β0 + β1 xiCác giá trị quan sát thực tế của
y khác với giá trị kỳ vọng bởi một sai số không giải thích được hay sai số ngẫu nhiên:
Yi = E[yi] + εi
= β0 + β1 xi + εiX
Trang 7GV: Th.S Trần Kim Ngọc
Quy trình ước lượng trong hồi quy tuyến
Trang 8GV: Th.S Trần Kim Ngọc
Tìm một đường thẳng “thích hợp” nhất
X
Y
Ba sai số so với giá trị tính theo đường thẳng bình phương bé nhất
X
Các sai số so với giá trị tính theo đường thẳng bình phương bé nhất được cực tiểu hoá
Trang 9GV: Th.S Trần Kim Ngọc
Các sai số trong hồi quy
Điểm dữ liệu quan sát
Giá trị dự báo của y ứng với xi
Đường hồi quy thích hợp nhất0 1
y b= + b
Trang 10GV: Th.S Trần Kim Ngọc
Phương pháp bình phương bé nhất
Q Tiêu chuẩn bình phương bé nhất
trong đó:
y i = giá trị quan sát của biến phụ thuộc
cho quan sát thứ i
y i = giá trị ước lượng của biến phụ thuộc
cho quan sát thứ i
Trang 11GV: Th.S Trần Kim Ngọc
Phương pháp bình phương bé nhất
b 0 SSE
Trang 12GV: Th.S Trần Kim Ngọc
Q Hệ số góc của phương trình hồi quy ước lượng
Q Hệ số chặn của phương trình hồi quy ước lượng
b0 = y - b1x hay b0 = (Σy i / n) - b1(Σx i / n)
trong đó:
x i = trị số của biến độc lập với quan sát thứ i
y i = trị số của biến phụ thuộc với quan sát thứ i
x = giá trị trung bình của biến độc lập
y = giá trị trung bình của biến phụ thuộc
n = tổng số quan sát
_ _
Phương pháp bình phương bé nhất
Trang 13GV: Th.S Trần Kim Ngọc
Trang 14GV: Th.S Trần Kim Ngọc
Ví dụ: Đợt bán xôn của Reed Auto
Q Hồi quy tuyến tính đơn giản
Reed Auto định kỳ có một
đợt bán xôn đặc biệt kéo
dài suốt một tuần Như
là một phần của chiến dịch
quảng cáo Reed thực hiện
một hoặc một số quảng cáo trên TV trong thời
gian cuối tuần trước đợt bán xôn Dữ liệu từ một
mẫu gồm 5 đợt bán xôn trước đây được cho dưới đây
Trang 15GV: Th.S Trần Kim Ngọc
Ví dụ: Đợt bán xôn của Reed Auto
Số lần quảng cáo Số lượng xe ô tô
trên TV bán được
Trang 16GV: Th.S Trần Kim Ngọc
Q Hệ số góc (hay độ dốc) của phương trình hồi quy ước lượng
Q Hệ số chặn (hay tung độ gốc) của phương trình
hồi quy ước lượng
Trang 17GV: Th.S Trần Kim Ngọc
Dùng CASIO fx-500MS
MODE 3 (Reg) 1 (Lin) [trên màn hình hiện REG] SHIFT MODE 1 (Scl) = [xoá bộ nhớ]
(Nhập dữ liệu)
1 14 M+ [trên màn hình nhảy n = 1]
3 24 M+ [trên màn hình nhảy n = 2]
2 18 M+ [trên màn hình nhảy n = 3]
1 17 M+ [trên màn hình nhảy n = 4]
3 27 M+ [trên màn hình nhảy n = 5] AC
SHIFT 2 1 = [cho b 0 = 10]
SHIFT 2 2 = [cho b 1 = 5]
SHIFT 2 3 = [cho r = 0,936585811]
Trang 18GV: Th.S Trần Kim Ngọc
Dùng CASIO fx-570MS
MODE MODE 2 (Reg) 1 (Lin)
SHIFT MODE 1 (Scl) = [xoá bộ nhớ]
(Nhập dữ liệu:)
1 14 M+ [trên màn hình nhảy n = 1]
3 24 M+ [trên màn hình nhảy n = 2]
2 18 M+ [trên màn hình nhảy n = 3]
1 17 M+ [trên màn hình nhảy n = 4]
3 27 M+ [trên màn hình nhảy n = 5] AC
SHIFT 2 1 = [cho b 0 = 10]
SHIFT 2 2 = [cho b 1 = 5]
SHIFT 2 3 = [cho r = 0,936585811]
Trang 19GV: Th.S Trần Kim Ngọc
Dùng CASIO fx-500ES
SHIFT 9 3 = AC [xoá bộ nhớ]
SHIFT MODE ∇ 4 Frequency?
1: ON 2: OFF MODE 2 (STAT) 2: A+BX [hồi quy tuyến tính]
(Nhập dữ liệu)
Trang 20GV: Th.S Trần Kim Ngọc
Dùng CASIO fx-500ES
Với CASIO fx-570ES:
MODE 3 (STAT) 2: A+BX [hồi quy tuyến tính]
Trang 21GV: Th.S Trần Kim Ngọc
Hệ số xác định, r 2, là một tiêu chuẩn mô tả để đánh giá cường độ của mối liên hệ hồi quy, một tiêu chuẩn đánh giá đường hồi quy phù hợp với dữ liệu tốt tới mức độ nào.
{Y
SSR r
SSR +
SSE
=
∑ −
=
∑ −
− +
2
2 2
2
ˆ ˆ
quy) (Hồi
dư)
(Phần
lệch đượcgiải thích đượcgiải thíchđộTổng = Độlệch không Độlệch
) y y (
) y (y )
y (y
Tỷ lệ phần trăm của toàn bộ biến thiên được giải thích bởi hồi quy.
Hồi quy tốt tới mức độ nào?
Trang 22GV: Th.S Trần Kim Ngọc
Hồi quy tốt tới mức độ nào?
Q SST = tổng các độ lệch bình phương toàn bộ
Q SSR = tổng các độ lệch bình phương do hồi quy
Q SSE = tổng các độ lệch bình phương do phần dư
Trang 23GV: Th.S Trần Kim Ngọc
Q Hệ số xác định
Mối liên hệ hồi quy là rất mạnh vì 88% phần biến thiên trong số xe ô tô đã bán ra có thể được giải thích bởi mối liên hệ tuyến tính giữa số lần
quảng cáo trên TV và số xe ô tô bán được
Ví dụ: Đợt bán xôn của Reed Auto
Trang 24GV: Th.S Trần Kim Ngọc
Hệ số tương quan
r = (dấu của ) Hệ số xác định b1r
x b b
y ˆ = b0 + b1x
y ˆ = 0 + 1
Trang 25GV: Th.S Trần Kim Ngọc
Các giá trị khác nhau của hệ số tương quan
Trang 26GV: Th.S Trần Kim Ngọc
Ví dụ: Đợt bán xôn của Reed Auto
Trang 27GV: Th.S Trần Kim Ngọc
Kiểm định ρ
Q Chúng ta có thể kiểm định để xem liệu sự tương
quan là có ý nghĩa không sử dụng các giả thuyết
Ha: ρ > 0 Ha: ρ < 0 Ha: ρ ≠ 0
Q Thống kê kiểm định là
Q Kiểm định này sẽ cho cùng một kết quả như
kiểm định mức ý nghĩa về hệ số độ dốc β1
−
−
=
Trang 28GV: Th.S Trần Kim Ngọc
Các giả định của mô hình
Q Các giả định về số hạng sai số ε
y Sai số ε là một biến ngẫu nhiên với trung bình là 0
y Phương sai của ε, biểu thị bằng , bằng nhau với mọi giá trị của biến độc lập
y Các giá trị của ε độc lập với nhau
y Sai số ε là một biến ngẫu nhiên có phân phối
chuẩn
2 ε
σ
Trang 29GV: Th.S Trần Kim Ngọc
Biến thiên của các sai số xung quanh
đường thẳng hồi quy
• Các giá trị của Y có phân phối
chuẩn xung quanh đường hồi quy.
• Với mỗi giá trị của X, “mức độ phân
tán” hay phương sai của Y xung quanh đường hồi quy là bằng nhau.
X 1
X 2 X
Y f(e)
Đường hồi quy mẫu
Trang 30GV: Th.S Trần Kim Ngọc
Kiểm định ý nghĩa
Q Để kiểm định mối liên hệ hồi quy có ý nghĩa, ta phải tiến hành kiểm định giả thuyết để quyết định liệu giá trị của β1 có bằng 0 hay không.
y Nếu β1 = 0, thì X không thể ảnh hưởng đến Y và mô hình
hồi quy rút gọn thành hằng số β0 cộng với sai số ngẫu nhiên.
Mô hình ban đầu Nếu β1 = 0 Thì
yi = β0 + β1xi + εi yi = β0 + (0)xi + εi yi = β0 + εi
Q Hai kiểm định thường được dùng
Q Cả hai kiểm định đều cần đến một ước lượng của , phương sai của ε trong mô hình hồi quy.
2
εσ
Kiểm định t và Kiểm định F
Trang 31GV: Th.S Trần Kim Ngọc
Kiểm định ý nghĩa
Q Ước lượng của
y Sai số bình phương trung bình (MSE) cung cấp một ước lượng của , ký hiệu là
= MSE = SSE/(n-2) trong đó:
Q Ước lượng của σε
y Để ước lượng σε ta lấy căn bậc hai của
y s e có được được gọi là sai số chuẩn của ước lượng.
∑
1 0
) ˆ (
SSE = ∑ y i − y i = ∑ y i − b − b x i 2
1 0
) ˆ (
SSE y i y i y i b b x i
2
e s
Trang 32GV: Th.S Trần Kim Ngọc
Kiểm định ý nghĩa
Q Sai số chuẩn của hệ số góc
Q Sai số chuẩn của tung độ gốc
0
2
2 1
1
b e n
i i
1
i i
Trang 33GV: Th.S Trần Kim Ngọc
Q Các giả thuyết:
H0: βi ≥ 0 H0: βi ≤ 0 H0: βi = 0
Ha: βi < 0 Ha: βi > 0 Ha: βi ≠ 0
Q Thống kê kiểm định:
Kiểm định t được sử dụng với df = n – 2
Q Quy tắc bác bỏ:
Bác bỏ H0 nếu
is b
t = − 0
Trang 34GV: Th.S Trần Kim Ngọc
Trang 35GV: Th.S Trần Kim Ngọc
Khoảng tin cậy cho βi
Trang 36GV: Th.S Trần Kim Ngọc
Khoảng tin cậy cho β1
Q Ta có thể dùng khoảng tin cậy 95% của β1 để
kiểm định các giả thuyết vừa sử dụng trong kiểm
định t.
Q H0 bị bác bỏ nếu giá trị giả thuyết của β1 không
bao gồm trong khoảng tin cậy của β1
Trang 37GV: Th.S Trần Kim Ngọc
Ví dụ: Đợt bán xôn của Reed Auto
Q Quy tắc bác bỏ
Bác bỏ H0 nếu 0 không thuộc khoảng tin cậy cho β1
Q Khoảng tin cậy 95% cho β1
= 5 +/- 3,182(1,08) = 5 +/- 3,44hay từ 1,56 đến 8,44
Trang 38GV: Th.S Trần Kim Ngọc
Kiểm định ý nghĩa: Kiểm định F
Q Các giả thuyết
H0: β1 = 0
Ha: β1 ≠ 0
F = MSR/MSE
Q Quy tắc bác bỏ
Bác bỏ H0 nếu F > Fα;1;n-2 trong đó Fα;1;n-2 dựa vào phân phối F với 1 bậc tự
do trên tử số và n - 2 bậc tự do dưới mẫu số.
Trang 39GV: Th.S Trần Kim Ngọc
quảng cáo trên TV và số lượng xe ô tô bán được.
Ví dụ: Đợt bán xôn của Reed Auto
Trang 40GV: Th.S Trần Kim Ngọc
Một vài cảnh báo về việc diễn giải kết quả của các kiểm định ý nghĩa
Q Việc bác bỏ H0: β1 = 0 và kết luận rằng mối liên
hệ giữa x và y là có ý nghĩa không cho phép ta
kết luận là có mối liên hệ nhân quả giữa x và y.
Q Chỉ vì ta có thể bác bỏ H0: β1 = 0 và chứng tỏ là
có ý nghĩa thống kê không cho phép ta kết luận
có mối liên hệ tuyến tính giữa x và y.
Trang 41GV: Th.S Trần Kim Ngọc
Q Ước lượng khoảng tin cậy của E(y p)
Q Ước lượng khoảng dự báo của y p
trong đó: hệ số tin cậy là 1 - α và
tα/2; n-2 dựa trên phân phối t với n - 2 df
Dùng phương trình hồi quy ước lượng
để ước lượng và dự báo
ˆ 2; 2
Trang 42GV: Th.S Trần Kim Ngọc
Khoảng dự báo cho giá trị trung bình của y,
với xp đã cho
Ước lượng khoảng dự báo cho
giá trị trung bình của y với một giá riêng biệt xp
Kích thước của khoảng này dao động theo khoảng cách tính từ trung bình, x
2
1 ˆ
Trang 43GV: Th.S Trần Kim Ngọc
Khoảng tin cậy cho một giá trị cá biệt của y,
với xp đã cho
Ước lượng khoảng tin cậy cho một
giá trị cá biệt của y với một giá riêng biệt xp
Số hạng cộng thêm này làm tăng thêm bề rộng khoảng nhằm phản ánh sự không chắc chắc gia tăng đối với một trường hợp riêng lẻ.
Trang 44GV: Th.S Trần Kim Ngọc
Các ước lượng khoảng với các giá trị khác nhau của x
y
x
Khoảng dự báo cho một giá trị cá biệt của y, với xp đã cho
Trang 45GV: Th.S Trần Kim Ngọc
Q Ước lượng điểm
Nếu có 3 lần quảng cáo trên TV được tổ chức trước một
đợt bán xôn (xp = 3), ta hy vọng số lượng xe ô tô bán
được trung bình sẽ là:
y p = 10 + 5(3) = 25 xe
Q Khoảng tin cậy cho E(y p)
Ước lượng khoảng với độ tin cậy 95% cho số lượng xe ô
tô bán được trung bình khi có 3 lần quảng cáo trên TV
được tổ chức là:
25 + 4,61 = 20,39 tới 29,61 xe
Q Dự báo khoảng cho y p
Ước lượng khoảng với độ tin cậy 95% cho số lượng xe ô
tô bán được trong một tuầøn đặc biệt khi có 3 lần quảng
cáo trên TV được tổ chức là:
25 + 8,28 = từ 16,72 đến 33,28 xe
^
Ví dụ: Đợt bán xôn của Reed Auto
Trang 46GV: Th.S Trần Kim Ngọc
Mặc dù sự xấp xỉ
tuyến tính được
đưa ra bởi là tốt
trong vùng giá trị
x quan sát được
trong mẫu, nó trở
nên xấu với các
giá trị x nằm
ngoài vùng đó
x y
Giá trị x nhỏ nhất lớn nhấtGiá trị x
Mối quan hệ thực sự
Vùng giá trị x quan sát được
Ví dụ về một sự xấp xỉ tuyến tính của một
mối liên hệ phi tuyến
Trang 47GV: Th.S Trần Kim Ngọc
Diễn giải các hệ số
Q Hệ số góc hay độ dốc (b1)
y Xét các giá trị của x nằm trong vùng quan sát, khi x tăng hay giảm 1 đơn vị thì y tăng hay giảm (nếu b1 +) hay giảm hay tăng (nếu b1 -) khoảng b1 đơn vị.
Q Tung độ gốc hay hệ số chặn trục tung (b0) cho ta biết giá trị trung bình của y khi x = 0
y Trên thực tế, x có thể nhận giá trị 0 không? và
y 0 có phải là một trong các giá trị quan sát của x
không?
y Khi điều kiện trên không xảy ra thì sự diễn giải ý
nghĩa của b0 không hợp lý lắm
Trang 48GV: Th.S Trần Kim Ngọc
Phân tích phần dư
Q Mục đích
y Kiểm tra giả định tuyến tính
y Kiểm tra phương sai không thay đổi với mọi
mức độ của x
y Đánh giá giả định phân phối chuẩn của phần dư
y Kiểm tra tính độc lập của phần dư
Q Phân tích các phần dư bằng đồ thị
y Có thể vẽ đồ thị các phần dư theo x hoặc theo y
y Có thể tạo các biểu đồ (histogram) phần dư đểkiểm tra tính chuẩn
^
Trang 49GV: Th.S Trần Kim Ngọc
Q Nếu giả định về số hạng sai số ε có vẻ đáng ngờ, các kiểm định giả thuyết về ý nghĩa của mối liên hệ hồi quy và kết quả ước lượng khoảng có thể
không có căn cứ vững chắc
Q Các phần dư cung cấp thông tin tốt nhất về ε
Q Phần lớn phân tích phần dư dựa trên việc xem
xét các biểu đồ (graphical plots)
Phân tích phần dư
Trang 50GV: Th.S Trần Kim Ngọc
Phân tích phần dư cho tính tuyến tính
Trang 51GV: Th.S Trần Kim Ngọc
Kiểm tra giả định phương sai không đổi
Q Nếu giả định phương sai của ε bằng nhau với mọi giá trị
của x là đúng, và mô hình hồi quy được giả định là một
sự mô tả hay biểu diễn thích đáng mối liên hệ giữa các
biến, thì
Biểu đồ phần dư sẽ đem lại một ấn tượng chung về một dải các điểm nằm ngang
Trang 52GV: Th.S Trần Kim Ngọc
Phân tích phần dư cho phương sai không đổi
Phương sai thay đổi 9 Phương sai không đổi
Trang 53GV: Th.S Trần Kim Ngọc
Kiểm tra giả định phương sai không đổi
Q Nếu với nhiều biến giải thích ta có thể vẽ phần dưtheo từng biến giải thích mà ta nghi ngờ gây ra hiện tượng phương sai thay đổi hoặc tốt hơn là vẽ phần
dư theo y là giá trị ước lượng được từ mô hình
Q Trêân thực tế không có một phương pháp chắc chắc nào để phát hiện ra hiện tượng phương sai thay đổi mà chỉ có thể dùng vài công cụ để chẩn đoán thôi Để biết thêm chi tiết, có thể đọc Vũ Thiếu, Nguyễn
Quang Dong và Nguyễn Khắc Minh, Kinh tế lượng,
Nxb Khoa học và Kỹ thuật, Hà Nội, 2001
^
Trang 54GV: Th.S Trần Kim Ngọc
Kiểm tra giả định phân phối chuẩn của phần dư
Q Có hai cách làm:
y Sử dụng biểu đồ phần dư chuẩn hoá theo x
y Sử dụng đồ thị xác suất chuẩn (Normal
probability plot)
Trang 55GV: Th.S Trần Kim Ngọc
Q Phần dư chuẩn hoá cho quan sát i
1
i i
i
x x h
1
i i
i
x x h
Trang 56GV: Th.S Trần Kim Ngọc
Biểu đồ phần dư chuẩn hoá
Q Biểu đồ phần dư chuẩn hoá có thể giúp ta hiểu rõ giả định số hạng sai số ε có phân phối chuẩn
Q Nếu giả định này được thoả mãn thì phân phối của các phần dư chuẩn hoá sẽ có vẻ bắt nguồn từ hay lấy từ một phân phối xác suất chuẩn tắc (vì s được dùng thay cho σ, phân phối xác suất của các phần
dư chuẩn hoá về mặt kỹ thuật là không chuẩn Tuy nhiên, trong hầu hết các nghiên cứu hồi quy, cỡ
mẫu thường đủ lớn để một sự xấp xỉ chuẩn là rất tốt) Do vậy, khi xem xét biểu đồ phần dư chuẩn hoá, chúng ta kỳ vọng nhìn thấy khoảng 95% các phần dư chuẩn hoá nằm trong khoảng từ -2 đến +2
Trang 57GV: Th.S Trần Kim Ngọc
Biểu đồ phần dư chuẩn hoá
Q Tất cả các phần dư chuẩn hoá khoảng từ –1,5
đến +1,5 cho biết không có lý do để nghi ngờ giảđịnh là ε có phân phối chuẩn
Trang 58GV: Th.S Trần Kim Ngọc
Phân tích phần dư cho
tính độc lập
Q Thống kê Durbin-Watson
y Sử dụng khi dữ liệu được thu thập theo thời gian nhằm phát hiện có tự tương quan (các phần dư ở một thời đoạn có liên quan với các phần dư ở một thời đoạn khác)
y Đo lường sự vi phạm giả định độc lập
2 1 2
2 1
Nên gần bằng 2
Nếu không, hãy xem xét mô hình để tìm tự tương quan.