Hai biến (đại lượng) được nói là có tương quan nếu chúng có quan hệ với nhau, chính xác hơn, sự thay đổi của biến này có ảnh hưởng đến thay đổi của biến còn lại.. Ký hiệu (x,y) là cặp gi[r]
(1)HỒI QUI VÀ TƯƠNG QUAN
1
TƯƠNG QUAN
Hai biến (đại lượng) nói có tương quan chúng có quan hệ với nhau, xác hơn, thay đổi biến có ảnh hưởng đến thay đổi biến cịn lại
Ký hiệu (x,y) cặp giá trị quan sát hai biến X, Y Ta vẽ đồ thị quan sát thông qua biểu đồ phân tán (scatter diagram)
2
VÍ DỤ
Một công ty nghiên cứu ảnh hưởng quảng cáo tới doanh số bán hàng Dữ liệu quảng cáo doanh thu tháng thu thập sau:
Hãy vẽ biểu đồ phân tán
Chi phí quảng cáo 1,3 0,9 1,8 2,1 1,5
Tổng doanh sốtháng tới
151,6 100,1 199,3 221,2 170,0
3
BIỂU ĐỒ PHÂN TÁN Biến độc lập: chi phí quảng cáo Biến phụ thuộc: doanh số bán hàng
4
HỆ SỐ TƯƠNG QUAN PEARSON
Ký hiệu: r hay rX,Y Cơng thức:
Trong n số lượng quan sát
1
2
2
, ; cov ,
cov ,
;
1
n
i i
i
n n
i i
i
X Y
X Y X
i
Y
x x y y x y
n x y
r
x x y y
n n
1 ,
2
1
n
i i
i
X Y n n
i i
i i
x x y y r
x x y y
5
HỆ SỐ TƯƠNG QUAN PEARSON
Ký hiệu: r hay rX,Y Cơng thức:
Trong n số lượng quan sát
, 2 2 2 2
2 2
X Y
n xy x y xy x y
r
n x x n y y x x y y
1 ,
2
1
n
i i
i
X Y n n
i i
i i
x x y y r
x x y y
(2)TRUNG BÌNH; PHƯƠNG SAI VÀ HIỆP PHƯƠNG SAI Đối với quan sát mẫu
Ta có:
1 1
2
2 2 2
2 2
1 1
;
;
n n
i i
n i n i
n n
i i
n i n i
n i i n n i
x y
x x x y y y
x y
n n n n
x y
x x x y y y
x y
n n n n
x y x y x y xy
n n
7
ĐÁNH GIÁ HỆ SỐ TƯƠNG QUAN
Miền giá trị: −1 ≤ 𝑟𝑋𝑌 ≤1
Nếu−1 ≤ 𝑟𝑋𝑌 ≤ 0thì tương quan âm rXYcàng gần -1 mối liên hệ tuyến tính nghịch X, Y mạnh
Nếu0 ≤ 𝑟𝑋𝑌 ≤ 1thì tương quan dương rXYcàng gần mối liên hệ tuyến tính thuận X, Y mạnh
rXYcàng gần quan hệ tuyến tính yếu
8
ĐÁNH GIÁ HỆ SỐ TƯƠNG QUAN
9
VÍ DỤ
Hãy tính hệ số tương quan Pearson chi phí quảng cáo doanh số ví dụ sau
Chi phí quảng cáo 1,3 0,9 1,8 2,1 1,5
Tổng doanh sốtháng
tới 151,6 100,1 199,3 221,2 170,0
10
VÍ DỤ
X Y X2 Y2 XY
1,3 151,6 1,69 22.982,56 197,08 0,9 100,1 0,81 10.020,01 90,09 1,8 199,3 3,24 39.720,49 358,74 2,1 221,2 4,41 48.929,44 464,52 1,5 170,0 2,25 28.900,00 255,00 7,6 842,2 12,40 150.552,50 1.365,43
Σ𝑋 Σ𝑌 Σ𝑋2 Σ𝑌2 Σ𝑋𝑌
5
1
5 5
2
1 1
5 7,6 842,
12, 40 150.552,50 1365, 43
i i
i i
i i i i
i i i
n x y
x y x y
11
VÍ DỤ
Ta có:
Hệ số tương quan:
Hoặc:
2
1,52 2, 48 168, 44
30110,5 273,086
x x y
y xy
2 2
273, 086 1,52.168, 44
2, 48 1,52 30110,5 168, 44 0,993371434 XY
r
1 1
2
1 1
2 2
5.1365, 43 7,6*842,
0,993371434 5.12, 7,6 5.150552,5 842,
n n n
i i i i
i i i
XY
n n n n
i i i i
i i i i
n x y x y r
x x y y
n n
(3)VÍ DỤ
Các giá trị trung bình
Độ lệch chuẩn:
Hệ số tương quan
2 12, 2, 48; 150552,5 30110,5; 1365, 43 273,086
5 5
x y xy
2 12, 2, 48; 150552,5 30110,5; 1365, 43 273,086
5 5
0, 460435 46,61634
X Y
x y xy
0,993371 r
13
VÍ DỤ
Số liệu thời gian quảng cáo truyền hình lượng sản phẩm tiêu thụ công ty sản xuất đồ chơi trẻ em sau:
Thời gian: phút/tuần Lượng tiêu thụ: 1000sp/tuần
Hãy tính hệ số tương quan mẫu cho kết luận
Thời gian 28 37 44 36 47 35 26 29 33 32 31 28
Lượng tiêu thụ 41 32 49 42 38 33 27 24 35 30 34 25
14
HỆ SỐ TƯƠNG QUAN SPEARMAN
Hệ số tương quan hạng Ký hiệu R
Cơng thức:
Trong n cỡ mẫu d hiệu số hạng.
2
6
1
d R
n n
15
HỆ SỐ TƯƠNG QUAN SPEARMAN
Khi tuyển dụng, công ty đánh giá ứng viên thông qua vấn kiểm tra Khi vấn, ứng viên đánh giá từ A (xuất sắc) đến E (không phù hợp) kiểm tra tính theo thang điểm 100 Kết ứng viên sau:
Tính hệ số tương quan hạng Spearman cho nhận xét
Ứng viên
Điểm vấn A B A C D Điểm thi 60 61 50 72 70
16
VÍ DỤ
Ta lập bảng sau:
Ứng viên phỏng vấnHạng kiểm traHạng Hiệusố Hiệu sốphươngbình
1 1,5 -2,5 6,25
2 3 0
3 1,5 -3,5 12,25
4
5
0 36,50
2
6 * 36, 50
1 0, 825
5 25 1
d R
n n
17
VÍ DỤ
Một chuyên gia yêu cầu nếm thử loại rượu có giá $ Hương vị loại rượu xếp hạng từ (dở nhất) đến (ngon nhất) Bảng tổng hợp xếp hạng giá loại rượu sau:
Loại rượu Hương vị Giá tiền
A 2,49
B 2,99
C 3,49
D 2,99
E 3,59
F 3,99
G 3,99
H 2,99
• Hãy tính hệsố tương quan hạng Spearman cho kết luận
(4)VÍ DỤ Ta lập bảng sau:
Loại rượu hươHạng vng ị giá tiHạngền Hisốệu Hiệphu sươốngbình
A B C D E F G H
19
PHÂN TÍCH HỒI QUY
Phân tích hồi quyđược sử dụng để xác định mối liên hệ
giữa:
Một biến phụ thuộc Y (biến giải thích)
Một hay nhiều biến độc lập X1, X2, …,Xn (cịn gọi biến giải thích)
Biến phụ thuộc Y phải biến liên tục
Các biến độc lập X1, X2, …, Xn biến liên tục, rời rạc hay phân loại
20
LIÊN HỆ HÀM SỐ VÀ LIÊN HỆ THỐNG KÊ
Liên hệ hàm số: Y=aX+b
Với giá trị X, có giá trị Y Liên hệ thống kê: Y=aX+b
Ví dụ: X: thời gian tự học; Y: điểm cuối kỳ Một giá trị X có nhiều giá trị Y Dữ liệu X: liệu mẫu
Dữ liệu mẫutìm đường hồi quy mẫudự đốn cho đường hồi quy tổng thể
21
VÍ DỤ
Một cơng ty muốn ước lượng hàm chi phí cho sản phẩm Giá trị hàm chi phí xác định vài mức sản xuất sau
22
VÍ DỤ
Mặc dù điểm quan sát không nằm đường thẳng tương quan tuyến tính mạnh
Cơng ty muốn xấp xỉ hàm chi phí hàm tuyến tính:
.
y a x b
• Ta cần xác định hệsố a, b cho đường thẳng xấp xỉtốt cho hàm chi phí
23
THẶNG DƯ (RESIDUAL)
Ta cần xác định a, b cho tổng bình phương thặng dư nhỏ
(5)VÍ DỤ
Số liệu doanh số số lượng nhân viên kinh doanh khu vực công ty X sau:
Hãy tìm mơ hình tuyến tính dự đốn doanh số theo số nhân viên kinh doanh
Khu vực Doanh số Sốnhân viên kinh doanh
A 236 11
B 234 12
C 298 18
D 250 15
E 246 13
F 202 10
25
TỔNG QUÁT
Giả sử có n quan sát (x1,y1), (x2,y2),…,(xn,yn)
Ta cần xác định đường thẳng y=a.x+b cho tổng bình phương thặng dư nhỏ Hay cần cực tiểu hóa hàm số sau:
Chú ý:
a, b: hai ẩn cần tìm xk; yklà giá trị biết
2
1 , n k k
i
F a b y a x b
26
TỔNG QUÁT Ta có:
Đường hồi quy qua điểm (𝒙 ; 𝒚 )
1
2
2 2
1
n
k k
k n
k k
a y b x
x x y y xy x y b
x x x x
27
VÍ DỤ
Số liệu doanh số số lượng nhân viên kinh doanh khu vực cơng ty X sau:
Hãy tìm mơ hình tuyến tính dự đốn doanh số theo số nhân viên kinh doanh
Khu vực Doanh số Sốnhân viên kinh doanh
A 236 11
B 234 12
C 298 18
D 250 15
E 246 13
F 202 10
28
ỨNG DỤNG KINH TẾ
Nhu cầu sử dụng dầu nhiên liệu để sưởi ấm nhà Hoa Kỳ giảm đặn nhiều thập kỷ Bảng sau liệt kê tỷ lệ hộ gia đình Hoa Kỳ sưởi ấm dầu nhiên liệu từ 1960 đến 2009 Sử dụng hồi quy tuyến tính để ước lượng tỷ lệ hộ gia đình sử dụng dầu nhiên liệu vào năm 1995
Đáp số: 12,44%
29
HỒI QUY TUYẾN TÍNH TỔNG QT
Vấn đề: có hai biến quan sát X Y
Ta cần tìm phương trình thể mối liên hệ giá trị Y X
Y: biến phụ thuộc; X: biến độc lập
Dùng mơ hình hồi quy đơn giản nhất: hồi quy tuyến tính Có thể sử dụng mơ hình khác: phi tuyến; bậc 2; bậc 3; mũ; logarit …
(6)HỒI QUY TUYẾN TÍNH
X Y có tương quan tuyến tính mạnh
Ta giả sử X Y có mối quan hệ tuyến tính với Mơ sau:
β1 ∶ hệ số chặn (intercept) β2: hệ số góc (slope)
u: sai số ngẫu nhiên (nhiễu ngẫu nhiên, nhiễu trắng)
1
y x u
31
HỒI QUY TUYẾN TÍNH
Với giá trị quan sát ta có:
yi: giá trị quan sát Y X nhận giá trị xi xi: giá trị quan sát thứ i X
ui: sai số ngẫu nhiên X nhận giá trị xi
1
i i i
y x u
32
HÀM HỒI QUY TỔNG THỂ Hàm hồi quy tổng thể
Đối với quan sát cụ thể ta có:
Mơ hình có biến phụ thuộc Y biến giải thích X
𝛽 𝛽 gọi hệ số chặn (intercept) hệ số góc (slope) đường thẳng hồi quy
1
| i
E Y X X X
Y X
1
i i i
Y X u
33
HÀM HỒI QUY MẪU SRF
Ta có số liệu tổng thể mà có số liệu mẫu (số liệu quan sát được)
Ta dùng số liệu mẫu để ước lượng tổng thể Hàm hồi quy mẫu:
Đối với quan sát thứ i:
1
i i
Y X
1
i i i
Y X u
34
Y
X
35
1
2
ˆ
1
ˆ
PRF
SRF
Hệ số hồi quy hàm hồi quy PRF SRF
PRF SRF PRF VÀ SRF
Trong
𝛽 ước lượng cho1
𝛽 ước lượng cho2
𝑌 ước lượng cho Y hay E(Y|Xi)
Ta sử dụng phương pháp bình phương nhỏ thơng thường (OLS) để tìm 𝛽 ; 𝛽
(7)HỒI QUY TỔNG THỂ VÀ HỒI QUY MẪU
37
CHÚ Ý
Tình trạng Biện pháp
Hệsốβ1 Tham số
Không xác định xác giá trị
Ước lượng Kiểm định
Hệsốβ𝟐
Phương sai sai số𝜎2
Hệsố𝜷𝟏 Biến ngẫu nhiên
Có thể tính giá trị mẫu chọn
Dùng để ước lượng cho tham số tổng thể
Hệ số𝜷𝟏
Phương sai thặng dư mẫu𝜎2
38
ƯỚC LƯỢNG OLS Tìm giá trị củaβ1;β2sao cho:
Đạt giá trị nhỏ (pp bình phương tối thiểu) Dễ thấy:
2
2
1
1
n n
i i i
i u i y x
2
1 2 2 2
1 2 ; n i i i n i i
x y x xy xy x y
x x x x
x x y y
y x x x 39
HỆ SỐ HỒI QUY MẪU
Là ước lượng củaβ1;β2 Dạng biểu diễn khác:
2 2 2
1 1 ; n n
i i i
i
i i i
n n
i
i i
i i
x x y x x
c y c
x x x x
y x 40
MỘT SỐ TÍNH CHẤT
Giá trị trung bình hệ số hồi quy mẫu: Phương sai hệ số hồi quy mẫu:
Ta dùng kết để ước lượng giá trị hệ số hồi quy tổng thểβ1;β2
Nhưng giá trị của𝜎2 chưa xác định.
1 2
1;
E E
2
1 2
1 1 n n i i i i x V V
n x x x x
41
MỘT VÀI TÍNH CHẤT
(8)MỘT VÀI TÍNH CHẤT
Ta có:
1 1
0
n n n n
i i i i i i i
i i i i
u y y y y y y
43
KÝ HIỆU
Ta có:
44
TÁCH NHĨM BIẾN THIÊN: KHÁI NIỆM
TSS = tổng mức độ khác biệt bình phương giá trịyivà trị số trung bình củay
ESS = tổng mức độ khác biệt bình phương giá trị quan sát giá trị dự đoán củay
RSS = tổng mức độ khác biệt bình phương giá trị dự đốn củayvà trị số trung bình củay
45
ĐO SỰ BIẾN THIÊN CỦA DỮ LIỆU Tổng bình phương tồn phần (Total Sum of Squares)
Tổng bình phương hồi quy (Regression Sum of Squares)
Tổng bình phương sai số (Residual Sum of Squares) 2
1 n
i i
RSS y y
2
1 n
i i
TSS y y
2
n i i i
ESS y y
46
RSS Tổng chênh lệch
ESS
SRF Y
X yi
Xi
i y
Ý nghĩa hình học TSS, RSS ESS
Các tổng bình phương độlệch 2
1 n
i i
RSS y y
2 n
i i
TSS y y
2
1 n
i i i
ESS y y
yy
CÁC TỔNG BÌNH PHƯƠNG ĐỘ LỆCH
Khi điểm quan sát gần đường thẳng ước lượng “độ thích hợp” cao, có nghĩa ESS nhỏ RSS lớn
Tham số đo độ thích hợp: R2 lớn tốt
ESS: biến thiên khơng giải thích RSS: biến thiên giải thích
R2 nhỏ nghĩa nhiều biến thiên Y khơng giải thích X Cần phải thêm nhiều biến khác vào mơ hình
2
0R 1
𝑅 =𝑅𝑆𝑆 𝑇𝑆𝑆
(9)HỆ SỐ XÁC ĐỊNH
Coefficient of determination
Là tỷ lệ tổng biến thiên biến phụ thuộc gây biến thiên biến độc lập (biến giải thích) so với tổng biến thiên tồn phần
Tên gọi: R_bình phương (R squared) Ký hiệu:
Dễ thấy: 2 RSS
R TSS
2
0R 1
49
HỆ SỐ XÁC ĐỊNH
Đánh giá mơ hình tìm có giải thích tốt cho mối liên hệ biến phụ thuộc Y biến độc lập X hay khơng Là bình phương hệ số tương quan mẫu
2 2
2
2
2 2 2
2
i i XY
x x x x
RSS R
TSS y y y y
R r
50
Tính chất hệ số xác định R2
51
• 0≤ R2≤1
• Cho biết % biến động Y giải thích biến số X mơ hình
• R2=1: đường hồi quy phù hợp hồn hảo
• R2=0: X Y khơng có quan hệ
• R2 càng lớn tốt
• Đối với liệu chuỗi thời gian R2 thường lớn hơn
0,9 Nếu thấp 0,6 hay 0,7 xem thấp • Với liệu chéo R2 khoảng 0,6 hay 0,7 cũng
chưa hẳn thấp
ƯỚC LƯỢNG CHO PHƯƠNG SAI SAI SỐ𝜎2
52
ƯỚC LƯỢNG VÀ DỰ BÁO
1 Ước lượng hệ số góc 2 Ước lượng hệ số chặn 3 Ước lượng phương sai sai số 4 Dự báo giá trị trung bình 5 Dự báo điểm
53
PHÂN PHỐI XÁC SUẤT CỦA𝛃1
Nhớ
Với độ tin cậy 95% thì:
1 1
~t n
Se
2,5% 2,5% 95%
0,025 t n
0,025 t n
1 1
0,025 0,025
1
2
t n t n
Se
1 t0,025 n Se 1 t0,025 n Se
(10)2
1
2 t n
2
2 t n ƯỚC LƯỢNG CHO 𝛃1
Tổng quát với độ tin cậy(1 − 𝛼)
2
1 1
xx x Se V n S
1 1
2 1
2
t n t n Se
1 1 1
2
2
t n Se t n Se
2 ESS n 55
CÔNG THỨC ƯỚC LƯỢNG𝛃1
Khoảng tin cậy(1 − 𝛼)của hệsố1
Trong đó:
1 1; 11
𝜎 = 𝐸𝑆𝑆
𝑛 − 𝜀 = 𝑡 ⁄ 𝑛 − 𝜎
1 𝑛+
𝑥̅ 𝑆
56
PHÂN PHỐI XÁC SUẤT CỦA 𝛃𝟐
Nhớ
Với độ tin cậy (1-𝛼) thì:
2 2
~t n
Se / /
1
/2
t n
/2 t n
2 2
/2 /2
2
2
t n t n
Se
2 t/2 n Se 2 t/2 n Se
2 xx Se V S 57
CÔNG THỨC ƯỚC LƯỢNG𝛃𝟐
Khoảng tin cậy(1 − 𝛼) của hệsố2
Trong đó:
2 2; 22
𝜀 = 𝑡 ⁄ 𝑛 − 𝜎
1
𝑆 𝜎 =
𝐸𝑆𝑆 𝑛 −
58
CƠNG THỨC ƯỚC LƯỢNG𝜎2
• Khoảng tin cậy của phương sai sai sốtổng thể:
2
2
/2 /2 ; 2 2 ESS ESS n n 59 DỰ BÁO
Cho X nhận giá trị x0 Ta tiến hành dự báo: Trung bình Y X = x0 Ký hiệu: E(Y0|X0) Giá trị cụ thể Y X = x0 Ký hiệu: 𝑌0 Công thức chung:
Giá trị ước lượng ±Sai số
(11)DỰ BÁO GIÁ TRỊ Y0
61
DỰ BÁO GIÁ TRỊ E(Y/X0)
62
BỔ SUNG KIẾN THỨC VỀ PHÂN PHỐI XÁC SUẤT Phân phối chuẩn
Phân phối Student Phân phối Khi bình phương
63
GIÁ TRỊ TỚI HẠN𝜒2(n; α)
Giá trị tới hạn mức α (0 ≤ 𝛼 ≤ 1)là số thực ký hiệu 𝜒2(n;𝛼) cho với Z~𝜒2(n) thì:
64
n;
P Z
2 n;
BẢNG GIÁ TRỊ TỚI HẠN KHI BÌNH PHƯƠNG
65
GIÁ TRỊ TỚI HẠN𝑡(𝑛, 𝛼)
Giá trị tới hạn mức α (0 ≤ 𝛼 ≤ 1)là số thực ký hiệu 𝑡(𝑛, 𝛼)sao cho với Z~𝑡(n) thì:
66
Z tn;
P
;0 ;1
;0,5 ;1 ;
; 0
n n
n n n
n n
t t
t t t
t Z
(12)BẢNG GIÁ TRỊ TỚI HẠN STUDENT
67
VÍ DỤ
Quan sát biến động nhu cầu gạo Y (tấn/tháng) vào đơn giá X (ngàn đồng/kg) ta số liệu cho bảng Hãy lập mơ hình quy mẫu biễu diễn mối phụ thuộc nhu cầu vào đơn giá gạo
Xi 5
Yi 10
68
VÍ DỤ Ta lập bảng sau:
Ta có:
Stt Xi Yi XiYi X^2
1 10 10
2 24 16
3 18
4 5 25 25
5 20 25
6 14 49
sum 24 36 111 120
24 36
4
6
X Y
69
VÍ DỤ
Ta có:
1
2
2
1
.
111 6.4.6
ˆ 1,375
120 6.(4) .( )
n i i i
n i i
Y X n X Y X n X
1
ˆ Y ˆ X 6 ( 1,375).4 11,5
i
i X
Yˆ 11,51,375.
70
71
Giải hồi quy bằng máy tính
1 Bật tần số: Shift+Mode+↓ +4+1 (Freq On 2 Chọn Mode Regression: Mode+3+2(chọn
A+Bx)
3 Nhập liệu theo cột 4 Kiểm tra nhấn AC thoát
5 Xem kết quả: Shift +1+ 3,4,5 (tùy theo Sum, Var hay Reg)
72
Bài tập 1
Thu thập số liệu điểm học tập học sinh và mức thu nhập hàng năm bố mẹ ta có bảng số liệu sau:
Hãy tìm hàm hồi quy mẫu tính đặc trưng của nó
Xi: thu nhập (triệu/năm) Yi: điểm trung bình
(13)73
Bài tập 1
b) Với độ tin cậy 95% ước lượng hệ số chặn, hệ số góc phương sai sai số.
c) Với độ tin cậy 90%, dự đốn điểm điểm trung bình thu nhập 80
Xi 45 60 30 90 75 45 105 60 Yi 8,75 7,5 6,25 8,75 7,5 5,0 9,5 6,5
74
Bài tập 2
Số liệu tỷ lệ lạm phát lãi suất năm 2011 quốc gia sau:
a) Ước lượng viết phương trình hồi quy tuyến
tính𝑦 = 𝛽1 + 𝛽2𝑥 + 𝑢
b) Tìm hệ số xác định giải thích ý nghĩa c) Dự đốn lãi suất trung bình lạm phát là
10%.
Lãi suất Y (%) 11 20 10 16 14 Lạm phát X (%) 17 12 12
75
Bài tập 3
Cho bảng số liệu sau:
a) Tìm hệ số tương quan mẫu b) Tìm phương trình hồi quy mẫu c) Tính Sxx, Sxy, Syy
d) Tính TSS, RSS, ESS
e) Tính giá trị hồi quy từ tìm ESS f) Ước lượng cho𝛽1; 𝛽2; 𝜎2với độ tin cậy 90% g) Dự đoán giá trị Y X 18