HỆ SỐ TƯƠNG QUAN MẪU Định nghĩa và các tính chất của Hệ số tương quan ρ của hai biến ngẫu nhiên X và Y đã được đề cập đến trong đoạn 2.7.. quan ñến các giá trị khác nhau của hệ số tương
Trang 1Chương 7
Tương quan và
Hồi qui tuyến tính
1 HỆ SỐ TƯƠNG QUAN MẪU
Định nghĩa và các tính chất của Hệ số tương quan ρ của hai biến ngẫu nhiên X và Y đã được đề cập đến trong đoạn 2.7 Trong thực tế, chúng ta khơng biết ρ mà chỉ dựa vào mẫu để suy đốn về ρ
1.1 Định nghĩa Giả sử (X1, Y1); (X 2, Y2); ; (Xn, Yn) là mẫu được
thành lập từ vectơ ngẫu nhiên (X, Y) Biến ngẫu nhiên
1
( 1) R
n
i
X Y
X X Y Y
n S S
=
−
∑
=
được gọi là Hệ số tương quan mẫu của X và Y
Với mẫu cụ thể, giá trị hệ số tương quan mẫu được tính bởi:
r
i i i i
X Y
trong đĩ, ký hiệu Σ chỉ
1
n
i=
∑
2 KIỂM ĐỊNH GIẢ THIẾT VỀ HỆ SỐ TƯƠNG QUAN
Giả sử (X1, Y1); (X2, Y2); ; (Xn, Yn) là mẫu được thành lập từ tổng thể (X,Y) cĩ phân phối chuẩn hai chiều Chúng ta muốn kiểm định các giả thiết liên
Trang 2quan ñến các giá trị khác nhau của hệ số tương quan tổng thể, ký hiệu ρ, dựa trên phân phối mẫu của hệ số tương quan mẫu R
2.1 Kiểm ñịnh giả thiết:
H0: ρ = 0 ñối với H1: ρ ≠ 0 (hoặc ρ > 0 hoặc ρ < 0) Người ta chứng minh ñược rằng với giả thiết H0, phân phối mẫu của R ñối xứng; từ ñó, thống kê
2
2 1
−
= n
R
R ~ Student (n − 2)
Trắc nghiệm t ñược dùng trong trường hợp này
2.2 Kiểm ñịnh giả thiết:
H0: ρ = ρo ≠ 0 ñối với H1: ρ ≠ ρo Với giả thiết H0, phân phối mẫu của R bị lệch nên không thể dùng trực tiếp
R Trong trường hợp này, Fisher ñã ñề nghị một phép biến ñổi ñưa ñến thống kê
( + )
−
= 1 1
2ln 1 R
R
Z
có phân phối tiệm cận chuẩn với kỳ vọng và phương sai lần lượt là
1 1
2ln 1 o 2( o 1)
o
3
Z n −
Trắc nghiệm U ñược dùng với U = Z*, biến chuẩn hóa của Z
Phép biến ñổi trên ñược gọi là phép biến ñổi Fisher; nó cũng ñược dùng ñể tìm khoảng tin cậy cho hệ số tương quan tổng thể
2.3 Thí dụ Dựa vào mẫu ngẫu nhiên cỡ 18 ñược chọn từ tổng thể (X,Y)
có phân phối chuẩn 2 chiều, người ta tính ñược giá trị hệ số tương quan mẫu r = 0,32 Ở mức ý nghĩa 5%, có sự tương quan tuyến tính giữa X và Y không?
Giải
Chúng ta phải có quyết ñịnh giữa hai giả thiết:
H0: ρ = 0 và H1: ρ ≠ 0
Nếu H0 ñúng thì BNN
2
18 2 1
T
R
−
Với mức α = 5% , giá trị tới hạn là: t0,975(16) = 2,1199;
với mẫu cụ thể, chúng ta có:
Trang 30, 32 16
1, 35
1 (0, 32)
−
Vì |t| < 2,12 nên giả thiết H0 khơng thể bị bác bỏ ở mức ý nghĩa α = 5% Nĩi cách khác, chúng ta chấp nhận rằng X và Y khơng tương quan ở mức ý nghĩa 5%
2.4 Thí dụ Hệ số tương quan được tính trên mẫu cỡ 24, chọn từ tổng thể
cĩ phân phối chuẩn 2 chiều, là r = 0,75 Ở mức ý nghĩa α = 5%, hãy cho nhận xét
về tài liệu cho rằng hệ số tương quan tổng thể bằng 0,65
Giải
Kiểm định giả thiết H0: ρ = 0,65 đối với H1: ρ ≠ 0,65
Trắc nghiệm U 2 đuơi được sử dụng, với
~ (0,1)
Z Z
Z
U − µ N
=
Với mức α = 5% , gtth = u0,975 =1, 96;
với mẫu cụ thể, chúng ta cĩ :
(1 0,75)
1
2ln 1 0,75 0,9730
−
(1 0,65) 0,65
+
và Z 0,8414
Z
z
u − µ
σ
Vì u < gtth nên ở mức ý nghĩa α = 5%, giả thiết H0 được chấp nhận, i.e.tài liệu được chấp nhận
3 PHÂN TÍCH HỒI QUI
Phân tích tương quan ở phần trên giúp chúng ta biết mức độ phụ thuộc
tuyến tính giữa các biến ngẫu nhiên Bài tốn Phân tích hồi qui được trình bày
trong phần này sẽ giúp chúng ta thiết lập cấu trúc của mối liên hệ phụ thuộc của một biến (gọi là biến phụ thuộc) với một hay nhiều biến khác (gọi là biến độc lập); chúng ta muốn thể hiện mối liên hệ phụ thuộc giữa các biến dưới dạng tốn học bằng một phương trình nối các biến đĩ Phương trình đĩ cho phép chúng ta
dự đốn về một biến phụ thuộc trên cơ sở đã biết về các biến độc lập Giáo trình này chỉ trình bày trường hợp cĩ một biến độc lập duy nhất (hồi qui đơn)
Trang 43.1 Định nghĩa Cho hai BNN X và Y trên cùng một không gian xác suất
có h.m.ñ ñồng thời f Kỳ vọng ñiều kiện của Y khi biết X lấy giá trị x, ký hiệu E(Y/x) ñược xác ñịnh bởi:
( / ) ( / )
y
E Y x = ∑ y f y x nếu X và Y rời rạc,
hoặc E Y x ( / ) y f y x dy ( / )
+ ∞
− ∞
= ∫ nếu X và Y liên tục
ϕ(x) = E(Y/x) là một hàm của x ϕ ñược gọi là hàm hồi qui của Y theo X
Đồ thị của hàm ϕ ñược gọi là ñường hồi qui của Y theo X
Định nghĩa tương tự cho khái niệm kỳ vọng ñiều kiện của X khi biết Y lấy
giá trị y, ký hiệu E(X/y) ψ(y) = E(X/y) là một hàm của y ψ ñược gọi là hàm hồi
qui của X theo Y Đồ thị của hàm ψ ñược gọi là ñường hồi qui của X theo Y 3.2 Định nghĩa Cho hai BNN X và Y trên cùng một không gian xác suất
(a) Nếu ϕ(x) = E(Y/x) = a + bx thì người ta nói rằng ϕϕϕ là hàm hồi qui
tuyến tính của Y theo X b ñược gọi là hệ số hồi qui tuyến tính Y theo X
(b) Nếu ψ(y) = E(X/y) = c + dx thì người ta nói rằng ψψψ là hàm hồi qui
tuyến tính của X theo Y d ñược gọi là hệ số hồi qui tuyến tính X theo Y
Chúng ta công nhận ñịnh lý sau:
3.3 Định lý Cho hai BNN X và Y tuân theo luật phân phối chuẩn hai
chiều với các kỳ vọng µ1 và µ2, các phương sai dương σ12và σ22, và hệ số tương quan ρ Khi ñó, hàm hồi qui của Y theo X và hàm hồi qui của X theo Y là các hàm tuyến tính Cụ thể:
(a) ϕ(x) = E(Y/x) = a + bx, với: 2
1
b σ
σ
= ρ và a = µ − µ2 b 1
(b) ψ(y) = E(X/y) = c + dx, với: 1
2
d σ
σ
= ρ và c = µ − µ1 d 2
3.4 Bài toán Giả sử X là biến ngẫu nhiên ñộc lập và Y là biến ngẫu
nhiên phụ thuộc vào X Nếu chúng ta muốn ước lượng giá trị của Y bằng giá trị của biến ngẫu nhiên θoX, với θ là một hàm thực nào ñó, thì chúng ta mắc một sai
số
S(θ) = E[(Y − θoX)2],
gọi là Độ sai dự báo Vấn ñề ñặt ra là chọn θ như thế nào ñể cho sự ước lượng là
tốt nhất, theo nghĩa S(θ) ñạt giá trị nhỏ nhất
3.5 Định lý Biểu thức S(θ) = E[(Y − θ oX) 2] ñạt cực tiểu khi θ(x) =
E(Y/x) với mọi x
Trang 53.6 Chú ý Khi dùng hàm hồi qui của Y theo X ñể tính xấp xỉ Y thì Độ sai dự báo là:
2 1
Y X
σ . = σ ( − ρ ) Chúng ta nhận thấy rằng sai số càng nhỏ khi ρ càng gần 1 Do ñó, chúng ta chỉ nên dùng hàm hồi qui ñể xấp xỉ Y trên cơ sở biết X khi ρ gần bằng 1
Chúng ta có thể tìm khoảng tin cậy cho trung bình của Y khi X lấy giá trị
x0 Tuy nhiên, trong giáo trình này chúng ta tạm hài lòng với dự báo của Y bằng cách thay giá trị x0 vào phương trình ñường thẳng hồi qui của Y theo X
4 HÀM HỒI QUI TUYẾN TÍNH MẪU
Trong thực tế, chúng ta không khảo sát hết tổng thể, chưa biết phân phối của vectơ ngẫu nhiên (X,Y) nên khó có thể xác ñịnh ñược dạng toán học của hàm hồi qui tổng thể Chúng ta phải dựa trên mẫu ñể xây dựng hàm hồi qui mẫu sao cho nó là ước lượng tốt nhất hàm hồi qui tổng thể
Giả sử (x1, y1), (x2, y2), , (xn, yn) là n cặp quan sát ñược trên mẫu ñược thành lập từ vectơ ngẫu nhiên (X,Y) Để có một hình ảnh trực quan về mối tương quan giữa X và Y, người ta biểu diễn mỗi cặp số (xi, yi) bằng ñiểm Mi có toạ ñộ
(x i , y i), (i = 1, 2, , n) trên mặt phẳng toạ ñộ Oxy Tập hợp các ñiểm Mi (i = 1,
2, , n) tạo nên một “ñám mây thống kê” và thường ñược gọi là Biểu ñồ phân
tán Biểu ñồ phân tán cho chúng ta cái nhìn khái quát về mức ñộ cũng như cấu
trúc của sự tương quan giữa Y và X Từ biểu ñồ phân tán, người ta thường nhận
thấy có một ñường (cong hoặc thẳng) xấp xỉ dữ liệu (các ñiểm (x i , y i) tụ tập gần ñường ñó) Nếu ñường nói trên là ñường thẳng thì Y có hồi qui tuyến tính theo X
Hồi qui tuyến tính
y
10 20 30
x
y Hồi qui phi tuyến
Trang 60 2 4 6 8
10 20 30
x
Từ mẫu trên, người ta xây dựng ñường hồi qui tuyến tính mẫu bằng cách thay các số ñặc trưng của tổng thể bằng các ước lượng ñiểm tương ứng:
Hàm hồi qui tuyến tính mẫu của Y theo X: y = A + Bx, với
r Y
X
s s
B= và A= y − Bx, với ñộ sai dự báo mẫu:
Y X Y
Hàm hồi qui tuyến tính mẫu của X theo Y:
r X
Y
s s
với ñộ sai dự báo mẫu:
X Y
4.1 Thí dụ Giả sử các giá trị quan sát ñược trên một mẫu của VTNN
(X,Y) tuân theo luật phân phối chuẩn hai chiều ñược cho trong bảng sau:
(a) Vẽ biểu ñồ phân tán cho dữ liệu trong bảng trên
(b) Hãy tính giá trị hệ số tương quan mẫu
(c) Viết phương trình ñường thẳng hồi qui mẫu của Y theo X Hãy dự báo giá trị của Y khi X lấy giá trị 12
Giải.
(a) Biểu ñồ phân tán:
Trang 7
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 1 0 11 1 2 13 1 4 15
x
(b) Chúng ta lập bảng tính sau:
i
i
x x yi i 2
i
y
1
3
4
6
8
9
11
14
1
2
4
4
5
7
8
9
1
9
16
36
64
81
121
196
1
6
16
24
40
63
88
126
1
4
16
16
25
49
64
81
i
i
y = 256
Các giá trị trung bình mẫu và ñộ lệch chuẩn nẫu:
x = 7, s X = 4,342, y = 5, s Y = 2,828
Giá trị hệ số tương quan mẫu:
0,977
i i
X Y
r
∑
r = 0,977
(c) VTNN (X,Y) tuân theo luật phân phối chuẩn hai chiều nên hàm hồi qui
mẫu của Y theo X là hàm tuyến tính y = A + Bx, với
r. Y
X
s s
B = = 6364
Trang 8và A = y − Bx = 0,5455
Phương trình ñường hồi qui mẫu của Y theo X là:
y = 0,6364x + 0,5455
Khi X lấy giá trị 12 thì dự báo Y có giá trị là:
y o = 0,6364 × 12 + 0,5455 = 8,1823
BÀI TẬP
Trong mỗi bài tập dưới ñây, giả sử rằng vectơ ngẫu nhiên ñang xét tuân theo luật phân phối chuẩn hai chiều
7.1. Xem vectơ ngẫu nhiên (X,Y) mà một mẫu ngẫu nhiên gồm 8 cặp ñược chọn ra như sau:
Hãy tính giá trị hệ số tương quan mẫu của X và Y và cho nhận xét
7.2. Một cơ sở sản xuất ñã ghi lại số tiền ñã chi cho việc nghiên cứu phát triển và lợi nhuận hàng năm của cơ sở trong 6 năm vừa qua như sau: (ñơn vị 106 VNĐ)
Chi nghiên cứu 5 11 4 5 3 2
Lợi nhuận 31 40 30 34 25 20
(a) Vẽ biểu ñồ phân tán cho dữ liệu trong bảng trên
(b) Hãy tính giá trị hệ số tương quan mẫu giữa chi nghiên cứu và lợi nhuận (c) Chi nghiên cứu và lợi nhuận có thực sự tương quan không? (kết luận ở mức ý nghĩa α = 2%)
(d) Viết phương trình ñường hồi qui tuyến tính mẫu của lợi nhuận theo chi phí nghiên cứu
7.3. Đo chiều cao Y (cm) và chiều dài chi dưới X (cm) của một nhóm thanh niên, người ta thu ñược số liệu sau:
Trang 9y i 160 161,5 163 165 167 168 171 172
(a) Tính giá trị hệ số tương quan mẫu của X và Y
(b) Ở mức ý nghĩa α = 5%, hãy cho nhận xét về tài liệu cho rằng hệ số tương quan của X và Y là 0,9
(c) Viết phương trình ñường hồi quy mẫu của Y theo X
7.4. Một giảng viên dạy môn thống kê yêu cầu mỗi sinh viên phải làm một ñồ án phân tích dữ liệu và dự kỳ thi hết môn Sau ñó, một mẫu gồm 10 sinh viên ñược chọn ngẫu nhiên, ñiểm số ñược ghi lại như sau:
(a) Tìm khoảng tin cậy 95% cho ñiểm thi trung bình của một sinh viên (b) Ở mức ý nghĩa 5%, hãy ñánh giá về sự tương quan tuyến tính giữa hai loại ñiểm trên
7.5. Để thực hiện một công trình nghiên cứu về mối quan hệ giữa chiều cao Y(m) và ñường kính X(cm) của một loại cây, người ta quan sát trên một mẫu ngẫu nhiên và có kết quả sau:
(a) Hãy tính giá trị hệ số tương quan mẫu của X và Y và cho nhận xét (b) Viết phương trình ñường thẳng hồi quy mẫu của Y theo X Hãy dự báo chiều cao của cây có ñường kính 45 cm
7.6. X (%) và Y(kg/mm2) là hai chỉ tiêu chất lượng của một loại sản phẩm Điều tra ở một số sản phẩm, người ta ñược các giá trị (xi, yi) của vectơ ngẫu nhiên (X, Y) như sau:
(2, 5); (8, 15); (4, 15); (4, 10); (2, 10); (8, 25);
(2, 5); (6, 10); (4, 10); (8, 20); (6, 10); (8, 15);
(6, 10); (6, 15); (4, 15); (6, 15); (6, 15); (8, 20);
(6, 20); (6, 10); (6, 20); (6, 15); (6, 25); (8, 20);
(6, 15); (6, 20); (8, 15); (6, 15); (8, 25); (8, 15)
(a) Tìm khoảng tin cậy 98% cho trung bình chỉ tiêu Y
Trang 10(b) Có tài liệu cho rằng trung bình chỉ tiêu X là 6,5% Hãy cho nhận xét về tài liệu trên ở mức ý nghĩa 5%
(c) Tính giá trị hệ số tương quan mẫu của X và Y
(d) X và Y có thực sự tương quan nhau không? (ở mức ý nghĩa α = 3%) (e) Viết phương trình ñường thẳng hồi quy mẫu của Y theo X
7.7. Nghiên cứu lượng phân bón (X kg) ñược dùng ñể bón cho ruộng trong một vụ; Y(kg/1000m2) là năng suất lúa Thống kê ở 30 hộ gia ñình, kết quả như sau:
(a) Tính giá trị hệ số tương quan mẫu của X và Y
(b) Kiểm ñịnh giả thiết cho rằng hệ số tương quan của X và Y bằng 0,9 ở mức ý nghĩa α = 5%
7.8. Để nghiên cứu sự tương quan giữa chiều cao X (cm) và sức nặngY (kg) con người, quan sát trên một mẫu ngẫu nhiên, người ta có kất quả sau:
y k
x i [40, 45) [45, 50) [50, 55) [55, 60) [60, 65)
[140, 145)
[145, 150)
[150, 155)
[155, 160)
[160, 165)
1 4
2 6 1
10 8 2
8 6 3
1 1 (a) Tìm khoảng tin cậy 95% cho µX và µY
(b) Tính giá trị hệ số tương quan mẫu của X và Y
(c) Có tài liệu cho biết hệ số tương quan giữa X và Y là 0,65 Hãy cho nhận xét về tài liệu ñó, ở mức α = 5%
(d) Viết phương trình ñường thẳng hồi quy tuyến tính mẫu của Y theo X
7.9. Nghiên cứu về giá bán X và số lượng hàng bán ñược trong một tháng
Y của một loại hàng, người ta ñiều tra ngẫu nhiên ở một số ñiểm bán hàng và có
số liệu sau:
Trang 11yi (tấn) 24 25 26 26 25 27 28 30
Cho biết X và Y tuân theo luật phân phối chuẩn hai chiều
(a) Tìm khoảng tin cậy 90% cho lượng hàng bán ñược trung bình trong một tháng (cho biết biến ngẫu nhiên Y tuân theo luật phân phối chuẩn) (b) Một báo cáo cho rằng lượng hàng bán ñược trung bình trong một tháng không dưới 28,5 tấn Hãy cho nhận xét về báo cáo ñó ở mức ý nghĩa 1%
(c) Tính giá trị hệ số tương quan mẫu của X và Y
(d) Tài liệu ở một công ty tư vấn cho rằng hệ số tương quan của X và Y là
− 0,75 thì có chấp nhận ñược không? (kết luận ở mức ý nghĩa α =
5%)
(e) Viết phương trình ñường hồi quy mẫu của lượng hàng bán ñược trong một tháng theo giá bán
7.10 Chiều dài xương ñùi X(cm) và chiều cao Y(cm) của những người
ñàn ông ñộ tuổi 20 - 30 là các biến ngẫu nhiên tuân theo luật phân phối chuẩn Đo chiều dài xương ñùi và chiều cao của 10 người ñàn ông, ñược chọn ngẫu nhiên, ở
ñộ tuổi trên Kết quả ñược cho trong bảng sau:
yi (cm) 155 159 163 166 169 172 174 176 176 179
(a) Tìm khoảng tin cậy 96 % cho chiều cao trung bình của những người ñàn ông ñộ tuổi 20 - 30
(b) Tính giá trị hệ số tương quan mẫu của X và Y Hãy cho nhận xét về mức ñộ tương quan giữa X và Y
(c) Một tài liệu y khoa cho rằng hệ số tương quan của X và Y là 0,90 Hãy cho nhận xét về tài liệu trên ở mức ý nghĩa 5%
(d) Viết phương trình ñường hồi qui tuyến tính mẫu của Y theo X Hãy dự báo xem nếu giá trị của X giảm bớt 1cm thì giá trị tương ứng của Y biến thiên thế nào? Tại sao?
Trang 12
XS T K
2008