Các đại lượng đo lường hình dáng phân phối, vị trí tương đối, và phát hiện các giá trị bất thường Phân tích dữ liệu thăm dò Các đại lượng đo lường mối liên hệ giữa hai biến Trung bình có trọngCác đại lượng đo lường hình dáng phân phối, vị trí tương đối, và phát hiện các giá trị bất thường Phân tích dữ liệu thăm dò Các đại lượng đo lường mối liên hệ giữa hai biến Trung bình có trọngCác đại lượng đo lường hình dáng phân phối, vị trí tương đối, và phát hiện các giá trị bất thường Phân tích dữ liệu thăm dò Các đại lượng đo lường mối liên hệ giữa hai biến Trung bình có trọngCác đại lượng đo lường hình dáng phân phối, vị trí tương đối, và phát hiện các giá trị bất thường Phân tích dữ liệu thăm dò Các đại lượng đo lường mối liên hệ giữa hai biến Trung bình có trọng
Trang 1Anderson Sweeney
Williams
Slides by
John Loucks THỐNG KÊ ỨNG DỤNG
TRONG KINH TẾ VÀ KINH DOANH
Trang 2Chương 3, Phần B Thống kê mô tả: Các đại lượng số
vị trí tương đối, và phát hiện các giá trị bất thường
biến
đả được phân nhóm
Trang 3Các đại lượng đo lường hình dáng phân phối, vị trí tương đối, phát hiện các giá
Trang 4Hình dáng phân phối: Hệ số bất đối xứng
(Skewness)
dáng của một phân phối gọi là Hệ số bất đối xứng (Skewness).
1 (
Skewness
s
x
x n
n
Trang 6 Lệch trái vừa phải
Skewness = 0,31
Hình dáng phân phối: Hệ số bất đối xứng
(Skewness)
Trang 7 Lệch phải vửa phải
0
Skewness = 0,31
Hình dáng phân phối: Hệ số bất đối xứng
(Skewness)
Trang 8Hình dáng phân phối: Hệ số bất đối xứng
(Skewness)
Trang 970 căn hộ được lấy mẫu ngẫu nhiên tại một làng đại học Giá thuê hàng tháng cho các căn hộ được liêt kê như sau theo thứ tự tăng dần
Trang 11Giá trị z thường gọi là giá trị chuẩn hóa.
Là thước đo tương đối cho biết khoảng cách từ
giá trị cụ thể xi đến trung bình
Là thước đo tương đối cho biết khoảng cách từ
Giá trị chuẩn hóa z
Hàm STANDARDIZE trong Excel có thể tính
Trang 12 Một giá trị dữ liệu nhỏ hơn trung bình mẫu
tương đối của quan sát trong một tập dữ liệu
Giá trị chuẩn hóa z
Trang 13 Gí trị z của giá trị nhỏ nhất (425)
Giá trị chuẩn hóa giá thuê căn hộ
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 -0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
i
x x z
s
Trang 14Quy tắc Chebyshev
Ít nhất (1 - 1/z2) số lượng giá trị dữ liệu nằm
trong z độ lệch chuẩn so với trung bình, trong
đó z là giá trị bất kỳ lớn hơn 1.
trong z độ lệch chuẩn so với trung bình, trong
đó z là giá trị bất kỳ lớn hơn 1.
Quy tắc Chebyshev yêu cầu z > 1, nhưng z
không bắt buộc phải là số nguyên.
Quy tắc Chebyshev yêu cầu z > 1, nhưng z
không bắt buộc phải là số nguyên.
Trang 15Ít nhất giá trị dữ liệu phải nằm trong khoảng so với trung bình
Ít nhất giá trị dữ liệu phải nằm trong khoảng so với trung bình
Ít nhất giá trị dữ liệu phải nằm trong khoảng so với trung bình
89%
z = 3 độ lệch chuẩn
Ít nhất giá trị dữ liệu phải nằm trong khoảng so với trung bình
Ít nhất giá trị dữ liệu phải nằm trong khoảng so với trung bình
94%
z = 4 độ lệch chuẩn
Trang 17Quy tắc Thực nghiệm
Khi dữ liệu được cho là xấp xỉ phân phối chuẩn …
Quy tắc thực nghiệm dựa trên phân phối chuẩn, sẽ được thảo luận trong Chương 6
Quy tắc thực nghiệm dựa trên phân phối chuẩn, sẽ được thảo luận trong Chương 6
Quy tắc thực nghiệm có thể được dùng để xác định tỷ lệ phần trăm của giá trị dữ liệu năm trong một khoảng xác định của độ
lệch chuẩn so vói trung bình.
Quy tắc thực nghiệm có thể được dùng để xác định tỷ lệ phần trăm của giá trị dữ liệu năm trong một khoảng xác định của độ
lệch chuẩn so vói trung bình.
Trang 18Quy tắc Thực nghiệm
Dữ liệu xấp xỉ phân phối chuẩn:
giá trị của một biến ngẫu nhiên nằm trong khoảng
Trang 20Phát hiện các giá trị bất thường
hoặc lớn bất thường trong tập dữ liệu.
hoặc lớn +3 có thể được xem là giá trị bất
thường.
liệu.
một cách chính xác và thuộc trong tập dữ liệu.
Trang 21Phát hiện giá trị bất thường
thường, không có giá trị bất thường trong tập
dữ liệu.
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20
Trang 22Phân tích dữ liệu thăm dò
Phân tích dữ liêu thăm dò cho phép chúng ta
dùng các tính toán số học đơn giản và dễ dàng
vẽ các hình ảnh để tóm tắt dữ liệu.
Phân tích dữ liêu thăm dò cho phép chúng ta
dùng các tính toán số học đơn giản và dễ dàng
Trang 23Bộ tóm tắt 5 số
1 Giá trị nhỏ nhất
Tứ phân vị thứ nhất Trung vị
Tứ phân vị thứ ba Giá trị lớn nhất
2
3
4
5
Trang 25Biểu đồ hộp
Biểu đồ hộp là một tóm tắt bằng hình vẽ của
dữ liệu dựa trên bộ tóm tắt 5 số.
Biểu đồ hộp là một tóm tắt bằng hình vẽ của
dữ liệu dựa trên bộ tóm tắt 5 số.
Chìa khóa để xây dựng một biểu đồ hộp là tính
toán trung vị và các tứ phân vị Q1 và Q3.
Chìa khóa để xây dựng một biểu đồ hộp là tính
Biểu đô hộp cũng là một cách để phất hiện giá trị bất thường
Biểu đô hộp cũng là một cách để phất hiện giá trị bất thường
Trang 2640 0
62 5
62 5
thứ nhất và tứ phân vị thứ ba.
Biểu đồ hộp
trí trung vị (tứ phân vị thứ hai).
Ví dụ: Apartment Rents
Trang 27Biểu đồ hộp
dụng độ trải giữa (IQR).
trị bất thường.
Tiếp tục
Trang 28Biểu đồ hộp
Giới hạn dưới: Q1 - 1,5(IQR) = 445 - 1,5(80) = 325
Giới hạn trên: Q3 + 1,5(IQR) = 525 + 1,5(80) = 645
hơn 325 hoặc lớn hơn 645) trong dữ liệu giá thuê căn hộ.
Ví dụ: Apartment Rents
Trang 29Biểu đồ hộp
bên của hộp đến giá trị nhỏ nhất và giá trị lớn nhất trong giới hạn dữ liệu.
40 0
62 5
62 5
Giá trị nhỏ nhất trong Giá trị lớn nhất trong
Ví dụ: Apartment Rents
Trang 30Biểu đồ hộp
Một kỹ thuật đồ họa tuyệt vời để so
Trang 31Các đại lượng đo lường mối liên hệ giữa
hai biến
Như vậy, chúng ta đã xem xét các phương
pháp số được dùng để tóm tắt dữ liệu cho một biết tại một thời điểm.
Như vậy, chúng ta đã xem xét các phương
pháp số được dùng để tóm tắt dữ liệu cho một
biết tại một thời điểm.
Thường một nhà quản lý hoặc người ra quyết
định quan tâm đến mối liên hệ giữa hai biến.
Thường một nhà quản lý hoặc người ra quyết
định quan tâm đến mối liên hệ giữa hai biến.
Đại lương để mô tả mối liên hệ giữa hai biến là hiệp phương sai và hệ số tương quan
Đại lương để mô tả mối liên hệ giữa hai biến là hiệp phương sai và hệ số tương quan
Trang 32Hiệp phương sai
Một giá trị dương thể hiện mối liên hệ thuận.
Một giá trị âm thể hiện mối liên hệ nghịch.
Hiệp phương sai đo lường liên hệ tuyến tính
giữa hai biến
Hiệp phương sai đo lường liên hệ tuyến tính
giữa hai biến
Trang 33Hiệp phương sai
Hiệp phương sai được tính như sau:
Trang 34Hệ số tương quan
Chỉ cho biết là hai biến có tương quan chặt chẽ hay không, chứ không có nghĩa một biến là
nguyên nhân của biến còn lại.
Chỉ cho biết là hai biến có tương quan chặt chẽ hay không, chứ không có nghĩa một biến là
nguyên nhân của biến còn lại.
Tương quan là thước đo mối liên hệ tuyến tính
và không nhất thiết phải là liên hệ nhân quả
Tương quan là thước đo mối liên hệ tuyến tính
và không nhất thiết phải là liên hệ nhân quả
Trang 35Hệ số tương quan được tính như sau:
Trang 36Hệ số tương quan có thể nhận giá trị từ -1 đến +1.
Tương quan càng gần 0, cho biết tương quan yếu.
Trang 37Một người chơi golf quan tâm mối quan
hệ, nếu có, giữa driving distance and hole score.
18-277,6 259,5 269,1 267,0 255,6 272,9
69 71 70 70 71 69
Average Driving Distance (yds.)
Average 18-Hole Score
Hiệp phương sai va hệ số tương quan
Ví dụ: Golfing Study
Trang 38Hiệp phương sai và hệ số tương quan
277,6 259,5 269,1 267,0 255,6 272,9
69 71 70 70 71 69
10,65 -7,45 2,15 0,05 -11,35 5,95
-1,0 1,0 0 0 1,0 -1,0
-10,65 -7,45 0 0 -11,35 -5,95 Trung bình
Trang 39• Hiệp phương sai mẫu
• Hệ số tương quan mẫu
xy xy
x y
s r
n
Trang 40Trung bình có trọng số và Làm việc với dữ liệu đã được phân nhóm
số
Trang 41Trung bình trọng số
giá trị dữ liệu được gán trọng số phản ánh mức
độ quan trọng của nó, gọi là trung bình trọng
số.
số là số tín chỉ của mỗi môn học.
trọng, các nhà phân tích phải chọn trọng số sao cho phản ánh tầm quan trọng của mỗi giá trị.
Trang 42wx x
w
Trang 43Dữ liệu đã được phân nhóm
tính xấp xỉ trung bình, phương sai, độ lệch
chuẩn cho dữ liệu đã được phân nhóm.
xem các giá trị giữa của mỗi nhóm như thể đó
là trung bình các quán sát trong nhóm.
Trang 44Trung bình cho dữ liệu phân nhóm
Trang 45Một mẫu đã được đề cập trước đó về giá thuê căn hộ được thể hiện dưới dạng dữ liệu
phân nhóm là một phân phối tần số
Trung bình cho dữ liệu phân nhóm
Trang 46Xấp xỉ này chênh lệch 2,41USD so với trung bình mẫu thực
490,80USD.
Rent ($) f i
420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6
Mi
429.5 449.5 469.5 489.5 509.5 529.5 549.5 569.5 589.5 609.5
f iMi
3436.0 7641.5 5634.0 3916.0 3566.5 2118.0 1099.0 2278.0 1179.0 3657.0
Ví dụ: Apartment Rents
Trung bình cho dữ liệu phân nhóm
34,525
493,21 70
x
Trang 47Phương sai của dữ liệu phân nhóm
Trang 48Mi - x
-63.7 -43.7 -23.7 -3.7 16.3 36.3 56.3 76.3 96.3 116.3
(Mi - x )2
4058.96 1910.56 562.16 13.76 265.36 1316.96 3168.56 5820.16 9271.76 13523.36
f i(Mi - x )2
32471.71 32479.59 6745.97 110.11 1857.55 5267.86 6337.13 23280.66 18543.53 81140.18
Ví dụ: Apartment Rents
Phương sai của dữ liệu phân nhóm
Trang 50Kết thúc Chương 3, Phần B