Nhƣ thế, chúng ta muốn sử dụng dữ liệu của mẫu để tính toán một tập hợp các con số, các trị thống kê, mà sẽ truyền tải một hình ảnh trong trí óc thật tốt về phân phối tần suất tƣơng đố[r]
(1)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi
C H Ƣ Ơ N G
MÔ TẢ CÁC TẬP DỮ LIỆU
Về chương này:
Đôi lúc liệu thu thập thể mẫu đƣợc chọn từ tổng thể Những lúc khác (chẳng hạn nhƣ tổng điều tra dân số tồn quốc), liệu thể toàn tổng thể Trong hai trƣờng hợp, cần phải có khả mơ tả tập liệu Mục tiêu chƣơng trình bày hai loại phƣơng pháp mô tả tập liệu: (1) phƣơng pháp mô tả đồ thị (2) phƣơng pháp mô tả số Phƣơng pháp mô tả đồ thị mô tả liệu cách sử dụng biểu đồ đồ thị Phƣơng pháp mô tả số sử dụng số để giúp xây dựng hình ảnh trí óc liệu
2
(2)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi
NGHIÊN CỨU TÌNH HUỐNG
VẬY LÀ ANH/CHỊ MUỐN TRỞ THÀNH NHÀ TRIỆU PHÚ?
Vào thập niên 1980, luật thuế dẫn đến việc tạo Tài khoản Hƣu trí Cá nhân (Individual Retirement Accounts-IRA), tài khoản tiết kiệm miễn thuế thu nhập hƣu trí Dựa theo nhiều mẫu quảng cáo báo chí vào lúc đó, mà đầu tƣ 2.000USD năm vào Tài khoản Hƣu trí Cá nhân (IRA), sau 40 năm tham gia, tiền dự trữ tăng lên đến triệu la Tất nhiên kể từ đó, luật thuế đƣợc thay đổi vài lần, với việc xem xét lại thuế gần nhất, IRA miễn thuế khơng cịn có sẵn cho hầu hết Dù vậy, nguyên tắc đƣợc thể mẩu quảng cáo cịn có giá trị Cách thức tốt để tích lũy số tiền lớn tham gia vào chƣơng trình tiết kiệm đầu tƣ có hệ thống tính lãi kép số tiền đầu tƣ qua nhiều năm
Nếu anh/chị để dành tiền cho thời kỳ hƣu trí hay nhằm mục đích khác, số tiền anh/chị tích lũy đƣợc phụ thuộc vào số tiền anh/chị đầu tƣ năm, nơi anh/chị đầu tƣ (tài khoản tiết kiệm ngân hàng, quỹ đầu tƣ thị trƣờng vốn ngắn hạn, hay quỹ cổ phiếu thƣờng khác nhau), quản lý tài khoản anh/chị Về bản, mức tăng trƣởng tài khoản anh/chị giá trị cuối phụ thuộc vào suất sinh lợi hàng năm mà nhà quản lý tài khoản anh/chị thu nhận đƣợc cho anh/chị
Mặc dù suất sinh lợi từ tiền đầu tƣ anh/chị thay đổi từ ngày sang ngày khác, nhƣng Bảng 2.1 cho anh/chị biết số tiền kỳ vọng tích lũy đƣợc sau 40 năm Những số tiền đƣợc trình bày bảng dựa vào giả định anh/chị đầu tƣ 2.000USD vào đầu năm thời kỳ 40 năm tiền đƣợc tính kép hàng tháng với lãi suất hàng năm cố định I
BẢNG 2.1 Số tiền rút tài khoản sau thực đầu tƣ hàng năm 2.000USD với suất sinh lợi hàng năm cố định I (%) 40 năm
Lãi suất I (%) Số tiền Tài khoản Sau 40 Năm ($)
4 197.652
6 328.095
8 559.562
10 973.704
12 1.718.285
(3)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi
Quỹ Thờ
i gian
Đá
o
hạ
n
T
run
g
bình
Lợi suất ngày
T
ài
sả
n
Quỹ Thờ
i gian
Đá
o
hạ
n
T
run
g
bình
Lợi suất ngày
T
ài
sả
n
Quỹ Thờ
i gian
Đá
o
hạ
n
T
run
g
bình
Lợi suất ngày
T
ài
sả
n
Quỹ Thờ
i gian
Đá
o
hạ
n
T
run
g
bình
Lợi suất ngày
T
ài
sả
n
BẢNG 2.2 Dữ liệu 604 quỹ đầu tƣ thị trƣờng vốn ngắn hạn thời kỳ kết thúc vào ngày 13/7/1994†
_
(4)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi
Quỹ Thờ
i gian
Đá
o
hạ
n
T
run
g
bình
Lợi suất ngày
T
ài
sả
n
Quỹ Thờ
i gian
Đá
o
hạ
n
T
run
g
bình
Lợi suất ngày
T
ài
sả
n
Quỹ Thờ
i gian
Đá
o
hạ
n
T
run
g
bình
Lợi suất ngày
T
ài
sả
n
Quỹ Thờ
i gian
Đá
o
hạ
n
T
run
g
bình
Lợi suất ngày
T
ài
sả
n
BẢNG 2.2 (tiếp theo)
_
Nguồn: Dữ liệu từ “Tóm lƣợc Thị trƣờng Vốn ngắn hạn,” Tạp chí Phố Wall, 14/7/1994, trang C27 In lại với cho phép Tạp chí Phố Wall, ©
(5)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi
Những đặc điểm quỹ đầu tƣ thị trƣờng vốn ngắn hạn nhƣ công cụ đầu tƣ đƣợc cho thấy liệu Bảng 2.2 Bảng 2.2 trình bày qui mơ tài sản (tính triệu la), thời gian đáo hạn trung bình (tính ngày) kỳ phiếu, lợi suất 7−ngày trung bình (%) thời kỳ kết thúc vào ngày 13/7/1994, 604 quỹ đầu tƣ thị trƣờng vốn ngắn hạn lớn có sẵn cho nhà đầu tƣ Xem xét Bảng 2.2 thấy rõ vấn đề khó khăn thống kê Mặc dù có đƣợc cảm nhận tổng quát qui mô tài sản, thời gian đáo hạn trung bình, suất sinh lợi trung bình qua việc xem xét liệu bảng này, nhƣng khó mà có đƣợc hình ảnh rõ ràng đặc điểm tập liệu cách xem xét kỹ bảng Vấn đề thúc đẩy nghiên cứu đề tài Chƣơng Trong chƣơng này, xem xét phƣơng pháp mơ tả tập liệu Sau đó, Mục 2.14 (trong nguyên tiếng Anh), áp dụng kỹ thuật vào liệu quỹ đầu tƣ thị trƣờng vốn ngắn hạn nói xem thơng tin có tính mơ tả phù hợp nhƣ với triển vọng trở thành nhà triệu phú
2.1 Biến (Variables) Dữ liệu (Data)
Mục tiêu chủ yếu Chƣơng trình bày số kỹ thuật trong thống kê mô tả (descriptive statistics) ngành thống kê liên quan đến việc mô tả những tập hợp giá trị đo lƣờng, mẫu (sample) tổng thể (population) Sau thu thập tập hợp giá trị đo lƣờng (measurements), trình bày tập hợp dƣới hình thức rõ ràng, hiểu đƣợc dễ đọc? Trƣớc tiên, phải định nghĩa giá trị đo lƣờng hay liệu phân loại loại liệu có khả gặp phải đời sống thực Chúng ta bắt đầu việc giới thiệu số định nghĩa, số thuật ngữ ngôn ngữ thống kê mà anh/chị cần biết
ĐỊNH NGHĨA Biến đặc trƣng thay đổi hay biến đổi theo thời gian, hay đặc trƣng mà biến
đổi cá nhân hay đối tƣợng khác đƣợc xem xét thời điểm định
Thí dụ, giá cổ phiếu biến thay đổi theo thời gian phạm vi cổ phiếu đơn lẻ; thay đổi từ cổ phiếu sang cổ phiếu khác thời điểm cho trƣớc Sự liên kết trị, nguồn gốc dân tộc, thu nhập, tuổi, số biến − đặc trung mà khác tùy thuộc vào cá nhân đƣợc chọn
Trong phần giới thiệu, định nghĩa đơn vị thí nghiệm (experimental unit) đối tƣợng mà ngƣời ta lấy giá trị đo lƣờng Một cách tƣơng đƣơng, có thể định nghĩa đơn vị thí nghiệm đối tƣợng mà biến đƣợc đo lƣờng Khi biến đƣợc đo lƣờng thật tập hợp đơn vị thí nghiệm, tập hợp giá trị đo lƣờng hay liệu đƣợc tạo
ĐỊNH NGHĨA Một đơn vị thí nghiệm cá nhân hay đối tƣợng mà biến đƣợc đo lƣờng
(6)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi
Nếu giá trị đo lƣờng đƣợc tạo đơn vị thí nghiệm tồn tập hợp, thì tập liệu đƣợc tạo tổng thể đƣợc quan tâm Bất kỳ tập hợp nhỏ nào giá trị đo lƣờng mẫu
THÍ DỤ 2.1 Một tập hợp gồm năm ngƣời làm công đƣợc chọn từ ngƣời làm công công ty lớn, giá trị đo lƣờng sau đƣợc ghi chép Hãy thảo luận biến đƣợc đo năm ngƣời làm công
Người làm công
Điểm số
thành Giới tính phục vụ Số năm Phân loại việc làm (nghìn la) Tiền lương
1 18 Nữ 12 Bán hàng 35
2 15 Nữ Quản lý 55
3 10 Nam Hành chánh 23
4 19 Nam 15 Quản lý 58
5 15 Nữ 13 Bán hàng 36
Lời giải Có số biến thí dụ Đơn vị thí nghiệm mà biến đƣợc đo lƣờng ngƣời làm công định công ty Đối với ngƣời làm cơng, có năm biến đƣợc đo lƣờng: điểm số thành quả, giới tính, số năm phục vụ, phân loại việc làm, tiền lƣơng Mỗi đặc trƣng thay đổi từ ngƣời làm công sang ngƣời làm công khác Nếu xem điểm số thành tất ngƣời làm công công ty tổng thể đƣợc quan tâm, năm điểm số thành thể mẫu từ tổng thể Nếu nhƣ điểm số thành ngƣời làm công cơng ty này đƣợc đo lƣờng, lẽ tạo toàn tổng thể giá trị đo lƣờng cho biến
Biến thứ hai đƣợc đo lƣờng ngƣời làm cơng giới tính, mà đƣợc xếp vào hai loại − nam hay nữ Nó khơng phải biến đƣợc đánh giá bằng số, nhƣ có phần khác với điểm số thành Nếu đƣợc nêu ngƣời, tổng thể gồm có tập hợp chữ Nam Nữ, chữ đại diện cho mỗi ngƣời làm công công ty Tƣơng tự, biến thứ tƣ, phân loại việc làm, tạo liệu số, với loại cho phân loại việc làm công ty Các biến thứ ba thứ năm, số năm làm việc tiền lương, đƣợc đánh giá số, tạo tập hợp số tập hợp loại
Mặc dù thảo luận biến một, nhớ đo lƣờng biến năm biến năm đơn vị thí nghiệm − năm ngƣời làm cơng Vì thế, thí dụ này, quan sát cá nhân gồm có năm giá trị đo lƣờng Thí dụ, quan sát đƣợc thực ngƣời làm công mang lại kết đo lƣờng sau đây:
(15, Nữ, 9, quản lý, 55)
(7)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi
2.2 Các Loại Biến
Thí dụ 2.1 chứng tỏ việc đo lƣờng biến tạo liệu số số Các biến mà dẫn đến liệu khơng phải số, quan sát đƣợc phân loại dựa theo điểm tƣơng tự hay điểm khác biệt loại, đƣợc gọi biến định tính (qualitative variables) Sự liên kết trị, nghề nghiệp, tình trạng gia đình, số năm học trung học phổ thông thí dụ biến định tính, nhƣ biến “giới tính” “phân loại việc làm” Thí dụ 2.1 Các biến đƣợc sử dụng để đo lƣờng đặc điểm mà tạo quan sát số đƣợc gọi biến định lượng (quantitative variables) Chỉ số Công nghiệp Dow−Jones, lãi suất bản, số xe taxi không đăng ký thành phố, mức sử dụng điện hàng ngày cho nhà máy cơng nghiệp thí dụ biến định lƣợng, vốn dẫn đến liệu định lƣợng
ĐỊNH NGHĨA Các biến định lượng dẫn đến quan sát số thể số lƣợng Các biến
định tính dẫn đến quan sát khơng phải số mà đƣợc phân loại
Những biến định lƣợng, mà thƣờng đƣợc biểu chữ x, đƣợc phân loại thêm dựa vào miền giá trị số mà giá trị đo lƣờng có Các biến, chẳng hạn nhƣ số thành viên gia đình Arizona, doanh số xe Trung tâm Mua sắm Xe Riverfront, số lốp xe có khiếm khuyết đƣợc trả lại cho nhà sản xuất để thay thế, có giá trị tƣơng ứng với tập hợp số đếm 0, 1, 2, … Cụ thể biến nhận số đếm đƣợc giá trị đƣợc gọi biến rời rạc (discrete variables) Cái tên rời rạc phản ánh thực tế có khoảng trống rời rạc giá trị mà liệu có Mặt khác, giá trị đo lƣờng biến chẳng hạn nhƣ chiều cao, trọng lƣợng, thời gian, khoảng cách, hay thể tích có giá trị tƣơng ứng với tất điểm khoảng vạch (line interval) Loại biến đƣợc gọi biến liên tục (continuous variables) Giữa hai giá trị biến liên tục, ln ln tìm thấy giá trị thứ ba
ĐỊNH NGHĨA Biến liên tục biến nhận tất giá trị nhiều vô hạn tƣơng ứng với
khoảng vạch Biến rời rạc nhận số đếm đƣợc giá trị
THÍ DỤ 2.2 Hãy xác định biến biến sau định tính hay định lượng
a Mục đích sử dụng thƣờng xuyên lò vi ba Anh/Chị (hâm lại, làm hết đơng lạnh, đun nóng, mục đích khác) suốt tháng 12/2000
b Số ngƣời tiêu dùng từ chối trả lời điều tra điện thoại
c Loại dịch vụ cáp đƣợc cung cấp cho nơi cƣ trú (cáp tiêu chuẩn, cáp cao cấp hay có anten) Atlanta
d Thời gian hồn tất nhiệm vụ đƣợc thực chƣơng trình phần mềm máy tính
(8)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi
Lời giải Các biến (a) (c) biến định tính, có đặc điểm đƣợc đo lƣờng đơn vị thí nghiệm Các loại hai biến đƣợc trình bày ngoặc đơn Ba biến cịn lại biến định lƣợng Số ngƣời tiêu dùng biến rời rạc; nhận giá trị giá trị 0, 1, 2, …, với giá trị tối đa phụ thuộc vào số ngƣời tiêu dùng đƣợc gọi điện thoại vấn Tƣơng tự, số cổ phiếu cho thấy có tăng giá nhận giá trị giá trị 0, 1, 2, …, với giá trị tối đa phụ thuộc vào số cổ phiếu Sở Giao dịch Chứng khốn New York Biến (d), thời gian hồn tất nhiệm vụ đó, biến liên tục danh sách Thời gian hoàn tất 121 giây, 121,25 giây, hay giá trị nằm hai giá trị đƣợc liệt kê
Tại phải quan tâm đến loại khác biến liệu chúng tạo ra? Các kỹ thuật đƣợc sử dụng để tổng hợp (summarizing) mô tả tập liệu phụ thuộc vào loại liệu đƣợc thu thập Dữ liệu định tính thƣờng đƣợc tổng hợp cách xác định số lƣợng hay tỷ lệ quan sát trong số loại Sau kết đƣợc biểu cách sử dụng bảng đồ thị Những biểu đồ thị có phần khác biến định lƣợng rời rạc liên tục, nhƣng nhìn chung chúng tập trung vào đồ thị số quan sát lớp hay loại đƣợc vẽ theo lớp hay loại Đối với tập liệu Anh/Chị gặp phải, kỹ xảo xác định loại liệu liên quan anh/chị biểu theo cách thức rõ ràng hiểu đƣợc cử tọa (xem Hình 2.1)
HÌNH 2.1 Các loại liệu
2.3 Các Phƣơng pháp Bằng số để Mô tả Một Tập Dữ liệu
Các phƣơng pháp đồ thị hữu ích việc biểu liệu việc truyền tải mơ tả tổng qt nhanh chóng liệu đƣợc thu thập Điều chứng minh, nhiều khía cạnh, cho câu tục ngữ họa đáng giá ngàn từ Tuy nhiên, có hạn chế việc sử dụng kỹ thuật đồ thị để mơ tả phân tích liệu Ví dụ nhƣ, giả sử muốn thảo luận liệu trƣớc nhóm ngƣời khơng có sẵn máy chiếu phóng đại! Chúng ta buộc phải sử dụng thƣớc đo mô tả khác mà truyền tải cho ngƣời nghe hình ảnh trí óc biểu đồ tần suất Một hạn chế thứ hai không thật hiển nhiên biểu đồ tần suất kỹ thuật đồ thị khác, chúng khó sử dụng nhằm mục đích suy luận thống kê
Định tính
DỮ LIỆU
Định lƣợng
(9)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi
(statistical inference) Giả sử sử dụng biểu đồ tần suất mẫu để đƣa suy luận hình dạng vị trí biểu đồ tần suất tổng thể, dùng để mô tả tổng thể chƣa biết Sự suy luận dựa vào giả định đúng, mức độ tƣơng tự tồn hai biểu đồ tần suất này, nhƣng phải đối mặt với vấn đề đo lƣờng mức độ tƣơng tự Chúng ta biết rõ hai hình vẽ giống hệt nhau, nhƣng tình hình khơng có khả xảy thực tiễn Nếu chúng giống hệt nhau, nói “Chúng giống nhau.” Nhƣng, chúng khác nhau, khó mà mơ tả đƣợc “mức độ khác biệt.”
Những hạn chế phƣơng pháp mô tả liệu đồ thị đƣợc khắc phục bằng việc sử dụng thước đo mô tả số Thƣớc đo mô tả số dành cho một tổng thể đƣợc gọi tham số Thƣớc đo mơ tả số tƣơng ứng đƣợc tính tốn từ một mẫu đƣợc gọi trị thống kê Nhƣ thế, muốn sử dụng liệu mẫu để tính tốn tập hợp số, trị thống kê, mà truyền tải hình ảnh trí óc thật tốt phân phối tần suất tƣơng đối mẫu hữu ích việc đƣa suy luận phân phối tần suất tƣơng đối tổng thể
ĐỊNH NGHĨA Các thƣớc đo mơ tả số đƣợc tính từ giá trị đo lƣờng tổng thể đƣợc gọi
là tham số
ĐỊNH NGHĨA Các thƣớc đo mơ tả số đƣợc tính từ giá trị đo lƣờng mẫu đƣợc gọi
trị thống kê
2.4 Các Thƣớc đo Hƣớng Tâm
Trong việc xây dựng hình ảnh trí óc phân phối tần suất cho tập hợp giá trị đo lƣờng biến định lƣợng, x, hình dung biểu đồ tần suất tƣơng tự với biểu đồ đƣợc trình bày Hình 2.2, liệu lợi suất cổ tức cổ phiếu ngân hàng Một thƣớc đo mô tả đƣợc quan tâm thước đo hướng tâm (measure of central tendency), thƣớc đo, chẳng hạn nhƣ số trung bình, xác định vị trí trung tâm phân phối Chúng ta lƣu ý lợi suất cổ tức thay đổi khoảng từ mức thấp 2,3 lên mức cao 5,3, với trung tâm biểu đồ tần suất nằm gần 3,6 Bây xem xét số quy tắc rõ ràng để xác định vị trí trung tâm phân phối liệu
Lợi suất Cổ tức
T
ần
s
uất
T
ƣơn
g
đố
i
HÌNH 2.2
(10)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 10
Một thƣớc đo hƣớng tâm hữu ích thơng dụng nhất, trị số trung bình số học tập hợp giá trị đo lƣờng Trị số thƣờng đƣợc gọi trung bình số học (arithmetic mean), hay đơn giản trung bình (mean), tập hợp giá trị đo lƣờng Bởi muốn phân biệt trung bình mẫu trung bình của tổng thể, nên sử dụng ký hiệu x (x gạch ngang đầu) để biểu trung bình mẫu (chữ muy thƣờng Hy Lạp) để biểu trung bình tổng thể
ĐỊNH NGHĨA Trung bình số học tập hợp giá trị đo lƣờng tổng số giá trị đo
lƣờng chia cho số lƣợng giá trị đo lƣờng
Những quy trình tính tốn trung bình mẫu nhiều trị thống kê khác đƣợc thể cách thuận lợi thành công thức Do vậy, cần ký hiệu để biểu quy trình tính tổng số Nếu biểu thị n số lƣợng phải đƣợc tính tổng số x1, x2,
…, xn, tổng số chúng đƣợc biểu thị ký hiệu
n
i i
x
1
Chữ sigma viết hoa Hy Lạp ( ) dẫn cộng lại Số lƣợng xi bên phải là phần tử tiêu biểu đƣợc cộng lại Những ký hiệu i = dƣới n bên chữ chỉ i biến phép tính tổng số bắt đầu trị số 1, tăng dần thêm 1, kết thúc trị số n Thí dụ,
3
1
x x x x
i i
Sử dụng ký hiệu này, biểu cơng thức cho trung bình mẫu trung bình tổng thể nhƣ sau:
Các Cơng thức Tính Trị số Trung bình
Trung bình mẫu:
n x x
n
i i
1
Trung bình tổng thể:
N x
N
i i
1
THÍ DỤ 2.3 Tìm trung bình tập hợp giá trị đo lƣờng 2, 9, 11, 5,
Lời giải
6 ,
6 11
1
n x x
n
i i
(11)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 11
BẢNG 2.3 Lợi suất cổ tức (%) 25 cổ phiếu
thƣờng ngân hàng
3,1 4,2 2,3 3,3 2,8
5,3 3,5 3,1 2,6 3,3
4,7 3,7 3,0 2,6 4,0
3,8 4,4 3,2 3,2 3,8
5,1 3,7 2,3 4,3 3,9
568 , 25
2 , 89
1
n x x
n
i i
Hãy lƣu ý giá trị xấp xỉ rơi vào trung tâm tập hợp giá trị đo lƣờng Trung bình tồn tổng thể lợi suất cổ tức, , chƣa biết; nhƣng nhƣ ƣớc lƣợng giá trị nó, giá trị ƣớc lƣợng 3,586
Một thƣớc đo hƣớng tâm thứ hai trung vị
ĐỊNH NGHĨA Trung vị m tập hợp n giá trị đo lƣờng x1, x2, x3,…, xn giá trị x mà nằm
ở giá trị đo lƣờng đƣợc xếp theo thứ tự từ nhỏ đến lớn
Nếu giá trị đo lƣờng tập liệu đƣợc xếp từ nhỏ đến lớn nhất, trung vị giá trị x nằm Nếu số n giá trị đo lƣờng lẻ, số trung vị giá trị đo lƣờng có thứ hạng (n + 1)/2 Nếu số n giá trị đo lƣờng chẵn, số trung vị đƣợc chọn giá trị x nằm điểm hai giá trị đo lƣờng khoảng − điểm giá trị đo lƣờng có thứ hạn n/2 giá trị đo lƣờng có thứ hạng (n / 2) + Quy tắc tính tốn số trung vị đƣợc trình bày hộp sau đây:
Quy tắc Tính tốn Số Trung vị
Xếp hạng n giá trị đo lƣờng từ nhỏ đến lớn
1 Nếu n lẻ, số trung vị m giá trị đo lƣờng có thứ hạng (n + 1)/2
2 Nếu n chẵn, số trung vị m giá trị x nằm điểm giá trị đo lƣờng có thứ hạng n/2 giá trị đo lƣờng có thứ hạng (n/2) +
THÍ DỤ 2.4 Hãy tìm số trung vị tập hợp năm giá trị đo lƣờng sau 9, 2, 7, 11, 14
Lời giải Trƣớc tiên, xếp hạng n = giá trị đo lƣờng từ nhỏ đến lớn nhất, 2, 7, 9, 11, 14 Nhƣ thế, n = số lẻ, nên chọn số trung vị Giá trị giá trị đo lƣờng có thứ hạng (n + 1)/2 = (5 + 1)/2 =
THÍ DỤ 2.5 Hãy tìm số trung vị tập hợp giá trị đo lƣờng sau 9, 2, 7, 11, 14,
(12)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 12
Mặc dù trung bình lẫn trung vị hai thƣớc đo tốt trung tâm phân phối giá trị đo lƣờng, nhƣng trung vị nhạy cảm với giá trị thái cực (cực trị) Thí dụ, phân phối đối xứng qua trung bình − nghĩa hai nửa bên trái bên phải phân phối hình ảnh phản chiếu − số trung bình số trung vị [xem Hình 2.3 (a)] Nếu phân phối khơng đối xứng có quan sát thái cực nằm bên phải phân phối này, phân phối đƣợc gọi bị lệch xiên bên phải [xem Hình 2.3(b)] Bởi giá trị thái cực lớn đuôi phân phối làm tăng tổng số giá trị đo lƣờng, nên số trung bình chuyển dịch sang phải Số trung vị không bị ảnh hƣởng giá trị thái cực này, giá trị số giá trị đo lƣờng không đƣợc sử dụng việc tính tốn số trung vị Cuối cùng, phân phối bị lệch xiên bên trái, số trung bình chuyển dịch sang trái
Một thƣớc đo hƣớng tâm khác yếu vị (cao tần), đƣợc định nghĩa giá trị quan sát xảy thƣờng tập liệu
ĐỊNH NGHĨA Số Yếu vị tập hợp n giá trị đo lƣờng x1, x2, x3,…, xn giá trị x xảy với
tần suất lớn
Khi giá trị đo lƣờng đƣợc phân nhóm biểu đồ tần suất tƣơng đối, lớp có tần suất tƣơng đối lớn đƣợc gọi lớp yếu vị, điểm lớp yếu vị đƣợc lấy làm giá trị yếu vị
THÍ DỤ 2.6 Cho trƣớc giá trị đo lƣờng mẫu
5, 5, 7, 7, 7, 10, 15
giá trị xảy ba lần, giá trị năm xảy hai lần, giá trị 10 15 số xảy lần Vì thế, số yếu vị giá trị đo lƣờng mẫu
HÌNH 2.3
Các phân phối tần suất tương đối cho thấy tác động giá trị thái cực trung bình và trung vị
Tần
su
ất
T
ƣơ
ng
đ
ối
Tần
su
ất
T
ƣơ
ng
đ
ối
Trung bình
(13)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 13
Đối với phân phối đối xứng, số trung bình, trung vị, yếu vị Trong phân phối bị lệch xiên bên phải, số yếu vị nằm bên trái số trung vị số trung bình Xem Hình 2.3(a) 2.3(b) Nếu phân phối bị lệch bên trái, vị trí ba thƣớc đo đƣợc đảo ngƣợc, số yếu vị nằm bên phải số trung bình số trung vị
Một phân phối giá trị đo lƣờng có nhiều số yếu vị Thí dụ, việc phân phối tiền lƣơng nhóm nhiều ngƣời làm cơng tạo phân phối có
hai yếu vị, phản ánh hỗn hợp giá trị đo lƣờng đƣợc lấy ngƣời
làm công cổ xanh cổ trắng
Bài tập
Các Kỹ thuật Căn
2.1 Hãy xét n = giá trị đo lƣờng, 0, 5, 1, 1,
a Hãy vẽ đồ thị phân tán cho liệu [Gợi ý: Nếu hai giá trị đo lƣờng giống nhau, đặt chấm chấm kia] Hãy đoán “trung tâm” xấp xỉ
b Hãy tìm số trung bình, số trung vị, số yếu vị
c Hãy xác định vị trí ba thƣớc đo vừa tìm phần (b) đồ thị phân tán phần (a) Dựa vị trí tƣơng đối số trung bình số trung vị, Anh/Chị cho giá trị đo lƣờng đối xứng hay bị lệch xiên?
2.2 Hãy xét n = giá trị đo lƣờng, 3, 1, 5, 4, 4, 3,
a Tìm x b Tìm m
c Dựa kết phần (a) (b), giá trị đo lƣờng bị lệch xiên hay đối xứng? Hãy vẽ đồ thị phân tán để xác nhận câu trả lời anh/chị
2.3 Cho trƣớc n = 10 giá trị đo lƣờng, 3, 5, 4, 6, 10, 5, 6, 9, 2, 8, tìm:
a x b m c số yếu vị
Ứng dụng
2.4 Nhiều ngƣời mua máy tính phát họ tiết kiệm đƣợc số tiền đáng kể việc mua máy tính cá nhân từ công ty nhận đặt giao hàng qua đƣờng bƣu điện − trung bình 900USD theo giá trị ƣớc lƣợng họ (“Who’s Tops,” 1992) Điểm xếp hạng thỏa mãn khách hàng (trên thang đo từ đến 9) bảy công ty nhƣ thế, dựa điều tra 4.000 ngƣời mua, đƣợc trình bày dƣới
Cơng ty Xếp hạng Công ty Xếp hạng
CompuAdd 7,5 Insight 7,8
Dell 7,9 Northgate 7,7
FastMicro 7,4 Zeos 8,0
(14)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 14
a Điểm xếp hạng trung bình thỏa mãn khách hàng bảy công ty bao nhiêu?
b Hãy cho biết số trung vị điểm xếp hạng thỏa mãn khách hàng c Nếu anh/chị ngƣời mua máy tính, anh/chị có quan tâm đến điểm xếp hạng
trung bình thỏa mãn khách hàng hay khơng? Nếu không, thƣớc đo anh/chị quan tâm? Hãy giải thích
2.5 Thu nhập bình qn cổ phiếu quý hai, năm 1994, mẫu gồm 20 cơng ty đƣợc trình bày dƣới đây:
$ 0,72 0,56 0,21 0,54 0,32
1,28 0,10 1,64 0,29 0,33
0,29 0,73 0,29 0,33 0,43
0,56 0,89 0,84 0,62 0,44
Nguồn: Dữ liệu trích từ Press−Enterprise, Riverside, Calif, 20 tháng 7, 1994
a Anh/Chị cho phân phối thu nhập bình quân cổ phiếu đối xứng hay bị lệch xiên?
b Hãy tính số trung bình, số trung vị số yếu vị cho giá trị ƣớc lƣợng c Hãy vẽ biểu đố tần suất tƣơng đối cho tập liệu Hãy xác định vị trí số
trung bình, số trung vị số yếu vị dọc theo trục hoành Câu trả lời anh/chị phần (a) có hay khơng?
2.6 Tạp chí PC World cung cấp nguồn thông tin tuyệt vời cho ngƣời sử dụng máy tính muốn nâng cấp hệ điều hành họ hay mua hệ điều hành Số gần tạp chí PC World (“Top 10,” 1994) liệt kê mƣời tăng tốc dựa Windows hàng đầu, với điểm xếp hạng giá trị toàn giá đƣờng ƣớc lƣợng, nhƣ đƣợc trình bày bảng sau đây:
Bộ tăng tốc Điểm Xếp hạng
Giá trị Toàn Giá Ngoài đường Ước lượng
Diamond Stealth 87 $249
Number Nine 86 275
Genoa Phantom 85 245
Hercules Dynamite Pro 82 210
miroCrystal8S 82 195
Orchid Kelvin 75 275
Hercules Graphite 73 335
Matrox MGA 73 475
Hercules Dynamite Power 72 237
Paradis Ports o’Call 72 235
a Điểm xếp hạng giá trị tồn trung bình cho mƣời sản phẩm bao nhiêu? b Giá đƣờng ƣớc lƣợng trung bình bao nhiêu?
c Nếu anh/chị mua tăng tốc, số trung bình có quan trọng đối với anh/chị hay khơng? Hãy giải thích
(15)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 15
bánh quy bể gói bánh hay nguyên; bắt tay vào điều cụ thể, công ty Coca−Cola biết bạn bỏ vào ly 3,2 cục nƣớc đá Bạn bỏ 3,2 cục nƣớc đá vào ly chƣa? Bài báo Tạp chí Phố Wall muốn nói qua lời phát biểu đó?
2.8 Bảng sau trình bày nợ bình quân đầu ngƣời bang 50 bang năm tài 1992
Bang
Nợ bình quân đầu ngƣời
Thuế bình quân đầu
ngƣời Bang
Nợ bình quân đầu ngƣời
Thuế bình quân đầu ngƣời AL 998 1019 MT 2266 1153 AK 8418 2730 NE 1092 1176 AZ 743 1259 NV 1457 1369 AR 809 1145 NH 3882 770 CA 1225 1495 NJ 2540 1643 CO 857 1018 NM 1015 1415 CT 3644 1846 NY 3083 1661 DE 5140 1944 NC 558 1316 FL 911 1068 ND 1615 1186 GA 662 1076 OH 1106 1099 HI 4040 2335 OK 1138 1206 ID 1210 1303 OR 2114 1113 IL 1611 1157 PA 1079 1354 IN 913 1143 RI 5125 1270 IA 669 1280 SC 1300 1092 KS 192 1110 SD 2657 794 KY 1762 1353 TN 558 900 LA 2331 991 TX 453 964 ME 2135 1347 UT 1187 1096 MD 1698 1324 VT 2706 1339 MA 4002 1651 VA 1160 1101 MI 1097 1195 WA 1400 1648 MN 924 1662 WV 1431 1297 MS 621 954 WI 1457 1380 MO 1213 988 WY 1920 1386
Nguồn: Dữ liệu từ Bộ Thƣơng mại Hoa Kỳ, Cục Điều tra Dân số, The World Almanac and Book of Facts, ấn 1994, trang 105
a Hãy tìm số nợ bình quân đầu ngƣời trung bình cho 50 bang
b Hãy tìm số nợ bình quân đầu ngƣời trung vị cho 50 bang so sánh với số trung vị tính phần (a)
c Dựa so sánh anh/chị phần (b), anh/chị có kết luận phân phối nợ bình quân đầu ngƣời bị lệch xiên? Hãy giải thích
2.9 Việc định giá đơn vị trở thành tiêu chuẩn tồn ngành hoạt động kinh doanh tạp hóa Cơng việc ngƣời tiêu dùng cân nhắc chất lƣợng sản phẩm so với giá đơn vị để cố gắng xác định “món hời nhất” Những giá trị đo lƣờng (measurements) sau giá túi nhựa lót thùng rác, đƣợc ghi nhận 10 nhãn hiệu khác túi nhựa lót thùng rác 13−gallon cao (Báo cáo Người tiêu dùng, Tháng 2, 1994)
10 13
10 10 11
a Hãy tìm giá trung bình túi nhựa lót b Hãy tìm giá trung vị túi nhựa lót
(16)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 16
2.5 Những Thƣớc đo Độ Biến thiên
Một xác định trung tâm phân phối liệu, bƣớc cung cấp thƣớc đo độ biến thiên (variability), hay độ phân tán (dispersion), liệu Hãy xét hai phân phối đƣợc trình bay Hình 2.4 Cả hai phân phối đƣợc đặt vị trí có trung tâm x = 4, nhƣng có khác biệt lớn độ biến thiên giá trị đo lƣờng xung quanh số trung bình hai phân phối Các giá trị đo lƣờng Hình 2.4(a) thay đổi xấp xỉ từ đến 5; Hình 2.4(b), giá trị đo lƣờng thay đổi từ đến
Sự biến thiên đặc trƣng quan trọng liệu Thí dụ, chế tạo bu lơng, biến thiên q mức đƣờng kính bu lơng kéo theo tỷ lệ phần trăm cao sản phẩm có khiếm khuyết Mặt khác, sử dụng kiểm tra để phân biệt kế toán viên giỏi kém, khơng vui kiểm tra lúc mang lại điểm kiểm tra với biến thiên, điều làm cho việc phân biệt trở nên khó khăn
Ngồi tầm quan trọng thực tế biến thiên liệu, thƣớc đo đặc trƣng cần thiết cho việc xây dựng hình ảnh trí óc phân phối tần suất Chúng ta thảo luận vài số nhiều thƣớc đo biến thiên
Thƣớc đo đơn giản biến thiên khoảng biến thiên (miền)
ĐỊNH NGHĨA Khoảng biến thiên (range) tập hợp n giá trị đo lƣờng x1, x2, x3,…, xn
đƣợc định nghĩa chênh lệch giá trị đo lƣờng lớn giá trị đo lƣờng nhỏ
Dữ liệu lợi suất cổ tức thay đổi từ 2,3 đến 5,3 Nhƣ thế, khoảng biến thiên (5,3−2,3) = 3,0 Khoảng biến thiên dễ tính tốn, dễ diễn giải, hồn tồn thỏa đáng vai trị thƣớc đo biến thiên cho tập liệu nhỏ Nhƣng tập liệu lớn khoảng biến thiên khơng phải thƣớc đo thỏa đáng độ biến thiên Thí dụ, hai phân phối tần suất tƣơng đối Hình 2.5 có khoảng biến thiên nhƣng lại có hình dạng độ biến thiên khác
Tần
su
ất
T
ƣơ
ng
đ
ối
Tần
su
ất
T
ƣơ
ng
đ
ối
HÌNH 2.4 Độ biến thiên hay độ
(17)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 17
Chúng ta tìm thƣớc đo độ biến thiên nhạy cảm khoảng biến thiên hay khơng? Lấy thí dụ, xét giá trị đo lƣờng mẫu 5, 7, 1, 2, 4, đƣợc biểu thành đồ thị phân tán Hình 2.6 Số trung bình năm giá trị đo lƣờng
8 , 19
1
n x x
n
i i
nhƣ đƣợc đồ thị phân tán
Bây xem xét độ biến thiên theo khoảng cách điểm (giá trị đo lƣờng) trung bình x Nếu khoảng cách lớn nói liệu biến thiên nhiều so với khoảng cách nhỏ Nói rõ hơn, chúng ta định nghĩa độ lệch giá trị đo lƣờng khỏi số trung bình lƣợng
x
xi Những giá trị đo lƣờng nằm bên phải số trung bình tạo độ lệch dƣơng,
những giá trị đo lƣờng nằm bên trái tạo độ lệch âm Đối với thí dụ chúng ta, giá trị x độ lệch đƣợc trình bày cột thứ cột thứ hai Bảng 2.4
Tần
su
ất
T
ƣơ
ng
đ
ối
Tần
su
ất
T
ƣơ
ng
đ
ối
HÌNH 2.5 Những phân phối có
khoảng biến thiên độ biến thiên khác
(18)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 18
BẢNG 2.4 Những phép tính liên quan đến độ lệch mẫu
i
x (xi x)
)
(xi x xi x
5 1,2 1,44 1,2
7 3,2 10,24 3,2
1 −2,8 7,84 2,8
2 −1,8 3,24 1,8
4 0,2 0,04 0,2
19 0,0 22,80 9,2
Nếu đồng ý độ lệch chứa đựng thông tin biến thiên, bƣớc xây dựng thƣớc đo biến thiên dựa độ lệch xung quanh số trung bình Khả chọn trung bình độ lệch Đáng tiếc trung bình khơng có tác dụng, số độ lệch dƣơng, số âm, tổng số luôn không (trừ sai số làm trịn số đƣợc đƣa vào phép tính) Hãy lƣu ý độ lệch cột thứ hai Bảng 2.4 có tổng khơng
Có hai cách để tránh đƣợc vấn đề Tại không tính số trung bình giá trị tuyệt đối độ lệch? Thƣớc đo đƣợc gọi độ lệch tuyệt đối trung bình (mean absolute deviation, MAD)
ĐỊNH NGHĨA Độ lệch tuyệt đối trung bình tập hợp n giá trị đo lƣờng x1, x2, …, xn số
trung bình giá trị tuyệt đối độ lệch xung quanh trung bình mẫu đƣợc cho cơng thức
n x x
n
i i
1
MAD
Các độ lệch tuyệt đối tập hợp n = giá trị quan sát (observations) với tổng số chúng đƣợc trình bày Bảng 2.4 Vì cho nên,
84 ,
2 ,
MAD
n x x
n
i i
Mặc dù MAD đƣợc sử dụng làm thƣớc đo độ biến thiên cho tập liệu, nhƣng chủ yếu đƣợc dùng việc đánh giá độ xác tiên đốn
Cách thứ hai để sử dụng độ lệch làm việc với tổng bình phƣơng độ lệch Bằng việc sử dụng tổng độ lệch bình phƣơng, tính tốn thƣớc đo đơn lẻ gọi phương sai (variance) tập hợp giá trị đo lƣờng Để phân biệt giữa phƣơng sai mẫu phƣơng sai tổng thể, sử dụng ký hiệu s2
để biểu hiện phƣơng sai mẫu 2
(chữ sigma thƣờng Hy Lạp) để biểu phƣơng sai tổng thể Thước đo tương đối lớn liệu biến thiên nhiều tương đối nhỏ đối
(19)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 19
ĐỊNH NGHĨA Phương sai tổng thể gồm N giá trị đo lƣờng x1, x2, …, xN đƣợc định nghĩa trị
trung bình bình phƣơng độ lệch giá trị đo lƣờng xung quanh số trung bình chúng Phƣơng sai tổng thể (phƣơng sai tổng thể) đƣợc cho công thức
N x
N
i i
1
2
2
) (
Rất thƣờng anh/chị sẵn tất giá trị đo lƣờng tổng thể, mà cần tính tốn phương sai mẫu gồm n giá trị đo lƣờng
ĐỊNH NGHĨA Phương sai mẫu gồm n giá trị đo lƣờng x1, x2, …, xn đƣợc định nghĩa tổng
độ lệch bình phƣơng giá trị đo lƣờng xung quanh số trung bình x chúng, chia cho (n − 1) Phƣơng sai mẫu đƣợc ký hiệu chử s2 đƣợc cho công thức
1 ) (
1
2
2
n x x s
n
i i
Thí dụ, tính phƣơng sai cho tập hợp gồm n = giá trị đo lƣờng mẫu, đƣợc trình bày Bảng 2.4 Bình phƣơng độ lệch giá trị đo lƣờng đƣợc ghi cột thứ ba Bảng 2.4 Cộng lại, thu đƣợc
80 , 22 )
(
5
1
i
i x
x
Phƣơng sai mẫu
70 ,
80 , 22
) (
1
2
2
n x x s
n
i i
Phƣơng sai đƣợc đo theo bình phƣơng đơn vị đo lƣờng ban đầu Nếu giá trị đo lƣờng ban đầu đƣợc tính inch, phƣơng sai đƣợc biểu inch bình phƣơng Lấy bậc hai phƣơng sai này, có độ lệch chuẩn (standard deviation), mà chuyển thƣớc đo độ biến thiên trở lại đơn vị đo lƣờng ban đầu
ĐỊNH NGHĨA Độ lệch chuẩn tập hợp giá trị đo lƣờng bậc hai dƣơng
phƣơng sai
Hệ thống ký hiệu
n: số giá trị đo lƣờng mẫu N : số giá trị đo lƣờng tổng thể
s2 : phƣơng sai mẫu : phƣơng sai tổng thể
2 s
(20)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 20
Đối với tập hợp n = giá trị đo lƣờng mẫu Bảng 2.4, phƣơng sai mẫu s2 = 5,70, độ lệch chuẩn mẫu s s2 5,70 2,39 Tập liệu biến thiên, giá trị s lớn
Đối với tập hợp nhỏ giá trị đo lƣờng sử dụng, việc tính tốn phƣơng sai khơng q khó Tuy nhiên, tập hợp lớn hơn, tính tốn trở nên nhàm chán Hầu hết máy tính cầm tay có khả thống kê có chƣơng trình cài sẵn mà tính x s hay , cơng việc tính tốn anh/chị đƣợc giảm đến mức thấp Phím trung bình mẫu hay tổng thể thƣờng đƣợc đánh dấu chữ x Phím độ lệch chuẩn mẫu thƣờng đƣợc đánh dấu chữ s hay n−1, phím độ lệch chuẩn tổng thể thƣờng đƣợc đánh dấu chữ hay N Khi sử dụng máy tính cầm tay có phím chức cài sẵn này, nắm anh/chị biết phép tính tốn đƣợc thực phím!
Nếu anh/chị cần tính s2
s tay, dễ dàng nhiều sử dụng cơng thức tính thay đƣợc cho dƣới Hình thức tính tốn đƣợc gọi phƣơng pháp đi tắt để tính tốn s2
Cơng thức tính tốn s2
1
1
2
1
2
n n
x x
s
n
i
n
i i
i
trong
n
i i
x
1
tổng bình phƣơng giá trị quan sát đơn lẻ
2
1
n
i i
x = bình phƣơng tổng giá trị quan sát đơn lẻ
Độ lệch chuẩn mẫu, s, bậc hai dƣơng s2
THÍ DỤ 2.7 Hãy tính phƣơng sai độ lệch chuẩn cho năm giá trị đo lƣờng Bảng 2.4 mà đƣợc cho trƣớc 5, 7, 1, 2, Hãy sử dụng cơng thức tính tốn s2
so sánh kết quả anh/chị với kết thu đƣợc cách sử dụng định nghĩa nguyên thủy s2
BẢNG 2.5
Bảng dành để tính tốn s2 s theo cách đơn giản hóa
xi
2
i
x
5 25
7 49
1
2
4 16
(21)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 21
Lời giải Những số ghi Bảng 2.5 giá trị đo lƣờng đơn lẻ, xi, bình phƣơng
chúng, xi2, củng với tổng chúng Bằng việc sử dụng công thức tính tốn
s2, có
70 , 80 , 22 ) 19 ( 95 2 1 2 n n x x s n i i n i i
và s s2 5,70 2,39, nhƣ tính trƣớc
THÍ DỤ 2.8 Hãy tính phƣơng sai mẫu độ lệch chuẩn cho n = 25 lợi suất Bảng 2.3
BẢNG 2.3 Lợi suất cổ tức (%) 25 cổ phiếu
thƣờng ngân hàng
3,1 4,2 2,3 3,3 2,8
5,3 3,5 3,1 2,6 3,3
4,7 3,7 3,0 2,6 4,0
3,8 4,4 3,2 3,2 3,8
5,1 3,7 2,3 4,3 3,9
Lời giải Bằng việc sử dụng máy tính cầm tay có chức thống kê cài sẵn, anh/chị kiểm tra kết sau đây:
2 , 89 n i i x 82 , 333 n i i x
Sử dụng công thức tính tốn
6481 , 24 5544 , 15 24 25 ) , 89 ( 82 , 333 1 ) ( 2 1 2 n n x x n x x s n i i n i i n i i
(22)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 22
Anh/Chị tự hỏi chia cho n − n, tính tốn phƣơng sai mẫu Trung bình mẫu x đƣợc sử dụng nhƣ hàm ƣớc lƣợng trung bình tổng thể, cung cấp giá trị ƣớc lƣợng tốt Nếu muốn sử dụng phƣơng sai mẫu nhƣ hàm ƣớc lƣợng phƣơng sai tổng thể
, phƣơng sai mẫu s2
với n = mẫu số cho giá trị ƣớc lƣợng tốt so với hàm ƣớc lƣợng đƣợc tính với n mẫu số Vì lý này, ln ln
chia cho n − tính toán phương sai mẫu s2 độ lệch chuẩn mẫu s
Vào lúc này, anh/chị biết cách thức tính tốn phƣơng sai độ lệch chuẩn tập hợp giá trị đo lƣờng Hãy nhớ điểm sau đây:
Giá trị s2
hay s lớn, độ biến thiên tập liệu lớn Nếu s2
hay s số khơng, tất giá trị đo lƣờng phải có giá trị
Độ lệch chuẩn s đƣợc tính tốn để có thƣớc đo độ biến thiên mà đƣợc đo lƣờng đơn vị nhƣ giá trị quan sát
Thông tin cho phép so sánh vài tập liệu xét theo vị trí độ biến thiên chúng Chúng ta sử dụng thƣớc đo nhƣ để nói điều cụ thể tập liệu nhất? Định lý quy tắc đƣợc trình bày phần sau giúp trả lời câu hỏi
2.6 Các Thƣớc đo Vị trí Tƣơng đối (Measures of Relative Standing)
Đôi muốn biết vị trí giá trị quan sát so với giá trị quan sát khác tập liệu Thí dụ, anh/chị dự kỳ thi tìm việc làm đạt số điểm 640, anh/chị muốn biết tỷ lệ phần trăm ngƣời tham dự đạt số điểm thấp hơn 640 Một thước đo vị trí tương đối nhƣ giá trị quan sát tập dữ liệu đƣợc gọi phân vị
ĐỊNH NGHĨA Cho x1, x2, …, xn tập hợp n giá trị đo lƣờng đƣợc xếp theo thứ tự tăng dần
Phân vị thứ p giá trị x cho nhiều p phần trăm giá trị đo lƣờng thấp giá trị x nhiều (100−p) phần trăm lớn
THÍ DỤ 2.9 Trƣớc đƣợc nhận vào học chƣơng trình thạc sĩ quản trị kinh doanh (MBA) trƣờng đại học, anh/chị đƣợc thông báo số điểm anh/chị 610 Kỳ Kiểm tra Miệng Thành tích Ngƣời Tốt nghiệp Đại học đặt anh/chị phân vị thứ 60 phân phối số điểm Số điểm 610 anh/chị đứng đâu so với số điểm ngƣời khác dự kỳ thi kiểm tra với anh/chị?
(23)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 23
Xem xét theo đồ thị phân vị đó, ví dụ phân vị thứ 60, điểm trục hồnh x nằm vị trí cho 60% diện tích bên dƣới biểu đồ tần suất tƣơng đối liệu nằm bên trái phân vị thứ 60 (xem Hình 2.7) 40% diện tích nằm bên phải Nhƣ thế, theo định nghĩa, trung vị tập liệu phân vị thứ 50, nửa giá trị đo lƣờng tập liệu nhỏ số trung vị nửa lớn
Phân vị thứ 25 phân vị thứ 75, đƣợc gọi tứ phân vị thấp tứ phân vị cao (lower and upper quartiles), với trung vị (phân vị thứ 50), xác định vị trí điểm mà chia liệu thành bốn tập hợp có cỡ Hai mƣơi lăm phần trăm giá trị đo lƣờng thấp tứ phân vị thấp (đầu tiên), 50% thấp trung vị (tứ phân vị thứ hai), 75% giá trị đo lƣờng thấp tứ phân vị cao (thứ ba) Nhƣ thế, trung vị các tứ phân vị cao thấp nằm điểm trục x cho diện tích bên dƣới biểu đồ tần suất tƣơng đối liệu đƣợc phân chia thành bốn diện tích nhau, nhƣ đƣợc cho thấy Hình 2.8 Anh/Chị nhận thấy (trong Hình 2.8) ¼ diện tích bên dƣới biểu đồ nằm bên trái tứ phân vị thấp ¾ nằm bên phải Tứ phân vị cao giá trị của x cho ¾ diện tích nằm bên trái ¼ nằm bên phải
Cịn có Giá trị z (z−score) thƣớc đo khác vị trí tƣơng đối; sử dụng trung bình độ lệch chuẩn tập liệu
HÌNH 2.7 Phân vị thứ 60 đƣợc trình bày biểu đồ
tần suất tƣơng đối tập liệu
Tần
su
ất
T
ƣơ
ng
đ
ối
phân vị thứ 60 Diện tích tơ đậm = 0,6
HÌNH 2.8 Vị trí tứ phân vị
Trung vị
Tứ phân vị thấp Tứ phân vị cao
Tần
su
ất
T
ƣơ
ng
đ
(24)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 24
ĐỊNH NGHĨA Giá trị z mẫu tƣơng ứng với giá trị quan sát x thƣớc đo vị trí tƣơng đối đƣợc định nghĩa công thức
giá trị z = s
x x
Một giá trị z đo lƣờng số lƣợng độ lệch chuẩn giá trị quan sát trung bình tập liệu Giả sử biết trung bình độ lệch chuẩn tập hợp số điểm kiểm tra, dựa tổng số 100 điểm, x 74 s = Giá trị z điểm kiểm tra 92 anh/chị đƣợc tính
giá trị z = 2,25
8 74 92
s x x
Vì số điểm anh/chị nằm cao 2,25 độ lệch chuẩn so với trung bình; là, 92 = 74 + 2,25(8)
Bản thân giá trị z đơn cho thấy số điểm kiểm tra cao hay thấp trung bình độ lệch chuẩn Tuy nhiên, giá trị z đƣợc sử dụng với Định lý Tchebysheff, đƣa số lời phát biểu thận trọng vị trí tƣơng đối giá trị quan sát Hơn nữa, liệu có hình dạng gị, Quy tắc Thực nghiệm đƣợc dùng để đƣa lời phát biểu mạnh vị trí tƣơng đối giá trị quan sát xét theo giá trị z Bởi 75%, 95%, giá trị quan sát tập liệu nằm phạm vi hai độ lệch chuẩn so với trung bình, nên giá trị
z khoảng từ −2 đến +2 có khả xảy ra, nhƣ không bình
thƣờng Tuy nhiên, 8/9, hay tất cả, giá trị quan sát nằm phạm vi ba độ lệch chuẩn so với trung bình Vì thế, giá trị z khoảng từ đến 3, tính theo giá trị tuyệt đối, có khả xảy nhiều, giá trị z cao 3, tính theo giá trị tuyệt đối, khơng có khả xảy phải đƣợc xem xét cẩn thận Một điểm kiểm tra có giá trị z cao xuất sắc, cổ phiếu mà tỷ số giá thu nhập (giá cổ phiếu chia cho thu nhập bình qn cổ phiếu hàng năm) có giá trị z −3 đƣợc xem đầu tƣ có tiềm thu nhập tốt
Giá trị z lớn giá trị z nhỏ nêu lên câu hỏi hiệu lực (validity) giá trị quan sát Có thể giá trị quan sát lớn nhỏ so với giá trị quan sát khác Tuy nhiên, giá trị quan sát đƣợc ghi nhận khơng đúng, lý đó, khơng thuộc tổng thể mà mong muốn lấy mẫu Những giá trị quan sát với giá trị z lớn nhỏ thƣờng đƣợc gọi giá trị dị biệt chúng nằm cách xa trung tâm tập liệu Những giá trị quan sát nằm cao hay thấp trung bình khoảng từ hai đến ba độ lệch chuẩn giá trị dị biệt có, giá trị quan sát nằm cao hay thấp trung bình nhiều ba độ lệch chuẩn đƣợc xem giá trị dị biệt rõ ràng
THÍ DỤ 2.10 Hãy xét mẫu gồm n = 10 giá trị đo lƣờng:
(25)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 25
Thoạt nhìn anh/chị thấy giá trị đo lƣờng x = 15 dƣờng nhƣ giá trị dị biệt Hãy tính giá trị z cho giá trị quan sát này, trình bày kết luận anh/chị
Lời giải Đối với mẫu này, có phép tính tốn sau đây:
10 , i i
x 277
10 i i x Nhƣ 32 , 6778 , 18 , 168 10 ) 33 ( 277 , 10 33 2 2 10 s n n x x s x x n i n i i i i i
Bằng việc sử dụng số lƣợng để tính giá trị z cho giá trị dị biệt nghi ngờ
x = 15, tìm
giá trị z = 2,71
32 , , 15 s x x
Nhƣ giá trị đo lƣờng x = 15 nằm cách trung bình mẫu x = 3,3 khoảng cách 2,71 độ lệch chuẩn mẫu Bởi giá trị z cao 2, nên xác định x = 15 giá trị dị biệt có Chúng ta phải xem xét thủ tục lấy mẫu để xem liệu có chứng cho thấy x = 15 giá trị quan sát bị sai hay khơng
Anh/Chị sử dụng Minitab hay Excel để tạo nhiều số thƣớc đo mô tả số mà thảo luận Trong Minitab, dùng Stat Basic
Statistics Display Descriptive Statistics, chọn biến thích hợp để mơ tả Trong
(26)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 26
Bản in kết Minitab, đƣợc trình bày Hình 2.9, tổng hợp (summarize) lợi suất cổ tức Thí dụ 2.8 (dữ liệu đƣợc cho Bảng 2.3) giá trị quan sát Thí dụ 2.10 Anh/Chị so sánh giá trị trị thống kê đƣợc tính thí dụ với giá trị đƣợc trình bày in kết
HÌNH 2.9 Bản in kết Minitab sử dụng lệnh DESCRIBE (MÔ TẢ) cho liệu Thí dụ 2.8 (C1) liệu Thí dụ 2.10 (C2)
N MEAN MEDIAN TRMEAN STDEV SEMEAN
C1 25 3,568 3,500 3,548 0,805 0,161
C2 10 3,30 2,50 2,25 4,32 1,37
MIN MAX Q1 Q3
C1 2,300 5,300 3,050 4,100
C2 0,00 15,00 0,75 3,25
BÀI TẬP
Các Kỹ thuật Căn
2.10 Hãy sử dụng tập liệu sau đây:
3, 9, 6, 5, 5, 4, 7, 6, 8, 2, 6, 7,
a Hãy tính x s
b Hãy tính giá trị z cho giá trị quan sát nhỏ lớn Có giá trị hai giá trị quan sát lớn hay nhỏ bất thƣờng không?
2.11 Hãy tìm giá trị z cho giá trị quan sát lớn tập liệu sau đây:
19, 12, 16, 0, 14, 9, 6, 1, 12, 13, 10, 19, 7, 5,
2.12 Nếu Anh/Chị đạt số điểm phân vị thứ 90 kỳ kiểm tra tuyển sinh vào lớp cao
học, số điểm anh/chị đứng vị trí so với ngƣời khác dự kỳ kiểm tra?
Ứng dụng
2.13 Tham khảo liệu số nợ bình quân đầu ngƣời Bài tập 2.8
a Hãy tìm trung bình độ lệch chuẩn số nợ bình quân đầu ngƣời
b Tham khảo tập 2.8 để tìm số nợ bình quân đầu ngƣời bang anh/chị năm 1992 Hãy sử dụng giá trị z để mơ tả số nợ bình qn đầu ngƣời bang anh/chị so sánh nhƣ với số nợ tƣơng ứng bang khác
2.14 Một báo Tạp chí American Demographics (Nhân Khẩu học Hoa Kỳ) (Kirchner,
(27)William Mendenhall et al Biên dịch: Nguyễn Thị Xinh Xinh Hiệu đính: Cao Hào Thi 27
số ngƣời khơng đƣợc bảo hiểm có thu nhập 20.000US hay nhiều hơn; 22 phần trăm có thu nhập 30.000USD hay nhiều hơn; 13 phần trăm, hay triệu, sống hộ gia đình có thu nhập 40.000USD hay nhiều hơn.” Hãy nhận dạng phân vị đƣợc xác định từ thơng tin
2.15 Theo Consumer Reports (Báo cáo Người Tiêu dùng) (Tháng 3/1994), giá trung bình
một Sony SLV-700HF stereo VCR 410USD, với độ lệch chuẩn 14USD Nếu anh/chị mua loại VCR với giá 430USD, tính giá trị z giá mua anh/chị Giá có cao bất thƣờng khơng?
2.7 Tóm tắt
Những phƣơng pháp mơ tả tập hợp giá trị đo lƣờng chia thành hai loại, phƣơng pháp đồ thị phƣơng pháp số Biểu đồ tần suất tƣơng đối phƣơng pháp đồ thị hữu ích để biểu thị đặc trƣng tập hợp giá trị đo lƣờng Các thƣớc đo mô tả số số mà cố gắng tạo hình ảnh trí óc biểu đồ tần suất (hay phân phối tần suất) Chúng ta hạn chế nội dung thảo luận thƣớc đo hƣớng tâm biến thiên, mà hữu ích thƣớc đo trung bình độ lệch chuẩn Mặc dù trung bình có ý nghĩa mô tả theo trực giác, nhƣng độ lệch chuẩn có ý nghĩa đƣợc sử dụng với Định lý Tchebysheff Quy tắc Thực nghiệm Mục tiêu việc lấy mẫu mô tả (đƣa suy luận về) tổng thể từ mẫu đƣợc lấy Mục tiêu đƣợc hoàn thành việc sử dụng trung bình mẫu x số lƣợng s2
nhƣ hàm ƣớc lƣợng trung bình tổng thể phƣơng sai 2 Khi liệu gồm có cặp giá trị quan sát, đồ thị nhị biến đƣợc dùng để đánh giá hình ảnh cách thức x thay đổi theo y, hệ số tƣơng quan đƣợc dùng để xác định sức mạnh mối quan hệ tuyến tính x y Các thƣớc đo khác, chẳng hạn nhƣ phân vị hay giá trị z, đƣợc dùng để xác định vị trí tƣơng đối quan sát tổng thể hay mẫu Các đồ thị hộp tóm lƣợc liệu hình ảnh chúng hữu ích việc phát giá trị dị biệt