Trường hợp dữ liệu nhận các giá trị rời rạc Trung bình cộng được xác định bằng cách cộng giá trị của các quan sát, sau đó đem chia cho tổng số quan sát.. Trường hợp dữ liệu là các khoảng
Trang 1Chương 4 TÓM TẮT DỮ LIỆU BẰNG CÁC ĐẠI LƯỢNG
THỐNG KÊ MÔ TẢ 4.1 Các đại lượng đo lường khuynh hướng tập trung
1 Trung bình cộng
a Trường hợp dữ liệu nhận các giá trị rời rạc
Trung bình cộng được xác định bằng cách cộng giá trị của các quan sát, sau đó đem chia cho tổng số quan sát
Trung bình tổng thể
Một tổng thể có quan sát, trung bình cộng được xét theo công thức:
là giá trị quan sát thứ ;
là tổng số quan sát (kích thước của tổng thể)
Ví dụ: Số liệu tỷ lệ lãi trên vốn (%) của một công ty ghi nhận qua 10 năm như sau:
5.2 6.0 3.8 4.5 7.4 5.0 5.2 6.5 6.2 6.4
Tỷ lệ lãi vốn trung bình của công ty trong thời kỳ 10 năm được xác định như sau:
Công thức tính trung bình trên trong trường hợp khảo sát cả tổng thể Trong thực tế, thường ta không thể hoặc không cần nghiên cứu cả tổng thể
Trung bình mẫu
Một mẫu có quan sát, trung bình mẫu được tính theo công thức
là giá trị quan sát thứ ;
là tổng số quan sát (cỡ mẫu hay kích thước của mẫu)
Ví dụ: Số ngày nghỉ trong một năm của một mẫu gồm 16 người được chọn ra từ số nhân viên
trong một công ty lớn được ghi nhận như sau:
10 11 12 15 15 18 6 10 14 8 2 7 4 10 6 12 Trung bình mẫu được xác định như sau:
Trang 2=10 + 11 + + 1216 = 10 (ngày)
Trung bình có trọng số
Trung bình có trọng số là trường hợp đặc biệt của trung bình cộng, khi mỗi giá trị xuất hiện nhiều lần Khi đó trung bình có trọng số được xác định theo công thức:
∑
là giá trị quan sát thứ ;
là trọng số thứ ,∑ =
Ví dụ: Số sản phẩm đạt tiêu chuẩn kỹ thuật trong 60 ngày ở một xưởng ghi nhận được như sau:
Sản phẩm đạt tiêu chuẩn kỹ thuật 450 500 600
Sản phẩm đạt tiêu chuẩn kỹ thuật trung bình được xác định theo công thức:
= 450 + 500 + 60020 + 28 + 12 = 503.3 (ngày)
b Trường hợp dữ liệu là các khoảng
Trong trường hợp này trung bình cộng được tính một cách xấp xỉ theo công thức
là trị số giữa (điểm giữa) của nhóm thứ , được tính bằng cận trên và cận
dưới của khoảng đó cộng lại chia 2;
là tần số của nhóm thứ , ∑ =
Ví dụ: Trong một đợt sản xuất, người ta chọn ngẫu nhiên 50 sản phẩm và ghi nhận trọng lượng.
Sản phẩm được phân nhóm theo trọng lượng như sau:
Trọng lượng (gam) Trị số giữa Số sản phẩm
Trung bình mẫu xác định theo công thức
Trang 3=487 ∗ 5 + 493 ∗ 10 + + 511 ∗ 750 = 499.84 (gam)
Nhận xét: Trung bình cộng thường rất nhạy cảm với các giá trị đột biến (giá trị quá lớn hoặc quá
nhỏ), do đó giá trị trung bình sẽ kém tiêu biểu khi dãy số xuất hiện các giá trị đột biến Tuy nhiên, trung bình cộng có thể được sử dụng để so sánh hai hay nhiều tổng thể, như so sánh mức
lượng ngày của nhân viên giữa các công ty, so sánh tuổi thọ một loại sản phẩm giữa các nhãn
hiệu
2 Trung vị (Median)
a Trường hợp dữ liệu nhận các giá trị rời rạc
Trung vị là giá trị đứng ở vị trí giữa trong một dãy số đã được sắp xếp có thứ tự Trung vị chia dãy số ra thành hai phần bằng nhau: trước và sau trị số trung vị sẽ có 50% quan sát, ký hiệu
Xác định trung vị:
trung vị sẽ là giá trị ở vị trí thứ → = ( ).
vị quy ước là trung bình cộng của hai giá trị đó =
b Trường hợp dữ liệu là các khoảng
Với dữ liệu đã phân nhóm, trung vị được xác định một cách xấp xỉ qua các bước sau:
B1 Tính tần số tích lũy
B3 Áp dụng công thức = ( )+ ∗
là trị số khoảng cách nhóm chứa ;
là tần số tích lũy của nhóm đứng trước nhóm chứa ;
là tần số của nhóm chứa
Ví dụ: Sử dụng kết quả ví dụ trên ta có
Trang 4Trọng lượng (gam) Số sản phẩm Tần số tích lũy
Nhóm chứa là nhóm (496-502), vì nhóm đó có tần số tích lũy bằng30 > (50 + 1)/2
Áp dụng công thức ta có
= 496 + 6 ∗
50
2 − 15
Nhận xét: Trung vị là trị số duy nhất có thể được xác định trong một dãy số, là đặc trưng đo
lường khuynh hướng tập trung không bị ảnh hưởng bởi các giá trị đột biến Trung vị có thể tính
cho các dữ liệu sử dụng các thang đo tỷ lệ, thang đo khoảng và thang đo thứ bậc
3 Các tứ phân vị, thập phân vị
a Trường hợp dữ liệu nhận các giá trị rời rạc
Trong một dãy số đã sắp xếp có thứ tự, các trị số của tứ phân vị sẽ chia dãy số thành bốn phần bằng nhau
Với mẫu có quan sát, gọi , , lần lượt là tứ phân vị đầu tiên, tứ phân vị thứ hai và tứ phân vị thứ ba Cách xác định các trị số như sau:
là giá trị ở vị trí thứ : = ( )/ ;
chính là số trung vị;
là giá trị ở vị trí thứ ( )
: = ( )/ .
Ví dụ: Tỷ lệ lãi của các doanh nghiệp sắp xếp từ nhỏ đến lớn
(%)
Ví dụ: Chúng ta có tập dữ liệu với 8 quan sát như sau
Xác định giá trị của các tứ phân vị
là giá trị ở vị trí thứ = = 2.25 → phải là một giá trị nằm giữa quan sát thứ 2 và quan sát thứ 3 theo tọa độ lệch ¼ gần về phía quan sát thứ hai nên ta xác định giá trị như sau:
Trang 5= 12 + 0.25 ∗ (14 − 12) = 12.5
là giá trị ở vị trí thứ = = 4.5 → phải là một giá trị nằm giữa quan sát thứ 4 và quan sát thứ 5 nên ta xác định giá trị như sau:
= 15 + 162 = 15.5
là giá trị ở vị trí thứ ( )
và quan sát thứ 7 theo tọa độ lệch 3/4 gần về phía quan sát thứ sáu nên ta xác định giá trị như
sau:
= 17 + 0.75 ∗ (18 − 17) = 17.75
b Trường hợp dữ liệu là các khoảng
Tứ phân vị thứ nhất = ( )+ ∗
là trị số khoảng cách nhóm chứa ;
là tần số tích lũy của nhóm đứng trước nhóm chứa ;
là tần số của nhóm chứa
Tứ phân vị thứ ba = ( )+ ∗
là trị số khoảng cách nhóm chứa ;
là tần số tích lũy của nhóm đứng trước nhóm chứa ;
là tần số của nhóm chứa
Đồ thị hình hộp là phương pháp mô tả và tổng hợp các số liệu mẫu bằng đồ thị, trên đó phản
ánh được cùng một lúc cả các đặc trưng về xu hướng trung tâm cũng như độ phân tán của các giá
trị mẫu
Để xây dựng đồ thị hình hộp người ta thường sử dụng các thống kê đặc trưng mẫu là trung vị,
các tứ phân vị , và các giá trị và của phân phối mẫu Nó có dạng như hình sau
Trang 6Đặc biệt khi có nhiều mẫu rút ra từ các tổng thể nghiên cứu mà chúng lại có các thống kê đặc trưng khác nhau thì việc vẽ đồng thời đồ thị hình hộp của các mẫu đó lên cùng một mặt phẳng sẽ
cho phép so sánh trực quan các mẫu, từ đó có được có được những nhận xét sơ bộ về sự khác biệt của các tổng thể nghiên cứu tương ứng
Ví dụ: Bảng số liệu về doanh thu
Doanh thu
(triệu đồng)
Cửa hàng( ) Tần số tích lũy
Tứ phân vị thứ nhất chứa trong tổ có tần số tích lũy bằng = = 20
= 400 + 100 ∗
79
4 − 8
Tứ phân vị thứ ba chứa trong tổ có tần số tích lũy bằng ( ) = ( )= 60
= 600 + 200 ∗
3 ∗ 79
4 − 45
Thập phân vị: trong thực tế đôi khi người ta cũng có nhu cầu chia các đơn vị trong dãy số lượng
biến thành 10 phần đều nhau và ta có thập phân vị Cách tính thập phân vị cũng tương tự như cách tính tứ phân vị Ta có công thức
2 ∗
Tứ phân vị, thập phân vị được sử dụng trong thực tế khi người ta muốn biết mức đạt cao nhất 1/10 hay ¼ số đơn vị xếp từ thấp lên hoặc mức đạt thấp nhất của 1/10 hay ¼ số đơn vị xếp từ cao xuống
Trang 74 Số yếu vị (mode)
a Trường hợp dữ liệu nhận các giá trị rời rạc
Mode là giá trị xuất hiện nhiều nhất trong một dãy số, ký hiệu là
Ví dụ: Chọn ngẫu nhiên 50 trang của một quyển sách giáo khoa, số lỗi ghi nhận được trên các
trang như sau
b Trường hợp dữ liệu là các khoảng
định một cách gần đúng theo công thức
là trị số khoảng cách nhóm chứa ; , , lần lượt là tần số của nhóm đứng trước, nhóm chứa và nhóm
Ví dụ: Theo ví dụ trên ta có
Trọng lượng (gam) Số sản phẩm
Nhóm chứa Mode là nhóm (496-502) do có tần số lớn nhất, nên được xác định theo công
thức
= 496 + 6 ∗(15 − 10) + (15 − 13) = 500.3 (gam)15 − 10
định vẫn theo công thức ở trên, nhưng việc xác định tổ chứa Mode không căn cứ vào tần
số mà căn cứ vào mật độ phân phối (tỷ số giữa các tần số với khoảng cách tổ tương ứng)
Trang 8Ví dụ: Có tài liệu về doanh thu của 79 cửa hàng tháng 5/ 2009 như sau:
Doanh thu
(triệu đồng)
Cửa hàng( ) Khoảng cách tổ( ) Mật độ phân phối tổ
( = / )
Theo tài liệu bảng trên, ta xác định Mode ở vào tổ (500-600) vì có mật độ phân phối tổ lớn nhất
= 500 + 100 ∗(0.25 − 0.12) + (0.25 − 0.125) = 550.9 (tri0.25 − 0.12 ệu đồng) Như vậy đa số các cửa hàng có mức doanh thu trong tháng 5/2009 khoảng 550.9 triệu đồng
Nhận xét: Mode có ưu điểm là không chịu ảnh hưởng của các lượng biến đột xuất, nhưng cũng
chính điều này làm cho Mode kém nhạy bén với sự biến thiên của dữ liệu Trong thực tế, Mode
có ứng dụng rõ ràng nhất là để nghiên cứu nhu cầu của thị trường về một loại kích cỡ sản phẩm
nào đó như giày dép, nón mũ, quần áo…
Mode là giá trị đo lường độ tập trung không bị ảnh hưởng bởi các giá trị đột biến Mode có thể
xác định cho dữ liệu sử dụng các thang đo khác nhau như thang đo định danh, thang đo thứ bậc
Khác với trung bình và trung vị, một tập dữ liệu có thể không xác định được trị số Mode vì không có giá trị nào xuất hiện nhiều nhất; ngược lại, trong một số trường hợp sẽ có hiện tượng nhiều Mode nếu số quan sát có khuynh hướng tập trung vào một vài giá trị
4.2 Các đặc trưng đo lường khuynh hướng phân tán
1 Khoảng biến thiên
Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và giá trị nhỏ nhất
là giá trị lớn nhất;
là giá trị nhỏ nhất
Khoảng biến thiên tính toán một cách dễ đàng Tuy nhiên, nhược điểm của số đo này chỉ tùy thuộc vào hai giá trị và vì vậy khoảng biến thiên chưa phản ánh một cách đầy đủ độ phân tán của tất cả các quan sát
Trang 9Ví dụ: Có hai tổ công nhân, mỗi tố có 5 người với các mức năng suất lao động như sau (Kg)
Tổ 1: 200; 250; 300; 350; 400
Tổ 2: 280; 290; 300; 310; 320
Năng suất lao động trung bình của mỗi tổ đều là 300 Kg Tuy nhiên các mức năng suất lao động
trong tổ 1 chênh lệch nhiều hơn so với tổ hai, nên số trung bình của tổ 1 kém đại diện hơn so với
tổ hai
Ta có khoảng biến thiên về năng suất lao động
> có nghĩa là các mức năng suất lao động trong tổ 1 biến thiên nhiều hơn trong tổ 2, do đó
số trung bình trong tổ 2 đại diện tốt hơn so với tổ 1
2 Độ trải giữa
Độ trải giữa là sai biệt giữa tứ phân vị thứ ba và tứ phân vị đầu tiên, thể hiện độ phân tán của
50% dữ liệu ở giữa của dãy số
Ví dụ: Có tài liệu về tiền lương của hai tổ công nhân, mỗi tổ có 11 người được cho trong bảng
sau (triệu đồng)
Tổ 1
0.9 1.2 1.5 1.8 2.1 2.4 2.7 3.0 3.3 3.6 3.9
Tổ 2
1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
Tổ 1 có = 3.3 − 1.5 = 1.8 (triệu đồng)
Tổ 2 có = 2.7 − 2.1 = 0.6 (triệu đồng)
Độ trải giữa của tổ 1 lớn hơn độ trải giữa của tổ 2, nghĩa là các mức lương trong tổ 1 biến thiên
nhiều hơn trong tổ 2
3 Phương sai
Phương sai là số trung bình của bình phương các độ lệch giữa các lượng biến và số trung bình
của các lượng biến đó
Phương sai mẫu hiệu chỉnh được sử dụng nhiều nhất trong thống kê suy diễn như ước lượng và
kiểm định giả thuyết… Do đó, trong các chương sau khi nói đến phương sai mẫu là ta đề cập đến
phương sai mẫu hiệu chỉnh
Trang 10=∑ ( − ̅)
− 1
Hoặc
4 Độ lệch chuẩn
Độ lệch tiêu chuẩn là căn bậc hai của phương sai, thể hiện độ lệch trung bình của tất cả các quan
sát so với giá trị trung bình Đặc trưng này có thể được sử dụng để so sánh độ phân tán của hai hay nhiều tổng thể, trong trường hợp đơn vị tính là giống nhau hoặc giá trị trung bình là bằng nhau
4.3 Sử dụng kết hợp trung bình và độ lệch tiêu chuẩn
1 Hệ số biến thiên
Nếu hai tập dữ liệu có cùng giá trị trung bình, tập dữ liệu nào có độ lệch chuẩn lớn hơn sẽ biến thiên nhiều hơn Tuy nhiên, nếu hai tập dữ liệu có trị trung bình khác nhau thì không thể kết luận
được điều này bằng cách so sánh trực tiếp hai độ lệch chuẩn Lúc đó hệ số biến thiên được sử
dụng để đo lường mức độ biến động tương đối của những tập dữ liệu có trị trung bình khác nhau
Hệ số biến thiên đo lường độ phân tán của dãy số tính một cách tương đối, được xác định bằng
cách so sánh độ lệch chuẩn với trung bình số học
Hệ số biến thiên được xác định theo công thức = ∗ 100%
Ví dụ: Trong ngành tài chính, hệ số biến thiên hay được sử dụng để đo mức độ rủi ro tương đối
của các danh mục vốn đầu tư
Chẳng hạn, một nhà kinh doanh trên thị trường chứng khoán xem xét hai danh mục đầu tư Danh mục A bao gồm các khoản đầu tư có lợi nhuận trung bình 16% với độ lệch chuẩn là 4% Danh mục B bao gồm các khoản đầu tư có lợi nhuận trung bình 9% với độ lệch chuẩn là 3%
Chúng ta có thể tính giá trị cho mỗi danh mục đầu tư như sau
Mặc dù, danh mục đầu tư B có độ lệch chuẩn bé hơn (khiến ta có cảm giác lợi nhuận ít bị biến
danh mục A
Trang 11Ngoài ra, hệ số biến thiên cũng hữu dụng khi so sánh hai tập dữ liệu có đơn vị khác nhau vì hệ số biến thiên độc lập với đơn vị đo lường và được tính bằng %
2 Quy tắc thực nghiệm
Nếu dữ liệu có phân phối hình chuông cân đối, thì có một quy tắc thực nghiệm như sau:
Có khoảng 68% số quan sát của tổng thể hoặc mẫu sẽ tập trung trong phạm vi1 so với
trị trung bình
Có khoảng 95% số quan sát của tổng thể hoặc mẫu sẽ tập trung trong phạm vi2 so với
trị trung bình
Có khoảng 99.7% số quan sát của tổng thể hoặc mẫu sẽ tập trung trong phạm vi3 so
với trị trung bình
Chú ý là với những tập dữ liệu mà phân phối không phải là hình chuông cân đối chúng ta không
sử dụng quy tắc thực nghiệm này
3 Chuẩn hóa dữ liệu
Khi làm việc với dữ liệu số lượng, sẽ có lúc bạn cần biến đổi chúng thành dữ liệu ở một thang đo chuẩn, chẳng hạn nếu bạn muốn so sánh các đối tượng được đo lường bằng những phương pháp
đo hay đơn vị đo khác nhau, việc làm này gọi là chuẩn hóa dữ liệu
Giá trị dữ liệu đã chuẩn hóa sẽ cho biết một giá trị quan sát trong tập dữ liệu gốc, lệch khỏi trung bình của nó mấy lần độ lệch chuẩn Điều này thể hiện theo công thức sau đây:
Công thức tính giá trị chuẩn hóa cho dữ liệu tổng thể =
Trong đó là giá trị dữ liệu gốc;
là trung bình tổng thể;
là độ lệch chuẩn của tổng thể;
độ lệch chuẩn
Công thức tính giá trị chuẩn hóa cho dữ liệu mẫu = ̅
Trong đó là giá trị dữ liệu gốc;
̅ là trung bình mẫu;
là độ lệch chuẩn của mẫu;
độ lệch chuẩn
Một giá trị tiến gần đến 0 có nghĩa là quan sát đó ở vị trí rất gần trung bình Một giá trị bằng -1 có nghĩa là quan sát thực tế đó ở vị trí lệch một độ lệch chuẩn so với trung bình về phía trái;
và bằng +1 có nghĩa là quan sát thực tế đó ở vị trí lệch một độ lệch chuẩn so với trung bình về
Trang 124.4 Khảo sát hình dạng phân phối của tập dữ liệu
Dựa vào số trung bình, trung vị và Mode, ta có thể biết được hình dáng phân phối của dãy số
1 Phân phối cân đối
Phân phối đối xứng khi = =
2 Phân phối lệch
Phân phối lệch phải khi > >
Phân phối lệch trái khi < <