Các đại lượng đo lường khuynh hướng tập trung ppsx

Trường hợp dữ liệu nhận các giá trị rời rạc Trung bình cộng được xác định bằng cách cộng giá trị của các quan sát, sau đó đem chia cho tổng số quan sát.. Trường hợp dữ liệu là các khoảng

Trang 1

Chương 4 TÓM TẮT DỮ LIỆU BẰNG CÁC ĐẠI LƯỢNG

THỐNG KÊ MÔ TẢ 4.1 Các đại lượng đo lường khuynh hướng tập trung

1 Trung bình cộng

a Trường hợp dữ liệu nhận các giá trị rời rạc

Trung bình cộng được xác định bằng cách cộng giá trị của các quan sát, sau đó đem chia cho tổng số quan sát

 Trung bình tổng thể

Một tổng thể có quan sát, trung bình cộng được xét theo công thức:

là giá trị quan sát thứ ;

là tổng số quan sát (kích thước của tổng thể)

Ví dụ: Số liệu tỷ lệ lãi trên vốn (%) của một công ty ghi nhận qua 10 năm như sau:

5.2 6.0 3.8 4.5 7.4 5.0 5.2 6.5 6.2 6.4

Tỷ lệ lãi vốn trung bình của công ty trong thời kỳ 10 năm được xác định như sau:

Công thức tính trung bình trên trong trường hợp khảo sát cả tổng thể Trong thực tế, thường ta không thể hoặc không cần nghiên cứu cả tổng thể

 Trung bình mẫu

Một mẫu có quan sát, trung bình mẫu được tính theo công thức

là tổng số quan sát (cỡ mẫu hay kích thước của mẫu)

Ví dụ: Số ngày nghỉ trong một năm của một mẫu gồm 16 người được chọn ra từ số nhân viên

trong một công ty lớn được ghi nhận như sau:

10 11 12 15 15 18 6 10 14 8 2 7 4 10 6 12 Trung bình mẫu được xác định như sau:

Trang 2

=10 + 11 + + 1216 = 10 (ngày)

 Trung bình có trọng số

Trung bình có trọng số là trường hợp đặc biệt của trung bình cộng, khi mỗi giá trị xuất hiện nhiều lần Khi đó trung bình có trọng số được xác định theo công thức:

∑

là trọng số thứ ,∑ =

Ví dụ: Số sản phẩm đạt tiêu chuẩn kỹ thuật trong 60 ngày ở một xưởng ghi nhận được như sau:

Sản phẩm đạt tiêu chuẩn kỹ thuật 450 500 600

Sản phẩm đạt tiêu chuẩn kỹ thuật trung bình được xác định theo công thức:

= 450 + 500 + 60020 + 28 + 12 = 503.3 (ngày)

b Trường hợp dữ liệu là các khoảng

Trong trường hợp này trung bình cộng được tính một cách xấp xỉ theo công thức

là trị số giữa (điểm giữa) của nhóm thứ , được tính bằng cận trên và cận

dưới của khoảng đó cộng lại chia 2;

là tần số của nhóm thứ , ∑ =

Ví dụ: Trong một đợt sản xuất, người ta chọn ngẫu nhiên 50 sản phẩm và ghi nhận trọng lượng.

Sản phẩm được phân nhóm theo trọng lượng như sau:

Trọng lượng (gam) Trị số giữa Số sản phẩm

Trung bình mẫu xác định theo công thức

Trang 3

=487 ∗ 5 + 493 ∗ 10 + + 511 ∗ 750 = 499.84 (gam)

Nhận xét: Trung bình cộng thường rất nhạy cảm với các giá trị đột biến (giá trị quá lớn hoặc quá

nhỏ), do đó giá trị trung bình sẽ kém tiêu biểu khi dãy số xuất hiện các giá trị đột biến Tuy nhiên, trung bình cộng có thể được sử dụng để so sánh hai hay nhiều tổng thể, như so sánh mức

lượng ngày của nhân viên giữa các công ty, so sánh tuổi thọ một loại sản phẩm giữa các nhãn

hiệu

2 Trung vị (Median)

Trung vị là giá trị đứng ở vị trí giữa trong một dãy số đã được sắp xếp có thứ tự Trung vị chia dãy số ra thành hai phần bằng nhau: trước và sau trị số trung vị sẽ có 50% quan sát, ký hiệu

Xác định trung vị:

trung vị sẽ là giá trị ở vị trí thứ → = ( ).

vị quy ước là trung bình cộng của hai giá trị đó =

Với dữ liệu đã phân nhóm, trung vị được xác định một cách xấp xỉ qua các bước sau:

B1 Tính tần số tích lũy

B3 Áp dụng công thức = ( )+ ∗

là trị số khoảng cách nhóm chứa ;

là tần số tích lũy của nhóm đứng trước nhóm chứa ;

là tần số của nhóm chứa

Ví dụ: Sử dụng kết quả ví dụ trên ta có

Trang 4

Trọng lượng (gam) Số sản phẩm Tần số tích lũy

Nhóm chứa là nhóm (496-502), vì nhóm đó có tần số tích lũy bằng30 > (50 + 1)/2

Áp dụng công thức ta có

= 496 + 6 ∗

50

2 − 15

Nhận xét: Trung vị là trị số duy nhất có thể được xác định trong một dãy số, là đặc trưng đo

lường khuynh hướng tập trung không bị ảnh hưởng bởi các giá trị đột biến Trung vị có thể tính

cho các dữ liệu sử dụng các thang đo tỷ lệ, thang đo khoảng và thang đo thứ bậc

3 Các tứ phân vị, thập phân vị

Trong một dãy số đã sắp xếp có thứ tự, các trị số của tứ phân vị sẽ chia dãy số thành bốn phần bằng nhau

Với mẫu có quan sát, gọi , , lần lượt là tứ phân vị đầu tiên, tứ phân vị thứ hai và tứ phân vị thứ ba Cách xác định các trị số như sau:

là giá trị ở vị trí thứ : = ( )/ ;

chính là số trung vị;

là giá trị ở vị trí thứ ( )

: = ( )/ .

Ví dụ: Tỷ lệ lãi của các doanh nghiệp sắp xếp từ nhỏ đến lớn

(%)

Ví dụ: Chúng ta có tập dữ liệu với 8 quan sát như sau

Xác định giá trị của các tứ phân vị

là giá trị ở vị trí thứ = = 2.25 → phải là một giá trị nằm giữa quan sát thứ 2 và quan sát thứ 3 theo tọa độ lệch ¼ gần về phía quan sát thứ hai nên ta xác định giá trị như sau:

Trang 5

= 12 + 0.25 ∗ (14 − 12) = 12.5

là giá trị ở vị trí thứ = = 4.5 → phải là một giá trị nằm giữa quan sát thứ 4 và quan sát thứ 5 nên ta xác định giá trị như sau:

= 15 + 162 = 15.5

là giá trị ở vị trí thứ ( )

và quan sát thứ 7 theo tọa độ lệch 3/4 gần về phía quan sát thứ sáu nên ta xác định giá trị như

sau:

= 17 + 0.75 ∗ (18 − 17) = 17.75

Tứ phân vị thứ nhất = ( )+ ∗

Tứ phân vị thứ ba = ( )+ ∗

Đồ thị hình hộp là phương pháp mô tả và tổng hợp các số liệu mẫu bằng đồ thị, trên đó phản

ánh được cùng một lúc cả các đặc trưng về xu hướng trung tâm cũng như độ phân tán của các giá

trị mẫu

Để xây dựng đồ thị hình hộp người ta thường sử dụng các thống kê đặc trưng mẫu là trung vị,

các tứ phân vị , và các giá trị và của phân phối mẫu Nó có dạng như hình sau

Trang 6

Đặc biệt khi có nhiều mẫu rút ra từ các tổng thể nghiên cứu mà chúng lại có các thống kê đặc trưng khác nhau thì việc vẽ đồng thời đồ thị hình hộp của các mẫu đó lên cùng một mặt phẳng sẽ

cho phép so sánh trực quan các mẫu, từ đó có được có được những nhận xét sơ bộ về sự khác biệt của các tổng thể nghiên cứu tương ứng

Ví dụ: Bảng số liệu về doanh thu

Doanh thu

(triệu đồng)

Cửa hàng( ) Tần số tích lũy

Tứ phân vị thứ nhất chứa trong tổ có tần số tích lũy bằng = = 20

= 400 + 100 ∗

79

4 − 8

Tứ phân vị thứ ba chứa trong tổ có tần số tích lũy bằng ( ) = ( )= 60

= 600 + 200 ∗

3 ∗ 79

4 − 45

Thập phân vị: trong thực tế đôi khi người ta cũng có nhu cầu chia các đơn vị trong dãy số lượng

biến thành 10 phần đều nhau và ta có thập phân vị Cách tính thập phân vị cũng tương tự như cách tính tứ phân vị Ta có công thức

2 ∗

Tứ phân vị, thập phân vị được sử dụng trong thực tế khi người ta muốn biết mức đạt cao nhất 1/10 hay ¼ số đơn vị xếp từ thấp lên hoặc mức đạt thấp nhất của 1/10 hay ¼ số đơn vị xếp từ cao xuống

Trang 7

4 Số yếu vị (mode)

Mode là giá trị xuất hiện nhiều nhất trong một dãy số, ký hiệu là

Ví dụ: Chọn ngẫu nhiên 50 trang của một quyển sách giáo khoa, số lỗi ghi nhận được trên các

trang như sau

định một cách gần đúng theo công thức

là trị số khoảng cách nhóm chứa ; , , lần lượt là tần số của nhóm đứng trước, nhóm chứa và nhóm

Ví dụ: Theo ví dụ trên ta có

Trọng lượng (gam) Số sản phẩm

Nhóm chứa Mode là nhóm (496-502) do có tần số lớn nhất, nên được xác định theo công

thức

= 496 + 6 ∗(15 − 10) + (15 − 13) = 500.3 (gam)15 − 10

định vẫn theo công thức ở trên, nhưng việc xác định tổ chứa Mode không căn cứ vào tần

số mà căn cứ vào mật độ phân phối (tỷ số giữa các tần số với khoảng cách tổ tương ứng)

Trang 8

Ví dụ: Có tài liệu về doanh thu của 79 cửa hàng tháng 5/ 2009 như sau:

Doanh thu

(triệu đồng)

Cửa hàng( ) Khoảng cách tổ( ) Mật độ phân phối tổ

( = / )

Theo tài liệu bảng trên, ta xác định Mode ở vào tổ (500-600) vì có mật độ phân phối tổ lớn nhất

= 500 + 100 ∗(0.25 − 0.12) + (0.25 − 0.125) = 550.9 (tri0.25 − 0.12 ệu đồng) Như vậy đa số các cửa hàng có mức doanh thu trong tháng 5/2009 khoảng 550.9 triệu đồng

Nhận xét: Mode có ưu điểm là không chịu ảnh hưởng của các lượng biến đột xuất, nhưng cũng

chính điều này làm cho Mode kém nhạy bén với sự biến thiên của dữ liệu Trong thực tế, Mode

có ứng dụng rõ ràng nhất là để nghiên cứu nhu cầu của thị trường về một loại kích cỡ sản phẩm

nào đó như giày dép, nón mũ, quần áo…

Mode là giá trị đo lường độ tập trung không bị ảnh hưởng bởi các giá trị đột biến Mode có thể

xác định cho dữ liệu sử dụng các thang đo khác nhau như thang đo định danh, thang đo thứ bậc

Khác với trung bình và trung vị, một tập dữ liệu có thể không xác định được trị số Mode vì không có giá trị nào xuất hiện nhiều nhất; ngược lại, trong một số trường hợp sẽ có hiện tượng nhiều Mode nếu số quan sát có khuynh hướng tập trung vào một vài giá trị

4.2 Các đặc trưng đo lường khuynh hướng phân tán

1 Khoảng biến thiên

Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và giá trị nhỏ nhất

là giá trị lớn nhất;

là giá trị nhỏ nhất

Khoảng biến thiên tính toán một cách dễ đàng Tuy nhiên, nhược điểm của số đo này chỉ tùy thuộc vào hai giá trị và vì vậy khoảng biến thiên chưa phản ánh một cách đầy đủ độ phân tán của tất cả các quan sát

Trang 9

Ví dụ: Có hai tổ công nhân, mỗi tố có 5 người với các mức năng suất lao động như sau (Kg)

Tổ 1: 200; 250; 300; 350; 400

Tổ 2: 280; 290; 300; 310; 320

Năng suất lao động trung bình của mỗi tổ đều là 300 Kg Tuy nhiên các mức năng suất lao động

trong tổ 1 chênh lệch nhiều hơn so với tổ hai, nên số trung bình của tổ 1 kém đại diện hơn so với

tổ hai

Ta có khoảng biến thiên về năng suất lao động

> có nghĩa là các mức năng suất lao động trong tổ 1 biến thiên nhiều hơn trong tổ 2, do đó

số trung bình trong tổ 2 đại diện tốt hơn so với tổ 1

2 Độ trải giữa

Độ trải giữa là sai biệt giữa tứ phân vị thứ ba và tứ phân vị đầu tiên, thể hiện độ phân tán của

50% dữ liệu ở giữa của dãy số

Ví dụ: Có tài liệu về tiền lương của hai tổ công nhân, mỗi tổ có 11 người được cho trong bảng

sau (triệu đồng)

Tổ 1

0.9 1.2 1.5 1.8 2.1 2.4 2.7 3.0 3.3 3.6 3.9

Tổ 2

1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9

Tổ 1 có = 3.3 − 1.5 = 1.8 (triệu đồng)

Tổ 2 có = 2.7 − 2.1 = 0.6 (triệu đồng)

Độ trải giữa của tổ 1 lớn hơn độ trải giữa của tổ 2, nghĩa là các mức lương trong tổ 1 biến thiên

nhiều hơn trong tổ 2

3 Phương sai

Phương sai là số trung bình của bình phương các độ lệch giữa các lượng biến và số trung bình

của các lượng biến đó

Phương sai mẫu hiệu chỉnh được sử dụng nhiều nhất trong thống kê suy diễn như ước lượng và

kiểm định giả thuyết… Do đó, trong các chương sau khi nói đến phương sai mẫu là ta đề cập đến

phương sai mẫu hiệu chỉnh

Trang 10

=∑ ( − ̅)

− 1

Hoặc

4 Độ lệch chuẩn

Độ lệch tiêu chuẩn là căn bậc hai của phương sai, thể hiện độ lệch trung bình của tất cả các quan

sát so với giá trị trung bình Đặc trưng này có thể được sử dụng để so sánh độ phân tán của hai hay nhiều tổng thể, trong trường hợp đơn vị tính là giống nhau hoặc giá trị trung bình là bằng nhau

4.3 Sử dụng kết hợp trung bình và độ lệch tiêu chuẩn

1 Hệ số biến thiên

Nếu hai tập dữ liệu có cùng giá trị trung bình, tập dữ liệu nào có độ lệch chuẩn lớn hơn sẽ biến thiên nhiều hơn Tuy nhiên, nếu hai tập dữ liệu có trị trung bình khác nhau thì không thể kết luận

được điều này bằng cách so sánh trực tiếp hai độ lệch chuẩn Lúc đó hệ số biến thiên được sử

dụng để đo lường mức độ biến động tương đối của những tập dữ liệu có trị trung bình khác nhau

Hệ số biến thiên đo lường độ phân tán của dãy số tính một cách tương đối, được xác định bằng

cách so sánh độ lệch chuẩn với trung bình số học

Hệ số biến thiên được xác định theo công thức = ∗ 100%

Ví dụ: Trong ngành tài chính, hệ số biến thiên hay được sử dụng để đo mức độ rủi ro tương đối

của các danh mục vốn đầu tư

Chẳng hạn, một nhà kinh doanh trên thị trường chứng khoán xem xét hai danh mục đầu tư Danh mục A bao gồm các khoản đầu tư có lợi nhuận trung bình 16% với độ lệch chuẩn là 4% Danh mục B bao gồm các khoản đầu tư có lợi nhuận trung bình 9% với độ lệch chuẩn là 3%

Chúng ta có thể tính giá trị cho mỗi danh mục đầu tư như sau

Mặc dù, danh mục đầu tư B có độ lệch chuẩn bé hơn (khiến ta có cảm giác lợi nhuận ít bị biến

danh mục A

Trang 11

Ngoài ra, hệ số biến thiên cũng hữu dụng khi so sánh hai tập dữ liệu có đơn vị khác nhau vì hệ số biến thiên độc lập với đơn vị đo lường và được tính bằng %

2 Quy tắc thực nghiệm

Nếu dữ liệu có phân phối hình chuông cân đối, thì có một quy tắc thực nghiệm như sau:

 Có khoảng 68% số quan sát của tổng thể hoặc mẫu sẽ tập trung trong phạm vi1 so với

trị trung bình

 Có khoảng 95% số quan sát của tổng thể hoặc mẫu sẽ tập trung trong phạm vi2 so với

trị trung bình

 Có khoảng 99.7% số quan sát của tổng thể hoặc mẫu sẽ tập trung trong phạm vi3 so

với trị trung bình

Chú ý là với những tập dữ liệu mà phân phối không phải là hình chuông cân đối chúng ta không

sử dụng quy tắc thực nghiệm này

3 Chuẩn hóa dữ liệu

Khi làm việc với dữ liệu số lượng, sẽ có lúc bạn cần biến đổi chúng thành dữ liệu ở một thang đo chuẩn, chẳng hạn nếu bạn muốn so sánh các đối tượng được đo lường bằng những phương pháp

đo hay đơn vị đo khác nhau, việc làm này gọi là chuẩn hóa dữ liệu

Giá trị dữ liệu đã chuẩn hóa sẽ cho biết một giá trị quan sát trong tập dữ liệu gốc, lệch khỏi trung bình của nó mấy lần độ lệch chuẩn Điều này thể hiện theo công thức sau đây:

 Công thức tính giá trị chuẩn hóa cho dữ liệu tổng thể =

Trong đó là giá trị dữ liệu gốc;

là trung bình tổng thể;

là độ lệch chuẩn của tổng thể;

độ lệch chuẩn

 Công thức tính giá trị chuẩn hóa cho dữ liệu mẫu = ̅

Trong đó là giá trị dữ liệu gốc;

̅ là trung bình mẫu;

là độ lệch chuẩn của mẫu;

độ lệch chuẩn

Một giá trị tiến gần đến 0 có nghĩa là quan sát đó ở vị trí rất gần trung bình Một giá trị bằng -1 có nghĩa là quan sát thực tế đó ở vị trí lệch một độ lệch chuẩn so với trung bình về phía trái;

và bằng +1 có nghĩa là quan sát thực tế đó ở vị trí lệch một độ lệch chuẩn so với trung bình về

Trang 12

4.4 Khảo sát hình dạng phân phối của tập dữ liệu

Dựa vào số trung bình, trung vị và Mode, ta có thể biết được hình dáng phân phối của dãy số

1 Phân phối cân đối

Phân phối đối xứng khi = =

2 Phân phối lệch

Phân phối lệch phải khi > >

Phân phối lệch trái khi < <

Định dạng
Số trang	12
Dung lượng	576,69 KB