TÓM TẮT SỐ LIỆU I. GIỚI THIỆU : Số đo mô tả (descriptive measure) là phương tiện tóm tắt số liệu (TTSL). – Số đo mô tả tính được từ số liệu của 1 mẫu được gọi là số thống kê (statistic) – Số đo mô tả tính được từ số liệu của 1 dân số được gọi là thông số (parameter) II. SỐ ĐO KHUYNH HƯỚNG TẬP TRUNG (Measures of Central Tendency) : Số đo khuynh hướng tập trung chuyển tải thông tin về giá trị trung bình (average value) của một tập hợp số liệu. Ba số đo khuynh hướng tập trung thường dùng nhất là: số trội số trung vị , và số trung bình. 1. Số trội (Mode) : Số trội của một tập hợp giá trị là giá trị xuất hiện nhiều lần nhất. Một tập hợp giá trị có thể không có số trội nào, hoặc có nhiều hơn 1 số trội. Đặc điểm của số trội Số trội có thể được sử dụng để mô tả số liệu định tính. 2. Số trung vị (Median) Số trung vị của một tập hợp số liệu là giá trị đứng giữa 2 phần bằng nhau của tập hợp (số giá trị bằng hoặc lớn hơn số trung vị bằng với số giá trị bằng hoặc nhỏ hơn số trung vị). Nếu số giá trị là một số lẻ, số trung vị sẽ là giá trị đứng ngay giữa chuỗi thống kê. Nếu số giá trị là một số chẵn, số trung vị sẽ bằng số trung bình của 2 giá trị đứng ngay giữa chuỗi thống kê. Đặc điểm của số trung vị: – Độc nhất (đối với mỗi tập hợp số liệu chỉ có 1 số trung vị) – Đơn giản (dễ hiểu và dễ tính toán) – Giá trị cực (extreme values) không gây ảnh hưởng nhiều đến số trung vị. 3. Số trung bình toán học (Arithmatic Mean) : Trung bình (của) dân số (Population Mean) : N x N i i 1 N: số giá trị của dân số Trung bình (của) mẫu (Sample Mean) : n x n i i x 1 n: số giá trị của mẫu Đặc điểm của số trung bình: – Độc nhất (đối với mỗi tập hợp số liệu chỉ có 1 số trung bình) – Đơn giản (dễ hiểu và dễ tính toán) – Giá trị cực (extreme values) gây ảnh hưởng nhiều đến số trung bình. Số trung bình gia trọng (Weighted mean) Là số trung bình được tính khi phân tích số liệu từ nhiều mẫu về cùng 1 loại thông tin nhưng được thu thập ở những thời điểm khác nhau và có cỡ mẫu khác nhau. Số trung bình gia trọng được tính như sau: Weighted x = ∑ n i x i /N n i số giá trị của mẫu i x I số trung bình của mẫu i N tổng số giá trị của các mẫu Trimmed mean (số trung bình gọn) và Winsorized mean (số trung bình gán) Là hai phép tính lại số trung bình nhằm hạn chế tác động của giá trị cực. – Trimmed mean: số trung bình được tính sau khi đã “gọt bỏ” giá trị đầu và giá trị cuối của chuỗi thống kê. – Winsorize mean: số trung bình được tính sau khi đã gán 5% số giá trị ở đầu chuỗi thống kê (các giá trị cực thấp) bằng với giá trị thấp kế tiếp (so với 5% các giá trị cực thấp), và 5% số giá trị ở cuối chuỗi thống kê (các giá trị cực cao) bằng với giá trị cao kế tiếp (so với 5% các giá trị cực cao). III. SỐ ĐO KHUYNH HƯỚNG PHÂN TÁN (Measures of Dispersion) : Số đo phân tán chuyển tải thông tin về khối lượng (mức độ) biến thiên hiện diện trong tập hợp số liệu. 1. Biên độ(Range) : R = x L – x s Công dụng của biên độ rất giới hạn (vì chỉ dùng có 2 giá trị). 2. Phương sai (Variance) : Phương sai của một tập hợp số liệu là số đo độ phân tán tương đối của các giá trị (thuộc tập hợp) xung quanh số trung bình (của tập hợp số liệu). + Phương sai (của) dân số (Population Variance) 2 1 2 N x N i i N: số giá trị của dân số + Phương sai (của) mẫu (Sample Variance) Trường hợp mẫu nhỏ : 2 1 1 2 n xx n i i S n: số giá trị của mẫu Trường hợp mẫu lớn : 1 2 1 2 1 2 nn xx n S n i i n i i 3. Độ lệch chuẩn (Standard Deviation) ĐLC là số đo độ phân tán giống như phương sai, nhưng được diễn tả bằng đơn vị đo ban đầu. ĐLC được tính bằng cách rút căn 2 của phương sai. ĐLC của dân số có ký hiệu (sigma), ĐLC của mẫu có ký hiệu là s IV. Bách phân vị và Tứ phân vị (Percentiles and Quartiles) Cho một tập hợp có n giá trị x 1 , x 2 , …… , x n , bách phân vị thứ p (gọi là P) là giá trị của X mà theo đó có p% số giá trị nhỏ hơn P và (100–p)% số giá trị lớn hơn P. P 10 chỉ bách phân vị thứ 10, P 50 chỉ bách phân vị thứ 50, v v Thông thường, bách phân vị được tính trong các trường hợp tập hợp số liệu lớn. Vị trí của bách phân vị thứ k (P k ) có thể được tính như sau: n k P k 100 Bách phân vị thứ 25 thường được gọi là Tứ phân vị thứ nhất (Q 1 ) Bách phân vị thứ 50 (số trung vị) thường được gọi là Tứ phân vị thứ hai (hoặc Tứ phân vị giữa – Q 2 ) Bách phân vị thứ 75 thường được gọi là Tứ phân vị thứ ba (Q 3 ) 3. Hộp và Dây kéo (Box-and-Whisker Plots) Công cụ hình ảnh để trình bày các tứ phân vị. Năm bước để vẽ: – Đặt biến số lên trục ngang (hoành) – Vẽ một box vào khoảng không nằm trên trục ngang với các đặc điểm: đầu bên trái của box ứng với Q 1 , và đầu bên phải của box ứng với Q 3 . – Chia box làm 2 phần bằng 1 đường dọc ứng với Q 2 . – Kẻ 1 đường nằm ngang gọi là whisker từ đầu trái của box đến điểm ứng với giá trị nhỏ nhất của chuỗi số liệu. – Kẻ 1 đường nằm ngang khác, cũng gọi là whisker từ đầu phải của box đến điểm ứng với giá trị lớn nhất của chuỗi số liệu. . TÓM TẮT SỐ LIỆU I. GIỚI THIỆU : Số đo mô tả (descriptive measure) là phương tiện tóm tắt số liệu (TTSL). – Số đo mô tả tính được từ số liệu của 1 mẫu được gọi là số thống kê. có số trội nào, hoặc có nhiều hơn 1 số trội. Đặc điểm của số trội Số trội có thể được sử dụng để mô tả số liệu định tính. 2. Số trung vị (Median) Số trung vị của một tập hợp số liệu. (average value) của một tập hợp số liệu. Ba số đo khuynh hướng tập trung thường dùng nhất là: số trội số trung vị , và số trung bình. 1. Số trội (Mode) : Số trội của một tập hợp giá trị