Thống kê mô tả giúp bạn tóm lược dữ liệu có sẳn bằng cách phân nhóm và tính toán các đo lường để diễn tả sự phân bố của dữ liệu.
1) Phân nhóm dữ liệu
Một nghiên cứu được thiết kế kỹ lưỡng cho những dữ liệu thô quý giá, tuy nhiên dữ liệu cần được sắp xếp lại. Để chuyển tải thành những thông tin có giá trị ứng dụng hữu ích, dữ liệu thô phải được trình bày một cách rõ ràng. Dữ liệu được phân loại thành các nhóm liên tục nhau và không chồng lấp. Không nên phân thành nhiều nhóm quá (không tóm lược dữ liệu) hay ít quá (không đủ thông tin). Độ rộng của các nhóm có thể bằng nhau hay khác nhau. Một ví dụ cổ điển của phân loại thành nhóm cùng độ rộng là chia cấu trúc tuổi sinh đẻ thành những nhóm cách nhau 5 tuổi: 15-19, 20- 24, 25-29, 30-34, 35-39, 40-44, và 45-49. Khi trình bày dữ liệu với độ rộng của các nhóm khác nhau, cần có lập luận tùy theo mục tiêu của nghiên cứu. Ví dụ trong một nghiên cứu về viêm nhiễm đường sinh dục ở phụ nữ tuổi sinh đẻ, tuổi có thể chia thành 3 nhóm: dưới 20, 20-39, và từ 40 tuổi trở lên, do có sự khác nhau về độ dày của thành âm đạo ảnh hưởng bởi sự thay đổi của mức độ nội tiết và các hoạt động tình dục.
Loại Tần số Tầnsố tương đối Tần số tích lũy Tần số tương đối tích lũy Dưới 20 100 20% 100 20% 20–39 350 70% 450 90% 40trở lên 50 10% 500 100%
2) Tóm lược các thông số về dữ liệu
Các đo lường sự tập trung của dữ liệu
Ngoài việc phân loại dữ liệu, có ba cách đo lường tóm lược để mô tả sự tập trung của dữ liệu.
Trung bình (trung bình số học) = Tổng tất cả các dữ liệu / n
Trung vị = giá trị ở bách phân vị thứ 50
Yếu vị = (các) giá trị xuất hiện nhiều nhất
Cách tính trung bình đơn giản, nhưng bị ảnh hưởng nhiều bởi các giá trị quá lớn hay quá nhỏ, là con số ước lượng xấp xỉ tốt chỉ khi dữ liệu có phân phối bình thường (có dạng hình chuông). Trung vị cũng đơn giản, nhưng không bị ảnh hưởng bởi các giá trị quá lớn hay quá nhỏ.
Các đo lường sự phân tán của dữ liệu
Thông tin từ con người đều có nhiều biến thiên giữa mỗi cá thể. Vì vậy, cần phải đánh giá sự phân tán của dữ liệu so với giá trị của các đo lường tóm lược.
Khoảng dãn rộng từ giá trị nhỏ nhất đến lớn nhất
Phương sai = trung bình của bình phương khoảng cách giữa các dữ liệu với giá trị trung bình.
Độ lệch chuẩn (ĐLC) = căn bậc hai của phương sai. ĐLC đo lường giá trị tuyệt đối của khoảng cách giữa các
dữ liệu với giá trị trung bình. ĐLC đo lường sự phân tán tuyệt đối.
Hệ số phương sai (CV) = Tỷ số của ĐLC với giá trị trung bình. CV đánh giá sự biến đổi (variability) tương đối của dữ liệu so với giá trị trung bình. CV vượt quá 100%, chứng tỏ dữ liệu có sự phân tán rất rộng.
CV không lệ thuộc vào đơn vị đo lường, do đó có thể dùng để so sánh giữa các nhóm dữ liệu bất kỳ.
Các đo lường vị trí
Các đo lường vị trí của một giá trị cho sẵn nhằm so sánh và mô tả sự liên hệ của dữ liệu đó với các dữ liệu khác trong bộ dữ liệu của một biến số. Hai cách đo lường vị trí được dùng là bách phân vị (và tứ phân vị), và giá trị z.
Bách phân vị= là vị trí có số % dữ liệu từ giá trị này trở xuống
Tứ phân vị= các bách phân vị thứ 25, 50, và 75
Giá trị z= giá trị chuẩn hóa đo khoảng cách giữa một giá trị với trung bình chia cho với độ lệch chuẩn (cùng đơn vị).