Mô tả dữ liệu là một phần thiết yếu của phân tích thống kê nhằm cung cấp một bức tranh hoàn chỉnh về dữ liệu trước khi chuyển sang các phương pháp nâng cao. Loại phương pháp thống kê được sử dụng cho mục đích này được gọi là thống kê mô tả. Chúng bao gồm cả số (ví dụ: trung bình, chế độ, phương sai...) và các công
38
cụ đồ họa (ví dụ: biểu đồ, boxplot...) cho phép tóm tắt một tập hợp dữ liệu và trích xuất thông tin quan trọng như xu hướng trung tâm và phân tán. Hơn nữa, chúng ta có thể sử dụng chúng để mô tả sự liên kết giữa một số biến.
3.6.1.1. Phân tích thống kê mô tả
Phân tích thống kê mô tả là quá trình xử lý một tập dữ liệu thô thành các hệ số mô tả ngắn gọn, tóm tắt một tập dữ liệu nhất định. Thống kê mô tả được chia thành các biện pháp của xu hướng trung tâm và các biện pháp biến đổi (lây lan). Các biện pháp của xu hướng trung tâm bao gồm giá trị trung bình, trung vị và chế độ, trong khi các biện pháp biến thiên bao gồm độ lệch chuẩn, phương sai, các biến tối thiểu và tối đa, và độ nhiễu và độ lệch. Tuy nhiên, thống kê mô tả không cho phép đưa ra kết luận ngoài dữ liệu đã phân tích hoặc đưa ra kết luận về bất kỳ giả thuyết nào.
3.6.1.2. Phân tích tần số (Frequency Table)
Bảng tần số thường được sản xuất trên các biến riêng lẻ. Đối với dữ liệu phân loại, bảng ghi lại số lượng quan sát (tần số) cho mỗi giá trị duy nhất của biến. Đối với dữ liệu liên tục, bạn phải chỉ định một tập hợp các khoảng. Bảng tần số ghi lại số lượng quan sát rơi trong mỗi khoảng.