- Các nhóm phụ được chọn lựa theo các tiêu chí liên quan đến các biến số nghiên
v. Biểu đồ hộp (Box Plots)
Biểu đồ hộp, hay còn gọi là biểu đồ hộp-và-râu (box-and-whisker plot), cho ta một hình ảnh trực quan khác về vị trí, độ phân tán, dạng hình, độ dài đuôi và các giá trị bất thường (outliers) của phân phối.
Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một phân phối là trung vị (median), hai tứ phân vị trên và dưới (the upper and lower quartiles), và các giá trị quan sát lớn nhất và nhỏ nhất. Các thành phần chủ yếu của biểu đồ hộp là:
1. Hộp hình chữ nhật chứa đựng 50% các giá trị dữ liệu. 2. Đường thẳng ở trung tâm hộp là giá trị trung vị.
3. Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1 và thứ 3 (tương ứng với giá trị thứ 25% (25th percentile) và giá trị thứ 75% (75th percentile) của dãy số liệu. 4. Các “râu” kéo dài từ lề phía trên và phía dưới của hộp thể hiện giá trị lớn nhất và nhỏ nhất. Các giá trị này nằm trong khoảng tối đa 1,5 lần khoảng cách giữa các tứ phân vị tính từ lề của hộp.
Khi trắc nghiệm dữ liệu, điều quan trọng là phải tách biệt các giá trị bất thường sinh ra từ các lỗi đo lường, hiệu đính, mã hóa và nhập dữ liệu. Các giá trị bất thường này vượt quá 1,5 lần khoảng cách tứ phân vị.
Hình 5.7 Biểu đồ hộp và các chỉ số
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (extremes) Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (outliers) Giá trị lớn nhất quan sát được không phải là giá trị bất thường
Tứ phân vị thứ 3 (75thPERCENTILE) Trung vị (MEDIAN)
Tứ phân vị thứ 1 (25thPERCENTILE)
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (extremes) Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (outliers) Giá trị lớn nhất quan sát được không phải là giá trị bất thường
50% trường hợp có giá trị nằm trong hộp
Ví dụ 5.4 Biểu đồ hộp của biến số Tuổi của người sử dụng xe máy và số ngày sử
dụng trong tháng
Boxplots: Age of motorbike user and number of used days
100100 100
N =
Number of used days Age of motorbike use
10080 80 60 40 20 0
3.2 Phát hiện và xử lý dữ liệu bị khuyết (Missing data)
• Sử dụng Excel: công cụ Auto Filter.
• Sử dụng SPSS: công cụ Frequency và Select Cases.
4. PHÂN TÍCH THỐNG KÊ MÔ TẢ4.1 Phân tích thống kê mô tảđịnh lượng