- Các nhóm phụ được chọn lựa theo các tiêu chí đễ dàng hoặc có tính sẵn có để tiêu chí liên quan đến các biến số nghiênthu thập dữ liệu dễ hơn.
v. Biểu đồ hộp (Box Plots)
Biểu đồ hộp, hay còn gọi là biểu đồ hộp-và-râu (box-and-whisker plot), cho ta một hình ảnh trực quan khác về vị trí, độ phân tán, dạng hình, độ dài đi và các giá trị bất thường (outliers) của phân phối.
Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một phân phối là trung vị (median), hai tứ phân vị trên và dưới (the upper and lower quartiles), và các giá trị quan sát lớn nhất và nhỏ nhất. Các thành phần chủ yếu của biểu đồ hộp là:
1. Hộp hình chữ nhật chứa đựng 50% các giá trị dữ liệu. 2. Đường thẳng ở trung tâm hộp là giá trị trung vị.
3. Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1 và thứ 3 (tương ứng với giá trị thứ 25% (25th percentile) và giá trị thứ 75% (75th percentile) của dãy số liệu. 4. Các “râu” kéo dài từ lề phía trên và phía dưới của hộp thể hiện giá trị lớn nhất
và nhỏ nhất. Các giá trị này nằm trong khoảng tối đa 1,5 lần khoảng cách giữa các tứ phân vị tính từ lề của hộp.
Khi trắc nghiệm dữ liệu, điều quan trọng là phải tách biệt các giá trị bất thường sinh ra từ các lỗi đo lường, hiệu đính, mã hóa và nhập dữ liệu. Các giá trị bất thường này vượt quá 1,5 lần khoảng cách tứ phân vị.
50% trường hợp có giá trị nằm trong hộp
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (extremes)
Các giá trị lớn hơn 1,5 lần so với độ dài c ủa hộp tính
từ giá trị tứ phân vị thứ 3 (75th percentile) (outliers)
Giá trị lớn nhất quan sát được không phải là giá trị bất thường
Tứ phân vị thứ 3 (75th PERCENTILE)
Trung vị (MEDIAN)
Tứ phân vị thứ 1 (25th PERCENTILE)
Giá trị lớn nhất quan sát được không phải là giá trị bất thường
Các giá trị lớn hơn 1,5 lần so với độ dài c ủa hộp tính
từ giá trị tứ phân vị thứ 1 (25th percentile) (outliers)
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (extremes)
Ví dụ 5.4 Biểu đồ hộp của biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng
Boxplots: Age of motorbike user and number of used days
10080 80 60 40 20 0 N = 100 100
Age of motorbike use Number of used days
3.2 Phát hiện và xử lý dữ liệu bị khuyết (Missing data)
• Sử dụng Excel: cơng cụ Auto Filter.
• Sử dụng SPSS: cơng cụ Frequency và Select Cases.