Quan sát biểu đồ 3.8, ta thấy độ dài các đoạn tiêu đề cơng việc đối với tin giả (fraudulent =1) phân bố trong khoảng nhỏ hơn so với tin thật (fraudulent =0), khoảng 10- 61 ký tự so với 3-110 ký tự. Phần lớn độ dài tiêu đề của tin giả trong khoảng 10-40 ký tự, trong khi đĩ ta thấy độ dài tiêu đề cơng việc của tin thật trên 40 ký tự là khá nhiều.
h. Độ dài đoạn mơ tả cơng việc
Bảng 3.13: Độ dài đoạn mơ tả cơng việc
STT Thống kê mơ tả Tồn bộ dữ liệu Tin thật Tin giả
1 Số lượng 12232 11970 262 2 Trung bình 2686 2684 2756 3 Độ lệch chuẩn 1322 1319 1430 4 Giá trị nhỏ nhất 170 170 378 5 Tứ phân vị thứ nhất 1826 1830 1668 6 Trung vị 2543 2546 2470 7 Tứ phân vị thứ ba 3370 3368 3537 8 Giá trị lớn nhất 13436 13436 8136 9 Hệ số nhọn Kurtosis 2,319711 2,358536 0,91823 10 Hệ số bất đối xứng Skewness 0,982229 0,98098 1,0066
Đối với tồn bộ số liệu:
Giá trị trung bình là 2.686 ký tự cho một đoạn mơ tả. Giá trị nhỏ nhất là 170 ký tự là tin tuyển dụng thật, giá trị lớn nhất là 13.436 ký tự cũng của tin thật.
Giá trị trung vị và trung bình gần bằng nhau, hệ số nhọn là 2,3 và hệ số bất đối xứng khả nhỏ khoảng 0,98. Ta thấy phân bố này khá chuẩn và cân đối, chỉ bị lệch phải một chút do cĩ một số giá trị khá lớn ảnh hưởng lên bộ số liệu.
Quan sát hình dưới ta thấy rõ hơn về phân bố độ dài các đoạn mơ tả.