CHƯƠNG 3 PHÂN TÍCH, THIẾT KẾ VÀ XÂY DỰNG MƠ HÌNH
3.4. Phân tích dữ liệu
Ở mục này chúng tôi sẽ tập trung vào việc phân tích các hồ sơ sau bước tiền xử lý, từ đó có được cái nhìn tổng quan về dữ liệu hiện tại.
Đếm số lượng chức danh còn lại và tần số xuất hiện của các chức danh.
Hình 3.5: Chức danh và tần số xuất hiện của một số chức danh
Số lượng chức danh trong hệ thống là 7308, đây là một con số rất lớn với số lượng hồ sơ 8000 người. Do đó chúng tơi đã đi phân tích sâu hơn các chức danh có tần số xuất hiện thấp và nhận ra rằng có rất nhiều chức danh vơ nghĩa, rất nhiều chức danh bị ghi nhầm lẫn thành tên công ty hoặc chức danh được viết bằng tiếng việt như “Sinh Viên”, “Nhân Viên”, …
Hình 3.6: Một số chức danh có tần số xuất hiện thấp
Sau khi xem xét các chức danh có tần số xuất hiện thấp, chúng tôi quyết định loại bỏ những chức danh có tần số xuất hiện ít hơn 10 lần. Đồng thời loại bỏ những hồ sơ có chứa các chức danh này. Từ đó nhận được một số lượng chức danh hợp lý hơn
rất nhiều.
Tổng số lượng chức danh: 7308 chức danh
Số lượng chức danh có tần số xuất hiện lớn hơn 10: 385 chức danh
Thông qua phương thức trên chúng tôi đã loại bỏ hơn 90% số lượng chức danh vơ nghĩa, có tần số xuất hiện thấp và khơng ảnh hưởng nhiều đến tính tổng qt của mơ hình.
Số lượng hồ sơ ứng viên ban đầu: 8000 hồ sơ
Số lượng hồ sơ ứng viên có chức danh mà chức danh đó có tần số xuất hiện lớn hơn 10: 2785 hồ sơ
Dù loại bỏ một lượng hồ sơ lớn từ lượng dữ liệu ban đầu nhưng những hồ sơ cịn lại sẽ có nhiều ý nghĩa hơn trong q trình huấn luyện so với các hồ sơ khơng thỏa mãn những tiêu chí của chúng tơi.
Hình 3.7: Kỹ năng và tần số xuất hiện của một số kỹ năng
Tổng số kỹ năng: 13.243 kỹ năng
Sau khi loại bỏ kỹ năng trùng lặp và có tần số xuất hiện thấp hơn 10: 6753 kỹ năng
Trong q trình phân tích dữ liệu, chúng tơi nhận ra rằng có sự chênh lệch khá lớn về tần số xuất hiện của một số chức danh, các chức danh như Software Developer có tần số xuất hiện lớn hơn 7.000 trong khi hầu hết các chức danh khác có tần số xuất hiện từ 10 đến 1900.