Phân tích dữ liệu

Một phần của tài liệu Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (Trang 53 - 54)

CHƯƠNG 3 PHÂN TÍCH, THIẾT KẾ VÀ XÂY DỰNG MƠ HÌNH

3.4. Phân tích dữ liệu

Ở mục này chúng tôi sẽ tập trung vào việc phân tích các hồ sơ sau bước tiền xử lý, từ đó có được cái nhìn tổng quan về dữ liệu hiện tại.

Đếm số lượng chức danh còn lại và tần số xuất hiện của các chức danh.

Hình 3.5: Chức danh và tần số xuất hiện của một số chức danh

Số lượng chức danh trong hệ thống là 7308, đây là một con số rất lớn với số lượng hồ sơ 8000 người. Do đó chúng tơi đã đi phân tích sâu hơn các chức danh có tần số xuất hiện thấp và nhận ra rằng có rất nhiều chức danh vơ nghĩa, rất nhiều chức danh bị ghi nhầm lẫn thành tên công ty hoặc chức danh được viết bằng tiếng việt như “Sinh Viên”, “Nhân Viên”, …

Hình 3.6: Một số chức danh có tần số xuất hiện thấp

Sau khi xem xét các chức danh có tần số xuất hiện thấp, chúng tôi quyết định loại bỏ những chức danh có tần số xuất hiện ít hơn 10 lần. Đồng thời loại bỏ những hồ sơ có chứa các chức danh này. Từ đó nhận được một số lượng chức danh hợp lý hơn

rất nhiều.

Tổng số lượng chức danh: 7308 chức danh

Số lượng chức danh có tần số xuất hiện lớn hơn 10: 385 chức danh

Thông qua phương thức trên chúng tôi đã loại bỏ hơn 90% số lượng chức danh vơ nghĩa, có tần số xuất hiện thấp và khơng ảnh hưởng nhiều đến tính tổng qt của mơ hình.

Số lượng hồ sơ ứng viên ban đầu: 8000 hồ sơ

Số lượng hồ sơ ứng viên có chức danh mà chức danh đó có tần số xuất hiện lớn hơn 10: 2785 hồ sơ

Dù loại bỏ một lượng hồ sơ lớn từ lượng dữ liệu ban đầu nhưng những hồ sơ cịn lại sẽ có nhiều ý nghĩa hơn trong q trình huấn luyện so với các hồ sơ khơng thỏa mãn những tiêu chí của chúng tơi.

Hình 3.7: Kỹ năng và tần số xuất hiện của một số kỹ năng

Tổng số kỹ năng: 13.243 kỹ năng

Sau khi loại bỏ kỹ năng trùng lặp và có tần số xuất hiện thấp hơn 10: 6753 kỹ năng

Trong q trình phân tích dữ liệu, chúng tơi nhận ra rằng có sự chênh lệch khá lớn về tần số xuất hiện của một số chức danh, các chức danh như Software Developer có tần số xuất hiện lớn hơn 7.000 trong khi hầu hết các chức danh khác có tần số xuất hiện từ 10 đến 1900.

Một phần của tài liệu Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (Trang 53 - 54)

Tải bản đầy đủ (PDF)

(87 trang)