Bản chất của thuật toán K-means là tính khoảng cách giữa các điểm. Mỗi điểm tương ứng với một nhân viên. Do vậy, các thuộc tính phân cụm phải được rời rạc hóa để thuận lợi cho việc tính khoảng cách. Dữ liệu thu thập được tại công ty GMO Z-com RUNSYSTEM có chất lượng chưa đảm bảo tốt để thực hiện với thuật toán K-means, cụ thể là các vấn đề:
• Dữ liệu bị thiếu hoặc không đầy đủ.
• Dữ liệu có cả thuộc tính số, thuộc tính định tính. Cần phải biến đổi thành các thuộc tính định lượng.
Nguyễn Thị Lựu - K19HTTTC 50
Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO
2925 MAI TRƯƠNG GLANG_________Developer Tokyo Branch
_____ ________________
9 Rất hài lông Không Có________
1255 NGUYÊN VĂN HIẾN___________Developer Tokyo Branch
_____ _______________
0 Rât hài lòng Không Có________
1371 NGUYiNMINHHUY____________Developer Tokyo Branch
_____ _______________
2 Rât hài lòng ~ Có Cc________
2396 NGUYỄN DUY KHIÊM Developer Tokyo Branch 70 9 Không hài
lòng Không Cc
Γ2S 01
NGUYÊN OUAAG MDTH _A' 7..-∙-τt________Tskcr O Branch____________ 104∕07∕
2018^ ________________
Bảng 6. Dữ liệu ban đầu thu thập được
Vậy, ta cần phải xử lý các vấn đề này bằng cách:
• Bổ sung giá trị bị thiếu vào bộ dữ liệu bằng các giá trị trung bình của thuộc tính.
• Đối với những thuộc tính định tính, cụ thể là 4 thuộc tính: vị trí công việc, mức độ hài lòng trong công việc, Tham gia hoạt động, Tiếng Nhật, sẽ được quy về thuộc tính định lượng rời rạc. Trong đó:
- Hai thuộc tính là tham gia hoạt động và tiếng Nhật được quy ra thành gia trị nhị phân với nguyên tắc 1 tương ứng với “Có”, 0 tương ứng với “Không”.
- Thuộc tính mức độ hài lòng trong công việc cũng được quy về thuộc tính rời rạc với các giá trị là 1, 2, 3 tương ứng với mức độ “Không hài lòng”, “Hài lòng”, “Rất hài lòng”.
- Thuộc tính vị trí công việc bản chất sẽ phân ra cấp độ công việc từ 0-7, được thể hiện ở phụ lục 1.
• Đối với thuộc tính ngày vào làm việc là thuộc tính ngày tháng, ta cũng sẽ rời rạc hóa bằng cách quy về số năm đã làm việc với quy tắc 31/12/2019 trừ ngày vào làm việc.
Như vậy, sau khi tiền xử lý dữ liệu ta có bộ dữ liệu thực nghiệm như bộ dữ liệu mô tả ở phần 3.1.