bigdata Giải thích và dự đoán sự hao mòn lao động bằng Machine Learning

80 0 0
bigdata Giải thích và dự đoán sự hao mòn lao động bằng Machine  Learning

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Từ trước đến nay, nguồn nhân lực trong tổ chức luôn là thứ ổn định không đổi, nó đóng vai trò then chốt giúp tổ chức đi lên, do đó nhiều doanh nghiệp hiện nay đã ý thức được tầm quan trọng của nhân lực trong công ty của họ, nhưng ngày nay, qua nhiều sự đổi mới và phát triển, nhân lực không còn là yếu tố ổn định và thụ động như trước, cộng với việc các tổ chức mới luôn mọc lên ngày càng nhiều, họ có nhiều sự lựa chọn hơn là trở thành lựa chọn thụ động của một tổ chức duy nhất. Vì vậy, sự biến động nhân sự diễn ra ngày càng mạnh mẽ, kể cả ở các doanh nghiệp vừa và nhỏ. Điều này dẫn đến sự sụt giảm hiệu quả kinh doanh cũng như nhiều doanh nghiệp rơi vào tình trạng “phí” nguồn lực đầu tư cho nhân viên dễ dàng rời bỏ công ty, nghiêm trọng hơn là các công ty nhỏ lẻ còn non trẻ hoặc công ty khởi nghiệp có thể đối mặt với sự sụp đổ doanh nghiệp do họ không thể giữ chân nhân sự và còn mất đi khoản đầu tư lớn

TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA QUẢN TRỊ KINH DOANH BÁO CÁO MƠN HỌC ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ Giải thích dự đốn hao mòn lao động Machine Learning GV: TS Trần Thị Phi Phụng Nhóm sinh viên: Cửu Long Nguyễn Thu Hoa 71802407 Lê Thị Hiếu Ngân 71802437 Đinh Thị Hồng Trang 71802483 Nguyễn Thị Diễm Trinh 71900291 Trần Hồ Huyền Vy 71800093 Nguyễn Thuý Hằng 71800020 Đào Ngự Bình 71800604 Trần Thị Huyền Trân 71800080 Nguyễn Hoàng Thảo Vân 71802494 TP HỒ CHÍ MINH, THÁNG 02/2023 NHẬN XÉT CỦA GIẢNG VIÊN Thành phố Hồ Chí Minh, ngày 24 tháng 02 năm 2023 Giảng viên NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN - Thành phố Hồ Chí Minh, ngày 24 tháng 02 năm 2023 Giảng viên hướng dẫn DANH SÁCH SINH VIÊN STT Họ tên sinh viên MSSV Nội dung đóng góp Nguyễn Thu Hoa 2.1 Lý thuyết: - Attrition 71802407 - Promotion 4.3 Quy trình chạy thuật toán Lê Thị Hiếu Ngân 71802437 Đinh Thị Hồng Trang Nguyễn Thị Diễm Trinh Trần Hồ Huyền Vy Nguyễn Thuý Hằng Đào Ngự Bình Trần Thị Huyền Trân Nguyễn Hồng Thảo Vân 100% 1.1 Bối cảnh nghiên cứu 4.4 Kết từ thuật toán 100% 2.1 Lý thuyết: - Department - Salary 2.4 Huấn luyện kiểm tra 71802483 2.5 Đánh giá mơ hình 4.4 Kết từ thuật toán 4.5 Kiểm định thuật toán Random Forests 2.1 Lý thuyết: - Average monthly hours 71900291 - Time spend company - Work accident 2.3 Các mơ hình nghiên cứu 2.2 Các nghiên cứu trước 3.2 Khám phá liệu nhận dạng 71800093 biến 4.1 Phân tích biến 71800020 1.2 Mục tiêu nghiên cứu 3.1 Giới thiệu sơ liệu Chương 5: Kết luận 5.1 Kết luận 71800604 Hạn chế hướng nghiên cứu 2.1 Lý thuyết: - Job satisfaction 71800080 - Last evaluation - Number project 4.2 Trực quan hóa liệu 71802494 Đánh giá Lời mở đầu 4.2 Trực quan hóa liệu 100% 100% 100% 100% 100% 100% 100% MỤC LỤC DANH MỤC CÁC BẢNG BIỂU .8 DANH MỤC CÁC HÌNH VẼ LỜI MỞ ĐẦU 11 CHƯƠNG 1: BỐI CẢNH VÀ ĐỘNG LỰC 13 1.1 Bối cảnh nghiên cứu 13 1.2 Mục tiêu nghiên cứu 14 CHƯƠNG 2: CƠ SỞ LÝ LUẬN VÀ MƠ HÌNH NGHIÊN CỨU 15 2.1 Lý thuyết 15 2.2 Các nghiên cứu trước 20 2.3 Các mơ hình nghiên cứu 21 2.3.1 Support vector machines (SVM) .21 2.3.2 Decision trees (DT) 21 2.3.3 Random forests (RF) 22 2.3.4 k – Nearest Neighbours (k-NN) 23 2.3.5 Naïve Bayes (NB) .23 2.4 Huấn luyện kiểm tra 25 2.5 Đánh giá mơ hình 26 CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU ĐỊNH LƯỢNG 29 3.1 Giới thiệu sơ liệu .29 3.2 Khám phá liệu nhận dạng biến 30 CHƯƠNG 4: KẾT QUẢ NGHIÊN CỨU 32 4.1 Phân tích biến 32 4.1.1 Phân tích đơn biến .32 4.1.2 Phân tích hai biến 42 4.2 Trực quan hóa liệu 44 4.2.1 Mức hài lòng so với nhân viên rời 44 4.2.2 Số trung bình hàng tháng so với số dự án 45 4.2.3 Đánh giá cuối so với số dự án 46 4.2.4 Số lượng nhân viên so với lần đánh giá cuối 47 4.2.5 Lương so với nhân viên rời công ty 48 4.2.6 Bộ phận so với nhân viên rời công ty 49 4.3 Quy trình chạy thuật toán 50 4.3.1 Quy trình chạy thuật tốn Decision trees (DT), Random Forests (RF), k-Nearest Neighbours (k-NN) Naive Bayes (NB) .50 4.3.2 Quy trình chạy thuật toán Support Vector Machines (SVM) 50 4.4 Kết từ thuật toán .51 4.5 Kiểm định thuật toán Random Forests 53 CHƯƠNG 5: KẾT LUẬN 57 5.1 Kết luận 57 5.2 Hạn chế hướng nghiên cứu 58 TÀI LIỆU THAM KHẢO 60 PHỤ LỤC 65 Mơ Tả Chi Tiết Q Trình Chạy Các Mơ Hình Dự Đốn Bằng Phần Mềm Rapidminer 65 Mơ hình Decision Trees 65 Mơ hình Random Forests 71 Mơ hình Support Vector Machines (SVM) .73 Mơ hình Naive Bayes 76 Mơ hình k-Nearest Neighbours (k-NN) 78 DANH MỤC CÁC BẢNG BIỂU Bảng 1: Cơ sở lý thuyết 10 biến 20 Bảng 2: Định dạng mơ tả thuộc tính Bộ liệu 29 Bảng 3: Số lượng nhân viên phận 30 Bảng 4: Nhận dạng biến 31 Bảng 5: Phân tích đơn biến .32 Bảng 6: Đánh giá tương quan biến 43 Bảng 7: Bảng so sánh kết thuật toán đưa 52 Bảng 8: Ma trận nhầm lẫn thuật toán Random Forests phận IT .54 Bảng 9: Ma trận nhầm lẫn thuật toán Random Forests phận Sale 54 Bảng 10: Ma trận nhầm lẫn thuật toán Random Forests phận Support 55 Bảng 11: Ma trận nhầm lẫn thuật toán Random Forests phận Technical55 DANH MỤC CÁC HÌNH VẼ Hình 1: K-Fold Cross-validation .25 Hình 2: Confusion Matrix (ma trận nhầm lẫn) 26 Hình 3: Mơ tả liệu Mức độ hài lịng 33 Hình 4:Mô tả liệu Chỉ số đánh giá cuối .34 Hình 5:Mơ tả liệu Số lượng dự án 35 Hình 6:Mơ tả liệu Số trung bình tháng 36 Hình 7:Mơ tả liệu Thời gian dành cho công ty 37 Hình 8:Mơ tả liệu Tai nạn lao động 38 Hình 9:Mơ tả liệu Sự rời nhân viên 39 Hình 10:Mơ tả liệu Sự thăng tiến 40 Hình 11: Mô tả liệu Bộ phận 41 Hình 12: Mơ tả liệu Tiền lương nhân viên .42 Hình 13:Biểu đồ thể mức độ hài lòng so với mức độ rời bỏ nhân viên 44 Hình 14:Biểu đồ thể số trung bình tháng so với số dự án .45 Hình 15:Biểu đồ thể đánh giá cuối so với lượng dự án 46 Hình 16:Biểu đồ thể số lượng nhân viên so với lần đánh giá cuối 47 Hình 17:Biểu đồ cho thấy phân phối tiền lương so với nhân viên rời khỏi 48 Hình 18:Phân bổ phịng ban so với nhân viên rời công ty 49 Hình 19: Kéo thả liệu cần dự đoán 65 Hình 20: Kéo thả Filter Examples vào thuật tốn 66 Hình 21: Chọn phịng ban muốn dự đốn 66 Hình 22: Kéo thả Cross Validation vào thuật toán 67 Hình 23: Training Testing Cross Validation .67 Hình 24: Kéo thả Decision Tree vào phần Training 68 Hình 25: Kéo thả Apply Model vào phần Testing 68 Hình 26: Kéo thả Performance vào phần Testing .69 Hình 27: Chỉ số Accuracy phịng IT chạy Decision Trees .70 Hình 28: Chỉ số Precision phòng IT chạy Decision Trees .70 Hình 29: Chỉ số Recall phòng IT chạy Decision Trees 71 Hình 30: Kéo thả Random Forests vào phần Training 71 Hình 31: Chỉ số Accuracy phòng IT chạy Random Forests .72 Hình 32: Chỉ số Precision phịng IT chạy Random Forests .72 Hình 33: Chỉ số Recall phòng IT chạy Random Forests 73 Hình 34: Thêm thẻ “Apply Threshold” “Create Threshold” 74 Hình 35: Thêm thẻ “Nominal to Numerical” “Group Models” 74 Hình 36: Chỉ số Accuracy phịng IT chạy SVM 75 Hình 37: Chỉ số Precision phòng IT chạy SVM 75 Hình 38: Chỉ số Recall phòng IT chạy SVM 76 Hình 39: Kéo thả Naive Bayes vào phần Training 76 Hình 40: Chỉ số Accuracy phòng IT chạy Naive Bayes 77 Hình 41: Chỉ số Precision phịng IT chạy Naive Bayes 77 Hình 42: Chỉ số Recall phòng IT chạy Naive Bayes 78 Hình 43: Kéo thả k-NN vào phần Training 78 Hình 44: Chỉ số Accuracy phịng IT chạy k-NN 79 Hình 45: Chỉ số Precision phịng IT chạy k-NN 79 Hình 46: Chỉ số Recall phòng IT chạy k-NN 80 10 Hình 20: Kéo thả Filter Examples vào thuật toán Bước 3: Trong “Filter Examples”, chọn liệu cần lọc Department, gồm phịng ban: IT, Sales, Support, Technical Hình 21: Chọn phịng ban muốn dự đốn Bước 4: Kéo thả “Cross Validation” vào thuật toán 66 Sử dụng Cross Validation để chia phần: Training Testing Hình 22: Kéo thả Cross Validation vào thuật toán Bước 5: Nhấp chuột lần vào Cross Validation để vào Training Testing Hình 23: Training Testing Cross Validation Bước 6: Kéo thả “Decision Trees” vào bên phần Training 67 Thuật toán nhận input Training Set mà ouput model Hình 24: Kéo thả Decision Tree vào phần Training Bước 7: Kéo thả “Apply Model” vào bên phần Testing Apply Model lấy liệu bên Testing để kiểm tra lại thuật tốn Hình 25: Kéo thả Apply Model vào phần Testing Bước 8: Kéo thả “Performance” vào bên phần Testing 68 Performance có nhiệm vụ đánh giá lại Accuracy, Precision, Recall phòng ban gồm: IT, Sales, Support Technical Hình 26: Kéo thả Performance vào phần Testing Bước 9: Nhấn ► (Run) để chạy liệu cho phịng IT 69 Sau chạy mơ hình Decision Trees, phần mềm cho kết (Accuracy, Precision, Recall) phịng IT sau: Hình 27: Chỉ số Accuracy phịng IT chạy Decision Trees Hình 28: Chỉ số Precision phòng IT chạy Decision Trees 70 Hình 29: Chỉ số Recall phịng IT chạy Decision Trees Bước 10: Các phòng lại (Sales, Support, Technical) chạy tương tự bước Mơ hình Random Forests Các bước chạy giống Decision Trees, thay kéo thả “Decision Trees” bước “Random Forests” Hình 30: Kéo thả Random Forests vào phần Training 71 Sau chạy mơ hình Random Forests, phần mềm cho kết (Accuracy, Precision, Recall) phịng IT sau: Hình 31: Chỉ số Accuracy phịng IT chạy Random Forests Hình 32: Chỉ số Precision phòng IT chạy Random Forests 72 Hình 33: Chỉ số Recall phịng IT chạy Random Forests Mơ hình Support Vector Machines (SVM) Các bước chạy SVM gần giống Decision Trees, cần thêm bước trước bấm ► (Run) để định dạng giá trị sau: Bước 1: Thêm “Apply Threshold” “Create Threshold” vào phần Testing Bước nhằm mục đích tạo ngưỡng cho giá trị biến phân định có, khơng để phân nhánh Bước 2: Tại “Create Threshold” ta thiết lập thông số “First class = 1”, “Second class = 0” 73 Hình 34: Thêm thẻ “Apply Threshold” “Create Threshold” Bước 3: Thêm “Nominal to Numerical” “Group Models” vào phần Training • Nominal to Numerical nhằm mục đích chuyển đổi giá trị thuộc tính từ định danh sang dạng số • Group Models nhằm mục đích thống thuật tốn từ định danh sang số Hình 35: Thêm thẻ “Nominal to Numerical” “Group Models” 74 Sau chạy mơ hình SVM, phần mềm cho kết (Accuracy, Precision, Recall) phòng IT sau: Hình 36: Chỉ số Accuracy phịng IT chạy SVM Hình 37: Chỉ số Precision phịng IT chạy SVM 75 Hình 38: Chỉ số Recall phịng IT chạy SVM Mơ hình Naive Bayes Các bước chạy giống Decision Trees, thay kéo thả “Decision Trees” bước “Naive Bayes” Hình 39: Kéo thả Naive Bayes vào phần Training Sau chạy mơ hình Naive Bayes, phần mềm cho kết (Accuracy, Precision, Recall) phòng IT sau: 76 Hình 40: Chỉ số Accuracy phịng IT chạy Naive Bayes Hình 41: Chỉ số Precision phịng IT chạy Naive Bayes 77 Hình 42: Chỉ số Recall phòng IT chạy Naive Bayes Mơ hình k-Nearest Neighbours (k-NN) Các bước chạy giống Decision Trees, thay kéo thả “Decision Trees” bước “k-NN” Hình 43: Kéo thả k-NN vào phần Training Sau chạy mơ hình k-NN, phần mềm cho kết (Accuracy, Precision, Recall) phòng IT sau: 78 Hình 44: Chỉ số Accuracy phịng IT chạy k-NN Hình 45: Chỉ số Precision phịng IT chạy k-NN 79 Hình 46: Chỉ số Recall phòng IT chạy k-NN 80

Ngày đăng: 26/05/2023, 12:44

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan