1 Trường Đại Học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông =======o0o======= BÁO CÁO BÀI TẬP LỚN MÔN HỌC Phân tích nghiệp vụ thông minh Giáo viên hướng dẫn TS Nguyễn Bình Minh Đề tài Dự đoán khả năng nghỉ việc của nhân viên trong công ty Sinh viên thực hiện Nguyễn Hoàng Thuận 20173393 Nguyễn Đức Thắng 20194170 Phạm Văn Nam 20183598 Chu Thành Đô 20194018 Hà Nội, ngày 24 tháng 06 năm 2022 2 MỤC LỤC 1 Tóm tắt 3 2 Giới thiệu 3 3 Các nghiên cứu liên quan 3 3 1 Mô hình hồi quy tuyến tí.
Trường Đại Học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông =======o0o======= BÁO CÁO BÀI TẬP LỚN MƠN HỌC Phân tích nghiệp vụ thơng minh Giáo viên hướng dẫn: TS Nguyễn Bình Minh Đề tài: Dự đốn khả nghỉ việc nhân viên cơng ty Sinh viên thực Nguyễn Hoàng Thuận 20173393 Nguyễn Đức Thắng 20194170 Phạm Văn Nam 20183598 Chu Thành Đô 20194018 Hà Nội, ngày 24 tháng 06 năm 2022 MỤC LỤC Tóm tắt Giới thiệu 3 Các nghiên cứu liên quan 3.1 Mơ hình hồi quy tuyến tính 3.2 Support Vector Machine – SVM 3.3 Mơ hình Gradient Boosting 3.4 Rừng ngẫu nhiên 3.4.1 Cây định 3.4.2 Rừng ngẫu nhiên 10 Mơ hình đề xuất 10 Kết thực nghiệm 11 5.1 Giới thiệu liệu 11 5.2 Phân tích liệu 11 5.3 Tiền xử lý liệu 19 5.4 Kết 21 Tổng kết 21 Tài liệu tham khảo 22 Tóm tắt Trong năm trở lại đây, toán dự đoán ngày ý đến khả ứng dụng thực Bài toán dự đoán khả nhân viên nghỉ việc toán tiêu biểu Tuy nhiên toán tương đối phức tạp, kết thu bị ảnh hưởng nhiều yếu tố khác Trong khuôn khổ môn học này, chúng em tập trung vào toán dự đoán khả nhân viên nghỉ việc dựa yếu tố khác tập liệu có sẵn Chúng em sử dụng bốn mơ hình mơ hình hồi quy tuyến tính [1], mơ hình Gradient Boosting [2], mơ hình dựa Support Vector Machine [3] mơ hình rừng ngẫu nhiên [4] Giới thiệu Trong năm trở lại đây, toán dự đoán (forecasting) ngày ý đến khả ứng dụng thực Các lĩnh vực tài chính, bán hàng, thời tiết, … lĩnh vực có nhu cầu dự đoán lớn Tuy nhiên, vấn đề dự đốn có nhiều thách thức thiếu thơng tin liệu vấn đề bảo mật, độ xác phương pháp cịn chưa đủ tốt so với yêu cầu thực tế, xu hướng thay đổi theo thời gian, … Nhân viên nghỉ việc vấn đề gây nhiều hao tổn cho cơng ty Chi phí thực tế cho việc thay nhân viên thường cao Một nghiên cứu CAP (tổ chức nghiên cứu vận động sách công Mỹ) công ty thường trả khoảng 1/5 số tiền lương nhân viên để thay họ, chi phí tăng đáng kể vị trí có chức vụ cao nhân viên trả lương cao cần tìm người thay Điều lượng thời gian dành cho vấn, tiền thưởng hiệu suất, chất lượng công việc bị giảm sút vài tháng nhân viên làm quen với công việc Nắm bắt nhân viên có khả nghỉ việc cao giúp nhà quản lý đưa phương án hành động để giữ chân nhân viên lâu lập kế hoạch tuyển dụng phù hợp Xuất phát từ thực tế nói trên, chúng em xin chọn đề tài “Dự đoán khả nghỉ việc nhân viên công ty” để thực môn học Chúng em sử dụng bốn cách tiếp cận mơ hình hồi quy tuyến tính [1], mơ hình Gradient Boosting [2], mơ hình SVM [3] mơ hình rừng ngẫu nhiên [4] Các nghiên cứu liên quan 3.1 Mô hình hồi quy tuyến tính Mục tiêu mơ hình hồi quy tuyến tính (Linear Regression) [1] nói riêng mơ hình học máy nói chung tìm ánh xạ từ không gian liệu đầu vào sang không gian liệu nhãn đầu ra: 𝑓: 𝑥 → 𝑦 𝑦 ≈ 𝑓(𝑥) = 𝑦 ^ Với hồi quy tuyến tính [1] hàm 𝑓 hàm tuyến tính Giả sử ta có: vector hàng liệu đầu vào vector cột trọng số cần tìm nhãn liệu đầu 𝑥 = [𝑥0 , 𝑥1 , 𝑥2 , … , 𝑥𝑛 ] 𝑤 = [𝑤0 , 𝑤1 , 𝑤2 , … , 𝑤𝑛 ]𝑇 𝑌 = [𝑦0 , 𝑦1 , 𝑦2 , … , 𝑦𝑛 ] Khi hàm 𝑓 có dạng: 𝑓(𝑥) = 𝑥𝑤 = 𝑥0 𝑤0 + 𝑥1 𝑤1 + ⋯ + 𝑥𝑛 𝑤𝑛 Để đánh giá độ hiệu mơ hình cần có hàm mục tiêu hay hàm mát Đây hàm phụ thuộc vào tham số 𝑊 tập liệu học nhằm đo kết dự đoán tập học Hàm có giá trị nhỏ kết dự đốn tốt ngược lại Hàm mát thường sử dụng hồi quy hàm mát chuẩn L1 - Least absolute deviations [5] L2 - Least square errors [6] Công thức cụ thể sau: L1 - Least absolute deviations: 𝑛 𝐿1𝐿𝑜𝑠𝑠 = ∑ |𝑦𝑖 − 𝑓(𝑥𝑖 )| 𝑖=1 L2 - Least absolute deviations: 𝑛 𝐿2𝐿𝑜𝑠𝑠 1 = ∑[𝑦𝑖 − 𝑓(𝑥𝑖 )]2 = (𝑦 − 𝑋𝑤)𝑇 (𝑦 − 𝑋𝑤) 2 𝑖=1 Cần phải chọn tham số 𝑊để tối thiểu hàm mục tiêu Có nhiều phương pháp để tìm hàm tối ưu Một cách đơn giản giải phương trình đạo hàm (gradient) Giả sử ta sử dụng hàm 𝐿2𝐿𝑜𝑠𝑠 thì: 𝑋 𝑇 (𝑋𝑤 − 𝑦) = Từ suy ra: 𝑤 = (𝑋 𝑇 𝑋)−1 𝑦 = 𝐴−1 𝑦 Trong trường hợp khơng thể giải phương trình đạo hàm ma trận A không khả nghịch, sử dụng số phương pháp khác Gradient Descent [7] sử dụng khái niệm giả nghịch đảo [8] 3.2 Support Vector Machine – SVM Support Vector Machine (SVM) [3] thuật tốn thuộc nhóm Supervised Learning (Học có giám sát) dùng để phân chia liệu (Classification) thành nhóm riêng biệt Giả sử cặp liệu training set (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑁 , 𝑦𝑁 ) với vector 𝑥𝑖 ∈ 𝑅 𝑑 thể đầu vào điểm liệu 𝑦𝑖 nhãn điểm liệu 𝑑 số chiều liệu 𝑁 số điểm liệu Giả sử nhãn điểm liệu xác định 𝑦𝑖 = (class 1) 𝑦𝑖 = −1 (class 2) Để phân chia hai class ta cần tìm siêu phẳng có phương trình 𝑤 𝑇 𝑥 + 𝑏 = Hình 1: Phân tích tốn SVM khơng gian chiều (Nguồn: https://machinelearningcoban.com/assets/19_svm/svm6.png) Với cặp liệu (𝑥𝑛 , 𝑦𝑛 ) bất kỳ, khoảng cách từ điểm tới mặt phân chia là: 𝑦𝑛 (𝑤 𝑇 𝑥 + 𝑏) ||𝑤||2 Với mặt phần chia trên, margin tính khoảng cách gần từ điểm tới mặt (bất kể điểm hai class): 𝑚𝑎𝑟𝑔𝑖𝑛 = 𝑚𝑖𝑛𝑛 𝑦𝑛 (𝑤 𝑇 𝑥 + 𝑏) ||𝑤||2 Bài toán tối ưu SVM tốn tìm 𝒘 𝒗 cho margin đạt giá trị lớn nhất: (𝑤, 𝑏) = 𝑎𝑟𝑔𝑚𝑎𝑥𝑤,𝑏 { 𝑦𝑛 (𝑤 𝑇 𝑥 + 𝑏) 𝑚𝑖𝑛𝑛 𝑦𝑛 (𝑤 𝑇 𝑥 + 𝑏)} } = 𝑎𝑟𝑔𝑚𝑎𝑥𝑤,𝑏 { ||𝑤||2 ||𝑤||2 Thông thường việc giải trực tiếp tốn tương đối khó số chiều 𝑑 lớn Bài toán tối ưu tốn lồi, thỏa mãn tiêu chuẩn Slater strong duality thoả mãn Và strong duality thoả mãn nghiệm tốn nghiệm hệ điều kiện KKT 3.3 Mơ hình Gradient Boosting Mơ hình Gradient Boosting mơ hình tạo loạt mơ hình phân loại yếu, mơ hình học hỏi từ để tránh lặp lại sai lầm Hay nói cách khác, mơ hình sinh sau học để hạn chế lỗi lầm sinh trước Vậy làm thể để hạn chế sai lầm từ model trước ? Boosting tiến hành đánh trọng số cho mơ hình thêm vào dựa cách tối ưu khác Tùy theo cách đánh trọng số (cách để model fit cách tuần tự) cách tổng hợp lại model, từ hình thành nên loại Boosting: - Adaptive Boosting (AdaBoost) Gradient Boosting Các mô hình Boosting có số đặc điểm sau: - Boosting q trình tuần tự, khơng thể xử lí song song, đó, thời gian train mơ hình tương đối lâu - Sau vịng lặp, Boosting có khả làm giảm error theo cấp số nhân - Boosting hoạt động tốt base learner khơng q phức tạp error khơng thay đổi nhanh - Boosting giúp làm giảm giá trị bias cho model base learner Mơ hình Boosting phát biểu toán tối ưu sau: Trong đó: - L: loss function y: label 𝑐𝑛 : confidence score weak learner thứ n (hay gọi trọng số) 𝑤𝑛 : weak learner thứ n Thay cố gắng quét tìm tất giá trị 𝑐𝑛 , 𝑤𝑛 để tìm nghiệm tối ưu tồn cục - công việc tốn nhiều thời gian tài nguyên, cố gắng tìm giá trị nghiệm cục sau thêm mơ hình vào chuỗi mơ hình với mong muốn dần đến nghiệm tồn cục Ta có: Cơng thức cập nhật tham số theo hướng giảm đạo hàm: Đối với phương pháp Gradient Boosting, ta áp dụng tương tự: Ta có mã giả thuật tốn sau: - Khởi tạo giá trị pseudo-residuals cho điểm liệu - Tại vòng lặp thứ i: o Train model thêm vào để fit vào giá trị pseudo-residuals có o Tính tốn giá trị confidence score model vừa train o Cập nhật model o Cuối cùng, tính tốn giá trị pseudo-residuals để làm label cho model - Sau lặp lại với vịng lặp i + Hình3.3: Mơ tả thuật toán Gradient Boosting 3.4 Rừng ngẫu nhiên 3.4.1 Cây định Cây định (Decision Tree) [8] phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượng thuộc kiểu liệu khác Nhị phân (Binary), Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Một ví dụ định: giả sử dựa theo thời tiết mà bạn nam định đá bóng hay khơn Những đặc điểm ban đầu là: thời tiết, độ ẩm, gió Dựa vào thơng tin xây dựng mơ sau: Hình3.4: Mơ hình định (Nguồn: https://i1.wp.com/trituenhantao.io/wp-content/uploads/2020/04/dt_res-1.png?w=810&ssl=1) Dựa theo mơ hình trên, ta thấy: trời nắng, độ ẩm bình thường khả bạn nam chơi bóng cao Cịn trời nắng, độ ẩm cao khả bạn nam khơng chơi bóng Thuật tốn đơn giản để xây dựng định thuật toán ID3 C4.5 ID3 [9] sử dụng phương pháp tham lam tìm kiếm từ xuống thơng qua khơng gian nhánh khơng có backtracking ID3 [9] sử dụng Entropy Information Gain để xây dựng định Thuật toán C4.5 [9] thuật toán cải tiến ID3[9] Trong thuật toán C4.5 [9], thay sử dụng Information Gain, Gain Ratio sử dụng để chuẩn hoá Information Gain với số lượng ghi, từ tránh việc ưu tiên thuộc tính có số lượng lớn giá trị mà xét tới thuộc tính có giá trị Ngồi cịn có số thuật tốn khác như: - - Thuật toán CHAID: Tạo định cách sử dụng thống kê chi-square để xác định phân tách tối ưu Các biến mục tiêu đầu vào số (liên tục) phân loại Thuật toán C&R: sử dụng phân vùng đệ quy để chia Tham biến mục tiêu dạng số phân loại MARS Conditional Inference Trees Chú ý phát triển định để phân chia tất điểm liệu, lớn phức tạp, độ xác tập kiểm tra lại khơng cao liệu huấn luyện tiềm ẩn nhiễu Do cần có tiêu chuẩn dừng để tránh trường hợp Tiêu chuẩn độ sâu tối đa cây, tổng số nút tối đa, hay việc phân chia them node không làm giảm entropy nhiều,… Ngồi cịn có phương pháp cắt tỉa cây: xây dựng định hồn chỉnh sau tiến hành cắt tỉa số nút, nhánh không quan trọng nhằm giảm kích thước độ phức tạp 3.4.2 Rừng ngẫu nhiên Rừng ngẫu nhiên [4] thuật tốn học có giám sát Như tên gọi nó, rừng ngẫu nhiên sử dụng định để làm tảng Ưu điểm rừng ngẫu nhiên sử dụng cho tốn phân loại hồi quy, tránh overfitting, làm việc với liệu bị thiếu giá trị,… Rừng ngẫu nhiên hoạt động cách đánh giá nhiều định ngẫu nhiên, lấy kết đánh giá tốt (được vote nhiều nhất) số kết trả Hình Rừng ngẫu nhiên (Nguồn: https://upload.wikimedia.org/wikipedia/commons/7/76/Random_forest_diagram_complete.png) Mơ hình đề xuất Bốn mơ hình thử nghiệm mơ hình hồi quy logistic, mơ hình gradient boosting, mơ hình SVM mơ hình định Các cách lựa chọn điều chỉnh tham số nhóm em trình bày chi tiết phần sau 10 Kết thực nghiệm 5.1 Giới thiệu liệu Bộ liệu nhóm em sử dụng file csv gồm 1470 điểm liệu, công bố thi Kaggle: https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attritiondataset Bộ liệu chứa thông tin nhân viên làm việc cho công ty bao gồm: cấp, mức độ hài lịng với mơi trường làm việc, mức độ hài long công việc, mức lương đãi ngộ, … Mục tiêu thi yêu cầu cần phải dự đoán xác nhân viên cơng ty có định nghỉ việc hay khơng 5.2 Phân tích liệu Bộ liệu gồm có 1470 dịng tương đương với 1470 điểm liệu Có 35 cột có cột nhãn biểu diễn nhân viên có nghỉ việc hay khơng, 34 cột cịn lại đặc trưng liên quan đến nhân viên Chi tiết cột lại sau: - Age: Attrition: BusinessTravel: DailyRate: Department: DistanceFromHome: Education: EducationField: EmployeeCount: EmployeeNumber: EnvironmentSatisfaction: Gender: HourlyRate: JobInvolvement: JobLevel: JobRole: JobSatisfaction: MaritalStatus: MonthlyIncome: MonthlyRate: NumCompaniesWorked: Over18: OverTime: PercentSalaryHike: PerformanceRating: RelationshipSatisfaction: StandardHours: 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu object 1470 giá trị khác rỗng, kiểu liệu object 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu object 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu object 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu object 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu object 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu object 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng int64 1470 giá trị khác rỗng int64 1470 giá trị khác rỗng, kiểu liệu object 1470 giá trị khác rỗng, kiểu liệu object 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 11 - StockOptionLevel: TotalWorkingYears: TrainingTimesLastYear: WorkLifeBalance: YearsAtCompany: YearsInCurrentRole: YearsSinceLastPromotion: YearsWithCurrManager: 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 1470 giá trị khác rỗng, kiểu liệu int64 Bên cạnh ta có số thống kê liệu: • Thống kê số giá trị cột: - Over18: StandardHours: EmployeeCount: Gender: Attrition: PerformanceRating: OverTime: MaritalStatus: Department: BusinessTravel: StockOptionLevel: EnvironmentSatisfaction: JobInvolvement: JobSatisfaction: RelationshipSatisfaction: WorkLifeBalance: Education: JobLevel: EducationField: TrainingTimesLastYear: JobRole: NumCompaniesWorked: PercentSalaryHike: YearsSinceLastPromotion: YearsWithCurrManager: YearsInCurrentRole: DistanceFromHome: YearsAtCompany: TotalWorkingYears: Age: HourlyRate: 1 2 2 3 4 4 4 5 10 15 16 18 19 29 37 40 43 71 12 - DailyRate: MonthlyIncome: MonthlyRate: EmployeeNumber: 886 1349 1427 1470 Ta nhận thấy trường Over18, StandardHours, EmployeeCount có giá trị cho tất ghi nên trường khơng có ý nghĩa việc phân loại, ta bỏ qua trình thực nghiệm Tương tự trường EmployeeNumber, MonthlyRate có nhiều giá trị khác số lượng giá trị khác gần tương đương với tổng số ghi nên ý nghĩa dùng để phân loại thấp • Biểu đồ phân phối số tuổi nhân viên: Từ biểu đồ thấy phân phối tuổi nhân viên tập liệu phân phối chuẩn, có trung bình khoảng 35 tuổi, giá trị nhỏ quan sát 18 tuổi, giá trị cao quan sát 60 tuổi 13 • Một số biểu đồ phân phối khác để hiểu liệu: Từ biểu đồ thấy: - Hầu hết nhân viên làm việc công ty nhỏ 20 năm, tổng số năm làm việc nhân viên phần lớn nhỏ 20 năm - Hầu hết nhân viên làm việc gần nhà, biểu đồ khoảng cách đến cơng ty có phân hóa rõ rệt khoảng cách gần xa - Hầu hết nhân viên lên chức vòng vài năm gần Và phần trăm lương tăng nằm phần lớn khoảng 10-15% 14 • Biểu đồ thống kê số nhân viên nghỉ việc không nghỉ việc phân theo giới tính: Dựa vào biểu đồ thấy tỷ lệ nghỉ việc nhân nam cao nữ chút (16.7% so với 15%) • Biểu đồ thống kê số nhân viên nghỉ việc khơng nghỉ việc theo tình trạng nhân: Có thể thấy tỷ lệ nghỉ việc nhóm nhân viên độc thân cao (25%) so với hôn nhân (13%) li hôn (9.1%) 15 • Biểu đồ thống kê số nhân viên nghỉ việc không nghỉ việc phân theo cân cơng việc sống: Có thể thấy người có cân sống cơng việc cao tỷ lệ nghỉ việc thấp Với số cân tỷ lệ nghỉ việc khoảng 33%, với số cân tỷ lệ nghỉ việc 17.4%,… • Biểu đồ thống kê số nhân viên nghỉ việc khơng nghỉ việc phân theo hài lịng mơi trường làm việc: 16 Điểm tương tự với số mức độ hài long với môi trường làm việc, mức độ hài lịng thấp tỷ lệ nghỉ việc tăng lên • Biểu đồ thống kê số nhân viên nghỉ việc không nghỉ việc phân theo hài lịng cơng việc: Chỉ số mức độ hài long công việc tương tự hai số • Biểu đồ thống kê số nhân viên nghỉ việc không nghỉ việc theo thứ bậc công việc: 17 Có thể thấy với nhân viên có thứ bậc công việc thấp, tỷ lệ nghỉ việc cao hẳn Đặc biệt với nhân viên có thứ bậc công việc cao, mức 4-5 tỷ lệ nghỉ việc gần mức 0% • Biểu đồ thống kê số nhân viên nghỉ việc không nghỉ việc theo tần suất công tác: Biểu đồ mức độ phải công tác tỷ lệ thuận với khả nghỉ việc Càng phải công tác nhiều tỷ lệ nghỉ việc cao • Biểu đồ thống kê số nhân viên nghỉ việc không nghỉ việc theo ban chuyên môn: 18 Biểu đồ cho thấy ban chun mơn R&D có tỷ lệ nghỉ việc thấp nhất, khoảng 14% ban chun mơn Sales có tỷ lệ nghỉ việc lên đến 20%, HR có tỷ lệ nghỉ việc 25% 5.3 Tiền xử lý liệu • Như đề cập phần trước ta loại bỏ trường sau có q q nhiều giá trị khác nhau: 'Over18', 'EmployeeCount', 'EmployeeNumber', 'StandardHours' • Thêm cột EducationYears từ mức giá trị thành số năm chương trình giáo dục với cài đặt sau: - 1: 10, Trung học sở 2: 12, Trung học phổ thông 3: 16, Đại học 4: 18, Thạc sĩ 5: 22, Tiến sĩ Điều có ý nghĩa tập liệu có trường số năm công ty, tổng số năm làm việc nên chuẩn hóa trường education theo hướng giúp đồng với số đặc trưng khác tập liệu • Thêm cột TotalSatisfaction có ý nghĩa tổng cộng cho mức hài long nhân viên Cột tổng cột : 'EnvironmentSatisfaction', 'JobInvolvement', 'JobSatisfaction', 'RelationshipSatisfaction', 'WorkLifeBalance' • Mã hóa one-hot cho cột chứa liệu dạng category Các cột là: - BusinessTravel - Department - EducationField - Gender - JobRole - MaritalStatus - OverTime • Visualize ma trận tương quan cột sau q trình mã hóa: Từ biểu đồ ta nhận thấy bỏ số cột có tương quan cao với hay nhiều cột khác: - Bỏ cột 'Education' tương quan cao với cột 'YearsEducation' (1.0) Bỏ cột 'YearsInCurrentRole' tương quan cao với cột 'YearsAtCompany' (0.9) Bỏ cột 'Department_1' tương quan cao với cột 'Department_2' (0.9) Bỏ cột 'JobLevel' tương quan cao với cột 'MonthlyIncome' (0.9) 19 • Sau mã hóa bỏ cột không cần thiết, ta tiến hành chia liệu ngẫu nhiên thành tập train test với tỷ lệ 80-20 20 • Việc cân liệu vấn đề đau đầu với hầu hết toán học máy, với tập liệu Chính nhóm em sử dụng kĩ thuật làm tăng liệu có tên gọi SMOTE[10] để làm tăng liệu tập huấn luyện cách hiệu Hình vẽ biểu đồ liệu tập huấn luyện trước sau áp dụng phương pháp SMOTE 5.4 Kết • Trong trình thực nghiệm để đạt kết tốt nhất, nhóm em sử dụng thư viện sklearn với tính grid search để tìm tham số tối ưu cho mơ hình • Kết mơ tả bảng đây: Phương pháp Logistic Regression SVM Gradient Boosting Decision Tree Random forest Accuracy(%) 67.0 37.0 89.0 77.0 85.0 F1-marco 58.0 37.0 76.0 62.0 70.0 Qua kết thực nghiệm thấy phương pháp Gradient Boosting có kết cao vượt xa phương pháp lại Phương pháp SVM tệ đạt 37%, điều liệu chứa nhiều điểm liệu nhiều đặc trưng khiến cho mơ hình SVM khơng thể hoạt động tốt Tổng kết Trong nghiên cứu này, chúng em thử nghiệm bốn cách tiếp cận mơ hình hồi quy logistic, mơ hình gradient bootsing, mơ hình SVM mơ hình rừng ngẫu nhiên cho tốn “ dự đoán khả nghỉ việc nhân viên” Kết cho thấy mơ hình gradient boosting với việc lọc bỏ thuộc tính dư thừa cho kết tốt Trong tương lai, nhóm tiếp tục cải thiện mơ hình cách thử nghiệm mơ hình hồi quy dựa XGBoost [11] để đạt kết tốt 21 Tài liệu tham khảo [1] Weisberg, Sanford Applied linear regression Vol 528 John Wiley & Sons, 2005 [2] Friedman, J H (2001) Greedy function approximation: a gradient boosting machine Annals of statistics, 1189-1232 [3] Cortes, Corinna, and Vladimir Vapnik "Support vector machine." Machine learning 20.3 (1995): 273297 [4] Bonissone, Piero, et al "A fuzzy random forest." International Journal of Approximate Reasoning 51.7 (2010): 729-747 [5] Bloomfield, Peter, and William L Steiger Least absolute deviations: theory, applications, and algorithms Boston: Birkhäuser, 1983 [6] Modarres, Mohammad, Ebrahim Nasrabadi, and Mohammad Mehdi Nasrabadi "Fuzzy linear regression models with least square errors." Applied Mathematics and Computation 163.2 (2005): 977-989 [7] Sharma, Sagar, and Simone Sharma "Activation functions in neural networks." Towards Data Science 6.12 (2017): 310-316 [8] Myles, Anthony J., et al "An introduction to decision tree modeling." Journal of Chemometrics: A Journal of the Chemometrics Society 18.6 (2004): 275-285 [9] Freund, Yoav, and Llew Mason "The alternating decision tree learning algorithm." icml Vol 99 1999 [10] Chawla, N V., Bowyer, K W., Hall, L O., & Kegelmeyer, W P (2002) SMOTE: synthetic minority over-sampling technique Journal of artificial intelligence research, 16, 321-357 [11] Chen, Tianqi, and Carlos Guestrin "Xgboost: A scalable tree boosting system." Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining 2016 22 ... cơng việc: Chỉ số mức độ hài long công việc tương tự hai số • Biểu đồ thống kê số nhân viên nghỉ việc không nghỉ việc theo thứ bậc công việc: 17 Có thể thấy với nhân viên có thứ bậc công việc. .. thấp, tỷ lệ nghỉ việc cao hẳn Đặc biệt với nhân viên có thứ bậc công việc cao, mức 4-5 tỷ lệ nghỉ việc gần mức 0% • Biểu đồ thống kê số nhân viên nghỉ việc không nghỉ việc theo tần suất công tác:... Tổng kết 21 Tài liệu tham khảo 22 Tóm tắt Trong năm trở lại đây, toán dự đoán ngày ý đến khả ứng dụng thực Bài toán dự đoán khả nhân viên nghỉ việc toán tiêu biểu Tuy