1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo Phân tích nghiệp vụ thông minh_Đề tài: Employee Attrition and Performance ( Full)

24 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Giới thiệu về đề tài 1. Giới thiệu đề tài Dữ liệu (data),dữ liệu lớn (big data), phân tích dữ liệu (data analysis), định hướng dữ liệu (data driven) hiện đang là chuỗi các từ khóa nhận được sự quan tâm nhiều nhất trong những năm gần đây, khi mà thế giới đang bước vào kỷ nguyên của thời đại công nghệ số. Để biết tầm quan trọng của việc hiểu dữ liệu như nào thì trong vài năm gần đây các công ty, doanh nghiệp đã thay nhau thành lập nên các khối phân tích dữ liệu nhằm mục định nắm bắt được xu hướng, hành vi người dùng thông qua sự tương tác của họ với môi trường bên ngoài. Để hiểu được quy trình phân tích và đưa ra quyết định trong việc phân tích dữ liệu thì nhóm chúng em đã lựa chọn đề tài 3 đó là Những yếu tố tác động tới việc ở lại hay đi của nhân viên đối với công ty. Cụ thể hơn, dựa vào các thuộc tính như:lương,chế độ phúc lợi, khoảng cách đi làm từ nhà tới công ty, ... với nhãn là ở lại hoặc nghỉ việc được đen đi phân tích để đưa ra quyết định với một dữ liệu không nhãn thì nhân viên đấy sẽ ở lại hay nghỉ việc. Dưới đây là cơ sở lý thuyết và cách đánh giá lựa chọn phương pháp phân tích và dự đoán dữ liệu mà nhóm em sẽ trình bày sao cho tối ưu và đạt hiệu quả cao nhất

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ─────── BÁO CÁO BÀI TẬP LỚN Đề tài : Employee Attrition and Performance Giảng viên hướng dẫn: TS Nguyễn Bình Minh Nhóm thực hiện: 23 Thành viên Lưu Ngọc Thành 20163712 Đào Đức Minh 20189669 Lê Thị Mai Hương 20173164 Lê Thị Huế 20173149 Nguyễn Trần Hiếu 20173118 Nguyễn Thị Duyên 20173076 Hà Nội, 2021 MỤC LỤC I Giới thiệu đề tài Giới thiệu đề tài Giới thiệu liệu Mục tiêu cần đạt 3 II Cơ sở lý thuyết/ Phân tích khai phá liệu 2.1 Tổng quan liệu 2.2 Trực quan hóa liệu 2.3 Phân tích ảnh hưởng yếu tố đến định nghỉ việc 2.4 Mối tương quan trường thuộc tính 5 8 18 III Huấn luyện mơ hình 3.1 Tiền xử lí liệu 3.2 Giảm chiều liệu 3.3 Phương pháp lấy mẫu 3.4 Huấn luyện mơ hình 20 20 21 21 21 IV Đánh giá kết 4.1 Đánh giá mơ hình 4.2 So sánh kết phương pháp chuẩn hoá liệu 22 22 23 V Kết luận 5.1 Về liệu 5.2 Về mô hình học máy 23 23 24 I Giới thiệu đề tài Giới thiệu đề tài "Dữ liệu" (data),"dữ liệu lớn" (big data), "phân tích liệu" (data analysis), định hướng liệu (data driven) chuỗi từ khóa nhận quan tâm nhiều năm gần đây, mà giới bước vào kỷ nguyên thời đại công nghệ số Để biết tầm quan trọng việc hiểu liệu vài năm gần công ty, doanh nghiệp thay thành lập nên khối phân tích liệu nhằm mục định nắm bắt xu hướng, hành vi người dùng thông qua tương tác họ với mơi trường bên ngồi Để hiểu quy trình phân tích đưa định việc phân tích liệu nhóm chúng em lựa chọn đề tài "Những yếu tố tác động tới việc lại hay nhân viên công ty" Cụ thể hơn, dựa vào thuộc tính như:"lương","chế độ phúc lợi", "khoảng cách làm từ nhà tới công ty", với nhãn "ở lại" "nghỉ việc" đen phân tích để đưa định với liệu khơng nhãn nhân viên "ở lại" hay "nghỉ việc" Dưới sở lý thuyết cách đánh giá lựa chọn phương pháp phân tích dự đốn liệu mà nhóm em trình bày cho tối ưu đạt hiệu cao Giới thiệu liệu Đây liệu giả tưởng, tạo nhà khoa học liệu IBM số trường liệu mã hoá liệu dạng giá trị số Education 'Below College' 'College' 'Bachelor' 'Master' 'Doctor' EnvironmentSatisfaction 'Low' 'Medium' 'High' 'Very High' JobInvolvement 'Low' 'Medium' 'High' 'Very High' JobSatisfaction 'Low' 'Medium' 'High' 'Very High' PerformanceRating 'Low' 'Good' 'Excellent' 'Outstanding' RelationshipSatisfaction 'Low' 'Medium' 'High' 'Very High' WorkLifeBalance 'Bad' 'Good' 'Better' 'Best' Mục tiêu cần đạt - Với đầu vào thuộc tính nhân viên cần dự đốn xem định nhân viên lại xin nghỉ việc với độ xác cao II Cơ sở lý thuyết/ Phân tích khai phá liệu 2.1 Tổng quan liệu - Tổng quan liệu: + Cấu trúc liệu: gồm 1470 hàng 35 cột; có 26 thuộc tính có liệu kiểu số thuộc tính có liệu kiểu văn phân loại + Dữ liệu bị thiếu: khơng có liệu bị thiếu + Kiểu liệu: có kiểu liệu: số văn + Nhãn: Attrition nhãn liệu, ta đánh giá mối quan hệ việc rời công ty nhân viên với nhân tố ảnh hưởng + Phân bố nhãn liệu: có 84% nhân viên khơng nghỉ việc có 16% nhân viên nghỉ việc Do đó, liệu không cân - Giá trị đặc trưng thuộc tính + Ba trường thuộc tính : EmployeeCount, Over18 StandardHours có giá trị, thế, tiền xử lý liệu nên loại bỏ + Trường thuộc tính EmployeeNumber : chứa mã số nhân viên, khơng có mối quan hệ với việc nghỉ việc nhân viên, tiền xử lý liệu nên loại bỏ + Trường thuộc tính PerformanceRating có hai giá trị thay bốn giá trị mô tả Sau loại bỏ trường thuộc tính khơng ảnh hưởng đến nhãn liệu, liệu cịn 31 trường thuộc tính ( 23 kiểu liệu số kiểu liệu văn bản) 2.2 Trực quan hóa liệu Dạng biểu đồ hộp Boxplot 23 trường thuộc tính kiểu liệu số Các trường thuộc tính MonthlyIncome, TotalWorkingYears, YearsAtCompany, YearsInCurrentRole, YearsSinceLastPromotion YearWithCurrManager có điểm kỳ dị nên cần chuẩn hóa liệu trước đào tạo mơ hình 2.3 Phân tích ảnh hưởng yếu tố đến định nghỉ việc Age Tỷ lệ nghỉ việc rơi vào khoảng độ 17 đến 28 tuổi Đây độ tuổi trường , thiếu kinh nghiệm cần học hỏi thêm Dưới 21 tuổi tỷ lệ nghỉ việc lên đến 100% Daily Rate Mức theo ngày nhìn chung khơng có ảnh hưởng đến tỷ lệ nghỉ việc Distance from home Khoảng cách làm xa nhân viên dễ có khả làm Đối với data này, số nhiều nhân viên làm xa 5km Education Nhân viên có kỹ sư nhân có nhiều khả nghỉ việc nhân viên hạng mục khác Environment satisfaction Mặc dù tỷ lệ làm lớn nghỉ làm nhìn chung mức độ hài lịng mơi trường làm việc tỷ lệ thuận với tiếp tục làm Hourly rate 10 Mức phí tương tự mức hàng tháng, nhìn chung khơng có ảnh hưởng đến tỷ lệ nghỉ việc Job Involvement Mức độ tích cực tham gia vào cơng việc tỉ lệ nghịch với định nghỉ việc nhân viên Khi mức độ tham gia vào công việc cao, nhân viên có xu hướng lại cơng ty Job level 11 Mức độ công việc giao cao khả nghỉ việc nhân viên thấp Job satisfaction Nhìn chung tỷ lệ nghỉ việc nhỏ hơn, nhiên mức độ hài lịng với cơng việc tăng định lại công ty nhân viên tăng 10 Monthly Income 12 Ta thấy mức lương thấp tỷ lệ nghỉ việc cao, mức lương tỉ lệ nghịch với khả nghỉ việc Ở đây, có mức lương cho tỷ lệ nghỉ việc đạt 100%, có mức cho tỷ lệ nghỉ việc 0% Trên 2,5k có khác biệt rõ ràng 11 Monthly Rate Mức phí tháng: thay đổi khơng có quy luật tỷ lệ người lại xin nghỉ việc với xu hướng mức phí tháng 12 Number Companies worked Số lượng nhân viên làm việc nhiều cơng ty có xu hướng lại 13 Percent Salary hike 13 Phần trăm lương tăng nhân viên c 14 Performance Rating Mức độ hiệu suất nhân viên hai giá trị trường liệu khoảng 16%, đó chưa thấy ảnh hưởng nhân tố đến việc nghỉ việc nhân viên 15 Relationship Satisfaction 14 Độ hài lòng với mối quan hệ cao tỉ lệ nghỉ việc giảm 16 Stock Option level Xu hướng nghỉ việc nhân viên nhiều tùy chọn bán cổ phiếu bị hạn chế Vì cổ phiếu tạo thành số tiền khổng lồ lại vài năm, nên người không muốn hội Những người có hạn chế / khơng có tùy chọn cổ phiếu có quyền tự rời khỏi tổ chức theo ý muốn 17 Total working years Nhân viên làm ngành lâu tỷ lệ nghỉ việc thấp tỷ lệ gần đoạn 25 năm người ổn có lượng kiến thức ổn định vị trí công việc Cao rơi vào năm đầu tiên, cao tiếp khoảng đến 10 năm kinh nghiệm 18 Training times last year 15 Phần lớn số lượng nhân viên nghỉ có thời gian đào tạo năm trước mức 2,3 tháng 19 Work life balance Tỷ lệ nghỉ việc yếu tố thấp, phần lớn tập trung mức 20 years at company 16 Số năm làm việc công ty lâu nhân viên có xu hướng lại làm tiếp 21 years in current Role Nhân viên có số năm làm việc vị trí nhiều có xu hướng lại ổn định cơng việc 22 year since last promotion Khoảng thời gian thăng tiến 0-2 năm có tỷ lệ nghỉ việc lớn xu hướng nhảy việc người trẻ 23 years with current management 17 Nhân viên nghỉ việc thường có thời gian làm việc với quản lý so với người lại 2.4 Mối tương quan trường thuộc tính Biểu đồ Heatmap 18 + JobLevel MonthlyIncome có mối tương quan cao với + TotalWorkingYears tương quan với JobLevel MonthlyIncome + YearsAtCompany tương quan với YearInCurrentRole YearsWithCurrManager + YearInCurrentRole tương quan với YearsWithCurrManager Vì thế, trước huấn luyện mơ hình, cần giảm chiều liệu 19 III Huấn luyện mơ hình 3.1 Tiền xử lí liệu Tập liệu có kiểu liệu: kiểu số kiểu văn phân loại Với kiểu văn phân loại, liệu biến đổi dạng one-hot Còn với kiểu số, liệu chuẩn hoá theo cách khác để so sánh hiệu quả: - Chuẩn hoá L2 (chuẩn hoá Euclid) 20 - Chuẩn hoá điểm Z: 3.2 Giảm chiều liệu Mơ hình sử dụng thuật tốn PCA để giảm chiều liệu Do khơng xác định số lượng chiều liệu phù hợp kết tốt nhất, mơ hình sử dụng GridSearchCV để tìm số chiều liệu có kết tốt 3.3 Phương pháp lấy mẫu Bộ liệu IBM HR liệu không cân Vì vậy, ngồi việc lấy mẫu trực tiếp, mơ hình huấn luyện đánh giá với phương pháp lấy mẫu: Undersampling Ngẫu nhiên loại bỏ mẫu tập có nhãn chiếm đa số, nhằm cần tỉ lệ với mẫu tập có nhãn chiếm thiểu số Thuật toán sử dụng: Random Under Sampler Oversampling Lặp ngẫu nhiên mẫu có nhãn chiếm thiểu số, nhằm cân tỉ lệ với mẫu tập có nhãn chiếm đa số Thuật toán sử dụng: Random Over Sampler 3.4 Huấn luyện mơ hình Q trình huấn luyện đánh giá sử dụng GridSearchCV qua bước Giảm chiều liệu Thuật tốn PCA: đánh giá mơ hình với số chiều liệu khoảng từ đến tổng số chiều liệu Lấy mẫu liệu: đánh giá dựa cách - normal: lấy mẫu liệu gốc - over: RandomOverSampler - under: RandomUnderSampler Huấn luyện mơ hình: tối ưu tham số mơ hình với danh sách tham số sau - SVM: kernel: ['linear', 'poly', 'rbf', 'sigmoid'] - kNN: - n_neighbors: từ đến 50 - weights: ['uniform', 'distance'] - metric: ['euclidean', 'manhattan', 'minkowski'] - Logistic Regression - Random Forest - Decision Tree - Gaussian Naive Bayes 21 IV Đánh giá kết 4.1 Đánh giá mơ hình Mơ hình cho độ xác tốt ≈ 89% - Với liệu chuẩn hoá điểm Z: - Với liệu chuẩn hoá L2 - Nhận xét: SVM Logistic Regression cho kết tốt SVM kNN cho kết tương đối ổn định với phương pháp lấy mẫu khác Decision Tree cho kết phương pháp lấy mẫu 22 4.2 So sánh kết phương pháp chuẩn hoá liệu Việc sử dụng chuẩn hoá điểm Z cho kết tốt chuẩn hoá L2 phương pháp lấy mẫu 23 V Kết luận 5.1 Về liệu - Bộ liệu khơng cân Có nhiều trường liệu khơng mang thơng tin q trình học máy Có trường liệu khơng phải kiểu số Một số trường liệu khơng có phân bố chuẩn Có trường liệu có độ liên quan cao 5.2 Về mơ hình học máy - Mơ hình SVM Logistic Regression cho kết tốt Chuẩn hoá điểm Z cho kết tốt chuẩn hoá L2 24

Ngày đăng: 14/06/2023, 13:40

w