Phân tích và dự đoáný định ở lại hay nghỉ việc của nhân viêndựa trên bộ dữ liệu employee bằng phần mềm orange

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ ĐỒ ÁN MƠN HỌC ĐỀ TÀI: PHÂN TÍCH VÀ DỰ ĐOÁN Ý ĐỊNH Ở LẠI HAY NGHỈ VIỆC CỦA NHÂN VIÊN DỰA TRÊN BỘ DỮ LIỆU EMPLOYEE BẰNG PHẦN MỀM ORANGE Học phần: Khoa học liệu Mã lớp học phần: 23C1INF50905936 Giảng viên: TS Đặng Ngọc Hoàng Thành Nhóm sinh viên: Vũ Anh Thư - 31221023198 Nguyễn Cẩm Ly - 31221022117 Lê Hoàng Hà Chi - 31221024898 Trần Thị Kiều Trinh - 31221023211 Nguyễn Lê Bảo Trân - 31221022176 Chun ngành: KẾ TỐN - TÀI CHÍNH Khố: K48 Thành phố Hồ Chí Minh, ngày 20 tháng 10 năm 2023 MỤC LỤC MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG I: TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.2 Giới Thiệu Về Python Và Phần Mềm Orange 1.2.1 Python 1.2.2 Phần Mềm Orange 1.3 Giới thiệu đề tài 1.3.1 Lý Do Chọn Đề Tài 1.3.2 Mục Tiêu Nghiên Cứu CHƯƠNG II: CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression 2.1.2 Mơ Hình Decision Tree 2.1.3 Mơ Hình Support Vector Machine 2.1.4 Mơ Hình Neural Network 6 2.2 Quy Trình Xử Lý Dữ Liệu 2.2.1 Tiền Xử Lý Dữ Liệu 2.2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.3 Đánh Giá Tính Hiệu Quả 10 CHƯƠNG III CÁC KẾT QUẢ THỰC NGHIỆM 15 3.1 Bộ Dữ Liệu 15 3.1.1 Mơ tả tốn 15 3.1.2 Mô tả liệu 15 3.2 Các Kết Quả Thực Nghiệm 17 3.2.1 Lấy Mẫu Dữ Liệu 17 3.2.2 Phân lớp liệu 19 3.2.3 Dự báo 24 CHƯƠNG IV KẾT LUẬN 26 4.1 Các Kết Quả Đạt Được 26 4.2 Đề xuất 26 4.3 Những Hạn Chế Và Hướng Phát Triển 27 4.3.1 Hạn Chế 27 4.3.2 Hướng Phát Triển 27 TÀI LIỆU THAM KHẢO 28 2 LỜI MỞ ĐẦU Lời đầu tiên, chúng em xin đượ c gửi lờ i cảm ơn đến TS Đặng Ngọc Hồng Thành - Giảng viên mơn Khoa Học Dữ Liệu nhóm Chúng em vơ biết ơn lờ i d ạy bảo nhiệt tình, sự chỉ d ẫn tận tâm chi tiết, đề mục thầy đến vớ i bạn sinh viên Bên cạnh đó, sự nhiệt huyết thầy Thành đối vớ i nghề đã mang lại cho chúng em cảm giác r ất thoải mái, d ễ hiểu sôi độ ng buổi học Bộ môn Khoa Học Dữ Liệu cho nhóm nhìn sâu sắ c về phân tích d ữ liệu nói chung phần mềm Orange nói riêng Thơng qua đồ án này, chúng em xin trình bày nh ững kiến th ức k ỹ mà nhóm em thu hoạch đượ c suốt trình học tậ p Lần đầu tiế p cận nghiên cứu đề tài nên trình th ực đồ án sẽ khơng tránh khỏi có vài thiếu sót Vì vậy, nhóm chúng em r ất mong nhận đượ c lờ i nhận xét từ thầy để góp phần hồn thiện đồ án k ết thúc môn học tốt CHƯƠNG I: TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu Khái niệm: Phân lớp liệu kỹ thuật khai phá liệu mà qua ta gắn tên lớp cho phần tử tập liệu dựa vào đặc điểm lớp Mục đích phân lớp liệu để xây dựng mơ hình mà dự đoán tên lớp phần tử dựa đặc điểm Quá trình phân lớp liệu: Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) Bước 2: Sử dụng mơ hình chia thành bước nhỏ: + Bước 2.1: Đánh giá mô hình (kiểm tra tính đắn) + Bước 2.2: Phân lớp liệu mới Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy, hệ chuyên gia, thống kê… Công nghệ ứng dụng nhiều lĩnh vực khác như: thương mại, ngân hàng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục, 3 1.2 Giới Thiệu Về Python Và Phần Mềm Orange 1.2.1 Python Python ngơn ngữ lập trình sáng tạo nởi Guido Van Rossum - chuyên gia lập trình người Hà Lan vào năm 1991 Người sáng lập muốn Python ngôn ngữ dễ hiểu tương đồng với tiếng Anh, nhờ thân thiện với người dùng tương đối dễ thao tác Python phần mềm mã nguồn mở (open source), đó, đóng góp để phát triển Python, giúp ngôn ngữ trở nên phổ biến mạnh mẽ Ngồi ra, Python chạy nhiều tảng hệ điều hành khác Window, Mac OS, Linux,… Ngày nay, Python trở thành yếu tố khoa học liệu, cho phép nhà phân tích liệu chuyên gia khác sử dụng ngôn ngữ để thực phép tính thống kê phức tạp, tạo trực quan hóa liệu, xây dựng thuật toán học máy, thao tác phân tích liệu hồn thành nhiệm vụ khác liên quan đến liệu. 1.2.2 Phần Mềm Orange Khai phá d ữ liệu học máy lĩnh vực khó để khám phá nghiên cứu Do đó, nhiều phần mềm đờ i vớ i mục tiêu giúp cho ngườ i dùng có thể d ễ dàng nghiên cứu tốn lĩnh vực khó nhằn Một phần mềm có thể k ể đến Orange Phần mềm Orange biết đến bở i việc tích hợ p công cụ khai phá d ữ liệu mã nguồn mở học máy thơng minh, đơn giản đượ c lậ p trình Python vớ i giao diện tr ực quan tương tác dễ dàng Vớ i nhiều chức năng, phần mềm có thể phân tích đượ c d ữ liệu từ đơn giản đến phức tạ p, tạo đồ họa đẹ p mắt thú vị và giúp việc khai thác d ữ li ệu học máy tr ở nên d ễ dàng cho ngườ i dùng mớ i chuyên gia.Các công cụ (widgets) cung cấ p chức đọc d ữ liệu, hiển thị d ữ liệu d ạng bảng, lựa chọn thuộc tính đặc điểm d ữ liệu, huấn luyện d ữ liệu để d ự đoán, so sánh thuật tốn máy học, tr ực quan hóa phần tử d ữ liệu… 1.3 Giớ i thiệu đề tài 1.3.1 Lý Do Ch ọn Đề Tài Nhân viên nhân tố vô quan tr ọng đối vớ i tổ chức, chí sự hiện diện h ọ tài sả n v ốn ngườ i quan tr ọng nhất, k ết qu ả phản ánh sự thành công tổ chức Khi nhân viên lựa chọn r ờ i khỏi tổ chức, sự mất mát về nguồn lực, thông tin kiến thức mà nhân viên sở hữu tác động đến tổng thể tình hình cơng ty Do đó, trở thành thách thức lớ n đối vớ i nhà tuyển d ụng nhân sự trong việc 4 xử lý tình tr ạng nhân viên có chun mơn Trong ngành Nhân lực, thuật ngữ Employee Turnover Employee Atrition có thể thay thế cho Cả hai có nghĩa cắt giảm nhân viên thơng qua việc nghỉ hưu, từ chức qua đờ i Sự tiêu hao nhân lực vấn đề nghiêm tr ọng, đề cập đến việc tự nguyện buộc phải chấm d ứt công việc chuyên môn, điều ảnh hưởng đến thương hiệu suất tổ chức Trong nghiên cứu đề cập đến sự tiêu hao nhân lực ảnh hưở ng nhiều đến chiến lược tăng trưở ng cân nguồn lực tổ chức Cơ hội giảm đi, sự khơng hài lịng vớ i cơng việc mơi trườ ng làm việc cả những thách thức mà ban lãnh đạo phải đối mặt có thể d ẫn đến tỷ lệ tiêu hao nhân lực cao Những vấn đề này vơ tình cản tr ở sự phát triển tổ chức, để tìm giải pháp cho tốc độ tiêu hao nguồn nhân lực ngày tăng, nhóm chúng em xin đề xuất d ự án nghiên cứu “ Phân tích d ự đoán ý đị nh ở l ại hay nghỉ việ c củ a nhân viên d ự a bộ d ữ liệu Employee” . 1.3.2 Mục Tiêu Nghiên Cứu Bài nghiên cứu “Phân tích dự đốn ý định lại hay nghỉ việc nhân viên dựa liệu Employee” nhằm tập trung vào mục tiêu đề cập đây: ▪ Tiến hành phân tích lý thuyết c khai phá d ữ li ệu nhằm tậ p trung làm rõ vấn đề của nghiên cứu ▪ Nghiên cứu phương pháp cụ thể, phương pháp phân lớp liệu (phương pháp phân lớp đưa dự báo, phân loại phân lớp đối tượng) Nghiên cứu đưa phương pháp phân lớp liệu, từ chọn phương pháp tối ưu đảm bảo cho trình dự báo liệu. Dựa mơ hình huấn luyện trình nghiên cứu, đưa kết luận mức độ rời bỏ doanh nghiệp nhân viên cách thức cải thiện mức độ này ▪ CHƯƠNG II: CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression Định nghĩa: Là mơ hình xác suất dự đốn giá trị đầu rời rạc từ tập giá trị đầu vào (biểu diễn dạng vector), cách dự đoán xác suất hội xảy giùp suy mối quan hệ biến phụ thuộc biến độc lập Việc tương đương với chuyện phân loại đầu vào x vào nhóm y tương ứng. 5 Kết hồi quy logistic giá trị nhị phân Nam Nữ, Có Không, Thư rác Không phải Thư rác Ngày sử dụng phổ biến để phân loại thứ. 2.1.2 Mơ Hình Decision Tree Định nghĩa: Decision Tree (Cây định) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượng thuộc kiểu liệu khác Nhị phân (Bianry), định danh (Nomial), thứ tự (Ordinal), số lượng (Quantitative) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal. Trong lý thuyết, định đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai thác liệu, định phương pháp nhằm mơ tả, phân loại tổng qt hóa tập liệu cho trước Khi đó, định mơ tả cấu trúc cây, đại diện cho phân loại cành đại diện cho kết hợp thụộc tính dẫn đến phân loại đó. Hình 2.1 Minh hoạ cho mơ hình Hình 2.2 Minh hoạ cho mơ hình Logistic Regression Decision Tree 2.1.3 Mơ Hình Support Vector Machine Support Vector Machine (SVM) thuật tốn có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào Định nghĩa: 6 lớp khác cách xây dựng siêu phẳng không gian nhiều chiều làm mặt phân cách lớp liệu Phương pháp tìm siêu phẳng định tốt để chia điểm không gian thành lớp riêng biệt Chất lượng siêu phẳng định khoảng cách biên điểm liệu gần lớp đến mặt phẳng Khoảng cách biên lớn có phân chia tốt điểm thành hai lớp, nghĩa đạt kết phân loại tốt Như vậy, để tối ưu hoá kết quả, ta xác định mặt phẳng siêu phẳng có khoảng cách đến điểm liệu tất lớp xa có thể. SVM thuật toán Supervised Learning phổ biến nhất, sử dụng cho toán Phân loại Hồi quy Tuy nhiên, sử dụng chủ yếu cho vấn đề Phân loại Thuật tốn SVM sử dụng để nhận diện khn mặt, phân loại hình ảnh, phân loại vân bản,… 2.1.4 Mơ Hình Neural Network Định nghĩa: Phương pháp Neural Network mạng lưới Nơ-ron nhân tạo Đây chuỗi thuật tốn nhằm tìm kiếm quan hệ tập hợp liệu hệ thống dựa theo cách thức hoạt động não người Neural Network thích ứng với điều chỉnh từ đầu vào, cho kết đầu tốt Neural Network có đặc điểm sau: - Mạng lưới nơ-ron nhân tạo hoạt động nơ-ron não người Trong đó, nơ-ron hàm tốn học, có chức thu thập phân loại liệu, thông tin theo cấu trúc chi tiết - Neural Network tương đồng với phương pháp thống kê theo đồ thị đường cong phân tích hồi quy - Mỗi nút tập hợp tri giác, cấu tạo tương tự hàm hồi quy đa tuyến tính, xếp liên kết với Các lớp thu thập thơng tin, sau phân loại phát tín hiệu đầu tương ứng. - Neural Netwrok kết hợp tầng perceptron hay gọi perceptron đa tầng Và mạng Neural Network thường bao gồm kiều tầng: input, output hidden. Neural Network ứng dụng nhiều lĩnh vực như: phân tích kinh doanh, đánh giá rủi ro, phát gian lận, dự báo thời tiết,… 7 Hình 2.3 Minh hoạ mơ hình SVM Hình 2.4 Minh hoạ mơ hình Neural Network 2.2 Quy Trình Xử Lý Dữ Liệu 2.2.1 Tiền Xử Lý Dữ Liệu Khái niệm: Tiền xử lý liệu trình xử lý liệu thô/gốc nhằm cải thiện chất lượng liệu đó, cải thiện chất lượng kết khai phá - Các bước tiền xử lý liệu bao gồm: + Làm liệu: loại bỏ liệu thiếu, nhiễu hiệu chỉnh liệu không quán. + Tích hợp liệu: trộn liệu từ nhiều nguồn khác vào kho liệu. + Chuyển đổi liệu: làm trơn, kết hợp, tổng quát xây dựng thuộc tính liệu + Rút gọn liệu: thu giảm kích thước liệu (giảm số phần tử) kết hợp liệu, loại bỏ đặc điểm dư thừa (giảm số thuộc tính), gom cụm liệu 2.2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.2.1 Phân Chia Dữ Liệu a Phương Pháp Hold-out Phương pháp Hold-out phân chia tập liệu ban đầu thành tập độc lập theo tỷ lệ định Phương pháp thích hợp cho tập liệu nhỏ Tuy nhiên, mẫu khơng đại diện cho toàn liệu (thiếu lớp tập thử nghiệm) Có thể cải tiến cách dùng phương pháp lấy mẫu cho lớp phân bố đề hai tập liệu huấn luyện đánh giá. b Phương Pháp K-Fold Cross Validation Phương pháp phân chia liệu thành k tập có kích thước (gọi fold) Một fold sử dụng làm tập liệu đánh giá phần lại sử dụng làm tập huấn luyện Quá trình lặp lại tất fold dùng làm tập liệu đánh giá. 8 K-fold cross Validation thường ưa chuộng mơ hình huấn luyện dự báo nhiều phần liệu khác Từ mơ hình có độ tin cậy cao. Hình 2.5 Minh hoạ phương pháp Hold - out Hình 2.6 Minh hoạ phương pháp K-fold 2.2.2.2 Phân Lớp Dữ Liệu Định nghĩa: Phân lớp liệu trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mô hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước (thuộc lớp nào) Q trình gán nhãn (thuộc lớp nào) cho đối tượng liệu trình phân lớp liệu Hình 2.7 Minh hoạ cho phân lớp liệu Quá trình phân lớp liệu gồm bước chính: Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn học huấn luyện) - Quá trình học nhằm xây dựng mơ hình mơ tả tập lớp liệu hay khái niệm định trước. - Dữ liệu đầu vào trình là: liệu mẫu gán nhãn tiền xử lý để liệu khơng bị nhiễu hay có sai sót 9 - Các thuật toán phân lớp: định, hàm số toán học, tập luật… - Kết bước mơ hình phân lớp huấn luyện Bước 2: Sử dụng mơ hình, chia làm bước nhỏ: Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn) - Dữ liệu đầu vào trình tập liệu mẫu khác gán nhãn tiền xử lý, Tuy nhiên đưa vào mơ hình phân lớp, ta “lờ” thuộc tính gán nhãn - Tính đắn mơ hình xác định cách so sánh thuộc tính gán nhãn liệu đầu vào kết phân lớp mơ hình Bước 2.2: Phân lớp liệu - Dữ liệu đầu vào liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn) - Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước 2.2.3 Đánh Giá Tính Hiệu Quả Khái niệm: phương pháp nhằm kiểm tra tính hiệu mơ hình phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình hay khơng Một mơ hình lý tưởng mơ hình khơng q đơn giản, khơng q phức tạp không nhạy cảm với nhiễu (tránh underfitting overfitting) - Underfitting (chưa khớp): Mơ hình coi chưa khớp có chưa phù hợp với tâjp liệu huấn luyện mẫu dự đốn.Tồn nhiều điểm liệu mà mơ hình khơng phân loại dẫn đến độ xác mơ hình thấp Ngun nhân mơ hình chưa đủ độ phức tạp cần thiết để bao quát tập liệu - Overfitting (quá khớp): Là tượng mơ hình tìm q khớp với liệu huấn luyện Điều dẫn đến việc dự đoán nhiễu nên mơ hình khơng cịn tốt phân lớp liệu Nguyên nhân lượng liệu huấn luyện nhỏ độ phức tạp mơ hình q cao nên độ xác cao khơng thể mơ tả xu hướng tổng quát liệu mới. - Good fitting: Là trường hợp mơ hình cho kết qủa hợp lý với tập liệu huấn luyện giá trị mới, tức mang tính tổng quát. 10 2.2.3.4 ROC - Receiver Operating Characteristic ROC đồ thị sử dụng phổ biến đánh giá mơ hình phân loại nhị phân Trong đường cong ROC, trục tung thể tỷ lệ dự báo True Positive Rate (TPR) trục hoành thể tỷ lệ dự báo False Positive Rate (FPR) Một mơ hình hiệu có FPR thấp TPR cao, hay ROC tiệm cận với điểm (0,1) đồ thị. Hình 2.12 Minh hoạ cho ROC 2.2.3.5 AUC - Area Under the Curve AUC diện tích tìm thấy bên đường cong ROC AUC tương ứng với khả mơ hình phân loại liệu, với giá trị mức độ phân loại nằm khoảng từ đến 1, với giá trị đại diện cho khả phân loại hầu hết mẫu giá trị đại diện cho khả phân loại mẫu sai AUC coi phương pháp đánh giá tính hiệu mơ hình phân loại liệu tốt Độ xác (Accuracy) Độ phủ (Recall) cung cấp phương tiện để đánh giá khả phân loại tập liệu không cân Trong trường hợp liệu có cân lớp, sử dụng độ xác độ phủ để đánh giá hiệu qủa mơ hình phân loại sai lệch 14 Hình 2.13 Minh hoạ cho AUC CHƯƠNG III CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu 3.1.1 Mô tả tốn Bộ liệu chứa thơng tin nhân viên cơng ty, bao gồm trình độ học vấn, lịch sử công việc, nhân học yếu tố liên quan đến việc làm Nó ẩn danh để bảo vệ quyền riêng tư cung cấp hiểu biết có giá trị lực lượng lao động. 3.1.2 Mô tả liệu • Mô tả tổng quát: - Tên liệu: Employee Dataset - Link truy cập: https://www.kaggle.com/datasets/tawfikelmetwally/employee-dataset/data - Dữ liệu bao gồm 4653 mẫu liệu (instances), biến (features) - Missing value: → Không cần tiền xử lý liệu. 15 Hình 3.1 Mẫu liệu • Bộ liệu gồm thuộc tính: Thuộc tính Education Trình độ học vấn nhân viên Joining Year Năm gia nhập công ty City Nơi nhân viên sống làm việc Payment Tier Phân loại nhân viên thành bậc lương khác nhau Age Tuổi nhân viên Gender Giới tính nhân viên Ever Benched Ý nghĩa Cho biết liệu nhân viên có tạm thời không giao công việc hay không Số năm kinh nghiệm mà nhân viên Experience in Current Domain có lĩnh vực họ Leave Or Not Rời hay không? 16 3.2 Các Kết Quả Thực Nghiệm 3.2.1 Lấy Mẫu Dữ Liệu Để phục vụ cho phân lớp liệu, nhóm sử dụng Data Sampler để thực lấy tập liệu huấn luyện (Training Set) tập liệu thử nghiệm (Testing Set) theo tỷ lệ 70:30. Hình 3.2 Lấy mẫu liệu • Tập liệu huấn luyện sau tách Data Sampler có 3258 mẫu với biến khơng có liệu bị lỗi 17 Hình 3.3 Tập liệu huấn luyện (Training Set) sau tách Data Sampler • Tập liệu thử nghiệm (Testing Set) sau tách Data Sampler có 1395 mẫu với biến khơng có liệu bị lỗi Hình 3.4 Tập liệu thử nghiệm (Testing Set) sau tách Data Sampler Hình 3.5 Quá trình lấy mẫu liệu 18 3.2.2 Phân lớp liệu • Sử dụng mơ hình phân lớp: Logistic Regression, Tree, SVM, Neural Network để tiến hành dự báo. Hình 3.6 Mơ hình so sánh phương pháp phân lớp liệu • Sử dụng phương pháp đánh giá mơ hình phân lớp để chọn phương pháp đánh giá tốt nhất, sau tiến hành dự đốn cho liệu  Kết đánh giá Test and Score: Sử dụng phương pháp K-fold cross validation với k = 10. ❖ Nhận xét: Tại mục Evaluation results, ta cần ý kết định lượng mơ hình Logistic Regression, Tree, SVM, Neural Network, mơ hình có giá trị cao Qua đó, ta thấy mơ hình Neural Network mang lại số liệu tốt nhất, cụ thể: ▪ ▪ ▪ ▪ ▪  Diện tích đường cong (AUC) 0.863 Tính xác (CA) 0.844 Giá trị trung bình điều hồ (F1) 0.839 Độ xác (Precision) 0.846 Độ phủ (Recall) 0.844 Đây mơ hình hiệu 19 Hình 3.7 Kết chia mẫu liệu thành 10 phần • Ngồi ra, từ Test and Score ta đưa thêm Confusion Matrix ROC Analysis để lựa chọn mơ hình phù hợp nhất.  Ma trận nhầm lẫn (Confusion Matrix): Hình 3.8 Kết ma trận nhầm lẫn phương pháp Logistic Regression 20 Hình 3.9 Kết ma trận nhầm lẫn phương pháp Tree Hình 3.10 Kết ma trận nhầm lẫn phương pháp SVM 21 Hình 3.11 Kết ma trận nhầm lẫn phương pháp Neural Network ❖ Nhận xét: Tại Confusion Matrix, số cần quan sát tỷ lệ sai lầm loại sai lầm loại 2, mô hình tốt có hai tỷ số thấp hợp lý Nhìn vào kết ta thất mơ hình Neural Network có tỷ lệ sai lầm nhỏ với sai lầm loại 14,0% sai lầm loại 16,1% Nên phương pháp Neural Network phù hợp nhất. 22  ROC Analysis: Hình 3.12 Đường cong ROC với biến Target Hình 3.13 Đường cong ROC với biến Target 23 Nhận xét: Theo đường cong ROC, mô hình hiệu có FPR thấp TPR cao đường cong ROC tiệm cận với điểm (0;1) mơ hình hiệu Như vậy, ta thấy mơ hình Neural Network có đường cong ROC tiệm cận với điểm (0,1) nhất.  Đây mô hình hiệu ❖ Kết luận: Phương pháp phân lớp Neural Network phương pháp tốt để dự đốn. - Phương pháp có AUC (diện tích nằm đường cong ROC) lớn nhất, tức có mơ hình tốt nhất. - Phương pháp có CA (tính xác) cao nhất. - Phương pháp có số sai lầm thấp nhất. - Phương pháp có đường cong ROC tiệm cận với điểm (0;1) nhất. ❖ Hình 3.14 Đánh giá mơ hình phân lớp 3.2.3 Dự báo • Sau sử dụng phương pháp đánh giá mơ hình phân lớp, ta chọn phương pháp Neural Network để dự báo cho liệu. • Sử dụng Prediction để dự báo kết liệu theo phương pháp Neural Network 24 Hình 3.15 Mơ hình dự báo cho tập liệu thử nghiệm • Kết dự báo: Hình 3.16 Kết dự báo cho tập liệu thử nghiệm (Testing Set) 25 CHƯƠNG IV KẾT LUẬN 4.1 Các Kết Quả Đạt Được Sau triển khai mơ hình, phân tích đánh giá kết từ phương pháp phân lớp phần mềm Orange, nhóm cho chọn mơ hình Neural Network có khả dự báo đáng tin cậy Các nhà quản trị công ty, bạn sinh viên bên liên quan khác xem xét, tham khảo kết dự đốn từ mơ hình nêu để đưa định, nhận xét có ích cho Phương pháp phân lớp với Neural Network giúp xác định xác số lượng nhân viên có ý định nghỉ việc tiếp tục làm việc Từ đó, giúp cơng ty đưa kế hoạch tìm nhân để thay nhân viên nghỉ việc cách kịp thời Bên cạnh đó, biết tỷ lệ nghỉ việc giúp cơng ty có nhìn khách quan sách, đãi ngộ dựa vào đó, đưa phương án phù hợp hơn, nâng cao tiêu chí tuyển chọn, mơi trường làm việc để giảm thiểu tỷ lệ nghỉ việc, xây dựng đội ngũ nhân viên vững chắc, làm việc lâu dài. 4.2 Đề xuất Vấn đề nhân viên việc điều tất công ty phải đối mặt, nhiên, dựa kết mà vừa dự đốn được, phần tối thiểu hoá tỷ lệ nghỉ việc dựa việc đánh giá đặc điểm nhân viên trình độ học vấn, kinh nghiệm, mức lương, … Dưới số kiến nghị mà nhóm đề xuất để cơng ty áp dụng để giảm thiểu số lượng nhân viên nghỉ việc: - - - Hạn chế tuyển dụng sai người: Khâu tuyển dụng ban đầu bước quan trọng để giảm thiểu tỷ lệ nghỉ việc Ngoài việc sàng lọc hồ sơ người ứng tuyển, công ty cần đặt câu hỏi vấn để biết mục tiêu nghề nghiệp, tính cách ứng viên để tìm hiểu xem họ có phù hợp với định hướng phát triển văn hố cơng ty hay khơng Điều giúp cơng ty chọn ứng viên làm việc lâu dài. Đặt kỳ vọng xác: Việc nhìn nhận lực nhân viên qua học vấn, kinh nghiệm giúp công ty phân bổ lượng công việc phù hợp không gây áp lực cho họ Điều khiến nhân viên cảm thấy tin tưởng công ty, có tinh thần làm việc tránh nguy nghỉ việc tiềm ẩn stress, kiệt quệ. Tạo hội phát triển nghiệp: Một lộ trình rõ ràng thời gian làm việc thứ tự thăng tiến khiến nhân viên muốn lại với công ty Điều giúp nhân viên nhìn rõ thân đứng vị trí tìm mong muốn thân cơng việc Từ đó, nhân viên tìm đam mê niềm u thích làm việc 26 - - Chế độ lương khen thưởng hợp lý: Tiền lương yếu tố quan trọng nhân viên đưa định làm tiếp hay việc Bên cạnh đó, chế độ khen thưởng định tâm huyết nhân viên dành cho công ty Những đãi ngộ hợp lý hai khía cạnh thứ níu kéo nhân viên lại, đồng thời thu hút thêm nhân lực tài cho công ty. Tiến hành vấn nghỉ việc để hiểu thêm nguyên nhân: Việc giúp lãnh đạo công ty hiểu thêm nguyên nhân bất cập xung quanh định thơi việc nhân viên, từ rút nhìn khác mơi trường, chế độ cơng ty để kịp thời điều chỉnh. 4.3 Những Hạn Chế Và Hướng Phát Triển 4.3.1 Hạn Chế Mặc dù thực đồ án cách ăn ý, nhiệt tình cẩn thận, nhóm chúng em tránh khỏi số hạn chế yếu tố chủ quan khách quan: - Bộ liệu phản ánh tình hình nhân cơng ty, tính bao quát chưa cao độ xác chưa kiểm nghiệm. - Trong q trình xây dựng mơ hình, độ xác mơ hình Neural Network chưa đạt mức tuyệt đối, khơng thể tránh khỏi sai sót q trình dự đốn nên việc đưa kết luận khơng thể dựa hồn tồn 100% vào việc chạy mơ hình - Thời gian học phần cịn ngắn, nhóm chưa thực nắm quy trình phương pháp việc phân tích, nghiên cứu liệu, khơng tránh khỏi vài sai sót kiến thức, kỹ thuật 4.3.2 Hướng Phát Triển Trên sở hạn chế khiến nghiên cứu chưa thật hồn thiẹn, nhóm chúng em xin đề xuất số hướng phát triển đề tài sau: - Thứ nhất, hạn chế lớn đồ án số lượng đồng việc chọn mẫu chưa cao nên tính đại diện cịn hạn chế Nhóm mong đề tài khắc phục hạn chế cách đầu tư thu thập liệu nhiều công ty để thu số lượng mẫu thích hợp Đồng thời triển khai dự đoán, kiểm chứng thực tế đánh giá kết cách thường xuyên để tăng độ xác - Thứ hai, hy vọng đề tài nghiên cứu thời gian tới phát nhiều mơ hình phù hợp nhằm đến kết luận xác yếu tố thật có ảnh hưởng lớn đến định rời hay lại nhân viên 27 TÀI LIỆU THAM KHẢO - Slide giảng môn Khoa Học Dữ Liệu – UEH: Thầy Đặng Ngọc Hoàng Thành - Dữ liệu “Employee dataset” – Kaggle - https://doanhnghiephoinhap.vn/xu-huong-phat-trien-nguon-nhan-luc-so-dap-ung-yeucau-cua-kinh-te-so.html - https://vietnix.vn/neuralnetwork/?fbclid=IwAR2srlXOA1mqkpsXibKXPj09bBYxVV o0TVy4n4bBOuZexq3HePHkUki_LY#:~:text=Neural%20Network%20l%C3%A0%2 0m%E1%BA%A1ng%20l%C6%B0%E1%BB%9Bi,b%E1%BA%A3n%20ch%E1% BA%A5t%20ho%E1%BA%B7c%20h%E1%BB%AFu%20c%C6%A1 - EMPLOYEE ATTRITION PREDICTION USING VARIOUS MACHINE LEARNING TECHNIQUES - Anjali Chourey, Prof Sunil Phulre, Dr Sadhna Mishra (https://ijamtes.org/gallery/369%20oct%20ijamte%20%201127.pdf?fbclid=IwAR0Tp s5chs2Ga9k9w_v4C32C_VkGpkrsN2anVA93KyAXIqnpBFOtthYN01Q ) 28

Tiêu đề	Phân Tích Và Dự Đoán Ý Định Ở Lại Hay Nghỉ Việc Của Nhân Viên Dựa Trên Bộ Dữ Liệu Employee Bằng Phần Mềm Orange
Tác giả	Vũ Anh Thư, Nguyễn Cẩm Ly, Lê Hoàng Hà Chi, Trần Thị Kiều Trinh, Nguyễn Lê Bảo Trân
Người hướng dẫn	TS. Đặng Ngọc Hoàng Thành
Trường học	Đại Học Kinh Tế Thành Phố Hồ Chí Minh
Chuyên ngành	Khoa Học Dữ Liệu
Thể loại	Đồ Án Môn Học
Năm xuất bản	2023
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	28
Dung lượng	3,09 MB