Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
1,42 MB
Nội dung
lOMoARcPSD|17838488 ĐẠI HỌC UEH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN Môn học: Khoa học liệu Đề tài: Nghiên cứu ứng dụng phương pháp khai thác liệu để dự đốn khả rời cơng ty nhân viên Giảng viên: Thái Kim Phụng Mã lớp học phần: 22C1INF50905977 Nhóm sinh viên thực Nguyễn Thanh Thảo : 31211023971 Nguyễn Thị Kim Chi : 31211025872 Phạm Lê Thương : 31211024739 Trần Hồng Hạ Vy : 31211020223 TP Hồ Chí Minh, ngày 29 tháng 10 năm 2022 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 MỤC LỤC LỜI MỞ ĐẦU I GIỚI THIỆU 3 LÝ DO .3 MỤC TIÊU NGHIÊN CỨU ĐỐI TƯỢNG NGHIÊN CỨU PHƯƠNG PHÁP NGHIÊN CỨU 4.1 Phương pháp nghiên cứu lý luận 4.2 Phương pháp nghiên cứu thực tiễn 5 Ý NGHĨA II CƠ SỞ LÝ LUẬN KHAI PHÁ DỮ LIỆU 1.1 Khai phá dự liệu gì? 1.2 Các tính khai phá dự liệu 1.3 Quy trình khai phá liệu 1.4 Phương pháp khai phá liệu .8 1.5 Ứng dụng khai phá liệu 1.6 Công cụ khai phá liệu nghiên cứu Orange 11 PHÂN LỚP DỮ LIỆU 11 2.1 Khái niệm phân lớp liệu 11 2.2 Quy trình phân lớp liệu 12 2.2.1 Xây dựng mơ hình phân lớp (Learning) .12 2.2.2 Ước lượng độ xác mơ hình phân lớp liệu 12 2.3 Các phương pháp phân lớp liệu 14 2.3.1 Hồi quy Logistic ( Logistic Regression) .14 2.3.2 SVM (Support Vector Machine) 15 2.3.3 Cây định (Decision Tree) 16 2.3.4 Neural Network 17 2.4 Chi tiết mơ hình khai phá liệu phương pháp hồi quy Logistic 18 2.5 Các phương pháp đánh giá mơ hình phân lớp 20 2.5.1 Ma trận nhầm lẫn (Confusion Matrix) độ xác (Accuracy); ROC, AUC, Precision/Recall, F1-score20 2.5.2 Cross Validation: K-fold Holdout 23 III PHÂN TÍCH 23 SƠ LƯỢC VỀ THỊ TRƯỜNG NGUỒN NHÂN LỰC HIỆN NAY .23 MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT 24 BỘ DỮ LIỆU HUẤN LUYỆN 26 BỘ DỮ LIỆU DỰ BÁO 27 KẾT QUẢ HUẤN LUYỆN 27 HÌNH 20 CÁC MƠ HÌNH SỬ DỤNG KIỂM THỬ 28 KẾT QUẢ DỰ BÁO 28 IV KẾT LUẬN VÀ HẠN CHẾ - GIẢI PHÁP 29 KẾT LUẬN 29 HẠN CHẾ VÀ GIẢI PHÁP 29 TÀI LIỆU THAM KHẢO 30 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 LỜI MỞ ĐẦU Khoa học liệu ngành khoa học việc khai phá, quản trị phân tích liệu để dự đốn xu hướng tương lai đưa định, chiến lược hành động Nhiều doanh nghiệp, quy mô, cần chiến lược khoa học liệu hiệu để thúc đẩy tăng trưởng trì lợi cạnh tranh Một số lợi ích bao gồm: khám phá mẫu biến đổi tiềm ẩn; sáng tạo sản phẩm giải pháp mới; tối ưu hóa thời gian thực; Mức độ nhân viên rời khỏi công ty vấn đề quan tâm công ty, doanh nghiêp, đặc biệt ngành quản trị nhân Mức độ thể ổn định việc kinh doanh cơng ty quản lí nhân công ty, doanh nghiệp HR (Human Resources) ngành quản trị nhân Những công việc HR liên quan đến hoạt động tuyển dụng, lên kế hoạch triển khai sách thích hợp để trì nguồn nhân lực cho cơng ty có kế hoạch bồi dưỡng phát triển lực cá nhân, phòng ban để hồn thành tốt cơng việc cách hiệu Mức độ rời bỏ nhân viên bị ảnh hưởng biến như: phù hợp với công việc, môi trường làm việc, hội phát triển, ổn định tài doanh nghiệp…Từ biến ảnh hưởng này, nhóm chúng em định thực đề tài dựa biến để đánh giá mức độ khả nhân viên có rời bỏ cơng ty hay không Khoa học liệu ngành khai phá, quản trị phân tích liệu để dự đoán xu hướng tương lai đưa định, chiến lược Chúng em xin cảm ơn thầy Thái Kim Phụng – giảng viên môn Khoa học liệu giúp đỡ chúng em trình học tập hoàn thành nghiên cứu 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 I GIỚI THIỆU Lý Nhân viên nhân tố vô dùng quan trọng tổ chức, chí diện họ đó, tài sản vốn người quan trọng nhất, kết phản ánh thành công tổ chức Khi nhân viên lựa chọn rời khỏi tổ chức, mát nguồn lực, thông tin kiến thức mà nhân viên sở hữu tác động đến tổng thể tình hình cơng ty Để có lợi so với tổ chức khác dẫn đầu thị trường, giảm thiểu tối đa tiêu hao nhân lực (Employee Attrition) vô cần thiết Xu hướng tồn cầu hóa dẫn đến việc huy động lực lượng lao động từ tổ chức sang tổ chức khác, khu vực sang khu vực khác từ quốc gia sang quốc gia khác Do đó, trở thành thách thức lớn nhà tuyển dụng nhân việc xử lý tình trạng nhân viên có chun mơn Trong ngành Nhân lực, thuật ngữ Employee Turnover Employee Atrition thay cho Cả hai có nghĩa cắt giảm nhân viên thông qua việc nghỉ hưu, từ chức qua đời Sự tiêu hao nhân lực vấn đề nghiêm trọng, đề cập đến việc tự nguyện buộc phải chấm dứt công việc chuyên môn, điều ảnh hưởng đến thương hiệu suất tổ chức Trong hầu hết nghiên cứu, người ta phát công việc liên quan đến nguyên nhân dẫn đến tỷ lệ tiêu hao nhân lực cao Tỷ lệ tiêu hao cao dẫn đến tổn thất chi phí mà cơng ty bỏ cho việc tuyển dụng đào tạo Tác động tiêu hao nhân lực để lại ảnh hưởng tiêu cực lâu dài tổ chức Nói cách đơn giản, nói tiêu hao nhân lực không đáp ứng lực kỳ vọng nhân viên không thực cam kết mà công ty đồng ý với người lao động Trong nghiên cứu đề cập đến tiêu hao nhân lực công ty Sự tiêu hao nhân lực ảnh hưởng nhiều đến chiến lược tăng trưởng cân nguồn lực tổ chức Cơ hội giảm đi, khơng hài lịng với công việc môi trường làm việc thách thức mà ban lãnh đạo phải đối mặt dẫn đến tỷ lệ tiêu hao nhân lực cao Những vấn đề vơ tình cản trở phát triển tổ chức, để tìm giải pháp cho tốc độ tiêu hao nguồn nhân lực ngày tăng, nhóm chúng em xin đề xuất dự án nghiên cứu: “ 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Nghiên cứu ứng dụng phương pháp khai thác liệu để dự đoán khả rời công ty nhân viên” Mục tiêu nghiên cứu Bài nghiên cứu “ Nghiên cứu ứng dụng phương pháp khai thác liệu để dự đoán khả rời công ty nhân viên” nhằm tập trung vào mục tiêu đề cập đây: • Tiến hành phân tích lý thuyết khai phá liệu nhằm tập trung làm rõ vấn đề nghiên cứu • Nghiên cứu phương pháp cụ thể, phương pháp phân lớp liệu (phương pháp phân lớp đưa dự báo, phân loại phân lớp đối tượng) Nghiên cứu đưa phương pháp phân lớp liệu, từ chọn phương pháp tối ưu đảm bảo cho trình dự báo liệu • Dựa mơ hình huấn luyện trình nghiên cứu, đưa kết luận mức độ rời bỏ doanh nghiệp khách hàng cách thức cải thiện mức độ Đối tượng nghiên cứu Nhân viên công ty Bộ liệu thu thập tạo công ty công nghệ IBM đăng tải trang web kaggle Prashant Patel Tập liệu bao gồm thông tin liệu thô chứa 1470 hàng liệu (nhân viên) 34 cột (đặc tính) Phương pháp nghiên cứu 4.1 Phương pháp nghiên cứu lý luận Thông tin, liệu từ sách báo, tài liệu học tập thu thập, chọn lọc phân tích nhằm đưa khái niệm quan điểm để xây dựng sở lý thuyết cho nghiên cứu, dự đốn thuộc tính đối tượng nghiên cứu, xây dựng mơ hình lý thuyết ban đầu Bao gồm: • Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, sách báo có được, sau đọc tổng hợp để rút ra, chắt lọc nội dung cần thiết cho luận điểm nghiên cứu • Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa lý thuyết ứng dụng mơ hình để dự báo nhằm kiểm định tính xác mơ hình 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 4.2 Phương pháp nghiên cứu thực tiễn Tiến hành vận dụng lý thuyết đưa vào phương pháp nghiên cứu thực tiễn: • Sử dụng phương pháp thống kê, phân tích liệu, ứng dụng mơ hình hồi quy kinh tế định lượng để dự báo mô hình kinh tế thơng qua số EPS với hỗ trợ chương trình Orange Excel • Từ đó, xây dựng mơ hình dự báo dựa vào liệu huấn luyện có sẵn so sánh kết rút với nhằm lựa mơ hình phù hợp nhằm giúp nhà đầu tư có định xác đầu tư hiệu Ý nghĩa Việc dự đoán khả rời bỏ công ty nhân viên hài lòng chưa hài lòng nhân viên cơng ty Từ cơng ty đưa quan điểm, sách phù hợp khơng để cải thiện việc đào tạo, chất lượng nguồn nhân lực mà tăng giá trị thương hiệu II CƠ SỞ LÝ LUẬN Khai phá liệu 1.1 Khai phá dự liệu gì? - Khai phá liệu (Data Mining) khai phá liệu trình phân loại, xếp tập hợp liệu lớn để xác định mẫu thiết lập mối liên hệ nhằm giải vấn đề nhờ phân tích liệu Các MCU khai phá liệu cho phép doanh nghiệp dự đốn xu hướng tương lai - Quá trình khai phá liệu trình phức tạp bao gồm kho liệu chun sâu cơng nghệ tính tốn Hơn nữa, Data Mining không giới hạn việc trích xuất liệu mà cịn sử dụng để chuyển đổi, làm sạch, tích hợp liệu phân tích mẫu 1.2 Các tính khai phá dự liệu - Có nhiều tham số quan trọng khác Data Mining, chẳng hạn quy tắc kết hợp, phân loại, phân cụm dự báo Một số tính Data Mining: Dự đốn mẫu dựa xu hướng liệu Tính tốn dự đốn kết Tạo thơng tin phản hồi để phân tích 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Tập trung vào sở liệu lớn Phân cụm liệu trực quan 1.3 Quy trình khai phá liệu - Quy trình khai phá liệu bao gồm bước quan trọng sau: Bước 1: Làm liệu: Trong bước này, liệu làm cho khơng có tạp âm hay bất thường liệu Hình Làm liệu Bước 2: Tích hợp liệu: Trong q trình tích hợp liệu, nhiều nguồn liệu kết hợp lại thành 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình Tích hợp liệu Bước 3: Lựa chọn liệu: Trong bước này, liệu trích xuất từ sở liệu Hình Lựa chọn liệu Bước 4: Chuyển đổi liệu: Trong bước này, liệu chuyển đổi để thực phân tích tóm tắt hoạt động tổng hợp 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình Chuyển đổi liệu Bước 5: Khai phá liệu: Trong bước này, trích xuất liệu hữu ích từ nhóm liệu có Bước 6: Đánh giá mẫu: Phân tích số mẫu có liệu Bước 7: Trình bày thơng tin: Trong bước cuối cùng, thông tin biểu dạng cây, biểu đồ ma trận Quy trình khai phá liệu Hình Quy trình khai phá liệu Nguồn: insight.isb.edu.vn 1.4 Phương pháp khai phá liệu 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 - Phân lớp (Classification): Phương pháp sử dụng để dự báo liệu thông qua liệu huấn luyện, phân loại đối tượng Nhóm chúng em sử dụng phương pháp khai phá liệu để dự báo số liệu - Hồi quy (Regression): Mục đích phương pháp hồi quy dùng để khám phá ánh xạ liệu - Phân cụm (Clustering): Phương pháp phân cụm giúp việc mô tả liệu trở nên dễ dàng xác định tập hợp hữu hạn cụm với - Tổng hợp (Summarization): Phương pháp cho phép người làm tìm kiếm mơ tả nhỏ gọn - Mơ hình ràng buộc (Dependency modeling): Người làm tìm mơ hình cục mơ tả phụ thuộc dựa vào phương pháp mơ hình ràng buộc - Dị tìm biến đổi độ lệch (Change and Deviation Dectection): Mục đích phương pháp để tìm thay đổi quan trọng 1.5 Ứng dụng khai phá liệu - Khai phá liệu hướng tiếp cận lại thu hút nhiều quan tâm nhà nghiên cứu phát triển nhờ vào ứng dụng thực tiễn Một số ứng dụng điển hình khai phá liệu: + Lĩnh vực tài chính: Tăng độ trung thành khách hàng cách thu thập phân tích liệu hành vi khách hàng Dự đoán hành vi khách hàng để tung dịch vụ sản phẩm thích hợp (lĩnh vực tài lĩnh vực ngân hàng) Khám phá mối tương quan ẩn số tài khác để phát hoạt động đáng ngờ có rủi ro tiềm ẩn cao Hỗ trợ xác định hành động gian lận không gian lận cách thu thập liệu lịch sử sau biến đổi thành thơng tin hợp lệ hữu ích + Lĩnh vực chăm sóc sức khỏe Giúp doanh nghiệp gia tăng lợi cạnh tranh việc cung cấp thơng tin phủ, quy định đối thủ cạnh tranh Hỗ trợ q trình R&D sau chiến lược tiếp cận thị trường với khả tiếp cận thông tin nhanh chóng giai đoạn 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình Phương pháp hồi quy Logistic Hình 10 Mơ hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic 2.3.2 SVM (Support Vector Machine) • SVM kỹ thuật khai phá liệu để tập hợp thuật tốn có giám sát cách nhận liệu vào, xem chúng vector không gian Bằng cách xây dựng siêu phẳng không gian nhiều chiều làm mặt phân cách lớp liệu, thuật toán giúp ph ân loại chúng vào hai lớp khác Theo cách nhìn trực quan, để kết phân lớp có tính đắn cao nhất, cần phải xác định siêu phẳng (hyperplane) nằm xa điểm liệu tất lớp (hàm lề) tốt nói chung lề lớn sai số tổng qt hóa kỹ thuật phân loại bé • Do SVM thuật toán phân loại nhị phân Với liệu huấn luyện có hai thuộc tính sẵn có, SVM xây dựng mơ hình để phân loại 15 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 liệu dự báo vào hai thuộc tính Hiện nay, thuật tốn đời nhiều biến thể để phù hợp với tốn phân lớp khác sử dụng cho hồi quy nhiệm vụ khác Hình 11 Minh họa thuật tốn phân lớp Support Vector Machine (SVM) Nguồn: Ông Xuân Hồng (2015) Support vector machine (SVM) hỏi đáp 2.3.3 Cây định (Decision Tree) Cây định định nghĩa theo nhiều cách tùy vào khía cạnh: • Trong lý thuyết quản trị, định đồ thị định kết kèm dạng đặc biệt cấu trúc Nó sử dụng để xây dựng kế hoạch nhằm đạt mục tiêu mong muốn hỗ trợ trình định • Trong lĩnh vực khai phá liệu, xem kết hợp hồn hảo khía cạnh: kỹ thuật tốn học tính tốn nhằm hỗ trợ cho việc mô tả, phân loại tổng quát hóa tập liệu đầu vào Khi đó, định mơ tả cấu trúc cây, đó, đại diện cho phân loại cành đại diện cho kết hợp thuộc tính dẫn tới phân loại • Một tập liệu biểu diễn nhiều định tương ứng Cuối cùng, ngắn gọn lựa chọn (theo nguyên lý Ockham’s Razor) 16 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 12 Phương pháp định 2.3.4 Neural Network • Mạng Neural, gọi mạng nơ-ron nhân tạo mạng nơ-ron mô phỏng, tập hợp học máy trung tâm thuật toán học sâu Tên cấu trúc chúng lấy cảm hứng từ não người, bắt chước cách tế bào thần kinh sinh học truyền tín hiệu cho • Mạng Neural nhân tạo bao gồm lớp nút, chứa lớp đầu vào, nhiều lớp ẩn lớp đầu Mỗi nút, nơ-ron nhân tạo, kết nối với nút khác có trọng số ngưỡng liên quan Nếu đầu nút riêng lẻ vượt giá trị ngưỡng định, nút kích hoạt, gửi liệu đến lớp mạng Nếu không, liệu chuyển đến lớp mạng 17 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 13 Phương pháp Neural Network 2.4 Chi tiết mơ hình khai phá liệu phương pháp hồi quy Logistic Như tìm hiểu khái niệm hồi quy Logistic mục 2.3 (các phương pháp phân lớp liệu), tìm hiểu chi tiết hồi quy Logistic Phân loại: Ba loại hồi quy logistic là: • Hồi quy logistic nhị phân kỹ thuật thống kê sử dụng để dự đoán mối quan hệ biến phụ thuộc (Y) biến độc lập (X), biến phụ thuộc có chất nhị phân Ví dụ, kết đầu Thành cơng / Khơng thành cơng, 0/1, Đúng / Sai Có / Khơng Đây loại hồi quy logistic mà tập trung vào đăng • Hồi quy logistic đa thức sử dụng bạn có biến phụ thuộc phân loại với hai nhiều mức thứ tự (tức hai nhiều kết rời rạc) Nó giống với hồi quy logistic ngoại trừ việc bạn có nhiều hai kết xảy Ví dụ: tưởng tượng bạn muốn dự đoán loại phương tiện giao thông sử dụng nhiều vào năm 2030 Loại phương tiện giao thông biến phụ thuộc, với đầu có xe lửa, xe bt, xe điện xe đạp (ví dụ) • Hồi quy logistic thứ tự sử dụng biến phụ thuộc (Y) có thứ tự (tức thứ tự) Biến phụ thuộc có thứ tự có ý nghĩa nhiều hai danh mục cấp độ Ví dụ biến kích thước áo phông (XS / S / M / L / XL), câu trả lời thăm dò ý kiến (Đồng ý / Không đồng ý / Trung lập) điểm số kiểm tra (Kém / Trung bình / Tốt) - Ưu điểm: • Hồi quy logistic dễ thực nhiều so với phương pháp khác, đặc biệt Machine Learning: Mơ hình Machine Learning mơ tả mơ tả tốn học q trình giới thực Q trình thiết lập mơ hình học máy u cầu đào tạo thử nghiệm mơ hình Huấn luyện trình tìm kiếm mẫu liệu đầu vào, để mơ hình ánh xạ đầu vào cụ thể (ví dụ, hình ảnh) tới loại đầu đó, chẳng hạn nhãn Hồi quy logistic dễ đào tạo triển khai so với phương pháp khác 18 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 • Hồi quy logistic hoạt động tốt trường hợp tập liệu phân tách tuyến tính: Tập liệu cho phân tách tuyến tính vẽ đường thẳng tách hai lớp liệu khỏi Hồi quy logistic sử dụng biến Y bạn nhận hai giá trị liệu phân tách tuyến tính, việc phân loại thành hai lớp riêng biệt hiệu • Hồi quy logistic cung cấp hiểu biết hữu ích: Hồi quy logistic không cho phép đo lường mức độ liên quan biến độc lập (tức (kích thước hệ số), mà cho biết hướng mối quan hệ (tích cực tiêu cực) Hai biến cho có liên kết tích cực gia tăng giá trị biến số làm tăng giá trị biến số khác Ví dụ: bạn dành nhiều tập luyện, bạn trở nên giỏi môn thể thao cụ thể Tuy nhiên: Điều quan trọng phải biết mối tương quan Nói cách khác, hồi quy logistic cho bạn thấy có mối tương quan thuận nhiệt độ trời doanh số bán hàng, điều khơng thiết có nghĩa doanh số bán hàng tăng nhiệt độ - Nhược điểm: • Hồi quy logistic khơng dự đốn kết liên tục Hãy xem xét ví dụ để hiểu rõ hạn chế Trong ứng dụng y tế, hồi quy logistic sử dụng để dự đoán nhiệt độ bệnh nhân viêm phổi tăng cao Điều quy mô đo lường liên tục (hồi quy logistic hoạt động biến phụ thuộc biến kết lưỡng phân) • Hồi quy logistic giả định tính tuyến tính biến dự đốn (phụ thuộc) biến dự báo (độc lập) Tại hạn chế? Trong giới thực, khó có khả quan sát phân tách tuyến tính Hãy tưởng tượng bạn muốn phân loại diên vĩ thành hai họ: sentosa versicolor Để phân biệt hai loại, bạn phân biệt kích thước cánh hoa kích thước đài hoa Bạn muốn tạo thuật toán để phân loại diên vĩ, thực khơng có phân biệt rõ ràng — cánh hoa kích thước 2cm đủ tiêu chuẩn cho trồng cho hai loại màu xanh màu sắc Vì vậy, liệu phân tách tuyến tính giả định cho hồi quy logistic, thực tế, khơng phải lúc thực khả thi 19 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 • Hồi quy logistic khơng xác kích thước mẫu q nhỏ Nếu kích thước mẫu mức nhỏ, mơ hình tạo hồi quy logistic dựa số lượng quan sát thực tế nhỏ Điều dẫn đến trang bị nhiều Trong thống kê, overfitting lỗi mơ hình hóa xảy mơ hình khớp với liệu hạn chế thiếu liệu đào tạo Hay nói cách khác, khơng có đủ liệu đầu vào để mơ hình tìm mẫu Trong trường hợp này, mơ hình khơng thể dự đốn xác kết tập liệu tương lai 2.5 Các phương pháp đánh giá mơ hình phân lớp 2.5.1 Ma trận nhầm lẫn (Confusion Matrix) độ xác (Accuracy); ROC, AUC, Precision/Recall, F1-score * Ma trận nhầm lẫn (Confusion Matrix) • Ma trận nhầm lẫn ma trận lớp cụ thể, dự đoán có điểm liệu thực thuộc rơi vào lớp Phương pháp có kích thước k x k với k số lượng lớp liệu • Đây kỹ thuật đo lường hiệu suất sử dụng rộng rãi, đặc biệt cho mơ hình phân loại Hình 14 Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix) Nguồn: Sang Hà Ngọc (2021) Confusion Matrix/Ma trận nhầm lẫn/Ma trận lỗi Giả sử lớp A lớp tích cực lớp B lớp tiêu cực Các thuật ngữ ma trận nhầm lẫn sau: • Tích cực thực (TP) : Dự đốn lớp tích cực tích cực 20 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 • Tích cực giả (FP) : Dự đốn lớp phủ định tích cực • Phủ định giả (FN) : Dự đốn lớp tích cực tiêu cực • Phủ định thực (TN) : Dự đốn lớp phủ định tiêu cực * Độ xác (Accuracy) Accuracy hiểu là tỉ lệ số mẫu dự đoán với tổng số mẫu tập liệu tính mà khơng xác loại phân lớp nào, phân loại nhiều thuộc lớp liệu thường bị phân loại nhầm vào lớp khác nằm lớp Tuy nhiên, giúp ta đánh giá hiệu dự báo mơ hình liệu Độ xác cao mơ hình chuẩn xác *Precision, Recall, F1 – score • Precision (độ xác) cho biết tỉ lệ số điểm true positive (TP) số điểm phân loại positive (TP + FP) • Recall (độ phủ) hay độ nhạy (sensitivity) hay TPR (True Positive Rate) tỉ lệ số điểm true positive (TP) điểm thực positive (TP + FN) • F1- score giá trị trung bình điều hịa hai độ đo Precision Recall => F1 có giá trị gần với giá trị nhỏ giá trị Precision Recall F1 lớn giá trị Precision Recall lớn cho thấy độ tin cậy mơ hình cao * ROC (Receiver Operating Characteristic) AUC (Area Under the Curve) ROC đồ thị sử dụng phổ biến đánh giá mơ hình phân loại nhị phân Đường cong tạo cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác Một mơ hình hiệu có ROC tiệm cận với điểm (0;1) hay có TPR cao FPR thấp mơ hình phù hợp 21 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 15 Minh họa phương pháp ROC (Receiver Operating Characteristic) Nguồn: ResearchGate COVID_MTNet: COVID-19 Detection with Multi-Task Deep Learning Approaches Còn AUC phần diện tích nằm đường cong ROC có giá trị số dương nhỏ Giá trị lớn độ xác mơ hình cao Hình 16 Minh họa phương pháp AUC (Area Under the Curve) Nguồn: Joakim Warholm (2021) Detecting Unhealthy Comments in Norwegian using BERT Faculty of Science and Technology Department of Physics and Technology, – 67 22 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 2.5.2 Cross Validation: K-fold Holdout • Phương pháp Hold-out phân chia tập liệu ban đầu thành tập độc lập theo tỷ lệ định Ví dụ, tập huấn luyện chiếm 70% tập thử nghiệm chiếm 30% Phương pháp sử dụng cho tập liệu lớn thường cho hiệu khả quan Tuy nhiên, tập liệu nhỏ vừa phải, kết mơ hình chưa có độ xác cao mẫu liệu nhỏ khơng mang tính đại diện cho tổng thể Đây nhược điểm Hold-out Nhưng ta khắc phục cách điều chỉnh cách chia tỷ lệ chia mẫu liệu cho lớp phân bố tập liệu huấn luyện đánh giá lấy mẫu ngẫu nhiên thực phương pháp k lần với độ xác acc(M) = trung bình cộng k giá trị xác • Phương pháp K-fold cross validation phân chia liệu thành k tập có kích thước (gọi fold), sử dụng fold làm tập liệu dự báo phần lại làm tập liệu huấn luyện Quá trình lặp lại tất fold dùng làm tập liệu đánh giá So với Phương pháp Hold-out, phương pháp thường ưa chuộng mơ hình huấn luyện dự báo nhiều phần liệu khác Từ mơ hình có độ tin cậy cao III PHÂN TÍCH Sơ lược thị trường nguồn nhân lực Hiện nay, Cách mạng công nghiệp lần thứ tư làm nên đặc trưng kinh tế số - dựa liệu lớn, internet vạn vật, trí tuệ nhân tạo, tạo nên mơ hình sản xuất, kinh doanh sáng tạo đa dạng cho doanh nghiệp Hơn nữa, kinh tế chia sẻ khiến cho nguồn lực doanh nghiệp hoàn toàn thay đổi với việc chuyển sang nguồn nhân lực số Do đó, phát triển nguồn nhân lực số trở thành xu hướng phát triển tất yếu thời gian tới Chuyển đổi số diễn với tốc độ nhanh chưa có, mang lại hội thúc đẩy doanh nghiệp phát triển vượt bậc Các nhà lãnh đạo doanh nghiệp nhận thấy tác động tích cực từ chuyển đổi số, đặc biệt nguồn nhân lực số Nhiều công việc tự động hóa với robot tiên tiến trí tuệ nhân tạo thúc đẩy thay đổi lớn nhằm nâng cao suất nhân viên hiệu kinh doanh 23 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Cơng việc quy trình làm việc thiết lập lại, nhân viên giải phóng để tập trung vào nhiệm vụ mang lại giá trị lớn cho doanh nghiệp Trong đó, liệu phân tích nguồn lực lao động giúp doanh nghiệp đưa định kinh doanh nhanh chóng, có đầy đủ thơng tin, dựa minh chứng dịch vụ, suất hiệu Đại dịch COVID-19 cú hích tạo thay đổi môi trường làm việc, thúc đẩy nhu cầu lực lượng lao động có khả thích ứng độ linh hoạt cao giúp doanh nghiệp giữ vững phát triển có biến động lớn Theo nghiên cứu “Xu hướng Nhân tài Toàn cầu năm 2021” Mercer, tác động tài gián đoạn sống công việc đại dịch gây thúc đẩy nhà tuyển dụng Đông Nam Á (Indonesia, Thái Lan, Malaysia Philippines) tập trung vào việc xác định nhu cầu nguồn nhân lực tương lai nhiều cách đồng thời tái cấu (48%) tích cực đào tạo lại nhân lực vào năm 2021 (39%) để sẵn sàng cho việc kinh doanh 32% doanh nghiệp ưu tiên tái tạo lại hoạt động kinh doanh bền vững, tức trách nhiệm tổ chức cộng đồng, đảm bảo lợi ích người tiêu dùng, nhân viên mơi trường tối đa hóa Tại Việt Nam, phủ đưa nghị định chủ trương Chuyển đổi số Việt Nam với mục tiêu kinh tế số chiếm 20% tỉ trọng GDP quốc gia vào năm 2025, phấn đấu 30% vào năm 2030 Một mục tiêu lớn đến năm 2025 100% doanh nghiệp nâng cao nhận thức chuyển đổi số Có thể nói, giai đoạn khẩn trương để đào tạo phát triển nguồn lực số liên tục đáp ứng cho toàn doanh nghiệp quan ban ngành, giúp chuẩn bị cho phát triển vượt bậc tương lai Việt Nam Mơ hình nghiên cứu đề xuất - Mô tả liệu: cột liệu, cột Attrition mục tiêu nghiên cứu, cho biết nhân viên có rời bỏ hay không Trong này, sinh viên sử dụng 68% liệu để huấn luyện 32% để kiểm tra liệu - Mô tả biến Tên cột Attrition Miêu tả đặc tính Nhân viên lựa chọn rời bỏ công ty hay Age Business Travel không? ( Yes/No) Sổ tuổi Đi công tác thường xuyên hay không? 24 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 (Travel-Rarely: công tác; TravelFrequently: công tác thường xuyên; Daily Rate Department DistanceFromHome Education Non-Travel: không công tác) Mức tiền công ngày Phòng ban làm việc Khoảng cách từ nhà đến nơi làm việc Số điểm trung bình học (thang EducationField EmployeeCount 5đ) Ngành học học Nhân viên làm khảo sát ( EmployeeNumber EnvironmentSatisfaction người) Mã số nhân viên Mức độ hài lịng nhân viên mơi Gender HourlyRate JobInvolvement trường làm việc (thang 4đ) Giới tính Tiền cơng theo Mức độ nhiệt tình mà nhân viên tự đánh giá tham gia thực JobLevel JobRole JobSastifaction MaritalStatus MonthlyIncome MonthlyRate NumCompaniesWorked Over18 OverTime PercentSalaryHike PerformanceRating công việc Cấp độ cơng việc Chức vụ Mức độ hài lịng cơng việc Trạng thái nhân Thu nhập hàng tháng Mức lương hàng tháng tổng cộng Số công ty làm việc Trên 18 tuổi hay chưa? Tăng ca hay không? (Yes/No) Lương tăng %? Tự đánh giá hiệu suất làm việc RelationshipSatisfaction Mức độ hài lịng mối quan hệ với StandardHours đồng nghiệp Số làm việc tiêu chuẩn StockOptionLevel tuần Mức độ khả mà nhân viên TotalWorkingYears TrainingTimesLastYear WorkLifeBalance đầu tư vào việc mua cổ phiếu Tổng số năm làm Thời gian thực tập Tự đánh giá mức thời gian mà dành cho sống cá nhân bên cạnh 25 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 YearsAtCompany YearsInCurrentRole YearsSinceLastPromotion công việc Số năm làm việc công ty Số năm làm việc chức vụ Số năm kể từ lần cuối YearsWithCurrManager thăng chức Số năm làm việc với sếp/quản lý Bộ liệu huấn luyện - Khi ứng dụng mơ hình khai phá liệu việc dự báo đinh rời hay lại nhân viên, nghiên cứu sử dụng liệu nhân tố Business Travel, Department, Education Field, Job role Bộ liệu chia thành phần bao gồm liệu huấn luyện liệu dự báo Bộ liệu huấn luyện giải thích chi tiết phần dưới, cịn liệu dự báo giải thích chi tiết phần - Bộ liệu 1000 nhân viên dùng để huấn luyện có Attrition biến phụ thuộc lại biến độc lập (age, business travel, daily rate, department, distance from home, …) Hình 18 Bộ liệu huấn luyện 20 nhân viên Bộ liệu dự báo - Sau có liệu huấn luyện, dự báo nhân viên lại (470 nhân viên) dựa vào huấn luyện có sẵn Dự báo lựa chọn phương pháp phân lớp liệu để lựa chọn phương pháp thích hợp thơng qua cách đánh giá mơ hình phân lớp 26 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 19 Bộ liệu dự báo 20 nhân viên Kết huấn luyện Sau thử nghiệm kiểm thử mơ hình theo bước Bài nghiên cứu vẽ sơ đồ trình huấn luyện dự báo thể hình đây: Hình 20 Các mơ hình sử dụng kiểm thử - Sử dụng phần mềm Orange để đưa liệu huấn luyện vào Sau bắt đầu khai báo thuộc tính liệu huấn luyện - Kiểm tra kết sau huấn luyện liệu, thu kết sau: Hình 21 Kết sau huấn luyện liệu Sau khai báo thuộc tính liệu cần ý, nghiên cứu lựa chọn phương pháp phân lớp liệu phù hợp thông qua số CA, F1, 27 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Precison, Recall Các phương pháp nghiên cứu mà nghiên cứu sử dụng Tree, SVM, Logistic Neural Kết dự báo Chọn liệu cần dự báo áp dụng mơ hình Logistic Regression, thu kết sau: Hình 22 Kết liệu áp dụng vào mơ hình Logistic Regression Với mơ hình Logistic Regression kết dự đốn trên, ta giúp cơng ty đưa số định điều chỉnh để giúp giữ nhân viên lại Sự rời bỏ nhân viên chắn ảnh hưởng xấu đến hoạt động cơng ty Nhiều cách thức khác thực để giảm bớt tình trạng rời nhân viên Cách giữ chân nhân viên lại cơng ty cơng ty, doanh nghiệp phải hiểu nhân viên họ Điều bao gồm xác định hướng phát triển mà nhân viên hướng tới; ghi nhận thành tích nhân viên; tạo mơi trường làm việc tích cực cho nhân viên Một số công ty khảo sát nhân viên rời để hiểu lý áp dụng, tránh tình trạng rời tương lai IV KẾT LUẬN VÀ HẠN CHẾ - GIẢI PHÁP Kết luận 28 0 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Dựa mơ hình cho ta nhận thấy: Mơ hình hồi quy logistic cho kết tốt hẳn so với hai mơ hình cịn lại Do sinh viên sử dụng mơ hình để áp dụng vào tập liệu cần dự đoán Sinh viên tin mơ hình nên áp dụng vào việc đánh giá nhân viên công ty Hạn chế giải pháp - Hạn chế: Mặc dù nỗ lực để hồn thành nghiên cứu, nhiên, q trình làm bài, tơi khơng thể tránh khỏi số hạn chế yếu tố chủ quan, khách quan: Thời gian học phần ngắn, sinh viên chưa thực vững thực hành bước huấn luyện liệu làm việc với liệu Độ xác mơ hình cịn chưa đạt tới mức tuyệt đối, khơng thể tránh khỏi sai sót q trình dự đốn nên việc đưa kết luận khơng thể dựa hồn tồn 100% vào việc chạy mơ hình Tại Việt Nam, liệu khách hàng dạng bảo mật thơng tin, vậy, sinh viên chưa thực có hội làm việc với liệu nước liệu thực tế - Giải pháp: Trên sở hạn chế khiến nghiên cứu chưa thật hồn thiện, tơi xin đề xuất số hướng phát triển đề tài tương lai sau: • Thứ nhất, hạn chế lớn nghiên cứu số lượng đồng việc chọn mẫu chưa cao nên tính đại diện cịn hạn chế Nhóm mong đề tài khắc phục hạn chế cách đầu tư thu thập liệu nhiều công ty để thu số lượng mẫu thích hợp Đồng thời triển khai dự đốn, kiểm chứng thực tế đánh giá kết cách thường xun để tăng độ xác • Thứ hai, hi vọng đề tài nghiên cứu thời gian tới phát nhiều mơ hình phù hợp nhằm đến kết luận xác yếu tố thật có ảnh hưởng lớn đến định rời hay lại nhân viên TÀI LIỆU THAM KHẢO Ứng dụng mơ hình học máy việc dự đoán khả rời bỏ dịch vụ khách hàng – Nguyễn Ngọc Thu Trang 29 0 Downloaded by hây hay (vuchinhhp3@gmail.com) ... lOMoARcPSD|17838488 Nghiên cứu ứng dụng phương pháp khai thác liệu để dự đốn khả rời cơng ty nhân viên? ?? Mục tiêu nghiên cứu Bài nghiên cứu “ Nghiên cứu ứng dụng phương pháp khai thác liệu để dự đoán khả rời công. .. Bộ liệu huấn luyện 20 nhân viên Bộ liệu dự báo - Sau có liệu huấn luyện, dự báo nhân viên lại (470 nhân viên) dựa vào huấn luyện có sẵn Dự báo lựa chọn phương pháp phân lớp liệu để lựa chọn phương. .. (Classification): Phương pháp sử dụng để dự báo liệu thông qua liệu huấn luyện, phân loại đối tượng Nhóm chúng em sử dụng phương pháp khai phá liệu để dự báo số liệu - Hồi quy (Regression): Mục đích phương pháp