Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
2,69 MB
Nội dung
lOMoARcPSD|18034504 ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU Đề tài: PHÂN LỚP VÀ DỰ BÁO BỘ DỮ LIỆU EMPLOYEE ATTRITION DỰA TRÊN ỨNG DỤNG ORANGE GVHD: TS.GVC Nguyễn Quốc Hùng Nhóm thực hiện: Nhóm Lưu Hữu Trung (Trưởng nhóm) Ha Ma Ry Nguyễn Thuý Hằng Lê Hà Thương Lê Mỹ Duyên TP Hồ Chí Minh, Tháng 10/2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU LỜI MỞ ĐẨU BẢNG PHÂN CÔNG CÁC THÀNH VIÊN Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU 1.1.1 Dữ liệu 1.1.2 Tổng quan Khoa học liệu 10 1.1.3 Ứng dụng thực tế Khoa học liệu 11 1.2 GIỚI THIỆU ĐỀ TÀI 11 1.2.1 Lý chọn đề tài 11 1.2.2 Khái niệm employee attrition 12 1.2.3 Mục tiêu nghiên cứu 12 Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 13 2.1 CÁC PHƯƠNG PHÁP CỦA EXCEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU 13 2.1.1 Các hàm thống kê thông dụng 13 2.1.2 Các phương pháp thống kê mô tả 15 2.1.2.1 Thống kê công cụ Descriptive statistics 15 2.1.2.2 Báo cáo tổng hợp nhóm với Subtotal 17 2.1.2.3 Hợp liệu với công cụ Consolidate 18 2.1.2.4 Tổng hợp liệu đa chiều với Pivot Table 19 2.1.3 Phân tích dự báo 21 2.1.3.1 Phương pháp trung bình trượt (Moving Average) 21 2.1.3.2 Phương pháp san mũ (Exponential Smoothing) 22 2.1.3.3 Phương pháp Hồi quy Regression 23 2.1.3.4 Phân tích tối ưu 25 2.2 PHẦN MỀM ORANGE 27 2.2.1 Tổng quan phần mềm Orange 27 2.2.2 Phương pháp phân cụm liệu 27 2.2.2.1 Định nghĩa 27 2.2.2.2 Đặc điểm phân cụm liệu 28 2.2.2.3 Các ứng dụng phương pháp phân cụm 28 2.2.2.4 Các phương pháp phân cụm 28 2.2.2.4.1 Phân cụm dựa phân cấp (Hierarchical approach) 28 Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 2.2.2.4.2 Phân cụm dựa phân hoạch (Partitionting Clustering) 29 2.2.2.4.3 Các phương pháp đánh giá phân cụm liệu 29 2.2.3 Phương pháp phân lớp liệu 29 2.2.3.1 Định nghĩa 29 2.2.3.2 Quá trình phân lớp liệu 29 2.2.3.3 Một số phương pháp phân lớp 31 2.2.3.3.1 Phương pháp Hồi quy Logistic (Logistic Regression) 31 2.2.3.3.2 Phương pháp định (Decision Tree) 31 2.2.3.3.3 Phương pháp SVM (Support Vector Machine) 32 2.2.3.4 Các phương pháp đánh giá mơ hình phân lớp 32 2.2.3.4.1 Ma trận nhầm lẫn (Confusion Matrix) 32 2.2.3.4.2 Phương pháp phân chia liệu Hold-out 34 2.2.3.4.3 K-cross validation 34 2.2.3.5 Các ứng dụng phân lớp ứng dụng kinh tế 34 Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 36 3.1 PHÂN TÍCH DỮ LIỆU EMPLOYEE ATTRITION 36 3.1.1 Nạp liệu Employee Attrition 36 3.1.2 Mô tả liệu Employee Atttrition 36 3.1.3 Thống kê mô tả liệu Employee Attrition 39 3.2 PHÂN LỚP VÀ DỰ BÁO DỮ LIỆU EMPLOYEE ATTRITION 43 3.2.1 Một số phương pháp phân lớp liệu 43 3.2.2 Kết mơ hình phân lớp liệu 43 3.2.3 Kết mô hình dự báo liệu 55 Chương 4: ĐÁNH GIÁ KẾT QUẢ MƠ HÌNH 57 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 NHỮNG CÔNG VIỆC Đà THỰC HIỆN 59 Tóm tắt 59 Kết luận 59 GIẢI PHÁP 59 TÀI LIỆU THAM KHẢO 60 Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 DANH MỤC HÌNH ẢNH Hình 2.1 Hộp thoại Descriptive Statistics 16 Hình 2.2 Hộp thoại Subtotal 17 Hình 2.3 Hộp thoại Consilidate 18 Hình 2.4 Hộp thoại Create PivotTable 20 Hình 2.5 Hướng dẫn hiệu chỉnh Pivot Table 20 Hình 2.6 Hướng dẫn hiệu chỉnh Pivot Table 21 Hình 2.7 Hướng dẫn hiệu chỉnh Pivot Table 21 Hình 2.8 Kết dự báo đồ thị 24 Hình 2.9 Kết dự báo công cụ Regression 25 Hình 2.10 Hộp thoại Solver 26 Hình 2.11 Kết mơ hình kinh tế tối ưu 26 Hình 2.12 Minh họa phương pháp phân cụm 27 Hình 2.13 Quá trình phân lớp liệu - Xây dựng mơ hình phân lớp 30 Hình 2.14 Quá trình phân lớp liệu - Đánh giá mơ hình 30 Hình 2.15 Quá trình phân lớp liệu - Phân lớp liệu 30 Hình 2.16 Minh họa phương pháp Hồi quy Logistic 31 Hình 2.17 Minh họa mơ hình định đơn giản 31 Hình 2.18 Minh họa phương pháp SVM 32 Hình 2.19 Minh họa phương pháp đánh giá mơ hình phân lớp 32 Hình 2.20 Minh họa ma trận nhầm lẫn .33 Hình 2.21 Minh họa đường cong ROC 34 Hình 2.22 Minh họa AUC 34 Hình 3.1 Nạp liệu Employee Attrition từ Datasets 36 Hình 3.2 Quan sát liệu Employee Attrition Data table .36 Hình 3.3 Biểu đồ thống kê độ tuổi chức vụ 40 Hình 3.4 Biểu đồ thể tình trạng nhân 40 Hình 3.5 Biểu đồ thể mức độ hài lòng nhân viên 41 Hình 3.6 Biểu đồ thể số lượng công ty mà nhân viên làm việc 41 Hình 3.7 Biểu đồ thể mức thu nhập hàng tháng nhân viên 42 Hình 3.8 Biểu đồ thể thời gian nhân viên làm việc công ty .42 Hình 3.9 Biểu đồ thể tiêu hao nguồn nhân lực .43 Hình 3.10 Quá trình phân lớp liệu 43 Hình 3.11 Lấy liệu Employee attrition Datasets 44 Hình 3.12 Mẫu liệu Employee attrition 44 Hình 3.13 Lấy liệu huấn luyện 45 Hình 3.14 Mẫu liệu huấn luyện 45 Hình 3.15 Mơ hình lấy mẫu liệu huấn luyện 45 Hình 3.16 Lấy mẫu liệu thử nghiệm .46 Hình 3.17 Mẫu liệu thử nghiệm 46 Hình 3.18 Mơ hình lấy mẫu liệu thử nghiệm 46 Hình 3.19 Tập liệu huấn luyện .47 Hình 3.20 Mơ hình so sánh thuật toán 48 Hình 3.21 Kết chia mẫu liệu phần 48 Hình 3.22 Kết chia mẫu liệu phần 49 Hình 3.23 Kết chia mẫu liệu phần 49 Hình 3.24 Kết chia mẫu liệu 10 phần 50 Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.25 Kết chia kiểu liệu 20 phần 50 Hình 3.26 Kết chia mẫu liệu 90% 51 Hình 3.27 Kết chia mẫu liệu 70% 51 Hình 3.28 Kết chia mẫu liệu 66% 52 Hình 3.29 Kết ma trận nhầm lẫn phương pháp Cây định Tree 53 Hình 3.30 Kết ma trận nhầm lẫn phương pháp SVM 53 Hình 3.31 Kết ma trận nhầm lẫn phương pháp Hồi quy Logistic 53 Hình 3.32 Đường cong ROC khơng có hao mịn lao động (Attrition No) 54 Hình 3.33 Đường cong ROC có hao mịn lao động (Attrion Yes) 54 Hình 3.34 Đánh giá mơ hình phân lớp 55 Hình 3.35 Tập liệu thử nghiệm .55 Hình 3.36 Mơ hình dự báo liệu .56 Hình 3.37 Kết dự báo liệu 56 Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 DANH MỤC BẢNG BIỂU Bảng 2.1 Bảng thống kê số lượng hàng ngày 1/11/2010 xưởng JJK 16 Bảng 2.2 Kết thống kê công cụ Descriptive Statistics 16 Bảng 2.3 Bảng thông tin nhân viên 17 Bảng 2.4 Bảng kết thống kê tổng số tiền nhân viên .18 Bảng 2.5 Bảng doanh thu năm 2014 cửa hàng công ty ABC 18 Bảng 2.6 Kết hợp doanh thu cửa hàng ttrong công ty ABC .19 Bảng 2.7 Kết tổng hợp liệu công cụ Pivot Table 19 Bảng 2.8 Kết tổng hợp liệu ví dụ thể bảng 20 Bảng 2.9 Kết dự báo phương pháp trung bình trượt 22 Bảng 2.10 Kết dự báo phương pháp san mũ .23 Bảng 2.11 Bảng thiết lập mơ hình kinh tế 26 Bảng 4.1 Bảng so sánh tiêu phương pháp K-fold mơ hình Hồi quy Logistic 57 Bảng 4.2 Bảng so sánh tiêu phương pháp Hold-out mơ hình Hồi quy Logistic 57 Bảng 4.3 So sánh tỷ lệ sai lầm mô hình ma trận nhầm lẫn .58 Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 LỜI MỞ ĐẨU Để bắt đầu vào bài, trước hết chúng em xin gửi lời cảm ơn chân thành đến thầy TS Nguyễn Quốc Hùng, giảng viên môn Khoa học liệu Nhờ vào kiến thức mà thầy truyền đạt tiết học giúp cho nhóm chúng em tiếp thu nhiều kiến thức để từ vận dụng sử dụng thành thạo phần mềm khoa học cụ thể Excel Orange Từ giúp cho chúng em hiểu rõ vai trị mơn Khoa học liệu muốn truyền tải Cùng với là đoàn kết tương tác làm việc suất thành viên nhóm q trình thực đồ án Sau q trình tích lũy kiến thức kỹ năng, chúng em xin trình bày điều thơng qua đồ án Sẽ có khuyết điểm q trình hồn thành đồ án nên nhóm chúng em mong nhận lại lời phản hồi, đánh góp ý để nhóm chúng em hoàn thiện đồ án cách tốt Chúng em xin gửi lời cảm ơn đến thầy Trong bối cảnh thời đại công nghệ 4.0 nay, công nghệ điện tử thứ khơng thể thiếu Cơng nghệ giúp nâng cao suất làm việc người cách tối ưu tận dụng tối đa lợi ích mà mang lại lĩnh vực sống Và không nhắc đến vai trị hệ thống thơng tin việc quản lý doanh nghiệp, có vai trị to lớn vô quan trọng Hệ thống thông tin quản lý, cung cấp thông tin doanh nghiệp cách nhanh chóng xác Từ mà mang lại cho doanh nghiệp ưu điểm lợi cạnh tranh thị trường Thuật ngữ “Khoa học liệu” xuất vào khoảng thập niên 60, với tên gọi khác thống kê Thuật ngữ chuyên gia khoa học máy tính thức hố vào cuối thập niên 90 Hiện khoa học liệu nhiều doanh nghiệp sử dụng giúp cho doanh nghiệp phân tích nắm bắt thơng tin cần thiết mà không nhiều thời gian chi phí, từ đẩy mạnh nhanh hoạt động kinh doanh, giúp cho doanh nghiệp phát triển thịnh vượng Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 BẢNG PHÂN CÔNG CÁC THÀNH VIÊN STT Họ tên Công việc phụ trách Mức độ hồn thành Lưu Hữu Trung (Trưởng nhóm) Lời mở đầu, Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI, Chương 4: ĐÁNH GIÁ KẾT QUẢ MƠ HÌNH, Kết luận hướng phát triển 100% Nguyễn Thuý Hằng Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Các phương pháp Excel dùng để khai phá liệu 100% Lê Hà Thương Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.2 Phần mềm Orange 100% Ha Ma Ry Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 3.1 Phân tích liệu Employee Attrition 100% Lê Mỹ Duyên Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 3.2 Phân lớp dự báo liệu Employee Attrition, Chương 4: ĐÁNH GIÁ KẾT QUẢ MƠ HÌNH, Tổng hợp chỉnh sửa hình thức trình bày Word 100% Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI Nội dung chương mà nhóm làm giới thiệu tổng quát liệu, khoa học liệu giới thiệu đề tài mà nhóm chọn “Phân lớp dự báo liệu Employee Attrition” 1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU 1.1.1 Dữ liệu Dữ liệu (Data) tập hợp thơng tin bao gồm chữ, số, hình ảnh, Qua giúp cho hình dung tổng quát việc Dữ liệu dùng để ứng dụng nhiều ngành công nghệ, kỹ thuật khoa học Ngồi ra, liệu cịn dùng chế tạo điện thoại thông minh, giúp lưu trữ tất video, văn bản, âm đa dạng Dữ liệu chia làm loại: Dữ liệu có cấu trúc (Structured Data) liệu khơng có cấu trúc (Unstructured Data) - Dữ liệu có cấu trúc (Structured Data) xác định nhóm liệu mà hoạt động chủ yếu với vai trị lưu trữ thơng tin truyền đạt thông tin theo cấu trúc xác định Dữ liệu có cấu trúc có đặc trưng sau: • Ta gọi với tên khác liệu định lượng • Đưa liệu số liệu cách khách quan • Biểu thị chủ yếu dạng số chữ • Chủ yếu lưu trữ công cụ Google Sheet, SQL, Excel • Thu thập, truy xuất, xếp thông tin cách dễ dàng • Thơng tin trích xuất cách đơn giản Ví dụ: Địa giao dịch, ngày tháng giao dịch, họ tên người giao dịch, mã giao dịch, - Dữ liệu khơng có cấu trúc (Unstructured Data) biết đến liệu tập hợp cấu trúc liệu phức tạp, khó nhận biết chưa đặt tổ chức theo trình tự cho sẵn Dữ liệu phi cấu trúc có đặc trưng sau: • Dữ liệu định tính tên gọi khác liệu khơng có cấu trúc • Thường dạng văn thể quan điểm, ý kiến đánh giá thương hiệu • Những cơng cụ dùng để lưu trữ Solr, Elasticsearch Word • Khó thu thập, khó truy xuất, lưu trữ xếp thơng tin • Dữ liệu phi có cấu trúc khơng thể tìm kiếm cơng cụ phân tích liệu Ví dụ: Những phản hồi, ý kiến khách hàng trang mạng xã hội Email Sự cần thiết Data với doanh nghiệp: • Định hướng định cho doanh nghiệp • Cập nhật thường xuyên • Cải thiện hoạt động nội • Cải thiện quản lý tài Big Data tập hợp tất liệu có quy mơ lớn, mang tính đa dạng biến động nhanh Tính đến thời điểm tại, khơng có cơng cụ quản lý liệu truyền thống quản lý Big Data Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Trong xã hội ngày phát triển, người nói chung kinh tế nói riêng phải cần đến ứng dụng công nghệ Mà công nghệ lại gắn liền, đôi với việc thu nhập thông tin Thông qua thông tin thu thập, tổ chức đa kênh có hội thuận lợi để tạo nên đột phá mang tính cách mạng, thúc đẩy gia tăng suất doanh nghiệp, công ty Thông thường, Big Data ứng dụng nhiều ngành nghề thương mại, y tế, marketing, ngân hàng, … Nhiệm vụ Big Data ngành nghề làm cơng cụ phân tích, đánh giá nhận xét, lưu trữ thơng tin, chẩn đốn bảo đảm an ninh, Thời điểm mà doanh nghiệp làm chủ tập hệ thống liệu lớn thời điểm thật thành công doanh nghiệp chiến trường làm ăn đầy cạnh tranh Trong kinh doanh, Big Data doanh nghiệp sử dụng nhiều lĩnh vực, bao gồm: • Nâng cao trải nghiệm khách hàng cách kiểm tra quản lý tất thông tin, liệu liên quan đến khách hàng Từ mà đưa giải pháp, phương hướng để giữ chân khách hàng • Nâng cao hiệu suất làm việc, vận hành có tổ chức hiệu nhờ vào q trình phân tích hoạt động doanh nghiệp Big Data • Những rủi ro làm ăn giảm thiểu nhờ vào phân tích, quản lý phát hành động gian lận • Giá doanh thu tối ưu hố Như vậy, Big Data coi chìa khóa để mở lối đến thành công dành cho doanh nghiệp lớn thời đại ngày nay, thời đại cơng nghiệp hóa, đại hóa 1.1.2 Tổng quan Khoa học liệu Nhiều doanh nghiệp dựa vào việc thu thập phân tích liệu để nắm bắt đặc điểm khách hàng thời đại ngày nay, mà tất thứ dần số hóa đi, lúc mà khách hàng có nhiều tương tác với mạng Internet Chính mà từ doanh nghiệp nắm bắt lấy hội để đổi phát triển, để từ rút ngắn trình đổi Khoa học liệu đời với sứ mệnh để giúp dễ dàng việc khai thác giá trị thật liệu Việc thu thập liệu khơng phải vấn đề khó, để thực biến liệu trở nên có giá trị vấn đề quan trọng, việc đòi hỏi nhiều kỹ người dùng Vì vậy, có mặt KHOA HỌC DỮ LIỆU vô quan trọng, giúp biến chữ viết thô, số thành kế hoạch, ý tưởng, sản phẩm, dịch vụ có ích có ý nghĩa Khoa học liệu (Data Science) lĩnh vực nghiên cứu liệu nhằm mục đích khai thác thơng tin chun sâu có ý nghĩa hoạt động kinh doanh.”Đây phương thức tiếp cận đa ngành, kết hợp nguyên tắc phương pháp thực hành lĩnh vực toán học, thống kê, trí tuệ nhân tạo kỹ thuật máy tính để phân tích khối lượng lớn liệu.“Nội dung phân tích giúp nhà khoa học liệu đặt trả lời câu hỏi kiện xảy ra, xảy ra, kiện xảy sử dụng kết thu cho mục đích gì.”” Khoa học liệu (Data science) bao gồm phần chính: • Tạo quản trị liệu Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 10 lOMoARcPSD|18034504 Hình 3.16 Lấy mẫu liệu thử nghiệm Tập liệu thử nghiệm có 441 liệu với 32 biến khơng có liệu bị lỗi Hình 3.17 Mẫu liệu thử nghiệm • Dùng Save Data , lưu liệu máy với tên attrition_forecast.xlsx Hình 3.18 Mơ hình lấy mẫu liệu thử nghiệm Bước 2: Sử dụng mơ hình Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 46 lOMoARcPSD|18034504 Bởi tập liệu sau lấy mẫu đạt tiêu chuẩn, liệu bị lỗi nên bỏ qua bước tiền xử lý liệu - Sử dụng Test and Core để so sánh, đánh giá thuật toán So sánh số liệu tiêu phương pháp từ lựa chọn thuật tốn tốt nhất, xác phục vụ cho việc dự báo - Sử dụng attrition_data.xlsx tập huấn luyện (Training), chọn File thư mục chọn attrition_data.xlsx Chọn biến Attrition biến phụ thuộc (target) , vào Hình 3.19 Tập liệu huấn luyện Sử dụng Test and Score đánh giá phương pháp phân lớp Cây định (Decision Tree), Hồi quy (Logistic Regression) SVM (Support Vector Machine) Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 47 lOMoARcPSD|18034504 Hình 3.20 Mơ hình so sánh thuật toán - Tại bảng Test and Score, sử dụng phương pháp K-fold cách chọn chia tỷ lệ lấy mẫu Cross Validation phương pháp Hold-out cách chọn tỷ lệ Random Sampling để có sổ đẹp Dưới số ví dụ chia tỷ lệ lấy mẫu: • Phương pháp K-fold, chọn tỷ lệ Cross Validation: Tại Number of folds, chia liệu thành folds (k), chọn k=2, k=3, k=5, k=10, k=20 Hình 3.21 Kết chia mẫu liệu phần Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 48 lOMoARcPSD|18034504 Hình 3.22 Kết chia mẫu liệu phần Hình 3.23 Kết chia mẫu liệu phần Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 49 lOMoARcPSD|18034504 Hình 3.24 Kết chia mẫu liệu 10 phần Hình 3.25 Kết chia kiểu liệu 20 phần ➢ Nhận xét: Tại mục Evalution Results cho ta biết kết định lượng mơ hình Logistic Regression, Tree, SVM, giá trị cao Khi xem xét số từ việc lựa chọn lấy mẫu ngẫu nhiên qua trường hợp ta thấy mơ hình Hồi quy Logistic Regression mang lại số liệu cao mơ hình, trường hợp chia lấy mẫu liệu với k = 20 có số liệu cao với ✓ Tính xác (CA) 0.883 ✓ Giá trị trung bình điều hịa (F1) 0.870 ✓ Độ xác (Precision) 0.872 ✓ Độ phủ (Recall) 0.883 Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 50 lOMoARcPSD|18034504 ✓ AUC (Area Under the Curve), hay diện tích nằm đường cong ROC 0.833 đạt số liệu tốt trường hợp khác ví dụ Một mơ hình đánh giá tốt giá trị AUC lớn • Phương pháp Hold-out, chọn tỷ lệ Random Sampling, chỉa tỷ lệ kiểu training set, chọn tỷ lệ Training set size: Hình 3.26 Kết chia mẫu liệu 90% Hình 3.27 Kết chia mẫu liệu 70% Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 51 lOMoARcPSD|18034504 Hình 3.28 Kết chia mẫu liệu 66% ➢ Nhận xét: Tại mục Evalution Results cho ta biết kết định lượng mơ hình Logistic Regression, Tree, SVM, giá trị cao Khi xem xét số từ việc lựa chọn lấy mẫu ngẫu nhiên qua trường hợp ta thấy mơ hình Hồi quy Logistic Regression mang lại số liệu cao mô hình, trường hợp chia lấy mẫu liệu với Training set size 90% có số liệu cao với: ✓ Tính xác (CA) 0.885 ✓ Giá trị trung bình điều hịa (F1) 0.871 ✓ Độ xác (Precision) 0.874 ✓ Độ phủ (Recall) 0.885 ✓ AUC (Area Under the Curve), hay diện tích nằm đường cong ROC 0.825 đạt số liệu tốt trường hợp khác ví dụ Một mơ hình đánh giá tốt giá trị AUC lớn - Để biết thêm việc mơ hình mơ hình xác tốt ta sử dụng thêm phương pháp đánh giá mơ hình phân lớp Ma trận nhầm lẫn (Confusion Matrix) ROC Analysis Ví dụ sử dụng trường hợp chia lấy mẫu liệu theo kiểu K - fold Cross validation với k = 20 • Ma trận nhầm lẫn (Confusion Matrix) Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 52 lOMoARcPSD|18034504 Hình 3.29 Kết ma trận nhầm lẫn phương pháp Cây định Tree Hình 3.30 Kết ma trận nhầm lẫn phương pháp SVM Hình 3.31 Kết ma trận nhầm lẫn phương pháp Hồi quy Logistic ➢ Nhận xét: Sử dụng Confusion Matrix, số cần quan sát tỷ lệ False Positive (sai lầm loại 1) False Negative (sai lầm loại 2) Mơ hình tốt xác có sai lầm loại sai lầm loại nhỏ Nhìn vào kết trên, ta thấy mơ hình Hồi quy Logistic Regression có sai lầm loại 28.4% sai lầm loại 10%, hai tỷ lệ nhỏ mơ hình Do đó, mơ hình Hồi quy Logistic phù hợp • ROC Analysis Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 53 lOMoARcPSD|18034504 Hình 3.32 Đường cong ROC khơng có hao mịn lao động (Attrition No) Hình 3.33 Đường cong ROC có hao mịn lao động (Attrion Yes) ➢ Nhận xét: Một mơ hình có hiệu FPR (tỷ lệ dự báo false positive rate) thấp TPR (tỷ lệ dự báo true positive rate) cao, hay nói cách khác ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu Nhìn vào kết trên, ta thấy mơ hình Hồi quy có đường cong ROC tiệm cận với điểm (0;1) nên mơ hình hiệu Kết luận: Phương pháp phân lớp Hồi quy Logistic phương pháp tốt Vì: ✓ Phương pháp có AUC (Area Under the Curve) hay diện tích nằm đường cong ROC lớn nhất, tức có mơ hình tốt ✓ Phương pháp có CA (Accuracy) hay tính xác cao ✓ Phương pháp có sai lầm loại nhỏ ✓ Phương pháp có hiệu cao có đường ROC tiệm cận với điểm (0;1) Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 54 lOMoARcPSD|18034504 Hình 3.34 Đánh giá mơ hình phân lớp 3.2.3 Kết mơ hình dự báo liệu Sau sử dụng phương pháp đánh giá mơ hình phân lớp, ta chọn phương pháp Hồi quy Logistic để dự báo - Sử dụng attrition_forecast.xlsx tập thử nghiệm (Testing), chọn File vào thư mục chọn attrition_forecast.xlsx , Hình 3.35 Tập liệu thử nghiệm - Sử dụng Prediction để dự báo liệu theo phương pháp Hồi quy Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 55 lOMoARcPSD|18034504 Logistic Chọn Data Table để xem kết dự báo Dùng Save Data lưu kết dự báo với tên attrition_dubao.xlsx để Hình 3.36 Mơ hình dự báo liệu Kết dự báo liệu Employee Attrition: Hình 3.37 Kết dự báo liệu Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 56 lOMoARcPSD|18034504 Chương 4: ĐÁNH GIÁ KẾT QUẢ MƠ HÌNH ❖ Phương pháp phân chia liệu K-fold cross validation: Bảng 4.1 Bảng so sánh tiêu phương pháp K-fold mơ hình Hồi quy Logistic Number of 10 20 folds (k) Tính xác (CA) Giá trị trung bình điều hồ (F1) Độ xác (Precision) Độ phủ (Recall) 87,7% 88,1% 88,1% 87,9% 88,3% 86,3% 86,9% 86,8% 86,7% 87,0% 86,3% 86,9% 86,9% 86,7% 87,2% 87,7% 88,1% 88,1% 87,9% 88,35 Diện tích nằm 81,5% 82,6% 82,7% 83,1% 83,3% đường cong (AUC) Theo kết từ bảng Evaluation Result, mơ hình, mơ hình Hồi quy Logistic cho kết tốt Bảng 4.1 tiêu mơ hình Hồi quy với cách chia mẫu liệu với k 2, 3, 5, 10 20 Có thể nhận thầy mơ hình chia mẫu thành 20 phần tốt Bởi số AUC kết chia mẫu liệu thành 20 phần lớn 83,3%, số AUC mơ hình lớn mơ hình tốt ❖ Phương pháp phân chia liệu Hold-out Bảng 4.2 Bảng so sánh tiêu phương pháp Hold-out mơ hình Hồi quy Logistic Tỷ lệ Random Sampling 90% 70% 66% (Training set size) Tính xác (CA) 88,5% 88,5% 88% Giá trị trung bình điều hồ (F1) 87,1% 87,3% 86,8% Độ xác (Precision) 87,4% 87,4% 86,8% Độ phủ (Recall) 88,5% 88,5% 88% Diện tích đường 82,5% 82,4% 80,9% cong (AUC) Theo kết từ bảng Evaluation Result, mô hình, mơ hình Hồi quy Logistic cho kết tốt Bảng 4.2 tiêu mơ hình Hồi quy với cách chia mẫu liệu với tỷ lệ Training set size 90%, 70%, 66% Chọn mơ hình Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 57 lOMoARcPSD|18034504 chia tỷ lệ mẫu 90% mơ hình có số diện tích đường cong (AUC) lớn 82,5% nên hoạt động tốt ❖ Ma trận nhầm lẫn (Confusion Matrix) Bảng 4.3 So sánh tỷ lệ sai lầm mô hình ma trận nhầm lẫn Sai lầm Loại Loại Mơ hình Tree 66,1% 13,1% SVM 55,2% 10,9% Logistic 28,4% 10% Đánh giá ma trận nhầm lẫn mơ hình Hồi quy Logistic cho kết sai lầm loại sai lầm loại thấp nhất, với tỷ lệ sai lầm loại 28,4% sai lầm loại 10%, tỷ lệ nhỏ mơ hình ❖ ROC Analysis: Đánh giá ROC Analysis: Nhìn vào đồ thị hình 3.32 3.33, mơ hình Hồi quy có đường cong ROC tiệm cận với điểm (0;1) nên mơ hình hiệu KẾT LUẬN: Mơ hình Hồi quy Logistic mơ hình phù hợp Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 58 lOMoARcPSD|18034504 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Với kiến thức trình bày với mơ hình thực hiện, nhóm chúng em xin đưa nhìn bao quát đồ án phần kết luận này, với cung cấp tóm tắt đồ án (bao gồm quy trình nghiên cứu kết mơ hình), với giải pháp để hồn thiện NHỮNG CƠNG VIỆC Đà THỰC HIỆN Tóm tắt Nhóm chúng em phân tích nhân tố, đặc điểm nhân viên dựa việc phân tích sở liệu Employee Attrition Cùng với đó, nhóm chúng em xây dựng mơ hình nghiên cứu ảnh hưởng nhân tố nhân viên, tìm cách dự báo hao mịn lao động cá nhân dựa việc phân tích sở liệu Employee attrition Employee attrition tập liệu hư cấu nhà khoa học liệu IBM tạo năm 2015 Xây dựng mơ hình để dự báo cá nhân có hay khơng hao mòn lao động Mối liên hệ yếu tố tuổi, giới tính, tiền lương, vai trị cơng việc hài lòng người lao động Sau thực việc lấy mẫu liệu từ liệu phần mềm Orange, xử lý liệu, huấn luyện liệu, phân lớp liệu chọn mơ hình tốt để phân lớp liệu mơ hình Hồi quy Logistic, với tính xác lên đến 88,3% sai lầm loại 10% Kết luận Nhóm chúng em bước đầu hồn thành mục tiêu nhóm nghiên cứu đặc điểm, thuộc tính nhân viên để từ dễ dàng đưa dự báo ảnh hưởng lực lượng lao động, từ đưa hướng để phát triển Những kiến thức, lý thuyết chương nhóm em sử dụng để xây dựng mơ hình dự báo đảm bảo dự tốn từ phân tích có độ xác cao GIẢI PHÁP Trong doanh nghiệp, để đưa doanh nghiệp đến thành cơng hay khơng, việc khơng dựa vào ban giám đốc điều hành, nhà quản lý mà dựa vào lớn đến nhân viên, lực lượng lao động Nhân nguồn lực quan trọng để định đến thành cơng hay thất bại doanh nghiệp Vì vậy, qua mơ hình ta dự báo ảnh hưởng lực lượng lao động Những thông tin thu nhập từ nhân viên doanh nghiệp thơng qua độ tuổi, trình độ học vấn, giới tính, hài lịng mơi trường làm việc, tiền cơng theo giờ, thu nhập hàng tháng,… từ cho ta thấy việc quản lý nhân Việt Nam nói chung phải ln đổi mới, cải tiến ưu điểm cải thiện khuyết điểm cơng tác quản lý để từ thu hút nhân viên lại tiếp tục làm việc với doanh nghiệp Để làm điều doanh nghiệp có thể: • Ghi nhận xem xét chế độ lương thưởng, ưu đãi cho nhân viên • Nâng cao sở vật chất, tạo cho nhân viên mơi trường lao động lành mạnh • Tuyển dụng người, cho họ thấy tiềm phát triển thân họ gắn bó với doanh nghiệp • Có thiết bị, ứng dụng doanh nghiệp để theo dõi hoạt động nhân viên làm việc với khích lệ nhân viên thơng qua ứng dụng, thiết bị • Đào tạo phận quản lý chuyên nghiệp, nắm bắt xu hướng chung nhân viên doanh nghiệp • Hạn chế tối đa mức làm thêm cho nhân viên, cân thời gian làm việc đời sống nhân viên Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 59 lOMoARcPSD|18034504 TÀI LIỆU THAM KHẢO TS GVC Nguyễn Quốc Hùng, slide giảng chương 1,2,3,4 tài liệu tham khảo môn Khoa học liệu – Lớp học phần 22C1INF50905963 Nguyễn Hưng (2022, May 1st) Dữ liệu gì? Tầm quan trọng data doanh nghiệp https://vietnix.vn/du-lieu-la-gi/ GSOT smart things Big Data gì? Và vai trị Big Data với đời sống người https://gsotgroup.vn/big-data-la-gi-vai-tro-cua-big-data-voi-doi-song-connguoi.html SOM AIT (2022, July 20th) Data science gì? Vì nhà quản lý nên học thêm Khoa học liệu? https://som.edu.vn/khoa-hoc-du-lieu-data-science-lagi/ - :~:text=Thu thập liệu không,thật liệu AWS Khoa học liệu gì? https://aws.amazon.com/vi/what-is/data-science/ Joboko (2021, October 24th) Attrition gì? Tác động tiêu hao lực lượng lao động doanh nghiệp https://vn.joboko.com/blog/attrition-la-gi-tacdong-cua-attrition-doi-voi-doanh-nghiep-nsi1686 Báo cáo đồ án học phần Khoa học liệu (DS) Downloaded by vu ga (vuchinhhp2@gmail.com) 60 ... nhau”, phân cách rõ ràng 2.2.3 Phương pháp phân lớp liệu Phương pháp phân lớp thực để dự đoán phân lớp cho liệu, mẫu Khác với phân cụm liệu, phương pháp phân lớp liệu có biến target y phân liệu vào... tốt để dự báo 3.1 PHÂN TÍCH DỮ LIỆU EMPLOYEE ATTRITION 3.1.1 Nạp liệu Employee Attrition • Nạp liệu Employee Attrition: mở DATASETS chọn Employee Attrition Hình 3.1 Nạp liệu Employee Attrition. .. với 237 người với 16% 3.2 PHÂN LỚP VÀ DỰ BÁO DỮ LIỆU EMPLOYEE ATTRITION Hình 3.10 Quá trình phân lớp liệu 3.2.1 Một số phương pháp phân lớp liệu Sử dụng phương pháp phân lớp là: ❖ Hồi quy logistic