Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
4,44 MB
Nội dung
ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU (23D1INF50905912) Đề tài: PHÂN LỚP BỘ DỮ LIỆU ATTRITION - TRAIN DỰA TRÊN PHẦN MỀM ORANGE GVHD: TS.GVC Nguyễn Quốc Hùng Nhóm thực hiện: NHĨM Phan Vũ Phương Ngọc (trưởng nhóm) Nguyễn Thị Ngọc Hạnh Lê Phi Long Hoàng Thuỵ Thuý Vy Mã lớp HP: 22C1ECO50105604 TP Hồ Chí Minh, Tháng 6/2023 MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU .7 Bảng 1.2 Bảng tóm tắt tốn tối đa hóa lợi nhuận LỜI MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI 10 1.1 Giới thiệu Khoa học liệu 10 1.1.1 Sơ lược liệu 10 1.1.2 Khái quát khoa học liệu 11 1.1.3 Sự phát triển khoa học liệu 12 1.1.4 Ứng dụng khoa học liệu .14 1.2 Giới thiệu đề tài .15 1.2.1 Giới thiệu đề tài 15 1.2.2 Lý chọn đề tài .16 CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 17 2.1 Các phương pháp Excel dùng để khai thác liệu: 17 2.1.1 Phương pháp thống kê mô tả 17 2.1.2 Phương pháp phân tích dự báo 23 2.1.3 Phương pháp phân tích tối ưu 28 2.2 Phần mềm Orange .30 2.2.1 Tổng quan phần mềm Orange .30 2.2.2 Phương pháp phân cụm liệu .31 2.2.3 Phương pháp phân lớp liệu 33 CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 40 3.1 Phân tích liệu Attrition-Train 40 3.1.1 Tiền xử lý liệu Attrition-Train 40 3.1.2 Mô tả liệu Attrition-Train 41 3.1.3 Thống kê mô tả liệu 43 3.2 Phân lớp liệu Attrition - Train .47 3.2.1 Kết mơ hình 47 CHƯƠNG ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH .60 4.1 Đánh giá kết mô hình 60 4.2 Kết luận hướng phát triển 60 Bảng phân cơng mức độ hồn thành thành viên nhóm: STT Tên thành viên - MSSV Phan Vũ Phương Ngọc (nhóm trưởng) 31211020837 Cơng việc phụ trách (Random) - Lời mở đầu Mức độ hoàn thành 100% - Chương 1: Giới thiệu khoa học liệu giới thiệu đề tài - Tài liệu tham khảo - Tổng hợp chỉnh sửa Nguyễn Thị Ngọc Hạnh 31211022831 - Chương 2: Tổng quan chương trình sử dụng phương pháp sử dụng 100% - Danh mục bảng biểu Lê Phi Long - 31211027154 Chương 3: Ứng dụng phương pháp vào tốn thực tế 100% Hồng Thuỵ Th Vy 31211020858 Chương 4: Kết luận hướng phát triển 100% DANH MỤC HÌNH ẢNH Hình 1.1 Hình minh hồ tổng quan giai đoạn khoa học liệu Hình 2.1 Sở giao dịch chứng khốn New York tạo khoảng terabyte liệu giao dịch ngày - ứng dụng khoa học liệu Hình 3.1 Hình minh hoạ Attrition vấn đề nan giải đặt doanh nghiệp Hình 1.2 Hình minh họa phương pháp phân cụm Hình 2.2 Mơ hình q trình phân tích cụm liệu Hình 3.2 Mơ hình phân lớp Hình 1.3 Các bước tiến hành xử lý liệu Hình 2.3 Nạp liệu Attrition-Train vào Datasets Hình 3.3 Dữ liệu Attrition-Train Data Table Hình 4.3 Hình ảnh biểu đồ tỷ lệ phần trăm trình độ học vấn nhân viên Hình 5.3 Hình ảnh biểu đồ tình trạng nhân nhân viên Hình 6.3 Hình ảnh biểu đồ khoảng cách địa lý Hình 7.3 Hình ảnh biểu đồ độ tuổi Hình 8.3 Hình ảnh biểu đồ giới tính Hình 9.3 Hình ảnh biểu đồ số lần cơng tác Hình 10.3 Hình ảnh biểu đồ mức độ hài lịng với cơng việc Hình 11.3 Giới thiệu phân lớp liệu Hình 12.3 Lấy mẫu từ liệu Hình 13.3 Mẫu liệu Hình 14.3 Lấy tập liệu huấn luyện Hình 15.3 Mẫu liệu huấn luyện Hình 16.3 Lấy mẫu liệu thử nghiệm Hình 17.3 Mẫu liệu DataTable Hình 18.3 Mơ hình lấy tập liệu Hình 19.3 Tập liệu huấn luyện Hình 20.3 Mơ hình thuật tốn Hình 21.3 Kết chia mẫu liệu thành phần Hình 22.3 Kết chia mẫu liệu thành 10 phần Hình 23.3 Kết chia mẫu liệu thành 50- 90% Hình 24.3 Kết chia mẫu liệu thành 20-70% Hình 25.3 Kết chia mẫu liệu thành 50-66% Hình 26.3 Kết ma trận nhầm lẫn Hồi quy logistic (Logistic Regression) Hình 27.3 Kết ma trận nhầm lẫn SVM (Support Vector Machines) Hình 28.3 Kết ma trận nhầm lẫn Cây định (Decision Tree) Hình 29.3 Đường cong ROC với biến y no Hình 30.3 Đường cong ROC với biến y yes Hình 31.3 Đánh giá mơ hình phân lớp liệu Hình 32.3 Tập liệu thử nghiệm Hình 33.3 Mơ hình dự báo liệu Attrition-Train Hình 34.3 Kết dự báo mơ hình DANH MỤC BẢNG BIỂU Bảng 1.2 Bảng tóm tắt tốn tối đa hóa lợi nhuận Bảng 1.3 Bảng mô tả biến liệu Attrition-Train Bảng 1.4 Bảng tổng hợp số liệu Test and Score qua dạng phân lớp LỜI MỞ ĐẦU Thơng qua báo cáo, nhóm chúng em xin gửi lời cảm ơn thật sâu sắc tới giảng viên Nguyễn Quốc Hùng, người đứng lớp giảng dạy chúng em học phần Khoa học liệu kỳ vừa Vì có chúng em có kỹ năng, kiến thức để tạo báo cáo chủ đề khoa học liệu hoàn chỉnh Kính chúc thầy gia đình mạnh khoẻ, hạnh phúc thành công viên mãn sống Chúc thầy giữ vững phong độ tại, tiếp tục nhiệt huyết với nghiệp trồng người truyền tải tri thức tới hệ sinh viên sau! Chúng em xin gửi lời cám ơn sâu sắc tới thầy ! Trong trình làm bài, hạn chế kiến thức kinh nghiệm, nên nhóm chúng em khó tránh khỏi thiếu sót mặt hình thức nội dung Chúng em mong nhận đánh giá đóng góp từ giảng viên để tiểu luận hồn thiện giúp chúng em trau dồi thêm kiến thức tiếp thu kinh nghiệm thật hữu ích cho việc học kể sau Trong lĩnh vực này, khoa học liệu chứng tỏ hữu ích việc phân tích, xử lý lượng lớn liệu để tìm mẫu, xu hướng đặc trưng cơng mạng Trong đó, phần mềm Orange công cụ linh hoạt dễ sử dụng cho việc khám phá liệu xây dựng mơ hình học máy Trong đề tài này, chúng em tập trung vô việc phân lớp liệu "Attrition - Train" sử dụng ứng dụng Orange Bộ liệu chứa thông tin nhân viên thành viên tổ chức, bao gồm thuộc tính tuổi, giới tính, lương, vị trí cơng việc, thời gian làm việc thơng tin khác liên quan đến việc dự đoán Attrition Mục tiêu cuối tạo mơ hình dự đốn Attrition xác đáng tin cậy, từ giúp tổ chức doanh nghiệp nhận biết đưa phương án phù hợp để giữ chân nhân viên, tăng cường hài lòng đảm bảo ổn định tổ chức Mơ hình sử dụng để đưa định chiến lược, phát triển sách nhân tạo biện pháp đối phó hiệu để giảm thiểu Attrition trì mơi trường làm việc tích cực Điều giúp hiểu rõ việc xây dựng mơ hình dự đốn Attrition sử dụng cho mục đích huấn luyện đưa “biện pháp phịng ngừa hiệu quả” CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI 1.1 Giới thiệu Khoa học liệu 1.1.1 Sơ lược liệu Dữ liệu: (Data) Dữ liệu giá trị thông tin định lượng định tính vật, tượng sống Trong khoa học liệu, liệu dùng cách biểu diễn hình thức hố thơng tin tượng, kiện thích ứng với yêu cầu truyền nhận, thể xử lý máy tính Dữ liệu có loại là: - Structured data (Dữ liệu có cấu trúc) - Unstructured data (Dữ liệu khơng có cấu trúc) Dữ liệu nguồn thông tin thiếu lĩnh vực khoa học liệu Nó thể thơng tin, kiện thuộc tính đối tượng giới thực hệ thống Trong tất lĩnh vực, liệu đóng vai trị quan trọng việc cung cấp thơng tin kiến thức Dữ liệu sở cung cấp cho việc phân tích, nghiên cứu đưa định Dữ liệu nguồn cung cấp thông tin quan trọng để phát xu hướng, tìm mối quan hệ biến xây dựng mơ hình dự đoán Trong lĩnh vực KHDL, liệu trung tâm trình nghiên cứu Khoa học liệu liên quan đến việc thu thập, lưu trữ, xử lý phân tích liệu để tìm thơng tin hữu ích khám phá mơ hình ẩn liệu Khoa học liệu thường sử dụng phương pháp, kỹ thuật công cụ khai phá liệu, học máy, trí tuệ nhân tạo thống kê để khám phá, hiểu sử dụng liệu cách hiệu Trong lĩnh vực khoa học liệu, liệu thường thu thập từ nhiều nguồn khác nhau, bao gồm sở liệu, tệp tin, hệ thống cảm biến, mạng xã hội nguồn liệu trực tuyến khác Dữ liệu khoa học liệu thường 10 Hình 3.12: Lấy mẫu từ liệu Hình 3.13: Mẫu liệu 47 Dữ liệu sau lấy mẫu có 441 quan sát, 18 biến khơng có liệu bị lỗi Tiếp tục sử dụng Data Sampler để lấy mẫu liệu từ File Du_Lieu_Thu_Nghiem_30%.xlsx để phục vụ cho việc phân lớp liệu Lấy tập liệu huấn luyện Hình 3.14: Lấy tập liệu huấn luyện Hình 3.15: Mẫu liệu huấn luyện 48 Dữ liệu huấn luyện sau lấy có 309 quan sát, 18 biến khơng có liệu bị lỗi Sau chọn Data Save để lưu máy với tên Du_Lieu_Huan_Luyen_30%_70% Lấy tập liệu thử nghiệm Hình 3.16: Lấy mẫu liệu thử nghiệm Tại Fixed sample size chọn lấy 100 mẫu từ tập liệu Du_Lieu_Thu_Nghiem_30%.xlsx Sau chọn Sample Data chọn DataTable để xuất liệu Hình 3.17: Mẫu liệu DataTable 49 Tập liệu với 100 quan sát, 18 biến khơng có liệu bị lỗi Sau chọn Data Save để lưu máy với tên Attrition-Train_Forecast.xlsx Hình 3.18: Mơ hình lấy tập liệu Bước 2: Sử dụng mơ hình Các liệu sau lấy mẫu đạt không bị lỗi nên ta bỏ qua bước tiền xử lý liệu Dùng Test and Score để so sánh đánh giá thuật toán từ đưa thuật tốn xác nhất, tối ưu cho việc dự báo Sử dụng tập liệu Du_Lieu_Huan_Luyen_30%_70%.xlsx để dự báo với biến Attrition biến phụ thuộc (target) Hình 3.19: Tập liệu huấn luyện 50 Hình 3.20: Mơ hình thuật tốn Tại bảng Test and Score, chọn chia tỷ lệ mẫu, chọn tỷ lệ lấy mẫu Cross Validation Random Sampling để số đẹp Chọn tỷ lệ lấy mẫu Cross Validation Hình 3.21: Kết chia mẫu liệu thành phần 51 Hình 3.22: Kết chia mẫu liệu thành 10 phần Chọn tỷ lệ Random Sampling Hình 3.23: Kết chia mẫu liệu thành 50- 90% 52 Hình 3.24: Kết chia mẫu liệu thành 20-70% Hình 3.25: Kết chia mẫu liệu thành 50-66% 53 Nhận xét: Evaluation Results cho ta biết kết định lượng mơ hình Hồi quy Logistic (Logistic Regression), SVM (Support Vector Machines), Cây định (Decision Tree) giá trị cao Khi xem xét số từ việc lựa chọn ngẫu nhiên qua trường hợp ta thấy phương pháp Hồi quy Logistic (Logistic Regression) trường hợp chia liệu mẫu theo kiểu Random Sampling chia mẫu liệu thành 50 - 90% Tính xác: 84.8% Giá trị trung bình điều hịa (F1): 81.7% Độ xác (Precision): 81.7% Độ phủ (Recall): 82.6% Diện tích đường cong (AUC): 0.760 là số liệu tốt trường hợp ngẫu nhiên Ma trận nhầm lẫn (Confusion Matrix) Hình 3.26: Kết ma trận nhầm lẫn Hồi quy logistic 54 Hình 3.27: Kết ma trận nhầm lẫn SVM Hình 3.28: Kết ma trận nhầm lẫn Cây định Nhận xét: Tại Confusion Matrix ta cần quan sát tỉ lệ sai lầm loại sai lầm loại Mơ hình tốt mơ hình có tỉ lệ sai lầm loại thấp Nhìn vào ví dụ ta thấy mơ hình hồi quy Logistic (Logistic Regression) có tỉ lệ sai lầm loại thấp 12.4% sai lầm loại 71.9% Nên phương pháp Hồi quy Logistic (Logistic Regression) phương pháp tốt 55 ROC Analysis Hình 3.29: Đường cong ROC với biến y no Hình 3.30: Đường cong ROC với biến y yes Nhận xét: mơ hình có FRP cao TPR thấp hay đường cong ROC gần tiệm cận với điểm (0;1) đồ thị mơ hình hiệu Nên nhìn hình thể đường cong ROC biến Attrition ta thấy phương pháp Hồi quy Logistic (Logistic Regression) có đường cong gần tiệm cận với (0;1) nên mơ hình hiệu 56 Kết luận: phương pháp hồi quy Logistic (Logistic Regression) phương pháp tốt Nguyên nhân lựa chọn: Phương pháp có AUC (Area Under the Curve) hay diện tích nằm đường cong ROC lớn suy mơ hình tốt Tính xác (CA): cao Phương pháp có sai lầm loại sai lầm loại nhỏ Phương pháp có đường cong ROC gần tiệm cận với điểm (0;1) Hình 3.31: Đánh giá mơ hình phân lớp liệu Sau sử dụng phương pháp đánh giá mơ hình phân lớp, ta chọn phương pháp Hồi quy Logistic (Logistic Regression) để dự báo 100 mẫu Hình 3.32: Tập liệu thử nghiệm 57 Sử dụng Prediction để dự báo liệu theo phương pháp Hồi quy Logistic (Logistic Regression) Hình 3.33: Mơ hình dự báo liệu Attrition-Train Mơ hình dự báo 100 mẫu Kết dự báo Hình 3.34: Kết dự báo mơ hình 58 CHƯƠNG ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH 4.1 Đánh giá kết mơ hình Chương trình bày nội dung bao gồm: tổng kết kết đồ án, nhận xét đánh giá mơ hình chọn để phân lớp liệu AttritionTrain đưa hướng phát triển phù hợp thông qua cách đưa kiến nghị thực tế cho doanh nghiệp Mục tiêu ban đầu nhóm khám phá yếu tố dẫn đến tiêu hao nhân viên dựa theo liệu hư cấu Attrition-Train nhà khoa học liệu IBM tạo Đồng thời, chọn 100 mẫu để dự báo hao hụt nhân lực tập liệu Bằng cách vận dụng đầy đủ sở lý thuyết chương II, kết từ đồ án có độ tin cậy cao Thơng qua thuật tốn phân lớp liệu, mơ hình Hồi quy Logistic phương pháp tốt lựa chọn dựa kết kiểm tra Những kết gồm: Kết liệu chia mẫu thành phần, 10 phần, 50-90%, 20-70% 5066% cho thấy phương pháp Hồi quy Logistic lựa chọn tốt với số khoảng 0.7 đến 0.85 Kết ma trận nhầm lẫn với tỉ lệ FP (False Positive - Type Error) FN (False Negative - Type Error) nhỏ mơ hình ( FP = 71.9% FN = 12.4%) => Phương pháp Logistic phương pháp phù hợp để phân tích dự báo liệu Kết dự báo 100 mẫu qua phương pháp Hồi quy Logistic cho thấy có tiêu hao nhân lực yếu tố đề cần lưu ý yếu tố tiến hành khảo sát lấy số liệu trường hợp thực tế 4.2 Kết luận hướng phát triển Mơ hình giúp ích cho doanh nghiệp việc giảm tiêu hao lao động Thơng qua kết mơ hình này, doanh nghiệp xác định yếu tố gây nên hao hụt nhân viên từ lên kế hoạch định hướng để doanh nghiệp giữ chân người tài Đối với ngành cung cấp dịch vụ, 59 tiêu hao nhân lực rủi ro lớn nhân viên người đào tạo lĩnh hội kinh nghiệm doanh nghiệp Đây coi thất tài sản gây tổn thất cho doanh nghiệp nhân viên rời tham gia công ty khác với kinh nghiệm lĩnh hội thời gian làm việc doanh nghiệp cũ Bộ liệu có biến độc lập phù hợp với nguyên nhân thực tế dẫn đến hao hụt nhân viên tổ chức, doanh nghiệp Do đó, phận Nhân doanh nghiệp khai thác mơ hình áp dụng vào số liệu thực tế doanh nghiệp để nghiên cứu tìm giải pháp cho vấn đề tiêu hao nhân lực nơi làm việc Qua trình phân tích dự báo liệu Attrition-Train, nhóm có đề số kiến nghị để giảm tình trạng hao hụt nhân viên sau: Các doanh nghiệp nên tạo điều kiện cho nhân viên thực công tác nhiều Đây rủi ro cho doanh nghiệp, sau cho nhân viên công tác lực họ cải thiện nâng cao Nhưng hội tạo đủ sức hấp dẫn để giữ chân nhân viên Tạo hội thăng tiến tăng phần trăm tăng lương cho người làm việc doanh nghiệp nhiều năm để tránh tình trạng hao hụt nhân viên nhiều kinh nghiệm, kỹ chuyên môn doanh nghiệp Nên đầu tư phương tiện di chuyển giúp cho nhân viên xa nơi làm việc dễ dàng lại Vì theo thống kê mơ tả chương trước, ta thấy số lượng nhân viên có khoảng cách từ nhà đến nơi làm việc xa chiếm đông Xem xét giảm bớt chế độ tăng ca để nhân viên giảm cảm giác căng thẳng, áp lực với chế độ làm việc doanh nghiệp 60 TÀI LIỆU THAM KHẢO [1]https://drive.google.com/file/d/ 130jPEuPgyhVFxJNekn3aGMhbiErOtzlQ/view? fbclid=IwAR2AQD01S9tP4Fluop7TmIJfTra24NiaoU9Myza1giHKiGIvonsCb MOqIBk [2]https://drive.google.com/file/d/ 1C6M55MiBPWNjOsxTAoUGeuHcCFvVX8CW/view? fbclid=IwAR0jtzMR369Wvx92cHv6TygqNJl8JtuROwEqMxBwQRSJCz3run dKxbp4V88 [3]Giới thiệu Khoa học liệu [4]TS Nguyễn Quốc Hùng, giảng chương 1, 2, 3, tài liệu tham khảo môn Khoa học liệu [5]Nguyễn Hưng (2022) Dữ liệu gì? Tầm quan trọng data doanh nghiệp Truy cập ngày 20/5/2023 tại: https://vietnix.vn/du-lieu-la-gi/ 61