Các phường pháp Excel và phần mềm Orange.ỨNG DỤNG& BÀI TOÁN THỰC TẾPhân tích dữ liệu Employee attrition sau đó phân lớp dữ liệuKẾT LUẬNTóm tắt và kết luận.01020304... Dữ liệuDữ liệu là m
Trang 1EMPLOYEE ATTRITION
NHÓM 10
Trang 2Phân tích dữ liệu Employee
attrition sau đó phân lớp dữ
Trang 3Giới thiệu 01
Tổng quan về khoa học dữ và đề tài
Trang 4Dữ liệu
Dữ liệu là một tập hợp các dữ kiện, chẳng hạn như số,
từ, hình ảnh, nhằm đo lường, quan sát hoặc chỉ là mô tả
về sự vật
Trang 5Big Data
BigData (Dữ liệu lớn) là tập hợp dữ liệu có khối lượng lớn, đa dạng, thay đổi nhanh và phức tạp đến nỗi không một công cụ quản lý dữ liệu truyền thống nào có thể lưu
trữ hoặc xử lý nó một cách hiệu quả
Trang 6Dữ liệu có 2 loại chính
Thường được gọi là dữ liệu định tínhcó thế là các ý kiến chủ quan và đánh giá thương hiệu
Trang 7Tổng quan
về khoa học
dữ liệu
Trang 8Ứng dụng tiêu biểu của khoa học dữ liệu
hàng
Trang 9Giới thiệu về đề tài
Để giải quyết dứt điểm tình trạng Employee attrition, chúng ta cần
số liệu chính xác để từ đó phân tích nguyên do chủ yếu khiến nhân viên rời bỏ công ty Từ đó, đưa ra giải pháp và giải quyết vấn
đề này.
Trang 10Your logo
Employee attrition là gì?
Việc sụt giảm số lượng nhân viên khi nhân viên của bạn nghỉ làm hoặc về hưu Sự sụt giảm này diễn ra khi quy mô về lực lượng lao động của bạn giảm dần theo thời gian
Trang 11Làm việc
với những số liệu.
Xử lí
Kiến thức Thu thập và Phân
tích
Làm việc với dữ liệu một cách chính xác.
Ứng dụngỨng dụng tốt kiến thức sau bài toán thực
tế.
Trang 12Tổng quan 02
Chương trình sử dụng và các phương pháp sử dụng
Trang 13Excel
Trang 14Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descriptive Statistics
o Bước 1: Chuẩn bị bảng số liệu cần thống kê
o Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics
o Bước 3: Khai báo các thông số Input và lựa chọn các thông
số Output Options
Trang 15Ví dụ: Thống kê mô tả cho lượng thịt Heo (theo kg) bán
được trong tháng 03 tại siêu thi ABC
Trang 16Trong hộp thoại Descriptive Statistics
• Phần Input Range, điền cột
chứa dữ liệu thịt heo
• Phần Output Range nhập ô xuất
dữ liệu Confidence Level for
Trang 17Phương pháp thống kê mô tả
2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal
Chức năng của Subtotal:
o Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu
số trong cơ sở dữ liệu như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,…
o Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm
Trang 19Ví dụ: Cần thống kê tổng số tiền mà
mỗi nhân viên đã thực hiện
Trang 20o Tại At each change in chọn cột cần gom nhóm là Salesperson
o Tại Use function chọn hàm thông kê là Sum
o Tại Add subtotal to chọn cột thông kê giá trị là Order Amount
Sau đó xuất hiện kết
quả là bảng tổng hợp
số tiền mà mỗi nhân
viên thực hiện
Trang 21Phương pháp thống kê mô tả
2.1.1.3 Hợp nhất dữ liệu với Consolidate
Chức năng của Consolidate:
o Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau
o Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:
o Tổng hợp theo vị trí: các bảng
dữ liệu giống nhau về cấu trúc
o Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc
Trang 22Cách Thực hiện
Bước 1
Chọn vùng sẽ chứa dữ liệu được hợp nhất.
Bước 2
Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại
Consolidate
0
2
Trang 23Ví dụ: Hợp nhất dữ liệu doanh thu
của 3 cửa hàng sau
Trang 24o Trong hộp thoại Consolidate, ở Function chọn chức năng Sum.
o Tại Reference chọn vùng sẽ hiện kết quả, ở All reference chọn các vùng dữ liệu của cả 3 cửa hàng
Sau đó xuất hiện
kết quả.
Trang 25CÁCH THỰC HIỆN
Bước 1
Click vào ô bất
kỳ trên cơ sở dữ liệu
và nơi chứa PivotTable, click nút OK
Bước 4
Drag các tên field
từ PivotTable Fields vào 4 khu vực:
FILTERS, ROWS, COLUMNS và VALUES
0
1
0 3
0 4 0
2
Trang 26Ví dụ: Tổng hợp dữ liệu gồm tên người bán hàng, doanh số mỗi
năm và tổng cộng của nhiều người
Trang 27Phương pháp về phân tích dự báo
2.1.2.1 Phương pháp trung bình trượt (Moving Average)
o Bước 3: Khai báo các thông số Input và Output Options
Trang 28Ví dụ: Dự báo số liệu bán thịt bò của
siêu thị ABC.
Trang 29Phương pháp về phân tích dự báo
2.1.2.2 Phương pháp san bằng mũ
Trang 30Ví dụ: Dự báo số liệu bán thịt bò tại siệu thị ABC có hệ số điều chỉnh bằng
0.3
Trang 31Phương pháp về phân tích dự báo
2.1.2.3 Phương pháp hồi quy (Regression)
Cách thực hiện:
o Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
o Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại Regression
o Bước 3: Khai báo các thông số Input và Output Options
Trang 32• Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích)
• Phương trình hồi quy có dạng tổng quát:
Y = f(X1 ,X2 ,…,Xn ) (Hồi quy đơn biến: Y= aX+b)
Trang 33Ví dụ: Tác động của chi phí lên
doanh thu
Trang 34Trong hộp thoại Regression, tại Input Y Range chọn dữ liệu Doanh thu, tại Input X Range chọn dữ liệu Chi phí, ở
Confidence Level chọn độ tin cậy hồi quy là 95%
Sau đó xuất hiện kết quả
a= 1.791 và b= 3.813.
Trang 35Phương pháp về phân tích dự báo
2.1.3 Phương pháp phân tích tối ưu
Cách thực hiện:
o Bước 1: Xác định biến quyết định Gọi x1 là lượng lúa gạo, x2 là lượng lúa mì (tấn) cần sản xuất
o Bước 2: Xác định hàm mục tiêu Mục tiêu bài toán là tối đa hóa lợi nhuận ta có P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 → max
o Bước 3: Xác định hệ ràng buộc
Trang 36Ví dụ: Một nhà quản lí dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:
Trang 37Công cụ Solver để giải mô hình kinh tế:
Bước 1: Thiết lập bảng tính.
Bước 2: Chọn lệnh Data
→ Analysis → Solver.
Trang 38Công cụ Solver để giải mô hình kinh tế:
Bước 3: Nhấn nút Solve
để giải mô hình Khai báo các lựa chọn trong hộp thoại Solver
Results.
Bước 4: Nhấn
nút OK để xem
kết quả.
Trang 39Tiền xử lý dữ liệu Employee attrition
03
Trang 40Tiền xử lý dữ liệu
Employee attrition
Mô tả dữ liệu Employee attrition
Trang 4101 Tiền xử lý dữ liệu Employee
attrition
Tiến hành xử lý dữ liệu tại phần mềm Orange
Trang 4201 Tiền xử lý dữ liệu Employee
attrition
• Nạp dữ liệu Employee attrition
Trang 4301 Tiền xử lý dữ liệu Employee
attrition
Quan sát dữ liệu
Trang 4402 Mô tả dữ liệu Employee attrition
Thông tin dữ liệu Employee attrition
Các biến đầu vào:
Biến đầu ra:
Mục tiêu phân tích
Trang 4503 Thống kê mô tả dữ liệu Employee attrition
Trang 4603 Thống kê mô tả dữ liệu Employee attrition
Trang 4703 Thống kê mô tả dữ liệu Employee attrition
Trang 4803 Thống kê mô tả dữ liệu Employee attrition
Trang 4903 Thống kê mô tả dữ liệu Employee attrition
Trang 5003 Thống kê mô tả dữ liệu Employee attrition
Trang 5103 Thống kê mô tả dữ liệu Employee attrition
MIN MAX Trung bình Hài lòng với môi trường làm việc 1 4 2.72 Tích cực với công việc 1 4 2.73 Cấp bậc trong công việc 1 4 2.06 Hài lòng với công việc 1 4 2.73 Đánh giá hiệu suất 1 4 3.15
Sự hài lòng về mối quan hệ 1 4 2.71 Cân bằng cuộc sống công việc 1 4 2.76
Các biến quan sát.
Trang 5203 Thống kê mô tả dữ liệu Employee attrition
Trang 5303 Thống kê mô tả dữ liệu Employee attrition
Trang 5403 Thống kê mô tả dữ liệu Employee attrition
Trang 553.2 Phân lớp dữ liệu
Một số phương
pháp phân lớp
Kết quả mô hình
Trang 56MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP
Cây quyết định Hồi quy logistic SVM
(Tree)
(Logistic
Regression)
(Support Vector Machine)
Trang 57Kết quả mô hình
Bước 1: Xây dựng mô hình phân lớp
Phân tách dữ liệu bằng Data Sampler
Lấy mẫu từ dữ liệu Employee Attrition_training
Trang 58Kết quả mô hình
Bước 1: Xây dựng mô hình phân lớp
Phân tách dữ liệu bằng Data Sampler
Lấy mẫu dữ liệu Employee Attrition_forecast
Trang 61Kết quả mô hình
Bước 2.1 Đánh giá mô hình phân lớp
Chọn tỷ lệ lấy mẫu với Cross Validation
Kết quả chia mẫu dữ liệu thành 5 phần
Trang 62Kết quả mô hình
Bước 2.1 Đánh giá mô hình phân lớp
Chọn tỷ lệ lấy mẫu với Cross Validation
Kết quả chia mẫu dữ liệu thành 10 phần
Trang 63Kết quả mô hình
Bước 2.1 Đánh giá mô hình phân lớp
Chọn tỷ lệ tại Random Sampling
Kết quả khi chia dữ liệu thành 50-90%
Trang 64Kết quả mô hình
Bước 2.1 Đánh giá mô hình phân lớp
Chọn tỷ lệ tại Random Sampling
Kết quả khi chia mẫu dữ liệu thành 20-80%
Trang 65Diện tích dưới đường cong ROC (AUC): 0,831
Mô hình Hồi quy logistic (Logistic Regression) ở trường hợp chia mẫu dữ liệu thành 10 phần, ta thu được các kết quả:
Trang 68Kết quả mô hình
Bước 2.1 Đánh giá mô hình phân lớp
Ma trận nhầm lẫn (Confusion Matrix)
Kết quả ma trận nhầm lẫn của phương pháp SVM
(Support Vector Machine)
Trang 69NHẬN XÉT
Tại Confusion Matrix, ta thấy mô hình Hồi quy logistic (Logistic Regression) có sai lầm loại 1 là 30,9% và sai lầm loại 2 là 10,1%
Và tỷ lệ sai lầm loại 1 và sai lầm loại 2 ở phương pháp này cũng đạt giá trị thấp nhất Nên phương pháp
Hồi quy logistic (Logistic Regression) là phù hợp nhất.
Trang 72Quan sát 2 hình thể hiện đường cong ROC của biến target, ta thấy mô hình Hồi quy logistic (Logistic Regression) có
đường cong tiệm cận với điểm (0;1)
nhất, mà một mô hình càng hiệu quả khi
có FPR và TPR thấp, hay đường cong ROC càng tiệm cận với điểm (0;1) Nên
mô hình này hiệu quả nhất.
Nhận xét
Trang 73Từ các kết quả thu được, phương pháp Hồi quy logistic (Logistic
Regression) là phương
pháp tốt nhất
Trang 74Kết quả mô hình
Bước 2.2: Phân lớp dữ liệu mới
Sử dụng mô hình Hồi quy logistic (Logistic Regression) để dự báo
cho tập dữ liệu Employee Attrition_forecast
Trang 75Kết quả mô hình
Bước 2.2: Phân lớp dữ liệu mới
Sử dụng Prediction để dự báo dữ liệu theo phương pháp Hồi quy
logistic (Logistic Regression)
Trang 76ĐÁNH GIÁ KẾT QUẢ
CỦA MÔ HÌNH
04
Trang 77Bảng tổng hợp
Random Sampling Cross Validation
20 – 80% 50 – 90% 5 folds 10 folds
Tính chính xác (CA) 88,5% 89,1% 88,1% 87,9% Giá trị trung bình điều hòa (F1) 87,1% 87,9% 86,8% 86,7%
Độ chính xác (Precision) 87,3% 88,1% 86,9% 86,7%
Độ phủ (Recall) 88,5% 89,1% 88,1% 87,9% Diện tích dưới đường cong ROC
(AUC)
0,830 0,824 0,827 0,831
Kết luận: Chọn mô hình Hồi quy logistic là phù hợp
nhất
Trang 79Alternative Resources
Find more illustrations like these on Stories by Freepik