1. Trang chủ
  2. » Luận Văn - Báo Cáo

employee attrition các phường pháp excel và phần mềm orange

79 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Employee Attrition: Các phương pháp Excel và phần mềm Orange
Tác giả Nhóm 10
Định dạng
Số trang 79
Dung lượng 9,07 MB

Nội dung

Các phường pháp Excel và phần mềm Orange.ỨNG DỤNG& BÀI TOÁN THỰC TẾPhân tích dữ liệu Employee attrition sau đó phân lớp dữ liệuKẾT LUẬNTóm tắt và kết luận.01020304... Dữ liệuDữ liệu là m

Trang 1

EMPLOYEE ATTRITION

NHÓM 10

Trang 2

Phân tích dữ liệu Employee

attrition sau đó phân lớp dữ

Trang 3

Giới thiệu 01

Tổng quan về khoa học dữ và đề tài

Trang 4

Dữ liệu

Dữ liệu là một tập hợp các dữ kiện, chẳng hạn như số,

từ, hình ảnh, nhằm đo lường, quan sát hoặc chỉ là mô tả

về sự vật

Trang 5

Big Data

BigData (Dữ liệu lớn) là tập hợp dữ liệu có khối lượng lớn, đa dạng, thay đổi nhanh và phức tạp đến nỗi không một công cụ quản lý dữ liệu truyền thống nào có thể lưu

trữ hoặc xử lý nó một cách hiệu quả

Trang 6

Dữ liệu có 2 loại chính

Thường được gọi là dữ liệu định tínhcó thế là các ý kiến chủ quan và đánh giá thương hiệu

Trang 7

Tổng quan

về khoa học

dữ liệu

Trang 8

Ứng dụng tiêu biểu của khoa học dữ liệu

hàng

Trang 9

Giới thiệu về đề tài

Để giải quyết dứt điểm tình trạng Employee attrition, chúng ta cần

số liệu chính xác để từ đó phân tích nguyên do chủ yếu khiến nhân viên rời bỏ công ty Từ đó, đưa ra giải pháp và giải quyết vấn

đề này.

Trang 10

Your logo

Employee attrition là gì?

Việc sụt giảm số lượng nhân viên khi nhân viên của bạn nghỉ làm hoặc về hưu Sự sụt giảm này diễn ra khi quy mô về lực lượng lao động của bạn giảm dần theo thời gian

Trang 11

Làm việc

với những số liệu.

Xử lí

Kiến thức Thu thập và Phân

tích

Làm việc với dữ liệu một cách chính xác.

Ứng dụngỨng dụng tốt kiến thức sau bài toán thực

tế.

Trang 12

Tổng quan 02

Chương trình sử dụng và các phương pháp sử dụng

Trang 13

Excel

Trang 14

Phương pháp thống kê mô tả

2.1.1.1 Thống kê bằng công cụ Descriptive Statistics

o Bước 1: Chuẩn bị bảng số liệu cần thống kê

o Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics

o Bước 3: Khai báo các thông số Input và lựa chọn các thông

số Output Options

Trang 15

Ví dụ: Thống kê mô tả cho lượng thịt Heo (theo kg) bán

được trong tháng 03 tại siêu thi ABC

Trang 16

Trong hộp thoại Descriptive Statistics

• Phần Input Range, điền cột

chứa dữ liệu thịt heo

• Phần Output Range nhập ô xuất

dữ liệu Confidence Level for

Trang 17

Phương pháp thống kê mô tả

2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal

Chức năng của Subtotal:

o Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu

số trong cơ sở dữ liệu như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,…

o Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm

Trang 19

Ví dụ: Cần thống kê tổng số tiền mà

mỗi nhân viên đã thực hiện

Trang 20

o Tại At each change in chọn cột cần gom nhóm là Salesperson

o Tại Use function chọn hàm thông kê là Sum

o Tại Add subtotal to chọn cột thông kê giá trị là Order Amount

 Sau đó xuất hiện kết

quả là bảng tổng hợp

số tiền mà mỗi nhân

viên thực hiện

Trang 21

Phương pháp thống kê mô tả

2.1.1.3 Hợp nhất dữ liệu với Consolidate

Chức năng của Consolidate:

o Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau

o Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:

o Tổng hợp theo vị trí: các bảng

dữ liệu giống nhau về cấu trúc

o Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc

Trang 22

Cách Thực hiện

Bước 1

Chọn vùng sẽ chứa dữ liệu được hợp nhất.

Bước 2

Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại

Consolidate

0

2

Trang 23

Ví dụ: Hợp nhất dữ liệu doanh thu

của 3 cửa hàng sau

Trang 24

o Trong hộp thoại Consolidate, ở Function chọn chức năng Sum.

o Tại Reference chọn vùng sẽ hiện kết quả, ở All reference chọn các vùng dữ liệu của cả 3 cửa hàng

 Sau đó xuất hiện

kết quả.

Trang 25

CÁCH THỰC HIỆN

Bước 1

Click vào ô bất

kỳ trên cơ sở dữ liệu

và nơi chứa PivotTable, click nút OK

Bước 4

Drag các tên field

từ PivotTable Fields vào 4 khu vực:

FILTERS, ROWS, COLUMNS và VALUES

0

1

0 3

0 4 0

2

Trang 26

Ví dụ: Tổng hợp dữ liệu gồm tên người bán hàng, doanh số mỗi

năm và tổng cộng của nhiều người

Trang 27

Phương pháp về phân tích dự báo

2.1.2.1 Phương pháp trung bình trượt (Moving Average)

o Bước 3: Khai báo các thông số Input và Output Options

Trang 28

Ví dụ: Dự báo số liệu bán thịt bò của

siêu thị ABC.

Trang 29

Phương pháp về phân tích dự báo

2.1.2.2 Phương pháp san bằng mũ

Trang 30

Ví dụ: Dự báo số liệu bán thịt bò tại siệu thị ABC có hệ số điều chỉnh bằng

0.3

Trang 31

Phương pháp về phân tích dự báo

2.1.2.3 Phương pháp hồi quy (Regression)

Cách thực hiện:

o Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

o Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại Regression

o Bước 3: Khai báo các thông số Input và Output Options

Trang 32

• Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích)

• Phương trình hồi quy có dạng tổng quát:

Y = f(X1 ,X2 ,…,Xn ) (Hồi quy đơn biến: Y= aX+b)

Trang 33

Ví dụ: Tác động của chi phí lên

doanh thu

Trang 34

Trong hộp thoại Regression, tại Input Y Range chọn dữ liệu Doanh thu, tại Input X Range chọn dữ liệu Chi phí, ở

Confidence Level chọn độ tin cậy hồi quy là 95%

Sau đó xuất hiện kết quả

a= 1.791 và b= 3.813.

Trang 35

Phương pháp về phân tích dự báo

2.1.3 Phương pháp phân tích tối ưu

Cách thực hiện:

o Bước 1: Xác định biến quyết định Gọi x1 là lượng lúa gạo, x2 là lượng lúa mì (tấn) cần sản xuất

o Bước 2: Xác định hàm mục tiêu Mục tiêu bài toán là tối đa hóa lợi nhuận ta có P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 → max

o Bước 3: Xác định hệ ràng buộc

Trang 36

Ví dụ: Một nhà quản lí dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:

Trang 37

Công cụ Solver để giải mô hình kinh tế:

Bước 1: Thiết lập bảng tính.

Bước 2: Chọn lệnh Data

→ Analysis → Solver.

Trang 38

Công cụ Solver để giải mô hình kinh tế:

Bước 3: Nhấn nút Solve

để giải mô hình Khai báo các lựa chọn trong hộp thoại Solver

Results.

Bước 4: Nhấn

nút OK để xem

kết quả.

Trang 39

Tiền xử lý dữ liệu Employee attrition

03

Trang 40

Tiền xử lý dữ liệu

Employee attrition

Mô tả dữ liệu Employee attrition

Trang 41

01 Tiền xử lý dữ liệu Employee

attrition

Tiến hành xử lý dữ liệu tại phần mềm Orange

Trang 42

01 Tiền xử lý dữ liệu Employee

attrition

• Nạp dữ liệu Employee attrition

Trang 43

01 Tiền xử lý dữ liệu Employee

attrition

Quan sát dữ liệu

Trang 44

02 Mô tả dữ liệu Employee attrition

 Thông tin dữ liệu Employee attrition

 Các biến đầu vào:

 Biến đầu ra:

 Mục tiêu phân tích

Trang 45

03 Thống kê mô tả dữ liệu Employee attrition

Trang 46

03 Thống kê mô tả dữ liệu Employee attrition

Trang 47

03 Thống kê mô tả dữ liệu Employee attrition

Trang 48

03 Thống kê mô tả dữ liệu Employee attrition

Trang 49

03 Thống kê mô tả dữ liệu Employee attrition

Trang 50

03 Thống kê mô tả dữ liệu Employee attrition

Trang 51

03 Thống kê mô tả dữ liệu Employee attrition

MIN MAX Trung bình Hài lòng với môi trường làm việc 1 4 2.72 Tích cực với công việc 1 4 2.73 Cấp bậc trong công việc 1 4 2.06 Hài lòng với công việc 1 4 2.73 Đánh giá hiệu suất 1 4 3.15

Sự hài lòng về mối quan hệ 1 4 2.71 Cân bằng cuộc sống công việc 1 4 2.76

 Các biến quan sát.

Trang 52

03 Thống kê mô tả dữ liệu Employee attrition

Trang 53

03 Thống kê mô tả dữ liệu Employee attrition

Trang 54

03 Thống kê mô tả dữ liệu Employee attrition

Trang 55

3.2 Phân lớp dữ liệu

Một số phương

pháp phân lớp

Kết quả mô hình

Trang 56

MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP

Cây quyết định Hồi quy logistic SVM

(Tree)

(Logistic

Regression)

(Support Vector Machine)

Trang 57

Kết quả mô hình

Bước 1: Xây dựng mô hình phân lớp

Phân tách dữ liệu bằng Data Sampler

Lấy mẫu từ dữ liệu Employee Attrition_training

Trang 58

Kết quả mô hình

Bước 1: Xây dựng mô hình phân lớp

Phân tách dữ liệu bằng Data Sampler

Lấy mẫu dữ liệu Employee Attrition_forecast

Trang 61

Kết quả mô hình

Bước 2.1 Đánh giá mô hình phân lớp

Chọn tỷ lệ lấy mẫu với Cross Validation

Kết quả chia mẫu dữ liệu thành 5 phần

Trang 62

Kết quả mô hình

Bước 2.1 Đánh giá mô hình phân lớp

Chọn tỷ lệ lấy mẫu với Cross Validation

Kết quả chia mẫu dữ liệu thành 10 phần

Trang 63

Kết quả mô hình

Bước 2.1 Đánh giá mô hình phân lớp

Chọn tỷ lệ tại Random Sampling

Kết quả khi chia dữ liệu thành 50-90%

Trang 64

Kết quả mô hình

Bước 2.1 Đánh giá mô hình phân lớp

Chọn tỷ lệ tại Random Sampling

Kết quả khi chia mẫu dữ liệu thành 20-80%

Trang 65

Diện tích dưới đường cong ROC (AUC): 0,831

Mô hình Hồi quy logistic (Logistic Regression) ở trường hợp chia mẫu dữ liệu thành 10 phần, ta thu được các kết quả:

Trang 68

Kết quả mô hình

Bước 2.1 Đánh giá mô hình phân lớp

Ma trận nhầm lẫn (Confusion Matrix)

Kết quả ma trận nhầm lẫn của phương pháp SVM

(Support Vector Machine)

Trang 69

NHẬN XÉT

Tại Confusion Matrix, ta thấy mô hình Hồi quy logistic (Logistic Regression) có sai lầm loại 1 là 30,9% và sai lầm loại 2 là 10,1%

Và tỷ lệ sai lầm loại 1 và sai lầm loại 2 ở phương pháp này cũng đạt giá trị thấp nhất Nên phương pháp

Hồi quy logistic (Logistic Regression) là phù hợp nhất.

Trang 72

Quan sát 2 hình thể hiện đường cong ROC của biến target, ta thấy mô hình Hồi quy logistic (Logistic Regression) có

đường cong tiệm cận với điểm (0;1)

nhất, mà một mô hình càng hiệu quả khi

có FPR và TPR thấp, hay đường cong ROC càng tiệm cận với điểm (0;1) Nên

mô hình này hiệu quả nhất.

Nhận xét

Trang 73

Từ các kết quả thu được, phương pháp Hồi quy logistic (Logistic

Regression) là phương

pháp tốt nhất

Trang 74

Kết quả mô hình

Bước 2.2: Phân lớp dữ liệu mới

Sử dụng mô hình Hồi quy logistic (Logistic Regression) để dự báo

cho tập dữ liệu Employee Attrition_forecast

Trang 75

Kết quả mô hình

Bước 2.2: Phân lớp dữ liệu mới

Sử dụng Prediction để dự báo dữ liệu theo phương pháp Hồi quy

logistic (Logistic Regression)

Trang 76

ĐÁNH GIÁ KẾT QUẢ

CỦA MÔ HÌNH

04

Trang 77

Bảng tổng hợp

Random Sampling Cross Validation

20 – 80% 50 – 90% 5 folds 10 folds

Tính chính xác (CA) 88,5% 89,1% 88,1% 87,9% Giá trị trung bình điều hòa (F1) 87,1% 87,9% 86,8% 86,7%

Độ chính xác (Precision) 87,3% 88,1% 86,9% 86,7%

Độ phủ (Recall) 88,5% 89,1% 88,1% 87,9% Diện tích dưới đường cong ROC

(AUC)

0,830 0,824 0,827 0,831

Kết luận: Chọn mô hình Hồi quy logistic là phù hợp

nhất

Trang 79

Alternative Resources

Find more illustrations like these on Stories by Freepik

Ngày đăng: 08/05/2024, 15:57

HÌNH ẢNH LIÊN QUAN

Bảng tổng hợp - employee attrition các phường pháp excel và phần mềm orange
Bảng t ổng hợp (Trang 77)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w