Phân tích cơ sở dữ liệu attrition train dựa trên phần mềm orange

Từ việc tìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựng các thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích

Trang 1

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ

KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU

Đề tài: PHÂN TÍCH CƠ SỞ DỮ LIỆU ATTRITION - TRAIN

DỰA TRÊN PHẦN MỀM ORANGE

GVHD: TS.GVC Nguyễn Quốc Hùng

Nhóm thực hiện: 2

Đoàn Minh Khiêm (Trưởng nhóm)

Nguyễn Võ Đức Minh Nguyễn Thuỳ Dương Trần Việt Nhật Phạm Minh Quang

TP Hồ Chí Minh, Tháng 5/2023

Trang 2

MỤC LỤC

LỜI MỞ ĐẦU 6

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 8

1.1 Giới thiệu về khoa học dữ liệu 8

1.2 Tổng quan về khoa học dữ liệu 8

1.3 Sự hình thành và phát triển của khoa học dữ liệu 9

1.4 Ứng dụng của khoa học dữ liệu 10

1.5 Lý do chọn đề tài 15

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 16

2.1 Các phương pháp sử dụng Excel để khai thác dữ liệu: 16

2.1.1 Phương pháp thống kê mô tả 16

2.1.2 Phân tích dự báo 21

2.1.3 Phân tích tối ưu 25

2.2 Phần mềm Orange 27

2.2.1 Tổng quan về phần mềm Orange 27

2.2.2 Phương pháp phân cụm dữ liệu - Clustering 52

2.2.3 Phương pháp phân lớp dữ liệu 53

2.2.4 So sánh hai phương pháp: phân cụm và phân lớp dữ liệu 53

Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 54

3.1 Phân tích dữ liệu 54

3.1.1 Tiền xử lý dữ liệu 54

3.1.2 Description - mô tả dữ liệu Attrtion - Train 57

3.1.3 Thống kê mô tả dữ liệu Attrition - Train 58

3.2 Phân lớp dữ liệu 61

3.2.1 Một số phương pháp phân lớp 61

3.2.2 Kết quả mô hình 62

3.3 Dự báo 100 mẫu bất kì 67

3.4 Đánh giá kết quả của mô hình 68

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69

TÀI LIỆU THAM KHẢO 70

Trang 3

DANH MỤC HÌNH ẢNH

Hình 1.1 "Ứng dụng khoa học dữ liệu trong quảng cáo và tiếp thị" 11

Hình 1.2 "Ứng dụng khoa học dữ liệu trong tài chính và ngân hàng" 11

Hình 1.3 "Ứng dụng khoa học dữ liệu trong y tế" 12

Hình 1.4 "Ứng dụng khoa học dữ liệu trong giao thông vận tải" 12

Hình 1.5 "Ứng dụng khoa học dữ liệu trong E-commerce và bán lẻ" 12

Hình 1.6 "Ứng dụng khoa học dữ liệu trong Công nghiệp và sản xuất" 13

Hình 1.7 "Ứng dụng khoa học dữ liệu trong lĩnh vực xã hội và chính phủ" 13

Hình 1.8 "Ứng dụng khoa học dữ liệu trong giải trí và truyền thông" 13

Hình 1.9 "Ứng dụng khoa học dữ liệu trong nghiên cứu khoa học" 14

Hình 1.10 "Ứng dụng khoa học dữ liệu trong tìm kiếm thông tin" 14

Hình 2.1 Vị trí Subtotal 17

Hình 2.2 Hộp thoại Subtotal 18

Hình 2.3 Vị trí Consolidate 18

Hình 2.4 Vị trí PivotTable 19

Hình 2.5 Hộp thoại Create PivotTable 20

Hình 2.6 Hộp thoại PivotTable Fields 20

Hình 2.7 Hộp thoại Moving Average 21

Hình 2.8 Hộp thoại Exponential Smoothing 22

Hình 2.9 Vị trí Scatter 23

Hình 2.10 Vị trí Add Trendline 23

Hình 2.11 Hộp thoại Regression 24

Hình 2.12 Bảng tính 25

Hình 2.13 Vị trí Solver 25

Hình 2.14 Hộp thoại Solver Parameters 26

Hình 2.15 Hộp thoại Solver Results 26

Hình 2.16 Kết quả giải mô hình 27

Hình 2.17 Orange 27

Hình 2.18 Màn hình Orange 28

Hình 2.19 Nhóm Data trong Orange 29

Hình 2.20 Xuất file từ tệp có sẵn trên máy tính 29

Hình 2.21 Hình minh họa Columns (Double click to edit) 30

Hình 2.22 Hình minh họa SQL Table 31

Hình 2.23 Hình minh họa Data Table 32

Hình 2.24 Hình minh họa Paint Orange 33

Hình 2.25 Hộp thoại Data Info 33

Hình 2.26 Hình minh họa Edit Domain 34

Hình 2.27 Hình minh họa Color - Orange 34

Hình 2.28 Hình minh họa Feature Statistics 35

Hình 2.29 Transform trong Orange 35

Hình 2.30 Hình minh họa về Data Sample 36

Hình 2.31 Hình minh họa Pivot Table 38

Hình 2.32 Vizualize trong Orange 41

Hình 2.33 Model trong Orange 45

Hình 2.34 Unsupervized trong Orange 49

Hình 2.35 Hình minh họa về phân cụm dữ liệu 52

Hình 3.1: Các bước tiền xử lý dữ liệu 54

Hình 3.2: Giao diện Datasets dùng để nạp dữ liệu Attrition - Train 54

Trang 4

Hình 3.3: Dữ liệu Attrition - Train 54

Hình 3.4 Giao diện Select Columns 55

Hình 3.5 Giao diện của Preprocess để tiền xử lý dữ liệu bị thiếu 56

Hình 3.6 Dữ liệu Attrition - Train đã được tiền xử lý từ Select Columns và Preprocess .56 Hình 3.7 Giao diện Save Data 57

Hình 3.8 "Biểu đồ tròn thể hiện tỷ lệ đi công tác của 1470 đối tượng" 58

Hình 3.9 "Biểu đồ tròn thể hiện tỷ lệ khoảng cách từ nhà đến công ty" 59

Hình 3.10 "Biểu đồ tròn thể hiện về tình trạng hôn nhân" 60

Hình 3.11 "Biểu đồ tròn thể hiện tổng số năm làm việc" 61

Hình 3.12 "Biểu đồ tròn thể hiện số năm làm việc tại công ty" 61

Hình 3.13 Giới thiệu phân lớp dữ liệu 62

Hình 3.14 Lấy mẫu từ dữ liệu 62

Hình 3.15 Mẫu dữ liệu huấn luyện 63

Hình 3.16 Tập dữ liệu huấn luyện 64

Hình 3.17 Mô hình so sánh các thuật toán 64

Hình 3.18 "Bảng kết quả từ Test and Score" 64

Hình 3.19 Mô hình ma trận nhầm lẫn 65

Hình 3.20 "Kết quả ma trận nhầm lẫn của phương pháp Tree (Cây quyết định)" 65

Hình 3.21" Kết quả ma trận nhầm lẫn của phương pháp hồi quy Logistic Regression" 65

Hình 3.22 "Kết quả ma trận nhầm lẫn của phương pháp SVM" 66

Hình 3.23 Đường cong ROC 66

Hình 3.24 Lấy 100 mẫu từ dữ liệu 67

Hình 3.25 "Mô hình dự báo 100 mẫu dữ liệu" 68

Hình 3.26 "Kết quả dự báo của 100 mẫu dữ liệu" 68

Trang 5

DANH MỤC BẢNG

Bảng 2.1 Các chức năng trong nhóm Model 45

Bảng 2.2 Các chức năng trong nhóm Evaluate 48

Bảng 2.3 Các chức năng của nhóm Unsupervised 50

Bảng 3.1 Ý nghĩa của các biến 57

Bảng 3.2 Tần số và tần suất của việc đi công tác 58

Bảng 3.3 Khoảng cách từ nhà tới công ty 59

Bảng 3.4: Tình trạng hôn nhân 59

Bảng 3.5: Tổng số năm làm việc 60

Bảng 3.6: Số năm làm việc tại công ty 61

Trang 6

LỜI MỞ ĐẦU

Kính gửi thầy Nguyễn Quốc Hùng

Đầu tiên, chúng em xin gửi đôi lời cảm ơn vì đã được dự học phần môn khoa học dữ liệu củathầy Tuy thời lượng của học phần không nhiều nhưng với những kiến thức quý giá mà thầy đãtruyền đạt cho chúng em, chúng em đã hiểu hơn về vai trò và lợi ích của Khoa học dữ liệu đốivới đời sống chúng ta hiện nay Khoa học dữ liệu - một lĩnh vực hứa hẹn của thời đại số hóa vàcông nghệ thông tin - đã nhanh chóng trở thành một ngành công nghiệp đang phát triển mạnh

mẽ và có tầm ảnh hưởng rộng lớn Với sự tiến bộ của công nghệ và khối lượng dữ liệu khổng

lồ được tạo ra hàng ngày, khai thác và phân tích thông tin đã trở thành một nhiệm vụ cực kỳquan trọng và cần thiết cho sự phát triển của các tổ chức và xã hội Khoa học dữ liệu không chỉđơn thuần là việc thu thập dữ liệu và xử lý số liệu, mà còn là một quy trình sáng tạo và phântích sâu sắc để khám phá các tri thức tiềm ẩn và đưa ra những quyết định thông minh Từ việctìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựngcác thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích và sửdụng thông tin để tạo ra giá trị thực tế Và để đi sâu hơn vào vấn đề này, nhóm chúng em đãlựa chọn đề tài Atrition - Training và phân tích các cơ sở dữ liệu thông qua phần mềm Orange

"Attrition" (hay còn được gọi là "employee attrition" hoặc "staff attrition") ám chỉ tỷ lệ nhânviên rời bỏ tự nguyện hoặc bị sa thải khỏi một tổ chức trong một khoảng thời gian nhất định.Attrition có thể xảy ra vì nhiều lý do, bao gồm các cơ hội việc làm tốt hơn, không hài lòng vớimôi trường làm việc, tiến cử nâng lương/khuyến khích không đủ, hoặc các vấn đề cá nhân

"Training" (đào tạo) đề cập đến quá trình cung cấp kiến thức, kỹ năng và năng lực cho nhânviên trong một tổ chức Mục tiêu của quá trình đào tạo là giúp nhân viên làm việc hiệu quảhơn, đáp ứng yêu cầu công việc và nâng cao sự phát triển chuyên môn của họ

Attrition và training là hai khái niệm quan trọng trong quản lý nhân sự, vì quản lý attrition giúp

tổ chức hiểu và giải quyết các vấn đề liên quan đến sự rời bỏ của nhân viên, trong khi traininggiúp xây dựng và nâng cao năng lực của nhân viên để đáp ứng yêu cầu công việc và mục tiêu

tổ chức

Trong đồ án này, đầu tiên chúng em sẽ giới thiệu lý thuyết tổng quan và khoa học dữ liệu và lý

do chọn đề tài và phần tiếp theo chúng em sẽ ứng dụng các phương pháp để xử lý dữ liệu về đềtài thông qua phần mềm Orange và phần cuối sẽ là tổng kết, đánh giá kết quả và đưa ra cácphương hướng phát triển cho tương lai

Trang 7

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN

DANH SÁCH THÀNH VIÊN NHÓM 2

Đoàn Minh Khiêm

(Trưởng nhóm) - Tìm bộ dữ liệu, thảo luận đề tài.- Xử lý dữ liệu trên Orange

Nguyễn Võ Đức Minh - Tìm bộ dữ liệu, thảo luận đề tài

- Xử lý dữ liệu trên Orange

- Chương 3,4

100%Nguyễn Thuỳ Dương - Tìm bộ dữ liệu, thảo luận đề tài

Trang 8

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI

THIỆU ĐỀ TÀI

1.1 Giới thiệu về khoa học dữ liệu

- Dữ liệu (Data) là tập hợp các thông tin, sự kiện, số liệu hoặc các yếu tố khác được thu thập, lưu trữ và sử dụng để cung cấp thông tin cho mục đích nghiên cứu, phân tích, quản

lý hoặc ra quyết định Dữ liệu có thể được biểu diễn dưới dạng số học, văn bản, hình ảnh,

âm thanh, video hoặc bất kỳ hình thức nào khác

- Dữ liệu có thể được chia thành hai loại chính:

• Dữ liệu cấu trúc: Đây là dữ liệu được tổ chức theo một cấu trúc đã được xác định trước, thường được lưu trữ trong cơ sở dữ liệu quan hệ hoặc bảng tính Dữ liệu cấu trúc

có các trường và mục tiêu rõ ràng, và có thể được truy xuất và xử lý bằng các công cụ phân tích dữ liệu và ngôn ngữ truy vấn

• Dữ liệu phi cấu trúc: Đây là dữ liệu không tuân theo một cấu trúc rõ ràng hoặc không được tổ chức theo mô hình dữ liệu truyền thống Dữ liệu phi cấu trúc thường được lưu trữ dưới dạng văn bản, tệp tin, email, thông tin từ mạng xã hội và các nguồn dữ liệu không đồng nhất khác Việc trích xuất thông tin từ dữ liệu phi cấu trúc có thể phức tạp hơn và đòi hỏi các phương pháp và công nghệ đặc biệt

Dữ liệu có vai trò quan trọng trong nhiều lĩnh vực, bao gồm khoa học, kinh doanh, y tế, giáo dục, công nghệ và xã hội Qua việc phân tích và khai thác dữ liệu, chúng ta có thể tìm ra thông tin, mô hình và kiến thức mới, từ đó đưa ra quyết định, dự đoán xu hướng, phát hiện các mối liên hệ và tạo ra giá trị thực tiễn Tuy nhiên, việc làm việc với dữ liệu cũng đòi hỏi quy trình chuẩn bị, xử lý, bảo mật và đảm bảo tính chính xác và đáng tin cậy của dữ liệu

1.2 Tổng quan về khoa học dữ liệu

Khoa học dữ liệu (Data Science) là một lĩnh vực tương đối mới mẻ nhưng phát triển nhanh chóng trong thời đại số hóa hiện nay Nó kết hợp các phương pháp, công cụ và kỹ thuật từ các lĩnh vực như thống kê, toán học, máy học và khoa học máy tính để nghiên cứu và hiểu sâu về dữ liệu, phân tích thông tin và rút ra những hiểu biết quan trọng.Mục tiêu chính của khoa học dữ liệu là khám phá, hiểu và tìm hiểu các mô hình, quy luật,

xu hướng hoặc thông tin ẩn chứa trong dữ liệu Khoa học dữ liệu đặt nền tảng cho việc áp dụng kiến thức toán học, thống kê và lập trình để xử lý, phân tích và trực quan hóa dữ liệu.Quá trình này bao gồm các bước:

Trang 9

• Thu thập dữ liệu: Khoa học dữ liệu bắt đầu bằng việc thu thập dữ liệu từ các nguồn khác nhau như cơ sở dữ liệu, tệp tin, trang web, hoặc các nguồn dữ liệu công cộng Dữ liệu có thể là số liệu, văn bản, hình ảnh, âm thanh, hoặc dữ liệu từ cảm biến.

• Tiền xử lý dữ liệu: Sau khi thu thập dữ liệu, nó cần được tiền xử lý để làm sạch và chuẩn hóa Các bước tiền xử lý có thể bao gồm loại bỏ dữ liệu lỗi, điền giá trị thiếu, chuẩn hóa đơn vị đo, và loại bỏ nhiễu

• Phân tích và khám phá dữ liệu: Khi dữ liệu đã được tiền xử lý, các phương pháp thống

kê và khai phá dữ liệu được áp dụng để tìm hiểu thông tin bên trong Đây bao gồm việc tạo các biểu đồ, phân tích tương quan, phát hiện mô hình và quy luật ẩn trong dữ liệu

• Xây dựng mô hình dữ liệu: Khi đã có hiểu biết về dữ liệu, các mô hình dữ liệu có thể được xây dựng để dự đoán, phân loại hoặc tìm ra các kết quả dựa trên dữ liệu Các phương pháp máy học và học sâu (deep learning) thường được sử dụng để xây dựng các

mô hình này

• Đánh giá và triển khai mô hình: Mô hình dữ liệu được đánh giá bằng cách sử dụng cácphương pháp đo lường hiệu suất như độ chính xác, độ phân loại hay sai số Sau đó, mô hình được triển khai để áp dụng vào thực tế và sản xuất kết quả

1.3 Sự hình thành và phát triển của khoa học dữ liệu

Khoa học dữ liệu bắt đầu xuất hiện và phát triển từ những năm 1960 và 1970, khi các nhànghiên cứu và nhà toán học bắt đầu tìm hiểu cách sử dụng dữ liệu để phân tích và rút rathông tin hữu ích Trong giai đoạn đầu, các phương pháp thống kê truyền thống như hồiquy và phân tích biến thể được sử dụng để xử lý dữ liệu

Tuy nhiên, sự phát triển mạnh mẽ của công nghệ và internet đã mở ra cánh cửa cho sựtăng trưởng và phát triển vượt bậc của khoa học dữ liệu Việc thu thập dữ liệu trở nên dễdàng hơn với sự gia tăng của cơ sở dữ liệu và công nghệ thu thập dữ liệu như cảm biến vàthiết bị kết nối mạng Đồng thời, sự tiến bộ trong lĩnh vực phần cứng và phần mềm đãcung cấp khả năng xử lý và lưu trữ dữ liệu lớn

Một sự đột phá quan trọng trong khoa học dữ liệu là sự phát triển của học máy và họcsâu Thuật toán học máy đã cho phép xây dựng các mô hình dự đoán và phân loại từ dữliệu một cách tự động và chính xác hơn Học sâu, đặc biệt là mạng nơ-ron sâu, đã đạtđược những thành tựu đáng kể trong việc xử lý dữ liệu phức tạp như hình ảnh, ngôn ngữ

tự nhiên và giọng nói

Trang 10

Ngoài ra, cộng đồng khoa học dữ liệu đã phát triển các công cụ và ngôn ngữ lập trìnhnhư Python và R, cung cấp cho các nhà khoa học dữ liệu và nhà phân tích dữ liệu cáccông cụ mạnh mẽ để thực hiện các tác vụ xử lý dữ liệu và phân tích.

Sự phát triển của khoa học dữ liệu cũng đã tạo ra sự gia tăng về nhận thức và ý thức vềgiá trị của dữ liệu Các công ty và tổ chức hiện nay đang tập trung vào việc thu thập và sửdụng dữ liệu để đưa ra quyết định thông minh và tạo ra lợi ích kinh tế

Từ đó, có một sự tăng cường về việc đào tạo và hình thành các chương trình học và cácngành nghề liên quan đến khoa học dữ liệu Các trường đại học và tổ chức đào tạo đã đưa

ra chương trình học về khoa học dữ liệu, phân tích dữ liệu, học máy và học sâu để đápứng nhu cầu ngày càng tăng về chuyên gia trong lĩnh vực này

Ngoài ra, cộng đồng khoa học dữ liệu cũng đã hình thành và phát triển mạnh mẽ Các hộithảo, hội nghị và cộng đồng trực tuyến đã trở thành nơi giao lưu, chia sẻ kiến thức vàthúc đẩy sự phát triển của khoa học dữ liệu Các nhà nghiên cứu, nhà khoa học dữ liệu vàcác chuyên gia từ các ngành nghề khác nhau có thể cùng nhau làm việc để giải quyết cácvấn đề phức tạp và tạo ra những đóng góp đáng kể cho xã hội

Trong tương lai, sự phát triển của khoa học dữ liệu dự kiến sẽ tiếp tục Công nghệ nhưTrí tuệ nhân tạo (AI), Internet of Things (IoT) và Blockchain sẽ mang đến những cơ hộimới và thách thức mới cho lĩnh vực này Sự kết hợp của các công nghệ này với khoa học

dữ liệu có thể mở ra tiềm năng lớn trong việc nắm bắt thông tin, dự đoán xu hướng vàđưa ra quyết định thông minh

Tóm lại, khoa học dữ liệu đã trải qua một quá trình hình thành và phát triển đáng kểtrong thập kỷ qua Sự tiến bộ về công nghệ, phần cứng và phần mềm đã tạo ra những cơhội mới và thay đổi cách chúng ta tiếp cận và sử dụng dữ liệu Sự phát triển này cũngđang tạo ra nhiều cơ hội nghề nghiệp và có ảnh hưởng đáng kể đến nhiều ngành nghề vàlĩnh vực

1.4 Ứng dụng của khoa học dữ liệu

Khoa học dữ liệu có rất nhiều ứng dụng trong các lĩnh vực khác nhau Dưới đây là một số

ví dụ tiêu biểu về ứng dụng của khoa học dữ liệu:

1 Quảng cáo và tiếp thị: Khoa học dữ liệu được sử dụng để phân tích dữ liệu từ các chiến dịch quảng cáo và tiếp thị để hiểu hành vi của khách hàng, dự đoán xu hướng và tùy chỉnh chiến lược quảng cáo Điều này giúp tăng cường hiệu quả của các chiến dịch quảng cáo và tạo ra trải nghiệm tốt hơn cho khách hàng

Trang 11

Hình 1.1 Ứng dụng khoa học dữ liệu trong quảng cáo và tiếp thị

2 Tài chính và ngân hàng: Khoa học dữ liệu có thể được sử dụng để phân tích dữ liệu tài chính và dự báo xu hướng thị trường Nó cung cấp cho các tổ chức tài chính và ngân hàng những thông tin quan trọng để đưa ra quyết định về đầu tư, rủi ro và chiến lược kinhdoanh

Hình 1.2 Ứng dụng khoa học dữ liệu trong tài chính và ngân hàng

3 Y tế: Khoa học dữ liệu đóng vai trò quan trọng trong việc phân tích dữ liệu y tế để đưa

ra dự đoán và chẩn đoán bệnh, tối ưu hóa quy trình chăm sóc sức khỏe và nghiên cứu mới

về dược phẩm và điều trị Nó cũng có thể được sử dụng để theo dõi và dự đoán xu hướng dịch bệnh và đưa ra các biện pháp phòng ngừa

Trang 12

Hình 1.3 Ứng dụng khoa học dữ liệu trong y tế

4 Giao thông và vận tải: Khoa học dữ liệu giúp phân tích và dự đoán tình trạng giao thông, tối ưu hóa lộ trình, dự báo nhu cầu và quản lý chuỗi cung ứng trong lĩnh vực vận tải Nó có thể giúp giảm ùn tắc giao thông, tăng cường an toàn và cải thiện hiệu suất vận chuyển

Hình 1.4 Ứng dụng khoa học dữ liệu trong giao thông vận tải

5 E-commerce và bán lẻ: Khoa học dữ liệu được sử dụng trong việc phân tích hành

vi mua hàng của khách hàng, dự đoán xu hướng mua sắm và cá nhân hóa trải nghiệm mua hàng trực tuyến Các công ty e-commerce và bán lẻ sử dụng khoa học

dữ liệu để tối ưu hóa quy trình đặt hàng, quản lý kho và phân phối

Hình 1.5 Ứng dụng khoa học dữ liệu trong E-commerce và bán lẻ

6 Công nghiệp và sản xuất: Khoa học dữ liệu được áp dụng trong quản lý và tối ưu hóa hoạt động sản xuất và quy trình công nghiệp Nó giúp phân tích dữ liệu từ các cảm biến và hệ thống giám sát để dự đoán sự cố và tối ưu hóa hiệu suất của các máy móc và thiết bị Khoa học dữ liệu cũng đóng vai trò quan trọng trong việc quản lý chuỗi cung ứng, từ dự đoán nhu cầu và lập kế hoạch sản xuất đến quản lý hàng tồn kho và vận chuyển

Trang 13

Hình 1.6 Ứng dụng khoa học dữ liệu trong Công nghiệp và sản xuất

7 Lĩnh vực xã hội và chính phủ: Khoa học dữ liệu có thể được sử dụng để phân tích dữ liệu xã hội và chính phủ để hiểu hành vi của người dân, dự đoán xu hướng và đưa ra các biện pháp cải thiện chính sách công cộng Nó có thể được sử dụng trong việc quản lý đô thị thông minh, phân tích dữ liệu dân số và sức khỏe, dự báo tình trạng môi trường và phân tích dữ liệu bầu cử

Hình 1.7 Ứng dụng khoa học dữ liệu trong lĩnh vực xã hội và chính phủ

8 Giải trí và truyền thông: Khoa học dữ liệu đóng vai trò quan trọng trong việc phân tích dữ liệu người dùng và phản hồi từ khán giả để cung cấp trải nghiệm giải trí tốt hơn

Nó có thể được sử dụng để cá nhân hóa nội dung, gợi ý và đề xuất nội dung, dự đoán xu hướng và quản lý quy trình sản xuất nội dung truyền thông

Hình 1.8 Ứng dụng khoa học dữ liệu trong giải trí và truyền thông

Trang 14

9 Nghiên cứu khoa học: Khoa học dữ liệu cung cấp phương pháp và công cụ để phân tích và khai thác dữ liệu trong lĩnh vực nghiên cứu Nó giúp các nhà nghiên cứu thu thập,

xử lý và phân tích dữ liệu để đưa ra những phát hiện mới, kiểm chứng giả định và đưa ra kết luận khoa học

Hình 1.9 Ứng dụng khoa học dữ liệu trong nghiên cứu khoa học

Tổng quát, khoa học dữ liệu có ứng dụng rộng rãi và ảnh hưởng sâu rộng trong nhiều lĩnh vực của xã hội và kinh tế Việc sử dụng khoa học dữ liệu mang lại lợi ích vượt trội bằng việc tăng cường hiệu quả, đưa ra quyết định thông minh và tạo ra giá trị đáng kể cho

tổ chức và xã hội

Hình 1.10 Ứng dụng khoa học dữ liệu trong tìm kiếm thông tin

Trang 15

1.5 Lý do chọn đề tài

Từng là một vấn đề quan trọng trong các tổ chức và doanh nghiệp, attrition-training (thấtthoát sau đào tạo) là hiện tượng mà nhân viên rời bỏ công ty sau khi hoàn thành quá trìnhđào tạo Điều này gây ra một loạt hậu quả tiêu cực, bao gồm sự mất mát kiến thức và kỹnăng, tốn kém tài nguyên và tạo ra sự không ổn định trong tổ chức

Attrition-training có thể xảy ra vì nhiều lý do Một trong những nguyên nhân chính là sựthiếu quan tâm và không đáp ứng đúng nhu cầu của nhân viên sau quá trình đào tạo Khinhân viên không nhận được sự hỗ trợ và sự phát triển liên tục sau khi hoàn thành khóađào tạo, họ có thể cảm thấy bị bỏ rơi và thiếu sự động lực để ở lại

Thêm vào đó, môi trường làm việc không thân thiện và thiếu cơ hội thăng tiến cũng cóthể góp phần vào attrition-training Nếu nhân viên cảm thấy không được công nhận vàkhông có tiến bộ trong sự nghiệp, họ có thể quyết định tìm kiếm cơ hội mới ở nơi khác.Bài đồ án mà chúng em sẽ trình bày dưới đây sẽ nêu ra các vấn đề, nguyên nhân khiếncác nhân viên nghỉ việc, rời bỏ công ty để từ đó tổng kết lại và đưa ra các phương ánthích hợp để giảm thiểu atrition - training trong tương lai

Trang 16

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

2.1 Các phương pháp sử dụng Excel để khai thác dữ liệu:

Excel là công cụ vô cùng mạnh mẽ để xử lý các lượng dữ liệu lớn Tuy nhiên Excel cũng hoạt động thực sự tốt đối với các phép tính toán đơn giản và theo dõi hầu như bất kỳ loại thông tin nào Điểm mấu chốt để giải phóng tất cả những tiềm năng đó là mạng lưới các

ô Các ô có thể chứa số, văn bản hay công thức

2.1.1 Phương pháp thống kê mô tả

“Value1”: Là “tham chiếu ô hoặc dãy ô có chứa giá trị số mà bạn muốn đếm.”

“Value2”: Là “tham chiếu ô hoặc dãy ô bổ sung có chứa giá trị số mà bạn muốn đếm.”

“Value1”: “Là tham chiếu ô hoặc dãy ô có chứa giá trị mà bạn muốn đếm.”

“Value2”: “Là tham chiếu ô hoặc dãy ô bổ sung có chứa giá trị mà bạn muốn đếm.”

“range”: “Vùng dữ liệu có chứa giá trị mà bạn muốn thống kê”

“criteria”: “Điều kiện để lọc đếm kết quả trong vùng dữ liệu.”

“Criteria_range1”: “Vùng dữ liệu có chứa giá trị mà bạn muốn thống kê”

“Criteria1”: “Điều kiện để lọc đếm kết quả trong criteria_range1”

“Criteria_range2, criteria2, …”: “Vùng dữ liệu và điều kiện bổ sung”

5 Hàm COUNTBLANK

Công dụng: Hàm COUNTBLANK là hàm đếm số lượng ô trống trong một vùng dữ liệu

Công thức:

“=COUNTBLANK(Range).”

Trang 17

“Range”: Là “vùng dữ liệu mà bạn muốn xét điều kiện.”

“Criteria”: “Điều kiện để xét các ô cần tính tổng.”

“Sum_range”: “Tính tổng vùng dữ liệu có dữ liệu phù hợp với điều kiện.”

“Sum_range”: Là “vùng dữ liệu mà bạn muốn tính tổng.”

“Criteria_range1”: Là “vùng dữ liệu mà bạn muốn xét điều kiện.”

“Criteria1”: “Điều kiện để xét các ô trong criteria_range1.”

“Criteria_range2, criteria2, ”: Là “vùng dữ liệu và điều kiện bổ sung để xác định giá trị cần tính tổng.”

“Number”: Là “giá trị mà bạn muốn xếp hạng”

“Ref”: Là “vùng dữ liệu có chứa giá trị mà bạn muốn biết thứ hạng của giá trị đó”

“Order”: Là “kiểu sắp xếp tăng dần hoặc giảm dần Trường hợp order=0 (mặc địnhnếu bỏ qua) thì giá trị so với vùng dữ liệu sẽ được sắp xếp theo thứ tự giảm dần Ngược lại nếu khác 0 thì sắp xếp tăng dần”

“number1”: Là “giá trị đầu tiên để tính trung bình.”

“number2”: Là “giá trị thứ 2 để tính trung bình.”

“numbern”: Là “giá trị cuối cùng để tính trung bình.”

2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal

1 Vị trí: Subtotal nằm ở thẻ Data, nhóm Outline

Hình 2.1 Vị trí Subtotal

Trang 18

2 Công dụng: “Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình, … Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm”

Bước 1: Chọn toàn bộ bảng tính

Bước 2: Chọn Subtotal Một hộp thoại sẽ hiện ra:

Hình 2.2 Hộp thoại SubtotalTrong đó:

At each change in: Điền điều kiện cần xét

Use function: Điền hàm được sử dụng hay phương thức thống kê

Add subtotal to: Điền vùng áp dụng cho hàm ở trên

Ngoài ra:

Replace current subtotal: Nếu đã tồn tại trước đó một subtotal, nó sẽ thay thế bằng subtotal mới

Page break between groups: Tùy chọn này giúp cho mỗi nhóm của at each change

in được nằm trong một trang khác nhau

Summary below data: Đưa function xuống dưới các nhóm Nếu bỏ chọn ô này, kết quả sẽ không mất, mà đưa lên đầu

2.1.1.3 Hợp nhất dữ liệu với Consolidate

Yêu cầu:

“Mỗi dãy (tập dữ liệu) bạn muốn hợp nhất nằm trên một bảng tính riêng biệt.”

“Không đặt bất kỳ dữ liệu nào trên bảng tính mà bạn muốn hợp nhất.”

“Mỗi trang có cùng bố cục, mỗi cột có tiêu đề và chứa dữ liệu tương tự.”

“Không có hàng hoặc cột trống trong bất kỳ danh sách nào.”

Vị trí: Data → Data Tools → Consolidate

Hình 2.3 Vị trí Consolidate

Trang 19

Công dụng: Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:

Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc

Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc

Chú ý: “Bạn nên hợp nhất dữ liệu vào một trang trống Nếu bảng tính chính của bạn đã

có một số dữ liệu, đảm bảo có đủ không gian (các hàng và cột trống) để chứa dữ liệu được hợp nhất.”

Ngoài ra:

“Chọn Top row và / hoặc Left column phía dưới Use labels in nếu muốn sao chép tên hàng và / hoặc tên cột từ các trang tính gốc vào trang hợp nhất.”

“Chọn Create links to source data nếu muốn dữ liệu hợp nhất cập nhật tự động khi

dữ liệu nguồn thay đổi.”

2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable

Lưu ý: “Nguồn dữ liệu để tạo PivotTable có thể là một cơ sở dữ liệu của Excel hay từ nguồn dữ liệu bên ngoài (như MS Access, MS SQL Server, …)”

Cách thực hiện trên Excel:

Bước 1: “Click vào ô bất kỳ trên cơ sở dữ liệu.”

Bước 2: “Chọn lệnh Insert → PivotTable.”

Hình 2.4 Vị trí PivotTable

Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa PivotTable, click nút OK

Trang 20

Hình 2.5 Hộp thoại Create PivotTable

Bước 4: “Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS, ROWS, COLUMNS và VALUES.”

Hình 2.6 Hộp thoại PivotTable FieldsHiệu chỉnh PivotTable

1 “Thay đổi tên Field”

“PivotTable tự tạo ra các ô có nền đậm khi thả các field vào vùng layout.”

“Nội dung trong các ô này được tạo tự động dựa theo tên field và nơi bố trí.”

Có thể gõ lại nội dung để báo cáo rõ ràng hơn

2 Sắp xếp

Bấm vào mũi tên bên phải của nhãn dòng hoặc cột muốn sắp xếp

Bấm vào tùy chọn sắp xếp

3 Thay đổi phép tổng hợp dữ liệu

Nhấn mũi tên tên xổ xuống cạnh field cần định dạng trong khu vực ValuesChọn Value Field Settings trong danh sách mở ra

Chọn phương thức xử lý trong mục Summarize value field by

Trang 21

2.1.2 Phân tích dự báo

2.1.2.1 Phương pháp Moving Average

Phương pháp Moving Average là phương pháp tính giá trị trung bình dựa trên các biến động của giá trị thêm bớt vào dãy số trong một khoảng thời gian nhất định

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại Moving Average

Hình 2.7 Hộp thoại Moving Average

Bước 3: Khai báo các thông số Input và Output Options

Trong đó:

Input Range: tham chiếu đến vùng dữ liệu thực tế

Labels in First Row: Khai báo hàng đầu tiên của input range có chứa tiêu đề cột hay không

Interval: số lượng các kỳ trước đó muốn tính (w)

Output Range: tham chiếu đến vùng xuất kết quả Những ô không đủ số lượng các giá trị trước đó để tính toán sẽ nhận giá trị #N/A

Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả.Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn

2.1.2.2 Phương pháp San bằng mũ (Exponential Smoothing)

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Bước 2: Chọn lệnh Data → Data Analysis→ Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing

Trang 22

Hình 2.8 Hộp thoại Exponential Smoothing

Trong đó:

Input Range: tham chiếu đến vùng dữ liệu thực tế

Damping factor: giá trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a) = 0.7

Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay không.2.1.2.3 Phương pháp Hồi quy (Regression)

Phân tích hồi quy là “nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi

là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích)”

Cách thực hiện bằng Hàm trong Excel:

“Const là hằng số Ngầm định nếu const = 1 (True) thì hồi quy theo hàm y = a +

bx, nếu const = 0 (False) thì hồi quy theo hàm y = bx.”

“known_y’s là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc quan sát được.”

“known_x’s là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập quan sát được”

Hàm SLOPE

Công dụng: “Dùng để tính hệ số b của phương trình hồi quy đơn tuyến tính”

Công thức: “SLOPE(known_y’s, known_x’s)”

Trong đó:

Hàm CORREL

Công dụng: “Dùng để tính hệ số tương quan giữa X và Y”

Công thức: “CORREL(array1,array2)”

Trong đó:

Trang 23

“array1, array2 tương ứng là tập số liệu phụ thuộc và tập số liệu độc lập quan sát được.”2.1.2.4 Cách thực hiện bằng đồ thị:

Bước 1: “Chuẩn bị bảng số dữ liệu cần dự báo”

Bước 2: “Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc lập X”

“Display Equation on chart”

“Display R-squared value on chart”

2.1.2.5 Cách thực hiện bằng công cụ Regression:

Bước 1: “Chuẩn bị bảng số dữ liệu cần dự báo”

Bước 2: “Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại Regression”

Trang 24

Hình 2.11 Hộp thoại Regression

Trong đó:

Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y

Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều biến X trong trường hợp hồi quy đa biến)

“Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi quy.”Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi quy tuyến tính a = 0

“Confidence Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1-α, với α là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng.”

Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả

New Worksheet Ply: In kết quả ra một sheet khác

New Workbook: In kết quả ra một file Excel mới

Residuals: Sai số do ngẫu nhiên

Standardized Residuals: Chuẩn hóa sai số

Residuals Plots: Đồ thị sai số

Line Fit Plots: Đồ thị hàm hồi quy tuyến tính

Normal Probability Plots: Đồ thị xác suất phân phối chuẩn

Trang 25

2.1.3 Phân tích tối ưu

2.1.3.1 Lập mô hình tối ưu

Bước 1: Xác định biến quyết định

Set Objective: Nhập ô chứa hàm mục tiêu

To: Chọn Max, Min theo đề

By Changing Variable Cells: Nhập ô chứa các biến quyết định

Đưa các ràng buộc vào Subject to the Constraints bằng cách nhấn nút Add

Trang 26

Hình 2.14 Hộp thoại Solver Parameters

Bước 3: Nhấn nút Solve để giải mô hình

Khai báo các lựa chọn trong hộp thoại Solver Results

Keep Solver Solution: Giữ kết quả và in ra bảng tính

Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trạng ban đầu.Save Scenario: Lưu kết quả vừa tìm được thành một tình huống để có thể xem lại sau này

Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity và Limits

Hình 2.15 Hộp thoại Solver Results

Bước 4: Nhấn nút OK để xem kết quả

Hình 2.16 Kết quả giải mô hình2.2 Phần mềm Orange

2.2.1 Tổng quan về phần mềm Orange

Giới thiệu chung về Orange:

Trang 27

Hình 2.17 OrangeOrange là một phần mềm mạnh mẽ và linh hoạt được sử dụng trong lĩnh vực phân tích dữliệu và học máy Với giao diện đồ họa thân thiện và dễ sử dụng, Orange cho phép người dùng nhanh chóng thực hiện các tác vụ phân tích dữ liệu phức tạp mà không cần kiến thức chuyên sâu về lập trình

Với Orange, bạn có thể nhập dữ liệu từ nhiều nguồn khác nhau như bảng tính, cơ sở dữ liệu, tệp CSV và thậm chí kết nối trực tiếp với cơ sở dữ liệu Bạn có thể thực hiện các bước tiền xử lý dữ liệu như chọn lọc, chuẩn hóa và xử lý dữ liệu thiếu một cách dễ dàng.Orange cung cấp một loạt các công cụ và thuật toán phân tích dữ liệu mạnh mẽ để khám phá dữ liệu, xây dựng mô hình dự đoán và thực hiện các tác vụ học máy như phân loại, gom cụm và hồi quy Bạn có thể thử nghiệm và so sánh nhiều mô hình khác nhau, đánh giá hiệu suất của chúng và tìm ra mô hình tốt nhất cho bài toán của mình

Một điểm mạnh của Orange là khả năng trực quan hóa dữ liệu và kết quả phân tích Bạn

có thể tạo biểu đồ, đồ thị và sơ đồ tương tác để hiểu rõ hơn về dữ liệu của mình và trình bày kết quả phân tích một cách trực quan và dễ hiểu

Với tính linh hoạt và tính năng mở rộng, Orange cũng hỗ trợ viết mã Python và tích hợp với các công cụ và thư viện phân tích dữ liệu phổ biến khác như NumPy, Pandas và scikit-learn Điều này cho phép người dùng tùy chỉnh và mở rộng chức năng của Orange theo nhu cầu cụ thể

Tóm lại, Orange là một phần mềm mạnh mẽ và dễ sử dụng cho phân tích dữ liệu và học máy, mang lại khả năng khám phá và phân tích dữ liệu một cách trực quan và hiệu quả cho người dùng không chuyên về lập trình

Giao diện Orange:

Trang 28

Hình 2.18 Màn hình Orange

Orange được chia thành các nhóm tiện ích bao gồm:

Data: đưa/xuất/chuyển đổi dữ liệu vào

Unspervised: phân cụm dữ liệu: Nighbors, PCA, K-means,

Nhóm Data

Trang 29

Hình 2.19 Nhóm Data trong Orange

File: xuất file có sẵn vào

Hình 2.20 Xuất file từ tệp có sẵn trên máy tính

Trong File hiển thị các thông tin như:

Source (File/URL): tải dữ liệu vào/ cèn dữ liệu từ địa chỉ của URL

Trang 30

Columns (Double click to edit)

Hình 2.21 Hình minh họa Columns (Double click to edit)

CSV File Import: dữ liệu được nhập từ tệp CSV định dạng, có chức năng đọc các tệp được tách bởi dấu phẩy và gửi tập đến đầu ra qua xác định thủ công

Datasets: dữ liệu được lấy từ máy và xuất ra

SQL Table: từ kho dữ liệu SQL dữ liệu được đọc từ đây

Trang 31

Hình 2.22 Hình minh họa SQL TableBốn thanh ngang xuất hiện theo thứ tự từ trên xuống là: Loại cơ sở dữ liệu, tên máy lưu trữ, tên của cơ sở dữ liệu, tên tài khoản, mật khẩu.

Data Table: dữ liệu (đầu vào) qua Data Table sẽ hiện thị thành bảng (đầu ra)

Trang 32

Hình 2.23 Hình minh họa Data TableBảng dữ liệu giúp bạn chọn dữ liệu bằng cách sắp xếp dữ liệu theo thuộc tính.

Filename: Hiển thị tên biến theo hàng và giá trị biến theo cột

Thông tin về kích thước của tập dữ liệu hiện tại, số lượng và loại biến

Các giá trị của một biến liên tục có thể được biểu thị bằng các thanh với các gradient màukhác nhau

Các biến (trên mỗi dòng) có thể được chọn để đưa vào đầu ra của công cụ

Sử dụng công cụ Restore Original Order để khôi phục lại thứ tự ban đầu sau khi sắp xếp trên một thuộc tính

Paint Data: vẽ dữ liệu 2D trên mặt phẳng máy Bản vẽ được lưu ở dưới dạng png/ svg

Trang 33

Hình 2.24 Hình minh họa Paint Orange

Data Info: thông tin về bộ dữ liệu được chọn, xuất hiện các thông tin như: đặc điểm, kích thước, mục đích, thuộc tính của meta, vị trí, báo cáo

Hình 2.25 Hộp thoại Data Info

Rank : các thuộc tính được xếp hạng (phân loại/hồi quy)

Trang 34

Edit Domain: Đổi tên các tính năng và giá trị của chúng, có thể được sử dụng để

chỉnh sửa / thay đổi tập dữ liệu tên miền

Hình 2.26 Hình minh họa Edit Domain

Color: đặt chú thích màu trong trực quan hóa theo sở thích và cung cấp các công

cụ để nhấn mạnh kết quả, tùy chọn màu sắc để trình bày dữ liệu

Hình 2.27 Hình minh họa Color - Orange

Trang 35

Feature Statistics: năng cung cấp một cách nhanh chóng để kiểm tra và tìm các tính năng thú vị trong một tập dữ liệu nhất định.

Hình 2.28 Hình minh họa Feature Statistics

Save Data: lưu dữ liệu

Nhóm Transform

Hình 2.29 Transform trong Orange

Tiêu đề	Phân Tích Cơ Sở Dữ Liệu Attrition - Train Dựa Trên Phần Mềm Orange
Tác giả	Đoàn Minh Khiêm, Nguyễn Võ Đức Minh, Nguyễn Thuỳ Dương, Trần Việt Nhật, Phạm Minh Quang
Người hướng dẫn	TS.GVC Nguyễn Quốc Hùng
Trường học	Đại Học Kinh Tế Tp. Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Báo Cáo Đồ Án
Năm xuất bản	2023
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	70
Dung lượng	5,44 MB