1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích cơ sở dữ liệu attrition train dựa trên phần mềm orange

70 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Từ việc tìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựng các thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích

Trang 1

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINHTRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾKHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU

Đề tài: PHÂN TÍCH CƠ SỞ DỮ LIỆU ATTRITION - TRAIN DỰA TRÊN PHẦN MỀM ORANGE

Trang 2

MỤC LỤC

LỜI MỞ ĐẦU 6

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 8

1.1 Giới thiệu về khoa học dữ liệu 8

1.2 Tổng quan về khoa học dữ liệu 8

1.3 Sự hình thành và phát triển của khoa học dữ liệu 9

1.4 Ứng dụng của khoa học dữ liệu 10

1.5 Lý do chọn đề tài 15

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 16

2.1 Các phương pháp sử dụng Excel để khai thác dữ liệu: 16

2.1.1 Phương pháp thống kê mô tả 16

2.1.2 Phân tích dự báo 21

2.1.3 Phân tích tối ưu 25

2.2 Phần mềm Orange 27

2.2.1 Tổng quan về phần mềm Orange 27

2.2.2 Phương pháp phân cụm dữ liệu - Clustering 52

2.2.3 Phương pháp phân lớp dữ liệu 53

2.2.4 So sánh hai phương pháp: phân cụm và phân lớp dữ liệu 53

Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 54

3.1 Phân tích dữ liệu 54

3.1.1 Tiền xử lý dữ liệu 54

3.1.2 Description - mô tả dữ liệu Attrtion - Train 57

3.1.3 Thống kê mô tả dữ liệu Attrition - Train 58

3.2 Phân lớp dữ liệu 61

3.2.1 Một số phương pháp phân lớp 61

3.2.2 Kết quả mô hình 62

3.3 Dự báo 100 mẫu bất kì 67

3.4 Đánh giá kết quả của mô hình 68

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69

TÀI LIỆU THAM KHẢO 70

Trang 3

DANH MỤC HÌNH ẢNH

Hình 1.1 "Ứng dụng khoa học dữ liệu trong quảng cáo và tiếp thị" 11

Hình 1.2 "Ứng dụng khoa học dữ liệu trong tài chính và ngân hàng" 11

Hình 1.3 "Ứng dụng khoa học dữ liệu trong y tế" 12

Hình 1.4 "Ứng dụng khoa học dữ liệu trong giao thông vận tải" 12

Hình 1.5 "Ứng dụng khoa học dữ liệu trong E-commerce và bán lẻ" 12

Hình 1.6 "Ứng dụng khoa học dữ liệu trong Công nghiệp và sản xuất" 13

Hình 1.7 "Ứng dụng khoa học dữ liệu trong lĩnh vực xã hội và chính phủ" 13

Hình 1.8 "Ứng dụng khoa học dữ liệu trong giải trí và truyền thông" 13

Hình 1.9 "Ứng dụng khoa học dữ liệu trong nghiên cứu khoa học" 14

Hình 1.10 "Ứng dụng khoa học dữ liệu trong tìm kiếm thông tin" 14

Hình 2.1 Vị trí Subtotal 17

Hình 2.2 Hộp thoại Subtotal 18

Hình 2.3 Vị trí Consolidate 18

Hình 2.4 Vị trí PivotTable 19

Hình 2.5 Hộp thoại Create PivotTable 20

Hình 2.6 Hộp thoại PivotTable Fields 20

Hình 2.7 Hộp thoại Moving Average 21

Hình 2.8 Hộp thoại Exponential Smoothing 22

Hình 2.14 Hộp thoại Solver Parameters 26

Hình 2.15 Hộp thoại Solver Results 26

Hình 2.16 Kết quả giải mô hình 27

Hình 2.17 Orange 27

Hình 2.18 Màn hình Orange 28

Hình 2.19 Nhóm Data trong Orange 29

Hình 2.20 Xuất file từ tệp có sẵn trên máy tính 29

Hình 2.21 Hình minh họa Columns (Double click to edit) 30

Hình 2.22 Hình minh họa SQL Table 31

Hình 2.23 Hình minh họa Data Table 32

Hình 2.24 Hình minh họa Paint Orange 33

Hình 2.25 Hộp thoại Data Info 33

Hình 2.26 Hình minh họa Edit Domain 34

Hình 2.27 Hình minh họa Color - Orange 34

Hình 2.28 Hình minh họa Feature Statistics 35

Hình 2.29 Transform trong Orange 35

Hình 2.30 Hình minh họa về Data Sample 36

Hình 2.31 Hình minh họa Pivot Table 38

Hình 2.32 Vizualize trong Orange 41

Hình 2.33 Model trong Orange 45

Hình 2.34 Unsupervized trong Orange 49

Hình 2.35 Hình minh họa về phân cụm dữ liệu 52

Hình 3.1: Các bước tiền xử lý dữ liệu 54

Hình 3.2: Giao diện Datasets dùng để nạp dữ liệu Attrition - Train 54

Trang 4

Hình 3.3: Dữ liệu Attrition - Train 54

Hình 3.4 Giao diện Select Columns 55

Hình 3.5 Giao diện của Preprocess để tiền xử lý dữ liệu bị thiếu 56

Hình 3.6 Dữ liệu Attrition - Train đã được tiền xử lý từ Select Columns và Preprocess .56 Hình 3.7 Giao diện Save Data 57

Hình 3.8 "Biểu đồ tròn thể hiện tỷ lệ đi công tác của 1470 đối tượng" 58

Hình 3.9 "Biểu đồ tròn thể hiện tỷ lệ khoảng cách từ nhà đến công ty" 59

Hình 3.10 "Biểu đồ tròn thể hiện về tình trạng hôn nhân" 60

Hình 3.11 "Biểu đồ tròn thể hiện tổng số năm làm việc" 61

Hình 3.12 "Biểu đồ tròn thể hiện số năm làm việc tại công ty" 61

Hình 3.13 Giới thiệu phân lớp dữ liệu 62

Hình 3.14 Lấy mẫu từ dữ liệu 62

Hình 3.15 Mẫu dữ liệu huấn luyện 63

Hình 3.16 Tập dữ liệu huấn luyện 64

Hình 3.17 Mô hình so sánh các thuật toán 64

Hình 3.18 "Bảng kết quả từ Test and Score" 64

Hình 3.19 Mô hình ma trận nhầm lẫn 65

Hình 3.20 "Kết quả ma trận nhầm lẫn của phương pháp Tree (Cây quyết định)" 65

Hình 3.21" Kết quả ma trận nhầm lẫn của phương pháp hồi quy Logistic Regression" 65

Hình 3.22 "Kết quả ma trận nhầm lẫn của phương pháp SVM" 66

Hình 3.23 Đường cong ROC 66

Hình 3.24 Lấy 100 mẫu từ dữ liệu 67

Hình 3.25 "Mô hình dự báo 100 mẫu dữ liệu" 68

Hình 3.26 "Kết quả dự báo của 100 mẫu dữ liệu" 68

Trang 5

DANH MỤC BẢNG

Bảng 2.1 Các chức năng trong nhóm Model 45

Bảng 2.2 Các chức năng trong nhóm Evaluate 48

Bảng 2.3 Các chức năng của nhóm Unsupervised 50

Bảng 3.1 Ý nghĩa của các biến 57

Bảng 3.2 Tần số và tần suất của việc đi công tác 58

Bảng 3.3 Khoảng cách từ nhà tới công ty 59

Bảng 3.4: Tình trạng hôn nhân 59

Bảng 3.5: Tổng số năm làm việc 60

Bảng 3.6: Số năm làm việc tại công ty 61

Trang 6

LỜI MỞ ĐẦU

Kính gửi thầy Nguyễn Quốc Hùng

Đầu tiên, chúng em xin gửi đôi lời cảm ơn vì đã được dự học phần môn khoa học dữ liệu của thầy Tuy thời lượng của học phần không nhiều nhưng với những kiến thức quý giá mà thầy đã truyền đạt cho chúng em, chúng em đã hiểu hơn về vai trò và lợi ích của Khoa học dữ liệu đối với đời sống chúng ta hiện nay Khoa học dữ liệu - một lĩnh vực hứa hẹn của thời đại số hóa và công nghệ thông tin - đã nhanh chóng trở thành một ngành công nghiệp đang phát triển mạnh mẽ và có tầm ảnh hưởng rộng lớn Với sự tiến bộ của công nghệ và khối lượng dữ liệu khổng lồ được tạo ra hàng ngày, khai thác và phân tích thông tin đã trở thành một nhiệm vụ cực kỳ quan trọng và cần thiết cho sự phát triển của các tổ chức và xã hội Khoa học dữ liệu không chỉ đơn thuần là việc thu thập dữ liệu và xử lý số liệu, mà còn là một quy trình sáng tạo và phân tích sâu sắc để khám phá các tri thức tiềm ẩn và đưa ra những quyết định thông minh Từ việc tìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựng các thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích và sử dụng thông tin để tạo ra giá trị thực tế Và để đi sâu hơn vào vấn đề này, nhóm chúng em đã lựa chọn đề tài Atrition - Training và phân tích các cơ sở dữ liệu thông qua phần mềm Orange "Attrition" (hay còn được gọi là "employee attrition" hoặc "staff attrition") ám chỉ tỷ lệ nhân viên rời bỏ tự nguyện hoặc bị sa thải khỏi một tổ chức trong một khoảng thời gian nhất định Attrition có thể xảy ra vì nhiều lý do, bao gồm các cơ hội việc làm tốt hơn, không hài lòng với môi trường làm việc, tiến cử nâng lương/khuyến khích không đủ, hoặc các vấn đề cá nhân "Training" (đào tạo) đề cập đến quá trình cung cấp kiến thức, kỹ năng và năng lực cho nhân viên trong một tổ chức Mục tiêu của quá trình đào tạo là giúp nhân viên làm việc hiệu quả hơn, đáp ứng yêu cầu công việc và nâng cao sự phát triển chuyên môn của họ.

Attrition và training là hai khái niệm quan trọng trong quản lý nhân sự, vì quản lý attrition giúp tổ chức hiểu và giải quyết các vấn đề liên quan đến sự rời bỏ của nhân viên, trong khi training giúp xây dựng và nâng cao năng lực của nhân viên để đáp ứng yêu cầu công việc và mục tiêu tổ chức.

Trong đồ án này, đầu tiên chúng em sẽ giới thiệu lý thuyết tổng quan và khoa học dữ liệu và lý do chọn đề tài và phần tiếp theo chúng em sẽ ứng dụng các phương pháp để xử lý dữ liệu về đề tài thông qua phần mềm Orange và phần cuối sẽ là tổng kết, đánh giá kết quả và đưa ra các phương hướng phát triển cho tương lai.

Trang 7

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN

DANH SÁCH THÀNH VIÊN NHÓM 2

Đoàn Minh Khiêm

(Trưởng nhóm) - Tìm bộ dữ liệu, thảo luận đề tài.- Xử lý dữ liệu trên Orange Nguyễn Võ Đức Minh - Tìm bộ dữ liệu, thảo luận đề tài.

- Xử lý dữ liệu trên Orange - Chương 3,4

100% Nguyễn Thuỳ Dương - Tìm bộ dữ liệu, thảo luận đề tài.

Trang 8

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI

1.1 Giới thiệu về khoa học dữ liệu

- Dữ liệu (Data) là tập hợp các thông tin, sự kiện, số liệu hoặc các yếu tố khác được thu thập, lưu trữ và sử dụng để cung cấp thông tin cho mục đích nghiên cứu, phân tích, quản lý hoặc ra quyết định Dữ liệu có thể được biểu diễn dưới dạng số học, văn bản, hình ảnh, âm thanh, video hoặc bất kỳ hình thức nào khác.

- Dữ liệu có thể được chia thành hai loại chính:

• Dữ liệu cấu trúc: Đây là dữ liệu được tổ chức theo một cấu trúc đã được xác định trước, thường được lưu trữ trong cơ sở dữ liệu quan hệ hoặc bảng tính Dữ liệu cấu trúc có các trường và mục tiêu rõ ràng, và có thể được truy xuất và xử lý bằng các công cụ phân tích dữ liệu và ngôn ngữ truy vấn.

• Dữ liệu phi cấu trúc: Đây là dữ liệu không tuân theo một cấu trúc rõ ràng hoặc không được tổ chức theo mô hình dữ liệu truyền thống Dữ liệu phi cấu trúc thường được lưu trữ dưới dạng văn bản, tệp tin, email, thông tin từ mạng xã hội và các nguồn dữ liệu không đồng nhất khác Việc trích xuất thông tin từ dữ liệu phi cấu trúc có thể phức tạp hơn và đòi hỏi các phương pháp và công nghệ đặc biệt.

Dữ liệu có vai trò quan trọng trong nhiều lĩnh vực, bao gồm khoa học, kinh doanh, y tế, giáo dục, công nghệ và xã hội Qua việc phân tích và khai thác dữ liệu, chúng ta có thể tìm ra thông tin, mô hình và kiến thức mới, từ đó đưa ra quyết định, dự đoán xu hướng, phát hiện các mối liên hệ và tạo ra giá trị thực tiễn Tuy nhiên, việc làm việc với dữ liệu cũng đòi hỏi quy trình chuẩn bị, xử lý, bảo mật và đảm bảo tính chính xác và đáng tin cậy của dữ liệu.

1.2 Tổng quan về khoa học dữ liệu

Khoa học dữ liệu (Data Science) là một lĩnh vực tương đối mới mẻ nhưng phát triển nhanh chóng trong thời đại số hóa hiện nay Nó kết hợp các phương pháp, công cụ và kỹ thuật từ các lĩnh vực như thống kê, toán học, máy học và khoa học máy tính để nghiên cứu và hiểu sâu về dữ liệu, phân tích thông tin và rút ra những hiểu biết quan trọng Mục tiêu chính của khoa học dữ liệu là khám phá, hiểu và tìm hiểu các mô hình, quy luật, xu hướng hoặc thông tin ẩn chứa trong dữ liệu Khoa học dữ liệu đặt nền tảng cho việc áp dụng kiến thức toán học, thống kê và lập trình để xử lý, phân tích và trực quan hóa dữ liệu Quá trình này bao gồm các bước:

Trang 9

• Thu thập dữ liệu: Khoa học dữ liệu bắt đầu bằng việc thu thập dữ liệu từ các nguồn khác nhau như cơ sở dữ liệu, tệp tin, trang web, hoặc các nguồn dữ liệu công cộng Dữ liệu có thể là số liệu, văn bản, hình ảnh, âm thanh, hoặc dữ liệu từ cảm biến.

• Tiền xử lý dữ liệu: Sau khi thu thập dữ liệu, nó cần được tiền xử lý để làm sạch và chuẩn hóa Các bước tiền xử lý có thể bao gồm loại bỏ dữ liệu lỗi, điền giá trị thiếu, chuẩn hóa đơn vị đo, và loại bỏ nhiễu.

• Phân tích và khám phá dữ liệu: Khi dữ liệu đã được tiền xử lý, các phương pháp thống kê và khai phá dữ liệu được áp dụng để tìm hiểu thông tin bên trong Đây bao gồm việc tạo các biểu đồ, phân tích tương quan, phát hiện mô hình và quy luật ẩn trong dữ liệu • Xây dựng mô hình dữ liệu: Khi đã có hiểu biết về dữ liệu, các mô hình dữ liệu có thể được xây dựng để dự đoán, phân loại hoặc tìm ra các kết quả dựa trên dữ liệu Các phương pháp máy học và học sâu (deep learning) thường được sử dụng để xây dựng các mô hình này.

• Đánh giá và triển khai mô hình: Mô hình dữ liệu được đánh giá bằng cách sử dụng các phương pháp đo lường hiệu suất như độ chính xác, độ phân loại hay sai số Sau đó, mô hình được triển khai để áp dụng vào thực tế và sản xuất kết quả.

1.3 Sự hình thành và phát triển của khoa học dữ liệu

Khoa học dữ liệu bắt đầu xuất hiện và phát triển từ những năm 1960 và 1970, khi các nhà nghiên cứu và nhà toán học bắt đầu tìm hiểu cách sử dụng dữ liệu để phân tích và rút ra thông tin hữu ích Trong giai đoạn đầu, các phương pháp thống kê truyền thống như hồi quy và phân tích biến thể được sử dụng để xử lý dữ liệu.

Tuy nhiên, sự phát triển mạnh mẽ của công nghệ và internet đã mở ra cánh cửa cho sự tăng trưởng và phát triển vượt bậc của khoa học dữ liệu Việc thu thập dữ liệu trở nên dễ dàng hơn với sự gia tăng của cơ sở dữ liệu và công nghệ thu thập dữ liệu như cảm biến và thiết bị kết nối mạng Đồng thời, sự tiến bộ trong lĩnh vực phần cứng và phần mềm đã cung cấp khả năng xử lý và lưu trữ dữ liệu lớn.

Một sự đột phá quan trọng trong khoa học dữ liệu là sự phát triển của học máy và học sâu Thuật toán học máy đã cho phép xây dựng các mô hình dự đoán và phân loại từ dữ liệu một cách tự động và chính xác hơn Học sâu, đặc biệt là mạng nơ-ron sâu, đã đạt được những thành tựu đáng kể trong việc xử lý dữ liệu phức tạp như hình ảnh, ngôn ngữ tự nhiên và giọng nói.

Trang 10

Ngoài ra, cộng đồng khoa học dữ liệu đã phát triển các công cụ và ngôn ngữ lập trình như Python và R, cung cấp cho các nhà khoa học dữ liệu và nhà phân tích dữ liệu các công cụ mạnh mẽ để thực hiện các tác vụ xử lý dữ liệu và phân tích.

Sự phát triển của khoa học dữ liệu cũng đã tạo ra sự gia tăng về nhận thức và ý thức về giá trị của dữ liệu Các công ty và tổ chức hiện nay đang tập trung vào việc thu thập và sử dụng dữ liệu để đưa ra quyết định thông minh và tạo ra lợi ích kinh tế.

Từ đó, có một sự tăng cường về việc đào tạo và hình thành các chương trình học và các ngành nghề liên quan đến khoa học dữ liệu Các trường đại học và tổ chức đào tạo đã đưa ra chương trình học về khoa học dữ liệu, phân tích dữ liệu, học máy và học sâu để đáp ứng nhu cầu ngày càng tăng về chuyên gia trong lĩnh vực này.

Ngoài ra, cộng đồng khoa học dữ liệu cũng đã hình thành và phát triển mạnh mẽ Các hội thảo, hội nghị và cộng đồng trực tuyến đã trở thành nơi giao lưu, chia sẻ kiến thức và thúc đẩy sự phát triển của khoa học dữ liệu Các nhà nghiên cứu, nhà khoa học dữ liệu và các chuyên gia từ các ngành nghề khác nhau có thể cùng nhau làm việc để giải quyết các vấn đề phức tạp và tạo ra những đóng góp đáng kể cho xã hội.

Trong tương lai, sự phát triển của khoa học dữ liệu dự kiến sẽ tiếp tục Công nghệ như Trí tuệ nhân tạo (AI), Internet of Things (IoT) và Blockchain sẽ mang đến những cơ hội mới và thách thức mới cho lĩnh vực này Sự kết hợp của các công nghệ này với khoa học dữ liệu có thể mở ra tiềm năng lớn trong việc nắm bắt thông tin, dự đoán xu hướng và đưa ra quyết định thông minh.

Tóm lại, khoa học dữ liệu đã trải qua một quá trình hình thành và phát triển đáng kể trong thập kỷ qua Sự tiến bộ về công nghệ, phần cứng và phần mềm đã tạo ra những cơ hội mới và thay đổi cách chúng ta tiếp cận và sử dụng dữ liệu Sự phát triển này cũng đang tạo ra nhiều cơ hội nghề nghiệp và có ảnh hưởng đáng kể đến nhiều ngành nghề và lĩnh vực.

1.4 Ứng dụng của khoa học dữ liệu

Khoa học dữ liệu có rất nhiều ứng dụng trong các lĩnh vực khác nhau Dưới đây là một số ví dụ tiêu biểu về ứng dụng của khoa học dữ liệu:

1 Quảng cáo và tiếp thị: Khoa học dữ liệu được sử dụng để phân tích dữ liệu từ các chiến dịch quảng cáo và tiếp thị để hiểu hành vi của khách hàng, dự đoán xu hướng và tùy chỉnh chiến lược quảng cáo Điều này giúp tăng cường hiệu quả của các chiến dịch quảng cáo và tạo ra trải nghiệm tốt hơn cho khách hàng.

Trang 11

Hình 1.1 Ứng dụng khoa học dữ liệu trong quảng cáo và tiếp thị 2 Tài chính và ngân hàng: Khoa học dữ liệu có thể được sử dụng để phân tích dữ liệu tài chính và dự báo xu hướng thị trường Nó cung cấp cho các tổ chức tài chính và ngân hàng những thông tin quan trọng để đưa ra quyết định về đầu tư, rủi ro và chiến lược kinh doanh.

Hình 1.2 Ứng dụng khoa học dữ liệu trong tài chính và ngân hàng

3 Y tế: Khoa học dữ liệu đóng vai trò quan trọng trong việc phân tích dữ liệu y tế để đưa ra dự đoán và chẩn đoán bệnh, tối ưu hóa quy trình chăm sóc sức khỏe và nghiên cứu mới về dược phẩm và điều trị Nó cũng có thể được sử dụng để theo dõi và dự đoán xu hướng dịch bệnh và đưa ra các biện pháp phòng ngừa.

Trang 12

Hình 1.3 Ứng dụng khoa học dữ liệu trong y tế

4 Giao thông và vận tải: Khoa học dữ liệu giúp phân tích và dự đoán tình trạng giao thông, tối ưu hóa lộ trình, dự báo nhu cầu và quản lý chuỗi cung ứng trong lĩnh vực vận tải Nó có thể giúp giảm ùn tắc giao thông, tăng cường an toàn và cải thiện hiệu suất vận chuyển.

Hình 1.4 Ứng dụng khoa học dữ liệu trong giao thông vận tải

5 E-commerce và bán lẻ: Khoa học dữ liệu được sử dụng trong việc phân tích hành vi mua hàng của khách hàng, dự đoán xu hướng mua sắm và cá nhân hóa trải nghiệm mua hàng trực tuyến Các công ty e-commerce và bán lẻ sử dụng khoa học dữ liệu để tối ưu hóa quy trình đặt hàng, quản lý kho và phân phối.

Hình 1.5 Ứng dụng khoa học dữ liệu trong E-commerce và bán lẻ

6 Công nghiệp và sản xuất: Khoa học dữ liệu được áp dụng trong quản lý và tối ưu hóa hoạt động sản xuất và quy trình công nghiệp Nó giúp phân tích dữ liệu từ các cảm biến và hệ thống giám sát để dự đoán sự cố và tối ưu hóa hiệu suất của các máy móc và thiết bị Khoa học dữ liệu cũng đóng vai trò quan trọng trong việc quản lý chuỗi cung ứng, từ dự đoán nhu cầu và lập kế hoạch sản xuất đến quản lý hàng tồn kho và vận chuyển.

Trang 13

Hình 1.6 Ứng dụng khoa học dữ liệu trong Công nghiệp và sản xuất 7 Lĩnh vực xã hội và chính phủ: Khoa học dữ liệu có thể được sử dụng để phân tích dữ liệu xã hội và chính phủ để hiểu hành vi của người dân, dự đoán xu hướng và đưa ra các biện pháp cải thiện chính sách công cộng Nó có thể được sử dụng trong việc quản lý đô thị thông minh, phân tích dữ liệu dân số và sức khỏe, dự báo tình trạng môi trường và phân tích dữ liệu bầu cử.

Hình 1.7 Ứng dụng khoa học dữ liệu trong lĩnh vực xã hội và chính phủ 8 Giải trí và truyền thông: Khoa học dữ liệu đóng vai trò quan trọng trong việc phân tích dữ liệu người dùng và phản hồi từ khán giả để cung cấp trải nghiệm giải trí tốt hơn Nó có thể được sử dụng để cá nhân hóa nội dung, gợi ý và đề xuất nội dung, dự đoán xu hướng và quản lý quy trình sản xuất nội dung truyền thông.

Hình 1.8 Ứng dụng khoa học dữ liệu trong giải trí và truyền thông

Trang 14

9 Nghiên cứu khoa học: Khoa học dữ liệu cung cấp phương pháp và công cụ để phân tích và khai thác dữ liệu trong lĩnh vực nghiên cứu Nó giúp các nhà nghiên cứu thu thập, xử lý và phân tích dữ liệu để đưa ra những phát hiện mới, kiểm chứng giả định và đưa ra kết luận khoa học.

Hình 1.9 Ứng dụng khoa học dữ liệu trong nghiên cứu khoa học Tổng quát, khoa học dữ liệu có ứng dụng rộng rãi và ảnh hưởng sâu rộng trong nhiều lĩnh vực của xã hội và kinh tế Việc sử dụng khoa học dữ liệu mang lại lợi ích vượt trội bằng việc tăng cường hiệu quả, đưa ra quyết định thông minh và tạo ra giá trị đáng kể cho tổ chức và xã hội.

Hình 1.10 Ứng dụng khoa học dữ liệu trong tìm kiếm thông tin

Trang 15

1.5 Lý do chọn đề tài

Từng là một vấn đề quan trọng trong các tổ chức và doanh nghiệp, attrition-training (thất thoát sau đào tạo) là hiện tượng mà nhân viên rời bỏ công ty sau khi hoàn thành quá trình đào tạo Điều này gây ra một loạt hậu quả tiêu cực, bao gồm sự mất mát kiến thức và kỹ năng, tốn kém tài nguyên và tạo ra sự không ổn định trong tổ chức.

Attrition-training có thể xảy ra vì nhiều lý do Một trong những nguyên nhân chính là sự thiếu quan tâm và không đáp ứng đúng nhu cầu của nhân viên sau quá trình đào tạo Khi nhân viên không nhận được sự hỗ trợ và sự phát triển liên tục sau khi hoàn thành khóa đào tạo, họ có thể cảm thấy bị bỏ rơi và thiếu sự động lực để ở lại.

Thêm vào đó, môi trường làm việc không thân thiện và thiếu cơ hội thăng tiến cũng có thể góp phần vào attrition-training Nếu nhân viên cảm thấy không được công nhận và không có tiến bộ trong sự nghiệp, họ có thể quyết định tìm kiếm cơ hội mới ở nơi khác Bài đồ án mà chúng em sẽ trình bày dưới đây sẽ nêu ra các vấn đề, nguyên nhân khiến các nhân viên nghỉ việc, rời bỏ công ty để từ đó tổng kết lại và đưa ra các phương án thích hợp để giảm thiểu atrition - training trong tương lai.

Trang 16

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

2.1 Các phương pháp sử dụng Excel để khai thác dữ liệu:

Excel là công cụ vô cùng mạnh mẽ để xử lý các lượng dữ liệu lớn Tuy nhiên Excel cũng hoạt động thực sự tốt đối với các phép tính toán đơn giản và theo dõi hầu như bất kỳ loại thông tin nào Điểm mấu chốt để giải phóng tất cả những tiềm năng đó là mạng lưới các ô Các ô có thể chứa số, văn bản hay công thức.

2.1.1 Phương pháp thống kê mô tả

“Value1”: Là “tham chiếu ô hoặc dãy ô có chứa giá trị số mà bạn muốn đếm.” “Value2”: Là “tham chiếu ô hoặc dãy ô bổ sung có chứa giá trị số mà bạn muốn

“Value1”: “Là tham chiếu ô hoặc dãy ô có chứa giá trị mà bạn muốn đếm.” “Value2”: “Là tham chiếu ô hoặc dãy ô bổ sung có chứa giá trị mà bạn muốn đếm.”

“range”: “Vùng dữ liệu có chứa giá trị mà bạn muốn thống kê” “criteria”: “Điều kiện để lọc đếm kết quả trong vùng dữ liệu.”

“Criteria_range1”: “Vùng dữ liệu có chứa giá trị mà bạn muốn thống kê” “Criteria1”: “Điều kiện để lọc đếm kết quả trong criteria_range1” “Criteria_range2, criteria2, …”: “Vùng dữ liệu và điều kiện bổ sung”.

5 Hàm COUNTBLANK

Công dụng: Hàm COUNTBLANK là hàm đếm số lượng ô trống trong một vùng dữ liệu

Công thức:

“=COUNTBLANK(Range).”

Trang 17

“Range”: Là “vùng dữ liệu mà bạn muốn xét điều kiện.” “Criteria”: “Điều kiện để xét các ô cần tính tổng.”

“Sum_range”: “Tính tổng vùng dữ liệu có dữ liệu phù hợp với điều kiện.”

“Sum_range”: Là “vùng dữ liệu mà bạn muốn tính tổng.” “Criteria_range1”: Là “vùng dữ liệu mà bạn muốn xét điều kiện.” “Criteria1”: “Điều kiện để xét các ô trong criteria_range1.”

“Criteria_range2, criteria2, ”: Là “vùng dữ liệu và điều kiện bổ sung để xác định

“Number”: Là “giá trị mà bạn muốn xếp hạng”.

“Ref”: Là “vùng dữ liệu có chứa giá trị mà bạn muốn biết thứ hạng của giá trị đó” “Order”: Là “kiểu sắp xếp tăng dần hoặc giảm dần Trường hợp order=0 (mặc định nếu bỏ qua) thì giá trị so với vùng dữ liệu sẽ được sắp xếp theo thứ tự giảm dần Ngược lại nếu khác 0 thì sắp xếp tăng dần”.

“number1”: Là “giá trị đầu tiên để tính trung bình.” “number2”: Là “giá trị thứ 2 để tính trung bình.” “numbern”: Là “giá trị cuối cùng để tính trung bình.” 2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal

1 Vị trí: Subtotal nằm ở thẻ Data, nhóm Outline.

Hình 2.1 Vị trí Subtotal

Trang 18

2 Công dụng: “Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình, … Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm”

Bước 1: Chọn toàn bộ bảng tính

Bước 2: Chọn Subtotal Một hộp thoại sẽ hiện ra:

Hình 2.2 Hộp thoại Subtotal Trong đó:

At each change in: Điền điều kiện cần xét

Use function: Điền hàm được sử dụng hay phương thức thống kê Add subtotal to: Điền vùng áp dụng cho hàm ở trên

Ngoài ra:

Replace current subtotal: Nếu đã tồn tại trước đó một subtotal, nó sẽ thay thế bằng subtotal mới.

Page break between groups: Tùy chọn này giúp cho mỗi nhóm của at each change in được nằm trong một trang khác nhau.

Summary below data: Đưa function xuống dưới các nhóm Nếu bỏ chọn ô này, kết quả sẽ không mất, mà đưa lên đầu.

2.1.1.3 Hợp nhất dữ liệu với Consolidate

Yêu cầu:

“Mỗi dãy (tập dữ liệu) bạn muốn hợp nhất nằm trên một bảng tính riêng biệt.” “Không đặt bất kỳ dữ liệu nào trên bảng tính mà bạn muốn hợp nhất.”

“Mỗi trang có cùng bố cục, mỗi cột có tiêu đề và chứa dữ liệu tương tự.” “Không có hàng hoặc cột trống trong bất kỳ danh sách nào.”

Vị trí: Data → Data Tools → Consolidate

Hình 2.3 Vị trí Consolidate

Trang 19

Công dụng: Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:

Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc.

Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc.

Chú ý: “Bạn nên hợp nhất dữ liệu vào một trang trống Nếu bảng tính chính của bạn đã có một số dữ liệu, đảm bảo có đủ không gian (các hàng và cột trống) để chứa dữ liệu được hợp nhất.”

Hộp thoại Consolidate: Trong đó:

“Trong hộp Function, chọn một trong các hàm muốn sử dụng để hợp nhất dữ liệu (Count, Average, Max, Min, v.v …) Trong ví dụ này, chúng ta chọn Sum.”

“Trong hộp Reference box, nhấp vào biểu tượng “Thu gọn” và chọn vùng ở trang tính đầu tiên Sau đó nhấp vào nút Add để thêm các vùng khác Lặp lại bước này cho tất cả các vùng muốn hợp nhất.”

Ngoài ra:

“Chọn Top row và / hoặc Left column phía dưới Use labels in nếu muốn sao chép tên hàng và / hoặc tên cột từ các trang tính gốc vào trang hợp nhất.”

“Chọn Create links to source data nếu muốn dữ liệu hợp nhất cập nhật tự động khi dữ liệu nguồn thay đổi.”

2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable

Lưu ý: “Nguồn dữ liệu để tạo PivotTable có thể là một cơ sở dữ liệu của Excel hay từ nguồn dữ liệu bên ngoài (như MS Access, MS SQL Server, …)”

Cách thực hiện trên Excel:

Bước 1: “Click vào ô bất kỳ trên cơ sở dữ liệu.”

Bước 2: “Chọn lệnh Insert → PivotTable.”

Hình 2.4 Vị trí PivotTable

Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa PivotTable, click nút OK.

Trang 20

Hình 2.5 Hộp thoại Create PivotTable

Bước 4: “Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS, ROWS, COLUMNS và VALUES.”

Hình 2.6 Hộp thoại PivotTable Fields Hiệu chỉnh PivotTable

1 “Thay đổi tên Field”

“PivotTable tự tạo ra các ô có nền đậm khi thả các field vào vùng layout.” “Nội dung trong các ô này được tạo tự động dựa theo tên field và nơi bố trí.” Có thể gõ lại nội dung để báo cáo rõ ràng hơn

2 Sắp xếp

Bấm vào mũi tên bên phải của nhãn dòng hoặc cột muốn sắp xếp Bấm vào tùy chọn sắp xếp.

3 Thay đổi phép tổng hợp dữ liệu

Nhấn mũi tên tên xổ xuống cạnh field cần định dạng trong khu vực Values Chọn Value Field Settings trong danh sách mở ra

Chọn phương thức xử lý trong mục Summarize value field by

Trang 21

2.1.2 Phân tích dự báo

2.1.2.1 Phương pháp Moving Average

Phương pháp Moving Average là phương pháp tính giá trị trung bình dựa trên các biến động của giá trị thêm bớt vào dãy số trong một khoảng thời gian nhất định.

Cách thực hiện trên Excel:

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại Moving Average

Hình 2.7 Hộp thoại Moving Average

Bước 3: Khai báo các thông số Input và Output Options Trong đó:

Input Range: tham chiếu đến vùng dữ liệu thực tế.

Labels in First Row: Khai báo hàng đầu tiên của input range có chứa tiêu đề cột hay không.

Interval: số lượng các kỳ trước đó muốn tính (w).

Output Range: tham chiếu đến vùng xuất kết quả Những ô không đủ số lượng các giá trị trước đó để tính toán sẽ nhận giá trị #N/A.

Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn 2.1.2.2 Phương pháp San bằng mũ (Exponential Smoothing)

Cách thực hiện trên Excel:

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Bước 2: Chọn lệnh Data → Data Analysis→ Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing

Trang 22

Hình 2.8 Hộp thoại Exponential Smoothing

Bước 3: Khai báo các thông số Input và Output Options Trong đó:

Input Range: tham chiếu đến vùng dữ liệu thực tế.

Damping factor: giá trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a) = 0.7

Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay không 2.1.2.3 Phương pháp Hồi quy (Regression)

Phân tích hồi quy là “nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến

“known_y’s, known_x’s, new_x’s là các giá trị hoặc vùng địa chỉ chứa giá trị đã biết của x, y tương ứng và giá trị mới của x.”

“Const là hằng số Ngầm định nếu const = 1 (True) thì hồi quy theo hàm y = a + bx, nếu const = 0 (False) thì hồi quy theo hàm y = bx.”

“known_y’s là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc quan sát được.” “known_x’s là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập quan sát được”

“known_y’s là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc quan sát được.” “known_x’s là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập quan sát được”

Hàm SLOPE

Công dụng: “Dùng để tính hệ số b của phương trình hồi quy đơn tuyến tính”

Công thức: “SLOPE(known_y’s, known_x’s)” Trong đó:

“known_y’s là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc quan sát được.” “known_x’s là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập quan sát được”

Hàm CORREL

Công dụng: “Dùng để tính hệ số tương quan giữa X và Y”

Công thức: “CORREL(array1,array2)” Trong đó:

Trang 23

“array1, array2 tương ứng là tập số liệu phụ thuộc và tập số liệu độc lập quan sát được.” 2.1.2.4 Cách thực hiện bằng đồ thị:

Bước 1: “Chuẩn bị bảng số dữ liệu cần dự báo”

Bước 2: “Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến

“Display Equation on chart” “Display R-squared value on chart” 2.1.2.5 Cách thực hiện bằng công cụ Regression:

Bước 1: “Chuẩn bị bảng số dữ liệu cần dự báo”

Bước 2: “Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại Regression”

Trang 24

Hình 2.11 Hộp thoại Regression

Bước 3: Khai báo các thông số Input và Output Options Trong đó:

Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y.

Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều biến X trong trường hợp hồi quy đa biến).

“Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi quy.” Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi quy tuyến tính a = 0.

“Confidence Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1-α, với α là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng.”

Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả New Worksheet Ply: In kết quả ra một sheet khác.

New Workbook: In kết quả ra một file Excel mới Residuals: Sai số do ngẫu nhiên.

Standardized Residuals: Chuẩn hóa sai số Residuals Plots: Đồ thị sai số.

Line Fit Plots: Đồ thị hàm hồi quy tuyến tính.

Normal Probability Plots: Đồ thị xác suất phân phối chuẩn.

Trang 25

2.1.3 Phân tích tối ưu 2.1.3.1 Lập mô hình tối ưu

Bước 1: Xác định biến quyết định Khai báo các tham số của bài toán:

Set Objective: Nhập ô chứa hàm mục tiêu To: Chọn Max, Min theo đề

By Changing Variable Cells: Nhập ô chứa các biến quyết định.

Đưa các ràng buộc vào Subject to the Constraints bằng cách nhấn nút Add

Trang 26

Hình 2.14 Hộp thoại Solver Parameters

Bước 3: Nhấn nút Solve để giải mô hình

Khai báo các lựa chọn trong hộp thoại Solver Results Keep Solver Solution: Giữ kết quả và in ra bảng tính.

Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trạng ban đầu Save Scenario: Lưu kết quả vừa tìm được thành một tình huống để có thể xem lại sau này Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity và Limits

Hình 2.15 Hộp thoại Solver Results

Bước 4: Nhấn nút OK để xem kết quả

Hình 2.16 Kết quả giải mô hình 2.2 Phần mềm Orange

2.2.1 Tổng quan về phần mềm Orange Giới thiệu chung về Orange:

Trang 27

Hình 2.17 Orange

Orange là một phần mềm mạnh mẽ và linh hoạt được sử dụng trong lĩnh vực phân tích dữ liệu và học máy Với giao diện đồ họa thân thiện và dễ sử dụng, Orange cho phép người dùng nhanh chóng thực hiện các tác vụ phân tích dữ liệu phức tạp mà không cần kiến thức chuyên sâu về lập trình

Với Orange, bạn có thể nhập dữ liệu từ nhiều nguồn khác nhau như bảng tính, cơ sở dữ liệu, tệp CSV và thậm chí kết nối trực tiếp với cơ sở dữ liệu Bạn có thể thực hiện các bước tiền xử lý dữ liệu như chọn lọc, chuẩn hóa và xử lý dữ liệu thiếu một cách dễ dàng Orange cung cấp một loạt các công cụ và thuật toán phân tích dữ liệu mạnh mẽ để khám phá dữ liệu, xây dựng mô hình dự đoán và thực hiện các tác vụ học máy như phân loại, gom cụm và hồi quy Bạn có thể thử nghiệm và so sánh nhiều mô hình khác nhau, đánh giá hiệu suất của chúng và tìm ra mô hình tốt nhất cho bài toán của mình.

Một điểm mạnh của Orange là khả năng trực quan hóa dữ liệu và kết quả phân tích Bạn có thể tạo biểu đồ, đồ thị và sơ đồ tương tác để hiểu rõ hơn về dữ liệu của mình và trình bày kết quả phân tích một cách trực quan và dễ hiểu.

Với tính linh hoạt và tính năng mở rộng, Orange cũng hỗ trợ viết mã Python và tích hợp với các công cụ và thư viện phân tích dữ liệu phổ biến khác như NumPy, Pandas và scikit-learn Điều này cho phép người dùng tùy chỉnh và mở rộng chức năng của Orange theo nhu cầu cụ thể.

Tóm lại, Orange là một phần mềm mạnh mẽ và dễ sử dụng cho phân tích dữ liệu và học máy, mang lại khả năng khám phá và phân tích dữ liệu một cách trực quan và hiệu quả cho người dùng không chuyên về lập trình.

Giao diện Orange:

Trang 28

Hình 2.18 Màn hình Orange Orange được chia thành các nhóm tiện ích bao gồm:

Data: đưa/xuất/chuyển đổi dữ liệu vào Transform

Visualize: là nhóm gồm các biểu đồ, số liệu được biểu diễn giúp người làm cái cái nhìn tổng quan hơn

Model: là nhóm có nhiệm vụ chính phân lớp dữ liệu, chứa các Machine Learning như: Tree, SVM, Logistic,

Evaluate: phương pháp đánh giá mô hình máy học (dữ liệu được phân lớp): Test and Score, Confusion Matrix, Predictions, ROC Analysis, Performance Curve, Calibration Plot

Unspervised: phân cụm dữ liệu: Nighbors, PCA, K-means,

Nhóm Data

Trang 29

Hình 2.19 Nhóm Data trong Orange

File: xuất file có sẵn vào

Hình 2.20 Xuất file từ tệp có sẵn trên máy tính Trong File hiển thị các thông tin như:

Source (File/URL): tải dữ liệu vào/ cèn dữ liệu từ địa chỉ của URL File Type

Info

Ví dụ như ở hình xuất hiện số liệu: 8523 instances, 11 features (4.1 missing values), Data has no target variable và 1 meta attribute.

Thông tin được tóm tắt ở info theo thứ tự số bản ghi, trường dữ liệu (trường dữ liệu bị lỗi)

Trang 30

Columns (Double click to edit) Gồm các cột hàng dọc thể hiện

Name (Tên): Tên trường dữ liệu, xuất hiện ở cột thứ nhất từ trái qua phải Type (Numeric, Categorical, Text, DateTime): kiểu dữ liệu

Role ( Feature, Target, Meta, Skip): vai trò Values : giá trị

Hình 2.21 Hình minh họa Columns (Double click to edit)

CSV File Import: dữ liệu được nhập từ tệp CSV định dạng, có chức năng đọc các tệp được tách bởi dấu phẩy và gửi tập đến đầu ra qua xác định thủ công.

Datasets: dữ liệu được lấy từ máy và xuất ra.

SQL Table: từ kho dữ liệu SQL dữ liệu được đọc từ đây.

Trang 31

Hình 2.22 Hình minh họa SQL Table

Bốn thanh ngang xuất hiện theo thứ tự từ trên xuống là: Loại cơ sở dữ liệu, tên máy lưu trữ, tên của cơ sở dữ liệu, tên tài khoản, mật khẩu.

Data Table: dữ liệu (đầu vào) qua Data Table sẽ hiện thị thành bảng (đầu ra)

Trang 32

Hình 2.23 Hình minh họa Data Table

Bảng dữ liệu giúp bạn chọn dữ liệu bằng cách sắp xếp dữ liệu theo thuộc tính Filename: Hiển thị tên biến theo hàng và giá trị biến theo cột.

Thông tin về kích thước của tập dữ liệu hiện tại, số lượng và loại biến.

Các giá trị của một biến liên tục có thể được biểu thị bằng các thanh với các gradient màu khác nhau.

Các biến (trên mỗi dòng) có thể được chọn để đưa vào đầu ra của công cụ

Sử dụng công cụ Restore Original Order để khôi phục lại thứ tự ban đầu sau khi sắp xếp trên một thuộc tính.

Paint Data: vẽ dữ liệu 2D trên mặt phẳng máy Bản vẽ được lưu ở dưới dạng png/ svg

Trang 33

Hình 2.24 Hình minh họa Paint Orange

Data Info: thông tin về bộ dữ liệu được chọn, xuất hiện các thông tin như: đặc điểm, kích thước, mục đích, thuộc tính của meta, vị trí, báo cáo.

Hình 2.25 Hộp thoại Data Info

Rank : các thuộc tính được xếp hạng (phân loại/hồi quy)

Trang 34

Edit Domain: Đổi tên các tính năng và giá trị của chúng, có thể được sử dụng để chỉnh sửa / thay đổi tập dữ liệu tên miền.

Hình 2.26 Hình minh họa Edit Domain

Color: đặt chú thích màu trong trực quan hóa theo sở thích và cung cấp các công cụ để nhấn mạnh kết quả, tùy chọn màu sắc để trình bày dữ liệu.

Hình 2.27 Hình minh họa Color - Orange

Trang 35

Feature Statistics: năng cung cấp một cách nhanh chóng để kiểm tra và tìm các tính năng thú vị trong một tập dữ liệu nhất định.

Hình 2.28 Hình minh họa Feature Statistics

Save Data: lưu dữ liệu Nhóm Transform

Hình 2.29 Transform trong Orange

Ngày đăng: 08/04/2024, 08:03

Xem thêm:

w