Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu rất có ý nghĩa đối với hoạt động kinh doanh bởi lẽ đây là một phương thức tiếp cận đa ngành, được kết hợp hài hoà không chỉ giữa những ngu
GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
Giới thiệu về khoa học dữ liệu
Giới thiệu về đề tài
Lời nói đầu tiên nhóm em (nhóm 10) xin gửi lời cảm ơn chân thành đến TS. Nguyễn Quốc Hùng, giảng viên bộ môn Khoa học dữ liệu - một môn khá mới mẻ và thú vị đối sinh viên chúng em Trong thời gian làm dự án bộ môn Khoa học dữ liệu nhóm em đã nhận được nhiều sự giúp đỡ, đóng góp ý kiến và sự chỉ bảo nhiệt tình của Thầy Trong suốt quá trình học tập Thầy đã hỗ trợ và giúp đỡ chúng em rất tận tình.Thầy truyền đạt đến sinh viên một cách súc tích dễ hiểu và đầy tâm huyết đã giúp chúng em có cơ sở lý thuyết vững vàng, hay và bổ ích mở mang thêm hiểu biết về phần mềm Excel và Orange, càng hiểu rõ thêm về vai trò và tầm quan trọng của Khoa học dữ liệu trong đời sống cũng như sẽ giúp ích một phần vô cùng to lớn đến công việc của chúng em trong tương lai
Thành viên nhóm 10 chúng em đã cố gắng trau dồi, cùng nhau đóng góp ý kiến, làm việc đầy tâm huyết và hiệu quả để hoàn thành dự án “Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange” Thông qua dự án chúng em xin trình bày kiến thức và những kĩ năng được tích lũy trong quá trình học tập Với điều kiện thời gian cũng như kinh nghiệm còn hạn chế nhóm chúng em làm dự án sẽ không tránh khỏi những sai sót Nhóm chúng em rất mong nhận được sự chỉ bảo, đóng góp ý kiến của Thầy để có điều kiện bổ sung, sửa chữa và nâng cao ý thức phục vụ tốt hơn trong công việc trong tương lai.
Trong thời đại công nghệ số đang không ngừng phát triển như hiện nay, hệ thống thông tin dữ liệu đóng một phần rất quan trọng và lớn mạnh Nó giúp các nhà doanh nghiệp xây dựng hệ thống thông tin một cách logic, đưa ra các dự đoán, phân tích tính rủi ro giúp doanh nghiệp dễ dàng đưa ra các quyết định Trong thời buổi 4.0 hiện nay thì việc đẩy mạnh, chọn lọc những thông tin có ích là một việc vô cùng cần thiết nhằm phục vụ nhu cầu sống của con người nói chung và doanh nghiệp nói riệng.
Trong môi trường làm việc, attrition diễn tả việc tiêu hao lực lượng lao động không được dự báo trước Nguyên nhân của của sự sụt giảm này đều là những lý do không thể tránh được như nghỉ hưu, từ chức, nhân viên mất sức lao động hay đột ngột qua đời Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp.Khoa học dữ liệu sẽ giúp chúng ta nắm bắt những tình hình trên một cách chi tiết, rõ ràng và hệ thống thông qua các phần mềmExcel và đưa ra những dự đoán thông qua phần mềm Orange Để giúp doanh nghiệp đưa ra những quyết định đúng đắn, những thông tin ấy nhóm chúng em sẽ trình bày qua dự án Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange sau đây.
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về khoa học dữ liệu
Ngày nay, khi sống trong thời đại mới - thời đại văn minh, khoa học mà điển hình là sự phát triển vượt bậc của ngành công nghệ thông tin thì khoa học dữ liệu lại càng được chú trọng hơn bao giờ hết Sự hình thành và phát triển của khoa học dữ liệu bắt nguồn từ nhu cầu tối ưu hoá diện tích, thời gian, tốc độ lưu giữ và tra cứu thông tin Cụ thể hơn đó là việc thay thế những chiếc máy tính bàn cồng kềnh, ổ cứng máy tính hay ổ đĩa CD xuất hiện cách đây khoảng một thập niên bằng một số phương tiện lưu trữ khác: điện đám mây, mạng xã hội, website, thiết bị di động và các thiết bị cảm biến.
Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu rất có ý nghĩa đối với hoạt động kinh doanh bởi lẽ đây là một phương thức tiếp cận đa ngành, được kết hợp hài hoà không chỉ giữa những nguyên tắc mà còn có phương pháp thực hành trong lĩnh vực toán học, thống kê, trí tuệ nhân tạo, phân tích khối lượng lớn dữ liệu thông qua kỹ thuật máy tính Bằng vô vàn thiết bị thu thập, lưu trữ dữ liệu tự động cùng với các công nghệ hiện đại khác, chúng ta có sẵn khối lượng đồ sộ dữ liệu về thương mại, điện tử, y tế, tài chính cũng như hầu hết mọi khía cạnh của đời sống dưới dạng văn bản, hình ảnh, âm thanh,…Trong tương lai, khoa học dữ liệu sẽ có những đột phá mới về trí tuệ nhân tạo và máy móc giúp hoạt động xử lý dữ liệu diễn ra một cách nhanh chóng hơn nhưng vẫn đảm bảo được độ chính xác và tính hiệu quả Chính sự bùng nổ khoa học này mà không phải ngẫu nhiên mà người ta cho rằng khoa học dữ liệu có tầm ảnh hưởng và là một trong những ngàng chủ chốt có ưu thế đi đầu hiện nay.
Các lĩnh vực của khao học dữ liệu: khai thác dữ liệu (Data mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) và lập trình (Programming).
1.2 Giới thiệu về đề tài
1.2.1 Lý do chọn đề tài
Hao mòn lao động trong kinh doanh được mô tả thông qua sự sụt giảm, tiêu hao dần số lượng nhân viên một cách không được dự báo trước, chủ yếu xảy ra khi nhân viên nghỉ hưu, từ chức, mất sức lao động hay đột ngột qua đời Thuật ngữ này đôi khi cũng được sử dụng để mô tả sự mất mát của người mua hay khách hàng khi họ trưởng thành và vượt ra ngoài thị trường mục tiêu của sản phẩm hoặc công ty mà không được thay thế bởi một thế hệ trẻ khác Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp Những công ty có tỷ lệ lãng phí lao động cao thường phải đối mặt với nguy cơ lạm dụng nguồn lực nội bộ cũng như vẫn có thể phát sinh các tác dộng tiêu cực đến các nhân viên còn lại của công ty Đây là hiện trạng đã và đang xảy ra đối với đa số các công ty hiện nay và nhận được phần lớn sự quan tâm. Để có thể phân tích được các dữ liệu một cách tự động, nhóm chúng em cần sự hỗ trợ của các phần mềm như: Excel, Power BI,… Cùng với những dữ liệu đã thu thập được, chúng em tiếp tục sử dụng Orange để xây dựng quy trình khai thác thác dữ liệu một cách hoàn chỉnh hơn mà không mất quá nhiều thời gian để lập trình Cuối cùng, sau khi phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng cửa sổ phân tích, đánh giá mức độ hiệu quả, đồng thời đề xuất một số hướng giải quyết,
8 phát triển dành cho chủ đề này Và đó cũng là lý do nhóm em chọn đề tài “Phân tích bộ dữ liệu Employee Attrition qua các thuật toán trên Orange”
Khám phá, thu thập dữ liệu
Chọn lọc, làm sạch dữ liệu
Phân cụm, phân lớp dữ liệu
Dự đoán những yếu tố ảnh hưởng trực tiếp đến tỷ lệ nhân viên rời công ty Cung cấp cái nhìn tổng quan, trên nhiều phương diện về sự hao mòn lao động, từ đó nhận xét, đánh giá dựa trên dữ liệu đã phân tích
Tiến hành sử dụng phần mềm Orange để thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu Tiếp đó dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp Để thực hiện phân cụm bộ dữ liệu, nhóm đã sử dụng hai phương pháp chính là:
+ Đối với phương pháp Hierarchical clustering: tính khoảng cách giữa các phần tử bằng Distance, quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot
+ Đối với phương pháp K-means: quan sát chỉ số Silhouette trung bình khi phân dữ liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot
Bước tiếp theo đó là chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu.Đối với việc phân lớp dữ liệu, nhóm chọn biến “Subscribed” cho việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết dinh(Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (LogisticRgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn.
TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG
Các phương pháp của Excel dùng để khai thác dữ liệu
để khai thác dữ liệu.
- Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
4.1 những công việc đã thực hiện 4.2 Hướng phát triển
Chương 1: GIỚI THIỆU VỀ KHDL
VÀ GIỚI THIỆU ĐỀ TÀI KHDL 1.1 Giới thiệu về khoa học dữ liệu 1.2 Giới thiệu về đề tài
Phần mềm orange
- Chương 3: ỨNG DỤNG PP VÀO BÀI TOÁN THỰC TẾ
- Chương 3: ỨNG DỤNG Phương PHÁP VÀO BÀI TOÁN THỰC TẾ 3.1 Phân tích dữ liệu Employee Attrition
- Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Các phương pháp của excel dùng để khai thác dữ liệu.
- Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
4.1 những công việc đã thực hiện 4.2 Hướng phát triển
Chương 1: GIỚI THIỆU VỀ KHDL
VÀ GIỚI THIỆU ĐỀ TÀI KHDL 1.1 Giới thiệu về khoa học dữ liệu 1.2 Giới thiệu về đề tài
Lời nói đầu tiên nhóm em (nhóm 10) xin gửi lời cảm ơn chân thành đến TS. Nguyễn Quốc Hùng, giảng viên bộ môn Khoa học dữ liệu - một môn khá mới mẻ và thú vị đối sinh viên chúng em Trong thời gian làm dự án bộ môn Khoa học dữ liệu nhóm em đã nhận được nhiều sự giúp đỡ, đóng góp ý kiến và sự chỉ bảo nhiệt tình của Thầy Trong suốt quá trình học tập Thầy đã hỗ trợ và giúp đỡ chúng em rất tận tình.Thầy truyền đạt đến sinh viên một cách súc tích dễ hiểu và đầy tâm huyết đã giúp chúng em có cơ sở lý thuyết vững vàng, hay và bổ ích mở mang thêm hiểu biết về phần mềm Excel và Orange, càng hiểu rõ thêm về vai trò và tầm quan trọng của Khoa học dữ liệu trong đời sống cũng như sẽ giúp ích một phần vô cùng to lớn đến công việc của chúng em trong tương lai
Thành viên nhóm 10 chúng em đã cố gắng trau dồi, cùng nhau đóng góp ý kiến, làm việc đầy tâm huyết và hiệu quả để hoàn thành dự án “Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange” Thông qua dự án chúng em xin trình bày kiến thức và những kĩ năng được tích lũy trong quá trình học tập Với điều kiện thời gian cũng như kinh nghiệm còn hạn chế nhóm chúng em làm dự án sẽ không tránh khỏi những sai sót Nhóm chúng em rất mong nhận được sự chỉ bảo, đóng góp ý kiến của Thầy để có điều kiện bổ sung, sửa chữa và nâng cao ý thức phục vụ tốt hơn trong công việc trong tương lai.
Trong thời đại công nghệ số đang không ngừng phát triển như hiện nay, hệ thống thông tin dữ liệu đóng một phần rất quan trọng và lớn mạnh Nó giúp các nhà doanh nghiệp xây dựng hệ thống thông tin một cách logic, đưa ra các dự đoán, phân tích tính rủi ro giúp doanh nghiệp dễ dàng đưa ra các quyết định Trong thời buổi 4.0 hiện nay thì việc đẩy mạnh, chọn lọc những thông tin có ích là một việc vô cùng cần thiết nhằm phục vụ nhu cầu sống của con người nói chung và doanh nghiệp nói riệng.
Trong môi trường làm việc, attrition diễn tả việc tiêu hao lực lượng lao động không được dự báo trước Nguyên nhân của của sự sụt giảm này đều là những lý do không thể tránh được như nghỉ hưu, từ chức, nhân viên mất sức lao động hay đột ngột qua đời Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp.Khoa học dữ liệu sẽ giúp chúng ta nắm bắt những tình hình trên một cách chi tiết, rõ ràng và hệ thống thông qua các phần mềmExcel và đưa ra những dự đoán thông qua phần mềm Orange Để giúp doanh nghiệp đưa ra những quyết định đúng đắn, những thông tin ấy nhóm chúng em sẽ trình bày qua dự án Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange sau đây.
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về khoa học dữ liệu
Ngày nay, khi sống trong thời đại mới - thời đại văn minh, khoa học mà điển hình là sự phát triển vượt bậc của ngành công nghệ thông tin thì khoa học dữ liệu lại càng được chú trọng hơn bao giờ hết Sự hình thành và phát triển của khoa học dữ liệu bắt nguồn từ nhu cầu tối ưu hoá diện tích, thời gian, tốc độ lưu giữ và tra cứu thông tin Cụ thể hơn đó là việc thay thế những chiếc máy tính bàn cồng kềnh, ổ cứng máy tính hay ổ đĩa CD xuất hiện cách đây khoảng một thập niên bằng một số phương tiện lưu trữ khác: điện đám mây, mạng xã hội, website, thiết bị di động và các thiết bị cảm biến.
Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu rất có ý nghĩa đối với hoạt động kinh doanh bởi lẽ đây là một phương thức tiếp cận đa ngành, được kết hợp hài hoà không chỉ giữa những nguyên tắc mà còn có phương pháp thực hành trong lĩnh vực toán học, thống kê, trí tuệ nhân tạo, phân tích khối lượng lớn dữ liệu thông qua kỹ thuật máy tính Bằng vô vàn thiết bị thu thập, lưu trữ dữ liệu tự động cùng với các công nghệ hiện đại khác, chúng ta có sẵn khối lượng đồ sộ dữ liệu về thương mại, điện tử, y tế, tài chính cũng như hầu hết mọi khía cạnh của đời sống dưới dạng văn bản, hình ảnh, âm thanh,…Trong tương lai, khoa học dữ liệu sẽ có những đột phá mới về trí tuệ nhân tạo và máy móc giúp hoạt động xử lý dữ liệu diễn ra một cách nhanh chóng hơn nhưng vẫn đảm bảo được độ chính xác và tính hiệu quả Chính sự bùng nổ khoa học này mà không phải ngẫu nhiên mà người ta cho rằng khoa học dữ liệu có tầm ảnh hưởng và là một trong những ngàng chủ chốt có ưu thế đi đầu hiện nay.
Các lĩnh vực của khao học dữ liệu: khai thác dữ liệu (Data mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) và lập trình (Programming).
1.2 Giới thiệu về đề tài
1.2.1 Lý do chọn đề tài
Hao mòn lao động trong kinh doanh được mô tả thông qua sự sụt giảm, tiêu hao dần số lượng nhân viên một cách không được dự báo trước, chủ yếu xảy ra khi nhân viên nghỉ hưu, từ chức, mất sức lao động hay đột ngột qua đời Thuật ngữ này đôi khi cũng được sử dụng để mô tả sự mất mát của người mua hay khách hàng khi họ trưởng thành và vượt ra ngoài thị trường mục tiêu của sản phẩm hoặc công ty mà không được thay thế bởi một thế hệ trẻ khác Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp Những công ty có tỷ lệ lãng phí lao động cao thường phải đối mặt với nguy cơ lạm dụng nguồn lực nội bộ cũng như vẫn có thể phát sinh các tác dộng tiêu cực đến các nhân viên còn lại của công ty Đây là hiện trạng đã và đang xảy ra đối với đa số các công ty hiện nay và nhận được phần lớn sự quan tâm. Để có thể phân tích được các dữ liệu một cách tự động, nhóm chúng em cần sự hỗ trợ của các phần mềm như: Excel, Power BI,… Cùng với những dữ liệu đã thu thập được, chúng em tiếp tục sử dụng Orange để xây dựng quy trình khai thác thác dữ liệu một cách hoàn chỉnh hơn mà không mất quá nhiều thời gian để lập trình Cuối cùng, sau khi phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng cửa sổ phân tích, đánh giá mức độ hiệu quả, đồng thời đề xuất một số hướng giải quyết,
8 phát triển dành cho chủ đề này Và đó cũng là lý do nhóm em chọn đề tài “Phân tích bộ dữ liệu Employee Attrition qua các thuật toán trên Orange”
Khám phá, thu thập dữ liệu
Chọn lọc, làm sạch dữ liệu
Phân cụm, phân lớp dữ liệu
Dự đoán những yếu tố ảnh hưởng trực tiếp đến tỷ lệ nhân viên rời công ty Cung cấp cái nhìn tổng quan, trên nhiều phương diện về sự hao mòn lao động, từ đó nhận xét, đánh giá dựa trên dữ liệu đã phân tích
Tiến hành sử dụng phần mềm Orange để thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu Tiếp đó dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp Để thực hiện phân cụm bộ dữ liệu, nhóm đã sử dụng hai phương pháp chính là:
+ Đối với phương pháp Hierarchical clustering: tính khoảng cách giữa các phần tử bằng Distance, quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot
+ Đối với phương pháp K-means: quan sát chỉ số Silhouette trung bình khi phân dữ liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot
Bước tiếp theo đó là chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu.Đối với việc phân lớp dữ liệu, nhóm chọn biến “Subscribed” cho việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết dinh(Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (LogisticRgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn.
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG
2.1 Các phương pháp của Excel dùng để khai thác dữ liệu
Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office Phần mềm giúp người dùng ghi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn…và trong Khoa học dữ liệu, Excel được sử dụng để thống kê miêu tả, lưu các dữ liệu và phân tích các dự báo.
Các trang tính của Excel được tạo nên từ các hàng và cột Điểm giao nhau giữa 2 thành phần này sẽ được gọi là ô.
2.1.1 Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descriptive Statistics
- Bước 1: Chuẩn bị bảng số liệu cần thống kê.
- Bước 2: Chọn lệnh Data => Data Analysis => Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics.
- Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.
- Ví dụ: Thống kê mô tả cho số lượng máy tính bảng (đơn vị: chiếc) bán được trong năm 2022 tại cửa hàng A
Bảng 1:Bảng 2.1 Số liệu bán hàng trong năm tại cửa hàng A và hộp thoại Descriptive
Trong hộp thoại Descriptive Statistics:
- Input Range: Nhập cột chứa dữ liệu máy tính bảng
- Output Range: ô xuất hiện dữ liệu
Sau đó ta sẽ nhận được bảng kết quả gồm các giá trị trung bình (Mean), sai số chuẩn(SE),
Bảng 2:Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive Statistic
Mean: Giá trị trung bình
Standard Error: Sai số chuẩn
Standard Deviation: Độ lệch chuẩn
Sample Variance: Phương sai mẫu
Skewness: Độ bất đối xứng (Độ nghiêng)
Count: Số lượng phần tử
Confidence Level: Độ tin cậy
2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal Định nghĩa hàm Subtotal: Dùng để tính toán một danh sách các chữ số theo nhiều cách tính khác nhau như tính trung bình, tính tổng, giá trị lớn nhất hoặc giá trị nhỏ nhất.Chức năng của Subtotal:
- Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm
- Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm.
- Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kì trên dữ liệu.
- Bước 3: Chọn Data => Outline => Subtotal, xuất hiện hộp thoại Subtotal.
- Ví dụ: Thống kê Tổng số lượng của bảng số liệu sau theo từng quận bằng công cụ Subtotal.
Bảng 3:Bảng 2.3 Bảng tổng hợp doanh thu 6 tháng cuối năm 2017
Hình ảnh 1:Hình 2.1 Hộp thoại Subtotal
- At each change in: chọn cột gom nhóm( Quận)
- Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu( Sum)
- Add subtotal to : chọn cột thống kê giá trị(Doanh thu)
- Replace current subtotals: Chọn thay thế kết quả thống kê trước đó
- Page break between group: chọn để ngắt trang giữa các nhóm, khi in ra giấy thì mỗi nhóm một trang giấy
- Summary below data : chọn để kết quả tổng hợp dưới dạng mỗi nhóm
- Remove All : để xóa bỏ các kết quả tổng hợp
Bảng 4:Bảng 2.4 Bảng kết quả Thống kê tổng số lượng
2.1.1.3 Hợp nhất dữ liệu với Consolidate:
Định nghĩa: là hàm có chức năng hợp nhất các ô,cột,các trang tính lại với nhau. Chức năng:
- Cho phép cập nhật dữ liệu từ những bảng dữ liệu khác nhau.
ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ
Phân tích dữ liệu Employee Attrition
- Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Các phương pháp của excel dùng để khai thác dữ liệu.
- Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
4.1 những công việc đã thực hiện 4.2 Hướng phát triển
Chương 1: GIỚI THIỆU VỀ KHDL
VÀ GIỚI THIỆU ĐỀ TÀI KHDL 1.1 Giới thiệu về khoa học dữ liệu 1.2 Giới thiệu về đề tài
Phân lớp dữ liệu
- Chương 3: ỨNG DỤNG Phương PHÁP VÀO BÀI TOÁN THỰC TẾ 3.1 Phân tích dữ liệu Employee Attrition
- Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Các phương pháp của excel dùng để khai thác dữ liệu.
- Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
4.1 những công việc đã thực hiện 4.2 Hướng phát triển
Chương 1: GIỚI THIỆU VỀ KHDL
VÀ GIỚI THIỆU ĐỀ TÀI KHDL 1.1 Giới thiệu về khoa học dữ liệu 1.2 Giới thiệu về đề tài
Lời nói đầu tiên nhóm em (nhóm 10) xin gửi lời cảm ơn chân thành đến TS. Nguyễn Quốc Hùng, giảng viên bộ môn Khoa học dữ liệu - một môn khá mới mẻ và thú vị đối sinh viên chúng em Trong thời gian làm dự án bộ môn Khoa học dữ liệu nhóm em đã nhận được nhiều sự giúp đỡ, đóng góp ý kiến và sự chỉ bảo nhiệt tình của Thầy Trong suốt quá trình học tập Thầy đã hỗ trợ và giúp đỡ chúng em rất tận tình.Thầy truyền đạt đến sinh viên một cách súc tích dễ hiểu và đầy tâm huyết đã giúp chúng em có cơ sở lý thuyết vững vàng, hay và bổ ích mở mang thêm hiểu biết về phần mềm Excel và Orange, càng hiểu rõ thêm về vai trò và tầm quan trọng của Khoa học dữ liệu trong đời sống cũng như sẽ giúp ích một phần vô cùng to lớn đến công việc của chúng em trong tương lai
Thành viên nhóm 10 chúng em đã cố gắng trau dồi, cùng nhau đóng góp ý kiến, làm việc đầy tâm huyết và hiệu quả để hoàn thành dự án “Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange” Thông qua dự án chúng em xin trình bày kiến thức và những kĩ năng được tích lũy trong quá trình học tập Với điều kiện thời gian cũng như kinh nghiệm còn hạn chế nhóm chúng em làm dự án sẽ không tránh khỏi những sai sót Nhóm chúng em rất mong nhận được sự chỉ bảo, đóng góp ý kiến của Thầy để có điều kiện bổ sung, sửa chữa và nâng cao ý thức phục vụ tốt hơn trong công việc trong tương lai.
Trong thời đại công nghệ số đang không ngừng phát triển như hiện nay, hệ thống thông tin dữ liệu đóng một phần rất quan trọng và lớn mạnh Nó giúp các nhà doanh nghiệp xây dựng hệ thống thông tin một cách logic, đưa ra các dự đoán, phân tích tính rủi ro giúp doanh nghiệp dễ dàng đưa ra các quyết định Trong thời buổi 4.0 hiện nay thì việc đẩy mạnh, chọn lọc những thông tin có ích là một việc vô cùng cần thiết nhằm phục vụ nhu cầu sống của con người nói chung và doanh nghiệp nói riệng.
Trong môi trường làm việc, attrition diễn tả việc tiêu hao lực lượng lao động không được dự báo trước Nguyên nhân của của sự sụt giảm này đều là những lý do không thể tránh được như nghỉ hưu, từ chức, nhân viên mất sức lao động hay đột ngột qua đời Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp.Khoa học dữ liệu sẽ giúp chúng ta nắm bắt những tình hình trên một cách chi tiết, rõ ràng và hệ thống thông qua các phần mềmExcel và đưa ra những dự đoán thông qua phần mềm Orange Để giúp doanh nghiệp đưa ra những quyết định đúng đắn, những thông tin ấy nhóm chúng em sẽ trình bày qua dự án Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange sau đây.
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về khoa học dữ liệu
Ngày nay, khi sống trong thời đại mới - thời đại văn minh, khoa học mà điển hình là sự phát triển vượt bậc của ngành công nghệ thông tin thì khoa học dữ liệu lại càng được chú trọng hơn bao giờ hết Sự hình thành và phát triển của khoa học dữ liệu bắt nguồn từ nhu cầu tối ưu hoá diện tích, thời gian, tốc độ lưu giữ và tra cứu thông tin Cụ thể hơn đó là việc thay thế những chiếc máy tính bàn cồng kềnh, ổ cứng máy tính hay ổ đĩa CD xuất hiện cách đây khoảng một thập niên bằng một số phương tiện lưu trữ khác: điện đám mây, mạng xã hội, website, thiết bị di động và các thiết bị cảm biến.
Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu rất có ý nghĩa đối với hoạt động kinh doanh bởi lẽ đây là một phương thức tiếp cận đa ngành, được kết hợp hài hoà không chỉ giữa những nguyên tắc mà còn có phương pháp thực hành trong lĩnh vực toán học, thống kê, trí tuệ nhân tạo, phân tích khối lượng lớn dữ liệu thông qua kỹ thuật máy tính Bằng vô vàn thiết bị thu thập, lưu trữ dữ liệu tự động cùng với các công nghệ hiện đại khác, chúng ta có sẵn khối lượng đồ sộ dữ liệu về thương mại, điện tử, y tế, tài chính cũng như hầu hết mọi khía cạnh của đời sống dưới dạng văn bản, hình ảnh, âm thanh,…Trong tương lai, khoa học dữ liệu sẽ có những đột phá mới về trí tuệ nhân tạo và máy móc giúp hoạt động xử lý dữ liệu diễn ra một cách nhanh chóng hơn nhưng vẫn đảm bảo được độ chính xác và tính hiệu quả Chính sự bùng nổ khoa học này mà không phải ngẫu nhiên mà người ta cho rằng khoa học dữ liệu có tầm ảnh hưởng và là một trong những ngàng chủ chốt có ưu thế đi đầu hiện nay.
Các lĩnh vực của khao học dữ liệu: khai thác dữ liệu (Data mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) và lập trình (Programming).
1.2 Giới thiệu về đề tài
1.2.1 Lý do chọn đề tài
Hao mòn lao động trong kinh doanh được mô tả thông qua sự sụt giảm, tiêu hao dần số lượng nhân viên một cách không được dự báo trước, chủ yếu xảy ra khi nhân viên nghỉ hưu, từ chức, mất sức lao động hay đột ngột qua đời Thuật ngữ này đôi khi cũng được sử dụng để mô tả sự mất mát của người mua hay khách hàng khi họ trưởng thành và vượt ra ngoài thị trường mục tiêu của sản phẩm hoặc công ty mà không được thay thế bởi một thế hệ trẻ khác Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp Những công ty có tỷ lệ lãng phí lao động cao thường phải đối mặt với nguy cơ lạm dụng nguồn lực nội bộ cũng như vẫn có thể phát sinh các tác dộng tiêu cực đến các nhân viên còn lại của công ty Đây là hiện trạng đã và đang xảy ra đối với đa số các công ty hiện nay và nhận được phần lớn sự quan tâm. Để có thể phân tích được các dữ liệu một cách tự động, nhóm chúng em cần sự hỗ trợ của các phần mềm như: Excel, Power BI,… Cùng với những dữ liệu đã thu thập được, chúng em tiếp tục sử dụng Orange để xây dựng quy trình khai thác thác dữ liệu một cách hoàn chỉnh hơn mà không mất quá nhiều thời gian để lập trình Cuối cùng, sau khi phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng cửa sổ phân tích, đánh giá mức độ hiệu quả, đồng thời đề xuất một số hướng giải quyết,
8 phát triển dành cho chủ đề này Và đó cũng là lý do nhóm em chọn đề tài “Phân tích bộ dữ liệu Employee Attrition qua các thuật toán trên Orange”
Khám phá, thu thập dữ liệu
Chọn lọc, làm sạch dữ liệu
Phân cụm, phân lớp dữ liệu
Dự đoán những yếu tố ảnh hưởng trực tiếp đến tỷ lệ nhân viên rời công ty Cung cấp cái nhìn tổng quan, trên nhiều phương diện về sự hao mòn lao động, từ đó nhận xét, đánh giá dựa trên dữ liệu đã phân tích
Tiến hành sử dụng phần mềm Orange để thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu Tiếp đó dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp Để thực hiện phân cụm bộ dữ liệu, nhóm đã sử dụng hai phương pháp chính là:
+ Đối với phương pháp Hierarchical clustering: tính khoảng cách giữa các phần tử bằng Distance, quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot
+ Đối với phương pháp K-means: quan sát chỉ số Silhouette trung bình khi phân dữ liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot
Bước tiếp theo đó là chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu.Đối với việc phân lớp dữ liệu, nhóm chọn biến “Subscribed” cho việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết dinh(Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (LogisticRgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn.
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG
2.1 Các phương pháp của Excel dùng để khai thác dữ liệu
Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office Phần mềm giúp người dùng ghi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn…và trong Khoa học dữ liệu, Excel được sử dụng để thống kê miêu tả, lưu các dữ liệu và phân tích các dự báo.
Các trang tính của Excel được tạo nên từ các hàng và cột Điểm giao nhau giữa 2 thành phần này sẽ được gọi là ô.
2.1.1 Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descriptive Statistics
- Bước 1: Chuẩn bị bảng số liệu cần thống kê.
- Bước 2: Chọn lệnh Data => Data Analysis => Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics.
- Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.
- Ví dụ: Thống kê mô tả cho số lượng máy tính bảng (đơn vị: chiếc) bán được trong năm 2022 tại cửa hàng A
Bảng 1:Bảng 2.1 Số liệu bán hàng trong năm tại cửa hàng A và hộp thoại Descriptive
Trong hộp thoại Descriptive Statistics:
- Input Range: Nhập cột chứa dữ liệu máy tính bảng
- Output Range: ô xuất hiện dữ liệu
Sau đó ta sẽ nhận được bảng kết quả gồm các giá trị trung bình (Mean), sai số chuẩn(SE),
Bảng 2:Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive Statistic
Mean: Giá trị trung bình
Standard Error: Sai số chuẩn
Standard Deviation: Độ lệch chuẩn
Sample Variance: Phương sai mẫu
Skewness: Độ bất đối xứng (Độ nghiêng)
Count: Số lượng phần tử
Confidence Level: Độ tin cậy
2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal Định nghĩa hàm Subtotal: Dùng để tính toán một danh sách các chữ số theo nhiều cách tính khác nhau như tính trung bình, tính tổng, giá trị lớn nhất hoặc giá trị nhỏ nhất.Chức năng của Subtotal:
- Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm
- Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm.
- Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kì trên dữ liệu.
- Bước 3: Chọn Data => Outline => Subtotal, xuất hiện hộp thoại Subtotal.
- Ví dụ: Thống kê Tổng số lượng của bảng số liệu sau theo từng quận bằng công cụ Subtotal.
Bảng 3:Bảng 2.3 Bảng tổng hợp doanh thu 6 tháng cuối năm 2017
Hình ảnh 1:Hình 2.1 Hộp thoại Subtotal
- At each change in: chọn cột gom nhóm( Quận)
- Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu( Sum)
- Add subtotal to : chọn cột thống kê giá trị(Doanh thu)
- Replace current subtotals: Chọn thay thế kết quả thống kê trước đó
- Page break between group: chọn để ngắt trang giữa các nhóm, khi in ra giấy thì mỗi nhóm một trang giấy
- Summary below data : chọn để kết quả tổng hợp dưới dạng mỗi nhóm
- Remove All : để xóa bỏ các kết quả tổng hợp
Bảng 4:Bảng 2.4 Bảng kết quả Thống kê tổng số lượng
2.1.1.3 Hợp nhất dữ liệu với Consolidate:
Định nghĩa: là hàm có chức năng hợp nhất các ô,cột,các trang tính lại với nhau. Chức năng:
- Cho phép cập nhật dữ liệu từ những bảng dữ liệu khác nhau.
ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH
Những công việc đã thực hiện
Chương 1: GIỚI THIỆU VỀ KHDL
VÀ GIỚI THIỆU ĐỀ TÀI KHDL 1.1 Giới thiệu về khoa học dữ liệu 1.2 Giới thiệu về đề tài
Giải pháp
Chương 1: GIỚI THIỆU VỀ KHDL
VÀ GIỚI THIỆU ĐỀ TÀI KHDL 1.1 Giới thiệu về khoa học dữ liệu 1.2 Giới thiệu về đề tài
Lời nói đầu tiên nhóm em (nhóm 10) xin gửi lời cảm ơn chân thành đến TS. Nguyễn Quốc Hùng, giảng viên bộ môn Khoa học dữ liệu - một môn khá mới mẻ và thú vị đối sinh viên chúng em Trong thời gian làm dự án bộ môn Khoa học dữ liệu nhóm em đã nhận được nhiều sự giúp đỡ, đóng góp ý kiến và sự chỉ bảo nhiệt tình của Thầy Trong suốt quá trình học tập Thầy đã hỗ trợ và giúp đỡ chúng em rất tận tình.Thầy truyền đạt đến sinh viên một cách súc tích dễ hiểu và đầy tâm huyết đã giúp chúng em có cơ sở lý thuyết vững vàng, hay và bổ ích mở mang thêm hiểu biết về phần mềm Excel và Orange, càng hiểu rõ thêm về vai trò và tầm quan trọng của Khoa học dữ liệu trong đời sống cũng như sẽ giúp ích một phần vô cùng to lớn đến công việc của chúng em trong tương lai
Thành viên nhóm 10 chúng em đã cố gắng trau dồi, cùng nhau đóng góp ý kiến, làm việc đầy tâm huyết và hiệu quả để hoàn thành dự án “Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange” Thông qua dự án chúng em xin trình bày kiến thức và những kĩ năng được tích lũy trong quá trình học tập Với điều kiện thời gian cũng như kinh nghiệm còn hạn chế nhóm chúng em làm dự án sẽ không tránh khỏi những sai sót Nhóm chúng em rất mong nhận được sự chỉ bảo, đóng góp ý kiến của Thầy để có điều kiện bổ sung, sửa chữa và nâng cao ý thức phục vụ tốt hơn trong công việc trong tương lai.
Trong thời đại công nghệ số đang không ngừng phát triển như hiện nay, hệ thống thông tin dữ liệu đóng một phần rất quan trọng và lớn mạnh Nó giúp các nhà doanh nghiệp xây dựng hệ thống thông tin một cách logic, đưa ra các dự đoán, phân tích tính rủi ro giúp doanh nghiệp dễ dàng đưa ra các quyết định Trong thời buổi 4.0 hiện nay thì việc đẩy mạnh, chọn lọc những thông tin có ích là một việc vô cùng cần thiết nhằm phục vụ nhu cầu sống của con người nói chung và doanh nghiệp nói riệng.
Trong môi trường làm việc, attrition diễn tả việc tiêu hao lực lượng lao động không được dự báo trước Nguyên nhân của của sự sụt giảm này đều là những lý do không thể tránh được như nghỉ hưu, từ chức, nhân viên mất sức lao động hay đột ngột qua đời Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp.Khoa học dữ liệu sẽ giúp chúng ta nắm bắt những tình hình trên một cách chi tiết, rõ ràng và hệ thống thông qua các phần mềmExcel và đưa ra những dự đoán thông qua phần mềm Orange Để giúp doanh nghiệp đưa ra những quyết định đúng đắn, những thông tin ấy nhóm chúng em sẽ trình bày qua dự án Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange sau đây.
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về khoa học dữ liệu
Ngày nay, khi sống trong thời đại mới - thời đại văn minh, khoa học mà điển hình là sự phát triển vượt bậc của ngành công nghệ thông tin thì khoa học dữ liệu lại càng được chú trọng hơn bao giờ hết Sự hình thành và phát triển của khoa học dữ liệu bắt nguồn từ nhu cầu tối ưu hoá diện tích, thời gian, tốc độ lưu giữ và tra cứu thông tin Cụ thể hơn đó là việc thay thế những chiếc máy tính bàn cồng kềnh, ổ cứng máy tính hay ổ đĩa CD xuất hiện cách đây khoảng một thập niên bằng một số phương tiện lưu trữ khác: điện đám mây, mạng xã hội, website, thiết bị di động và các thiết bị cảm biến.
Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu rất có ý nghĩa đối với hoạt động kinh doanh bởi lẽ đây là một phương thức tiếp cận đa ngành, được kết hợp hài hoà không chỉ giữa những nguyên tắc mà còn có phương pháp thực hành trong lĩnh vực toán học, thống kê, trí tuệ nhân tạo, phân tích khối lượng lớn dữ liệu thông qua kỹ thuật máy tính Bằng vô vàn thiết bị thu thập, lưu trữ dữ liệu tự động cùng với các công nghệ hiện đại khác, chúng ta có sẵn khối lượng đồ sộ dữ liệu về thương mại, điện tử, y tế, tài chính cũng như hầu hết mọi khía cạnh của đời sống dưới dạng văn bản, hình ảnh, âm thanh,…Trong tương lai, khoa học dữ liệu sẽ có những đột phá mới về trí tuệ nhân tạo và máy móc giúp hoạt động xử lý dữ liệu diễn ra một cách nhanh chóng hơn nhưng vẫn đảm bảo được độ chính xác và tính hiệu quả Chính sự bùng nổ khoa học này mà không phải ngẫu nhiên mà người ta cho rằng khoa học dữ liệu có tầm ảnh hưởng và là một trong những ngàng chủ chốt có ưu thế đi đầu hiện nay.
Các lĩnh vực của khao học dữ liệu: khai thác dữ liệu (Data mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) và lập trình (Programming).
1.2 Giới thiệu về đề tài
1.2.1 Lý do chọn đề tài
Hao mòn lao động trong kinh doanh được mô tả thông qua sự sụt giảm, tiêu hao dần số lượng nhân viên một cách không được dự báo trước, chủ yếu xảy ra khi nhân viên nghỉ hưu, từ chức, mất sức lao động hay đột ngột qua đời Thuật ngữ này đôi khi cũng được sử dụng để mô tả sự mất mát của người mua hay khách hàng khi họ trưởng thành và vượt ra ngoài thị trường mục tiêu của sản phẩm hoặc công ty mà không được thay thế bởi một thế hệ trẻ khác Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp Những công ty có tỷ lệ lãng phí lao động cao thường phải đối mặt với nguy cơ lạm dụng nguồn lực nội bộ cũng như vẫn có thể phát sinh các tác dộng tiêu cực đến các nhân viên còn lại của công ty Đây là hiện trạng đã và đang xảy ra đối với đa số các công ty hiện nay và nhận được phần lớn sự quan tâm. Để có thể phân tích được các dữ liệu một cách tự động, nhóm chúng em cần sự hỗ trợ của các phần mềm như: Excel, Power BI,… Cùng với những dữ liệu đã thu thập được, chúng em tiếp tục sử dụng Orange để xây dựng quy trình khai thác thác dữ liệu một cách hoàn chỉnh hơn mà không mất quá nhiều thời gian để lập trình Cuối cùng, sau khi phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng cửa sổ phân tích, đánh giá mức độ hiệu quả, đồng thời đề xuất một số hướng giải quyết,
8 phát triển dành cho chủ đề này Và đó cũng là lý do nhóm em chọn đề tài “Phân tích bộ dữ liệu Employee Attrition qua các thuật toán trên Orange”
Khám phá, thu thập dữ liệu
Chọn lọc, làm sạch dữ liệu
Phân cụm, phân lớp dữ liệu
Dự đoán những yếu tố ảnh hưởng trực tiếp đến tỷ lệ nhân viên rời công ty Cung cấp cái nhìn tổng quan, trên nhiều phương diện về sự hao mòn lao động, từ đó nhận xét, đánh giá dựa trên dữ liệu đã phân tích
Tiến hành sử dụng phần mềm Orange để thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu Tiếp đó dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp Để thực hiện phân cụm bộ dữ liệu, nhóm đã sử dụng hai phương pháp chính là:
+ Đối với phương pháp Hierarchical clustering: tính khoảng cách giữa các phần tử bằng Distance, quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot
+ Đối với phương pháp K-means: quan sát chỉ số Silhouette trung bình khi phân dữ liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot
Bước tiếp theo đó là chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu.Đối với việc phân lớp dữ liệu, nhóm chọn biến “Subscribed” cho việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết dinh(Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (LogisticRgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn.
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG
2.1 Các phương pháp của Excel dùng để khai thác dữ liệu
Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office Phần mềm giúp người dùng ghi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn…và trong Khoa học dữ liệu, Excel được sử dụng để thống kê miêu tả, lưu các dữ liệu và phân tích các dự báo.
Các trang tính của Excel được tạo nên từ các hàng và cột Điểm giao nhau giữa 2 thành phần này sẽ được gọi là ô.
2.1.1 Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descriptive Statistics
- Bước 1: Chuẩn bị bảng số liệu cần thống kê.
- Bước 2: Chọn lệnh Data => Data Analysis => Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics.
- Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.
- Ví dụ: Thống kê mô tả cho số lượng máy tính bảng (đơn vị: chiếc) bán được trong năm 2022 tại cửa hàng A
Bảng 1:Bảng 2.1 Số liệu bán hàng trong năm tại cửa hàng A và hộp thoại Descriptive
Trong hộp thoại Descriptive Statistics:
- Input Range: Nhập cột chứa dữ liệu máy tính bảng
- Output Range: ô xuất hiện dữ liệu
Sau đó ta sẽ nhận được bảng kết quả gồm các giá trị trung bình (Mean), sai số chuẩn(SE),
Bảng 2:Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive Statistic
Mean: Giá trị trung bình
Standard Error: Sai số chuẩn
Standard Deviation: Độ lệch chuẩn
Sample Variance: Phương sai mẫu
Skewness: Độ bất đối xứng (Độ nghiêng)
Count: Số lượng phần tử
Confidence Level: Độ tin cậy
2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal Định nghĩa hàm Subtotal: Dùng để tính toán một danh sách các chữ số theo nhiều cách tính khác nhau như tính trung bình, tính tổng, giá trị lớn nhất hoặc giá trị nhỏ nhất.Chức năng của Subtotal:
- Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm
- Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm.
- Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kì trên dữ liệu.
- Bước 3: Chọn Data => Outline => Subtotal, xuất hiện hộp thoại Subtotal.
- Ví dụ: Thống kê Tổng số lượng của bảng số liệu sau theo từng quận bằng công cụ Subtotal.
Bảng 3:Bảng 2.3 Bảng tổng hợp doanh thu 6 tháng cuối năm 2017
Hình ảnh 1:Hình 2.1 Hộp thoại Subtotal
- At each change in: chọn cột gom nhóm( Quận)
- Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu( Sum)
- Add subtotal to : chọn cột thống kê giá trị(Doanh thu)
- Replace current subtotals: Chọn thay thế kết quả thống kê trước đó
- Page break between group: chọn để ngắt trang giữa các nhóm, khi in ra giấy thì mỗi nhóm một trang giấy
- Summary below data : chọn để kết quả tổng hợp dưới dạng mỗi nhóm
- Remove All : để xóa bỏ các kết quả tổng hợp
Bảng 4:Bảng 2.4 Bảng kết quả Thống kê tổng số lượng
2.1.1.3 Hợp nhất dữ liệu với Consolidate:
Định nghĩa: là hàm có chức năng hợp nhất các ô,cột,các trang tính lại với nhau. Chức năng:
- Cho phép cập nhật dữ liệu từ những bảng dữ liệu khác nhau.