Lý do chọn đề tài Trong thời đại công nghệ với các dạng dữ liệu được tăng theo cấp số nhân trong từng ngày, việc các công fy, tập đoàn sử dụng các công cụ để nghiên cứu và đưa ra các dự
Trang 1
DAI HOC KINH TE THANH PHO HO CHI MINH
KHOA CONG NGHE THONG TIN KINH DOANH UEH
UNIVERSITY
TIEU LUAN
MON HOC: KHOA HOC DU LIEU _ DE TAI: PHAN TÍCH VÀ DỰ BÁO CÁC KHẢ NĂNG NHÂN VIÊN SẼ RỜI KHOI CÔNG TY
Giảng viên hướng dẫn: Lê Hữu Thanh Tùng
Mã lớp học phần: 23C1INE50905950
Nhóm sinh viên thực hiện: Nhóm 8
Hoang Thi Mai Dao 31221020618 Huynh Thị Công Lộc 31221026905 Nguyễn Như Quỳnh 31221021045
Trang 2
- Nội dung 3 — Phân cụm
- Noi dung 3- Phan cum dtr liệu chưa có nhãn
- Phân tích Mô hình nghiên cứu
- Nội dung Tổng quan
Thúy Vân 3122102015 - Chọn bộ dữ liệu
- Nội dung phần Giới thiệu
- Lý thuyết 2 Khai phá dữ liệu
- Kết luận 100%
Trang 3
MUC LUC
L Giới thiệu
2.1.5.1 Kỹ thuật khai phá tập phố biến và luật kết hợpp - 50 5c 2 St crintrierrrrrrrrrrrrerree 4
2.1.5.3 Phân cụm dữ liệu (Clustering Data) ch HH Hà Hà Hà Hà HH HH ky 5
2.2.4.4, ROC (Receiver Operating Characteristic) va AUC (Area Under the Curve)
3
Trang 42.2.4.5 Cross Validation: K-fold và Holdout( - nh TH HH HH tk hờ 13
3.3.1.1 Bid 10) 0n n6 4Ö 32
kh „CN ẽ 32 3.3.2 Mô hình nghiên cứu đề xuất cà nh tà Thìn nà HH ra ga ưng 33
Dữ liệu của bài luận được lấy dựa trên việc lấy 499 nhân viên được sử dụng đã được lấy từ trang
3.3.4 Mô tả bộ dữ liệu huấn luyện và dự báo -.- c2 tt HH HH1 1311111111 11 ke 33 3.3.4.1 Mô tả bộ dữ liệu huấn luyện 0: 222 2L ỲnHr HH HH HH 11x rrrerree 33
3.3.5.2 Kết quả bộ dữ liệu dự báo 2c 2 2 x22 2n HH HH HH 1 rrrerrdet 38 3.3.6 Kết luận của bài nghiên cứu - + 222t22292212221121212121 2211.1211.171 Tri 40
nh.) nh ắ ä 40 4.2 Hạn chế - Giải pháp - 0 0c nề Hà nà HH HH HH HH ra are 40 IY.)80)0)00/)9:7)/8.4)7 (oiaớŨỚớố.Ầ 41
Trang 5I GIỚI THIỆU
1 Lý do chọn đề tài
Trong thời đại công nghệ với các dạng dữ liệu được tăng theo cấp số nhân trong từng ngày, việc các công fy, tập đoàn sử dụng các công cụ để nghiên cứu và đưa ra các dự báo cho xu hướng tương lai dé điều hướng cách thức hoạt động và hoàn thiện công việc để vững mạnh trên
các thị trường là điều hiển nhiên
Mong muốn có một công ty phát triển dài hạn và bên vững trên các lĩnh vực, nhân viên luôn là một trong những yêu tô vô cùng quan trọng, mỗi hành động và năng lực của mỗi cá
nhân công ty đều là bộ mặt thê hiện sức mạnh của công ty Một khi nhân viên lựa chọn việc rời
bỏ công việc hiện tại, sẽ có tác động vô cùng mạnh mẽ đối với tình hình chung và lực lượng lao động của công ty Đề có một lợi thế vững mạnh hơn so với các công ty, t6 chức khác trong thị trường, giảm di tối đa lượng nhân viên rời bỏ công việc là điều vô cùng cần thiết Điều quan trọng là phải biết lí đo chủ yếu tại sao các nhân viên lại lựa chọn rời đi khi có kinh nghiệm, gan
bó với công ty Việc đánh mất một nhân viên với kinh nghiệm được đảo tạo bài ban sau vai năm thay vào đó là một nhân viên mới đề lắp đây vị trí còn sót lại đòi hỏi rất nhiều thời gian,
công sức và chi phí phát sinh Đó là lí do tại sao việc sử dụng lao động một cách hợp lí và tìm
cách giữ các nhân viên gắn bó lâu dài với công ty và tổ chức là quan trọng Bằng cách biết
được lí do tại sao nhân viên lựa chọn rời công ty và nghỉ việc, các người sử dụng lao động có thể tránh tái diễn lại các vấn đề đó, tạo ra được môi trường thoải mái và dễ chịu hơn
2 Mục tiêu nghiên cứu:
Xây dựng mô hình nghiên cửu dựa vào bộ dữ liệu, từ đó đưa ra những chiến lược tốt nhất
đê dự đoán khả năng I nhân viên sẽ rời ổI
3 Đối tượng và phương pháp nghiên cứu
Mô hình khoa học dữ liệu và thuật toán phân lớp dữ liệu đề ứng dụng trong việc dự đoán khả năng mà nhân viên sẽ lựa chọn rời khỏi công ty đê từ đó có thê tìm ra những biện pháp tôi
ưu đề nhân viên có thê tiệp tục ở lại găn bó lâu dài với công ty
Dữ liệu được cập nhật hàng năm bao gồm các chỉ số như: trình độ học vấn, kinh nghiệm có được, số năm mà nhân viên gia nhập công ty, độ tuôi, giới tính của nhân viên
4 Phương pháp nghiên cứu
4.1 Phương pháp nghiên cứu lý luận
Tiến hành nghiên cứu, thu thập, lựa chọn và phân tích dữ liệu, thông tin và khái niệm thông
qua việc đọc sách, báo và tài liệu, điều này sẽ tạo ra những khái niệm và ý tưởng quan trọng nhất cho các nghiên cứu và dự án trong tương lai Dự đoán đặc điểm của đôi tượng nghiên cứu
và xây dựng các giải thuyết lý thuyết ban đầu Bao gồm các cách tiếp cận sau:
Trang 6* Phuong phap phan tich — - tổng hợp lý thuyết: Từ nguôn tài liệu, nghiên cứu khoa học
từ sách báo, sau đó đọc, kết hợp đề thu thập những nội dung cần thiết cho luận điểm của bài nghiên cứu
* Phương pháp mô hình hóa: sử dụng phương pháp nghiên cứu dựa trên lý thuyết và ứng dụng của mô hình đề dự báo nhăm đánh giá mức độ chính xác của mô hình
4.2 Phương pháp nghiên cứu thực tiễn
Từ những cơ sở lý luận, ta có thê vận dụng chúng vào các phương pháp nghiên cứu thực tế:
- Thông qua các thuật toán của phần mềm Orange — một công cụ trực quan hỗ trợ nghiên cứu về Machine Learning và thực hành khoa học dữ liệu, nền tảng phần mềm này cung cấp nhiều chức năng khác nhau
- Từ đó, tạo ra các mô hình dự đoán các sự kiện sắp tới dựa trên dữ liệu huấn luyện có sẵn
và đánh giá kêt quả với nhau đề chọn ta mô hình dự đoán tốc độ và độ chính xác một cách
chính xác nhat
5 Cấu trúc bài nghiên cứu
Phan 1: Giới thiệu
Phần 2: Cơ sở lý luận
Phần 3: Phân tích va thảo luận phương pháp
Phần 4: Kết luận
II Cơ sở lý luận
2.1 Khai pha dữ liệu
2.1.1 Quá trình phát hiện trï thức và khai phá dữ liệu
Trong quá trình tìm hiểu kiến thức và khai phá các nguồn dữ liệu, ta cần phải biết cách chọn lọc và sử dụng nguồn thông tin một cách có hiệu quả Từ đó có được các quyết định chính xác để phân tích dữ liệu Từ các dữ liệu sẵn có phải tim ra thong tin tiém an co gia tri chua được phát hiện, phải tìm ra xu hướng và những yếu tổ tác động lên chúng Quá trình đó được gọi là quá trình phát hiện trì thức trong cơ so dtr liéu (Knowledge Discovery in Database - KDD) trong đó kỹ thuật cho phép lấy các tri thức chính là pha khai phá dữ liệu (KPDL) Quá trình KPDL gồm 5 bước cơ bản sau:
H Bước 1: Chon loc dir liéu (Selection): Giai doan nay can thu thập dữ liệu đã thu được vào một CSDL riêng Ở đây ta chỉ lọc và giữ lại những dữ liệu cần thiết cho quá trình khai phá
ở các giai đoạn tiếp theo Công việc ở giai đoạn này thường khó khăn và đòi hỏi nhiều thời gian
vì dữ liệu thường ở nhiều dạng khác nhau, với số lượng lớn và nằm rải rác khắp nơi
2
Trang 7H Bước 2: Tiền xử lý dữ liệu (Pre- -processing): Ở giai đoạn này, ta tiễn hành loại bỏ dữ liệu rườm rà, giúp hạn chế tối đa những kết quả xấu, không mong muốn trước khi KPDL
H Bước 3: Chuyền đổi dữ liệu (Transformafion): Giai đoạn này ta sẽ chuyên đối dữ liệu thành các dạng phù hợp cho các bước tiếp theo
H Bước 4: Khai thác dữ liệu (Data mining): Giai đoạn nảy ta sẽ dùng các kỹ thuật để phát hiện ra tri thức tiềm ân trong dữ liệu
LH Bước 5: Đánh gia kết quả mẫu (Interpretation evaluation): Day la budc cudi cung trong quy trình Sau khi đã KPDL sẽ đánh giá lại lần cuối cùng và xem xét sao cho sử dụng
được các mẫu đữ liệu được trích xuất bởi phân mềm Khoa học đữ liệu
Chúng ta có thê thấy quá trình khám phá tri thức đã trải qua một số giai đoạn và cách tiếp cận đề đạt kết quả cuôi cùng Đây là một quá trình liên tục, kết quả của giai đoạn này là bắt đầu của giai đoạn tiếp theo Khai thác dữ liệu là vô cùng cần thiết vì nó phát hiện kiến thức và thông tin có nguy cơ bị chôn vùi trong kho dữ liệu không lồ
2.1.2 Khái niệm khai phá dữ liệu
Khai phá dữ liệu (data mining) Là quá trình tính toán để tìm ra các mẫu trong các bộ dit liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ
sở đữ liệu Đây là một lĩnh vực liên ngành của khoa học máy tính Mục tiêu tổng thể của quá
trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyền nó thành một cầu trúc
dễ hiểu để sử dụng tiếp
2.1.3 Các tính năng chính của khai phá dữ liệu
Có nhiều tham số quan trọng trong khai phá dữ liệu, chang han nhu cac quy tac vé phan loại và phân cụm Khai phá dữ liệu có 5 tinh nang chính, cụ thê như sau:
Dự đoán các mẫu dựa trên xu hướng trong dữ liệu
Tính toán dự đoán kết quả
Tạo thông tin phản hồi dé phan tích
Tập trung vào cơ sở dữ liệu lớn hơn
Phân cụm dữ liệu trực quan
Xác Xác Thu thập Giải thuật
Trang 8Nguồn: ThS Trần Hùng Cường, ThS Ngô Đức Vĩnh (2011) Tổng quan về phát hiện tri thức và khai phá dữ liệu Khoa Công nghệ thông tin Trường Đại học Công nghiệp Hà Nội, |
trình để đảm bảo không bị vướng khúc chỗ nào,
2.1.5 Các kỹ thuật khai phá dữ liệu
Hiện nay, có rất nhiều loại kỹ thuật được áp dụng trong việc khai phá dữ liệu đề có thể xử
lý, nhận biết được các xu hướng thu nhập được từ các thông tin dữ liệu tìm được để đưa ra các phương hướng có thể quyết định và đánh giá các dự án được đề xuất
2.1.5.1 Kỹ thuật khai phá tập phố biến và luật kết hợp
Kỹ thuật Luật kết hợp trong khai phá dữ liệu được sử dụng để xác định mỗi quan hệ của các biến khác nhau trong cơ sở đữ liệu và điều này được áp để “giải nén” các mẫu dữ liệu bị ân trong dữ liệu thu thập được Luật kết hợp rất phô biến bởi tính hữu ích dễ dàng đánh giá và dự đoán hành vi của người tiêu dùng trong các ngành buôn bán, kinh doanh lẻ Kỹ thuật Luật kết hợp X -> Y chứng minh rằng sự có mặt của tập X làm cho tập Y xuất hiện đồng thời
Kỹ thuật này đồng thời được các nhà doanh nghiệp sử dụng rộng rãi đề có thê dễ dàng phân tích các dữ liệu trong hành vị lựa chọn hàng hóa và mua sắm của các khách hàng để dự đoán một phần nào đó chính xác hơn xu hướng mà các khách hàng ưu tiên lựa chọn trong giỏ hàng
Và ở trong lĩnh vực Công nghệ Thông tin, các lập trình viên thường sử dụng kỹ thuật này đề xây dựng các chương trình, điển hình là Machine Learning
2.1.5.2 Kỹ thuật Phân lớp dữ liệu (Classification Data)
Classification Data hay còn gọi là phân lớp dữ liệu được định nghĩa rộng rãi với nghĩa là
một quá trình tô chức dữ liệu theo các danh mục có liên quan dé dữ liệu có thê được sử dụng và bảo vệ một cách hiệu quả hơn
Ở mức độ cơ bản, quá trình phân loại giúp dữ liệu được định vụ và truy xuất một cách đơn giản và dễ dàng hơn Phân lớp dữ liệu có một tầm vô cùng quan trọng khi nói đến việc quản lý
các rủi ro, tuân thủ và bảo mật các dữ liệu
Phân lớp dữ liệu liên quan đến việc gắn thẻ các dữ liệu đề làm cho nó trở nên dễ dàng trong việc tìm kiểm và theo dõi Nó cũng loại bỏ được nhiều sự trùng lặp dữ liệu, có thể giảm bớt được các chi phí cho việc lưu trữ và sao lưu đồng thời đây nhanh quá trình tìm kiếm
Trang 92.1.5.3 Phan cum dir liéu (Clustering Data)
Phan tich cụm dữ liệu là nhiệm vụ phân loại các nhóm đối tượng thành các cụm giống nhau
hơn so với đôi tượng (cụm) khác
Đây là một nhiệm vụ chính đề phân tích dữ liệu được sử dụng trong các lĩnh vực khác nhau
bao gom nhận dạng mầu, phân tích hình ảnh, thu thập tông tin, nén dữ liệu, đồ họa máy tính và machine learning
2.1.5.4 Kỹ thuật Phân cụm phân cap (Hierarchical Clustering):
Kỹ thuật phân cụm phân cấp là phương pháp phân tích cụm trong khai thác dữ liệu nhằm tạo ra biểu diễn phân cấp của các cụm trong tập dữ liệu Phương pháp này bắt đầu bằng cách xử
lý từng điểm dữ liệu dưới dạng một cụm riêng biệt bà sau đó kết lặp lại các cụm gần nhất cho
đến khi đạt được tiêu chí
2.1.5.5 Kỹ thuật phân cụm phân hoạch (Partitioning Clustering):
Kỹ thuật phân cụm phân hoạch là thuật toán phân cụm được sử dụng đa dạng trong khai thác dữ liệu nhằm mục đích phân vùng tập dữ liệu thành K cụm ( là sô cụm, sô nguyên dương
đã được xác định từ trước) Các thuật toán cô gắng nhóm các điềm dữ liệu tương tự nhau đồng
thời tối ưu hóa sự khác nhau giữa các cụm
Các phương pháp đánh giá phân cụm:
LI Phương pháp đánh giá bên ngoài: So sáng kết quả phân cụm với phân vùng dữ liệu được xác định trước Được đo lường với mộ phù hợp của các cụm với tiêu chí bên ngoài và mức độ nhât quán trên các tập dữ liệu khác nhau
LI Phương pháp đánh giá nội bộ (internal validation): chỉ sử dụng dữ liệu và kết quả phân cụm để đo lường mức độ phù hợp của các cụm, mà không cần bất kỳ dữ liệu nào từ bên ngoai
LI Silhouette index: là thước đo mức độ giống nhau của một đổi với cụm (sự gắn kết)
so với các cụm khác (sự tách biệt) Giá trị năm trong khoảng (-l;1), trong đó các giá trị cao cho biệt đôi tượng được kết hợp tôt với cụm của chính nó và không khớp với các cụm lân cận 2.1.6 Các ứng dụng của khai phá dữ liệu
Bên cạnh các mặt hạn chế cần được cải thiện suy cho cùng khai phá dữ liệu cũng tồn tại rất
nhêu mặt tiềm năng với tính ứng dụng rộng rãi và không chỉ ở trong đời sông xã hội mà cá trong những lĩnh vực đa dạng
- Lĩnh vực tài chính: Khai phá dữ liệu trong lĩnh vực này được sử dụng để có thê dự
đoán được hành vi của các khách để có thể tìm hiểu và đưa Ta các sản phâm thu hút lượng
khách hàng Đông thời phát hiện ra các hoạt động đáng ngờ tôn tại rủi ro cao, g1úp xác định các
Trang 10hành vi có mang tính chất gian lận hay không thông qua các dữ liệu tìm kiếm được và thay đổi chúng thành các thông tin hợp lệ
- Linh vuc y té - strc khée: Tim ra duoc méi liên kết giữa các loại bệnh và phương
pháp trị bệnh đê đạt được hướng hiệu quả nhật trong việc điêu trị bệnh nhân một cách nhanh
chóng và phù hợp
- Lĩnh vực Viễn thông: ứng dụng này có khả năng giúp ngành viễn thông có thê đạt được nhiều lợi the trong cạnh tranh khách hàng Tăng sự tin cậy của khách hàng từ đó cải thiện lợi nhuận, giúp tiếp cận đến khách hàng thông qua các chiến dịch marketing phù hợp
- Linh vực thương mại điện tử: Nhiều công ty đã triển khai các hình thức bán hàng trực tuyến tới các quốc gia khác nhau thông qua trang web của họ nhờ sự hỗ trợ phân tích các phản ứng của khách hàng đề có thé tim ra các phương án tiếp thị hiệu quả nhất đến khách hàng của img dung Data Mining
- Lĩnh vực giáo dục: mục tiêu của việc áp dụng khai phá dữ liệu trong lĩnh vực giáo
dục này chính là tìm ra được tình hình và thái độ học tập của từng học sinh và sinh viên để từ
đó mà các nhà trường có thể nghiên cứu ra được các phương án học tập có tính thu hút và hiệu quả lâu dài hơn
2.2 Phân lớp dữ liệu
Định nghĩa: Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu
chính là quá trình phân lớp dữ liệu
2.2.1 Quá trình phân lớp dữ liệu
Bước l: Xây dựng mô hình phân lớp
[1 Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý
-J Các thuật toán phân lớp: cây quyết định, hàm sô toán học, tập luật
C1 Kêt quả : mô hình phân lớp đã được huân luyện (trình phân lớp)
Bước 2.1: Đánh giá mô hình
L] Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý
L] So sánh thuộc tính gán nhãn của dữ liệu đầu vào và kêt quả đã phân lớp của mô hình đê
xác định tính đúng đăn của mô hình
Bước 2.2: Phân lớp dữ liệu mới
O Dé liéu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
L] Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này theo quy trình
được huấn luyện ở bước Ì
Trang 112.2.2 Phân loại bài toán phân lớp
Nhiệm vụ: phân các đôi tượng dữ liệu vào n lớp cho trước Nếu:
LÌ n=2: Phân lớp nhị phân
C1 n> 2: Phan lớp đa lớp
L]_ Mỗi đối tượng dữ liệu chỉ có ở I lớp duy nhất: Phân lớp đơn nhãn
L]_ Một đối tượng đữ liệu có thê cùng lúc có ở nhiều lớp khác nhau: Phân lớp đa nhãn 2.2.3 Một số phương pháp phân lớp
L Phương pháp Hồi quy logistic (Logistic Regression)
Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biêu diễn dưới dạng vector)
O Phuong pháp Cây quyết định (Decision Tree)
Khái niệm Cây quyết định (Decision Tree) tuỳ vào từng khía cạnh phân tích mà sẽ có 2 khái nệm khác nhau:
LJ Trong lý thuyết quản trị, cây quyết định là sơ đồ gồm các quyết định cùng các kết quả có khả năng đi kèm nhằm hỗ trợ quá trình đưa ra quyết định
O Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp mô tả, phân loại và tổng quát hóa một tập dữ liệu đã cho trước
Ưu điểm:
O Dé hiéu
LI Không yêu cầu dữ liệu phải được chuẩn hóa
O Co thé xử lý nhiều loại dữ liệu khác nhau
LJ Xử lý tốt khôi lượng lớn dữ liệu trong khung thời gian gấp rút
Khuyết điểm:
L] Khó khăn trong việc giải quyết các sự cô trong các tình huống dữ liệu phụ thuộc vào thời gian
LO Chi phí xây dựng mô hình cao
Phuong phap SVM (Support Vector Machine)
C1 SVM là một thuật toán có giảm sát, SVM nhận dữ liệu vào dưới dạng vecto trong không gian, sau đó phân loại dữ liệu thành các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách cho các lớp dữ liệu Dé toi da hoa két qua phân lớp, thì siêu phẳng (hyperplane) phải được xác định càng xa càng tốt đến các điểm đữ liệu (margin) của tất cả các lớp
LJ_ SVM có nhiều biến thê phù hợp với các bài toán phân loại khác nhau
Khái niệm Margin: la khoang cach giữa siêu phang (trong trường hợp không gian 2 chiều là đường thăng) đến 2 điểm đữ liệu gần nhất tương ứng với 2 phân lớp
—> SVM cô gắng tối ưu bằng cách tôi đa hóa gia tri margin nay dé tim ra sién phang tot nhât giúp phân biệt giữa hai loại dữ liệu Nhờ vậy, SVM có thê giảm thiêu việc phân lớp sai (misclassification) đôi với điểm dữ liệu mới đưa vảo
7
Trang 12Tính chắt các biến thể của SVM
L1 Hard margin SVM: Hai lớp cần phân lớp có thê phân chia tuyến tính
C1 Soft margin SVM: Hai lép can phan lop “gan” phan chia tuyén tinh
C1 Multi - class SVM: Phân lớp đa lớp (biên giữa các lớp là tuyến tinh)
C1 Kernel SVM: Dé liéu là phi tuyên
LI SVM cho ket qua khong tôt khi sô chiêu dữ liệu lớn hơn sô dòng dữ liệu
LI Tính xác suât trong phân lớp chưa được tính toán thê hiện tôt
2.2.4 Một số phương pháp đánh giá mô hình phân lớp
2.2.4.1 Ma tran nham ln (Confusion Matrix)
Ma trận nhằm lẫn là một ma trận KxK với nhãn thực tế trên một trục và nhãn dự đoán ở trục còn lại, trong đó K là số lượng lớp của dữ liệu (class) Ma trận nhằm lẫn về cơ bản là sự
biểu điễn trực quan về số lượng điểm dữ liệu thực sự thuộc vào một class, và được dự đoán là roi vao mot class
Minh họa phương pháp ma trận nhằm lẫn
(Nguồn: Lê Ngọc Kha Nhi (2018))
Trang 13Dựa vào hình trên ta sẽ phan tích 4 trường hợp của dự đoán có thê xảy ra:
1 True Positive (TP): dy doan va thực tế của mô hình đều là positive (mô hình phân loại chính xác các mẫu positive)
2 True Negative (TN): dự đoán và thực tế đều là negative (mô hình phân loại chính xac cac mau negative)
3 False Positive (FP): thyc té la positive nhung dy doan lai la negative (m6 hinh bi hiéu sai mau positive la negative) — Sai lam loai 1
4 False Negative (FN): thyc té la negative nhung dy doan la positive (m6 hinh bi nhiéu sai mau negative la positive) — Sai lam loai 2
Đường chéo chính của ma trận nhằm lẫn thể hiện cho các dự đoán chính xác, do đó càng nhiều dự đoán được đặt trên đường chéo thì mô hình càng đáng tin cậy
Trong một số trường hợp, FNs nguy hiểm và không thê chấp nhận được Giá sử nêu bộ phân loại cho rằng sẽ có động đất thì FP là báo động sai, còn FN nghĩa là đấu hiệu có động đất nhưng không dự báo nao trước đó
Trong thực tế, có ba độ do chính để đánh giá các mô hình phân loại là Accuracy, Precision
và Recall
2.2.4.2 Tính chính xác (Accuracy)
(Nguồn: Slide bài giảng)
Accuracy được hiểu là tỷ lệ phần trăm dự đoán đúng cho toàn bộ dữ liệu thử nghiệm nhưng không phân biệt negative/positIve Do đó, nhược điểm của Accuracy là chỉ tiết lộ độ chính xác của mô hình chứ không thê hiện được độ chính xác của mô hình như thế nào Tuy nhiên, đây là tiêu chí được ưu tiên sử dụng nhất để đánh giá tính hữu hiệu của một mô hình phân loại vì cách đánh giá này có công thức tính đơn giản Độ chính xác càng cao thì mô hình càng chuẩn xác Chỉ sô này van bị hạn chế đối với các tập dữ liệu mất cân bằng (tập dữ liệu có số dự đoán đúng lớn hơn rất nhiều so với dự đoán sai) Ví dụ: Một ngân hàng muốn phát triển hệ thông phát hiện các giao dịch bất thường Ngân hàng cung cấp bộ dataset gồm 1.000.000 giao dịch,
trong dd co 1000 giao dịch bât thường Nêu mô hình luôn dự đoán mọi giao dịch đêu bình thường thì mô hình có độ chính xác gần như 100% Việc đó đồng nghĩa mô hình không thể
phát hiện được các giao dịch bất thường Ở đây, tập dữ liệu của chúng ta đang bị mắt cân bằng,
nên việc dựa vào độ chính xác để đánh giá mô hình có thê gây nhằm lẫn
2.2.4.3 Độ chính xác (Precision), độ phủ (Recall), F1 — Score
Để khắc phục hạn chế của Accuracy đối với các tập dữ liệu mất cân bằng, ta thường sử dụng 2 chỉ số Precision va Recall
Trang 14Tỷ lệ chính xác của thiết bị vẫn là 99% Tuy nhiên, chúng ta sẽ không thê xác định được rằng ai
là người mắc bệnh Từ đó, hiệu quả của công cụ là 03%
Vi vay, diéu quan trọng là phải đánh giá ca Precision va Recall cua một mô hình đê xác
Có thê thấy rằng, Precision và Recall đều quan trọng nhưng lại là hai khái niệm khác nhau,
do đó ta sử dụng độ đo FI-Score — được hiệu như là giá trị trung bình điều hòa của 2 thông số
Mô hình minh họa F1-Score
2.2.4.4, ROC (Receiver Operating Characteristic) va AUC (Area Under the Curve) ROC được biêu diễn dưới dạng đường cong và sử dụng trong phân loại nhị phân đề nghiên cứu đầu ra của bộ phân loại Đường cong này biểu diễn các cặp chỉ số (TPR,FPR) tại các ngưỡng khác nhau với TPR (ty lệ dương đúng) là trục tung và EFPR (ty lệ dương sai) là trục hoành Khi TPR cảng lớn và FPR càng nhỏ thì đường cong ROC tiến lại gần tọa độ (0,1) hơn,
khi đó mô hình càng hiệu quả Ngược lại, khi ROC gần với đường y=x thì kết quả rất kém
10
Trang 15Receiver operating characteristic example
M6 hinh minh hoa ROC
AUC là phần diện tích nằm bên dưới đường cong RÓC và trên trục hoành, có giá trị từ 0 đến 1 Khi diện tích này càng lớn, ROC thường có xu hướng có 1 điểm tiến gần với tọa độ (0,1)
và khả năng phân loại của mô hình càng tốt và chính xác Do đó, AUC được sử dụng để đánh
giá chất lượng của mô hình
11
Trang 16Receiver operating characteristic example
M6 hinh minh hoa AUC
2.2.4.5 Cross Validation: K-fold va Holdout
Phương pháp Hold-out là phương pháp phân chia ngẫu nhiên tập dữ liệu ban đầu thành 2 tập con không giao nhau là tập huấn luyện (training set) và tập thử nghiệm (testing set) theo |
tỷ lệ cụ thê Y tưởng là đánh giá tính hiệu quả của mô hình bằng cách sử dụng các bộ dữ liệu khác nhau Ví dụ, 70% training set và 30% testing set Phương pháp này có lợi thé là đơn giản
và linh hoạt Tuy nhiên, phương pháp này chỉ khả quan đối với các tập dữ liệu lớn Ngược lại, hiệu quả của mô hình ở các tập dữ liệu vừa và nhỏ không được cao vì mẫu dữ liệu nhỏ không mang tính đại diện cho tông thê (thiếu lớp trong tập thử nghiệm) Do đó, việc áp dụng Hold out dựa trên sự phân bố đồng đều cho cả 2 tập dữ liệu con; hoặc thực hiện holdout K lần và độ chính xác acc(M) = trung bình cộng K giá trị chính xác
Cross Validation là một kỹ thuật phân chia tập dữ liệu ban đầu thành tập huấn luyện và tập
đánh giá Phương pháp được ưa chuộng nhất là K-fld, trong đó bộ dữ liệu được phân chia thành k tập con độc lập (được gọi là “fold”) có kích thước xâp xỉ nhau Phương pháp này được lặp lại nhiều lần cho đến khi ta có k số mô hình khác nhau, sao cho mỗi lần lặp, một trong các {old được dùng làm tập dữ liệu đánh giá, (k-1) fold còn lại được sử dụng là tập huấn luyện Quá trình này dừng lại khi tất cả các tập con đều được dùng làm tập đánh giá
So sánh với phương pháp Hold out, K-fold được sử dụng nhiều hơn vì mợi điểm dữ liệu đều nằm trong testing set | lân và thuộc training set k-I lần, do đó làm giảm độ lệch chuẩn và
phương sa, tăng độ tin cậy khi mô hình
12
Trang 17Split 1 Fold1 Fold 2 Fold 3 Fold 4 Fold 5 Metric 1
M6 hinh minh hoa K-fold
IL Phan tich va thao luan
3.1 Tổng quan sơ lược về nguồn nhân lực hiện nay
Nguồn nhân lực chính là nhân tố quan trọng trong việc quyết định sự thành công của một
tổ chức, một quốc gia Đây chính là nguồn lực quan trọng nhất đề quyết định hiệu qua, chat lượng của một công việc Trong bối cảnh cạnh tranh kinh tế toàn cầu hiện nay, mọi quốc gia đều col nguồn nhân lực chính là yếu tổ quan trọng nhất để nâng cao năng lực cạnh tranh giữa các quốc gia
Việt Nam đang có một lợi thế cạnh tranh rất lớn khi sở hữu một nguồn nhân lực trẻ
rat dồi dào Tuy nhiên, nguồn nhân lực ở Việt Nam còn yếu về chất lượng, thiếu hụt nguồn lao động có tay nghề cao Trong 10 năm qua, tuy lực lượng lao động được đảo tạo tay nghề tuy tăng cao nhưng chỉ có hơn 25% lực lượng được đào tạo về chuyên môn
Hiện nay cuộc Cách mạng công nghiệp 4.0 đang diễn với tốc độ nhanh vượt bậc đã mang lại cho doanh nghiệp rất nhiều cơ hội đề phát triên nhưng bên cạnh đó vẫn còn tồn tại rat nhiều thách thức lớn Các nhà lãnh đạo đã nhận thấy được tác động tích cực của chuyên đổi số, quan trọng hơn nữa là từ nguồn nhân lực số Nhiều công việc hiện nay đã được thay thé boi robot tự động hoá hoặc được áp dụng trí tuệ nhân tạo AI vào việc giải quyết những công việc
Từ đó các nhà quản lý phải có những thay đối lớn để thúc đây năng suất làm suất làm việc của nhân viên và hiệu quả của công việc
3.2 Phân cụm dữ liệu chưa có nhãn
Tập dữ liệu chứa các thông tin về nhân viên trong một công ty bao gồm trình độ học vấn, lịch sử công việc, nơi sinh sông và các yếu tô khác liên quan đến việc làm của họ Những dữ liệu này được sử dụng â ân danh đề bảo vé quyền riêng tư của các nhân viên nhưng vẫn có thể
cung cập được các hiểu biết có giá trị về lực lượng lao động Các nhà nghiên cứu và các chuyên gia về nhân sự có thể thu được nhiều thông tin có giá trị từ bộ dữ liệu nay
Y nghia:
O Eduecation: Trình độ học vấn của nhân viên, bao gồm bằng cấp, cơ sở giáo dục và lĩnh
vực học tập
O Joining Year: Nam cia mdi nhan vién khi gia nhập vào công ty, cho biết được mốc thời
gian làm việc của họ
13
Trang 18L]
LI
City: Thành phố, địa điểm nơi mỗi nhân viên sinh sống va làm việc
Payment Tier: duoc sử dụng đê phân loại nhân viên thành các bật lương khác nhau Age: Độ tuổi của mỗi nhân viên
Gender: Bản sắc giới tính của nhân viên, thúc đây phân tích sự đa dạng
Ever Benched: Cho biết liệu một nhân viên đã từng tạm thời không được giao công việc hay chưa
trong lĩnh vực và vị trí hiện tại của họ
Nghiên cứu phân ra làm 8 cụm, theo thuật toán K-Means, ta có được chi 36 Silhouette cua
8 cụm lân lượt là 0.537, 0.330, 0.295, 0.272, 0.269, 0.274, 0.265 Dựa vào kêt quả trên, ta thây
ở phân cụm 2 cho kết quả tương đôi tot
14
Trang 19© Silhouette Plot - Orange
Trang 20Silhouette Plot - Orange = Oo x Distance
Như vậy, ở phương pháp K-Means phân 2 cụm cho kết qua tot nhat, voi Cl gém 455 dir liệu và C2 gồm 44 dữ liệu va chi s6 Silhouette là 0.600
16
Trang 21Thiét lập khoảng cach cho phuong phap Hierarchical Clustering
Để tiễn hành phương pháp Hierarchical Clustering, trước hết ta cần chọn khoảng cách ước lượng, ở đây ta sử dụng khoảng cách Euclid hay còn gọi là độ đo Euclid Sau khi thiết lập ta dùng các phương pháp đo lường khác nhau để tìm đâu là phân cụm phù hợp nhất
Trước hết ta chọn độ do Euclidean làm khoảng cách ước lượng cho phương pháp Hierarchical Clustering Sau đó ta dùng các phương pháp đo lường khác nhau để chọn ra phân cụm tốt nhất
17
Trang 22Show labels only for subset
Color by: None v
Phuong phap Linkage Single
Phương pháp Linkage single đã phân được 2 cụm, tuy nhiên quan sat hình trên ta thấy rằng,
ở cụm 2 hầu như chiêm đại đa số dữ liệu trong khi cụm | chiếm một phần nhỏ không đáng kê Hình bên dưới giúp cho ta kết luận rằng các chỉ số Silhouette của dữ liệu nằm trong khoảng [- 0.6, 0.6], đây là khoảng không thê tin tưởng Bên cạnh đó, các chỉ số Silouette ở cụm I không thể quan sát được Do đó phương pháp đo lường Single không phù hợp với bộ dữ liệu
18