Các vấn đề trong phânbổ vàđánh giánhân sựtại doanh- 123docz.net

chính xác.

- Hầu hết doanh nghiệp không có các tiêu chuẩn cụ thể về năng lực đánh Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả

bài toán phân bổ và đánh giá nhân sự tại công ty GMO

Hình 3. Quy trình phân bổ nhân sự trong dự án

1.2.3. Các vấn đề trong phân bổ và đánh giá nhân sự tại doanh nghiệp nói chungvà và

GMO nói riêng.

• Doanh nghiệp nói chung:

Hầu hết các doanh nghiệp không chú trọng đến việc phân tích các điểm mạnh, điểm yếu của nhân viên trong công việc lẫn hoạt động với mọi người xung quanh. Vì vậy dẫn đến các vấn đề:

Nguyễn Thị Lựu - K19HTTTC 17

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

giá thực hiện công việc và đánh giá hiệu suất nhân viên

- Việc đánh giá nhân sự vẫn diễn ra không rõ ràng và mang tính cảm tính

- Có sự mâu thuẫn trong cách nhìn nhận về việc đánh giá nhân viên của cấp quản lý cũng như toàn thể nhân viên.

• Tại GMO:

- Như đã thấy ở sơ đồ quy trình phân bổ nhân sự ở trên, việc phân bổ nhân sự vào dự án được mang tính chủ quan, dựa vào kinh nghiệm của người quản lý dự án. Và thực tế, khi chạy dự án có nhiều sự thay đổi nhân sự đôi khi sẽ ảnh hưởng đến tiến độ, chất lượng của dự án.

- GMO là công ty với nhiều dự án labo, vì vậy đòi hỏi sự phân bổ nhân công một cách linh hoạt, hơn thế là nhân sự phải được phân công vào dự án theo đúng sở trường để công việc đạt hiệu quả tốt nhất.

- Việc đánh giá nhân sự cũng mang tính chất chủ quan, là nhân viên tự đánh giá hoặc cấp trên đánh giá dựa theo tiêu chí đánh giá năng lực riêng của công ty.

1.2. Phát biểu bài toán

Đối với một doanh nghiệp với công việc đặc thù về CNTT như GMO thì bài toán con người luôn là vấn đề được đặt ở vị trí quan trọng. Phân cụm nhân viên là một cách để doanh nghiệp tìm ra những nhóm/cụm nhân viên có tính cách, đặc điểm, năng suất làm việc tương đương nhau từ đó có chiến lược sử dụng nhân sự hợp lý. Việc phân ra các nhóm/cụm nhân viên cũng giúp cải thiện quy trình đánh giá nhân viên, thay vì đánh giá chủ quan thì có thể dựa vào những dữ liệu về thời gian làm việc, số lượng dự án tham gia, mức độ hài lòng trong dự án,.. .để có cơ sở phân ra những nhóm nhân viên có đóng góp nhiều hay ít trong quá trình làm việc.

CHƯƠNG 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, CÁC KỸ

THUẬT PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN PHÂN CỤM K-MEANS 2.1. Khai phá dữ liệu

2.1.1. Khái niệm khai phá dữ liệu

Khai phá dữ liệu là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu.. .để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong (Nguyễn Hoàng Anh Tú, 2009). Do nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn đơn vị.

Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ như: phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp, các hệ thống quản lý khách hàng hay từ tác công cụ lưu trữ thông tin trên web.

Đây là những khối dữ liệu khổng lồ nhưng những thông tin mà nó thể hiện ra thì lộn xộn và “nghèo” đối với người dùng. Kích thước của khối dữ liệu khổng lồ đó cũng tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ. KPDL sẽ giúp trích xuất ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích.

Quá trình khám phá tri thức là chuỗi lặp lại gồm các bước:

• Làm sạch dữ liệu (Data Cleaning): là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Ví dụ: Điểm trung bình = 12.4. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch -tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.

• Tích hợp dữ liệu (Data Integration): Là vấn đề kết nối nhiều nguồn dữ liệu khác nhau, và cung cấp cho người dùng một khung nhìn chung thống nhất trên tất cả các nguồn dữ liệu đó.

• Chọn lựa dữ liệu (Data Selection): Lựa chọn những thuộc tính cần thiết, ảnh hưởng trực tiếp đến kết quả khai phá dữ liệu.

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO Input: Bộ dữ liệu tất cả vào nhân viên tại công ty GMO trong năm 2019 với các trường cơ bản: họ tên, ngày sinh, chức vụ, phòng ban, ngày vào làm việc, số dự án tham gia trong năm, số giờ trung bình làm việc trong dự án, số ngày công làm việc trung bình, mức độ hài lòng trong dự án, tham gia hoạt động phong trào của công ty không?,..

Output: Danh sách các cụm nhân viên có đặc điểm tương đương nhau. 1.2. Ket thúc chương 1

Ở chương này đã giới thiệu tổng quan về công ty GMO-Z.com RUNSYSTEM, tình hình nhân sự tại công ty, những vấn đề chưa hiệu quả trong việc phân bổ và đánh giá nhân sự. Từ đó, phát biểu bài toán sẽ nghiên cứu trong báo cáo này.

Nguyễn Thị Lựu - K19HTTTC 19

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

• Biến đổi dữ liệu (Data Transformation): nhằm chuẩn hóa và làm mịn dữ liệu để chuyển dữ liệu về dạng thuận lợi nhất phục vụ cho việc khai phá.

• Khai phá dữ liệu (Data Mining): dùng các kỹ thuật phân tích để khai thác dữ liệu, trích chọn các mẫu thông tin cần thiết... .Công đoạn này được xem là mất thời gian nhất trong quá trình khám phá tri thức.

• Đánh giá mẫu (Pattern Evaluation): Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm KPDL. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích. đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra. Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đó sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng

• Biểu diễn tri thức (Knowledge Presentation): Các thông tin và mối liên hệ giữa chúng vừa khám phá trong công đoạn trước được biểu diễn dưới dạng trực quan. KPDL liên quan đến các tác nhân:

• Các nguồn dữ liệu (Data sources)

• Kho dữ liệu (Data warehouse)

• Dữ liệu cụ thể sẽ được khai phá (Task-relevant data)

• Mẫu kết quả từ KPDL (Patterns)

• Tri thức đạt được (Knowledge)

2.1.1. Những nhóm bài toán của khai phá dữ liệu

Theo quan điểm máy học (Machine Learning) thì các kỹ thuật KPDL bao gồm:

• Học có giám sát (Supervised Learning): Là quá trình phân lớp các đối tượng

trong cơ sở dữ liệu dựa trên một tập các ví dụ huấn luyện về các thông tin về nhãn lớp đã biết.

• Học không có giám sát (Unsupervised Learning): Là quá trình phân chia một

tập các đối tượng thành các lớp hay cụm (Cluster) tương tự nhau mà không biết trước các thông tin về nhãn lớp.

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

• Học nửa giám sát (Semi-SupervisedLearning): Là quá trình phân chia một tập

các đối tượng thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện với thông tin về nhãn lớp đã biết

Neu căn cứ vào các lớp bài toán cần giải quyết, thì KPDL bao gồm các kỹ thuật sau:

• Phân lớp và dự đoán (Classification and prediction): Là việc xếp các đối

tượng vào những lớp đã biết trước. Ví dụ, phân lớp các bệnh nhân, phân lớp các loài thực vật....Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ-ron nhân tạo (neural network).. Phân lớp và dự đoán còn được gọi là học có giám sát.

• Phân cụm (Clustering/Segmentation): Là việc xếp các đối tượng theo từng

cụm tự nhiên.

• Luật kết hợp (Association rules): Là việc phát hiện các luật biểu diễn tri thức

dưới dạng khá đơn giản. Ví dụ: “70% nữ giới vào siêu thị mua phấn thì có tới 80% trong số họ cũng mua thêm son”.

• Phân tích hồi quy (Regression analysis): Là việc học một hàm ánh xạ từ một

tập dữ liệu thành một biến dự đoán có giá trị thực. Nhiệm vụ của phân tích hồi quy tự như của phân lớp. điểm khác nhau là ở chỗ thuộc tính dự báo là liên tục chứ không rời rạc.

• Phân tích các mẫu theo thời gian (SequentialTemporal patters): Tương tự

như khai phá luật kết hợp nhưng có quan tâm đến tính thứ tự theo thời gian.

• Mô tả khái niệm và tổng hợp (Concept description and summarization): Thiên

về mô tả, tổng hợp và tóm tắt các khái niệm. Ví dụ: tóm tắt văn bản.

Hiện nay, các kỹ thuật KPDL có thể làm việc với rất nhiều kiểu dữ liệu dữ liệu khác nhau. Một số dạng dữ liệu điển hình là: CSDL giao tác, CSDL quan hệ hướng đối tượng, dữ liệu không gian và thời gian. CSDL đa phương tiện, dữ liệu văn bản và web.. (Nguyễn Hoàng Anh Tú, 2009)

2.2. Phân cụm dữ liệu và một số kỹ thuật phân cụm trong khai phá dữ liệu

2.2.1. Tổng quan về phân cụm dữ liệu:

Phân cụm là kỹ thuật rất quan trọng trong KPDL, nó thuộc lớp các phương pháp “học không giám sát” trong Học máy. Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là các quy trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

2.1.2. Khai phá dữ liệu trong kinh doanh

Ve khía cạnh ứng dụng thì ngày nay các công ty bán lẻ, ngân hàng, công ty sản xuất kinh doanh, công ty viễn thông và công ty tài chính,... đang ứng dụng KPDL để phân tích mọi vấn đề từ tối ưu giá cả, chương trình khuyến mại, nhân khẩu học đến phân khúc khách hàng, rủi ro, cạnh tranh, marketing đến truyền thông xã hội - ảnh hưởng đến mô hình kinh doanh, mối quan hệ với khách hàng, doanh thu, và hoạt động của toàn bộ tổ chức thông qua các phần mềm: Quản lý bán hàng, Quản lý quan hệ khách hàng (CRM) và đã thu được nhiều lợi ích sau:

• Hỗ trợ ra quyết định tự động: Data Mining cho phép các tổ chức liên tục phân tích dữ liệu và tự động hóa cả các quyết định thông thường và quan trọng mà không bị trì hoãn bởi yếu tố con người. Ví dụ các ngân hàng có thể ngay lập tức phá hiện các giao dịch gian lận, yêu cầu xác minh và thậm chí bảo mật thông tin cá nhân để bảo vệ khách hàng chống lại hành vi trộm cắp, tội phạm.

• Hỗ trợ đưa ra dự báo chính xác: Dự báo là một quá trình quan trọng trong mỗi tổ chức. KPDL tạo điều kiện lập kế hoạch và cung cấp cho các nhà quản lý dự báo đáng tin cậy dựa trên các xu hướng trong quá khứ và các điều kiện hiện tại. Đặc biệt trong chuỗi cửa hàng bán lẻ việc dự đoán nhu cầu của khách hàng cho từng loại sản phẩm tại mỗi cửa hàng và dự báo hàng tồn kho, khả năng cung ứng phù hợp tại bất kì thời điểm nào mà người quản lý muốn là điều rất quan trọng để đáp ứng hiệu quả nguồn cung ra thị trường.

• Hỗ trợ khả năng thấu hiểu khách hàng: Các công ty triển khai các mô hình KPDL chuyên biệt để phân tích dữ liệu khách hàng nhằm khám phá các đặc điểm chính, các điểm khác biệt về sở thích, thói quen, hành vi,. của mỗi phân khúc khách hàng, xác định nhu cầu mỗi khách hàng một cách chính xác nhất. Dựa vào kết quả thu được, các công ty sẽ triển khai các dịch vụ, sản phẩm và tư vấn cho khách hàng một cách cá nhân hiệu quả hơn.

Nguyễn Thị Lựu - K19HTTTC 23

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

(dissimilar) nhau (Vũ Lan Hương, 2006).

Số các cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định khi thực hiện phương pháp phân cụm.

Hình 4. Mô phỏng vấn đề phân cụm dữ liệu

Trong hình trên, sau khi phân cụm chúng ta thu được bốn cụm trong đó các phần tử "gần nhau" hay là "tương tự" thì được xếp vào một cụm, trong khi đó các phần tử "xa nhau" hay là "phi tương tự" thì chúng thuộc về các cụm khác nhau.

Một vấn đề thường gặp trong KPDL đó là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu "nhiễu" (noise) do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ "nhiễu" trước khi bước vào giai đoạn phân tích phân cụm dữ liệu. "Nhiễu" ở đây có thể là các đối tượng dữ liệu không không chính xác, hoặc là các đối tượng dữ liệu khuyết thông tin về một số thuộc tính. Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng "nhiễu" bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất.

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả

bài toán phân bổ và đánh giá nhân sự tại công ty GMO một thuộc tính thuộc tính thứ tự thì ta có thể xác định là hoặc x = y hoặc x > y

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm sao cho các đối tượng trong cùng một cụm “tương tự” nhau. Vì vậy phải xác định được một phép đo “khoảng cách” hay phép đo tương tự giữa các cặp đối tượng để phân chia chúng vào các cụm khác nhau. Dựa vào hàm tính độ tương tự này cho phép xác định được hai đối tượng có tương tự hay không. Theo quy ước, giá trị của hàm tính độ đo tương tự càng lớn thì sự tương đồng giữa các đối tượng càng lớn và ngược lại. Hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự.

2.2.2. Các kiểu dữ liệu và phép đo độ tương tự

a. Các kiểu dữ liệu (An Hồng Sơn, 2008)

• Phân loại các kiểu dữ liệu (kiểu thuộc tính) dựa trên kích thước miền

- Thuộc tính liên tục (Continuous Attribute): nếu miền giá trị của nó là một

miền bao gồm vô hạn, không đếm được các giá trị. Thí dụ như các thuộc tính nhiệt độ hoặc cường độ âm thanh.

- Thuộc tính rời rạc (Discrette Attribute): Nếu miền giá trị của nó là tập hữu hạn, đếm được. Thí dụ như các thuộc tính về số serial của một cuốn sách, số thành viên trong một gia đình, ...

- Thuộc tính nhị phân: Là trường hợp đặc biệt của thuộc tính rời rạc mà miền giá trị của nó chỉ có 2 phần tử được diễn tả như: Yes / No hoặc Nam/Nữ, FalseZtrue,...

• Phân loại các kiểu dữ liệu (kiểu thuộc tính) dựa trên hệ đo

Giả sử rằng chúng ta có hai đối tượng x, y và các thuộc tính xi , yi tương ứng với thuộc tính thứ i của chúng. Chúng ta có các lớp kiểu dữ liệu như sau:

- Thuộc tính định danh (nominal Scale): đây là dạng thuộc tính khái quát hoá của thuộc tính nhị phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều hơn hai phần tử - nghĩa là nếu x và y là hai đối tượng thuộc tính thì chỉ có thể xác định là hoặc x = y.

- Thuộc tính có thứ tự (Ordinal Scale): là thuộc tính định danh có thêm tính thứ tự, nhưng chúng không được định lượng. Nếu x và y là hai giá trị của

Các vấn đề trong phânbổ vàđánh giánhân sựtại doanh nghiệp nó

Khái niệm khai phá dữ liệu

Tổng quan về phâncụm dữ liệu: