Khái niệm khai phá dữ liệu

Một phần của tài liệu Ứng dụng khai phá dữ liệu để phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty gmo z com runsystem,khoá luận tốt nghiệp (Trang 34)

Khai phá dữ liệu là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu.. .để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong (Nguyễn Hoàng Anh Tú, 2009). Do nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn đơn vị.

Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ như: phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp, các hệ thống quản lý khách hàng hay từ tác công cụ lưu trữ thông tin trên web.

Đây là những khối dữ liệu khổng lồ nhưng những thông tin mà nó thể hiện ra thì lộn xộn và “nghèo” đối với người dùng. Kích thước của khối dữ liệu khổng lồ đó cũng tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ. KPDL sẽ giúp trích xuất ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích.

Quá trình khám phá tri thức là chuỗi lặp lại gồm các bước:

• Làm sạch dữ liệu (Data Cleaning): là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Ví dụ: Điểm trung bình = 12.4. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch -tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.

• Tích hợp dữ liệu (Data Integration): Là vấn đề kết nối nhiều nguồn dữ liệu khác nhau, và cung cấp cho người dùng một khung nhìn chung thống nhất trên tất cả các nguồn dữ liệu đó.

• Chọn lựa dữ liệu (Data Selection): Lựa chọn những thuộc tính cần thiết, ảnh hưởng trực tiếp đến kết quả khai phá dữ liệu.

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO Input: Bộ dữ liệu tất cả vào nhân viên tại công ty GMO trong năm 2019 với các trường cơ bản: họ tên, ngày sinh, chức vụ, phòng ban, ngày vào làm việc, số dự án tham gia trong năm, số giờ trung bình làm việc trong dự án, số ngày công làm việc trung bình, mức độ hài lòng trong dự án, tham gia hoạt động phong trào của công ty không?,..

Output: Danh sách các cụm nhân viên có đặc điểm tương đương nhau. 1.2. Ket thúc chương 1

Ở chương này đã giới thiệu tổng quan về công ty GMO-Z.com RUNSYSTEM, tình hình nhân sự tại công ty, những vấn đề chưa hiệu quả trong việc phân bổ và đánh giá nhân sự. Từ đó, phát biểu bài toán sẽ nghiên cứu trong báo cáo này.

Nguyễn Thị Lựu - K19HTTTC 19

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

• Biến đổi dữ liệu (Data Transformation): nhằm chuẩn hóa và làm mịn dữ liệu để chuyển dữ liệu về dạng thuận lợi nhất phục vụ cho việc khai phá.

• Khai phá dữ liệu (Data Mining): dùng các kỹ thuật phân tích để khai thác dữ liệu, trích chọn các mẫu thông tin cần thiết... .Công đoạn này được xem là mất thời gian nhất trong quá trình khám phá tri thức.

• Đánh giá mẫu (Pattern Evaluation): Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm KPDL. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích. đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra. Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đó sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng

• Biểu diễn tri thức (Knowledge Presentation): Các thông tin và mối liên hệ giữa chúng vừa khám phá trong công đoạn trước được biểu diễn dưới dạng trực quan. KPDL liên quan đến các tác nhân:

• Các nguồn dữ liệu (Data sources)

• Kho dữ liệu (Data warehouse)

• Dữ liệu cụ thể sẽ được khai phá (Task-relevant data)

• Mẫu kết quả từ KPDL (Patterns)

• Tri thức đạt được (Knowledge)

2.1.1. Những nhóm bài toán của khai phá dữ liệu

Theo quan điểm máy học (Machine Learning) thì các kỹ thuật KPDL bao gồm:

Học có giám sát (Supervised Learning): Là quá trình phân lớp các đối tượng

trong cơ sở dữ liệu dựa trên một tập các ví dụ huấn luyện về các thông tin về nhãn lớp đã biết.

Học không có giám sát (Unsupervised Learning): Là quá trình phân chia một

tập các đối tượng thành các lớp hay cụm (Cluster) tương tự nhau mà không biết trước các thông tin về nhãn lớp.

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

Học nửa giám sát (Semi-SupervisedLearning): Là quá trình phân chia một tập

các đối tượng thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện với thông tin về nhãn lớp đã biết

Neu căn cứ vào các lớp bài toán cần giải quyết, thì KPDL bao gồm các kỹ thuật sau:

Phân lớp và dự đoán (Classification and prediction): Là việc xếp các đối

tượng vào những lớp đã biết trước. Ví dụ, phân lớp các bệnh nhân, phân lớp các loài thực vật....Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ-ron nhân tạo (neural network).. Phân lớp và dự đoán còn được gọi là học có giám sát.

Phân cụm (Clustering/Segmentation): Là việc xếp các đối tượng theo từng

cụm tự nhiên.

Luật kết hợp (Association rules): Là việc phát hiện các luật biểu diễn tri thức

dưới dạng khá đơn giản. Ví dụ: “70% nữ giới vào siêu thị mua phấn thì có tới 80% trong số họ cũng mua thêm son”.

Phân tích hồi quy (Regression analysis): Là việc học một hàm ánh xạ từ một

tập dữ liệu thành một biến dự đoán có giá trị thực. Nhiệm vụ của phân tích hồi quy tự như của phân lớp. điểm khác nhau là ở chỗ thuộc tính dự báo là liên tục chứ không rời rạc.

Phân tích các mẫu theo thời gian (SequentialTemporal patters): Tương tự

như khai phá luật kết hợp nhưng có quan tâm đến tính thứ tự theo thời gian.

Mô tả khái niệm và tổng hợp (Concept description and summarization): Thiên

về mô tả, tổng hợp và tóm tắt các khái niệm. Ví dụ: tóm tắt văn bản.

Hiện nay, các kỹ thuật KPDL có thể làm việc với rất nhiều kiểu dữ liệu dữ liệu khác nhau. Một số dạng dữ liệu điển hình là: CSDL giao tác, CSDL quan hệ hướng đối tượng, dữ liệu không gian và thời gian. CSDL đa phương tiện, dữ liệu văn bản và web.. (Nguyễn Hoàng Anh Tú, 2009)

2.2. Phân cụm dữ liệu và một số kỹ thuật phân cụm trong khai phá dữ liệu

2.2.1. Tổng quan về phân cụm dữ liệu:

Phân cụm là kỹ thuật rất quan trọng trong KPDL, nó thuộc lớp các phương pháp “học không giám sát” trong Học máy. Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là các quy trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

2.1.2. Khai phá dữ liệu trong kinh doanh

Ve khía cạnh ứng dụng thì ngày nay các công ty bán lẻ, ngân hàng, công ty sản xuất kinh doanh, công ty viễn thông và công ty tài chính,... đang ứng dụng KPDL để phân tích mọi vấn đề từ tối ưu giá cả, chương trình khuyến mại, nhân khẩu học đến phân khúc khách hàng, rủi ro, cạnh tranh, marketing đến truyền thông xã hội - ảnh hưởng đến mô hình kinh doanh, mối quan hệ với khách hàng, doanh thu, và hoạt động của toàn bộ tổ chức thông qua các phần mềm: Quản lý bán hàng, Quản lý quan hệ khách hàng (CRM) và đã thu được nhiều lợi ích sau:

• Hỗ trợ ra quyết định tự động: Data Mining cho phép các tổ chức liên tục phân tích dữ liệu và tự động hóa cả các quyết định thông thường và quan trọng mà không bị trì hoãn bởi yếu tố con người. Ví dụ các ngân hàng có thể ngay lập tức phá hiện các giao dịch gian lận, yêu cầu xác minh và thậm chí bảo mật thông tin cá nhân để bảo vệ khách hàng chống lại hành vi trộm cắp, tội phạm.

• Hỗ trợ đưa ra dự báo chính xác: Dự báo là một quá trình quan trọng trong mỗi tổ chức. KPDL tạo điều kiện lập kế hoạch và cung cấp cho các nhà quản lý dự báo đáng tin cậy dựa trên các xu hướng trong quá khứ và các điều kiện hiện tại. Đặc biệt trong chuỗi cửa hàng bán lẻ việc dự đoán nhu cầu của khách hàng cho từng loại sản phẩm tại mỗi cửa hàng và dự báo hàng tồn kho, khả năng cung ứng phù hợp tại bất kì thời điểm nào mà người quản lý muốn là điều rất quan trọng để đáp ứng hiệu quả nguồn cung ra thị trường.

• Hỗ trợ khả năng thấu hiểu khách hàng: Các công ty triển khai các mô hình KPDL chuyên biệt để phân tích dữ liệu khách hàng nhằm khám phá các đặc điểm chính, các điểm khác biệt về sở thích, thói quen, hành vi,. của mỗi phân khúc khách hàng, xác định nhu cầu mỗi khách hàng một cách chính xác nhất. Dựa vào kết quả thu được, các công ty sẽ triển khai các dịch vụ, sản phẩm và tư vấn cho khách hàng một cách cá nhân hiệu quả hơn.

Nguyễn Thị Lựu - K19HTTTC 23

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO

(dissimilar) nhau (Vũ Lan Hương, 2006).

Số các cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định khi thực hiện phương pháp phân cụm.

Hình 4. Mô phỏng vấn đề phân cụm dữ liệu

Trong hình trên, sau khi phân cụm chúng ta thu được bốn cụm trong đó các phần tử "gần nhau" hay là "tương tự" thì được xếp vào một cụm, trong khi đó các phần tử "xa nhau" hay là "phi tương tự" thì chúng thuộc về các cụm khác nhau.

Một vấn đề thường gặp trong KPDL đó là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu "nhiễu" (noise) do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ "nhiễu" trước khi bước vào giai đoạn phân tích phân cụm dữ liệu. "Nhiễu" ở đây có thể là các đối tượng dữ liệu không không chính xác, hoặc là các đối tượng dữ liệu khuyết thông tin về một số thuộc tính. Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng "nhiễu" bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất.

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả

bài toán phân bổ và đánh giá nhân sự tại công ty GMO một thuộc tính thuộc tính thứ tự thì ta có thể xác định là hoặc x = y hoặc x > y

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm sao cho các đối tượng trong cùng một cụm “tương tự” nhau. Vì vậy phải xác định được một phép đo “khoảng cách” hay phép đo tương tự giữa các cặp đối tượng để phân chia chúng vào các cụm khác nhau. Dựa vào hàm tính độ tương tự này cho phép xác định được hai đối tượng có tương tự hay không. Theo quy ước, giá trị của hàm tính độ đo tương tự càng lớn thì sự tương đồng giữa các đối tượng càng lớn và ngược lại. Hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự.

2.2.2. Các kiểu dữ liệu và phép đo độ tương tự

a. Các kiểu dữ liệu (An Hồng Sơn, 2008)

Phân loại các kiểu dữ liệu (kiểu thuộc tính) dựa trên kích thước miền

- Thuộc tính liên tục (Continuous Attribute): nếu miền giá trị của nó là một

miền bao gồm vô hạn, không đếm được các giá trị. Thí dụ như các thuộc tính nhiệt độ hoặc cường độ âm thanh.

- Thuộc tính rời rạc (Discrette Attribute): Nếu miền giá trị của nó là tập hữu hạn, đếm được. Thí dụ như các thuộc tính về số serial của một cuốn sách, số thành viên trong một gia đình, ...

- Thuộc tính nhị phân: Là trường hợp đặc biệt của thuộc tính rời rạc mà miền giá trị của nó chỉ có 2 phần tử được diễn tả như: Yes / No hoặc Nam/Nữ, FalseZtrue,...

Phân loại các kiểu dữ liệu (kiểu thuộc tính) dựa trên hệ đo

Giả sử rằng chúng ta có hai đối tượng x, y và các thuộc tính xi , yi tương ứng với thuộc tính thứ i của chúng. Chúng ta có các lớp kiểu dữ liệu như sau:

- Thuộc tính định danh (nominal Scale): đây là dạng thuộc tính khái quát hoá của thuộc tính nhị phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều hơn hai phần tử - nghĩa là nếu x và y là hai đối tượng thuộc tính thì chỉ có thể xác định là hoặc x = y.

- Thuộc tính có thứ tự (Ordinal Scale): là thuộc tính định danh có thêm tính thứ tự, nhưng chúng không được định lượng. Nếu x và y là hai giá trị của

hoặc x < y. Thí dụ thuộc tính xếp loại sinh viên thành các mức: Giỏi, khá, trung bình, kém

- Thuộc tính khoảng (Interval Scale): Nhằm để đo các giá trị theo xấp xỉ tuyến tính. Với thuộc tính khoảng, chúng ta có thể xác định một đối tượng là đứng trước hoặc đứng sau một đối tượng khác với một khoảng là bao nhiêu. Nếu xi > xj thì ta nói hai đối tượng i và j cách nhau một khoảng xi - xj ứng với thuộc tính x. Một thí dụ về thuộc tính khoảng là số Serial của một đầu sách trong thư viện.

- Thuộc tính tỉ lệ (Ratio Scale): là thuộc tính khoảng nhưng được xác định một điểm mốc tương đối, thí dụ như thuộc tính chiều cao hoặc cân nặng lấy điểm 0 làm mốc.

Trong các thuộc tính dữ liệu trình bày ở trên, thuộc tính định danh và thuộc tính có thứ tự gọi chung là thuộc tính hạng mục (Categorical), còn thuộc tính khoảng và thuộc tính tỉ lệ được gọi là thuộc tính số (Numeric).

b. Một số phép đo độ tương tự và phi tương tự áp dụng với những kiểu dữ liệu khác nhau (An Hồng Sơn, 2008)

Để phân cụm, người ta phải đi tìm cách thích hợp để xác định “khoảng cách” giữa các đối tượng, hay là phép đo tương tự dữ liệu.Đây là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông thường các hàm này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi tương tự (Dissimilar) giữa các đối tượng dữ liệu.

• Thuộc tính khoảng cách

Sau khi chuẩn hoá, độ đo phi tương tự của hai đối tượng dữ liệu x, y được xác định bằng các metric khoảng cách như sau:

- Khoảng cách Minskowski:

P

>y) = (∑ I Xi-yi I q

y =1 y = 0 x =1 a b a+ b x =0 c d c+ d a +c b + d a+ b +c+d Nguyễn Thị Lựu - K19HTTTC 26

Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO Trong đó q là số tự nhiên dương.

- Khoảng cách Euclide:

d(xy) = ∑(Xi -yi)2

V=1

Đây là trường hợp đặc biệt của khoảng cách Minskowski trong trường hợp q=2.

- Khoảng cách Manhattan:

P

d (x,y) = ∑ I Xi -yi I

i = l

Đây là trường hợp đặc biệt của khoảng cách Minskowski trong trường hợp q=1.

- Khoảng cách Chebychev:

d(x,y) = mα⅛1∣xi - yỂ|

Đây là trường hợp của khoảng cách Minskowski trong trường hợp q ÷ ∞

• Thuộc tính nhị phân

Giả sử tất cả thuộc tính về đối tượng đều là nhị phân biểu thị bằng 0 và 1. Xét bảng tham số sau về hai đối tượng x và y:

a là tổng số các thuộctính có giá trị là 1 trong cả haiđối tượng x, y. b là tổng số các giá trịthuộc tính có giá trị là1 trong x và 0 trong y.

Một phần của tài liệu Ứng dụng khai phá dữ liệu để phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty gmo z com runsystem,khoá luận tốt nghiệp (Trang 34)

Tải bản đầy đủ (DOCX)

(94 trang)
w