Phân cụm là kỹ thuật rất quan trọng trong KPDL, nó thuộc lớp các phương pháp “học không giám sát” trong Học máy. Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là các quy trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự
Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO
2.1.2. Khai phá dữ liệu trong kinh doanh
Ve khía cạnh ứng dụng thì ngày nay các công ty bán lẻ, ngân hàng, công ty sản xuất kinh doanh, công ty viễn thông và công ty tài chính,... đang ứng dụng KPDL để phân tích mọi vấn đề từ tối ưu giá cả, chương trình khuyến mại, nhân khẩu học đến phân khúc khách hàng, rủi ro, cạnh tranh, marketing đến truyền thông xã hội - ảnh hưởng đến mô hình kinh doanh, mối quan hệ với khách hàng, doanh thu, và hoạt động của toàn bộ tổ chức thông qua các phần mềm: Quản lý bán hàng, Quản lý quan hệ khách hàng (CRM) và đã thu được nhiều lợi ích sau:
• Hỗ trợ ra quyết định tự động: Data Mining cho phép các tổ chức liên tục phân tích dữ liệu và tự động hóa cả các quyết định thông thường và quan trọng mà không bị trì hoãn bởi yếu tố con người. Ví dụ các ngân hàng có thể ngay lập tức phá hiện các giao dịch gian lận, yêu cầu xác minh và thậm chí bảo mật thông tin cá nhân để bảo vệ khách hàng chống lại hành vi trộm cắp, tội phạm.
• Hỗ trợ đưa ra dự báo chính xác: Dự báo là một quá trình quan trọng trong mỗi tổ chức. KPDL tạo điều kiện lập kế hoạch và cung cấp cho các nhà quản lý dự báo đáng tin cậy dựa trên các xu hướng trong quá khứ và các điều kiện hiện tại. Đặc biệt trong chuỗi cửa hàng bán lẻ việc dự đoán nhu cầu của khách hàng cho từng loại sản phẩm tại mỗi cửa hàng và dự báo hàng tồn kho, khả năng cung ứng phù hợp tại bất kì thời điểm nào mà người quản lý muốn là điều rất quan trọng để đáp ứng hiệu quả nguồn cung ra thị trường.
• Hỗ trợ khả năng thấu hiểu khách hàng: Các công ty triển khai các mô hình KPDL chuyên biệt để phân tích dữ liệu khách hàng nhằm khám phá các đặc điểm chính, các điểm khác biệt về sở thích, thói quen, hành vi,. của mỗi phân khúc khách hàng, xác định nhu cầu mỗi khách hàng một cách chính xác nhất. Dựa vào kết quả thu được, các công ty sẽ triển khai các dịch vụ, sản phẩm và tư vấn cho khách hàng một cách cá nhân hiệu quả hơn.
Nguyễn Thị Lựu - K19HTTTC 23
Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO
(dissimilar) nhau (Vũ Lan Hương, 2006).
Số các cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định khi thực hiện phương pháp phân cụm.
Hình 4. Mô phỏng vấn đề phân cụm dữ liệu
Trong hình trên, sau khi phân cụm chúng ta thu được bốn cụm trong đó các phần tử "gần nhau" hay là "tương tự" thì được xếp vào một cụm, trong khi đó các phần tử "xa nhau" hay là "phi tương tự" thì chúng thuộc về các cụm khác nhau.
Một vấn đề thường gặp trong KPDL đó là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu "nhiễu" (noise) do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ "nhiễu" trước khi bước vào giai đoạn phân tích phân cụm dữ liệu. "Nhiễu" ở đây có thể là các đối tượng dữ liệu không không chính xác, hoặc là các đối tượng dữ liệu khuyết thông tin về một số thuộc tính. Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng "nhiễu" bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất.
Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả
bài toán phân bổ và đánh giá nhân sự tại công ty GMO một thuộc tính thuộc tính thứ tự thì ta có thể xác định là hoặc x = y hoặc x > y
Khóa luận tốt nghiệp Ứng dụng KPDL phân cụm nhân viên nâng cao hiệu quả bài toán phân bổ và đánh giá nhân sự tại công ty GMO Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm sao cho các đối tượng trong cùng một cụm “tương tự” nhau. Vì vậy phải xác định được một phép đo “khoảng cách” hay phép đo tương tự giữa các cặp đối tượng để phân chia chúng vào các cụm khác nhau. Dựa vào hàm tính độ tương tự này cho phép xác định được hai đối tượng có tương tự hay không. Theo quy ước, giá trị của hàm tính độ đo tương tự càng lớn thì sự tương đồng giữa các đối tượng càng lớn và ngược lại. Hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự.