PCDL là kỹ thuật sử dụng quan sát đối tƣợng, mục đích để tổ chức một tập các đối tƣợng cụ thể hoặc trừu tƣợng vào các nhóm, cụm phân biệt. Bài toán phân cụm thƣờng đƣợc thực hiện khi chúng ta không biết đƣợc nội dung thông tin của các thành phần thuộc cụm để định nghĩa trƣớc các lớp. Vì lý do này mà công việc phân cụm thƣờng đƣợc nhìn dƣới con mắt của học máy không giám sát, phƣơng pháp học mà khi ta cho trƣớc một mẫu chỉ gồm các đối tƣợng cần tìm một cấu trúc đáng quan tâm của dữ liệu và nhóm lại các dữ liệu giống nhaụ
Thuật toán phân cụm phát triển có thể cho kết quả tốt nhất với một loại tập hợp dữ liệu, nhƣng có thể thất bại hoặc cho kết quả kém với các dữ liệu của các loại khác. Nhiều thuật toán phân nhóm đã đƣợc đề xuất. Mỗi thuật toán có ƣu điểm và điểm yếu riêng và không thể làm việc cho tất cả các tình huống thực tế. Phân cụm là quá trình phân vùng dữ liệu đƣợc thiết lập thành các nhóm dựa trên những đặc điểm tƣơng tự nhaụ Đây là vấn đề quan trọng trong học không giám sát. Nó thực hiện công việc với cấu trúc tìm kiếm trong một bộ dữ liệu không đƣợc dán nhãn. Để thực hiện tốt các thuật toán phân cụm thì cần phải có những điều kiện:
- Khả năng mở rộng - dữ liệu phải đƣợc mở rộng nếu không sẽ đƣa ra kết quả sai
- Thuật toán phân cụm phải có khả năng giải quyết với các loại thuộc tính khác nhaụ
- Thuật toán phân cụm phải tìm ra các cụm dữ liệu với những hình dạng khác nhaụ
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnụedụvn/
- Kết quả thu đƣợc có thể giải thích đƣợc và có thể sử dụng để hiểu biết tối đa các thông số đầu vàọ
- Thuật toán phân cụm phải có khả năng giải quyết tập dữ liệu đa chiềụ