3.1 Phân cụm là gì
Xử lý nhóm một tập các đối tượng vào trong các lớp các đối tượng giống nhau được gọi là phân cụm. Một cụm là một tập hợp các đối tượng dữ liệu giống nhau trong phạm vi cùng một cụm và không giống nhau với các đối tượng trong các cụm khác.
Phép phân tích cụm là một hoạt động quan trọng. Thời kì đầu, nó học làm thế nào để phân biệt giữa mèo và chó hay giữa động vật và thực vật, bằng cách trau dồi liên tục tiềm thức các lược đồ phân loại. Phép phân tích cụm được dùng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng, phép phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường, v.v... Bằng phân cụm, ta có thể nhận biết các vùng đông đúc và thưa thớt, bởi vậy tìm ra toàn bộ các mẫu phân bố và các tương quan thú vị giữa các thuộc tính dữ liệu. Trong kinh doanh, phân cụm có thể giúp cho các nhà nghiên cứu thị trường tìm ra các nhóm riêng biệt dựa trên khách hàng của họ và mô tả các nhóm khách hàng dựa trên các mẫu mua sắm. Trong sinh vật học, nó có thể được dùng để có được các nguyên tắc phân loại thực vật và động vật, phân loại gien theo chức năng giống nhau và có được sự hiểu biết thấu đáo các cấu trúc kế thừa trong các mẫu. Phân cụm cũng có thể được dùng để nhận biết các vùng đất giống nhau dùng trong cơ sở dữ liệu quan sát trái đất và nhận biết các nhóm
có hợp đồng bảo hiểm ô tô với mức chi phí trung bình cao, cũng như nhận biết các nhóm nhà trong thành phố theo kiểu nhà, giá trị và khu vực địa lý. Nó có thể cũng giúp cho việc phân loại dữ liệu trên WWW để khai thác thông tin. Như một hàm khai phá dữ liệu, phép phân tích cụm được dùng như là một công cụ độc lập để có thể nhìn thấu được bên trong sự phân bố dữ liệu, để quan sát các đặc điểm của mỗi cụm và tập trung trên một tập đặc biệt các cụm cho phép phân tích xa hơn. Tiếp theo, nó phục vụ như là một bước tiền xử lý cho các giải thuật khác như phân loại và mô tả, thao tác trên các cụm đã dò được.
Như là một nhánh của thống kê, phép phân tích cụm được nghiên cứu mở rộng đã nhiều năm, tập trung chính trên phép phân tích cụm dựa trên khoảng cách. Các công cụ phân tích cụm dựa trên k-means, k-medoids và một số các phương pháp khác cũng được xây dựng trong nhiều gói phần mềm hay hệ thống phân tích thống kê như S-Plus, SPSS và SAS.