1.2.2.1 Khái niệm
Phân cụm là quá trình nhóm một tập các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng thuộc cùng một cụm là tƣơng đồng còn các đối tƣợng thuộc các cụm khác nhau sẽ không tƣơng đồng.
Phân cụm là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn quan trọng trong tập dữ liệu lớn từ đó cung cấp thông tin hữu ích cho việc ra quyết định.
Quá trình phân cụm là quá trình tìm ra các đối tƣợng trong cơ sở dữ liệu một cách tự động. Phân cụm là một ví dụ của phƣơng pháp học không có thầỵ Không giống nhƣ phân lớp, phân cụm không đòi hỏi phải định nghĩa trƣớc các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm là một cách học bằng quan sát.
Đã có rất nhiều thuật toán đƣợc phát triển cho bài toán phân cụm trong cơ sở dữ liệu lớn và đƣợc áp dụng vào nhiều lĩnh vực nhƣ xử lý ảnh, nhận dạng, đánh giá kinh doanh...Sự đa dạng của thuật toán phân cụm là do sự khác nhau của các ứng dụng thực tế dẫn tới những yêu cầu khác nhau và đòi hỏi các thuật toán phân cụm khác nhaụ
Một trong những câu hỏi lớn đặt ra cho bài toán phân cụm là độ đo tƣơng đồng không gian giữa các đối tƣợng dữ liệu (spantal similarity). Trong dữ liệu không gian thì độ đo tƣơng đồng đƣợc xem nhƣ sự quan hệ về vị trí không gian giữa các đối tƣợng dữ liệụ
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnụedụvn/
Một trong những phƣơng pháp độ đo tƣơng đồng giữa hai đối tƣợng là bằng nghịch đảo của hàm không tƣơng đồng (dissimilarity function). Hàm không tƣơng đồng, hàm dựa vào những thuộc tính trong không gian của đối tƣợng nhƣ : tọa độ của các đối tƣợng, độ cao của đối tƣợng....Trong nhiều trƣờng hợp thì hàm không tƣơng đồng đƣợc xem nhƣ hàm khoảng cách không gian giữa các đối tƣợng nhƣ hàm khoảng cách Euclid, hàm khoảng cách Manhattan, hàm khoảng cách Minkowskị..
Bài toán phân cụm dữ liệu thƣờng đƣợc hiểu là một bài toán không giám sát và đƣợc phát biểu nhƣ sau: Cho tập N đối tƣợng dữ liệu X = {x1, x2,…,xn}(bài toán chỉ xét các đối tƣợng trong không gian số học n chiều; xi Rn), ta cần chia X thành các cụm đôi một không giao nhau: X =
i Yc
k
i 1
sao cho các đối tƣợng trong cùng một cụm Ci thì tƣơng tự nhau và các đối tƣợng trong các cụm khác nhau thì khác nhau hơn theo một cách nhìn nào đó. Số lƣợng k các cụm có thể cho trƣớc hoặc xác định nhờ phƣơng pháp phân cụm. Để thực hiện phân cụm, ta cần xác định đƣợc mức độ tƣơng tự giữa các đối tƣợng, tiêu chuẩn để phận cụm, trên cơ sở đó xây dựng mô hình và các thuật toán phân cụm theo nhiều cách tiếp cận. Mỗi cách tiếp cận cho ta kết quả phân cụm với ý nghĩa sử dụng khác nhaụ
Không có một thuật toán phân cụm nào là tốt nhất và thích hợp cho tất cả mọi ứng dụng mà mỗi ứng dụng khác nhau thì ngƣời sử dụng phải lựa chọn một thuật toán phân cụm cụ thể phù hợp với ứng dụng đó. Kết quả đánh giá cho từng thuật toán cũng phụ thuộc vào yêu cầu của từng ứng dụng.
1.2.2.2 Mục đích của phân cụm dữ liệu
Mục đích của phân cụm dữ liệu là xác định đƣợc bản chất bên trong nhóm của dữ liệu chƣa có nhãn. Nó có thể không có tiêu chuẩn tuyệt đối "tốt" mà có thể không phụ thuộc vào kết quả phân nhóm. Vì vậy, nó đòi hỏi ngƣời sử dụng phải cung cấp tiêu chuẩn phân cụm một cách rõ ràng theo cách mà kết quả phân cụm sẽ đáp ứng yêu cầụ
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnụedụvn/
Hiện nay chƣa có một phƣơng pháp phân cụm nào có thể giải quyết trọn vẹn cách biểu diễn cấu trúc dữ liệu, và với mỗi cách thức biểu diễn khác nhau sẽ có tƣơng ứng một thuật toán phân cụm phù hợp.
1.2.2.3 Ứng dụng của bài toán phân cụm
Phân cụm dữ liệu đã và đang đƣợc nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nƣớc trên thế giới, tại Việt Nam kỹ thuật này tƣơng đối còn mới mẻ tuy nhiên cũng đang đƣợc nghiên cứu và dần đƣa vào ứng dụng tại nhiều lĩnh vực nhƣ:
- Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lí… nhằm cung cấp thông tin cho quy hoạch đô thị;
- Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho nhận dạng các vùng nguy hiểm;
- Thƣơng mại: Tìm kiếm nhóm các khách hàng quan trọng có đặc trƣng tƣơng đồng và những đặc tả họ từ các bản ghi mua bán trong CSDL mua hàng;
- Sinh học: Phân loại các gen với các chức năng tƣơng đồng và thu đƣợc các cấu trúc trong mẫu;
- Thƣ viện: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả;
- Bảo hiểm: Phân nhóm các đối tƣợng sử dụng bảo hiểm và các dịch vụ tài chính, dự đoán xu hƣớng của khách hàng, phát hiện gian lận tài chính;
- WWW: Phân loại tài liệu, phân loại ngƣời dùng web.