Từ những năm 2000 trở lại đây, phương pháp phân cụm bán giám sát bắt đầu được phát triển mạnh mẽ. Thuật toán phân cụm bán giám sát tích hợp các thông tin có được từ ban đầu như một lượng nhỏ dữ liệu được gán nhãn (seed) hoặc một số lượng nhỏ các thông tin về các cặp dữ liệu must-link (phải liên kết), cannot-link (không thể liên kết): must-link(u,v) thể hiện u và v sẽ thuộc cùng một cụm trong khi cannot-link(u,v) cho biết u và v sẽ thuộc về hai cụm khác nhau.
Hình 2.19. Dữ liệu đầu vào cho 3 loại thuật toán học (a) học có giám sát, (b,c) học bán giám sát, và (d) học không giám sát
Hình 2.19 minh họa cho dữ liệu được cung cấp cho các mô hình học có giám sát, bán giám sát và không giám sát. Phân cụm bán giám sát là phương pháp sử dụng các thông tin bổ trợ để hướng dẫn cho quá trình phân cụm. Các thông tin bổ trợ có thể được cho dưới dạng tập các cặp ràng buộc hoặc một tập nhỏ một số dữ liệu được dán nhãn. Công việc xác định những tập ràng buộc hay những tập dữ liệu được dán nhãn được thực hiện bởi người phân cụm. Việc xác định này tuỳ thuộc vào kinh nghiệm của người phân cụm hoặc có thể dựa vào các tiêu chuẩn khác nhau tuỳ theo mục đích của việc phân cụm.
Các thuật toán phân cụm bán giám sát đã được nghiên cứu và phát triển gồm:
- Thuật toán Seed K-Means, đây là thuật toán K-Means tích hợp với các dữ liệu đã gán nhãn nhằm trợ giúp trong pha khởi tạo các trọng tâm cho các cụm.
- Thuật toán hạn chế K-Means, thuật toán này sử dụng các ràng buộc giữa các điểm vào trong quá trình phân cụm, trợ giúp quá trình tìm kiếm các cụm.
- Thuật toán MPC K-Means, thuật toán này sử dụng các ràng buộc để huấn luyện hàm mục tiêu và trợ giúp quá trình tìm kiếm các cụm.
- Thuật toán SSDBSCAN, thuật toán này sử dụng một số điểm đã gán nhãn sẵn cung cấp để giúp cho thuật toán tìm kiếm được các cụm có mật độ bất kỳ.
- Thuật toán SSGC, đây là thuật toán phân cụm bán giám sát dựa trên đồ thị, với việc sử dụng một số điểm đã gán nhãn để trợ giúp quá trình phân tách đồ thị thành các thành phần liên thông lớn nhất.
- Thuật toán MCSSDBS, thuật toán này cải tiến thuật toán SSDBSCAN bằng cách tích hợp các ràng buộc và các điểm đã gán nhãn sẵn vào trong cùng
một quá trình phân cụm làm tăng chất lượng của phân cụm khi so sánh với thuật toán SSDBSCAN.
- Thuật toán MCSSGC, một cải tiến của thuật toán SSGC, tương tự như MCSSDBS, thuật toán này tích hợp cả hai loại ràng buộc và các điểm đã gán nhãn vào trong cùng một thuật toán để cải tiến chất lượng phân cụm khi so sánh với thuật toán gốc SSGC.