Data mining là một trong những lĩnh vực nghiên cứu mới, nhưng đông thời nó cũng là một trong những xu hướng nghiên cứu ngày càng phổ biến. Do nhu cầu của thực tế, với sự phát triển của công nghệ máy tính, của các lĩnh vực kinh tế, xã hôi thì lượng thông tin lưu trữ ngày càng tăng, và nhu cầu khai thác thông tin, tri
thức ngày càng lớn. Do đó việc đọc, nghiên cứu và phát triển phương pháp phân cụm dữ liệu đóng một vai trò rất quan trọng trong hoạt động của khoa học công nghệ máy tính, cũng như trong hoạt động thực tiễn.
Trong bài báo cáo này em đã nêu lên những nét đặc trưng nhất trong lĩnh vực Data Mining bao gôm các vấn đề cần khám phá tri thức, các hướng tiếp cận nghiên cứu tiêu biểu, trong đó phân cụm dữ liệu là một phương pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng như thực tiễn. Trong đó phân cụm dữ liệu nửa giám sát là một trong những hướng nghiên cứu mới được nhiều nhà khoa học quan tâm. Bài báo cáo đã nêu được một cách khái quát về data mining và phương pháp phân cụm không giám sát, từ đó phân tích chi tiết về phân cụm nửa giám sát. Trình bày ba thuật toán điển hình của phân cụm nửa giám sát đó là : COP-KMeans, Seeded-KMeans, Constrained- KMeans và trình bày thuật toán KMeans phân cấp mới.
Tóm lại phân cụm dữ liệu nói chung và phân cụm nửa giám sát nói riêng đang ngày càng được quan tâm ở nước ta và trên thế giới. Ngày càng có nhiều thuật toán và tư tưởng mới về phân cụm dữ liệu ra đời. Phân cụm dữ liệu đã từng bước chứng minh được tầm quan trong cũng như vài trò của mình trong sự phát triển của công nghệ máy tính nói riêng và phát triển của thế giới nói chung.