Giao diện chương trình

 Giao diện khởi động

Trong chương trình này do tập chung thể hiện thuaatj toán phân cụm dữ liệu lên em sẽ bỏ đi một số phần không quá quan trọng trong một hệ thống quản lý thông thường (đăng nhập, phân quyền,...).

 Một số giao diện cập nhập

 Giao diện Phân cụm dữ liệu

 Cập nhập số cụm K

 Cập nhập tập giống

Chọn tập giống, khi chon một phần tử làm tập giống bạn phải chon số cụm khởi tạo cho nó.

 Kết quả khởi tạo

 Phân cụm dữ liệu

Đây là giao diện thực hiện phân cụm và chạy trong quá trình phân cụm

 Kết quả phân cụm

KẾT LUẬN

Data mining là một trong những lĩnh vực nghiên cứ mới, nhưng đồng thời nó cũng là một trong những xu hướng nghiên cứu ngày càng phổ biến. Do nhu cầu của thực tế, với sự phát triển của công nghệ máy tính, của các lĩnh vực kinh tế - xã hôi thì lượng thông tin lưu trữ ngày càng tăng, và nhu cầu khai thác thông tin, tri thức ngày càng lớn. Do đó việc đọc, nghiên cứu và phát triển phương pháp phân cụm dữ liệu đóng một vai trò rất quan trọng trong hoạt động của khoa học công nghệ máy tính, cũng như trong hoạt động thực tiễn.

Trong bài báo cáo này em đã nêu lên những nét đặc trưng nhất trong lĩnh vực Data Mining bao gồm các vấn đề cần khám phá tri thức, các hướng tiếp cận nghiên cứu tiêu biểu, trong đó phân cụm dữ liệu là một phương pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng như thực tiễn. Trong đó phân cụm dữ liệu nửa giám sát là một trong những hướng nghiên cứu mới được nhiều nhà khoa học quan tâm. Bài báo cáo đã nêu được một cách khái quát về data mining và phương pháp phân cụm không giám sát, từ đó phân tích chi tiết về phân cụm nửa giám sát. Trình bày ba thuật toán điển hình của phân cụm nửa giám sát đó là : COP-KMeans, Seeded-KMeans, Constrained-KMeans và trình bày thuật toán KMeans phân cấp mới được đề xuất của hai tác giả Việt Nam là : Hoàng Xuân Huấn và Nguyễn Trung Thông.

Tóm lại phân cụm dữ liệu nói chung và phân cụm nửa giám sát nói riêng đang ngày càng được quan tâm ở nước ta và trên thế giới. Ngày càng có nhiều thuật toán và tư tưởng mới về phân cụm dữ liệu ra đời. Phân cụm dữ liệu đã từng bước chứng minh được tầm quan trong cũng như vài trò của mình trong sự phát triển của công nghệ máy tính nói riêng và phát triển của thế giới nói chung. Trong quá trình làm luận văn tốt nghiệp do thời gian thực hiện và trình độ còn nhiều hạn chế lên chưa thể tìm hiểu chi tiết hơn về Phân cụm nửa giám sát. Em mong nhận được sự chỉ bảo của thầy cô và sự góp ý của bạn bè.

Tài liệu tham khảo

Trong quá trình đọc và tìm hiểu về đề tài em đã tham khảo những tài liệu sau: [1] Nguyễn Trung Thông. Phương pháp phân cụm nửa giám sát

[ 2 ] KS. Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin. Ứng dụng các kỹ

thuật khai phá dữ liệu vào lĩnh vực viễn thông

[3] Hoàng Hải Xanh – K9 đại học công nghệ - ĐHQGHN (Luận văn thạc sĩ) Một số

kỹ thuật phân cụm dữ liệu trong Data Mining.

[4] Hoàng Xuân Huấn, Nguyễn Thị Xuân Hương. Mở rộng thuật toán phân cụm k-

mean cho dữ liệu hỗn hợp. Một số vấn đề chọn lọc của công nghệ thông tin, Hải

phòng 25-27 tháng 8 năm 2005.

[5] Basu, S., Banerjee, A., & Mooney, R. J. (2002). Semi-supervised clustering by seeding. In Proceedings of 19th International Conference on Machine Learning (ICML-2002), pp. 19–26.

[6] Basu, S., Banerjee, A., & Mooney, R. J. (2003). Active semi-supervision for pairwise constrained clustering. Submitted for publication, available at

[7] Basu Sugato (2004) Semi-supervised Clustering with Limited Background Knowledge. Proceedings of the Ninth AAAI/SIGART Doctoral Consortium, pp. 979- 980, San Jose, CA, July 2004.

[8] Blake, C. L., & Merz, C. J. (1998). UCI repository of machine learning databases. http://www.ics.uci.edu/˜mlearn/MLRepository.html.

[9] Cohn, D., Caruana, R., & McCallum, A. (2000). Semi-supervised clustering with user feedback. Unpublished manuscript. Available at

http://www2.cs.cmu.edu/˜mccallum/.

Thuật toán K-Means phân cấp