Giao diện chương trình

Một phần của tài liệu Tài liệu Đồ án tốt nghiệp Thuật toán Phân cụm dữ liệu nửa giám sát doc (Trang 56 - 62)

™ Giao diện khởi động

Trong chương trình này do tập chung thể hiện thuaatj toán phân cụm dữ liệu lên em sẽ bỏđi một số phần không quá quan trọng trong một hệ thống quản lý thông thường (đăng nhập, phân quyền,...).

Đây là giao diện sẽđược load khi chương trình chạy. Nó là một form kiểu Flash

™ Một số giao diện cập nhập

Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát

™ Giao diện Phân cụm dữ liệu

™ Cập nhập số cụm K

Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát

58

™ Cập nhập tập giống

Chọn tập giống, khi chon một phần tử làm tập giống bạn phải chon số cụm khởi tạo cho nó.

™ Kết quả khởi tạo

™ Phân cụm dữ liệu

Đây là giao diện thực hiện phân cụm và chạy trong quá trình phân cụm

™ Kết quả phân cụm

Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát

60

KT LUN

Data mining là một trong những lĩnh vực nghiên cứ mới, nhưng đồng thời nó cũng là một trong những xu hướng nghiên cứu ngày càng phổ biến. Do nhu cầu của thực tế, với sự phát triển của công nghệ máy tính, của các lĩnh vực kinh tế - xã hôi thì lượng thông tin lưu trữ ngày càng tăng, và nhu cầu khai thác thông tin, tri thức ngày càng lớn. Do đó việc đọc, nghiên cứu và phát triển phương pháp phân cụm dữ liệu

đóng một vai trò rất quan trọng trong hoạt động của khoa học công nghệ máy tính, cũng như trong hoạt động thực tiễn.

Trong bài báo cáo này em đã nêu lên những nét đặc trưng nhất trong lĩnh vực Data Mining bao gồm các vấn đề cần khám phá tri thức, các hướng tiếp cận nghiên cứu tiêu biểu, trong đó phân cụm dữ liệu là một phương pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng như thực tiễn. Trong

đó phân cụm dữ liệu nửa giám sát là một trong những hướng nghiên cứu mới được nhiều nhà khoa học quan tâm. Bài báo cáo đã nêu được một cách khái quát về data mining và phương pháp phân cụm không giám sát, từ đó phân tích chi tiết về phân cụm nửa giám sát. Trình bày ba thuật toán điển hình của phân cụm nửa giám sát đó là : COP-KMeans, Seeded-KMeans, Constrained-KMeans và trình bày thuật toán KMeans phân cấp mới được đề xuất của hai tác giả Việt Nam là : Hoàng Xuân Huấn và Nguyễn Trung Thông.

Tóm lại phân cụm dữ liệu nói chung và phân cụm nửa giám sát nói riêng đang ngày càng được quan tâm ở nước ta và trên thế giới. Ngày càng có nhiều thuật toán và tư tưởng mới về phân cụm dữ liệu ra đời. Phân cụm dữ liệu đã từng bước chứng minh

được tầm quan trong cũng như vài trò của mình trong sự phát triển của công nghệ máy tính nói riêng và phát triển của thế giới nói chung. Trong quá trình làm luận văn tốt nghiệp do thời gian thực hiện và trình độ còn nhiều hạn chế lên chưa thể tìm hiểu chi tiết hơn về Phân cụm nửa giám sát. Em mong nhận được sự chỉ bảo của thầy cô và sự

Tài liu tham kho

Trong quá trình đọc và tìm hiểu vềđề tài em đã tham khảo những tài liệu sau: [1] Nguyễn Trung Thông. Phương pháp phân cụm nửa giám sát

[ 2] KS. Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin. Ứng dụng các kỹ thuật khai phá dữ liệu vào lĩnh vực viễn thông

[3] Hoàng Hải Xanh – K9 đại học công nghệ - ĐHQGHN (Luận văn thạc sĩ) Một số kỹ thuật phân cụm dữ liệu trong Data Mining.

[4] Hoàng Xuân Huấn, Nguyễn Thị Xuân Hương. Mở rộng thuật toán phân cụm k- mean cho dữ liệu hỗn hợp. Một số vấn đề chọn lọc của công nghệ thông tin, Hải phòng 25-27 tháng 8 năm 2005.

[5] Basu, S., Banerjee, A., & Mooney, R. J. (2002). Semi-supervised clustering by seeding. In Proceedings of 19th International Conference on Machine Learning

(ICML-2002), pp. 19–26.

[6] Basu, S., Banerjee, A., & Mooney, R. J. (2003). Active semi-supervision for pairwise constrained clustering. Submitted for publication, available at

http://www.cs.utexas.edu/˜sugato/.

[7] Basu Sugato (2004) Semi-supervised Clustering with Limited Background Knowledge. Proceedings of the Ninth AAAI/SIGART Doctoral Consortium, pp. 979- 980, San Jose, CA, July 2004.

[8] Blake, C. L., & Merz, C. J. (1998). UCI repository of machine learning databases. http://www.ics.uci.edu/˜mlearn/MLRepository.html.

[9] Cohn, D., Caruana, R., & McCallum, A. (2000). Semi-supervised clustering with user feedback. Unpublished manuscript. Available at

http://www2.cs.cmu.edu/˜mccallum/.

[10] Kantardzic Mehmed, 2003 DATA MINING:Concepts, Models, Methods & Algorithms. Copyright © 2003 by Mehmed Kantardzic. pp 79-120.

Một phần của tài liệu Tài liệu Đồ án tốt nghiệp Thuật toán Phân cụm dữ liệu nửa giám sát doc (Trang 56 - 62)

Tải bản đầy đủ (PDF)

(62 trang)