CHƯƠNG VI: KẾT LUẬN - Hàm tính Vector trọng tâm và- 123docz.net

- Hàm tính Vector trọng tâm và khoảng cách

CHƯƠNG VI: KẾT LUẬN

Nhu cầu khám phá tri thức ngày càng mạnh mẽ trong thời đại hiện nay. Khai thác dữ liệu đã mở ra nhiều hướng nghiên cứu trong nhiều lĩnh vực khác nhau, nhất là trong lĩnh vực khoa học máy tính và công nghệ tri thức. Gom cụm dữ liệu đã, đang và tiếp tục là hướng nghiên cứu quan trọng trong việc khai phá dữ liệu.

Gom cụm dữ liệu góp phần không nhỏ vào việc phân cụm, phát hiện ra các mẫu dữ liệu tự nhiên trong số dữ liệu lớn và được ứng dụng ở rất nhiều lĩnh vực như tài chính, thông tin về địa lý, sinh học, nhận dạng ảnh, … và sử dụng thuật toán K-means cho việc gom cụm dữ liệu cũng đã đạt được nhiều kết quả gom cụm đủ tốt tuy bên cạnh còn nhiều khó khăn. Nhất là những khó khăn, thử thách trong thời đại công nghệ hiện này với sự bùng nổ thông tin, dữ liệu ngày càng lớn.

Việc tìm hiểu và nghiên cứu về đề tài “Tìm hiểu Gom cụm dữ liệu phân & thuật toán K-means” chỉ là mức độ tìm hiểu khái quát nhằm hiểu rõ về khả năng, kỹ thuật gom cụm dữ liệu nói chung và kỹ thuật gom cụm của K-means nói riêng với chương trình demo nhỏ. Do đó, khóa luận này còn rất nhiều thiếu sót cũng như những hạn chế của nó. Song cũng mở ra thêm hướng tìm hiểu, nghiên cứu sâu hơn, phát triển hơn về gom cụm dữ liệu giúp giải quyết việc tìm ra các dữ liệu mẫu trong số những dữ liệu vô cùng lớn trong giai đoạn hiện tại và trong tương lai.

TÀI LIỆU THAM KHẢO

[1] GS.TS Đỗ Phúc, Slide bài giảng Khai thác dữ liệu – Data Mining, Trường Đại học CNTT TP.HCM

[2] GS.TS. Đỗ Phúc, Giáo trình Khai thác dữ liệu – Data Mining, Trường Đại học CNTT TP.HCM

[3] TS Võ Thị Ngọc Châu, GTĐT Gom cụm dữ liệu, Trường Đại học Bách khoa TP.HCM [4] Microsoft Visual C# 2008

[5] Alternatives to the kmeans Algorithm that find better clusterings

Greg Hamerly - Charles Elkan

Department of Computer Science and Engineering

University of California, San Diego La Jolla, CA 92093

ghamerly@cs.ucsd.edu elkan@cs.ucsd.edu

[6] K-means Clustering via Principal Component Analysis

Chris Ding chqding@lbl.gov

Xiaofeng He xhe@lbl.gov

Computational Research Division, Lawrence Berkeley National Laboratory, Berkeley, CA 94720

[7] Websites:

http://www.math.le.ac.uk/people/ag153/homepage/KmeansKmedoids/Kmeans_Kmedoids.html http://en.wikipedia.org/wiki/K-means_clustering