Mục đích của thí nghiệm này là để so sánh sự hữu ích của các phương pháp FCM và FCM trong phân cụm các nhóm có dữ liệu ngoại lai và có sự xếp chồng của dữ liệu. Tập dữ liệu 2 chiều được chỉ ra ở hình 4.6, bao gồm 3 nhóm xếp chồng. Mỗi nhóm được sinh ra bởi một bộ phát giả ngẫu nhiên t-phân phối.
Các trung tâm cụm thực là (2, 2), (-2, 2) và (2, -2). Các trung tâm cụm này được đánh dấu bởi các hình tam giác. Tất cả các tính toán trong phần này, thành phần thứ k của nguyên mẫu (prototype) khởi tạo thứ j nhận được như sau:
1 1 k k jk k j c M m v m j c trong đó c là số các cụm, k min ik i m x , i ax k ik M m x
Giải thuật FCM kiểm tra với tham số nhận các giá trị khác nhau từ 0 tới 4.0 với bước nhảy là 0.5. Trong bảng 4.3, với các giá trị khác nhau của tham số này, chỉ ra độ lệch tuyệt đối cực đại của các trung tâm cụm so với các trung tâm thực của cụm. Đồng thời, định mức Frobenius của độ lệch này cũng được chỉ ra trong bảng 4.4. Đặc biệt các hình 4.6 và 4.7 cũng cho thấy độ lệch này khi thực thi phương pháp FCM và FCM.
Bảng 4.3. Cực đại các lỗi tâm cụm với dữ liệu có ngoại lai
Bảng 4.4. Frobenius của các lỗi tâm cụm cho dữ liệu có ngoại lai
Hình 4.6. Thực nghiệm FCM, = 2 với các cụm có dữ liệu xếp chồng và ngoại lai
KẾT LUẬN
Luận văn “Các kỹ thuật phân cụm trong khai phá dữ liệu” đã trình bày đƣợc một số vấn đề sau:
1. Luận văn đã trình bày tổng quan và các nét đặc trưng nhất trong lĩnh vực khai phá dữ liệu, bao gồm các vấn đề về quá trình khám phá tri thức trong CSDL, các bài toán KPDL điển hình, các dạng dữ liệu có thể khai phá, hướng tiếp cận và kỹ thuật chính trong KPDL cũng như các ứng dụng và các vấn đề thách thức trong KPDL.
2. PCDL là một phương pháp KPTT quan trọng trong Data Mining và có nhiều ý nghĩa trong khoa học cũng như trong thực tiễn. Đây là chủ đề trọng tâm cho nội dung nghiên cứu của luận văn. Chương 2 của luận văn đã trình bày một cách hệ thống các khái niệm cơ bản trong PCDL như phát biểu bài toán, các giai đoạn của quá trình PCDL, các kiểu dữ liệu và độ đo, các kỹ thuật tiếp cận PCDL và các yêu cầu đối với các thuật toán PCDL.
3. Trong chương 3 và chương 4, luận văn đã trình bày, phân tích một cách chi tiết, có hệ thống các phương pháp tiếp cận, các kỹ thuật chính áp dụng trong PCDL, bao gồm cả các bài toán PCDL điển hình và bài toán PCDL áp dụng lý thuyết tập mờ,…
4. Cuối cùng, luận văn đã cài đặt thử nghiệm thuật toán k-means.
Hƣớng nghiên cứu tiếp theo:
Trong khuôn khổ của luận văn, chúng tôi mới chỉ trình bày được một số các phương pháp cũng như kỹ thuật điển hình áp dụng trong PCDL. Bài toán này có thể mở rộng nghiên cứu, tìm hiểu nhằm xây dựng các ứng dụng đáp ứng nhu cầu thực tế. Do đó, trong thời gian tới chúng tôi sẽ tiếp tục theo đuổi và tiếp cận hướng nghiên cứu như: xây dựng và phát triển các kỹ thuật phân cụm cho dữ liệu Web, văn bản, hình ảnh,… Kết hợp các kỹ thuật phân cụm với các kỹ thuật mờ, mạng nơron để giải quyết một số ứng dụng khác trong thực tế.
Do điều kiện thời gian và khả năng bản thân nên luận văn không thể tránh khỏi những hạn chế, thiếu sót. Vì vậy, tôi rất mong nhận được sự đóng góp ý kiến, sự đánh giá, chỉ bảo của các thầy cô, bạn bè, đồng nghiệp để luận văn được hoàn thiện hơn.
TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt
[1]. Hoàng Kiếm, Lê Bá Phương, Ứng dụng khai phá dữ liệu để tìm hiểu thông
tin khách hàng.
[2]. Nguyễn Hoàng Phương (2002), Nhập môn Trí tuệ tính toán, NXB Khoa
học và kỹ thuật, Hà Nội.
[3]. Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin. Ứng dụng các kỹ thuật khai phá dữ liệu vào lĩnh vực viễn thông.
[4]. Đinh Mạnh Tường (2003), Trí tuệ nhân tạo, NXB Đại học Quốc gia Hà
Nội, Hà Nội.
[5]. Hoàng Hải Xanh (2005), Về các kỹ thuật phân cụm dữ liệu trong Data mining, Luận văn thạc sỹ.
Tài liệu tiếng Anh
[6]. Daniel T.Larose (2006), “Data mining: methods and models”, Wiley - Interscience.
[7]. David Hand, Heikki Mannila, Padhraic Smyth (2001), “Principles of Data
Mining”, Massachusetts Institute of Technology.
[8]. D. P. Mercer (2003), “Clustering large datasets”, Linacre College.
[9]. DavidGibson, Jon M. Kleinberg, and Prabhakar Raghavan (1998). “Clustering Categorical Data: An Approach Based on Dynamical Systems”. In Proceedings of the 24th International Conference on Very Large Data Bases, (VLDB), pages 311-322, NewYork, NY, USA.
[10].Ester M., Kriegel H.-P., Sander J., Xu X.(1996): “A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise”, Proc.
2nd Int. Conf. on Knowledge Discovery and Data Mining, Portland, OR, AAAI Press, pages 226-231.
[11].Fahim, Salem, Torkey, Ramadan (2006), “An efficient enhanced k-means clustering algorithm”, J Zhejiang Univ SCIENCE A.
[12].Jiawei Han, Micheline Kamber (2001), “Data Mining: Concepts and
[13].Jacek Leski (2001), “An -Insensitive approach to fuzzy clustering”, Int. J.
Appl. Math. Comput. Sci, Vol.11, No.4, 993 -1007.
[14].J.MacQueen (1967), “Some methods for classification and analysis of
multivariate observations”, Proc, 5th
Berkeley Symp. Math. Statist, Prob.
[15].Krzysztof J. Cios, Witold Pedrycz , Roman W. Swiniarski, Lukasz A. Kurgan (2007), “Data mining: A knowledge discovery approach”, Springer.
[16].Mehmed Kantardzic (2003). “Data Mining: Concepts, Models, Methods,
and Algorithms”. John Wiley & Sons, 2003.
[17].Periklis Andritsos (2002), “Data Clustering Techniques”, University of Toronto, Department of Computer Science.
[18]. Raymond T.Ng, Jiawei Han (1994), “Efficient and effective clustering methods for Spatial Data Mining”, Santiago, Chile.
[19].Rui Xu (2005), “Survey of Clustering Algorithms”, IEEE Transactions on Neural Networks, Vol.16, N0.3.
[20].Sudipto Guha, Rajeev Rastogi, Kyuseok Shim, “ROCK: A Robust Clustering Algorithm for categorical attributes”.
[21].Tian Zhang, Raghu Ramakrishnan, Miron Livn (1996), “BIRCH: An efficient data clustering method for very large databases”, Montreal, Canada.
[22].Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996), “From
Data Mining to Knowledge Discovery in Databases”, American Association for
Artificial Intelligence.
[23]. WeiWang, Jiong Yang, Richard Muntz, “STING: A Statistical Information
Grid Approach to Spatial Data Mining”, Department of Computer Science
University of California, LosAngeles, pages 188-192.
[24]. Zhexue Huang (1998). “Extensions to the k-means Algorithm for
Clustering Large Data Sets with Categorical Values”. Workshop on Research
Issues on Data Mining and Knowledge Discovery, pages 283–304.
[25]. Zhexue Huang, “Clustering large data sets with mixed numeric and categorical values”, CSIRO Mathematical and Information Sciences, pages 3 – 12.
PHỤ LỤC
CÀI ĐẶT THỬ NGHIỆM THUẬT TOÁN K-MEANS
Giao diện chính của chương trình:
Cách thức thực hiện chương trình được mô tả như sau:
Khi người sử dụng lựa chọn số cụm trong khung và nhấn nút Draw Cluster, chương trình sẽ tạo nhóm/cụm dữ liệu, mỗi điểm biểu thị cho một đối tượng.
Nhấn nút Start để khởi tạo trọng tâm cụm. Việc lựa chọn trọng tâm cụm là ngẫu nhiên, nếu muốn khởi tạo trọng tâm cụm khác, chúng ta nhấn nút New Start cho đến khi vừa ý. Sau khi khởi tạo xong trọng tâm cụm, nút Start trở thành nút Step để hiển thị từng bước chạy của thuật toán.
Người sử dụng cũng có thể nhấn nút Run để hiển thị ngay kết quả cuối cùng sau khi chạy thuật toán mà không cần phải thông qua việc nhấn từng bước nút Step.
Chương trình cho phép xem lịch sử của tiến trình di chuyển trọng tâm cụm bằng cách đánh dấu vào hộp checkbox của Show History.
Dưới đây là một số hình ảnh khi chạy chương trình:
Giao diện chính
- 96 -
Khởi tạo k trung tâm cụm