Tiếp cận mờ trong phân cụm dữ liệu Nguyễn Trung Đức Khoa Luật Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội Luận văn ThS. Công nghệ thông tin: 60 48 05 Người hướng dẫn : TS. Hoàng Xuân Huấn Năm bảo vệ: 2013 62 tr . Abstract. Trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ dựa trên hai thuật toán C-means mờ (FCM) và Gustafson – Kessel (GK). Đặc biệt đi sâu vào kỹ thuật đánh giá số cụm nhờ hàm chỉ số. Trên cơ sở đó, đề xuất một chỉ số đánh giá số cụm mới cho phân cụm mờ nhờ kết hợp ưu điểm của chỉ độ nén (compactness) và độ chồng nhau (overlap). Độ nén chỉ ra mức độ tương đồng của các đối tượng dữ liệu trong một cụm và được tính toán dựa trên giá trị hàm liên thuộc của các đối tượng dữ liệu. Độ chồng nhau chỉ ra mức độ chồng nhau giữa các cụm mờ và thu được bởi tính toán tỷ lệ trùng lặp của các đối tượng dữ liệu thuộc ở hai hay nhiều cụm. Ưu điểm nổi trội của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi so sánh với các chỉ số điển hình hiện có, đặc biệt là trong trường hợp các cụm khác nhau về kích thước và mật độ, cũng như trong trường hợp các cụm chồng nhau Keywords. Hệ thống thông tin ; Phân cụm dữ liệu; Phân cụm mờ Content. Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu. Nó có nhiệm vụ tổ chức một tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm thì “tương tự” nhau trong khi các đối tượng trong các cụm khác nhau thì “kém tương tự” nhau. Phương pháp phân cụm dữ liệu truyền thống (PCDL rõ) chia một tập dữ liệu ban đầu thành các cụm dữ liệu và mỗi đối tượng chỉ thuộc về một cụm. Nhưng trong thực tế ranh giới giữa các cụm thường không rõ ràng, một đối tượng dữ liệu có thể thuộc về nhiều cụm khác nhau, do đó phương pháp này không mô tả được dữ liệu thực. Để tăng hiệu quả và tính chính xác cho kết quả phân cụm, người ta đã áp dụng lý thuyết tập mờ vào việc phân cụm dữ liệu xây dựng lên phương pháp phân cụm dữ liệu mờ. Hiện nay, phân cụm dữ liệu mờ vẫn là bài toán đang được nhiều người quan tâm nghiên cứu và ứng dụng thành công trong nhiều lĩnh vực: nghiên cứu thị trường, nhận dạng, xử lý ảnh, tìm kiếm thông tin… Các thuật toán phân cụm mờ rất đa dạng như: C- means mờ (FCM), Gustafson-Kessel (GK), Gath-Geva (GG), Fuzzy Possibilistic C- Means (FPCM), -Insensitive Fuzzy C-means ( FCM), Tuy nhiên, trong các thuật toán, thường yêu cầu người dùng xác định trước số lượng cụm. Số cụm là một tham số quan trọng và ảnh hưởng nhiều tới kết quả của quá trình phân cụm, ứng với số lượng cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau, thật khó khăn để quyết định kết quả phân cụm nào là tốt nhất hay số lượng cụm tối ưu là gì? Luận văn này trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ. Đặc biệt, đi sâu vào kỹ thuật đánh giá, ước lượng số cụm nhờ hàm chỉ số. Trên cơ sở đó, đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp ưu điểm của chỉ độ nén (compactness) trong [8,16] và độ chồng nhau (overlap) trong [17,29]. Ưu điểm nổi trội của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi so sánh với các chỉ số điển hình hiện có. Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương: Chương 1: Tổng quan về phân cụm dữ liệu Chương 1 tập trung trình bày tổng quan về PCDL, đây là một hướng tiếp cận trong Data Mining. Trong đó đi sâu phân tích chi tiết các vấn đề cơ bản: khái niệm PCDL và ý nghĩa của nó trong thực tiễn; trình bày một số phương pháp PCDL và giải thuật điển hình của mỗi phương pháp phân cụm. Chương 2: Phân cụm dữ liệu mờ Để làm rõ hơn kỹ thuật PCDL mờ, chương 2 trình bày một số khái niệm cơ bản của lý thuyết tập mờ; phân tích kỹ thuật phân cụm rõ và phân cụm mờ, trình bày hai thuật toán phân cụm mờ điển hình: C-means mờ (viết tắt là FCM) và mở rộng của nó là thuật toán Gustafson-Kessel (viết tắt là GK). Chương 3: Số cụm và chỉ số đánh giá Trong chương 3, luận văn đặc tả vấn đề ước lượng số cụm trong bài toán phân cụm. Phân tích một số hàm chỉ số thông dụng để đánh giá chất lượng phân hoạch được tạo ra bởi các thuật toán phân cụm mờ, nhờ đó xác định số cụm tối ưu cho tập dữ liệu được xét. Chương 4: Một chỉ số đánh giá số cụm mới cho phân cụm mờ Chương 4, luận văn đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp độ nén và độ chồng nhau của các cụm. Tiến hành thực nghiệm trên nhiều bộ dữ liệu nhân tạo và bộ dữ liệu thực đã cho thấy ưu điểm nổi trội của chỉ số mới so với các chỉ số điển hình hiện có trong quá trình tìm kiếm số cụm tối ưu cho một tập dữ liệu. TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Như Hiền, Lại Khắc Lãi (2007), Hệ mờ & nơnon trong kỹ thuật điều khiển, Nhà xuất bản Khoa học tự nhiên và công nghệ, Hà Nội. [2] Hoàng Xuân Huấn (2011), Giáo trình Nhận dạng mẫu, Đại học Công nghệ - Đại học Quốc gia Hà Nội. [3] Hoàng Xuân Huấn, Nguyễn Trung Thông (2005), Phân cụm nửa giám sát với mô hình phân cấp, Kỷ yếu hội thảo khoa học quốc gia lần thứ hai: Nghiên cứu cơ bản và ứng dụng công nghệ thông tin. [4] Bùi Ngọc Thăng (2007), Một thuật toán phân cụm mờ khi số cụm không xác định, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ. [5] Hà Quang Thụy và cộng sự (2009), Giáo trình khai phá dữ liệu web, Nhà xuất bản Giáo dục Việt Nam, Hà Nội. [6] Hoàng Hải Xanh (2005), Về các kỹ thuật phân cụm dữ liệu trong Data mining, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ. [7] Trần Thị Yến (2009), Phân cụm dữ liệu trừ mờ và ứng dụng, Đại học Công nghệ thông tin và truyền thông - Đại học Thái Nguyên, luận văn thạc sĩ. Tiếng anh [8] Chen Duo, Li Xue, Cui Du-Wu (2007), An adaptive cluster validity index for the Fuzzy C-means, IJCSNS International Journal of Computer Science and Network Security, Vol.7 No.2, pp. 146-156. [9] D.W. Kim, K.H. Lee, D. Lee (2004), On cluster validity index for estimation of the optimal number of fuzzy clusters, Pattern Recognition 37, pp. 2009–2025. [10] G. Grekousis, H. Thomas (2012), Comparison of two fuzzy algorithms in geodemographic segmentation analysis: The Fuzzy C-Means and GustafsoneKessel methods, Applied Geography 34, pp. 125-136 [11] J.C. Bezdek, R. Ehrlich, W. Full (1984), FCM: The fuzzy c-Means clustering algorithm, Computers & Geosciences Vol. 10, No. 2-3, pp. 191-203. [12] János Abonyi, Balázs Feil (2007), Cluster Analysis for Data Mining and system identification, Birkhäuser Basel – Boston – Berlin, pp. 17-28. [13] Jiawei Han, Micheline Kamber (2006), Data Mining : Concepts and Techniques, Morgan Kaufmann Publishers, 2 nd edition. [14] Jiawei Han, Micheline Kamber, Jian Pei (2011), Data Mining : Concepts and Techniques, Morgan Kaufmann Publishers, 3 rd edition. [15] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applications to web usage mining, School of Electrical Engineering and Computer Science, Australia. [16] K.L.Wu, M.S.Yang (2005), A cluster validity index for fuzzy clustering, Pattern Recognition Lett. 26, pp. 1275–1291. [17] K.R. Zalik (2010), Cluster validity index for estimation of fuzzy clusters of different sizes and densities, Pattern Recognition. 43, pp. 3374-3390. [18] M. D. Mahecha, A. Martinez, H.Lange, Markus Reichstein, Erwin Beck (2009), Identification of characteristic plant co-occurrences in neotropical secondary montane forests, Journal of Plant Ecology, vol. 2, no. 1, pp. 31-41. [19] M. Halkidi, Y. Batistakis, M. Vazirgiannis (2001), On clustering validation techniques, Journal of Intelligent Information Systems, 17:2/3, pp. 107–145. [20] M. Ramze Rezaee, B.P.F. Lelieveldt, J.H.C. Reiber (1998), A new cluster validity index for the fuzzy c-mean, Pattern Recognition Letters 19, pp. 237–246. [21] N. R. Pal, J. C. Bezdek (1995), On cluster valitidy for the fuzzy c-means model, IEEE Transactions on fuzzy system, vol. 3, no 3, pp. 370-379. [22] Q. Zhao (2012), Cluster validity in clustering methods, Publications of the University of Eastern Finland. [23] Roburt Babuska (2004), Fuzzy and neural control, DISC Course Lecture Notes, pp. 59-72. [24] R.N. Dave (1996), Validating fuzzy partition obtained through c-shells clustering, Pattern Recognition Lett. 17, pp. 613–623. [25] R.Suganya, R.Shanthi (2012), Fuzzy C-Means Algorithm- A Review, International Journal of Scientific and Research Publications, Volume 2, pp. 2250 – 3153. [26] S. Ghosh, S.K. Dubey (2013), Comparative Analysis of K-Means and Fuzzy C- Means Algorithms, International Journal of Advanced Computer Science and Applications, Vol. 4, No.4, pp. 35-39. [27] S.H. Kwon (1998), Cluster validity index for fuzzy clustering, Electron. Lett. 34 (22), pp. 2176–2177. [28] X.L. Xie, G. Beni (1991), A validity measure for fuzzy clustering, IEEE Trans. Pattern Anal. Mach. Intell. 13, pp. 841–847. [29] Y.HUI, Ch. Zuo, Y. Yag, F. Qu (2011), A cluster validity index for fuzzy c-means clustering, Interational Conference on System Science, Engineering Design and Manufacturing Informatization, 2011 Int. Conf. (vol.2), pp. 263 – 266. [30] W. Wang, Y. Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol. 158, pp. 2095-2117. Một số trang web [31] http://archive.ics.uci.edu/ml/. [32] http://old.voer.edu.vn/module/khoa-hoc-va-cong-nghe/suy-luan-voi-cac-tap-mo- fuzzy-logic.html. [33] http://www.stat.columbia.edu/~madigan/W2025/notes/clustering.pdf. . pháp phân cụm. Chương 2: Phân cụm dữ liệu mờ Để làm rõ hơn kỹ thuật PCDL mờ, chương 2 trình bày một số khái niệm cơ bản của lý thuyết tập mờ; phân tích kỹ thuật phân cụm rõ và phân cụm mờ, . tả được dữ liệu thực. Để tăng hiệu quả và tính chính xác cho kết quả phân cụm, người ta đã áp dụng lý thuyết tập mờ vào việc phân cụm dữ liệu xây dựng lên phương pháp phân cụm dữ liệu mờ. Hiện. thông tin ; Phân cụm dữ liệu; Phân cụm mờ Content. Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu. Nó