Phân cụm mờ trọng số địa lý Nguyễn Thị Thu Hoàn Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04 Người hướng dẫn: PGS.TS. Nguyễn Đình Hóa, TS. Lê Hoàng Sơn Năm bảo vệ: 2014 Keywords. Hệ thống thông tin; Lôgic mờ; Phân cụm mờ; Dữ liệu địa lý Content Ngày nay, các công cụ tính toán mềm đang dần trở nên phổ biến trong các lĩnh vực của khoa học tính toán, do tính hữu hiệu của nó trong việc giải quyết các bài toán thực tế hiện tại của kinh tế - xã hội mà các công cụ phân tích cổ điển như các mô hình thống kê và lớp các phương pháp giải chính xác không thực hiện được [13]. Một trong những hướng được quan tâm hiện nay trong tính toán mềm là ứng dụng các phương pháp này vào các bài toán thực tế có tham chiếu không gian và các phương pháp như vậy được gọi là lớp các phương pháp tính toán mềm ảnh hưởng bởi đặc trưng địa lý trong các mô hình tương tác không gian. Trong lớp các phương pháp tính toán mềm ảnh hưởng bởi đặc trưng địa lý trong các mô hình tương tác không gian, phương pháp phân cụm mờ trọng số địa lý là một phương pháp đã được ứng dụng cho nhiều bài toán quan trọng của kinh tế - xã hội. Phương pháp này ra đời bắt nguồn từ nhu cầu của bài toán phân cụm dữ liệu địa lý, được định nghĩa theo Sleight (1993) [19] là sự phân chia dữ liệu có đặc trưng không gian vào các nhóm khác nhau theo một số tiêu chí nhất định để từ đó đưa ra các chính sách hợp lý nhằm phân phối sản phẩm và dịch vụ cho các vùng miền. Kết quả của phân cụm dữ liệu địa lý thường được thể hiện dưới dạng bản đồ phân bố của các đặc trưng. Cho đến nay, thuật toán phân cụm mờ trọng số địa lý tốt nhất cho bài toán này là thuật toán MIPFGWC [10]. Thuật toán này được xây dựng dựa trên các lý thuyết về tập mờ trực cảm, phân cụm mờ xác suất và mô hình SIM 2 và đã được kiểm chứng về chất lượng phân cụm khi so sánh với một số thuật toán khác như NE [24], FGWC [12] và IPFGWC [8]. Mục tiêu và động cơ nghiên cứu của luận văn là cải tiến thuật toán MIPFGWC sử dụng ý tưởng về lý thuyết hàm nhân [23] nhằm nâng cao chất lượng phân cụm của thuật toán. Thuật toán thu được sẽ được kiểm chứng so sánh đánh giá với MIPFGWC và một số thuật toán khác về chất lượng phân cụm. Bố cục của luận văn bao gồm 3 chương: Chương 1: Trình bày các kiến thức cơ bản về bài toán phân cụm dữ liệu địa lý, bao gồm các định nghĩa, độ đo và ứng dụng của nó trong các lĩnh vực ý tế, an ninh, xã hội, .v.v. đồng thời trình bày sơ lược về các thuật toán phân cụm mờ trọng số địa lý FCM, NE, FGWC, CFGWC, CFGWC2, IPFGWC, MIPFGWC cùng các ưu nhược điểm của chúng, từ đó đề xuất thuật toán KMIPFGWC. Chương 2: Trình bày thuật toán phân cụm mờ trọng số địa lý KMIPFGWC, với hàm mục tiêu sử dụng độ đo khoảng cách là hàm nhân Gaussian thay vì sử dụng hàm Euclidean truyền thống và sử dụng mô hình SIM 2 để nâng cao chất lượng phân cụm cho bài toán. Chương 3: Trình bày một số kết quả thực nghiệm thuật toán KMIPFGWC trên bộ dữ liệu thực tế là bộ dữ liệu địa lý về kinh tế - xã hội từ tổ chức Liên Hợp Quốc – UNO và so sánh nó với các thuật toán MIPFGWC, FGWC để đánh giá hiệu quả của thuật toán đề xuất. References Tiếng Anh: [1]. Ahmed, M. N., Yamany, S. M., Mohamed, N., Farag, A. A., Moriarty, T., 2002. A modified fuzzy c-means algorithm for bias field estimation and segmentation of MRI data. IEEE Trans. Med. Imaging 21,193–199. [2]. Atanassov, K. T. (1986). Intuitionistic fuzzy sets. Fuzzy sets and Systems,20(1), 87-96. [3]. Bezdek, J.C., R. Ehrlich, et al. (1984), "FCM: the fuzzy c-means clustering algorithm", Computers and Geosciences, 10, pp.191-203. [4]. Chen, S. C., Zhang, D. Q., 2004. Robust image segmentation using FCM with spatial constrains based on new kernel-induced distance measure. IEEE Trans. Systems Man Cybernet. Part B 34, 1907–1916. [5]. Feng, Z. and Flowerdew, R. (1998), Fuzzy Geodemographics: a contribution from fuzzy clustering methods, In: Carver, S. (Ed.) Innovations in GIS 5, Taylor & Francis, London, pp.119- 127. [6]. Harrison, N., Hatt, S. (2010), “„Disadvantaged Learners‟: Who Are We Targeting? Understanding the Targeting of Widening Participation Activity in the United Kingdom Using Geo-Demographic Data From Southwest England”, Higher Education Quarterly, Vol. 64, No. 1, pp. 65-88. [7]. Keogh, E., Ratanamahatana, C. A., 2005. Exact indexing of dynamic time warping. Knowledge and information systems 7(3), 358-386. [8]. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong (2012), “A Novel Intuitionistic Fuzzy Clustering Method for Geo-Demographic Analysis”, Expert Systems with Applications, Vol. 39, No. 10, pp. 9848–9859. [9]. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2012), "Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm", International Journal of Machine Learning and Computing, 2(3), 235-238. [10]. Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), “Spatial interaction – modification model and applications to geo-demographic analysis”, Knowledge-Based Systems, Vol. 49, pp. 152–170. [11]. Le Hoang Son (2014), “Enhancing Clustering Quality of Geo-Demographic Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm Optimization”, Applied Soft Computing, Vol. 22, pp. 566 - 584. [12]. Mason, G. A. and Jacobson, R. D., 2007. Fuzzy Geographically Weighted Clustering. Proceedings of the 9th International Conference on GeoComputation, Maynooth, Eire, Ireland, (electronic proceedings on CD-ROM). [13]. Masoud, N., Zadeh, L. A., and Aminzadeh, F. (2003), Soft computing and intelligent data analysis in oil exploration, Vol. 51, Elsevier Science, Amsterdam. [14]. Mendel, J. M. (2007). Type-2 fuzzy sets and systems: an overview.Computational Intelligence Magazine, IEEE, 2(1), 20-29. [15]. Morris, P., Thrall, G. (2010), “Using Geospatial Techniques to Address Institutional Objectives: St. Petersburg College Geo-Demographic Analysis”, IR Applications, Vol. 27, Association for Institutional Research. [16]. Páez, A., M. Trépanier, C. Morency (2011), “Geodemographic analysis and the identification of potential business partnerships enabled by transit smart cards”, Transportation Research Part A, Vol. 45, pp. 640–652. [17]. Pedrycz, W. (1996), "Conditional fuzzy C-mean", Pattern Recognition Letter, 17, pp.625- 632. [18]. Shelton, N., Birkin, M. and Dorling, D. (2006), “Where not to live: a geo-demographic classification of mortality for England and Wales, 1981- 2000”, Health and Place, Vol. 12, No. 4, pp. 557-569. [19]. Sleight, P. (1993), Targeting Customers: How to use geodemographics and lifestyle data in your business, NTC Publication, Henley-on-Thames. [20]. Thakur, P., Lingam, C., 2013. Generalized Spatial Kernel based Fuzzy C-Means Clustering Algorithm for Image Segmentation. International Journal of Science and Research 2(5), 165 - 169. [21]. UNSD Statistical Databases, 2011. Demographic Yearbook. http://unstats.un.org/unsd/databases.htm, [accessed 14 July 2012]. [22]. Wu Z., Xie, W. X., Yu J. P., 2003. Fuzzy C-means Clustering Algorithm Based on Kernel Method. Proceedings of Fifth International Conference on Computational Intelligence and Multimedia Applications, pp. 49-56. [23]. Yang, M. S., Tsai, H. S. (2008), “A Gaussian kernel-based fuzzy c-means algorithm with a spatial bias correction”, Pattern Recognition Letters, Vol. 29, No. 12, pp. 1713-1725 [24]. Zadeh, L. A. (1965). Fuzzy sets. Information and control, 8(3), 338-353. . các vùng miền. Kết quả của phân cụm dữ liệu địa lý thường được thể hiện dưới dạng bản đồ phân bố của các đặc trưng. Cho đến nay, thuật toán phân cụm mờ trọng số địa lý tốt nhất cho bài toán này. địa lý trong các mô hình tương tác không gian. Trong lớp các phương pháp tính toán mềm ảnh hưởng bởi đặc trưng địa lý trong các mô hình tương tác không gian, phương pháp phân cụm mờ trọng số. toán phân cụm dữ liệu địa lý, bao gồm các định nghĩa, độ đo và ứng dụng của nó trong các lĩnh vực ý tế, an ninh, xã hội, .v.v. đồng thời trình bày sơ lược về các thuật toán phân cụm mờ trọng số