Ứng dụng kỹ thuật đa mục tiêu vào phân cụm liệu Chế Thị Hằng Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS.TS Hoàng Xuân Huấn Năm bảo vệ: 2014 Keywords Dữ liệu; Phân cụm liệu; Kỹ thuật đa mục tiêu; Công nghệ thông tin Content Phân cụm liệu toán thuộc vào lĩnh vực học máy không giám sát ứng dụng rộng rãi để khai thác thông tin từ liệu Nó có nhiệm vụ tổ chức tập đối tượng liệu thành cụm cho đối tượng cụm “tương tự” đối tượng cụm khác “kém tương tự” Trong sống, cá nhân, hay tổ chức thường bị đặt vào tình phải lựa chọn phương án tối ưu để giải vấn đề Khi phải tiến hành thu thập, phân tích chọn lựa thơng tin nhằm tìm giải pháp tốt để hành động Các phương án đề xuất giải hay nhiều vấn đề lúc tùy thuộc vào tình yêu cầu đặt Trong tốn học có nhiều lý thuyết sở làm tảng giúp tìm phương án tối ưu để giải vấn đề như: lý thuyết thống kê, lý thuyết định, lý thuyết tối ưu, vận trù học,…Do tính ưu việt hiệu quả, tối ưu hóa nhiều mục tiêu lý thuyết toán học ngày ứng dụng rộng rãi nhiều lĩnh vực như: kỹ thuật cơng nghệ, hàng khơng, thiết kế, tài chính,… Tối ưu hóa nhiều mục tiêu có nghĩa tìm phương án tốt theo nghĩa định để đạt (cực đại hay cực tiểu) nhiều mục tiêu lúc phương án ta gọi phương án lý tưởng Trong tốn tối ưu nhiều mục tiêu thường mục tiêu xung đột với nên việc cố gắng làm “tăng” giá trị cực đại hay cực tiểu mục tiêu làm “giảm” gía trị cực đại hay cực tiểu mục tiêu khác nên việc tồn phương án lý tưởng Vì cách tốt tìm phương án nhằm thỏa mãn tất yêu cầu mục tiêu mức độ chấp nhận phương án gọi phương án thỏa hiệp hàm mục tiêu Có nhiều định nghĩa khác đề cập đến phương án/nghiệm tối ưu như: Pareto, Borwein, Benson, Geoffrion, Kuhn – Tucker,… Các định nghĩa thường có tương quan với chúng biểu cụ thể thông qua định lý, mệnh đề tính chất Như biết sở để định nghĩa nghiệm tối ưu quan hệ thứ tự không gian quan hệ hai ngơi Ngồi phần kết luận, cấu trúc nội dung luận văn bao gồm chương: Chương 1: Phân cụm liệu Chương tập trung trình bày tổng quan PCDL, hướng tiếp cận Data Mining Trong sâu phân tích chi tiết vấn đề bản: khái niệm PCDL ý nghĩa thực tiễn; trình bày số phương pháp PCDL giải thuật điển hình phương pháp phân cụm Chương 2:Phân cụm liệu đa mục tiêu số kỹ thuật tối ưu hóa cụm Để làm rõ kỹ thuật PCDL đa mục tiêu, chương trình bày số khái niệm khác biệt phân cụm liệu mục tiêu phân cụm liệu đa mục tiêu Và trình bày số kỹ thuật tối ưu hóa cụm đặc biệt tìm hiểu kỹ thuật tối ưu hóa cụm theo kỹ thuật SA - Thuật tốn tối ưu hóa AMOSA theo khoảng cách đối xứng Chương 3:Thuật toán VAMOSA - Thuật tốn phân cụm dựa tính đối xứng Trong chương tìm hiểu rõ kỹ thuật phân cụm đa mục tiêu dựa thuật toán VAMOSA đề xuất sử dụng thuật tốn mơ luyện kim (SA) dựa sở phương pháp tối ưu đa mục tiêu chiến lược tối ưu hóa Hai số đánh giá phân cụm [3.4.3]: Chỉ số XB - số dựa khoảng cách Euclidean [14] Chỉ số Sym - số dựa khoảng cách đối xứng [15, 11] Hai số tối ưu hóa đồng thời để xác định xác số phân cụm liệu Do vậy, kỹ thuật phát số cụm thích hợp phân vùng phù hợp từ liệu Chương 4: Kết thử nghiệm Chương 4, tiến hành cài đặt thuật toán thử nghiệm ba liệu có liệu thực tế rút kết định Thuật toán đưa kết số cụm phù hợp với liệu đưa vào Cuối kết luận, hướng phát triển, tài liệu tham khảo phụ lục Phần kết luận trình bày tóm tắt kết thu đề xuất hướng nghiên cứu References Tiếng việt PGS.TS Hồng Xn Huấn (2012), Giáo trình Nhận dạng mẫu, Trường Đại học công nghệ - Đại Học Quốc Gia Hà Nội Đỗ Thị Hịa (2011, Tóm tắt liệu quan hệ sử dụng thuật toán di truyền nửa giám sát dựa kỹ thuật phân cụm, Trường Đại học công nghệ - Đại Học Quốc Gia Hà Nội, Luận văn thạc sỹ Tiếng anh Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data Jiawei Han, Micheline Kamber and Anthony K H Tung, Spatial Clustering Methods In Data Mining: A Survey, Natural Science and Engineering Research Council of Canada Kuo-Lung Wu, Miin-Shen Yang, Alternative c-means clustering algorithms, Pattern Recognition 35 (2002) 2267–2278 Sriparna Saha, Sanghamitra Bandyopadhyay, A symmetry based multiobjective clustering technique for automatic evolution of clusters, Pattern Recognition 43(3): 738-751 (2010) B Suman, Study of self-stopping PDMOSA and performance measure in multiobjective optimization, Computers and Chemical Engineering, vol 29, no 5, pp 1131-1147, 15 April 2005 K Smith, R Everson, and J Fieldsend, Dominance measures for multi-objective simulated annealing, in Proceedings of the 2004 IEEE Congress on Evolutionary Computation 10 11 12 13 14 15 16 17 18 (CEC'04), 2004, pp 23-30 Garcia Najera, Abel (2010) Multi-Objective evolutionary algorithms for vehicle routing problems Ph.D thesis, University of Birmingham Jiawei Han and Micheline Kamber (2001), “Data Mining: Concepts and Techniques”, Hacours Science and Technology Company, USA S Bandyopadhyay, S Saha, A point symmetry based clustering technique for automatic evolution of clusters, IEEE Transactions on Knowledge and Data Engineering 20 (11) (2008) 1–17 Handl, J Knowles, An evolutionary approach to multiobjective clustering, IEEE Transactions on Evolutionary Computation 11 (1) (2007) 56–76 K Deb, Multi-Objective Optimization Using Evolutionary Algorithms, Wiley, England, 2001 X.L Xie, G Beni, A validity measure for fuzzy clustering, IEEE Transactions on Pattern Analysis and Machine Intelligence 13 (1991) 841–847 S Saha, S Bandyopadhyay, Application of a new symmetry based cluster validity index for satellite image segmentation, IEEE Geoscience and Remote Sensing Letters (2) (2008) 166–170 S Bandyopadhyay, S Saha, GAPS: a clustering method using a new point symmetry based distance measure, Pattern Recognition 40 (2007) 3430–3451 S Bandyopadhyay, S Saha, U Maulik, K Deb, A simulated annealing based multi-objective optimization algorithm: AMOSA, IEEE Transactions on Evolutionary Computation 12 (3) (2008) 269–283 S Bandyopadhyay, U Maulik, Genetic clustering for automatic evolution of clusters and application to image classification, Pattern Recognition (2002) 1197–1208 ... thuật điển hình phương pháp phân cụm Chương 2 :Phân cụm liệu đa mục tiêu số kỹ thuật tối ưu hóa cụm Để làm rõ kỹ thuật PCDL đa mục tiêu, chương trình bày số khái niệm khác biệt phân cụm liệu mục. .. liệu mục tiêu phân cụm liệu đa mục tiêu Và trình bày số kỹ thuật tối ưu hóa cụm đặc biệt tìm hiểu kỹ thuật tối ưu hóa cụm theo kỹ thuật SA - Thuật tốn tối ưu hóa AMOSA theo khoảng cách đối xứng Chương... cách đối xứng Chương 3 :Thuật toán VAMOSA - Thuật tốn phân cụm dựa tính đối xứng Trong chương tìm hiểu rõ kỹ thuật phân cụm đa mục tiêu dựa thuật toán VAMOSA đề xuất sử dụng thuật tốn mơ luyện kim