1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

60 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TR NG TR IH NG CQU CGIAHÀN I I H C CÔNG NGH PHAN MINH H I CÁC K THU T PHÂN C M TRONG KHAI PHÁ D S LI U D NG TÍNH TỐN TI N HĨA Ngành: Cơng ngh thông tin Chuyên ngành: K thu t ph n m m Mã s : 60480103 LU NV NTH NG IH CS K NG D N KHOA H THU TPH NM M C: PGS.TS BÙI THU LÂM Hà N i, 2014 L ICAM OAN Tôi xin cam oan ây cơng trình nghiên c u c a b n thân, c xu t phát t yêu c u giáo viên hư ng d n hình thành hư ng nghiên c u Các s li u có ngu n g c rõ ràng tuân th úng nguyên t c k t qu trình bày lu n v n c thu th p c trình nghiên c u trung th c chưa t ng c công b trư c ây Hà N i, tháng 10 n m 2014 Tác gi lu n v n Phan Minh H i LIC MƠN Lu n v n c th c hi n dư i s hư ng d n c a PGS.TS Bùi Thu Lâm – H c vi n K thu t Quân s Em xin bày t lòng bi t ơn sâu s c t i Th y ã hư ng d n có ý ki n ch d n quý báu trình em làm lu n v n Em xin chân thành c m ơn Th y giáo b môn Công ngh ph n m m Em c ng xin c m ơn th y cô giáo Khoa, cán b thu c phòng Khoa h c t o sau i h c, Trư ng i h c Công ngh ã t o i u ki n trình h c t p nghiên c u t i Trư ng Cu i xin bày t lòng c m ơn t i nh ng ngư i thân gia ình, b n bè ã ng viên giúp tơi hồn thành b n lu n v n Hà N i, Tháng 10 n m 2014 H c viên th c hi n Phan Minh H i L I CAM OAN DANH M C CÁC KÝ HI U VÀ CH DANH M C CÁC B NG DANH M C CÁC HÌNH V CHƠ NG1T VÀ GI I THU 1.1 T ng quan v 1.1.1 Gi i thi u chung v 1.1.2 Quá trình khám phá tri th c 1.1.3 Các phương pháp khai phá d 1.1.4 Các l nh v c ng d ng th c ti n c a KPDL 1.1.5 Các hư ng ti p c n b n k thu t áp d ng KPDL 1.1.6 Các yêu c u c a phân c m 1.1.7 Phân c 1.2 T ng quan v 1.2.1 Gi i thu t di truy n 1.2.1.1 L ch s 1.2.1.2 Các bư c áp d 1.2.1.2.1 Mã hóa d 1.2.1.2.2 Kh 1.2.1.2.3 Xác 1.2.1.2.4 Quá trình lai ghép 1.2.1.2.5 Quá trình 1.2.1.2.6 Quá trình ch n l 1.2.1.3 Các tham s c a gi i thu t di truy n 1.2.1.4 Sơ 1.2.2 Gi i thu t ti n hóa vi phân 1.2.2.1 Nguyên lý ho t 1.2.2.2 Sơ 1.3 K t lu n CHƠ NG GI I THU TI N HÓA VÀ KMEANS 2.1 Gi i thu t phân c m tính tốn ti n hóa 2.1.1.Gi i thu t t 2.1.2 Bi u di n cá th 2.1.3 Tính tốn 2.1.4 Phép ch 2.1.5 Crossover (lai ghép) 2.1.6 Mutation ( 2.1.7 Kmeans s 2.1.8 Minh h a phân c m Kmeans s 2.1.9 Phân c m Kmeans s d ng gi i thu t ti n hóa vi phân 2.2 So sánh gi a gi i thu t Kmeans Kmeans s d ng gi i thu t di tru 2.3 K t lu n CHƠ NG CÀI 3.1 Chu n b d li u 3.2 K t qu phân tích 3.2.1 Thí nghi m gi i thu t Kmeans, Genetic Kmean DE Kmean 3.2.1.1 Thí nghi m gi i thu t Kmeans 3.2.1.2 Thí nghi m gi i thu t Genetic Kmean 3.2.1.3 Thí nghi m gi i thu t DE Kmean 3.2.1.4 Thí nghi m gi i thu t Kmean, Genetic Kmean, DE Kmean v i Northw 3.2.2 Phân tích k t qu 3.3 ánh giá k t qu K T LU N TÀI LI U THAM KH O DANHM CCÁCKÝHI UVÀCH VI TT T CDL C m d li CNTT Công ngh CSDL Cơ s d DE Gi i thu t DL D li u GA Gi i thu t KPDL Khai phá KPTT Khai phá PCDL Phân c m NST Nhi m s c DANH M C CÁC B NG B ng 2.1: B B ng 2.2: Kh B ng 2.3: Các NST m bi n, 36 B ng 2.4: Các NST B ng 2.5: Các NST B ng 3.1: B B ng 3.2: B B ng 3.3: K t qu B ng 3.4: K t qu B ng 3.5: K t qu B ng 3.6: K t qu Hình 1.1: Quá trình KPTT Hình 1.2: Ví d Hình 1.3: Lai ghép hai cá th Hình 1.4: t bi n m t nhi m s c th Hình 1.5: Sơ Hình 1.6: Sơ Bi u 3.1: T trư ng h p (hình a) trư ng h p M Phân c tpd ng cịn cmd th , có th learning) Các K thu t phân c ngân hành cmd khai phá d c m U md li u vào c li u không coi phân c li u cịn có th Theo nghiên c t ng quát có th CSDL Hơn n a, phương pháp phân c m c n có cách th c a CSDL, v i m i cách th c m thích nghi Vì v y phân c m d ph i gi i quy t nhi u v n d ng d h KPDL M t c m K-means thư ng t trung vào tìm hi u “Các k tính tốn ti n hóa”; m t k ch t c cb c Lu n v n g m có chương chính: C h ng 1: T ng quan v khám phá tri th c, khai phá d li u gi i thu t di truy n Ch ng 2: Gi i thu t phân c m d a lai ghép gi i thu t ti n hóa Kmeans Ch ng 3: Cài K t lu n t th nghi m nh hư ng phát tri n k t qu nghiên c u CHƠ NG1T 1.1 T ng quan v 1.1.1 Gi i thi u chung v khám phá tri th c khai phá d N u cho r ng, d nghiên c u li u, thông tin, tri th c hi n Thông thư ng, coi d ký hi u “ chương trình dư i m t d ng nh t thơng tin, xem d rút g c h gi tri th quát[2] Khám phá m u ho c h ntim xem thơng tin tích h a chúng, c có p, h p th Khai phá d thu t khai thác d ch p nh n Nói cách khác, m c tiêu c a Khai phá d t n t i CSDL 1.1.2 Quá trình khám phá tri th Quá trình khám phá d hình 1.1 [3]: Giai c khai phá t o n Trích chọn liệu: Giai li u không o n Tiền xử lý liệu: bình 42 Nh n xét: D a vào k t qu c a b ng 3.3, ta th y: -V li u c m t is c m t ng k t giá tr -V li u c is c m 12 t ng t giá tr a nó, -V t i tr ng tâm c m nh - is c m l n t K t qu c a l n phân c m khác hay không th ng nh t, tr trư ng h p s c m b ng (s c m nh t) s c m b ng 12 (s c m nhi u nh t) 3.2.1.2 Thí nghi m gi i thu t Genetic Kmean c m thay i t n 12; s c hi n V i b d li u t sinh, th c hi n test l n lư t v i s th h test 10; s cá th c a qu n th 6; th c test v i s l n 10 Sau test xong, thu k t qu b ng 3.4 Trong ó, giao gi a Trung bình 10 l n ch y trư ng h p S c m trung bình t ng kho ng cách t tr ng tâm c m t i i m d li u 10 l n ch y th nghi m Trung bình 10 ln ch y Trư ng 134,44 hp1 Trư ng 134,44 hp2 B ng 3.4: K t qu V t is i c m =1, c imd h 43 Nh n xét: D a vào k t qu c a b ng 3.4, ta th y: - V i s c m t ng kho ng cách t tr ng tâm c m t i i m d li u t giá tr l n nh t Vì ph i tính t ng kho ng cách c a t t c i m c m t i tr ng tâm c m Nhưng chương trình ph i ch y qua h t th h ã nh trư c - Giá tr trung bình c a t ng kho ng cách t m i tr ng tâm c m t i thành viên c a c m trư ng h p có nhi u giá tr nh trư ng h p 3.2.1.3 Thí nghi m gi i thu t DE Kmean V th Sau test xong, thu Trong t ib h d i i li u t md Trung bình 10 ln ch y Trư ng 134.44 hp1 Trư ng 134.44 hp2 B ng Nh n xét: D a vào k t qu c a b ng 3.5, ta th y: - Vis li u c th - Gi i thu t c ng có th c t giá tr h Epsilon theo bi u th 44 - Giá tr trung bình c a t ng kho ng cách t m i tr ng tâm c m t i thành viên c a c m trư ng h p có nhi u giá tr nh trư ng h p 3.2.1.4 Thí nghi m gi i thu t Kmean, Genetic Kmean, DE Kmean v i Northwin B ng cách thí nghi m tương t b d li u Northwin v t ng trung bình kho ng cách t kho ng cách t m i tr ng tâm c DE Kmean v n nh Genetic Kmean DE Kmean lâu so v i Kmean Nhưng th i gian ch y c a DE Kmean có th th h ang xét n u thõa mãn i u ki n Epsilon Trung bình l n ch y Trư ng h p Trư ng h p B ng 3.6: K t qu th nghi m gi i thu t v i s Nh n xét: D a vào k t qu c a b ng 3.6, ta th y: - Trong trư ng h p 1, gi i thu t Genetic Kmean DE Kmean m c dù có ch n cá th t t nh tphân tách c m nhìn chung giá tr t ng kho ng cách t tr ng tâm c m t i i m d li u v n l n so v i gi i thu t Kmeans - Trong trư ng h p 2, gi i thu t Genetic Kmean DE Kmean ã ch n tr - Gi i thu t DE Kmean tr ng tâm c m t Kmean trư ng h p nh so v i gi i thu t Genetic Kmean c cá th ng tâm c Giá tr trung bình cati tngkhongcácimdđ li u cách t tr ng tâm c m Giá tr trungbìn h c a tngkhongcácimdđ liu cách t tr ng tâm c m t i 3.2.2 Phân tích k t qu T ng h Bi u 3.1: T ng h p k t trư ng h p (hình a) trư qu c a gi i thu t v i giá tr trung bình ng h p (hình b) Nh n xét: -D a vào bi u t i i m d gi i thu t Genetic Kmean gi i thu t DE Kmean Và n Genetic Kmean DE Kmean s phân tách nghi cao so v i gi i thu t Kmean - Gi i thu t Genetic Kmean gi i thu t DE Kmean g n n t ng kho ng cách t tr ng tâm c Và gi i thu t DE Kmean có giá tr tr ng tâm c m t Kmean m t chút ng bi u di n trung bình t ng kho ng cách t tr ng tâm c m t i i m d li u c a gi i thu t Kmean không thay i, ng bi u di n c a gi i thu t Genetic Kmean DE Kmean có thay i th p ng bi u di n c a gi i thu t Kmean r t nhi u Trong trư ng h d ph i ph có giá tr li u c a gi i thu t Genetic Kmean DE Kmean có th thu c vào q trình kh i t o N thích nghi cao ho c th p Trong trư ng h d li u c a gi i thu t Genetic Kmean DE Kmean giá tr thích nghi thu này, gi i thu t gi i thu t Kmean cho NST (N u kh NST l n 3.3 i t o NST mà so sánh th ánh giá k t qu th nghi m chung Qua k t qu d li u ki u s k t qu t i ưu so v i Kmean Song s v i Kmean nên gi i thu t GA Kmean DE Kmean c ng không tránh kh i m t s gi i h n c a Kmean như: Kmean ch khám hình c u, k-means cịn r t nh y c d li u Nhưng gi i thu t c ng làm gi m Kmean, hình d ng c a c m trình lai ghép, Trong m i th h có nhi u s hư ng t i trình di truy n N u s lư ng th h r t nh huy h t ưu i m c làm t ng m 48 K TLU N A Nh ng n i dung c a lu n v n Trong ch ng 1: ♦ Gi i thi u khái ni m s th c ♦ Gi i thi u khái ni m v ♦ lý thuy t c a khai phá d li u, khai phá tri gi i thu t di truy n l p trình ti n hóa Trình bày sơ lư c v gi i thu t di truy n gi i thu t ti n hóa vi phân: Các q trình b n c a gi i thu t di truy n, tham s c a gi i thu t di truy n, lưu gi i thu t Trong ch ng 2: ♦ Tìm hi u m t gi i thu t chung cho vi c k t h p gi i thu t phân c m s d ng gi i thu t ti n hóa, c th gi i thu t di truy n gi i thu t ti n hóa vi phân ♦ So sánh m t gi i thu t phân c m c th Kmeans gi i thu t phân c m Kmeans có s d ng gi i thu t di truy n gi i thu t ti n hóa vi phân Trong ch ng 3: ♦ Xây d ng m t chương trình ch y th nghi m c m ki m tra gi i thu t phân d ng gi i thu t di truy n Kmeans gi i thu t phân c m Kmeans s ♦ Ti n hành ch y th nghi m b d li u ki u s Trong ó b d d li u li u t sinh b CSDL Northwind c a SQL Server 2005 ♦ Ti n hành ch y th nghi m v i 10000 i m d li u ng u nhiên phân c m nh 49 B Các k t qu t c Sau m t th i gian th c hi n tài v i s n l c, c g ng c a b n thân v i s h ng d n nhi t tình c a PGS.TS Bùi Thu Lâm, lu n v n ã thu c m t s k t qu sau: lý thuy t c a khai phá d li u, khai phá tri Gi i thi u gi i thu t chung cho gi i thu t phân c m s truy n gi i thu t ti n hóa vi phân d ng gi i thu t di Trình bày khái ni m s th c, tính tốn ti n hóa Th c hi n cài t th nghi m gi i thu t phân c m Kmeans gi i thu t Kmeans s d ng gi i thu t di truy n gi i thu t ti n hóa vi phân v i b d li u chi u, b c nh b ng CSDL v i thu c tính khác C H ng nghiên c u ti p theo Trên s k t qu ã t c, có th ti p t c nghiên c u m t s v n sau: Ti p t c nghiên c u m t s gi i thu t phân c m s d ng gi i thu t di truy n gi i thu t ti n hóa vi phân Xây d ng ti p chương trình ch y th nghi m gi i thu t phân c m gi i thu t phân c m có s d ng tính tốn ti n hóa Tìm thêm cách th c ng d ng gi i thu t vào th c ti n M c dù ã r t c g ng th i gian hi u bi t v l nh v c khai phá d li u h n ch nên lu n v n ch c s không tránh kh i nh ng m khuy t nh t nh Trong tương lai, em s c g ng kh c ph c nh ng h n ch , ti p t c nghiên c u nh ng v n ã nêu R t mong nh n c ý ki n óng góp c a q th y c gi lu n v n c hoàn thi n 50 TÀI LI U THAM KH O Tài li u ti ng Vi t [1] Nguy n ình Thúc (2000), Trí tuệ nhân tạo - Lập trình tiến hóa, NXB Giáo dc Tài li u ti ng Anh [2] Ho Tu Bao, Knowledge Discovery and Data mining, 2000 [3] J Han, M Kamber, and Jian Pei (2011) Data Mining: Concepts and Techniques (3rd edition), Morgan Kaufmann [4] Rui Xu, Survey of Clustering Algorithms, IEEE transactions on neural networks, vol 16, no 3, may 2005 [5] Eduardo R Hruschka, Ricardo J G B Campello, Alex A Freita, André C P L F de Carvalho, A Survey of Evolutionary Algorithms for Clustering, To appear in IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews [6] David A.Coley, an introduction to genetic algorithms for scientists and enginer, Copyright Q 1999 by World Scientific Publishing Co Pte Ltd [7] Ujjwal Maulik, Sanghamitra Bandyopadhyay, Genetic algorithm-based clustering technique, Pattern Recognition 33 (2000) 1455-1465 [8] Rajashree Dash and Rasmita Dash, comparative analysis of k-means and genetic algorithm based data clustering, International Journal of Advanced Computer and Mathematical Sciences, ISSN 2230-9624 Vol 3, Issue 2, 2012, pp 257-265 [9] Bashar Al-Shboul, and Sung-Hyon Myaeng, Initializing K-Means using Genetic Algorithms, World Academy of Science, Engineering and Technology 54 2009 [10] K Krishna and M Narasimha Murty, Genetic K-Means Algorithm, IEEE transactions on systems, man, and cybernetics—part b: cybernetics, vol 29, no 3, june 1999 [11] Kenneth Price, Rainer Storn, Jouni Lampinen, Differiential Evolution A Practical Approach to Global Optimization, Springer, Verlag, 2005 51 [12] Zbigniew Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs, Heidelberg New York ISBN 3-540-60676-9 Springer-Verlag Berlin [13] P Berkhin,2002 Survey of Clustering Data Mining Techniques Ttechnical report, Accrue Software, San Jose, Cailf [14] Sai Hanuman, Dr Vinaya Babu, Dr Govardhan, Dr S C Satapathy, Data Clustering Using Almost Parameter Free Differential Evolution Technique, International Journal of Computer Applications (0975 – 8887) Volume 8– No.13, October 2010 [15] Guojun Gan, Chaoqun Ma, Jianhong Wu, Data Clustering Theory, Algorithms, and Applications, ASA-SIAM Series on Statistics and Applied Probability, SIAM, Philadelphia, ASA, Alexandria, VA, 2007 [16] Rainer Storn, Kenneth Price, Jouni Lampinen Differential Evolution – A Practical Approach to Global Optimization , Springer, Verlag, 2005 [17] M Mitchell, an Introduction to Genetic Algorithms MIT Press 1998 ... di n Khai phá d li u L a ch n bi n i Kho d li u Làm s ch tích h p Cơ s d li u Các m u Hình 1.1: Quá trình khám phá tri th c 12 1.1.3 Các ph ng pháp khai phá d li u V i hai m c ích khai phá d... i thu t KPDL Khai phá KPTT Khai phá PCDL Phân c m NST Nhi m s c DANH M C CÁC B NG B ng 2.1: B B ng 2.2: Kh B ng 2.3: Các NST m bi n, 36 B ng 2.4: Các NST B ng 2.5: Các NST B ng... quát[2] Khám phá m u ho c h ntim xem thông tin tích h a chúng, c có p, h p th Khai phá d thu t khai thác d ch p nh n Nói cách khác, m c tiêu c a Khai phá d t n t i CSDL 1.1.2 Quá trình khám phá tri

Ngày đăng: 11/11/2020, 21:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w