Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Nội dung
TR NG TR IH NG CQU CGIAHÀN I I H C CÔNG NGH PHAN MINH H I CÁC K THU T PHÂN C M TRONG KHAI PHÁ D S LI U D NG TÍNH TỐN TI N HĨA Ngành: Cơng ngh thông tin Chuyên ngành: K thu t ph n m m Mã s : 60480103 LU NV NTH NG IH CS K NG D N KHOA H THU TPH NM M C: PGS.TS BÙI THU LÂM Hà N i, 2014 L ICAM OAN Tôi xin cam oan ây cơng trình nghiên c u c a b n thân, c xu t phát t yêu c u giáo viên hư ng d n hình thành hư ng nghiên c u Các s li u có ngu n g c rõ ràng tuân th úng nguyên t c k t qu trình bày lu n v n c thu th p c trình nghiên c u trung th c chưa t ng c công b trư c ây Hà N i, tháng 10 n m 2014 Tác gi lu n v n Phan Minh H i LIC MƠN Lu n v n c th c hi n dư i s hư ng d n c a PGS.TS Bùi Thu Lâm – H c vi n K thu t Quân s Em xin bày t lòng bi t ơn sâu s c t i Th y ã hư ng d n có ý ki n ch d n quý báu trình em làm lu n v n Em xin chân thành c m ơn Th y giáo b môn Công ngh ph n m m Em c ng xin c m ơn th y cô giáo Khoa, cán b thu c phòng Khoa h c t o sau i h c, Trư ng i h c Công ngh ã t o i u ki n trình h c t p nghiên c u t i Trư ng Cu i xin bày t lòng c m ơn t i nh ng ngư i thân gia ình, b n bè ã ng viên giúp tơi hồn thành b n lu n v n Hà N i, Tháng 10 n m 2014 H c viên th c hi n Phan Minh H i L I CAM OAN DANH M C CÁC KÝ HI U VÀ CH DANH M C CÁC B NG DANH M C CÁC HÌNH V CHƠ NG1T VÀ GI I THU 1.1 T ng quan v 1.1.1 Gi i thi u chung v 1.1.2 Quá trình khám phá tri th c 1.1.3 Các phương pháp khai phá d 1.1.4 Các l nh v c ng d ng th c ti n c a KPDL 1.1.5 Các hư ng ti p c n b n k thu t áp d ng KPDL 1.1.6 Các yêu c u c a phân c m 1.1.7 Phân c 1.2 T ng quan v 1.2.1 Gi i thu t di truy n 1.2.1.1 L ch s 1.2.1.2 Các bư c áp d 1.2.1.2.1 Mã hóa d 1.2.1.2.2 Kh 1.2.1.2.3 Xác 1.2.1.2.4 Quá trình lai ghép 1.2.1.2.5 Quá trình 1.2.1.2.6 Quá trình ch n l 1.2.1.3 Các tham s c a gi i thu t di truy n 1.2.1.4 Sơ 1.2.2 Gi i thu t ti n hóa vi phân 1.2.2.1 Nguyên lý ho t 1.2.2.2 Sơ 1.3 K t lu n CHƠ NG GI I THU TI N HÓA VÀ KMEANS 2.1 Gi i thu t phân c m tính tốn ti n hóa 2.1.1.Gi i thu t t 2.1.2 Bi u di n cá th 2.1.3 Tính tốn 2.1.4 Phép ch 2.1.5 Crossover (lai ghép) 2.1.6 Mutation ( 2.1.7 Kmeans s 2.1.8 Minh h a phân c m Kmeans s 2.1.9 Phân c m Kmeans s d ng gi i thu t ti n hóa vi phân 2.2 So sánh gi a gi i thu t Kmeans Kmeans s d ng gi i thu t di tru 2.3 K t lu n CHƠ NG CÀI 3.1 Chu n b d li u 3.2 K t qu phân tích 3.2.1 Thí nghi m gi i thu t Kmeans, Genetic Kmean DE Kmean 3.2.1.1 Thí nghi m gi i thu t Kmeans 3.2.1.2 Thí nghi m gi i thu t Genetic Kmean 3.2.1.3 Thí nghi m gi i thu t DE Kmean 3.2.1.4 Thí nghi m gi i thu t Kmean, Genetic Kmean, DE Kmean v i Northw 3.2.2 Phân tích k t qu 3.3 ánh giá k t qu K T LU N TÀI LI U THAM KH O DANHM CCÁCKÝHI UVÀCH VI TT T CDL C m d li CNTT Công ngh CSDL Cơ s d DE Gi i thu t DL D li u GA Gi i thu t KPDL Khai phá KPTT Khai phá PCDL Phân c m NST Nhi m s c DANH M C CÁC B NG B ng 2.1: B B ng 2.2: Kh B ng 2.3: Các NST m bi n, 36 B ng 2.4: Các NST B ng 2.5: Các NST B ng 3.1: B B ng 3.2: B B ng 3.3: K t qu B ng 3.4: K t qu B ng 3.5: K t qu B ng 3.6: K t qu Hình 1.1: Quá trình KPTT Hình 1.2: Ví d Hình 1.3: Lai ghép hai cá th Hình 1.4: t bi n m t nhi m s c th Hình 1.5: Sơ Hình 1.6: Sơ Bi u 3.1: T trư ng h p (hình a) trư ng h p M Phân c tpd ng cịn cmd th , có th learning) Các K thu t phân c ngân hành cmd khai phá d c m U md li u vào c li u không coi phân c li u cịn có th Theo nghiên c t ng quát có th CSDL Hơn n a, phương pháp phân c m c n có cách th c a CSDL, v i m i cách th c m thích nghi Vì v y phân c m d ph i gi i quy t nhi u v n d ng d h KPDL M t c m K-means thư ng t trung vào tìm hi u “Các k tính tốn ti n hóa”; m t k ch t c cb c Lu n v n g m có chương chính: C h ng 1: T ng quan v khám phá tri th c, khai phá d li u gi i thu t di truy n Ch ng 2: Gi i thu t phân c m d a lai ghép gi i thu t ti n hóa Kmeans Ch ng 3: Cài K t lu n t th nghi m nh hư ng phát tri n k t qu nghiên c u CHƠ NG1T 1.1 T ng quan v 1.1.1 Gi i thi u chung v khám phá tri th c khai phá d N u cho r ng, d nghiên c u li u, thông tin, tri th c hi n Thông thư ng, coi d ký hi u “ chương trình dư i m t d ng nh t thơng tin, xem d rút g c h gi tri th quát[2] Khám phá m u ho c h ntim xem thơng tin tích h a chúng, c có p, h p th Khai phá d thu t khai thác d ch p nh n Nói cách khác, m c tiêu c a Khai phá d t n t i CSDL 1.1.2 Quá trình khám phá tri th Quá trình khám phá d hình 1.1 [3]: Giai c khai phá t o n Trích chọn liệu: Giai li u không o n Tiền xử lý liệu: bình 42 Nh n xét: D a vào k t qu c a b ng 3.3, ta th y: -V li u c m t is c m t ng k t giá tr -V li u c is c m 12 t ng t giá tr a nó, -V t i tr ng tâm c m nh - is c m l n t K t qu c a l n phân c m khác hay không th ng nh t, tr trư ng h p s c m b ng (s c m nh t) s c m b ng 12 (s c m nhi u nh t) 3.2.1.2 Thí nghi m gi i thu t Genetic Kmean c m thay i t n 12; s c hi n V i b d li u t sinh, th c hi n test l n lư t v i s th h test 10; s cá th c a qu n th 6; th c test v i s l n 10 Sau test xong, thu k t qu b ng 3.4 Trong ó, giao gi a Trung bình 10 l n ch y trư ng h p S c m trung bình t ng kho ng cách t tr ng tâm c m t i i m d li u 10 l n ch y th nghi m Trung bình 10 ln ch y Trư ng 134,44 hp1 Trư ng 134,44 hp2 B ng 3.4: K t qu V t is i c m =1, c imd h 43 Nh n xét: D a vào k t qu c a b ng 3.4, ta th y: - V i s c m t ng kho ng cách t tr ng tâm c m t i i m d li u t giá tr l n nh t Vì ph i tính t ng kho ng cách c a t t c i m c m t i tr ng tâm c m Nhưng chương trình ph i ch y qua h t th h ã nh trư c - Giá tr trung bình c a t ng kho ng cách t m i tr ng tâm c m t i thành viên c a c m trư ng h p có nhi u giá tr nh trư ng h p 3.2.1.3 Thí nghi m gi i thu t DE Kmean V th Sau test xong, thu Trong t ib h d i i li u t md Trung bình 10 ln ch y Trư ng 134.44 hp1 Trư ng 134.44 hp2 B ng Nh n xét: D a vào k t qu c a b ng 3.5, ta th y: - Vis li u c th - Gi i thu t c ng có th c t giá tr h Epsilon theo bi u th 44 - Giá tr trung bình c a t ng kho ng cách t m i tr ng tâm c m t i thành viên c a c m trư ng h p có nhi u giá tr nh trư ng h p 3.2.1.4 Thí nghi m gi i thu t Kmean, Genetic Kmean, DE Kmean v i Northwin B ng cách thí nghi m tương t b d li u Northwin v t ng trung bình kho ng cách t kho ng cách t m i tr ng tâm c DE Kmean v n nh Genetic Kmean DE Kmean lâu so v i Kmean Nhưng th i gian ch y c a DE Kmean có th th h ang xét n u thõa mãn i u ki n Epsilon Trung bình l n ch y Trư ng h p Trư ng h p B ng 3.6: K t qu th nghi m gi i thu t v i s Nh n xét: D a vào k t qu c a b ng 3.6, ta th y: - Trong trư ng h p 1, gi i thu t Genetic Kmean DE Kmean m c dù có ch n cá th t t nh tphân tách c m nhìn chung giá tr t ng kho ng cách t tr ng tâm c m t i i m d li u v n l n so v i gi i thu t Kmeans - Trong trư ng h p 2, gi i thu t Genetic Kmean DE Kmean ã ch n tr - Gi i thu t DE Kmean tr ng tâm c m t Kmean trư ng h p nh so v i gi i thu t Genetic Kmean c cá th ng tâm c Giá tr trung bình cati tngkhongcácimdđ li u cách t tr ng tâm c m Giá tr trungbìn h c a tngkhongcácimdđ liu cách t tr ng tâm c m t i 3.2.2 Phân tích k t qu T ng h Bi u 3.1: T ng h p k t trư ng h p (hình a) trư qu c a gi i thu t v i giá tr trung bình ng h p (hình b) Nh n xét: -D a vào bi u t i i m d gi i thu t Genetic Kmean gi i thu t DE Kmean Và n Genetic Kmean DE Kmean s phân tách nghi cao so v i gi i thu t Kmean - Gi i thu t Genetic Kmean gi i thu t DE Kmean g n n t ng kho ng cách t tr ng tâm c Và gi i thu t DE Kmean có giá tr tr ng tâm c m t Kmean m t chút ng bi u di n trung bình t ng kho ng cách t tr ng tâm c m t i i m d li u c a gi i thu t Kmean không thay i, ng bi u di n c a gi i thu t Genetic Kmean DE Kmean có thay i th p ng bi u di n c a gi i thu t Kmean r t nhi u Trong trư ng h d ph i ph có giá tr li u c a gi i thu t Genetic Kmean DE Kmean có th thu c vào q trình kh i t o N thích nghi cao ho c th p Trong trư ng h d li u c a gi i thu t Genetic Kmean DE Kmean giá tr thích nghi thu này, gi i thu t gi i thu t Kmean cho NST (N u kh NST l n 3.3 i t o NST mà so sánh th ánh giá k t qu th nghi m chung Qua k t qu d li u ki u s k t qu t i ưu so v i Kmean Song s v i Kmean nên gi i thu t GA Kmean DE Kmean c ng không tránh kh i m t s gi i h n c a Kmean như: Kmean ch khám hình c u, k-means cịn r t nh y c d li u Nhưng gi i thu t c ng làm gi m Kmean, hình d ng c a c m trình lai ghép, Trong m i th h có nhi u s hư ng t i trình di truy n N u s lư ng th h r t nh huy h t ưu i m c làm t ng m 48 K TLU N A Nh ng n i dung c a lu n v n Trong ch ng 1: ♦ Gi i thi u khái ni m s th c ♦ Gi i thi u khái ni m v ♦ lý thuy t c a khai phá d li u, khai phá tri gi i thu t di truy n l p trình ti n hóa Trình bày sơ lư c v gi i thu t di truy n gi i thu t ti n hóa vi phân: Các q trình b n c a gi i thu t di truy n, tham s c a gi i thu t di truy n, lưu gi i thu t Trong ch ng 2: ♦ Tìm hi u m t gi i thu t chung cho vi c k t h p gi i thu t phân c m s d ng gi i thu t ti n hóa, c th gi i thu t di truy n gi i thu t ti n hóa vi phân ♦ So sánh m t gi i thu t phân c m c th Kmeans gi i thu t phân c m Kmeans có s d ng gi i thu t di truy n gi i thu t ti n hóa vi phân Trong ch ng 3: ♦ Xây d ng m t chương trình ch y th nghi m c m ki m tra gi i thu t phân d ng gi i thu t di truy n Kmeans gi i thu t phân c m Kmeans s ♦ Ti n hành ch y th nghi m b d li u ki u s Trong ó b d d li u li u t sinh b CSDL Northwind c a SQL Server 2005 ♦ Ti n hành ch y th nghi m v i 10000 i m d li u ng u nhiên phân c m nh 49 B Các k t qu t c Sau m t th i gian th c hi n tài v i s n l c, c g ng c a b n thân v i s h ng d n nhi t tình c a PGS.TS Bùi Thu Lâm, lu n v n ã thu c m t s k t qu sau: lý thuy t c a khai phá d li u, khai phá tri Gi i thi u gi i thu t chung cho gi i thu t phân c m s truy n gi i thu t ti n hóa vi phân d ng gi i thu t di Trình bày khái ni m s th c, tính tốn ti n hóa Th c hi n cài t th nghi m gi i thu t phân c m Kmeans gi i thu t Kmeans s d ng gi i thu t di truy n gi i thu t ti n hóa vi phân v i b d li u chi u, b c nh b ng CSDL v i thu c tính khác C H ng nghiên c u ti p theo Trên s k t qu ã t c, có th ti p t c nghiên c u m t s v n sau: Ti p t c nghiên c u m t s gi i thu t phân c m s d ng gi i thu t di truy n gi i thu t ti n hóa vi phân Xây d ng ti p chương trình ch y th nghi m gi i thu t phân c m gi i thu t phân c m có s d ng tính tốn ti n hóa Tìm thêm cách th c ng d ng gi i thu t vào th c ti n M c dù ã r t c g ng th i gian hi u bi t v l nh v c khai phá d li u h n ch nên lu n v n ch c s không tránh kh i nh ng m khuy t nh t nh Trong tương lai, em s c g ng kh c ph c nh ng h n ch , ti p t c nghiên c u nh ng v n ã nêu R t mong nh n c ý ki n óng góp c a q th y c gi lu n v n c hoàn thi n 50 TÀI LI U THAM KH O Tài li u ti ng Vi t [1] Nguy n ình Thúc (2000), Trí tuệ nhân tạo - Lập trình tiến hóa, NXB Giáo dc Tài li u ti ng Anh [2] Ho Tu Bao, Knowledge Discovery and Data mining, 2000 [3] J Han, M Kamber, and Jian Pei (2011) Data Mining: Concepts and Techniques (3rd edition), Morgan Kaufmann [4] Rui Xu, Survey of Clustering Algorithms, IEEE transactions on neural networks, vol 16, no 3, may 2005 [5] Eduardo R Hruschka, Ricardo J G B Campello, Alex A Freita, André C P L F de Carvalho, A Survey of Evolutionary Algorithms for Clustering, To appear in IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews [6] David A.Coley, an introduction to genetic algorithms for scientists and enginer, Copyright Q 1999 by World Scientific Publishing Co Pte Ltd [7] Ujjwal Maulik, Sanghamitra Bandyopadhyay, Genetic algorithm-based clustering technique, Pattern Recognition 33 (2000) 1455-1465 [8] Rajashree Dash and Rasmita Dash, comparative analysis of k-means and genetic algorithm based data clustering, International Journal of Advanced Computer and Mathematical Sciences, ISSN 2230-9624 Vol 3, Issue 2, 2012, pp 257-265 [9] Bashar Al-Shboul, and Sung-Hyon Myaeng, Initializing K-Means using Genetic Algorithms, World Academy of Science, Engineering and Technology 54 2009 [10] K Krishna and M Narasimha Murty, Genetic K-Means Algorithm, IEEE transactions on systems, man, and cybernetics—part b: cybernetics, vol 29, no 3, june 1999 [11] Kenneth Price, Rainer Storn, Jouni Lampinen, Differiential Evolution A Practical Approach to Global Optimization, Springer, Verlag, 2005 51 [12] Zbigniew Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs, Heidelberg New York ISBN 3-540-60676-9 Springer-Verlag Berlin [13] P Berkhin,2002 Survey of Clustering Data Mining Techniques Ttechnical report, Accrue Software, San Jose, Cailf [14] Sai Hanuman, Dr Vinaya Babu, Dr Govardhan, Dr S C Satapathy, Data Clustering Using Almost Parameter Free Differential Evolution Technique, International Journal of Computer Applications (0975 – 8887) Volume 8– No.13, October 2010 [15] Guojun Gan, Chaoqun Ma, Jianhong Wu, Data Clustering Theory, Algorithms, and Applications, ASA-SIAM Series on Statistics and Applied Probability, SIAM, Philadelphia, ASA, Alexandria, VA, 2007 [16] Rainer Storn, Kenneth Price, Jouni Lampinen Differential Evolution – A Practical Approach to Global Optimization , Springer, Verlag, 2005 [17] M Mitchell, an Introduction to Genetic Algorithms MIT Press 1998 ... di n Khai phá d li u L a ch n bi n i Kho d li u Làm s ch tích h p Cơ s d li u Các m u Hình 1.1: Quá trình khám phá tri th c 12 1.1.3 Các ph ng pháp khai phá d li u V i hai m c ích khai phá d... i thu t KPDL Khai phá KPTT Khai phá PCDL Phân c m NST Nhi m s c DANH M C CÁC B NG B ng 2.1: B B ng 2.2: Kh B ng 2.3: Các NST m bi n, 36 B ng 2.4: Các NST B ng 2.5: Các NST B ng... quát[2] Khám phá m u ho c h ntim xem thông tin tích h a chúng, c có p, h p th Khai phá d thu t khai thác d ch p nh n Nói cách khác, m c tiêu c a Khai phá d t n t i CSDL 1.1.2 Quá trình khám phá tri