Nhận xét:
Dựa vào kết quả của bảng 3.6, ta thấy:
- Trong trường hợp 1, giải thuật Genetic Kmean và DE Kmean mặc dù có chọn cá thể tốt nhất để phân tách cụm nhưng nhìn chung giá trị tổng khoảng cách từ các trọng tâm cụm tới các điểm dữ liệu vẫn lớn hơn so với giải thuật Kmeans.
- Trong trường hợp 2, giải thuật Genetic Kmean và DE Kmean đã chọn được cá thể tốt nhất để phân tách cụm và giá trị tổng khoảng cách từ các trọng tâm cụm tới các điểm dữ liệu đã nhỏ hơn so với giải thuật Kmean. - Giải thuật DE Kmean đã có kết quả thay đổi rõ ràng. Tổng khoảng cách từ
các trọng tâm cụm tới các điểm dữ liệu đã nhỏ hơn rất nhiều so với DE Kmean trong trường hợp 1 và nhỏ hơn so với giải thuật Genetic Kmean.
3.2.2. Phân tích kết quả
Tổng hợp kết quả của Bảng 3.3, Bảng 3.4 và Bảng 3.5, ta được kết quả như sau:
0 20 40 60 80 100 120 140 160 1 2 3 4 5 6 7 8 9 10 11 Số cụm G iá tr ị tr u n g b ìn h c ủ a t ổ n g k h o ả n g c á c h t ừ tr ọ n g tâ m c ụ m t ớ i c á c đ i ể m d ữ l i ệ u Kmean Genetic Kmean DE Kmean 0 20 40 60 80 100 120 140 160 1 2 3 4 5 6 7 8 9 10 11 Số cụm G iá t r ị tr u n g b ìn h c ủ a t ổ n g k h o ả n g c á c h t ừ tr ọ n g tâ m c ụ m t ớ i c á c đ i ể m d ữ l i ệ u Kmean Genetic Kmean DE Kmean
Biểu đồ 3.1: Tổng hợp kết quả của các giải thuật với giá trị trung bình trong trường hợp 1 (hình a) và trường hợp 2 (hình b)
Hình a
Nhận xét:
- Dựa vào biểu đồ, ta thấy trung bình tổng khoảng cách từ trọng tâm cụm tới các điểm dữ liệu của giải thuật Kmean hầu như luôn lớn hơn so với giải thuật Genetic Kmean và giải thuật DE Kmean. Và như vậy, giải thuật Genetic Kmean và DE Kmean sẽ phân tách được các cụm có độ thích nghi cao hơn so với giải thuật Kmean.
- Giải thuật Genetic Kmean và giải thuật DE Kmean gần như có trung bình tổng khoảng cách từ các trọng tâm cụm tới các điểm dữ liệu xấp xỉ nhau. Và giải thuật DE Kmean có giá trị trung bình tổng khoảng cách từ các trọng tâm cụm tới các điểm dữ liệu thấp hơn so với giải thuật Genetic Kmean một chút.
- Đối chiếu hình a và hình b của biểu đồ 3.1, ta thấy khoảng cách của đường biểu diễn trung bình tổng khoảng cách từ các trọng tâm cụm tới các điểm dữ liệu của giải thuật Kmean không thay đổi, đường biểu diễn của giải thuật Genetic Kmean và DE Kmean có thay đổi nhưng thấp hơn đường biểu diễn của giải thuật Kmean rất nhiều.
Trong trường hợp 1, giá trị tổng khoảng cách từ mỗi trọng tâm cụm tới các điểm dữ liệu của giải thuật Genetic Kmean và DE Kmean có thể không ổn định, vì phải phụ thuộc vào quá trình khởi tạo NST ngẫu nhiên, tạo nên các NST có thể có giá trị thích nghi cao hơn hoặc thấp hơn so với giải thuật Kmean.
Trong trường hợp 2, giá trị tổng khoảng cách từ mỗi trọng tâm cụm tới các điểm dữ liệu của giải thuật Genetic Kmean và DE Kmean đã ổn định hơn rất nhiều, các giá trị thích nghi thu được luôn lớn hơn so với Kmean. Để đạt được điều này, trong giải thuật đã cài đặt thêm một bước: Gán giá trị trọng tâm cụm của giải thuật Kmean cho NST đầu tiên trong quần thể trong quá trình tạo quần thể. (Nếu khởi tạo các NST mà so sánh thỏa mãn điều kiện độ thích nghi của các NST lớn hơn độ thích nghi của Kmean thì độ phức tạp về thời gian xử lý rất lớn)
3.3. Đánh giá kết quả thử nghiệm chung
Qua các kết quả thử nghiệm các giải thuật trên, ta thấy rằng đối với những cụm dữ liệu kiểu số với số thuộc tính nhỏ thì giải thuật GA Kmean và DE Kmean cho kết quả tối ưu hơn so với Kmean. Song do sử dụng giải thuật GA và DE kết hợp với Kmean nên giải thuật GA Kmean và DE Kmean cũng không tránh khỏi một số giới hạn của Kmean như: Kmean là chỉ áp dụng với dữ liệu có thuộc tính số và khám hình cầu, k-means còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu. Nhưng 2 giải thuật này cũng làm giảm đi được một số hạn chế của
Kmean, hình dạng của cụm đa dạng hơn và bớt nhạy cảm với nhiễu nhờ quá trình lai ghép, đột biến, chọn lọc trong giải thuật di truyền.
Trong mỗi thế hệ của giải thuật di truyền, số cá thể của quần thể càng lớn thì sẽ càng có nhiều sự lựa chọn cho quá trình di truyền. Và số lượng thế hệ cũng ảnh hưởng tới quá trình di truyền. Nếu số lượng thế hệ rất nhỏ thì có thể không phát huy hết ưu điểm của giải thuật di truyền, còn nếu số lượng thế hệ càng lớn thì càng làm tăng mức độ phức tạp giải thuật.
KẾT LUẬN
A. Những nội dung chính của luận văn Trong chương 1:
♦ Giới thiệu các khái niệm cơ sở lý thuyết của khai phá dữ liệu, khai phá tri thức.
♦ Giới thiệu các khái niệm về giải thuật di truyền và lập trình tiến hóa. ♦ Trình bày sơ lược về giải thuật di truyền và giải thuật tiến hóa vi phân:
Các quá trình cơ bản của giải thuật di truyền, các tham số của giải thuật di truyền, lưu đồ giải thuật.
Trong chương 2:
♦ Tìm hiểu một giải thuật chung cho việc kết hợp giải thuật phân cụm sử dụng giải thuật tiến hóa, cụ thể là giải thuật di truyền và giải thuật tiến hóa vi phân.
♦ So sánh một giải thuật phân cụm cụ thể là Kmeans và giải thuật phân cụm Kmeans có sử dụng giải thuật di truyền và giải thuật tiến hóa vi phân.
Trong chương 3:
♦ Xây dựng một chương trình chạy thử nghiệm để kiểm tra giải thuật phân cụm Kmeans và giải thuật phân cụm Kmeans sử dụng giải thuật di truyền. ♦ Tiến hành chạy thử nghiệm trên 2 bộ dữ liệu kiểu số. Trong đó 1 bộ dữ
liệu tự sinh và 1 bộ dữ liệu trong CSDL Northwind của SQL Server 2005. ♦ Tiến hành chạy thử nghiệm với 10000 điểm dữ liệu ngẫu nhiên và phân
B. Các kết quảđạt được
Sau một thời gian thực hiện đề tài với sự nỗ lực, cố gắng của bản thân cùng với sự hướng dẫn nhiệt tình của PGS.TS. Bùi Thu Lâm, luận văn đã thu được một số kết quả chính như sau:
Trình bày khái niệm cơ sở lý thuyết của khai phá dữ liệu, khai phá tri thức, tính toán tiến hóa.
Giới thiệu giải thuật chung cho giải thuật phân cụm sử dụng giải thuật di truyền và giải thuật tiến hóa vi phân.
Thực hiện cài đặt thử nghiệm giải thuật phân cụm Kmeans và giải thuật Kmeans sử dụng giải thuật di truyền và giải thuật tiến hóa vi phân với bộ dữ liệu 2 chiều, bức ảnh và bảng CSDL với các thuộc tính khác nhau.
C. Hướng nghiên cứu tiếp theo
Trên cơ sở các kết quả đã đạt được, có thể tiếp tục nghiên cứu một số vấn đề như sau:
Tiếp tục nghiên cứu một số giải thuật phân cụm sử dụng giải thuật di truyền và giải thuật tiến hóa vi phân.
Xây dựng tiếp chương trình chạy thử nghiệm các giải thuật phân cụm và các giải thuật phân cụm có sử dụng tính toán tiến hóa.
Tìm thêm các cách thức ứng dụng giải thuật vào thực tiễn
Mặc dù đã rất cố gắng nhưng do thời gian và hiểu biết về lĩnh vực khai phá dữ liệu còn hạn chế nên luận văn chắc sẽ không tránh khỏi những khiếm khuyết nhất định. Trong tương lai, em sẽ cố gắng để khắc phục những hạn chế, tiếp tục nghiên cứu những vấn đề đã nêu ở trên. Rất mong nhận được ý kiến đóng góp của quý thầy cô và các độc giả để luận văn được hoàn thiện hơn.
TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt
[1] Nguyễn Đình Thúc (2000), Trí tuệ nhân tạo - Lập trình tiến hóa, NXB Giáo dục
Tài liệu tiếng Anh
[2] Ho Tu Bao, Knowledge Discovery and Data mining, 2000
[3] J. Han, M. Kamber, and Jian Pei (2011). Data Mining: Concepts and Techniques (3rd edition), Morgan Kaufmann
[4] Rui Xu, Survey of Clustering Algorithms, IEEE transactions on neural networks, vol. 16, no. 3, may 2005
[5] Eduardo R. Hruschka, Ricardo J. G. B. Campello, Alex A. Freita, André C. P. L. F. de Carvalho, A Survey of Evolutionary Algorithms for Clustering, To appear in IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews
[6] David A.Coley, an introduction to genetic algorithms for scientists and enginer, Copyright Q 1999 by World Scientific Publishing Co. Pte. Ltd. [7] Ujjwal Maulik, Sanghamitra Bandyopadhyay, Genetic algorithm-based
clustering technique, Pattern Recognition 33 (2000) 1455-1465
[8] Rajashree Dash and Rasmita Dash, comparative analysis of k-means and genetic algorithm based data clustering, International Journal of Advanced Computer and Mathematical Sciences, ISSN 2230-9624. Vol 3, Issue 2, 2012, pp 257-265
[9] Bashar Al-Shboul, and Sung-Hyon Myaeng, Initializing K-Means using Genetic Algorithms, World Academy of Science, Engineering and Technology 54 2009
[10] K. Krishna and M. Narasimha Murty, Genetic K-Means Algorithm, IEEE transactions on systems, man, and cybernetics—part b: cybernetics, vol. 29, no. 3, june 1999
[11] Kenneth Price, Rainer Storn, Jouni Lampinen, Differiential Evolution A Practical Approach to Global Optimization, Springer, Verlag, 2005
[12] Zbigniew Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs, ISBN 3-540-60676-9 Springer-Verlag Berlin Heidelberg New York
[13] P. Berkhin,2002. Survey of Clustering Data Mining Techniques. Ttechnical report, Accrue Software, San Jose, Cailf
[14] Sai Hanuman, Dr Vinaya Babu, Dr Govardhan, Dr S C Satapathy, Data Clustering Using Almost Parameter Free Differential Evolution Technique, International Journal of Computer Applications (0975 – 8887) Volume 8– No.13, October 2010
[15] Guojun Gan, Chaoqun Ma, Jianhong Wu, Data Clustering Theory, Algorithms, and Applications, ASA-SIAM Series on Statistics and Applied Probability, SIAM, Philadelphia, ASA, Alexandria, VA, 2007.
[16] Rainer Storn, Kenneth Price, Jouni Lampinen Differential Evolution – A Practical Approach to Global Optimization , Springer, Verlag, 2005 [17] M. Mitchell, an Introduction to Genetic Algorithms. MIT Press 1998