Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

51 7 0
Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHAN MINH HẢI CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG TÍNH TỐN TIẾN HĨA Ngành: Cơng nghệ thơng tin Chun ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS BÙI THU LÂM Hà Nội, 2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân, xuất phát từ yêu cầu giáo viên hướng dẫn đề để hình thành hướng nghiên cứu Các số liệu có nguồn gốc rõ ràng tuân thủ nguyên tắc kết trình bày luận văn thu thập trình nghiên cứu trung thực chưa công bố trước Hà Nội, tháng 10 năm 2014 Tác giả luận văn Phan Minh Hải LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Luận văn thực hướng dẫn PGS.TS Bùi Thu Lâm – Học viện Kỹ thuật Quân Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy hướng dẫn có ý kiến dẫn quý báu trình em làm luận văn Em xin chân thành cảm ơn Thầy giáo môn Công nghệ phần mềm Em xin cảm ơn thầy cô giáo Khoa, cán thuộc phòng Khoa học Đào tạo sau Đại học, Trường Đại học Công nghệ tạo điều kiện trình học tập nghiên cứu Trường Cuối xin bày tỏ lòng cảm ơn tới người thân gia đình, bạn bè động viên giúp đỡ để tơi hồn thành luận văn Hà Nội, Tháng 10 năm 2014 Học viên thực Phan Minh Hải LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ CHƯƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC, KHAI PHÁ DỮ LIỆU VÀ GIẢI THUẬT DI TRUYỀN 10 1.1 Tổng quan khám phá tri thức khai phá liệu 10 1.1.1 Giới thiệu chung khám phá tri thức khai phá liệu 10 1.1.2 Quá trình khám phá tri thức 10 1.1.3 Các phương pháp khai phá liệu 12 1.1.4 Các lĩnh vực ứng dụng thực tiễn KPDL 12 1.1.5 Các hướng tiếp cận kỹ thuật áp dụng KPDL 13 1.1.6 Các yêu cầu phân cụm 13 1.1.7 Phân cụm với giải thuật Kmean 15 1.2 Tổng quan giải thuật tiến hóa 16 1.2.1 Giải thuật di truyền 16 1.2.1.1 Lịch sử phát triển 18 1.2.1.2 Các bước áp dụng giải thuật di truyền 19 1.2.1.2.1 Mã hóa liệu 19 1.2.1.2.2 Khởi tạo quần thể 19 1.2.1.2.3 Xác định hàm thích nghi 19 1.2.1.2.4 Quá trình lai ghép 20 1.2.1.2.5 Quá trình đột biến 21 1.2.1.2.6 Quá trình chọn lọc 21 1.2.1.3 Các tham số giải thuật di truyền 21 1.2.1.4 Sơ đồ trình tính tốn giải thuật di truyền 22 1.2.2 Giải thuật tiến hóa vi phân 25 1.2.2.1 Nguyên lý hoạt động 25 1.2.2.2 Sơ đồ giải thuật tiến hóa vi phân 25 1.3 Kết luận 28 CHƯƠNG GIẢI THUẬT PHÂN CỤM DỰA TRÊN LAI GHÉP GIẢI THUẬT TIẾN HÓA VÀ KMEANS 29 2.1 Giải thuật phân cụm tính tốn tiến hóa 29 2.1.1.Giải thuật tổng quát cho phân cụm sử dụng giải thuật di truyền 29 2.1.2 Biểu diễn cá thể 30 2.1.3 Tính tốn độ thích nghi 30 2.1.4 Phép chọn (Selection) 31 2.1.5 Crossover (lai ghép) 32 2.1.6 Mutation (Đột biến) 33 2.1.7 Kmeans sử dụng giải thuật di truyền 34 2.1.8 Minh họa phân cụm Kmeans sử dụng giải thuật di truyền 35 2.1.9 Phân cụm Kmeans sử dụng giải thuật tiến hóa vi phân 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.2 So sánh giải thuật Kmeans Kmeans sử dụng giải thuật di truyền 38 2.3 Kết luận 38 CHƯƠNG CÀI ĐẶT VÀ THỬ NGHIỆM 40 3.1 Chuẩn bị liệu 40 3.2 Kết phân tích 41 3.2.1 Thí nghiệm giải thuật Kmeans, Genetic Kmean DE Kmean 41 3.2.1.1 Thí nghiệm giải thuật Kmeans 41 3.2.1.2 Thí nghiệm giải thuật Genetic Kmean 42 3.2.1.3 Thí nghiệm giải thuật DE Kmean 43 3.2.1.4 Thí nghiệm giải thuật Kmean, Genetic Kmean, DE Kmean với Northwin 44 3.2.2 Phân tích kết 45 3.3 Đánh giá kết thử nghiệm chung 46 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CDL Cụm liệu CNTT Công nghệ thông tin CSDL Cơ sở liệu DE Giải thuật tiến hóa vi phân DL Dữ liệu GA Giải thuật di truyền KPDL Khai phá liệu KPTT Khai phá thông tin PCDL Phân cụm liệu NST Nhiễm sắc thể Differential Evolution Genetic Algorithm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC BẢNG Bảng 2.1: Bộ liệu số nguyên gồm phần tử 35 Bảng 2.2: Khởi tạo NST tính độ thích nghi 35 Bảng 2.3: Các NST thu cách sử dụng chọn lọc, lai ghép, đột biến, 36 Bảng 2.4: Các NST đầu vào độ thích nghi hệ thứ 36 Bảng 2.5: Các NST đầu vào độ thích nghi hệ thứ 36 Bảng 3.1: Bộ liệu tự sinh có trường liệu 40 Bảng 3.2: Bộ liệu Customers Northwind 40 Bảng 3.3: Kết thử nghiệm với giải thuật Kmeans 41 Bảng 3.4: Kết thử nghiệm với giải thuật Genetic Kmean 42 Bảng 3.5: Kết thử nghiệm với giải thuật DE Kmean 43 Bảng 3.6: Kết thử nghiệm giải thuật với số cụm 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1: Quá trình KPTT 11 Hình 1.2: Ví dụ mã hóa nhiễm sắc thể 19 Hình 1.3: Lai ghép hai cá thể 20 Hình 1.4: Đột biến nhiễm sắc thể 21 Hình 1.5: Sơ đồ q trình tính tốn giải thuật di truyền 23 Hình 1.6: Sơ đồ giải thuật tiến hóa vi phân 26 Biểu đồ 3.1: Tổng hợp kết giải thuật với giá trị trung bình trường hợp (hình a) trường hợp (hình b) 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Phân cụm liệu trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học không giám sát (unsupervised learning) Các Kỹ thuật phân cụm ứng dụng nhiều lĩnh vực tài ngân hành để phân lọai nhóm khách hàng khác Ngồi phân cụm liệu cịn sử dụng bước tiền xử lý cho giải thuật khai phá liệu khác phân loại mơ tả đặc điểm, có tác dụng phát cụm Theo nghiên cứu cho thấy chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc CSDL Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc CSDL, với cách thức biểu diễn khác có giải thuật phân cụm thích nghi Vì phân cụm liệu vấn đề khó mở, phải giải nhiều vấn đề cách trọn vẹn thích nghi với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn KPDL Một điểm khác hàm mục tiêu giải thuật phân cụm K-means thường tồn nhiều điểm tối ưu cục Do mà đề tài tập trung vào tìm hiểu “Các kỹ thuật phân cụm khai phá liệu sử dụng tính tốn tiến hóa”; kỹ - giải thuật tiến hóa thiết kế để khắc phục tính chất cục giải thuật phân cụm Luận văn gồm có chương chính: Chương 1: Tổng quan khám phá tri thức, khai phá liệu giải thuật di truyền Chương 2: Giải thuật phân cụm dựa lai ghép giải thuật tiến hóa Kmeans Chương 3: Cài đặt thử nghiệm Kết luận định hướng phát triển kết nghiên cứu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 CHƯƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC, KHAI PHÁ DỮ LIỆU VÀ GIẢI THUẬT DI TRUYỀN 1.1 Tổng quan khám phá tri thức khai phá liệu 1.1.1 Giới thiệu chung khám phá tri thức khai phá liệu Nếu cho rằng, điện tử truyền thơng chất khoa học điện tử, liệu, thơng tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Thông thường, coi liệu chuỗi bits, số ký hiệu “đối tượng” với ý nghĩa gửi cho chương trình dạng định Các bits thường sử dụng để đo thông tin, xem liệu loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Tri thức xem thông tin tích hợp, bao gồm kiện mối quan hệ chúng, nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức coi liệu mức độ cao trừu tượng tổng quát[2] Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mơ hình liệu với tính năng: Phân tích, tổng hợp, hợp thức, khả ích hiểu Khai phá liệu bước trình khám phá tri thức, gồm giải thuật khai thác liệu chuyên dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục tiêu Khai phá liệu tìm kiếm mẫu mơ hình tồn CSDL ẩn khối lượng lớn liệu 1.1.2 Quá trình khám phá tri thức Quá trình khám phá liệu chia thành giai đoạn sau, xem hình 1.1 [3]: Giai đoạn Trích chọn liệu: Đây bước trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu theo số tiêu chí định Giai đoạn Tiền xử lý liệu: Đây bước làm liệu (xử lý liệu không đầy đủ, nhiễu, không quán, ), rút gọn liệu (sử dụng hàm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 37 2.1.9 Phân cụm Kmeans sử dụng giải thuật tiến hóa vi phân Input: Số cụm k, kích thước quần thể, tập liệu D chứa n đối tượng, số hệ muốn tạo tMax Output: Một tập hợp K cụm Begin Bước : Khởi tạo Mỗi phần tử quần thể ban đầu DE thực miền tham số thực với công thức (1.4) k trọng tâm cụm Bước 2: For t =1 to tMax 1, Đối với nhiễm sắc thể a, Đưa phần tử D vào cụm với trọng tâm cụm gần b, Tính tốn lại k trọng tâm cụm trung bình k cụm vừa tạo thay vào nhiễm sắc thể c, Tính tốn độ thích nghi cho nhiễm sắc thể 2, Tạo hệ nhiễm sắc thể sử dụng phép toán đột biến, lai ghép, chọn lọc tái sinh biểu thức (1.5); (1.6); (1.7) Trong q trình tái sinh, tính tốn độ thích nghi cho nhiễm sắc thể so sánh với độ thích nghi nhiễm sắc thể ban đầu Cá thể có độ thích nghi lớn đưa vào quần thể Bước 3: In kết Tách k cụm nhiễm sắc thể quần thể hệ tạo sau có độ thích nghi lớn Điều kiện dừng: Lặp lại bước hệ t = tMax Hoặc hệ, kiểm tra theo biểu thức (1.8), thỏa mãn điều kiện dừng giải thuật End Dựa vào giải thuật phân cụm Kmeans sử dụng giải thuật tiến hóa vi phân ta thấy, giải thuật giống giải thuật Kmean dựa giải thuật di truyền giải thuật có thêm điều kiện dừng giải thuật hệ xét thỏa mãn biểu thức (1.8) Để tính tốn độ thích nghi cho nhiễm sắc thể tại, ta sử dụng công thức (2.1), (2.2) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 38 2.2 So sánh giải thuật Kmeans Kmeans sử dụng giải thuật di truyền Phân cụm Kmeans Phương pháp phân hoạch Kmeans sử dụng giải thuật di truyền (GA) Phương pháp tiến hóa Đầu vào: K, Dữ liệu, Quần thể P, Chọn Đầu vào: K, Dữ liệu, k trọng tâm cụm nhiễm sắc thể P ngẫu nhiên, số hệ ngẫu nhiên tmax Mục tiêu: Tối thiểu hóa khoảng cách từ Mục tiêu: Tối thiểu hóa tổng bình điểm liệu tới trọng tâm cụm phương khoảng cách Điều kiện dừng: Khơng có thay đổi Điều kiện dừng: Số hệ lớn trọng tâm cụm Giải thuật phân cụm có tính tối ưu cục Giải thuật di truyền dựa phương pháp tìm kiếm tồn cục Độ phức tạp tính tốn: O(n*k*d*i) n: Số điểm liệu Độ phức tạp tính tốn: O(tmax*p*n*d*k) k: Số cụm n: Số điểm liệu d: Kích thước liệu p: Kích thước quần thể i: Số vịng lặp d: Kích thước liệu k: Số cụm tmax: Số hệ lớn Đối với giải thuật Genetic Kmean giải thuật DE Kmean đặc điểm giống chỗ phương pháp tiến hóa, mục tiêu tối thiểu hóa khoảng cách từ điểm liệu tới trọng tâm cụm hệ Nhưng giải thuật DE Kmean dừng giải thuật hệ xét thỏa mãn điều kiện (1.8) 2.3 Kết luận Phân cụm với giải thuật Kmean thể tính chất tối ưu cục Vì giải thuật tính lại trọng tâm cụm mà khơng có thay đổi trọng tâm cụm giải thuật dừng lại, khoảng cách từ trọng tâm cụm tới điểm liệu chưa nhỏ Cịn giải thuật Genetic K.mean ln ln tối thiểu hóa khoảng cách từ điểm liệu tới trọng tâm cụm giải thuật LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 39 phải duyệt qua hết hệ yêu cầu Với giải thuật DE Kmean ln tối thiểu hóa khoảng cách từ điểm liệu tới trọng tâm cụm giải thuật khơng hồn tồn phải duyệt qua hệ yêu cầu Hơn nữa, so hình dạng cụm khám phá giải thuật Kmeans có ưu điểm khám phá cụm hình cầu, cịn giải thuật GA Kmeans DE Kmeans khám phá cụm có hình dạng đa dạng có đột biến q trình phân tách cụm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 40 CHƯƠNG CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 Chuẩn bị liệu Chương trình thực Demo hai liệu: Bộ liệu tự sinh liệu Northwind có sẵn SQLServer 2005 Chương trình thực nghiệm với liệu có kiểu liệu số - Bộ liệu tự sinh: Dữ liệu trường dạng số Chương trình thực Demo liệu này, đồng thời mô trục tọa độ đề XOY Nội dung liệu thực Demo bảng 3.1: Bảng 3.1: Bộ liệu tự sinh có trường liệu - Bộ liệu Northwind SQLServer: Sử dụng bảng Customers, bảng có 91 ghi thơng tin khách hàng Chương trình thực phân cụm liệu có nhiều trường, nhiều kiểu liệu khác Bảng 3.2: Bộ liệu Customers Northwind LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 41 Chương trình chạy thử nghiệm trường hợp: Trường hợp 1: Các NST giải thuật Genetic Kmean DE Kmean chọn hoàn toàn ngẫu nhiên Trường hợp 2: NST giải thuật Genetic Kmean DE Kmean tạo phải thỏa mãn giá trị cho trước Trường hợp NST hai thuật thoán gán kết Kmean Và trình di truyền chọn NST có giá trị thích nghi lớn giá trị thích nghi giải thuật Kmean gán vào giải thuật Genetic Kmean DE Kmean 3.2 Kết phân tích 3.2.1 Thí nghiệm giải thuật Kmeans, Genetic Kmean DE Kmean 3.2.1.1 Thí nghiệm giải thuật Kmeans Với liệu tự sinh, thực test với số cụm thay đổi từ đến 12 thực test với số lần 10 Sau test xong, thu kết bảng 3.3 Trong đó, giao số lần test Số cụm trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 10 lần chạy thử nghiệm Số cụm Số lần test 10 11 12 134,44 77.35 56.61 46.93 38.43 32.14 27.53 18.20 12.84 12.72 4.24 134,44 75.53 66.96 56.93 42.32 30.83 27.33 21.98 13.80 8.26 4.47 134,44 77.35 62.78 53.83 44.35 34.08 29.21 18.20 13.96 10.80 4.47 134,44 77.35 65.75 55.49 42.32 30.29 24.59 16.00 11.76 9.57 4.12 134,44 75.53 58.32 52.76 37.72 35.07 28.78 17.85 12.29 9.34 3.16 134,44 75.53 56.61 49.82 39.44 35.07 26.05 19.06 15.88 10.57 4.12 134,44 77.35 65.88 56.56 38.32 35.94 24.50 18.08 12.29 10.57 6.32 134,44 77.35 63.55 58.72 41.27 27.75 23.30 17.85 13.73 8.37 4.24 134,44 77.35 56.61 49.82 41.27 32.37 29.61 16.00 15.79 9.57 4.47 10 134,44 75.53 62.78 50.83 42.32 34.38 23.51 16.98 12.50 8.71 3.16 Trung bình 134,44 76.62 61.59 53.17 40.78 32.79 26.44 18.02 13.48 9.85 4.28 Bảng 3.3: Kết thử nghiệm với giải thuật Kmeans LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 42 Nhận xét: Dựa vào kết bảng 3.3, ta thấy: - Với số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị lớn Vì phải tính tổng khoảng cách tất điểm cụm tới trọng tâm cụm - Với số cụm 12 tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị nhỏ Vì lúc điểm trọng tâm cụm nó, tổng khoảng cách tất điểm - Với số cụm lớn tổng khoảng cách tất điểm cụm tới trọng tâm cụm nhỏ - Kết lần phân cụm khác hay không thống nhất, trừ trường hợp số cụm (số cụm nhất) số cụm 12 (số cụm nhiều nhất) 3.2.1.2 Thí nghiệm giải thuật Genetic Kmean Với liệu tự sinh, thực test với số cụm thay đổi từ đến 12; số hệ test 10; số cá thể quần thể 6; thực test với số lần 10 Sau test xong, thu kết bảng 3.4 Trong đó, giao Trung bình 10 lần chạy trường hợp Số cụm trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 10 lần chạy thử nghiệm Trung bình 10 lần Số cụm 10 11 12 Trường hợp 134,44 75.89 57.72 47.82 37.23 30.47 23.29 17.22 12.51 7.63 3.38 Trường hợp 134,44 71.95 52.82 43.22 35.42 28.53 22.26 16.28 11.20 6.97 3.16 chạy Bảng 3.4: Kết thử nghiệm với giải thuật Genetic Kmean Với số cụm =1, cụm =12, qua lần test tổng khoảng cách từ trọng tâm cụm tới điểm liệu không thay đổi giải thuật phải chạy qua hết hệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 43 Nhận xét: Dựa vào kết bảng 3.4, ta thấy: - Với số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị lớn Vì phải tính tổng khoảng cách tất điểm cụm tới trọng tâm cụm Nhưng chương trình phải chạy qua hết hệ định trước - Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới thành viên cụm trường hợp có nhiều giá trị nhỏ trường hợp 3.2.1.3 Thí nghiệm giải thuật DE Kmean Với liệu tự sinh, thực test với số cụm thay đổi từ đến 12; số hệ test 10; số cá thể quần thể 6; thực test với số lần 10 Sau test xong, thu kết bảng 3.5 Trong đó, giao Số lần test Số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu Trung bình 10 lần chạy Trường hợp Trường hợp Số cụm 10 11 134.44 76.16 57.24 46.93 38.67 29.26 24.22 17.86 13.38 8.68 4.12 134.44 71.95 52.56 42.97 34.68 27.90 21.07 16.65 11.73 7.82 4.04 12 Bảng 3.5: Kết thử nghiệm với giải thuật DE Kmean Nhận xét: Dựa vào kết bảng 3.5, ta thấy: - Với số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị lớn Vì phải tính tổng khoảng cách tất điểm cụm tới trọng tâm cụm Nhưng chương trình khơng phải chạy qua hệ định trước - Giải thuật dừng hệ xét thỏa mãn yêu cầu Epsilon theo biểu thức (1.5) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 44 - Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới thành viên cụm trường hợp có nhiều giá trị nhỏ trường hợp 3.2.1.4 Thí nghiệm giải thuật Kmean, Genetic Kmean, DE Kmean với Northwin Bằng cách thí nghiệm tương tự mục 3.2.1.1, 3.2.1.2, 3.2.1.3 sử dụng liệu Northwin với bảng Customers kết thu khác tổng trung bình khoảng cách từ trọng tâm cụm tới điểm liệu Trung bình khoảng cách từ trọng tâm cụm tới điểm liệu Genetic Kmean DE Kmean nhỏ so với Kmean Thời gian chạy chương trình Genetic Kmean DE Kmean lâu so với Kmean Nhưng thời gian chạy DE Kmean nhanh so với Genetic Kmean DE Kmean dừng hệ xét thõa mãn điều kiện Epsilon Trung bình lần chạy Kmean Genetic Kmean DE Kmean Trường hợp 4727295589 4741303553 4986328630 Trường hợp 4715671225 4673201339 4663873523 Bảng 3.6: Kết thử nghiệm giải thuật với số cụm Nhận xét: Dựa vào kết bảng 3.6, ta thấy: - Trong trường hợp 1, giải thuật Genetic Kmean DE Kmean có chọn cá thể tốt để phân tách cụm nhìn chung giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu lớn so với giải thuật Kmeans - Trong trường hợp 2, giải thuật Genetic Kmean DE Kmean chọn cá thể tốt để phân tách cụm giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu nhỏ so với giải thuật Kmean - Giải thuật DE Kmean có kết thay đổi rõ ràng Tổng khoảng cách từ trọng tâm cụm tới điểm liệu nhỏ nhiều so với DE Kmean trường hợp nhỏ so với giải thuật Genetic Kmean LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 45 3.2.2 Phân tích kết Tổng hợp kết Bảng 3.3, Bảng 3.4 Bảng 3.5, ta kết sau: Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 160 Hình a 140 120 100 Kmean 80 Genetic Kmean DE Kmean 60 40 20 10 11 Số cụm Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 160 Hình b 140 120 100 Kmean 80 Genetic Kmean DE Kmean 60 40 20 10 11 Số cụm Biểu đồ 3.1: Tổng hợp kết giải thuật với giá trị trung bình trường hợp (hình a) trường hợp (hình b) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 46 Nhận xét: - Dựa vào biểu đồ, ta thấy trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Kmean lớn so với giải thuật Genetic Kmean giải thuật DE Kmean Và vậy, giải thuật Genetic Kmean DE Kmean phân tách cụm có độ thích nghi cao so với giải thuật Kmean - Giải thuật Genetic Kmean giải thuật DE Kmean gần có trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu xấp xỉ Và giải thuật DE Kmean có giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu thấp so với giải thuật Genetic Kmean chút - Đối chiếu hình a hình b biểu đồ 3.1, ta thấy khoảng cách đường biểu diễn trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Kmean không thay đổi, đường biểu diễn giải thuật Genetic Kmean DE Kmean có thay đổi thấp đường biểu diễn giải thuật Kmean nhiều Trong trường hợp 1, giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Genetic Kmean DE Kmean khơng ổn định, phải phụ thuộc vào trình khởi tạo NST ngẫu nhiên, tạo nên NST có giá trị thích nghi cao thấp so với giải thuật Kmean Trong trường hợp 2, giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Genetic Kmean DE Kmean ổn định nhiều, giá trị thích nghi thu lớn so với Kmean Để đạt điều này, giải thuật cài đặt thêm bước: Gán giá trị trọng tâm cụm giải thuật Kmean cho NST quần thể trình tạo quần thể (Nếu khởi tạo NST mà so sánh thỏa mãn điều kiện độ thích nghi NST lớn độ thích nghi Kmean độ phức tạp thời gian xử lý lớn) 3.3 Đánh giá kết thử nghiệm chung Qua kết thử nghiệm giải thuật trên, ta thấy cụm liệu kiểu số với số thuộc tính nhỏ giải thuật GA Kmean DE Kmean cho kết tối ưu so với Kmean Song sử dụng giải thuật GA DE kết hợp với Kmean nên giải thuật GA Kmean DE Kmean không tránh khỏi số giới hạn Kmean như: Kmean áp dụng với liệu có thuộc tính số khám hình cầu, k-means nhạy cảm với nhiễu phần tử ngoại lai liệu Nhưng giải thuật làm giảm số hạn chế LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 47 Kmean, hình dạng cụm đa dạng bớt nhạy cảm với nhiễu nhờ trình lai ghép, đột biến, chọn lọc giải thuật di truyền Trong hệ giải thuật di truyền, số cá thể quần thể lớn có nhiều lựa chọn cho trình di truyền Và số lượng hệ ảnh hưởng tới trình di truyền Nếu số lượng hệ nhỏ không phát huy hết ưu điểm giải thuật di truyền, số lượng hệ lớn làm tăng mức độ phức tạp giải thuật LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 48 KẾT LUẬN A Những nội dung luận văn Trong chương 1: ♦ Giới thiệu khái niệm sở lý thuyết khai phá liệu, khai phá tri thức ♦ Giới thiệu khái niệm giải thuật di truyền lập trình tiến hóa ♦ Trình bày sơ lược giải thuật di truyền giải thuật tiến hóa vi phân: Các q trình giải thuật di truyền, tham số giải thuật di truyền, lưu đồ giải thuật Trong chương 2: ♦ Tìm hiểu giải thuật chung cho việc kết hợp giải thuật phân cụm sử dụng giải thuật tiến hóa, cụ thể giải thuật di truyền giải thuật tiến hóa vi phân ♦ So sánh giải thuật phân cụm cụ thể Kmeans giải thuật phân cụm Kmeans có sử dụng giải thuật di truyền giải thuật tiến hóa vi phân Trong chương 3: ♦ Xây dựng chương trình chạy thử nghiệm để kiểm tra giải thuật phân cụm Kmeans giải thuật phân cụm Kmeans sử dụng giải thuật di truyền ♦ Tiến hành chạy thử nghiệm liệu kiểu số Trong liệu tự sinh liệu CSDL Northwind SQL Server 2005 ♦ Tiến hành chạy thử nghiệm với 10000 điểm liệu ngẫu nhiên phân cụm ảnh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 49 B Các kết đạt Sau thời gian thực đề tài với nỗ lực, cố gắng thân với hướng dẫn nhiệt tình PGS.TS Bùi Thu Lâm, luận văn thu số kết sau: Trình bày khái niệm sở lý thuyết khai phá liệu, khai phá tri thức, tính tốn tiến hóa Giới thiệu giải thuật chung cho giải thuật phân cụm sử dụng giải thuật di truyền giải thuật tiến hóa vi phân Thực cài đặt thử nghiệm giải thuật phân cụm Kmeans giải thuật Kmeans sử dụng giải thuật di truyền giải thuật tiến hóa vi phân với liệu chiều, ảnh bảng CSDL với thuộc tính khác C Hướng nghiên cứu Trên sở kết đạt được, tiếp tục nghiên cứu số vấn đề sau: Tiếp tục nghiên cứu số giải thuật phân cụm sử dụng giải thuật di truyền giải thuật tiến hóa vi phân Xây dựng tiếp chương trình chạy thử nghiệm giải thuật phân cụm giải thuật phân cụm có sử dụng tính tốn tiến hóa Tìm thêm cách thức ứng dụng giải thuật vào thực tiễn Mặc dù cố gắng thời gian hiểu biết lĩnh vực khai phá liệu cịn hạn chế nên luận văn khơng tránh khỏi khiếm khuyết định Trong tương lai, em cố gắng để khắc phục hạn chế, tiếp tục nghiên cứu vấn đề nêu Rất mong nhận ý kiến đóng góp quý thầy cô độc giả để luận văn hoàn thiện LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 50 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Đình Thúc (2000), Trí tuệ nhân tạo - Lập trình tiến hóa, NXB Giáo dục Tài liệu tiếng Anh [2] Ho Tu Bao, Knowledge Discovery and Data mining, 2000 [3] J Han, M Kamber, and Jian Pei (2011) Data Mining: Concepts and Techniques (3rd edition), Morgan Kaufmann [4] Rui Xu, Survey of Clustering Algorithms, IEEE transactions on neural networks, vol 16, no 3, may 2005 [5] Eduardo R Hruschka, Ricardo J G B Campello, Alex A Freita, André C P L F de Carvalho, A Survey of Evolutionary Algorithms for Clustering, To appear in IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews [6] David A.Coley, an introduction to genetic algorithms for scientists and enginer, Copyright Q 1999 by World Scientific Publishing Co Pte Ltd [7] Ujjwal Maulik, Sanghamitra Bandyopadhyay, Genetic algorithm-based clustering technique, Pattern Recognition 33 (2000) 1455-1465 [8] Rajashree Dash and Rasmita Dash, comparative analysis of k-means and genetic algorithm based data clustering, International Journal of Advanced Computer and Mathematical Sciences, ISSN 2230-9624 Vol 3, Issue 2, 2012, pp 257-265 [9] Bashar Al-Shboul, and Sung-Hyon Myaeng, Initializing K-Means using Genetic Algorithms, World Academy of Science, Engineering and Technology 54 2009 [10] K Krishna and M Narasimha Murty, Genetic K-Means Algorithm, IEEE transactions on systems, man, and cybernetics—part b: cybernetics, vol 29, no 3, june 1999 [11] Kenneth Price, Rainer Storn, Jouni Lampinen, Differiential Evolution A Practical Approach to Global Optimization, Springer, Verlag, 2005 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 51 [12] Zbigniew Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs, ISBN 3-540-60676-9 Springer-Verlag Berlin Heidelberg New York [13] P Berkhin,2002 Survey of Clustering Data Mining Techniques Ttechnical report, Accrue Software, San Jose, Cailf [14] Sai Hanuman, Dr Vinaya Babu, Dr Govardhan, Dr S C Satapathy, Data Clustering Using Almost Parameter Free Differential Evolution Technique, International Journal of Computer Applications (0975 – 8887) Volume 8– No.13, October 2010 [15] Guojun Gan, Chaoqun Ma, Jianhong Wu, Data Clustering Theory, Algorithms, and Applications, ASA-SIAM Series on Statistics and Applied Probability, SIAM, Philadelphia, ASA, Alexandria, VA, 2007 [16] Rainer Storn, Kenneth Price, Jouni Lampinen Differential Evolution – A Practical Approach to Global Optimization , Springer, Verlag, 2005 [17] M Mitchell, an Introduction to Genetic Algorithms MIT Press 1998 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... trung vào tìm hiểu ? ?Các kỹ thuật phân cụm khai phá liệu sử dụng tính tốn tiến hóa? ??; kỹ - giải thuật tiến hóa thiết kế để khắc phục tính chất cục giải thuật phân cụm Luận văn gồm có chương chính:... giải thuật phân cụm sử dụng giải thuật di truyền giải thuật tiến hóa vi phân Xây dựng tiếp chương trình chạy thử nghiệm giải thuật phân cụm giải thuật phân cụm có sử dụng tính tốn tiến hóa Tìm... giải thuật tiến hóa, cụ thể giải thuật di truyền giải thuật tiến hóa vi phân ♦ So sánh giải thuật phân cụm cụ thể Kmeans giải thuật phân cụm Kmeans có sử dụng giải thuật di truyền giải thuật tiến

Ngày đăng: 05/12/2022, 15:36

Hình ảnh liên quan

Hình 1.1: Quá trình khám phá tri thức - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Hình 1.1.

Quá trình khám phá tri thức Xem tại trang 11 của tài liệu.
Đây là quá trình nhiễm sắc thể mới được hình thành dựa trên nhiễm sắc thể cha- cha-mẹ bằng cách lai ghép một hay nhiều đoạn nhiễm sắc thể cha cha-mẹ với nhau - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

y.

là quá trình nhiễm sắc thể mới được hình thành dựa trên nhiễm sắc thể cha- cha-mẹ bằng cách lai ghép một hay nhiều đoạn nhiễm sắc thể cha cha-mẹ với nhau Xem tại trang 20 của tài liệu.
Hình 1.4: Đột biến một nhiễm sắc thể - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Hình 1.4.

Đột biến một nhiễm sắc thể Xem tại trang 21 của tài liệu.
Hình 1.5: Sơ đồ q trình tính tốn của giải thuật di truyền - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Hình 1.5.

Sơ đồ q trình tính tốn của giải thuật di truyền Xem tại trang 23 của tài liệu.
Hình 1.6: Sơ đồ giải thuật tiến hóa vi phân - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Hình 1.6.

Sơ đồ giải thuật tiến hóa vi phân Xem tại trang 26 của tài liệu.
Cho bộ dữ liệu gồm 6 đối tượng dữ liệu 2 chiều x, y như bảng 2.1 - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

ho.

bộ dữ liệu gồm 6 đối tượng dữ liệu 2 chiều x, y như bảng 2.1 Xem tại trang 35 của tài liệu.
Bảng 2.1: Bộ dữ liệu số nguyên gồm 6 phần tử - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Bảng 2.1.

Bộ dữ liệu số nguyên gồm 6 phần tử Xem tại trang 35 của tài liệu.
Bảng 2.3: Các nhiễm sắc thể mới thu được bằng cách sử dụng lựa chọn, lai ghép - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Bảng 2.3.

Các nhiễm sắc thể mới thu được bằng cách sử dụng lựa chọn, lai ghép Xem tại trang 36 của tài liệu.
Bảng 2.4: Các nhiễm sắc thể đầu vào và độ thích nghi cho thế hệ thứ 2 - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Bảng 2.4.

Các nhiễm sắc thể đầu vào và độ thích nghi cho thế hệ thứ 2 Xem tại trang 36 của tài liệu.
- Bộ dữ liệu Northwind trong SQLServer: Sử dụng bảng Customers, bảng này - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

d.

ữ liệu Northwind trong SQLServer: Sử dụng bảng Customers, bảng này Xem tại trang 40 của tài liệu.
Bảng 3.1: Bộ dữ liệu tự sinh có 2 trường dữ liệu - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Bảng 3.1.

Bộ dữ liệu tự sinh có 2 trường dữ liệu Xem tại trang 40 của tài liệu.
Bảng 3.3: Kết quả thử nghiệm với giải thuật Kmeans - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Bảng 3.3.

Kết quả thử nghiệm với giải thuật Kmeans Xem tại trang 41 của tài liệu.
Dựa vào kết quả của bảng 3.3, ta thấy: - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

a.

vào kết quả của bảng 3.3, ta thấy: Xem tại trang 42 của tài liệu.
Dựa vào kết quả của bảng 3.4, ta thấy: - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

a.

vào kết quả của bảng 3.4, ta thấy: Xem tại trang 43 của tài liệu.
Bảng 3.6: Kết quả thử nghiệm các giải thuật với số cụm bằng 7 - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Bảng 3.6.

Kết quả thử nghiệm các giải thuật với số cụm bằng 7 Xem tại trang 44 của tài liệu.
Tổng hợp kết quả của Bảng 3.3, Bảng 3.4 và Bảng 3.5, ta được kết quả như sau: - Luận văn thạc sĩ VNU UET các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

ng.

hợp kết quả của Bảng 3.3, Bảng 3.4 và Bảng 3.5, ta được kết quả như sau: Xem tại trang 45 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan