Luận văn thạc sĩ các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

51 1 0
Luận văn thạc sĩ các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHAN MINH HẢI CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG TÍNH TỐN TIẾN HĨA Ngành: Cơng nghệ thơng tin Chun ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS BÙI THU LÂM Hà Nội, 2014 z LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thân, xuất phát từ yêu cầu giáo viên hướng dẫn đề để hình thành hướng nghiên cứu Các số liệu có nguồn gốc rõ ràng tuân thủ nguyên tắc kết trình bày luận văn thu thập trình nghiên cứu trung thực chưa công bố trước Hà Nội, tháng 10 năm 2014 Tác giả luận văn Phan Minh Hải z LỜI CẢM ƠN Luận văn thực hướng dẫn PGS.TS Bùi Thu Lâm – Học viện Kỹ thuật Quân Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy hướng dẫn có ý kiến dẫn quý báu trình em làm luận văn Em xin chân thành cảm ơn Thầy giáo môn Công nghệ phần mềm Em xin cảm ơn thầy cô giáo Khoa, cán thuộc phòng Khoa học Đào tạo sau Đại học, Trường Đại học Công nghệ tạo điều kiện trình học tập nghiên cứu Trường Cuối xin bày tỏ lòng cảm ơn tới người thân gia đình, bạn bè động viên giúp đỡ để tơi hồn thành luận văn Hà Nội, Tháng 10 năm 2014 Học viên thực Phan Minh Hải z LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ CHƯƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC, KHAI PHÁ DỮ LIỆU VÀ GIẢI THUẬT DI TRUYỀN 10 1.1 Tổng quan khám phá tri thức khai phá liệu 10 1.1.1 Giới thiệu chung khám phá tri thức khai phá liệu 10 1.1.2 Quá trình khám phá tri thức 10 1.1.3 Các phương pháp khai phá liệu 12 1.1.4 Các lĩnh vực ứng dụng thực tiễn KPDL 12 1.1.5 Các hướng tiếp cận kỹ thuật áp dụng KPDL 13 1.1.6 Các yêu cầu phân cụm 13 1.1.7 Phân cụm với giải thuật Kmean 15 1.2 Tổng quan giải thuật tiến hóa 16 1.2.1 Giải thuật di truyền 16 1.2.1.1 Lịch sử phát triển 18 1.2.1.2 Các bước áp dụng giải thuật di truyền 19 1.2.1.2.1 Mã hóa liệu 19 1.2.1.2.2 Khởi tạo quần thể 19 1.2.1.2.3 Xác định hàm thích nghi 19 1.2.1.2.4 Quá trình lai ghép 20 1.2.1.2.5 Quá trình đột biến 21 1.2.1.2.6 Quá trình chọn lọc 21 1.2.1.3 Các tham số giải thuật di truyền 21 1.2.1.4 Sơ đồ q trình tính toán giải thuật di truyền 22 1.2.2 Giải thuật tiến hóa vi phân 25 1.2.2.1 Nguyên lý hoạt động 25 1.2.2.2 Sơ đồ giải thuật tiến hóa vi phân 25 1.3 Kết luận 28 CHƯƠNG GIẢI THUẬT PHÂN CỤM DỰA TRÊN LAI GHÉP GIẢI THUẬT TIẾN HÓA VÀ KMEANS 29 2.1 Giải thuật phân cụm tính tốn tiến hóa 29 2.1.1.Giải thuật tổng quát cho phân cụm sử dụng giải thuật di truyền 29 2.1.2 Biểu diễn cá thể 30 2.1.3 Tính tốn độ thích nghi 30 2.1.4 Phép chọn (Selection) 31 2.1.5 Crossover (lai ghép) 32 2.1.6 Mutation (Đột biến) 33 2.1.7 Kmeans sử dụng giải thuật di truyền 34 2.1.8 Minh họa phân cụm Kmeans sử dụng giải thuật di truyền 35 2.1.9 Phân cụm Kmeans sử dụng giải thuật tiến hóa vi phân 37 z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 2.2 So sánh giải thuật Kmeans Kmeans sử dụng giải thuật di truyền 38 2.3 Kết luận 38 CHƯƠNG CÀI ĐẶT VÀ THỬ NGHIỆM 40 3.1 Chuẩn bị liệu 40 3.2 Kết phân tích 41 3.2.1 Thí nghiệm giải thuật Kmeans, Genetic Kmean DE Kmean 41 3.2.1.1 Thí nghiệm giải thuật Kmeans 41 3.2.1.2 Thí nghiệm giải thuật Genetic Kmean 42 3.2.1.3 Thí nghiệm giải thuật DE Kmean 43 3.2.1.4 Thí nghiệm giải thuật Kmean, Genetic Kmean, DE Kmean với Northwin 44 3.2.2 Phân tích kết 45 3.3 Đánh giá kết thử nghiệm chung 46 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 50 z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CDL Cụm liệu CNTT Công nghệ thông tin CSDL Cơ sở liệu DE Giải thuật tiến hóa vi phân DL Dữ liệu GA Giải thuật di truyền KPDL Khai phá liệu KPTT Khai phá thông tin PCDL Phân cụm liệu NST Nhiễm sắc thể Differential Evolution Genetic Algorithm z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 DANH MỤC CÁC BẢNG Bảng 2.1: Bộ liệu số nguyên gồm phần tử 35 Bảng 2.2: Khởi tạo NST tính độ thích nghi 35 Bảng 2.3: Các NST thu cách sử dụng chọn lọc, lai ghép, đột biến, 36 Bảng 2.4: Các NST đầu vào độ thích nghi hệ thứ 36 Bảng 2.5: Các NST đầu vào độ thích nghi hệ thứ 36 Bảng 3.1: Bộ liệu tự sinh có trường liệu 40 Bảng 3.2: Bộ liệu Customers Northwind 40 Bảng 3.3: Kết thử nghiệm với giải thuật Kmeans 41 Bảng 3.4: Kết thử nghiệm với giải thuật Genetic Kmean 42 Bảng 3.5: Kết thử nghiệm với giải thuật DE Kmean 43 Bảng 3.6: Kết thử nghiệm giải thuật với số cụm 44 z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1: Quá trình KPTT 11 Hình 1.2: Ví dụ mã hóa nhiễm sắc thể 19 Hình 1.3: Lai ghép hai cá thể 20 Hình 1.4: Đột biến nhiễm sắc thể 21 Hình 1.5: Sơ đồ q trình tính tốn giải thuật di truyền 23 Hình 1.6: Sơ đồ giải thuật tiến hóa vi phân 26 Biểu đồ 3.1: Tổng hợp kết giải thuật với giá trị trung bình trường hợp (hình a) trường hợp (hình b) 45 z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 MỞ ĐẦU Phân cụm liệu q trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác khơng tương đồng Phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học không giám sát (unsupervised learning) Các Kỹ thuật phân cụm ứng dụng nhiều lĩnh vực tài ngân hành để phân lọai nhóm khách hàng khác Ngồi phân cụm liệu cịn sử dụng bước tiền xử lý cho giải thuật khai phá liệu khác phân loại mô tả đặc điểm, có tác dụng phát cụm Theo nghiên cứu cho thấy chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc CSDL Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc CSDL, với cách thức biểu diễn khác có giải thuật phân cụm thích nghi Vì phân cụm liệu vấn đề khó mở, phải giải nhiều vấn đề cách trọn vẹn thích nghi với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn KPDL Một điểm khác hàm mục tiêu giải thuật phân cụm K-means thường tồn nhiều điểm tối ưu cục Do mà đề tài tập trung vào tìm hiểu “Các kỹ thuật phân cụm khai phá liệu sử dụng tính tốn tiến hóa”; kỹ - giải thuật tiến hóa thiết kế để khắc phục tính chất cục giải thuật phân cụm Luận văn gồm có chương chính: Chương 1: Tổng quan khám phá tri thức, khai phá liệu giải thuật di truyền Chương 2: Giải thuật phân cụm dựa lai ghép giải thuật tiến hóa Kmeans Chương 3: Cài đặt thử nghiệm Kết luận định hướng phát triển kết nghiên cứu z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 10 CHƯƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC, KHAI PHÁ DỮ LIỆU VÀ GIẢI THUẬT DI TRUYỀN 1.1 Tổng quan khám phá tri thức khai phá liệu 1.1.1 Giới thiệu chung khám phá tri thức khai phá liệu Nếu cho rằng, điện tử truyền thơng chất khoa học điện tử, liệu, thông tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Thông thường, coi liệu chuỗi bits, số ký hiệu “đối tượng” với ý nghĩa gửi cho chương trình dạng định Các bits thường sử dụng để đo thơng tin, xem liệu loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Tri thức xem thơng tin tích hợp, bao gồm kiện mối quan hệ chúng, nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức coi liệu mức độ cao trừu tượng tổng quát[2] Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mơ hình liệu với tính năng: Phân tích, tổng hợp, hợp thức, khả ích hiểu Khai phá liệu bước trình khám phá tri thức, gồm giải thuật khai thác liệu chuyên dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục tiêu Khai phá liệu tìm kiếm mẫu mơ hình tồn CSDL ẩn khối lượng lớn liệu 1.1.2 Quá trình khám phá tri thức Q trình khám phá liệu chia thành giai đoạn sau, xem hình 1.1 [3]: Giai đoạn Trích chọn liệu: Đây bước trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu theo số tiêu chí định Giai đoạn Tiền xử lý liệu: Đây bước làm liệu (xử lý liệu không đầy đủ, nhiễu, không quán, ), rút gọn liệu (sử dụng hàm z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 11 nhóm tính tổng, phương pháp nén liệu, lấy mẫu, ), rời rạc hóa liệu Flat files: Những tệp liệu khơng có mối quan hệ cấu trúc Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hóa Giai đoạn Biến đổi liệu: Đây bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ trình khai phá bước sau Giai đoạn Khai phá liệu: Đây bước áp dụng kỹ thuật phân tích (như kỹ thuật học máy) nhằm để khai thác liệu, trích chọn mẫu thơng tin, mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian trình KDD Giai đoạn Đánh giá biểu diễn tri thức: Những mẫu thông tin mối liên hệ liệu khám phá bước biến đổi biểu diễn dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định Đánh giá biểu diễn Khai phá liệu Tri thức Các mẫu Lựa chọn biến đổi Kho liệu Làm tích hợp Cơ sở liệu Flat files Hình 1.1: Quá trình khám phá tri thức z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 12 1.1.3 Các phương pháp khai phá liệu Với hai mục đích khai phá liệu Mơ tả Dự đốn, người ta thường sử dụng phương pháp sau cho khai phá liệu [3]: o Luật kết hợp (association rules) o Phân lớp (Classfication) o Hồi qui (Regression) o Trực quan hóa (Visualiztion) o Phân cụm (Clustering) o Tổng hợp (Summarization) o Mơ hình ràng buộc (Dependency modeling) o Biểu diễn mơ hình (Model Evaluation) o Phân tích phát triển độ lệch (Evolution and deviation analyst) o Phương pháp tìm kiếm (Search Method) Có nhiều phương pháp khai phá liệu nghiên cứu trên, có ba phương pháp nhà nghiên cứu sử dụng nhiều là: Luật kết hợp, Phân lớp liệu Phân cụm liệu 1.1.4 Các lĩnh vực ứng dụng thực tiễn KPDL KPDL lĩnh vực phát triển thu hút nhiều nhà nghiên cứu nhờ vào ứng dụng thực tiễn Sau số lĩnh vực ứng dụng thực tế điển hình KPDL[2]: - Phân tích liệu hỗ trợ định - Phân lớp văn bản, tóm tắt văn bản, phân lớp trang Web phân cụm ảnh màu - Chuẩn đoán triệu chứng, phương pháp điều trị y học - Tìm kiếm, đối sánh hệ Gene thơng tin di truyền sinh học - Phân tích tình hình tài chính, thị trường, dự báo gía cổ phiếu tài chính, thị trường chứng khốn - Phân tích liệu marketing, khách hàng - Điều khiển lập lịch trình - Bảo hiểm - Giáo dục z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 13 1.1.5 Các hướng tiếp cận kỹ thuật áp dụng KPDL Vấn đề khai phá liệu phân chia theo lớp hướng tiếp cận sau [3]: - Phân lớp dự đốn (classification &prediction): Là q trình xếp đối tượng vào lớp biết trước (ví dụ: phân lớp bệnh nhân theo liệu hồ sơ bệnh án, phân lớp vùng địa lý theo liệu thời tiết ) Đối với hướng tiếp cận thường sử dụng số kỹ thuật học máy định (decision tree), mạng nơron nhân tạo (neural network), Hay lớp toán cịn đươc gọi học có giám sát - Học có thày (supervised learning) - Phân cụm (clustering/segmentation): Sắp xếp đối tượng theo cụm liệu tự nhiên, tức số lượng tên cụm chưa biết trước Các đối tượng gom cụm cho mức độ tương tự đối tượng cụm lớn mức độ tương tự đối tượng nằm cụm khác nhỏ Lớp tốn cịn gọi học không giám sát - Học không thày (unsupervised learning) - Luật kết hợp (association rules): Là dạng luật biểu diễn tri thức dạng đơn giản (Ví dụ: 80% sinh viên đăng ký học CSDL có tới 60% số họ đăng ký học Phân tích thiết kế hệ thống thông tin) Hướng tiếp cận ứng dụng nhiều lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, viễn thơng, tài thị trường chứng khốn, - Phân tích chuỗi theo thời gian (sequential/temporal patterns): Cũng tương tự khai phá liệu luật kết hợp có thêm tính thứ tự tính thời gian Một luật mơ tả mẫu có dạng tiêu biểu X -> Y, phản ánh xuất biến cố X dẫn đến việc xuất biến cố Y Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khốn chúng có tính dự báo cao - Mơ tả khái niệm (concept desccription & summarization): Lớp tốn thiên mơ tả, tổng hợp tóm tắt khái niệm (Ví dụ: tóm tắt văn bản) 1.1.6 Các yêu cầu phân cụm Phân cụm thách thức lĩnh vực nghiên cứu chỗ ứng dụng tiềm chúng đưa yêu cầu đặc biệt chúng Sau yêu cầu phân cụm KPDL [3]: z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 14 Có khả mở rộng: Nhiều thuật tốn phân cụm làm việc tốt với tập liệu khoảng vài trăm đối tượng, nhiên, CSDL lớn chứa tới hàng triệu đối tượng Việc phân cụm với tập liệu lớn làm ảnh hưởng tới kết Vậy làm cách để phát triển giải thuật phân cụm có khả mở rộng cao CSDL lớn? Khả thích nghi với kiểu thuộc tính khác nhau: Nhiều giải thuật thiết kế cho việc phân cụm liệu có kiểu khoảng (kiểu số) Tuy nhiên, nhiều ứng dụng địi hỏi việc phân cụm với nhiều kiểu liệu khác nhau, kiểu nhị phân, kiểu tường minh (định danh - không thứ tự), liệu có thứ tự hay dạng hỗn hợp kiểu liệu Khám phá cụm với hình dạng bất kỳ: Nhiều giải thuật phân cụm xác định cụm dựa phép đo khoảng cách Euclidean khoảng cách Manhattan Các thuật toán dựa phép đo hướng tới việc tìm kiếm cụm hình cầu với mật độ kích cỡ tương tự Tuy nhiên, cụm có hình dạng Do đó, việc phát triển thuật tốn khám phá cụm có hình dạng việc làm quan trọng Tối thiểu lượng tri thức cần cho xác định tham số đầu vào: Nhiều thuật toán phân cụm yêu cầu người dùng đưa vào tham số định phân tích phân cụm (như số lượng cụm mong muốn) Kết phân cụm thường nhạy cảm với tham số đầu vào Nhiều tham số khó để xác định, với tập liệu có lượng đối tượng lớn Điều gây trở ngại cho người dùng mà cịn làm cho khó điều chỉnh chất lượng phân cụm Khả thích nghi với liệu nhiễu: Hầu hết CSDL thực chứa đựng liệu ngoại lai, liệu lỗi, liệu chưa biết liệu sai Một số giải thuật phân cụm nhạy cảm với liệu dẫn đến chất lượng phân cụm thấp Ít nhạy cảm với thứ tự liệu vào: Một số thuật toán phân cụm nhạy cảm với thứ tự liệu vào, ví dụ với tập liệu, đưa với thứ tự khác với giải thuật sinh cụm khác Do đó, việc quan trọng phát triển giải thuật mà nhạy cảm với thứ tự vào liệu Số chiều lớn: Một CSDL kho liệu chứa số chiều số thuộc tính Nhiều thuật tốn phân cụm áp dụng tốt cho liệu với số chiều thấp, bao gồm từ hai đến chiều Người ta đánh giá việc phân z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 15 cụm có chất lượng tốt áp dụng cho liệu có từ chiều trở lên Nó thách thức với đối tượng liệu cụm không gian với số chiều lớn, đặc biệt xét khơng gian với số chiều lớn thưa có độ nghiêng lớn Phân cụm ràng buộc: Nhiều ứng dụng thực tế cần thực phân cụm loại ràng buộc khác Một nhiệm vụ đặt tìm nhóm liệu có trạng thái phân cụm tốt thỏa mãn ràng buộc Dễ hiểu dễ sử dụng: Người sử dụng chờ đợi kết phân cụm dễ hiểu, dễ lý giải dễ sử dụng Nghĩa là, phân cụm cần giải thích ý nghĩa ứng dụng rõ ràng 1.1.7 Phân cụm với giải thuật Kmean Cho tập liệu D gồm n đối tượng không gian Euclidean Phương pháp phân hoạch đối tượng D vào k cụm, C1, , Ck, Ck ⊂ D Ci ∩ Cj = ∅ (trong đó, ≤ i, j ≤ k) Hàm mục tiêu sử dụng để đánh giá độ đối tượng cụm tương tự nhau, đối tượng thuộc cụm khác không tương tự Sự khác đối tượng p ∈ Ci ci thể phép đo khoảng cách Euclidean dist(p, ci) [3] Đặc tính cụm Ci xác định khác cụm theo công thức sau: đó, ci trọng tâm cụm Ci, p điểm thuộc Ci Giải thuật phân cụm Kmean: Input: k: số cụm D: tập liệu chứa n đối tượng Output: tập hợp k cụm Thứ tự thực giải thuật: (1) Khởi tạo k trọng tâm cụm từ tập D đối tượng (2) Lặp (3) Đăng ký đăng ký lại đối tượng vào cụm có độ tương tự lớn nhất, dựa giá trị trung bình đối tượng thuộc cụm; z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 16 (4) Cập nhập lại giá trị trung bình cụm cách tính tốn giá trị trung bình đối tượng cụm (5) Đến trọng tâm cụm không thay đổi 1.2 Tổng quan giải thuật tiến hóa Thuật ngữ Chương trình tiến hóa (cấu trúc liệu + giải thuật di truyền) khái niệm dùng để chương trình máy tính có sử dụng giải thuật tìm kiếm tối ưu hóa dựa nguyên lý tiến hóa tự nhiên Ta gọi chung giải thuật giải thuật tiến hóa Dưới số giải thuật tiến hóa cơng bố [1] − Quy hoạch tiến hóa - EP, D.B Pogel đề xuất Có thể diễn tả EP đơn giản sau: Cho lớp phương pháp giải (số) phần vấn đề Dựa vào quy luật tiến hóa, tìm phương pháp liên hợp đủ khả giải trọn vẹn vấn đề − Chiến lược tiến hóa, T Baeck, F.H Hofmeister H.P Schwefel đề xuất Giải thuật dựa số chiến lược ban đầu, tiến hóa để tạo chiến lược thích nghi với mơi trường thực tế cách tốt − Giải thuật di truyền (Genetic Algorithms), D.E Goldberg đề xuất, L Davis Z Michalevicz phát triển − Giải thuật tiến hóa vi phân (Differential Evolution), Rainer Storn Kenneth Price phát triển dựa giải thuật di truyền Và phần trình bày mơ tả giải thuật di truyền giải thuật tiến hóa vi phân 1.2.1 Giải thuật di truyền Giải thuật di truyền kỹ thuật khoa học máy tính nhằm tìm kiếm giải pháp thích hợp cho tốn tối ưu tổ hợp (combinatorial optimization) Giải thuật di truyền phân ngành giải thuật tiến hóa vận dụng nguyên lý tiến hóa di truyền, đột biến, chọn lọc tự nhiên trao đổi chéo [12] Ngày nay, giải thuật di truyền dùng phổ biến số ngành tin sinh học, khoa học máy tính, trí tuệ nhân tạo, tài số ngành khác Giải thuật di truyền lấy cảm hứng từ thuyết tiến hóa giới tự nhiên nhà bác học Darwin xây dựng Nguyên lý sinh học khởi nguồn tư tưởng lập trình tiến hóa sau: Trong tất cá thể sống chứa tế bào Mỗi mội tế bào chứa tập hợp nhiễm sắc thể giống Nhiễm sắc thể chứa chuỗi DNA Các chuỗi DNA nhóm lại thành khối (block) hay z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 17 gọi gen, gen Protein Hay nói gen biểu diễn đặc điểm sinh vật, ví dụ đặc điểm màu mắt (nâu, đen, xanh, vàng), đặc điểm màu tóc (đen, bạch kim, nâu, vàng), kiểu tóc (thẳng, xoăn…) Các Gen tương ứng Gen có đặc tính với giá trị khác nhau, giống Ví dụ Gen quy định màu tóc vàng cá thể A tương ứng với Gen quy định tóc đen cá thể B Tập hợp toàn nguyên liệu di truyền học (tất nhiễm sắc thể) gọi di truyền Kiểu Gen tập hợp gen nguyên liệu di truyền Kiểu gen quy định đặc tính thể (thể xác) tinh thần cá thể sống màu mắt, mức độ thông minh Sự sinh sản: Trong trình sinh sản tổ hợp (trao đổi chéo) Gen từ cá thể cha mẹ chuyển cho hệ sau Quá trình tạo cá thể cháu đột biến Đột biến xảy thành phần DNA có chút thay đổi, ngun nhân q trình đột biến thường lỗi trình chép Gen từ cá thể cha-mẹ Sự phù hợp cá thể (fitness) đánh giá thành công cá thể mơi trường sống Giải thuật di truyền ứng dụng để giải toán NP-Problem NPhard: Non-deterministic polynomial time hard Các toán dạng bao gồm: - Configuration: Cấu hình - Data mining: Khai phá liệu - Selection: Chọn lọc - Diagnosis: Phân tích - Process monitoring and control: Thực điều phối giám sát - Scheduling: Lập lịch - Planning: Lập kế hoạch - Rosters or schedules - Tutoring systems: Hệ thống giám sát - Decision support: Hỗ trợ định - Phylogenetics “Giống giải thuật tiến hóa nói chung, giải thuật di truyền hình thành dựa quan niệm cho q trình tiến hóa tự nhiên q trình hồn hảo hợp lý tự mang tính tối ưu Quan niệm xem tiên đề khơng chứng minh phù hợp với thực tế khách quan Tính tối ưu tự nhiên thể chỗ hệ sau tốt (phát triển hơn, hoàn thiện hơn) hệ trước nhờ hai trình sinh sản chọn lọc tự nhiên Xun suốt q trình tiến hóa tự nhiên, hệ sinh để bổ xung thay thế hệ cụ Những cá thể phát triển thích nghi với mơi z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 18 trường tồn ngược lại, cá thể khơng thích nghi với mơi trường bị đào thải Sự thay đổi môi trường tác động đến q trình tiến hóa thân q trình tiến hóa có tác động làm thay đổi mơi trường Cá thể sinh trình tiến hóa nhờ vào lai ghép hệ cha-mẹ Một cá thể mang đặc tính cha-mẹ hệ trước (di truyền) mang đặc tính hồn tồn (đột biến) Di truyền đột biến hai chế quan trọng q trình tiến hóa xác suất để xảy tượng đột biến nhỏ nhiều so với tượng di truyền” [1] Mặc dù chế ngẫu nhiên giải thuật di truyền giải thuật ngẫu nhiên Giải thuật khai thác tận dụng cách hiệu thông tin khứ để có kết đạt kết mong muốn Các cải tiến việc sử dụng giải thuật di truyền làm tăng thêm hiệu việc sử dụng giải thuật toán phức tạp Điều thể việc giảm thời gian tính tốn ngày hiệu mà ta tìm hiểu cụ thể 1.2.1.1 Lịch sử phát triển Năm 1954, GP bắt đầu với giải thuật tiến hóa, sử dụng lần Nils Aall Barricelli việc mô q trình tiến hóa Vào năm 1960 nửa đầu năm 1970 giải thuật tiến hóa (EA) biết đến phương pháp tối ưu hóa I Rechenberg nhóm ơng giải nhiều vấn đề phức tạp ngành công nghệ chiến lược tiến hóa (Evolution strategies) Ơng giới thiệu ý tưởng lập trình tiến hóa tác phẩm "Evolution strategies" (Evolutions strategie in original) Sau nhà nghiên cứu khác tiếp tục phát triển ý tưởng ông Năm 1971 ông làm luận án tiến sỹ evolution strategies năm 1973 ông xuất thành sách Trong năm 1970 Jonh Holland có ảnh hưởng lớn trình phát triển giải thuật di truyền Giải thuật di truyền (GA) Holland phát minh sau ơng sinh viên cộng phát triển tiếp Các kết giới thiệu sách "Adaption in Natural and Artificial Systems" xuất vào năm 1975 ông Vào năm 1992, John Koza sử dụng giải thuật di truyền để thực vài nhiệm vụ chương trình tiến hóa Ơng gọi phương pháp Lập trình tiến hóa ("Genetic Programming" (GP)) [17] z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 19 1.2.1.2 Các bước áp dụng giải thuật di truyền 1.2.1.2.1 Mã hóa liệu Hay gọi biểu diễn di truyền cho lời giải toán: Đây bước quan trọng việc tìm lời giải toán Mỗi lời giải toán biểu diễn dạng chuỗi ký tự hữu hạn hay gọi nhiễm sắc thể Các ký tự số nhị phân, số thập phân, … tùy vào toán cụ thể Trong trình này, việc mã hóa gì, mã hóa nào, trật tự thành phần nhiễm sắc thể sao,… thách thức cho người giải toán Nhiễm sắc thể 1101100100110110 Nhiễm sắc thể 1101111000011110 Hình 1.2: Ví dụ mã hóa nhiễm sắc thể 1.2.1.2.2 Khởi tạo quần thể Xây dựng tập hợp nghiệm ban đầu (tập hợp cá thể) ngẫu nhiên khơng ngẫu nhiên Có nhiều cách để khởi tạo giá trị quần thể nghiệm ban đầu, tùy toán mà ta lựa chọn phương pháp phù hợp Thông thường, hệ nghiệm ban đầu chọn ngẫu nhiên khơng gian tìm kiếm Tuy vậy, việc chọn cần phải xem xét tương quan độ thích nghi nhiễm sắc thể để tránh tình trạng nghiệm tìm nghiệm tối ưu cục hay gọi cực trị địa phương Còn vấn đề số lượng nghiệm tập nghiệm hay qui mô quần thể cần xem xét kỹ dựa vào độ phức tạp tốn, độ xác u cầu (cao hay thấp) thời gian tính tốn u cầu (nhanh hay chậm) 1.2.1.2.3 Xác định hàm thích nghi Hay hàm lượng giá cho nhiễm sắc thể cho phương án nghiệm tập nghiệm Hàm dùng để đánh giá độ thích nghi nhiễm sắc thể Hàm thích nghi cần phải đánh giá mức độ thích nghi cho tất nghiệm khả thi giả định khơng âm để độ thích nghi cá thể Công thức biểu diễn hàm cần phải thể tất đặc tính mong muốn nhiễm sắc thể, thơng qua chọn lọc quần thể nghiệm tốt cho tốn z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 20 1.2.1.2.4 Q trình lai ghép Đây trình nhiễm sắc thể hình thành dựa nhiễm sắc thể chamẹ cách lai ghép hay nhiều đoạn nhiễm sắc thể cha mẹ với Lai ghép có xét tới đặc tính trội lặn tự nhiên Các đặc tính quy định trước biểu diễn cấu trúc nhiễm sắc thể Bằng việc xem xét tới đặc tính trội-lặn, q trình sản sinh "quần thể chất lượng tốt" nhanh thời gian tính tốn rút ngắn Phép lai ghép xảy với xác suất p1 mô sau: − Chọn hai (hay nhiều) cá thể quần thể Quần thể bao gồm nhiễm sắc thể (cha-mẹ) có độ dài − Chọn điểm lai điểm có vị trí (như nhau) nhiễm sắc thể cha-mẹ thực hoán đổi đoạn gen nhiễm sắc thể cha-mẹ điểm lai − Đưa hai cá thể vào quần thể để thực vào q trình tiến hóa Nhiễm sắc thể cha-mẹ: 1 1 0 1 0 1 0 1 Điểm lai ghép 1 0 Hai nhiễm sắc thể sinh sau trình lai ghép: 1 1 1 0 1 1 0 0 1 0 Hình 1.3: Lai ghép hai cá thể Trong trình tồn phát triển, giải thuật di truyền bổ sung nhiều phương pháp lai ghép để nhằm thích ứng với nhiều kiểu toán để tăng hiệu giải thuật Có thể kể số phép lai cải tiến sau: − Lai ghép phần: Việc giữ lại đoạn mã "tối ưu" nhiễm sắc thể cách để trình lai ghép trở nên hiệu − Lai ghép có trật tự − Lai ghép dựa vị trí − Lai ghép chu trình − Lai ghép thứ tự tuyến tính z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 21 Lai ghép đa điểm: Với phương pháp này, cho cá thể lai ghép hay nhiều điểm lai ghép Phương thức làm cho giải thuật trở nên linh hoạt hơn, nhờ hệ cá thể có chất lượng tốt 1.2.1.2.5 Q trình đột biến Là trình cá thể mang hay số tính trạng khơng có mã di truyền cha-mẹ Quá trình xảy với xác suất p2 (nhỏ nhiều so với p1) mô tả sau: - Chọn ngẫu nhiên cá thể quần thể - Chọn gen cá thể vừa chọn - Thay đổi giá trị gen (đối với cách mã hóa gen theo số nhị phân trình thay đổi giá trị đổi giá trị từ thành từ thành 0) trả quần thể để thực trình Nhiễm sắc thể trước đột biến: 1 1 1 0 1 1 0 1 Điểm tạo đột biến Nhiễm sắc thể sau đột biến: 1 0 Hình 1.4: Đột biến nhiễm sắc thể Tương tự trình lai ghép, trình phát triển giải thuật di truyền bổ sung nhiều cách thức để thực trình gây đột biến ngày hiệu hơn: - Đột biến đảo ngược (Inversion Mutation) - Đột biến chèn (Insertion Mutation) - Đột biến thay (Raplacement Mutation) - Đột biến tương hỗ (Reciprocal Exchange Mutation) - Đột biến dịch chuyển (Shift Mutation) 1.2.1.2.6 Quá trình chọn lọc Quá trình mà cá thể sinh giữ lại hay bị loại bỏ khỏi quần thể dựa vào độ thích nghi chúng Độ thích nghi thường hàm gán giá trị thực cho cá thể quần thể Đối với q trình có nhiều cách để xác định trình tự tính tốn thực tùy vào cách lựa chọn độ thích nghi cá thể nói riêng quần thể nói chung 1.2.1.3 Các tham số giải thuật di truyền − Kích cỡ hệ nghiệm (pop-size): số lượng cá thể thích nghi hệ z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 22 − Xác suất lai tạo (pc): xác suất để cá thể quần thể tham gia trình lai ghép − Xác suất đột biến (pm): xác suất để bit nhiễm sắc thể bị đột biến − Xác suất sinh ngẫu nhiên số cá thể truyền vào hệ Thông thường, kích cỡ quần thể phụ thuộc vào độ phức tạp toán Bài toán phức tạp, nhiều ràng buộc-đơn đa mục tiêu- số lượng cá thể hệ phải lớn Hai thơng số xác suất q trình di truyền có khoảng giá trị khác Đối với xác suất lai tạo, giá trị thường 0,25 [1], giá trị thông thường xác suất đột biến thấp nhiều, khoảng 0,01-0,05 Điều phản ánh xác suất xảy hai trình thực tế 1.2.1.4 Sơ đồ q trình tính tốn giải thuật di truyền Giải thuật di truyền mơ hình hóa theo bước giống lưu đồ hình 1.5 Trong lưu đồ bước thực sau: Bước 1: Khởi tạo/lựa chọn thơng số cho q trình tính tốn: Bước người lập trình tính tốn phải lựa chọn thơng số như: Số lượng cá thể quần thể, cách thức hóa tốn cần tính tốn dạng nhiễm sắc thể (độ dài nhiễm sắc thể, kiểu số biểu diễn liệu,…), số hệ tính tốn, xác suất lai ghép, xác suất đột biến, hàm thích nghi,… Bước 2: Khởi tạo quần thể ban đầu: xác định phương pháp tạo số ngẫu nhiên để tạo giá trị cho nhiễm sắc thể cho quần thể ban đầu Tùy vào cách biểu diễn nhiễm sắc thể mà ta chọn phương pháp tạo số ngẫu nhiên thích nghi Bước 3: Đánh giá nhiễm sắc thể hàm thích nghi xác định bước Trong bước này, việc đánh giá nhiễm sắc thể riêng rẽ, cịn đánh giá độ thích nghi nhiễm sắc thể hay quần thể Nếu nhóm hay quần thể có độ thích nghi "trung bình" (theo tiêu chí trường hợp người lập trình) thấp loại nhóm nhiễm sắc thể hay quần thể khỏi trình di truyền Bước 4: Thực trình di truyền thơng qua chế lai ghép đột biến Có thể thực hai trình thực đồng thời theo phương pháp đề cập bên Trong trình thực giải thuật di truyền, giai đoạn giai đoạn mà người thực theo phương pháp khác Giai đoạn giai đoạn định tới thành z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 23 công giải thuật Người thực đưa phương thức tiến hành lai ghép hay đột biến giai đoạn Trong q trình thực hiện, để có thông số lai ghép hay đột biến hiệu quả, người lập trình thường phải trải qua nhiều bước tính tốn thử Khâu phụ thuộc nhiều vào kinh nghiệm kỹ tính tốn người lập trình Khởi tạo/ lựa chọn thơng số cho q trình tính tốn theo thuật toán di truyền Khởi tạo quần thể ban đầu (tạo chuỗi phương pháp ngẫu nhiên) Đánh giá cá thể hàm thích nghi Thực q trình di truyền thơng qua chế lai ghép đột biến Tạo quần thể q trình chọn lọc Đánh giá quần thể Khơng thỏa mãn Thỏa mãn Kết thúc - in (lưu) kết tính tốn Hình 1.5: Sơ đồ q trình tính toán giải thuật di truyền Bước 5: Tạo quần thể trình chọn lọc Quá trình dựa vào đánh giá nhiễm sắc thể thông qua hàm thích nghi Cá thể có độ thích nghi cao gữ lại cho hệ Cũng giống bước 3, sử dụng hàm thích nghi thích nghi để đánh giá cá thể dơn lẻ hoạc nhóm cá thể Sau q trình này, nhóm cá thể thỏa mã tiêu chuẩn đánh giá với mức độ từ cao xuống thấp dưa vào quần thể z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 24 Bước 6: Đánh giá quần thể vừa có bước Thơng thường có hai tiêu chí để dừng q trình di truyền bước Thứ nhất, độ thích nghi cá thể quần thể thỏa mãn điều kiện hội tụ đặt ban đầu Các điều kiện hội tụ thể mức độ chấp nhận kết tìm Thứ hai, quần thể tạo thành quần thể hệ thứ (N+1) với N số hệ dự định tính toán giả thiết ban đầu Trong thực q trình di truyền, người tính tốn đưa tiêu chí riêng để dừng trình di truyền Các tiêu chí đưa góp phần định tới thành công giải thuật Một số cơng thức tính tốn giải thuật di truyền [1]: Ký hiệu npop_size số cá thể quần thể; tốn có n biến độc lập biến biểu diễn mi(j) bit phương án cần n nx = ∑ mi ( j ) bit để biểu diễn Tương ứng, toàn tốn cần j =1 (npop_size*nx) bit Để có quần thể ban đầu ta chọn ngẫu nhiên npop_size cá thể phạm vi cho phép − Tính độ thích nghi eval(vi ) cho cá thể; vi (i = 1,2,…, npop_size) − Tính tổng giá trị thích nghi cho tồn quần thể: npop _ size ∑ F= (1.1) eval (vi ) i =1 − Tính xác suất lựa chọn pi cho cá thể vi: pi = eval (vi ) (1.2) npop _ size ∑ eval (vi ) i =1 − Tính vị trí xác suất qi cho cá thể vi (i= 1,2,…, npop_size) i qi = ∑ p j (1.3) j =1 − Tính vị trí đột biến: Phát (pm*nx*npop_size) lần số ngẫu nhiên r phân bố khoảng [1, (nx*npop_size)] Nếu r trùng với vị trí tiến hành đột biến bit đó, có nghĩa giá trị bit chuyển thành ngược lại Như GA giải thuật lặp nhằm giải toán tìm kiếm, khác với giải thuật tối ưu thông thường điểm sau: z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 25 − Giải thuật di truyền làm việc với mã tập thông số không làm việc trực tiếp với giá trị thông số − Giải thuật di truyền tìm kiếm song song quần thể khơng tìm kiếm từ điểm, mặt khác nhờ áp dụng tốn tử di truyền, trao đổi thông tin điểm, giảm bớt khả kết thúc cực tiểu địa phương mà khơng tìm thấy cực tiểu tồn cục − Giải thuật di truyền sử dụng thông tin hàm mục tiêu để đánh giá trình tìm kiếm khơng u cầu thơng tin bổ trợ khác − Các luật chuyển đổi giải thuật di truyền mang tính xác suất khơng mang tính tiền định 1.2.2 Giải thuật tiến hóa vi phân 1.2.2.1 Nguyên lý hoạt động Trên sở ý tưởng giải thuật GA, vào năm 1995, Rainer Storn Kenneth Price hoàn thiện chế đột biến lai ghép để tạo giải thuật tin cậy, hiệu Điểm khác biệt lớn DE so với GA ln trì bổ sung cặp véctơ bao gồm (n_popsize) quần thể với (m) chiều tham số thực ứng dụng thành cơng cho nhiều tốn tối ưu lĩnh vực khác [16] 1.2.2.2 Sơ đồ giải thuật tiến hóa vi phân Sơ đồ giải thuật trình bày hình 1.6 [16] Cũng giải thuật GA trình bày trên, giải thuật tiến hố vi phân khởi tạo quần thể điểm ban đầu P(t) theo quy luật ngẫu nhiên phân bố miền xác định tốn sau cho thơng số ban đầu (khối 1, 2) Mỗi phần tử quần thể ban đầu DE thực miền tham số thực với công thức sau: x = rand(0,1) * (BU - BL ) + BL ij ij ij ij (1.4) Trong đó: xij - giá trị phần tử ij với: i - số cá thể xem xét toán; j - số biến toán tối ưu; BUij, BLij - giới hạn giới hạn biến xij; rand (0,1) - số ngẫu nhiên phân bố khoảng [0, 1] Ngay sau trình tạo quần thể ban đầu, khác với GA, giải thuật DE thực ln tiến trình đột biến (khối 3) Trong tiến trình này, DE tiếp tục tạo quần thể đột biến [V] dựa quần thể ban đầu Kỹ thuật đột biến z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 26 giải thuật DE kết hợp hệ số tỷ lệ cho trước trình ngẫu nhiên Phương trình (1.5) biểu diễn giá trị phần tử đột biến vij từ việc tổ hợp ba phần tử khác chọn ngẫu nhiên quần thể ban đầu [X] v =x + F* (x -x ) ij ro,j r1,j r2,j (1.5) Trong đó: r0, r1, r2 - giá trị ngẫu nhiên khác chọn theo luật phân bố khoảng [0, n_popsize]; F - số tỷ lệ F ∈ (0,1) số thực dương điều khiển mức độ tiến hóa quần thể Cho tham số ban đầu Tạo quần thể ban đầu P(t) Đột biến Lai ghép Chọn lọc Tái sinh Sth > t_Max Đúng Sai Sai Eps < [Eps] Đúng Kết thúc In kết Hình 1.6: Sơ đồ giải thuật tiến hóa vi phân z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 27 Trong trình lai ghép (khối 4), DE tiến hành lai ghép theo kiểu cặp đôi (dual crossover) tạo quần thể lai ghép [U] có giá trị tham số lựa chọn ngẫu nhiên từ quần thể [X] [V] ban đầu Kỹ thuật lai ghép sử dụng lập trình DE biểu diễn sau:  v ; if rand(0,1) ≤ C r  ij u = ij  x ; otherwise  ij or j = rand(j) (1.6) Trong đó: Cr - xác suất lai ghép Cr ∈ (0,1) người sử dụng định nghĩa nhằm điều khiển phần tham số chép từ quần thể đột biến Thêm vào giá trị phần tử lai ghép uij với số chọn ngẫu nhiên j = rand(j) lấy từ quần thể đột biến [V] đảm bảo chắn phần tử lai ghép không trùng với phần tử ban đầu xij Trong trình chọn lọc tái sinh (khối 5, 6), cá thể quần thể lai ghép [U] so sánh với cá thể quần thể ban đầu [X] theo hướng cá thể có giá trị hàm mục tiêu thấp lựa chọn vào quần thể [Y] Kỹ thuật lựa chọn DE biểu diễn sau: u ;if f(u ) ≤ f(x ) ij ij  ij y = ij  x ; otherwise  ij (1.7) Quá trình tái sinh thực phép gán [X] = [Y] Điều kiện dừng giải thuật DE dễ dàng thuận tiện Các khối 7, 8, biểu diễn điều kiện kiểm tra dừng xuất kết giải thuật Các giá trị số hệ tiến hố (Sth) giá trị vơ bé (EPS) đưa so sánh với sai lệch q trình tính Biểu thức điều kiện dừng giải thuật DE viết sau: Np ∑ F(x)i F(x)min - i=1 ≤ ε; Np (1.8) Trong đó: F(x)min - giá trị nhỏ hàm mục tiêu hệ xét; F(x)i - giá trị hàm mục tiêu cá thể thứ i; Np(= n_popsize) - tổng số cá thể quần thể xét; ε - giá trị vô bé cho trước (thường chọn = 10-4 ÷ 10-6 tùy theo loại tốn) z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 28 1.3 Kết luận KPDL lĩnh vực trở thành hướng nghiên cứu thu hút quan tâm nhiều chuyên gia CNTT giới Trong năm gần đây, nhiều phương pháp giải thuật liên tục công bố Điều chứng tỏ ưu thế, lợi ích khả ứng dụng thực tế to lớn KPDL Chương trình bày số kiến thức tổng quan KPTT, khái niệm kiến thức KPDL, thuật giải di truyền giải thuật tiến hóa vi phân z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 29 CHƯƠNG GIẢI THUẬT PHÂN CỤM DỰA TRÊN LAI GHÉP GIẢI THUẬT TIẾN HÓA VÀ KMEANS 2.1 Giải thuật phân cụm tính tốn tiến hóa Giải thuật di truyền tìm kiếm ngẫu nhiên kỹ thuật tối ưu hóa theo nguyên tắc tiến hóa di truyền tự nhiên, có lượng lớn số song song tiềm ẩn Giải thuật di truyền thực tìm kiếm mơ hình rộng, phức tạp cung cấp giải pháp gần tối ưu cho đối tượng hàm thích nghi giải pháp tối ưu Trong giải thuật di truyền, thơng số khơng gian tìm kiếm mã hóa dạng chuỗi (được gọi nhiễm sắc thể) Một tập hợp chuỗi gọi quần thể Ban đầu, quần thể ngẫu nhiên tạo ra, đại diện cho điểm khác khơng gian tìm kiếm Hàm mục tiêu hàm thích nghi kết hợp với chuỗi đại diện cho mức độ thích hợp chuỗi Dựa nguyên tắc tồn cho thích hợp nhất, vài chuỗi lựa chọn gán số mà dùng để lai ghép Các phép toán lai ghép sinh học điểm lai ghép đột biến sử dụng cho chuỗi để tạo chuỗi hệ Quá trình lựa chọn, lai ghép đột biến tiếp tục cho số hệ định thỏa mãn điều kiện dừng Các bước giải thuật di truyền cho phân cụm bao gồm khởi tạo đại diện cá thể quần thể, tính tốn độ thích nghi, lựa chọn, lai ghép đột biến Mỗi cá thể đại diện cho đặc điểm không gian nhỏ Độ thích nghi đại diện cho kết phân cụm mà có liên quan đến cá thể đại diện Độ thích nghi lớn hơn, liệu dày đặc kết phân cụm tốt [8] 2.1.1.Giải thuật tổng quát cho phân cụm sử dụng giải thuật di truyền Begin t = Khởi tạo quần thể P(t) Tính tốn độ thích nghi cho P(t) t = t+1 Nếu kết thúc vịng lặp thực bước 10 Lựa chọn P(t) từ P(t-1) Lai ghép P(t) Đột biến P(t) Quay lại bước 10 Đưa kết dừng giải thuật End z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 30 2.1.2 Biểu diễn cá thể Cá thể đại diện phép mã hóa biến đổi giải pháp từ khơng gian giải pháp tới khơng gian tìm kiếm mà xử lý giải thuật di truyền Các cá thể vectơ không gian giải pháp hình thức chuỗi Một cá thể đại diện cho giải pháp cho vấn đề Giải thuật di truyền tìm thấy giải pháp tối ưu, giải pháp tối ưu gần vấn đề sau áp dụng số phép toán di truyền cá thể Có hai phương pháp mã hóa thường sử dụng: mã hóa nhị phân mã hóa số thực Khơng gian tìm kiếm mã hóa nhị phân lớn mã hóa số thực, nhiên việc lai ghép đột biến thuận tiện Quần thể ban đầu khởi tạo ngẫu nhiên Đầu tiên trung tâm K cụm mã hóa nhiễm sắc thể khởi tạo ngẫu nhiên K lựa chọn từ khơng gian ban đầu Sau q trình lặp lặp lại cho cá thể quần thể Cho cụm k đối tượng liệu có khích thước n tương đương với n*k vị trí nhiễm sắc thể Ví dụ: Cho 10 điểm liệu ban đầu P1, P2, ,P10 Tạo quần thể gồm cá thể, cá thể gồm trọng tâm cụm Ta thu quần thể với cá thể tạo ngẫu nhiên gồm cá thể sau: Cá thể 1: [P1, P3, P5] Cá thể 2: [P2, P3, P7] Cá thể 3: [P4, P7, P9] Cá thể 4: [P8, P10, P2] 2.1.3 Tính tốn độ thích nghi Q trình tính tốn độ thích nghi gồm hai giai đoạn: Giai đoạn 1, cụm hình thành theo trung tâm cụm mã hóa nhiễm sắc thể xử lý Sau cụm hình thành, trung tâm cụm mã hóa nhiễm sắc thể thay điểm trung bình cụm tương ứng Các hàm thích nghi định nghĩa chẳng hạn như: f’ = 1/ µ, tối đa hóa hàm chức dẫn tới tối thiểu hóa hàm µ sau [8]: k µ = ∑ µi (2.1) i =1 µi = ∑ x j − zi (2.2) x j ∈ci z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 31 Trong đó, Ci trọng tâm cụm cụm thứ i xj giá trị phần tử thứ j zi giá trị phần tử thứ i k trọng tâm cụm k số cụm cần tạo 2.1.4 Phép chọn (Selection) Quá trình lựa chọn sử dụng để có giải pháp tối ưu cá nhân có độ thích nghi cao Phương pháp lựa chọn sử dụng chế để tập trung tìm kiếm vùng có nhiều thuận lợi khơng gian tìm kiếm Các kiểu thủ tục lựa chọn sau: Roulette Wheel Selection (lựa chọn bánh xe quay vòng) Các nhiễm sắc thể cha mẹ có sác xuất lựa chọn dựa độ thích nghi chúng Trong q trình này, nhiễm sắc thể chiếm vị trí bánh xe quay vịng với kích thước vùng tỷ lệ với độ thích nghi nhiễm sắc thể Khi bánh xe quay ngẫu nhiên, nhiễm sắc thể tương ứng với vị trí bánh xe dừng lại lựa chọn nhiễm sắc thể cha mẹ Quá trình lặp lặp lại cho việc tìm kiếm nhiễm sắc thể cha mẹ khác Hạn chế lựa chọn bánh xe quay vịng cá nhân thích nghi chiếm ưu cao trình lựa chọn dẫn đến giảm đa dạng hội tụ sớm Rank Selection (lựa chọn thứ hạng) Sắp xếp nhiễm sắc thể theo độ thích nghi lựa chọn nhiễm sắc thể dựa thứ hạng Với quy trình này, tất nhiễm sắc thể có hội tốt để lựa chọn Tuy nhiên, phương pháp có tốc độ hội tụ chậm so với phương pháp tiếp cận bánh xe quay vòng Tournament selection (lựa chọn loại dần) Một tập hợp nhiễm sắc thể lựa chọn ngẫu nhiên Nhiễm sắc thể thích hợp từ tập hợp đặt vào vị trí chuẩn bị lai ghép Q trình lặp lặp lại đủ số lượng nhiễm sắc thể để thực lai ghép Elitism Trong phương pháp này, nhiễm sắc thể thích hợp người dụng định số nhiễm sắc thể đặc biệt chép vào quần thể Các nhiễm sắc thể lại lựa chọn phép tốn lựa chọn Từ z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 32 mà giải pháp tối ưu giải thuật di truyền không bị giảm hiệu suất nhiều cải thiện đáng kể 2.1.5 Crossover (lai ghép) Crossover xác suất trình trao đổi thông tin hai nhiễm sắc thể bố mẹ để tạo hai nhiễm sắc thể Nó tăng tốc tìm kiếm sớm q trình tiến hóa quần thể Crossover xảy với xác suất người dùng định, gọi xác suất lai ghép pc Một số phép toán lai ghép: Single Point Crossover (Lai ghép điểm) Trong phương pháp này, vị trí lựa chọn ngẫu nhiên mà nhiễm sắc thể cha mẹ chia thành hai phần Các phần nhiễm sắc thể trao đổi vị trí tạo hai nhiễm sắc thể Nhiễm sắc thể Cha-mẹ Nhiễm sắc thể A: 11001010 11001011 B: 01110011 01110010 Hình 2.1: Lai ghép điểm Two Point Crossover (Lai ghép hai điểm) Trong phương pháp này, hai vị trí lựa chọn ngẫu nhiên Các thành phần hai cha mẹ sau trao đổi để tạo hai Nhiễm sắc thể Cha-mẹ Nhiễm sắc thể A: 11001010 11110010 B: 01110011 01001011 Hình 2.2: Lai ghép điểm Uniform Crossover (Lai ghép đồng nhất) Trong phương pháp này, gen chép từ hai cha mẹ với xác suất thường 0,5 làm mặt nạ sử dụng cho lai ghép Các giá trị tạo theo bit định mặt nạ từ A từ B z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 33 Mặt nạ lai ghép: 11001010 Nhiễm sắc thể Cha-mẹ Nhiễm sắc thể A: 11001010 11111011 B: 01110011 01000010 Hình 2.3: Lai ghép đồng 2.1.6 Mutation (Đột biến) Thông thường đột biến thay đổi cấu trúc nhiễm sắc thể cách đảo bit ngẫu nhiên vị trí Nó thay đổi giá trị gen vị trí lựa chọn ngẫu nhiên Đột biến làm tăng tính đa dạng di truyền cách làm cho giải thuật phải tìm kiếm khu vực khác với trọng tâm Đối với biểu diễn nhị phân nhiễm sắc thể, vị trí bit đột biến cách đơn giản lật giá trị Mặt khác số δ đoạn [0, 1] tạo với phân bố đồng Nếu giá trị gen vị trí v, sau đột biến trở thành: (2.3) Nếu khởi tạo quần thể biểu diễn theo số thực giá trị nhiễm sắc thể vị trí i đột biến theo cách sau: xi = xi ± rand(0,1)* xi (2.4) đó, xi: giá trị vị trí đột biến i nhiễm sắc thể rand(0, 1): lấy ngẫu nhiên số thực nằm khoảng từ đến Các vị trí đột biến v (đối với biểu diễn cá thể bit), i (đối với biểu diễn cá thể số thực) thực đột biến vị trí cá thể vị trí đột biến không giống nhau; cá thể quần thể thống đột biến vị trí định sẵn Ngồi ra, cịn có nhiều cách đột biến số thực khác tùy thuộc vào toán cụ thể kinh nghiệm người thực toán z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 34 2.1.7 Kmeans sử dụng giải thuật di truyền Input: Số cụm k, kích thước quần thể, tập liệu D chứa n đối tượng, số hệ muốn tạo tMax Output: Một tập hợp K cụm Begin Bước 1: Khởi tạo Mỗi nhiễm sắc thể tạo cách chọn ngẫu nhiên k phần tử tập liệu để làm k trọng tâm cụm Bước 2: For t =1 to tMax 1, Đối với nhiễm sắc thể a, Đưa phần tử D vào cụm với trọng tâm cụm gần b, Tính tốn lại k trọng tâm cụm trung bình k cụm vừa tạo thay vào nhiễm sắc thể c, Tính tốn độ thích nghi cho nhiễm sắc thể 2, Tạo hệ nhiễm sắc thể sử dụng phép toán lựa chọn, lai ghép đột biến 3, Sắp xếp cá thể sau đột biến theo thứ hạng (Chọn cá thể có độ thích nghi tốt nhất) Bước 3: In kết Tách k cụm nhiễm sắc thể quần thể hệ tạo sau có độ thích nghi lớn Điều kiện dừng: Lặp lại bước hệ t = tMax End Nhìn vào bước giải thuật ta thấy, khởi tạo ngẫu nhiên k phần tử tập liệu để làm k trọng tâm cụm có trường hợp nhiễm sắc thể có trọng tâm cụm trùng Giả sử giải thuật chạy hệ vị trí trọng tâm cụm trùng khơng bị đột biến hay lai ghép kết thu số cụm trùng Vì vậy, bước ta khởi tạo ngẫu nhiên k phần tử không cho phần tử trùng nhiễm sắc thể Để tính tốn độ thích nghi cho nhiễm sắc thể tại, ta sử dụng cơng thức (2.1), (2.2) Độ thích nghi lớn nhiễm sắc thể tức tổng khoảng cách từ trọng tâm cụm nhiễm sắc thể tới điểm liệu ban đầu nhỏ so với nhiễm sắc thể khác z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 35 2.1.8 Minh họa phân cụm Kmeans sử dụng giải thuật di truyền Cho liệu gồm đối tượng liệu chiều x, y bảng 2.1 Đối tượng liệu X Y 10 10 20 12 24 30 20 12 22 18 Bảng 2.1: Bộ liệu số nguyên gồm phần tử Cho số lượng cá thể quần thể yêu cầu tách làm cụm cá thể chọn ngẫu nhiên từ liệu Với cá thể có phân tách cụm cập nhập lại trọng tâm cụm Sau giá trị thích nghi tính tốn tổng khoảng cách từ trọng tâm cụm tới điểm liệu tương ứng thuộc cụm Xem bảng 2.2 Khởi tạo nhiễm sắc thể Xcen Ycen Xcen Ycen 1 2 Các trọng tâm cụm thu (*) Xcen1 Ycen1 Xcen2 Ycen2 Giá trị thích nghi 10 10 20 12 14 22 20 33.74481 24 30 20 15.33333 16 14.66667 18 53.4512 12 22 18 14 22 20 33.74481 10 10 20 12 11.33333 18 22.66667 41.63504 Bảng 2.2: Khởi tạo nhiễm sắc thể tính độ thích nghi (*): Tổng khoảng cách từ trọng tâm cụm tới cụm liệu tương ứng Các cá thể thu cách xếp theo thứ hạng, sử dụng lai ghép điểm đột biến trọng tâm Xem bảng 2.3 Bây nhiễm sắc thể áp dụng đầu vào cho hệ thứ hai tính tốn giá trị thích nghi cho nhiễm sắc thể Sau lại áp dụng lựa chọn, lai ghép đột biến để thu tập hợp nhiễm sắc thể cho hệ thứ Những bước thực lặp lại thỏa mãn điều kiện dừng Điều kiện dừng ví dụ hệ thứ Xem bảng 2.4 bảng 2.5 z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 36 Sắp xếp, lựa chọn theo thứ hạng Xcen Ycen Xcen Ycen 1 2 14 22 Lai ghép điểm Đột biến Xcen Ycen Xcen Ycen Xcen Ycen Xcen Ycen 14 22 20 14 22 11.163 22 20 14 22 12.935 11.333 14.666 15.235 16 18 7.3521 20 14 22 20 14 12 11.333 18 22.666 12 11.333 14.666 18 12 15.333 16 14.666 18 15.333 16 18 22.666 15.333 Bảng 2.3: Các nhiễm sắc thể thu cách sử dụng lựa chọn, lai ghép đột biến Khởi tạo nhiễm sắc thể Các trọng tâm cụm thu (*) Giá trị thích nghi Xcen1 Ycen1 Xcen2 Ycen2 Xcen1 Ycen1 Xcen2 Ycen2 14 22 11.163 14 22 20 33.74481 14 22 12.935 14 22 20 33.74481 12 11.333 14.666 15.235 5.33333 7.33333 24.6666 26.6666 50.8914 15.333 16 18 7.3521 23.3333 30 6.66666 59.23666 Bảng 2.4: Các nhiễm sắc thể đầu vào độ thích nghi cho hệ thứ Khởi tạo nhiễm sắc thể Các trọng tâm cụm thu Xcen1 Ycen1 Xcen2 Ycen2 Xcen1 Ycen1 14 22 36.8774 22 14 22 23.4780 5.33333 7.33333 6.66666 4.6832 23.3333 30 24.6666 53.1812 (*) Giá trị thích nghi Xcen2 Ycen2 24 10 39.31851 14 22 20 33.74481 24.6667 26.6667 5.3 7.3 50.89 15.33 16 14.67 18 53.4512 Bảng 2.5: Các nhiễm sắc thể đầu vào độ thích nghi cho hệ thứ Sau thỏa mãn điều kiện dừng, cá thể có giá trị thích nghi thấp chọn thực phân tách cụm cá thể Trong ví dụ ta thu cụm c1(1,4,5) c2(2,3,6) với Centroid1=(8, 14) Centroid 2=(22, 20) z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 37 2.1.9 Phân cụm Kmeans sử dụng giải thuật tiến hóa vi phân Input: Số cụm k, kích thước quần thể, tập liệu D chứa n đối tượng, số hệ muốn tạo tMax Output: Một tập hợp K cụm Begin Bước : Khởi tạo Mỗi phần tử quần thể ban đầu DE thực miền tham số thực với công thức (1.4) k trọng tâm cụm Bước 2: For t =1 to tMax 1, Đối với nhiễm sắc thể a, Đưa phần tử D vào cụm với trọng tâm cụm gần b, Tính tốn lại k trọng tâm cụm trung bình k cụm vừa tạo thay vào nhiễm sắc thể c, Tính tốn độ thích nghi cho nhiễm sắc thể 2, Tạo hệ nhiễm sắc thể sử dụng phép toán đột biến, lai ghép, chọn lọc tái sinh biểu thức (1.5); (1.6); (1.7) Trong q trình tái sinh, tính tốn độ thích nghi cho nhiễm sắc thể so sánh với độ thích nghi nhiễm sắc thể ban đầu Cá thể có độ thích nghi lớn đưa vào quần thể Bước 3: In kết Tách k cụm nhiễm sắc thể quần thể hệ tạo sau có độ thích nghi lớn Điều kiện dừng: Lặp lại bước hệ t = tMax Hoặc hệ, kiểm tra theo biểu thức (1.8), thỏa mãn điều kiện dừng giải thuật End Dựa vào giải thuật phân cụm Kmeans sử dụng giải thuật tiến hóa vi phân ta thấy, giải thuật giống giải thuật Kmean dựa giải thuật di truyền giải thuật có thêm điều kiện dừng giải thuật hệ xét thỏa mãn biểu thức (1.8) Để tính tốn độ thích nghi cho nhiễm sắc thể tại, ta sử dụng công thức (2.1), (2.2) z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 38 2.2 So sánh giải thuật Kmeans Kmeans sử dụng giải thuật di truyền Kmeans sử dụng giải thuật di truyền (GA) Phân cụm Kmeans Phương pháp phân hoạch Phương pháp tiến hóa Đầu vào: K, Dữ liệu, Quần thể P, Chọn Đầu vào: K, Dữ liệu, k trọng tâm cụm nhiễm sắc thể P ngẫu nhiên, số hệ ngẫu nhiên tmax Mục tiêu: Tối thiểu hóa khoảng cách từ Mục tiêu: Tối thiểu hóa tổng bình điểm liệu tới trọng tâm cụm phương khoảng cách Điều kiện dừng: Khơng có thay đổi Điều kiện dừng: Số hệ lớn trọng tâm cụm Giải thuật phân cụm có tính tối ưu cục Giải thuật di truyền dựa phương pháp tìm kiếm tồn cục Độ phức tạp tính tốn: O(n*k*d*i) Độ phức tạp tính tốn: n: Số điểm liệu O(tmax*p*n*d*k) k: Số cụm n: Số điểm liệu d: Kích thước liệu p: Kích thước quần thể i: Số vịng lặp d: Kích thước liệu k: Số cụm tmax: Số hệ lớn Đối với giải thuật Genetic Kmean giải thuật DE Kmean đặc điểm giống chỗ phương pháp tiến hóa, mục tiêu tối thiểu hóa khoảng cách từ điểm liệu tới trọng tâm cụm hệ Nhưng giải thuật DE Kmean dừng giải thuật hệ xét thỏa mãn điều kiện (1.8) 2.3 Kết luận Phân cụm với giải thuật Kmean thể tính chất tối ưu cục Vì giải thuật tính lại trọng tâm cụm mà khơng có thay đổi trọng tâm cụm giải thuật dừng lại, khoảng cách từ trọng tâm cụm tới điểm liệu chưa nhỏ Còn giải thuật Genetic K.mean ln ln tối thiểu hóa khoảng cách từ điểm liệu tới trọng tâm cụm giải thuật z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 39 phải duyệt qua hết hệ yêu cầu Với giải thuật DE Kmean ln tối thiểu hóa khoảng cách từ điểm liệu tới trọng tâm cụm giải thuật khơng hồn tồn phải duyệt qua hệ yêu cầu Hơn nữa, so hình dạng cụm khám phá giải thuật Kmeans có ưu điểm khám phá cụm hình cầu, cịn giải thuật GA Kmeans DE Kmeans khám phá cụm có hình dạng đa dạng có đột biến q trình phân tách cụm z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 40 CHƯƠNG CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 Chuẩn bị liệu Chương trình thực Demo hai liệu: Bộ liệu tự sinh liệu Northwind có sẵn SQLServer 2005 Chương trình thực nghiệm với liệu có kiểu liệu số - Bộ liệu tự sinh: Dữ liệu trường dạng số Chương trình thực Demo liệu này, đồng thời mô trục tọa độ đề XOY Nội dung liệu thực Demo bảng 3.1: Bảng 3.1: Bộ liệu tự sinh có trường liệu - Bộ liệu Northwind SQLServer: Sử dụng bảng Customers, bảng có 91 ghi thơng tin khách hàng Chương trình thực phân cụm liệu có nhiều trường, nhiều kiểu liệu khác Bảng 3.2: Bộ liệu Customers Northwind z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 41 Chương trình chạy thử nghiệm trường hợp: Trường hợp 1: Các NST giải thuật Genetic Kmean DE Kmean chọn hoàn toàn ngẫu nhiên Trường hợp 2: NST giải thuật Genetic Kmean DE Kmean tạo phải thỏa mãn giá trị cho trước Trường hợp NST hai thuật thoán gán kết Kmean Và trình di truyền chọn NST có giá trị thích nghi lớn giá trị thích nghi giải thuật Kmean gán vào giải thuật Genetic Kmean DE Kmean 3.2 Kết phân tích 3.2.1 Thí nghiệm giải thuật Kmeans, Genetic Kmean DE Kmean 3.2.1.1 Thí nghiệm giải thuật Kmeans Với liệu tự sinh, thực test với số cụm thay đổi từ đến 12 thực test với số lần 10 Sau test xong, thu kết bảng 3.3 Trong đó, giao số lần test Số cụm trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 10 lần chạy thử nghiệm Số cụm Số lần test 10 11 12 134,44 77.35 56.61 46.93 38.43 32.14 27.53 18.20 12.84 12.72 4.24 134,44 75.53 66.96 56.93 42.32 30.83 27.33 21.98 13.80 8.26 4.47 134,44 77.35 62.78 53.83 44.35 34.08 29.21 18.20 13.96 10.80 4.47 134,44 77.35 65.75 55.49 42.32 30.29 24.59 16.00 11.76 9.57 4.12 134,44 75.53 58.32 52.76 37.72 35.07 28.78 17.85 12.29 9.34 3.16 134,44 75.53 56.61 49.82 39.44 35.07 26.05 19.06 15.88 10.57 4.12 134,44 77.35 65.88 56.56 38.32 35.94 24.50 18.08 12.29 10.57 6.32 134,44 77.35 63.55 58.72 41.27 27.75 23.30 17.85 13.73 8.37 4.24 134,44 77.35 56.61 49.82 41.27 32.37 29.61 16.00 15.79 9.57 4.47 10 134,44 75.53 62.78 50.83 42.32 34.38 23.51 16.98 12.50 8.71 3.16 Trung bình 134,44 76.62 61.59 53.17 40.78 32.79 26.44 18.02 13.48 9.85 4.28 Bảng 3.3: Kết thử nghiệm với giải thuật Kmeans z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 42 Nhận xét: Dựa vào kết bảng 3.3, ta thấy: - Với số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị lớn Vì phải tính tổng khoảng cách tất điểm cụm tới trọng tâm cụm - Với số cụm 12 tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị nhỏ Vì lúc điểm trọng tâm cụm nó, tổng khoảng cách tất điểm - Với số cụm lớn tổng khoảng cách tất điểm cụm tới trọng tâm cụm nhỏ - Kết lần phân cụm khác hay không thống nhất, trừ trường hợp số cụm (số cụm nhất) số cụm 12 (số cụm nhiều nhất) 3.2.1.2 Thí nghiệm giải thuật Genetic Kmean Với liệu tự sinh, thực test với số cụm thay đổi từ đến 12; số hệ test 10; số cá thể quần thể 6; thực test với số lần 10 Sau test xong, thu kết bảng 3.4 Trong đó, giao Trung bình 10 lần chạy trường hợp Số cụm trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 10 lần chạy thử nghiệm Trung bình 10 lần Số cụm 10 11 12 Trường hợp 134,44 75.89 57.72 47.82 37.23 30.47 23.29 17.22 12.51 7.63 3.38 Trường hợp 134,44 71.95 52.82 43.22 35.42 28.53 22.26 16.28 11.20 6.97 3.16 chạy Bảng 3.4: Kết thử nghiệm với giải thuật Genetic Kmean Với số cụm =1, cụm =12, qua lần test tổng khoảng cách từ trọng tâm cụm tới điểm liệu không thay đổi giải thuật phải chạy qua hết hệ z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 43 Nhận xét: Dựa vào kết bảng 3.4, ta thấy: - Với số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị lớn Vì phải tính tổng khoảng cách tất điểm cụm tới trọng tâm cụm Nhưng chương trình phải chạy qua hết hệ định trước - Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới thành viên cụm trường hợp có nhiều giá trị nhỏ trường hợp 3.2.1.3 Thí nghiệm giải thuật DE Kmean Với liệu tự sinh, thực test với số cụm thay đổi từ đến 12; số hệ test 10; số cá thể quần thể 6; thực test với số lần 10 Sau test xong, thu kết bảng 3.5 Trong đó, giao Số lần test Số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu Trung bình 10 lần chạy Trường hợp Trường hợp Số cụm 10 11 134.44 76.16 57.24 46.93 38.67 29.26 24.22 17.86 13.38 8.68 4.12 134.44 71.95 52.56 42.97 34.68 27.90 21.07 16.65 11.73 7.82 4.04 12 Bảng 3.5: Kết thử nghiệm với giải thuật DE Kmean Nhận xét: Dựa vào kết bảng 3.5, ta thấy: - Với số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị lớn Vì phải tính tổng khoảng cách tất điểm cụm tới trọng tâm cụm Nhưng chương trình khơng phải chạy qua hệ định trước - Giải thuật dừng hệ xét thỏa mãn yêu cầu Epsilon theo biểu thức (1.5) z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 44 - Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới thành viên cụm trường hợp có nhiều giá trị nhỏ trường hợp 3.2.1.4 Thí nghiệm giải thuật Kmean, Genetic Kmean, DE Kmean với Northwin Bằng cách thí nghiệm tương tự mục 3.2.1.1, 3.2.1.2, 3.2.1.3 sử dụng liệu Northwin với bảng Customers kết thu khác tổng trung bình khoảng cách từ trọng tâm cụm tới điểm liệu Trung bình khoảng cách từ trọng tâm cụm tới điểm liệu Genetic Kmean DE Kmean nhỏ so với Kmean Thời gian chạy chương trình Genetic Kmean DE Kmean lâu so với Kmean Nhưng thời gian chạy DE Kmean nhanh so với Genetic Kmean DE Kmean dừng hệ xét thõa mãn điều kiện Epsilon Trung bình lần chạy Kmean Genetic Kmean DE Kmean Trường hợp 4727295589 4741303553 4986328630 Trường hợp 4715671225 4673201339 4663873523 Bảng 3.6: Kết thử nghiệm giải thuật với số cụm Nhận xét: Dựa vào kết bảng 3.6, ta thấy: - Trong trường hợp 1, giải thuật Genetic Kmean DE Kmean có chọn cá thể tốt để phân tách cụm nhìn chung giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu lớn so với giải thuật Kmeans - Trong trường hợp 2, giải thuật Genetic Kmean DE Kmean chọn cá thể tốt để phân tách cụm giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu nhỏ so với giải thuật Kmean - Giải thuật DE Kmean có kết thay đổi rõ ràng Tổng khoảng cách từ trọng tâm cụm tới điểm liệu nhỏ nhiều so với DE Kmean trường hợp nhỏ so với giải thuật Genetic Kmean z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 45 3.2.2 Phân tích kết Tổng hợp kết Bảng 3.3, Bảng 3.4 Bảng 3.5, ta kết sau: Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 160 Hình a 140 120 100 Kmean 80 Genetic Kmean DE Kmean 60 40 20 10 11 Số cụm Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 160 Hình b 140 120 100 Kmean 80 Genetic Kmean DE Kmean 60 40 20 10 11 Số cụm Biểu đồ 3.1: Tổng hợp kết giải thuật với giá trị trung bình trường hợp (hình a) trường hợp (hình b) z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 46 Nhận xét: - Dựa vào biểu đồ, ta thấy trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Kmean lớn so với giải thuật Genetic Kmean giải thuật DE Kmean Và vậy, giải thuật Genetic Kmean DE Kmean phân tách cụm có độ thích nghi cao so với giải thuật Kmean - Giải thuật Genetic Kmean giải thuật DE Kmean gần có trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu xấp xỉ Và giải thuật DE Kmean có giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu thấp so với giải thuật Genetic Kmean chút - Đối chiếu hình a hình b biểu đồ 3.1, ta thấy khoảng cách đường biểu diễn trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Kmean không thay đổi, đường biểu diễn giải thuật Genetic Kmean DE Kmean có thay đổi thấp đường biểu diễn giải thuật Kmean nhiều Trong trường hợp 1, giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Genetic Kmean DE Kmean khơng ổn định, phải phụ thuộc vào q trình khởi tạo NST ngẫu nhiên, tạo nên NST có giá trị thích nghi cao thấp so với giải thuật Kmean Trong trường hợp 2, giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Genetic Kmean DE Kmean ổn định nhiều, giá trị thích nghi thu ln lớn so với Kmean Để đạt điều này, giải thuật cài đặt thêm bước: Gán giá trị trọng tâm cụm giải thuật Kmean cho NST quần thể trình tạo quần thể (Nếu khởi tạo NST mà so sánh thỏa mãn điều kiện độ thích nghi NST lớn độ thích nghi Kmean độ phức tạp thời gian xử lý lớn) 3.3 Đánh giá kết thử nghiệm chung Qua kết thử nghiệm giải thuật trên, ta thấy cụm liệu kiểu số với số thuộc tính nhỏ giải thuật GA Kmean DE Kmean cho kết tối ưu so với Kmean Song sử dụng giải thuật GA DE kết hợp với Kmean nên giải thuật GA Kmean DE Kmean không tránh khỏi số giới hạn Kmean như: Kmean áp dụng với liệu có thuộc tính số khám hình cầu, k-means cịn nhạy cảm với nhiễu phần tử ngoại lai liệu Nhưng giải thuật làm giảm số hạn chế z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 47 Kmean, hình dạng cụm đa dạng bớt nhạy cảm với nhiễu nhờ trình lai ghép, đột biến, chọn lọc giải thuật di truyền Trong hệ giải thuật di truyền, số cá thể quần thể lớn có nhiều lựa chọn cho trình di truyền Và số lượng hệ ảnh hưởng tới trình di truyền Nếu số lượng hệ nhỏ không phát huy hết ưu điểm giải thuật di truyền, số lượng hệ lớn làm tăng mức độ phức tạp giải thuật z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 48 KẾT LUẬN A Những nội dung luận văn Trong chương 1: ♦ Giới thiệu khái niệm sở lý thuyết khai phá liệu, khai phá tri thức ♦ Giới thiệu khái niệm giải thuật di truyền lập trình tiến hóa ♦ Trình bày sơ lược giải thuật di truyền giải thuật tiến hóa vi phân: Các trình giải thuật di truyền, tham số giải thuật di truyền, lưu đồ giải thuật Trong chương 2: ♦ Tìm hiểu giải thuật chung cho việc kết hợp giải thuật phân cụm sử dụng giải thuật tiến hóa, cụ thể giải thuật di truyền giải thuật tiến hóa vi phân ♦ So sánh giải thuật phân cụm cụ thể Kmeans giải thuật phân cụm Kmeans có sử dụng giải thuật di truyền giải thuật tiến hóa vi phân Trong chương 3: ♦ Xây dựng chương trình chạy thử nghiệm để kiểm tra giải thuật phân cụm Kmeans giải thuật phân cụm Kmeans sử dụng giải thuật di truyền ♦ Tiến hành chạy thử nghiệm liệu kiểu số Trong liệu tự sinh liệu CSDL Northwind SQL Server 2005 ♦ Tiến hành chạy thử nghiệm với 10000 điểm liệu ngẫu nhiên phân cụm ảnh z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 49 B Các kết đạt Sau thời gian thực đề tài với nỗ lực, cố gắng thân với hướng dẫn nhiệt tình PGS.TS Bùi Thu Lâm, luận văn thu số kết sau:  Trình bày khái niệm sở lý thuyết khai phá liệu, khai phá tri thức, tính tốn tiến hóa  Giới thiệu giải thuật chung cho giải thuật phân cụm sử dụng giải thuật di truyền giải thuật tiến hóa vi phân  Thực cài đặt thử nghiệm giải thuật phân cụm Kmeans giải thuật Kmeans sử dụng giải thuật di truyền giải thuật tiến hóa vi phân với liệu chiều, ảnh bảng CSDL với thuộc tính khác C Hướng nghiên cứu Trên sở kết đạt được, tiếp tục nghiên cứu số vấn đề sau:  Tiếp tục nghiên cứu số giải thuật phân cụm sử dụng giải thuật di truyền giải thuật tiến hóa vi phân  Xây dựng tiếp chương trình chạy thử nghiệm giải thuật phân cụm giải thuật phân cụm có sử dụng tính tốn tiến hóa  Tìm thêm cách thức ứng dụng giải thuật vào thực tiễn Mặc dù cố gắng thời gian hiểu biết lĩnh vực khai phá liệu hạn chế nên luận văn không tránh khỏi khiếm khuyết định Trong tương lai, em cố gắng để khắc phục hạn chế, tiếp tục nghiên cứu vấn đề nêu Rất mong nhận ý kiến đóng góp q thầy độc giả để luận văn hoàn thiện z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 50 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Đình Thúc (2000), Trí tuệ nhân tạo - Lập trình tiến hóa, NXB Giáo dục Tài liệu tiếng Anh [2] Ho Tu Bao, Knowledge Discovery and Data mining, 2000 [3] J Han, M Kamber, and Jian Pei (2011) Data Mining: Concepts and Techniques (3rd edition), Morgan Kaufmann [4] Rui Xu, Survey of Clustering Algorithms, IEEE transactions on neural networks, vol 16, no 3, may 2005 [5] Eduardo R Hruschka, Ricardo J G B Campello, Alex A Freita, André C P L F de Carvalho, A Survey of Evolutionary Algorithms for Clustering, To appear in IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews [6] David A.Coley, an introduction to genetic algorithms for scientists and enginer, Copyright Q 1999 by World Scientific Publishing Co Pte Ltd [7] Ujjwal Maulik, Sanghamitra Bandyopadhyay, Genetic algorithm-based clustering technique, Pattern Recognition 33 (2000) 1455-1465 [8] Rajashree Dash and Rasmita Dash, comparative analysis of k-means and genetic algorithm based data clustering, International Journal of Advanced Computer and Mathematical Sciences, ISSN 2230-9624 Vol 3, Issue 2, 2012, pp 257-265 [9] Bashar Al-Shboul, and Sung-Hyon Myaeng, Initializing K-Means using Genetic Algorithms, World Academy of Science, Engineering and Technology 54 2009 [10] K Krishna and M Narasimha Murty, Genetic K-Means Algorithm, IEEE transactions on systems, man, and cybernetics—part b: cybernetics, vol 29, no 3, june 1999 [11] Kenneth Price, Rainer Storn, Jouni Lampinen, Differiential Evolution A Practical Approach to Global Optimization, Springer, Verlag, 2005 z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

Ngày đăng: 06/09/2023, 00:15

Tài liệu cùng người dùng

Tài liệu liên quan