Giải thuật di truyền GA Clustering

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	35
Dung lượng	7,42 MB

Nội dung

Tìm kiếm với giải thuật di truyền, ứng dụng của giải thuật di truyền, Giải thuật di truyền GA Clustering, tìm kiếm ngẫu nhiên với giải thuật di truyền, lai ghép và đột biến trong giải thuật di truyền,mã hóa trong giải thuật di truyền.

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - BÀI TẬP NHÓM KỸ THUẬT PHÂN CỤM DỰA TRÊN GIẢI THUẬT DI TRUYỀN Chuyên ngành Giảng viên Lớp Nhóm : Hệ thống thông tin : T.S Vũ Văn Thỏa : M18CQIS01-B :4 Nguyễn Văn Tiến Hoàng Văn Thắng Thân Xuân Sơn Trần Đình Tân Vương Minh Việt Hà Nội, Tháng - 2018 BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - BÀI TẬP NHÓM KỸ THUẬT PHÂN CỤM DỰA TRÊN GIẢI THUẬT DI TRUYỀN Chuyên ngành Giảng viên Lớp Nhóm : Hệ thống thông tin : T.S Vũ Văn Thỏa : M18CQIS01-B :4 Nguyễn Văn Tiến Hoàng Văn Thắng Thân Xuân Sơn Trần Đình Tân Vương Minh Việt Hà Nội, Tháng - 2018 Phân tích 1.1 Phân tích tốn Trong năm gần đây, phát triển mạnh mẽ công nghệ thông tin ngành công nghiệp phần cứng làm cho khả thu thập lưu trữ thông tin hệ thống thơng tin tăng nhanh cách chóng mặt Bên cạnh việc tin học hóa cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho hệ thống sở liệu khổng lồ Hệ thống đem lại lợi ích vô to lớn cho người việc lưu trữ, tìm kiếm thống kê Tuy vậy, bùng nổ dẫn tới nhu cầu phát tri thức từ kho liệu khổng lồ Đây vấn đề phức tạp, cần phải có cơng cụ kỹ thuật xử lý linh hoạt suy nghĩ người Trong ngành khoa học máy tính, tìm kiếm lời giải tối ưu cho toán vấn đề nhà khoa học máy tính đặc biệt quan tâm Mục đích thuật tốn tìm kiếm thuật giải chất lượng cao sử dụng kỹ thuật trí tuệ nhân tạo đặc biệt cần thiết giải tốn có khơng gian tìm kiếm lớn Thuật toán di truyền (Genetic Algorithm - GA) kỹ thuật tìm kiếm lời giải tối ưu đáp ứng yêu cầu nhiều toán ứng dụng Theo nghiên cứu cho thấy chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc CSDL Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc CSDL, cách thức biểu diễn khác có thuật tốn phân cụm thích nghi Vì phân cụm liệu vấn đề cách trọn vẹn thích nghi với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn KPDL Một điểm khác hàm mục tiêu thuật toán phân cụm K-means thường tồn nhiều điểm tối ưu cục Do mà ta tập trung vào tìm hiểu “Kỹ thuật phân cụm sở thuật toán di truyền”; kỹ 19 thuật tiến hóa thiết kế để khắc phục tính chất cục thuật tốn phân cụm 1.2 Yêu cầu kết cần đạt Mục tiêu báo đưa phương pháp phân cụm không chịu chi phối liệu xem xét, đó, nêu mục 1, cần phải đơn giản thuật tốn K-means Mặt khác, khơng nên chịu giới hạn thuật tốn K-means biết đến để cung cấp phân cụm tối ưu phụ thuộc vào lựa chọn cụm khởi tạo Những nguyên tắc thuật toán Kmeans tận dụng để xây dựng kỹ thuật vậy, với khả GAs cho việc cung cấp nhiễu loạn điều kiện cần thiết để mang đến điều kiện địa phương tốt Qua kết thực nghiệm thuật toán trên, ta thấy cụm liệu kiểu số số thuộc tính nhỏ thuật tốn GA-clustering cho kết tối ưu so với K-mean Song sử dụng thuật toán GA kết hợp với K-mean nên thuật toán GA-clustering không tránh khỏi số giới hạn K-mean như: K-mean áp dụng với liệu có thuộc tính số khám hình cầu, K-mean nhạy cảm với nhiễu phần tử ngoại lai liệu Nhưng thuật toán làm giảm số hạn chế K-mean, hình dạng cụm đa dạng bớt nhạy cảm với nhiễu nhờ trình lai ghép, đột biến, trọn lọc thuật toán di truyền Trong hệ thuật toán di truyền, số cá thể quần thể lớn có nhiều lựa chọn cho trình di truyền Và số lượng hệ ảnh hưởng tới trình di truyền Nếu số lượng cá thể nhỏ khơng phát huy hết ưu điểm thuật tốn di truyền, số lượng hệ lớn làm tăng mức độ phức tạp thuật tốn Tóm lại, sau thực nghiệm thuật toán K-means GA-clustering Kết K-means ln có số cụm số cụm ban đầu muốn tạo kết kết hồn tồn xác, mang tính chất tối ưu 20 cục Kết GA-clustering khơng hồn tồn trả số cụm số cụm ban đầu muốn tạo, thể kết mang tính chất tối ưu Thuật tốn tác giả lựa chọn Từ mục tiêu đề xuất kỹ thuật phân cụm dựa GAs, tiêu chí u cầu cần tối ưu hóa để đưa cụm cuối Một tiêu chí trực giác đơn giản cụm lan truyền thuật toán K-means cần phải giảm thiểu tối đa để phân cụm tốt Tuy nhiên, khơng giống thuật tốn K- means bị sa lầy giá trị mà tối ưu, kỹ thuật đề xuất nên cung cấp kết tốt bất chấp hình dạng xuất phát Để hướng tới mục tiêu này, tác giả tích hợp đơn giản thuật toán K-means với khả GAs việc tránh điều kiện địa phương tốt để phát triển thuật toán di truyền dựa kỹ thuật phân cụm gọi thuật toán di truyền phân cụm (GA-clustering) Nó biết mơ hình tinh hoa GAs cung cấp chuỗi tối ưu hóa số lần lặp đến vô khả từ tập hợp đến chuỗi tối ưu lớn Vì vậy, điều kiện hạn chế, kỹ thuật phân cụm dựa GA hứa hẹn cung cấp cụm tối ưu hóa số liệu phân nhóm xem xét 2.1 Thuật toán di truyền (GAs) GAs kỹ thuật khoa học máy tính nhằm tìm kiếm giải pháp thích hợp cho tốn tối ưu tổ hợp (combinatorial optimization), phân ngành thuật toán tiến hóa, vận dụng nguyên lý tiến hóa như: di truyền, đột biến, chọn lọc tự nhiên, trao đổi chéo Nó sử dụng ngơn ngữ máy tính để mơ q trình tiến hố tập hợp đại diện trừu tượng (gọi nhiễm sắc thể), giải pháp (gọi cá thể) cho tốn tối ưu hóa vấn đề Tập hợp tiến triển theo hướng chọn lọc giải pháp tốt GAs thuật tốn tiến hố, hình thành dựa quan niệm coi tiên đề phù hợp với thực tế khách quan Đó quan niệm "Q trình tiến hố tự nhiên q trình hồn hảo nhất, hợp lý tự 21 mang tính tối ưu" Q trình tiến hố thể tính tối ưu chỗ hệ sau tốt hệ trước Ngày nay, GAs trở nên quan trọng, đặc biệt lĩnh vực tối ưu hố, lĩnh vực có nhiều tốn thú vị, ứng dụng nhiều thực tiễn thường khó chưa có phương pháp hiệu để giải 2.1.1 Các tính chất thuật tốn di truyền GAs kỹ thuật chung, giúp giải vấn đề cách mơ tiến hóa người hay sinh vật nói chung (dựa thuyết tiến hóa mn lồi Darwin), điều kiện qui định sẵn môi trường Mục tiêu GAs không nhằm đưa lời giải xác tối ưu mà đưa lời giải tương đối tối ưu Một cá thể GAs biểu diễn giải pháp tốn Tuy nhiên, khơng giống với tự nhiên cá thể có nhiều nhiễm sắc thể (NST) mà để giới hạn GAs, ta quan niệm cá thể có NST Do đó, khái niệm cá thể NST GAs coi tương đương Một NST tạo thành từ nhiều gen, gen có giá trị khác để quy định tình trạng Trong GAs, gen coi phần tử chuỗi NST Một tập hợp cá thể có số đặc điểm gọi quần thể Trong thuật giải di truyền, ta quan niệm quần thể tập lời giải toán 2.1.2 Thuật tốn Sơ đồ q trình tính tốn thuật tốn di truyền: 22 Hình Sơ đồ q trình tính tốn thuật tốn di truyền Nhận xét cụ thể bước lưu đồ trên: Bước 1: Khởi tạo/lựa chọn thơng số cho q trình tính tốn: Bước người lập trình tính tốn phải lựa chọn thông số như: Số lượng cá thể quần thể, cách thức hóa tốn cần tính tốn dạng nhiễm sắc thể (độ dài nhiễm sắc thể, kiểu số biểu diễn liệu,…), số hệ tính tốn, xác suất lai ghép, xác suất đột biến, hàm thích nghi,… Bước 2: Khởi tạo quần thể ban đầu: xác định phương pháp tạo số ngẫu nhiên để tạo giá trị cho nhiễm sắc thể cho quần thể ban đầu Tùy vào cách biểu diễn nhiễm sắc thể mà ta chọn phương pháp tạo số ngẫu nhiên phù hợp Bước 3: Đánh giá nhiễm sắc thể hàm thích nghi xác định bước Trong bước này, việc đánh giá nhiễm sắc thể riêng rẽ, đánh giá độ thích nghi nhiễm sắc thể hay quần thể Nếu 23 nhóm hay quần thể có độ thích nghi "trung bình" (theo tiêu chí trường hợp người lập trình) thấp loại nhóm nhiễm sắc thể hay quần thể khỏi q trình di truyền Bước 4: Thực q trình di truyền thơng qua chế lai ghép đột biến Có thể thực hai trình thực đồng thời theo phương pháp đề cập bên Trong q trình thực thuật tốn di truyền, giai đoạn giai đoạn mà người thực theo phương pháp khác Giai đoạn giai đoạn định tới thành cơng thuật tốn Người thực đưa phương thức tiến hành lai ghép hay đột biến giai đoạn Trong q trình thực hiện, để có thông số lai ghép hay đột biến hiệu quả, người lập trình thường phải trải qua nhiều bước tính tốn thử Khâu phụ thuộc nhiều vào kinh nghiệm kỹ tính tốn người lập trình Bước 5: Tạo quần thể trình chọn lọc Quá trình dựa vào đánh giá nhiễm sắc thể thơng qua hàm thích nghi Cá thể có độ thích nghi cao gữ lại cho hệ Cũng giống bước 3, sử dụng hàm thích nghi phù hợp để đánh giá cá thể dơn lẻ nhóm cá thể Sau q trình này, nhóm cá thể thỏa mã tiêu chuẩn đánh giá với mức độ từ cao xuống thấp dưa vào quần thể Bước 6: Đánh giá quần thể vừa có bước Thơng thường có hai tiêu chí để dừng q trình di truyền bước Thứ nhất, độ thích nghi cá thể quần thể thỏa mãn điều kiện hội tụ đặt ban đầu Các điều kiện hội tụ thể mức độ chấp nhận kết tìm Thứ hai, quần thể tạo thành quần thể hệ thứ (N+1) với N số hệ dự định tính tốn giả thiết ban đầu Trong thực trình di truyền, người tính tốn đưa tiêu chí riêng để dừng q trình di truyền Các tiêu chí đưa góp phần định tới thành cơng thuật tốn 2.1.3 Ưu, nhược điểm thuật tốn Ưu điểm: 24 - Khả tìm kiếm thuật tốn GA để tìm kiếm trung tâm cụm thích hợp cho kết tương đối tối ưu - Không chịu chi phối liệu xem xét Thuật toán GA cung cấp chuỗi tối ưu hóa với số lần lặp đến vơ từ tập hợp Nó có khả thực tìm kiếm cảnh quan phức tạp, rộng đa chiều - Không chịu giới hạn thuật toán K-means Thuật toán GA cho kết tốt giá trị tốt thuật toán K-means Nhược điểm: - Phức tạp thuật toán K-means - Thời gian tính tốn lâu 2.2 Thuật tốn K-means Thuật toán dựa độ đo khoảng cách đối tượng liệu cụm Trong thực tế, đo khoảng cách tới giá trị trung bình đối tượng liệu cụm Nó xem trung tâm cụm Như vậy, cần khởi tạo tập trung tâm cụm ban đầu, thơng qua lặp lại bước gồm gán đối tượng tới cụm mà trung tâm gần, tính tốn trung tâm cụm sở gán cho đối tượng Quá trình lặp dừng trung tâm hội tụ Hình Các thiết lập để xác định ranh giới cụm ban đầu 25 Mục đích thuật tốn K-means sinh k cụm liệu {C1, C2, , Ck} từ tập liệu chứa n đối tượng không gian d chiều Xi={xi1, xi2, ,xid}, i= đến n, cho hàm tiêu chuẩn: đạt giá trị tối thiểu Trong đó: Mi trọng tâm cụm Ci, D khoảng cách hai đối tượng Khoảng cách hai đối tượng xác định theo khoảng cách Euclide Hình Tính tốn trọng tâm cụm 2.2.1 Thuật toán K-means Thuật toán K-means bao gồm bước sau: 26 Input: Số cụm k trọng tâm cụm Output:Các cụm C[i] (1ik) hàm tiêu chuẩn E đạt giá trị tối thiểu Begin Bước1: Khởi tạo Chọn k trọng tâm ban đầu không gian Rd (d số chiều liệu).Việc lựa chọn ngẫu nhiên theo kinh nghiệm Bước2: Tính tốn khoảng cách Đối với điểm Xi (1in), tính tốn khoảng cách tới trọng tâm mj (1jk) Sau tìm trọng tâm gần điểm Bước3: Cập nhật lại trọng tâm Đối với mỗi1jk, cập nhật trọng tâm cụm mj cách xác định trung bình cộng vectơ đối tượng liệu Điều kiện dừng: Lặp lại bước trọng tâm cụm không thay đổi End K- means biểu diễn cụm trọng tâm đối tượng cụm Thuật tốn K-means chi tiết trình bày : BEGIN Nhập n đối tượng liệu Nhập k cụm liệu MSE =  For I = to k m X i i i n k ( 1)* /  ; // khởi tạo k trọng tâm Do { OldMSE = MSE MSE’ = for j = to k {m’[j]=0; n’[j]=0} 27 10.End for 11.For I =1 to n 12.For j =1 to k 13.Tính tốn khoảng cách Euclide bình phương : D (x[i]; m[j] 14.Endfor 15.Tìm trọng tâm gần m[h] tới X[i] 16.m’[h] = m’[h] + X[i] ; n’[h] = n’[h]+1; 17.MSE’=MSE’ + D (x[i]; m[j] 18.Endfor 19.n[j] = max(n’[j], 1); m[j] = m’[j]/n[j]; 20.MSE’=MSE’ 21.} while (MSE’

Ngày đăng: 21/08/2018, 10:51