Đột biến là hiện tượng nhiễm sắc thể con mang một số đặc tính khơng có trong mã di truyền của cha-mẹ. Phép đột biến được gán xác suất (nhỏ hơn nhiều so với xác suất
ghép chéo ). Điều này được suy diễn bởi trong tự nhiên, đột biến Gen thường rất ít xảy ra. Phép đột biến được mơ tả như sau:
Chọn ngẫu nhiên một nhiễm sắc thể trong quần thể;
Tạo một số ngẫu nhiên k trong khoảng từ 1 tới m, ;
Thay đổi bit thứ k. Đưa nhiễm sắc thể này vào quần thể để tham gia q trình tiến hố ở thế hệ tiếp theo.
Các bước cơ bản của giải thuật di truyền
Một giải thuật di truyền đơn giản bao gồm các bước sau:
Bước 1: Khởi tạo một quần thể ban đầu gồm các chuỗi nhiễm sắc thể. Bước 2: Xác định giá trị mục tiêu cho từng nhiễm sắc thể tương ứng. Bước 3: Tạo các nhiễm sắc thể mới dựa trên các toán tử di truyền.
Bước 5: Xác định hàm mục tiêu cho các nhiễm sắc thể mới và đưa vào quần thể.
Bước 4: Loại bớt các nhiễm sắc thể có độ thích nghi thấp.
Bước 6: Kiểm tra thỏa mãn điều kiện dừng. Nếu điều kiện đúng, lấy ra nhiễm sắc thể tốt nhất, giải thuật dừng lại; ngược lại, quay về bước 3.
Bảng Cơ sở toán học của giải thuật di truyền
Cơ sở lý thuyết của giải thuật di truyền dựa trên biểu diễn chuỗi nhị phân và lý thuyết sơ đồ. Một sơ đồ là một chuỗi, có chiều dài bằng chuỗi nhiễm sắc thể. Các thành phần của nó có thể nhận một trong các giá trị trong tập ký tự biểu diễn Gen hoặc một ký tự đại diện ”*”. Sơ đồ biểu diễn khơng gian con trong khơng gian tìm kiếm. Không gian con này là tập tất cả các chuỗi trong khơng gian tìm kiếm mà với mọi vị trí trong chuỗi, giá trị của Gen trùng với giá trị của sơ đồ; kí tự đại diện “*” có thể trùng khớp với bất kỳ ký tự biểu diễn nào.
Ví dụ: sơ đồ (* 1 0 1 0) sẽ khớp với 2 chuỗi: (1 1 0 1 0) và (0 1 0 1 0)
Như vậy, sơ đồ (1 1 0 1 0) và (0 1 0 1 0) chỉ khớp với chuỗi chính nó, cịn sơ đồ (* * * * *) khớp với tất cả các sơ đồ có độ dài là 5.
Với sơ đồ cụ thể có tương ứng 2r chuỗi, r: là số ký tự đại diện “*” có trong sơ đồ; ngược lại, một chuỗi có chiều dài m sẽ khớp với 2m sơ đồ.
Một chuỗi có chiều dài m, sẽ có tối đa 3m sơ đồ. Trong một quần thể dân số kích thước n, có thể có tương ứng từ 2m đến nx2m sơ đồ khác nhau.
Thuộc tính của sơ đồ
Các sơ đồ khác nhau có đặc trưng khác nhau. Các đặc trưng này thể hiện qua hai thuộc tính quan trọng: bậc và chiều dài xác định.
Bậc của sơ đồ S (ký hiệu o(S)) là tổng số vị trí 0, 1 có trong sơ đồ. Đây là các vị trí cố định (khơng phải vị trí của các ký tự đại diện) trong sơ đồ. Bậc có thể xác định bằng cách lấy chiều dài của chuỗi trừ đi số ký tự đại diện.
Ví dụ: trong sơ đồ S = (* * 1 0 * 1 *) có bậc o(S) = 7 - 4 = 3;
Chiều dài xác định của sơ đồ S (ký hiệu là ) là khoảng cách giữa 2 vị trí cố định ở đầu và cuối. Chiều dài của sơ đồ xác định độ nén thơng tin chứa trong sơ đồ đó. Trong ví dụ
trên = 6-3 =3. Như vậy, nếu sơ đồ chỉ có một vị trí cố định thì chiều dài xác định của sơ đồ sẽ bằng 0.
Chiều dài của sơ đồ giúp ta tính xác suất tồn tại của sơ đồ do ảnh hưởng của ghép chéo.
Tác động của các toán tử di truyền trên một sơ đồ a. Toán tử sinh sản
Xét một quần thể có kích thước n. Gọi là số nhiễm sắc thể trong quần thể ở thế hệ t, phù hợp với sơ đồ S. Gọi là độ thích nghi của sơ đồ S ở thế hệ t. Giải sử có n nhiễm sắc thể { ,…, } trong quần thể phù hợp với sơ đồ S ở thời điểm t. Thì:
Trong quá trình sinh sản, xác suất nhiễm sắc thể có xác suất được chọn pi:
trong đó, là tổc độ thích nghi của quần thể ở thế hệ t; được xác định bởi:
Ở thế hệ t+1, số chuỗi phù hợp với sơ đồ S( ) được tính bới:
Gọi là độ thích nghi trung bình của quần thể. Viết lại cơng thức (5-5a): Từ đó cho thấy, số lượng nhiễm sắc thể tăng bằng tỷ lệ độ thích nghi của sơ đồ với độ thích nghi trung bình của quần thể. Điều đó có nghĩa là sơ đồ “trên trung bình” nhận thêm số nhiễm sắc thể ở thế hệ sau; sơ đồ “dưới trung bình” số nhiễm sắc thể sẽ giảm; sơ đồ trung bình vẫn giữ ngun. Cơng thức trên gọi là phương trình tăng trưởng sinh sản của sơ đồ S.
Giả sử sơ đồ S vẫn trên mức trung bình k % nghĩa là:
khi đó: trong đó;
k > 0 : với sơ đồ “trên trung bình“; k < 0 : với sơ đồ “dưới trung bình”
Theo (5-7), số nhiễm sắc thể phù hợp với sơ đồ S tăng theo luỹ thừa ở thế hệ kế tiếp.
b. Toán tử ghép chéo
Như mơ tả ở trên về tốn tử ghép chéo, giả sử có một sơ đồ được chọn để ghép chéo S = (***111*******) có chiều dài xác định . Tồn tại hai khả năng:
Nếu điểm ghép chéo trong khoảng [4; 6] thì sơ đồ bị phá vỡ ở thế hệ tiếp theo. Ngược lại, số nhiễm sắc thể phù hợp với sơ đồ sẽ tăng. Gọi chiều dài nhiễm sắc thể là L, các vị trí ghép chéo có thể chọn trong đoạn từ 1 tới L-1 với đồng xác suất. Điều đó có nghĩa là xác suất S bị phá vỡ. Xác suất đó xác định bởi:
từ đó, xác suất tồn tại: Trong trường hợp này chỉ có một nhiễm sắc thể được ghép chéo với xác suất ghép chéo là , nghĩa là xác suất tồn tại của một sơ đồ thực:
Khi chọn một vị trí ghép chéo trong các vị trí cố định sơ đồ vẫn có thể tồn tại.
Ví dụ: nhiễm sắc thể S trên có thể ghép chéo tại vị trí 3. Như vậy, sơ đồ S rất dễ bị phá vỡ. Sơ đồ chỉ tồn tại khi nhiễm sắc thể ghép chéo với nó có dạng “***111” và kết thúc là “10”. Xác suất tồn tại sơ đồ sẽ rất nhỏ.
Từ đó, có thể viết:
Kết hợp quá trình sinh sản với ghép chéo ta có phương trình tăng trưởng của sơ đồ sinh
sản:
c. Toán tử đột biến
Phép đột biến, như đã mô tả ở trên, thay đổi một vị trí trong nhiễm sắc thể ngẫu nhiên với xác suất nhỏ . Phép đột biến có thể khơi phục lại hoặc phá vỡ một sơ đồ.
Ví dụ: cho sơ đồ S = ”***111******10”. Q trình sinh sản tạo ra nhiễm sắc thể con S1 = “***110******10”. Nếu đột biến ở vị trí 4, 5, 6 hoặc 13, 14 trên S thì sơ đồ bị phá vỡ. Nếu đột biến ở vị trí 6 trên sơ đồ S1 thì sơ đồ S được phục hồi. Như vậy, vị trí đột biến ảnh hưởng đến sơ đồ là các bit cố định. Các bit này chính là bậc của sơ đồ (o(S)).
Gọi xác suất thay đổi một bit là thì xác suất tồn tại bit đó là 1- . Do vậy, xác suất tồn tại một sơ đồ sau đột biến:
Do , nên công thức trên được xấp xỉ:
Kết hợp ba toán tử sinh sản, ghép chéo, đột biến cho ta phương trình tăng trưởng:
Phương trình trên cho biết kỳ vọng số nhiễm sắc thể phù hợp với sơ đồ S trong thế hệ tiếp theo. Các sơ đồ “trên trung bình” với chiều dài ngắn, bậc thấp sẽ có số nhiễm sắc thể phù hợp và tăng theo luỹ thừa.
Đặc điểm hội tụ của giải thuật di truyền
Khi áp dụng giải thuật GAs cho các vấn đề thực tế thường rất khó khăn. Lý do:
Cách biểu diễn nhiễm sắc thể có thể tạo ra khơng tìm kiếm khác với khơng gian thực của bài toán;
Số bước lặp, khi cài đặt thường không xác định trước;
Kích thước quần thể thường có giới hạn.
Trong một số trường hợp, GAs khơng thể tìm được lời giải tối ưu. Lý do, GAs hội tụ sớm về lời giải tối ưu cục bộ. Hội tụ sớm là vấn đề của giải thuật di truyền cũng như các giải thuật tối ưu khác. Nếu hội tụ xảy ra q nhanh thì các thơng tin đáng tin cậy đang phát triển trong quần thể thường bị bỏ qua. Nguyên nhân của sự hội tụ sớm liên quan tới hai vấn đề:
Quy mô và loại sai số do cơ chế tạo mẫu;
Bản chất của hàm mục tiêu.