Những khuôn mẫu giống nhau

Trong nhiều khía cạnh chúng ta không còn chú tâm vào các chuỗi như là chuỗi tương thích cao có thể giúp dẫn đến một nghiên cứu tìm kiếm, chúng ta đặt ra câu hỏi là làm thế nào một chuỗi có thể tương tự với các chuỗi thành viên của nó. Đặc biệt là bằng cách nào mà một chuỗi có thể đại diện cho các lớp chuỗi khác tương tự ở một vị trí chuỗi nhất định. Khung giản đồ cung cấp cho ta công cụ để trả lời những câu hỏi này.

Một giản đồ (Holland 1968, 1975) là một mẫu tương tự mô tả một bộ chuỗi tương tự nhau ở một số ví dụ nhât định trong chuỗi. Hãy lại giới hạn rằng không mất tính tổng quát đối với bộ ký tự (0,1). Chúng ta thúc tiến giản đồ đơn giản nhất là gắn những ký tự đặc biệt vào bộ ký tự này : thêm * hay là ký tự "don’t care".Với những ký tự mở rộng này, chúng ta có thể tạo ra các chuỗi (giản đồ) gồm bộ ba ký tự (0,1,*), và ý nghĩa của giản đồ là rõ ràng nếu chúng ta coi nó như là một cộng cụ phù phù hợp mẫu : một giản đồ phù họp với mẫu chuỗi, điểm 0 trên giản đồ một ký tự 1 tương ứng với 1 trong chuỗi nhất định nếu ở tại mọi điểm trên giản đồ một ký tự 0 trong chuỗi hoặc * tương ứng là 0 hoặc 1. Ví dụ, xét các chuỗi và giản đồ có độ dài 5. Giản đồ *0000 tương ứng với 2 chuỗi {00000 ; 10000} ví dụ khác. Giản đồ 0*1** tương ứng với 8 chuỗi có độ dài xác định nhờ các ký tự nhất định. Cần nhấn mạnh rằng ký tự * chỉ là một ký tự đại diện (kí hiệu của các kí tự khác): nó không bao giờ được xử lý rõ ràng nhờ giải thuật di truyền. Nó đơn giản chỉ là một công cụ cho phép mô tả tương tự giữa các chuỗi có độ dài và các ký tự xác định.

Tính toán tổng số giản đồ có thể là một bài tập làm rõ vấn đề. Trong ví dụ trước, với 1= 5, chúng ta để ý có 3.3.3.3.3 = 35

= 243 mẫu tương tự nhau bởi vì cứ mỗi vị trí trong 5 vị trí đó có thể là 0,1 hoặc *. Tổng quát, đối với bảng biểu diễn

gồm k thành phần thì sẽ có (k + 1)l

giản đồ. Nếu nhìn qua, thì dường như giản đồ làm cho việc tìm kiếm phức tạp thêm. Với k thành phần thì chỉ có kl

chuỗi có độ dài l khác nhau. Tại sao lại xét (k + 1)l

giản đồ và làm không gian tìm kiếm rộng thêm ? hay nói cách khác, độ dài 5 chỉ có 25 = 32 chuỗi khác nhau. Tại sao lại làm cho vấn đền phức tạp hơn khi xét 35

= 243 giản đồ ? thực tế, lý do nêu ở phần trên làm cho vấn đề dễ dàng hơn. Bạn có nhắc lại được dãy 4 chuỗi và các giá trị tương thích và cố chỉ ra rằng sẽ làm cái gì tiếp theo không ? Chúng ta công nhận rằng nếu xét các chuỗi độc lập thì chúng ta chỉ có 4 đoạn thông tin. Tuy nhiên, khi chúng ta xét các chuỗi, các giá trị tương thích và sự tương tự giữa các chuỗi trong tập hợp, chúng ta thừa nhận rằng, sự dồi dào thông tin sẽ trực tiếp hỗ trợ các tìm kiếm của chúng ta. Bao nhiêu thông tin mà chúng ta công nhận khi xét sự tương tự ? Câu trả lời liên quan đến số lượng bao nhiêu cần biết được các chuỗi có trong tập hợp. Để tính chính xác giới hạn số giản đồ theo từng chuỗi trong một tập hợp nhất định thì chúng ta lấy cận trên tổng số giản đồ trong tập hợp.

Để hiểu được, chúng ta xét một chuỗi đơn có độ dài 5: ví dụ là chuỗi 11111. Chuỗi này là một phần tử của tập hợp 25

phần tử bởi vì mội vị trí trong chuỗi có thể là giá trị thật của nó mà cũng có thể là ký tự đại diện (don’t care sybol). Tổng quát, một chuỗi nhất định có 2l

giản đồ. Kết quả là một tập hợp gồm n phần tử chứa khoảng 2l

đến n-2l giản đồ, tùy theo sự đa dạng của tập hợp. Điểu này đã kiểm chứng cho trực giác của chúng ta ở phần trên. Động lực ban đầu để xét những cái tương tự là để lấy thêm thông tin về những tương tự quan trọng thực sự có trong các tập hợp có kính cỡ vừa phải. Chúng ta sẽ kiểm tra xem giải thuật di truyền khai thác những thông tin này hiệu quả như thế nào. ở điểm tương đồng này, nhiều quá trình song song có vẻ là cần thiết nếu chúng ta tận dụng những thông tin này đúng lúc.

Những lý lẽ này là rất tốt những nó sẽ dẫn tới những đâu ? Nhấn mạnh hơn là trong 2l đến n -2l lược đồ có trong tập hợp thì bao nhiêu lược đồ được xử lý hợp lý nhờ giải thuật di truyền? Để trả lời được, xét qua sự ảnh hưởng của tái sinh, lai, đột biến trong quá trình phát triển hoặc phân rã các lược đồ quan trọng từ thế hệ này sang thế hệ khác. ảnh hưởng của tái sinh lên một lược đồ nhất định là dễ xác định

bởi vì chuỗi tương thích càng cao thì xác suất được lựa chọn càng cao, trung bình chúng ta đưa ra sô mẫu nhiều hơn để quan sát những mẫu tương tự nhau nhiều nhất. Tuy nhiên, chỉ riêng tái sinh thì không có gì là mới trong không gian tìm kiếm cả. Cái gì sẽ xảy ra tiếp theo đối với các lược đồ khi quá trình lai bắt đầu? Lai ghép không gây ảnh hưởng gì đến các lược đồ nếu nó không cắt bớt giản đồ đi, nhưng nó có thể làm hỏng lược đồ nếu nó cắt bớt đi. Ví dụ, xét 2 lược đồ 1***0 và **11*. Lược đồ thứ nhất có vẻ bị phá vỡ do lai ghép trong khi lược đồ sau có vẻ như không bị phá vỡ. Kết quả là lược đồ có độ dài nhỏ thường bị lai ghép bỏ qua và tái sinh với một tỷ lệ lấy mẫu thích hợp nhờ cơ chế tái sinh. Đột biến bình thường với tỷ lệ thấp thường không hay phá vỡ các lược đồ và được rút ra một kết luận đáng ngạc nhiên. Lược đồ có độ dài định trước ngắn, và độ tương thích cao (gọi là khối định sẵn) được truyền từ thế hệ này sang thế hệ khác. Nhờ tăng các mẫu thành phần đến điểm quan sát tốt nhất: Tất cả được thực hiện song song mà không tốn bộ nhớ nào ngoài tập hợp n chuỗi. Kết quả có thể là một số gần với n4

. So sánh với số giá trị của hàm (n). Vì tác dụng của quá trình xử lý này quan trọng (và rõ ràng là đặc biệt đối với giải thuật di truyền) nên chúng ta đặt tên cho nó là tương đương ẩn (implicit parallelelism).

Một giải thuật di truyền đơn giản