Một sơ đồ ( theo Holland, 1968,1675) và một khuôn mẫu tương tự, miêu tả một tập con các chuỗi tương đồng nhau tại những vị trí nào đó của chuỗi. Chúng ta giới hạn thảo luận trên bộ ký tự nhị phân{ 0,1} mà không làm mất tính tổng quát. Nếu thêm vào bộ ký tự nhị phân một ký hiệu đặc biệt là dấu * chúng ta sẽ tạo ra các chuỗi (sơ đồ) trên bộ ký tự tam phân {0,1,*}.
Về ý nghĩa, sơ đồ là một thiết bị dùng để so trùng các mẫu: Một sơ đồ gọi là trùng khớp với một chuỗi cụ thể nếu ở một vị trí của sơ đồ ta có 1 so trùng với 1 của chuỗi, 0 so trùng với 0, * so trùng với cả 0 và 1.
Ví dụ xét các chuỗi và các sơ đồ có chiều dài 10. Sơ đồ (*111100100) sẽ khớp với hai chuỗi:
{ (0111100100) ; (1111100100) }
Và sơ đồ (*1*1100100) sẽ khớp với 4 chuỗi:
Phần 2-Cơ sở lý thuyết Chương 3: Thuật toán di truyền
Trang 36
{ ((0101100100); (1111100100); (0111100100); (1101100100) }
Mỗi chuỗi có chiều dài m sẽ có tối đa 3m sơ đồ. Trong một quần thể có kích thước n, có thể có tương ứng từ 2m đến n × 2m sơ đồ khác nhau.
Các sơ đồ khác nhau có những đặc trưng khác nhau. Các đặc trưng này thể hiện qua hai thuộc tính quan trọng đó là : bậc và chiều dài xác định.
Bậc của sơ đồ:
Bậc của sơ đồ S ký hiệu là o(S) là số vị trí xuất hiện ký tự “0” và “1” trong sơ đồ
Vớ duù: o(1 * * * 0 * 1) =3.
Khái niệm bậc của sơ đồ giúp cho việc tính xác suất sống còn của sơ đồ do ảnh hưởng của đột biến.
Chiều dài xác định của một sơ đồ (Ký hiệu là δ(S) ) là khoảng cách giữa hai vị trí đầu tiên và cuối cùng xuất hiện ký tự cố định “0” và “1”
Vớ duù:
δ (1 * * 1 * 0 * * 0 * * *) = 9 -1=8 δ (0 * * * * * * * *) =1-1=0
Khái niệm chiều dài xác định của sơ đồ giúp tính xác suất sống còn của sơ đồ do ảnh hưởng của pháp lai.
Lý thuyết sơ đồ:
Xét sơ đồ S.
Đặt ξ (S,t) là số chuỗi trong quần thể ở thế hệ thứ t phù hợp với sớ đồ S Gọi eval (S,t) là độ thích nghi của sơ đồ S ở thế hệ thứ t. Giả sử có p chuỗi {vi1, … , vip) trong quần thể phù hợp với sơ đồ S vào thời điểm t. Ta có:
1
( ) ( , )
p
ij j
eval v eval S t
p
=∑=
Chuỗi vi có xác suất được chọn là pi = eval(vi)/ F(t) ; Với F(t) là tổng độ thích nghi của toàn quần thể vào thời điểm t,
1
( ) ( )
pop size i i
F t eval v
−
=
= ∑
Sau bước chọn lọc , ở thời điểm t+1 , ta có ξ (S,t+1) chuỗi phù hợp với sơ đồ S. Ta có :
( , ) ( , 1) ( , )
( ) popsize eval S t
S t S t
ξ + =ξ × F t×
Với F t( )=F t( ) / popsize là độ thích nghi trung bình của quần thể, ta viết công thức trên thành:
( , ) ( , 1) ( , )
( ) eval S t
S t S t
ξ + =ξ × F t ( Đây là phương trình tăng trưởng sinh sản của sơ đồ)
Phần 2-Cơ sở lý thuyết Chương 3: Thuật toán di truyền
Trang 37
Nói cách khác, số chuỗi trong quần thể tăng bằng với tỉ lệ độ thích nghi của sơ đồ với độ thích nghi trung bình của quần thể. Điều này có nghĩa các sơ đồ trên trung bình sẽ nhận thêm số chuỗi trong quần thể thế hệ kế tiếp, sơ đồ dưới trung bình nhận số chuỗi giảm đi, sơ đồ trung bình vẫn giữ nguyên mức.
Tiếp tục xem xét tác động của phép toán lai tạo và đột biến trên sơ đồ trong quaàn theồ.
Phép lai tạo
Chiều dài xác định của sơ đồ đóng vai trò quan trọng trong xác suất bị loại bỏ hay tồn tại của sơ đồ.
Giả sử sơ đồ có độ dài L=7. Ta xét 2 sơ đồ đại diện của chuỗi A=0111000 là : S1= *1****0 và S2= ***10**.
Ta chọn ngẫu nhiên vị trí hoán vị (vị trí lai), giả sử kết quả là 3, thực hiện phép laii đơn ta có kết quả:
S1= *1* 10**
và S2 = *** ***0
Khả năng sơ đồ S1 bị loại bỏ là cao (dạng của sơ đồ này không có ở tập hợp di truyền kế tiếp), vì vị trí lai có nhiều khả năng rơi vào vị trí các ký tự (*) luên tiếp. Để khảo sát nhận xét này ta chú ý rằng δ (S1)=5. Khả năng chọn vị trí lai trong L-1=7-1=6 vị trí có thể. Nên xác suất bị loại bỏ (Probability Detroy) là :
Pd (S) = δ (S1) / (L-1) = 5/6.
Xác suất tồn tại (Probability Stay) là : Ps = 1 - Pd = 1/6 Tổng quát:
Các vị trí lai, trong số m-1 vị trí ( Với m là chiều dài của một chuỗi), có cơ hội được chọn ngang nhau. Điều này có nghĩa xác suất bị loại bỏ của sơ đồ S là:
( ) ( )
d 1 p S s
m
= δ
− ;
Và do đó xác suất tồn tại là:
( ) 1 ( )
s 1 p S s
m
= −δ
−
Cần lưu ý là chỉ có một số nhiễm sắc thể trải qua lai với xác suất lai là pc. Điều này có nghĩa xác suất tồn tại của sơ đồ thực tế sẽ là:
( ) 1 ( )
s c 1
p S p s m
= − ×δ
−
Như vậy qua cả lai tạo (Crossover) và sinh sản (Reproduction) cho ta một dạng mới của phương trình tăng trưởng của sơ đồ sinh sản:
( , ) ( )
( , 1) ( , ) 1
( ) c 1
eval S t s
S t S t p
F t m
ξ + =ξ × − ×δ −
Như vậy khả năng tồn tại của một sơ đồ phụ thuộc:
Phần 2-Cơ sở lý thuyết Chương 3: Thuật toán di truyền
Trang 38
- Lược đồ có giá trị cao hơn hay thấp hơn giá trị trung bình của tập hợp
- Vị trí hoán vị nằm trong hay ngoài “ vị trí cố định phụ”
Rõ ràng, các sơ đồ trên trung bình và có chiều dài xác định ngắn vẫn có thể có số chuỗi các thể khớp với nó và tốc độ tăng theo lũy thừa.
Phép đột biến
Phép toán cuối cùng là đột biến ( Mutation). Do có ký tự (*) nên thực chất đột biến là thay đổi ngẫu nhiên của vị trí đơn lẻ cố định với xác suất đột biến pm. Khả năng tồn tại của các vị trí này là : 1-pm . Với số vị trí này chính là bậc của sơ đồ o(S) nên xác suất tồn tại của lược đồ là Ps(S) =(1-pm)o(S)
Với Pm<1 thì:
(1 - pm)o(S) =1- o(S)× pm.
Tác động kết hợp của chọn lọc, lai tạo và đột biến cho ta một dạng mới của phương trình tăng trưởng của sơ đồ sinh sản:
( , ) ( )
( , 1) ( , ) 1 ( )
( ) c 1 m
eval S t s
S t S t p o S p
F t m
ξ + =ξ × − ×δ − − × Như vậy một lược đồ tồn tại với điều kiện:
• o(S) đủ nhỏ
• δ (H) thaáp
• Có giá trị trên trung bình của tập hợp
Điều này được phát biểu thành định lý sơ đồ (Schema) như sau:
Các sơ đồ ngắn, bậc thấp, trên trung bình nhận số chuỗi tăng theo lũy thừa trong các thế hệ tiếp theo của thuật giải di truyền.
Kết quả tức thời của định lý nàylà GA khảo sát không gian tìm kiếm bằng những sơ đồ ngắn, bậc thấp, do đó những sơ đồ này được dùng để trao đổi thông tin trong khi lai:
Giả thuyết 1 : (Giả thuyết khối kiến trúc – Building Block Hypothesis):