Tính Markov

2 Cơ sở toán học của giải thuật di truyền

2.2.1 Tính Markov

- Một hệ vật lý hoặc hệ trạng thái nào đó gọi là có tính Markov nếu sự tiến triển của hệ trong tương lai chỉ phụ thuộc vào hiện tại và độc lập với quá khứ. VD sự tăng dân số.

- Ký hiệu E là không gian trạng thái của X(t); nếu X(t) có tính Markov và E là tập đếm được thì X(t) gọi là xích Markov. Nếu giá trị của thời điểm t là 0,1, . . . thì ta nói xích Markov với thời gian rời rạc. Nếu t∈ [0,∞] thì ta có xích Markov với thời gian liên tục.

- ĐN: Ta nói X(t) có tính Markov nếu:

P{X(tn+1) = j|X(t0) = i0, . . . , X(tn) = i} = P{X(tn+1) = j|X(tn) = i}

với bất kỳ t0 < t1 < . . . < tn < tn+1 < . . .;i0, . . . , in, j ∈ E

- Đặt p(s, i, t, j) = P{X(t) = j|X(s) = i}(s < t) là xác suất có điều kiện để hệ tại thời điểm s ở trạng thái i, đến thời điểm t chuyển đến trạng thái j và gọi là xác suất chuyển của hệ. Nếu xác suất này chỉ phụ thuộc vào t−s hay p(s, i, t, j) = p(s+h, i, t+h, j) thì hệ là thuần nhất theo thời gian.

- Ký hiệu pij = P{Xn+ 1 = j|Xn = i} và ma trận [pij] gọi là ma trận xác suất chuyển sau 1 bước. Theo công thức xác suất đầy đủ ta có

0≤ pij ≤ 1 và X

pij = 1 (ma trận ngẫu nhiên) - Xác suất chuyển sau n bước :

Khi đó p(1)ij = pij. Quy ước pij(0) = 1(i = j) và là 0 với i <> j

Đặt Pn = (p(ijn)) là ma trận xác suất chuyển sau n bước. - Ta có phương trình Chapman-Kolmogorov

p(ijm+n) = X

k∈E

pnikpnjk

- Một ví dụ về GA được mô hình hóa bởi một xích Markov: Giả sử ta xét cỡ quần thể cố định gồm2N gene kết hợp từ các cá thể loại a và loại

A. Sự hình thành thế hệ sau được xác định bởi 2N phép thử nhị thức độc lập như nhau: Nếu loài bố mẹ có j a−gene và (2N −j) A−gene

thì mỗi phép thử có kết quả là a hay A với xác suất tương ứng là

pj = j

2N và qj = 1− j

Các chọn lọc được lặp lại và được tiến hành có thay thế. Bằng cách này ta có xích Markov {Xn} trong đó Xn là số a − gene ở thế hệ thứ

n trong cỡ loài không đổi gồm 2N cá thể. Không gian trạng thái E =

{0,1,2, ...,2N} gồm 2N + 1 giá trị. Ma trận xác suất chuyển P = (pjk)

tính theo phân phối nhị thức là:

pjk = P{Xn+1 = k|Xn = j} = C2kNpkjq2jN−k (j, k = 0,1, ...,2N) (2.3) Chú ý rằng các trạng thái Xn = 0 (hoặc 2N) là hấp thụ hoàn toàn theo nghĩa khi Xn = 0 (hoặc 2N) thì Xn+k = 0 (hoặc 2N, tương ứng) với mọi k ≥ 0.

Một trong những vấn đề thú vị là xác định xác suất để loài sẽ đạt tới fixation với điều kiện X0 = i, tức là nó sẽ trở thành một quần thể thuần chủng chỉ có a −gene hoặc A−gene. Việc xác định tốc độ đạt tới fixation cũng là điều đáng quan tâm. Ta sẽ nghiên cứu những vấn đề như thế trong phân tích tổng quát về xác suất hấp thụ.

Một mô hình đầy đủ hơn phải tính đến những mutation pressures (tác nhân đột biến). Ta giả sử rằng trước khi hình thành thế hệ mới, mỗi gene có xác suất đột biến, tức là xác suất chuyển thành gene của

loại kia. Đặc biệt, ta giả sử rằng đối với mỗi gene hiện tượng đột biến

a → A xảy ra với xác suất x1 và hiện tượng đột biến A → a xảy ra với xác suất x2.

Một lần nữa ta lại giả sử rằng sự hình thành của thế hệ sau được xác định bởi 2N phép thử nhị thức. Các giá trị liên quan của pj và qj khi loài cha mẹ có j a−gene lúc này có dạng:

pj = j 2N(1−x1) + 1− j 2N x2 và qj = j 2Nx1 + 1− j 2N (1−x2) (2.4)

Các tác nhân đột biến hoạt động đầu tiên, sau đó một gene mới được chọn bằng cách chọn lọc ngẫu nhiên từ loài. Bây giờ xác suất của chọn lọc một a-gene sau khi tác nhân đột biến hoạt động chính là 1/2N lần số a−gene hiện có. Vì vậy xác suất trung bình (lấy trung bình đối với những đột biến có thể) là 1/2N lần số trung bình của a−gene sau đột biến. Nhưng số trung bình này rõ ràng là j(1−x1) + (2N −j)x2. Từ đó dẫn đến công thức (2.4).

Xác suất chuyển của xích Markov tương ứng được tính bởi công thức (2.3) ở trên với các pj, qj được tính bởi công thức (2.4) vừa viết.

Nếu x1, x2 > 0 thì fixation sẽ không xảy ra ở bất cứ trạng thái nào. Thay vào đó, khi n → ∞ hàm phân phối của Xn sẽ tiến đến phân phối trạng thái vững của biến ngẫu nhiên ξ trong đó P{ξ = k} = πk;k = 0,1, ...,2N(P

πk = 1, πk > 0). Hàm phân phối của ξ được gọi là phân

phối tần số gene tại trạng thái vững.

Với mô hình giao phối (mating model) ngẫu nhiên đơn giản và khái niệm thiên hướng chọn lọc, hoạt động a-gene. Giả sử muốn đặt một ưu tiên chọn lọc cho a −gene đối với A−gene sao cho số con sinh ra có kỳ vọng với tỉ lệ (1 +s) và 1 tương ứng, trong đó s là nhỏ và dương. Ta thay pj = j

2N và qj = 1− j

2N bằng pj = (1 +s)j

2N + sj và qj = 1−pj rồi xây dựng thế hệ sau theo mẫu nhị thức như trước.

của a−gene và A−gene tương ứng là

2N(1 +s)j

2N +sj và 2N(2N −j)

2N + sj

Tỷ số các cỡ loài trung bình của a−gene đối với A−gene tại thế hệ thứ (n+ 1) là: 1 +s 1 × j 2N −j = 1 +s 1 số a-gene ở thế hệ thứ n số A-gene ở thế hệ thứ n

Điều này giải thích ý nghĩa của sự chọn lọc.

Một số mô hình tiến hóa