Mô hình tiến hóa

Bùi Văn Đồng Trang 33

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Ma trận tỷ lệ có được từ ý nghĩa từ tỷ lệ tức thời của đột biến. Từ ma trận tỷ lệ

Q, chúng ta có thể tính được ma trận thay thế 0{t) bởi hàm mũ theo công thức sau:

eự)=eQ' =

Phần tử của 6{t) ở dòng ỉ và cột j chính là xác suất mà sự thay đổi

i—>---> j xảy ra trong một khoảng thời gian là t.

Mô hình đơn giản có một tham số và được biết là mô hình Jukes-Cantor với tỷ lệ chuyển đổi từ một nucleotide này đến một nucleotide khác là bằng nhau như sau:

Và ma trận thay thế tương ứng là:

Ma trận 0{t) thỏa: các phần tử của ma trận đều lớn hơn hoặc bằng 0 và nhỏ hơn hoặc bằng 1, tổng các phần tử trên một hàng bằng 1.

Chúng ta cần xác định tính họp lý mô hình trên. Giả sử chúng ta có ơ ở vị trí nào đó ở thời điểm t = 0, chúng ta hỏi rằng khả năng bao nhiêu ở đó vẫn là G vào thời điểm t (kí hiệu P(GG)(0)> và tương tự như vậy khả năng là bao nhiêu nếu như A thay

thế vào vị trí đó (kí hiệu P(GA) (t)). Neu tỉ lệ thay đổi là a trẽn đơn vị thời gian như mô hình Jukes - Cantor trên, thì:

Cũng theo mô hình Jukes-Cantor thì tất cả thay thế là như nhau, nên phát biểu chung là:

Ta thấy:

Khi t —> 0thì Pựị^(t)—> 1và P(ij)(0 —^

Bùi Văn Đồng Trang 34

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Khi í —» 0 0 thì Pơoự) - và Pạj)(t) -> i

Điều này rõ ràng là phù họp với thực tế của mô hình Jukes - Cantor, vì tại một thời điểm tức thời việc giử nguyên trạng thái với xác suất rõ ràng là bằng 1 và chuyển trạng thái này sang trạng thái khác là 0. Tuơng tự khi thời gian vô cùng lớn thì việc chuyển đổi trạng thái từ một nucleotide này sang một nucleotide khác hay giữ nguyên trạng thái là bằng nhau và bằng 0.25.

Hiện nay, ngoài mô hình Jukes-Cantor còn có một số mô hình khác thuờng sử dụng nhu: Kimura-2, Kimura-3,.... Trong các mô hình này có sự khác nhau về tỉ lệ thay đổi trạng thái giữa các co sở. Khi sử dụng mô hình tiến hóa để tái cấu trúc cây, một là gán giá trị cụ thể cho tỉ lệ hoặc là uớc luợng giá trị từ dữ liệu. Những mô hình này hoàn toàn giả định rằng các tốc độ là nhu nhau ở tất cả các vị trí.

ML cố gắng suy ra một cây sinh loài bằng cách tìm ra cây mà cực đại khả năng đối với dữ liệu mẫu.

Ví dụ: Dữ liệu mẫu ở đây là những chuỗi bằng nhau của nucleotides hoặc amino acids (chiều dài mỗi chuỗi N=32)\

T c AAAAAT GGCTTT ATTCGCTT AAT GCCGTT A T CCGT G AT GG ATTT ATTT c T GC AAT GCCT GT

TTCGTGATGGATTTATTGTTGGTATGCCAGTC TTCGTGACGGGTTTATCTTGGCAATGCCGGTC

Chúng ta bắt đầu với một mô hình tiến hóa cho bởi ma trận 6{t) và một giả định một số hình dáng cây với chiều dài tuơng ứng.

Có 15 khả năng cho các dạng cây có gốc với 4 taxa, một trong những cây đó là

hình 6, trong đó các đỉnh ở lá tuong ứng với các dữ liệu dóng theo cột đuợc đánh dấu đánh đậm trên 4 chuỗi trên.

Hình 6: Một trong những cây sinh loài 4 taxa

Chúng ta không biết các nucleotide ở nút X và Y, nhung có 4 khả năng xảy ra cho mỗi nút X và Y, vậy có có 16 truờng họp có thể xảy ra ở cây trên, một trong những truờng họp đó là hình 7.

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

& c T T

Hình 7: Cây sinh loài vói dữ liệu trên nút lá và các khả năng xảy ra ở các nút tổ

Bởi vì có 16 trường họp như vậy, xác suất của cây được tính bằng tổng các khả năng như sau:

Đây chỉ là xác suất cho cây với dữ liệu quan sát ở một vị trí i được đánh dấu màu đậm ở các chuỗi trên.

Áp dụng phương pháp ML là tìm xác suất các Ptree ị hay rõ hơn là tìm xác suất chuyển đổi trạng thái trên các nhánh của cây dựa theo tham số của ma trận 9{t) trên từng nhánh của cây sao cho xác suất PTREE đạt giá trị lớn nhất.

Tuy nhiên việc giải bài toán trên là việc giải một hệ thống phương trình phi tuyến với nhiều ẩn số. Việc giải bằng tay là một điều không thể. Hướng giải quyết đưa ra là chọn một phương pháp toán học thích họp kết họp những ứng dụng của đại số máy tính hiện nay chúng ta có thể giải quyết bài toán trên với một số cây sinh loài nhỏ với một số mô hình chuyển đổi thường sử dụng.Với cách tiếp cận như vậy chúng ta có thể giải tìm nghiệm chính xác cho bài toán trẽn. Một trong những phương pháp đó là tìm thành phần bất biến trên cây sinh loài sẽ giới thiệu ở chương sau.

p — p -ị- p 4- ... 4- p

i=1

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Chương 5. BẤT BIẾN TRÊN CÂY SINH LOÀI

Theo chưomg trước chúng ta nhận thấy, giải bài toán cây sinh loài dẫn đến giải một bài toán cực đại một phương trình phi tuyến rất nhiều ẩn. Việc làm này khó khả thi ngay cả những cây sinh loài nhỏ. Người ta nhận thấy, đối với những mô hình thường sử dụng, trên cây sinh loài tồn tại những thành phần bất biến. Đối với một cây sinh loài cụ thể thành phần không đổi và không phụ thuộc vào mẫu dữ liệu quan sát. Từ những thành phần bất biến này, thay vì giải bài toán trên các tham số thì ta giải bài toán tương đương dựa trên các thành phần bất biến với sẽ đơn giản hơn. Trong chương này tập trung vào việc tìm tất cả thành phần bất biến. Cuối chương có một ví dụ về bất biến trên một cây sinh loài cụ thể.

5.1. Dẩn nhập

Mô hình thống kê đại số mà chúng ta đang xét trên cây sinh loài là một ánh xạ có dạng:

f:Cd^Cm

ở đây không gian tổng quát trên trường số phức, tuy nhiên các toạ độ thực tế fx,--;fm

của hàm số là các đa thức có hệ số hữu tỷ, có nghĩa là fx,...,fm e Q[\ỡx,...,ỡd].

Sử dụng phương pháp hợp lý cực đại, với các chuỗi dữ liệu quan sát ta có phương trình họp lý tương ứng sau:

L=/r (1)

trong đó Uị,...9umlà các số nguyên dương.

Mục tiêu cuối cùng là làm cực đại hàm L trên bằng cách giải các phương trình đạo hàm riêng của nó:

i=0

= 0 với j=\, ..,d (2)

Tuy nhiên, khi nghiên cứu bài toán trên cây sinh loài các đa thức fx,...,f là những phương trình phi tuyến với nhiều tham số 6X, ..;ỡd, cho nên việc giải bài toán trên với việc giải hệ phương trình (2) là việc làm khó khả thi.

Một câu hỏi được đặt ra: các tập ảnh fx,...,fm như thế nào khi các

0X,..., 0d chạy trên miền xác định của nó? Neu chúng ta xác định được tập các ảnh

fx,...,fm thì thay vì giải quyết bài toán (1) trẽn các tham số 0x,...,6d chúng ta chỉ xét bài toán (1) trên các tọa độ fx,...,fm sẽ đơn giản hơn nhiều.

Vỉ dụ: Chúng ta xét các ví dụ với ánh xạ /: c2 —» c3

(i) Nếu / = (ỡỊ,ỡ\02,0xỡ2) thì tập ảnh là nghiệm phương trình /2 - /3 = 0 (ii) Nếu / = (6X ,26x62,ỡị) thì tập ảnh là nghiệm phương

trình/22 - 4/ , / 3 = 0

(iii) Nếu / = (Oị + 0X02,0X + 02,0X02 + 02) thì tập ảnh là nghiệm phương trình 2n(/i +/2-/3) ( / 2 + / 3 -/1 )5 - ( / 1 + / 3 -/2 )2 0 = 0

Qua các ví dụ trên có nhận xét sau: Các đa thức fx,...,fm ở dạng những đơn thức thì tập ảnh là nghiệm của những phương trình đơn giản, ngược lại thì là những phương

trình bậc rất lớn.

Quay trở lại bài toán trên cây sinh loài chúng ta quan tâm, những đa thức /j ,...,/w đối với từng cây cụ thể có tính chất riêng của chúng. Tập hợp ảnh của những

fx,...,fm tức là tìm tất cả các phương trình quan hệ của chúng. Tập các phương trình như thế được gọi là thành phần bất biến của cây sinh loài.

Mục tiêu của phần này giới thiệu một phép biến đổi có tên là phép biến đồi Fourier để tìm ra tất cả các bất biến trên một cây sinh loài cụ thể.

5.2. Mô hình xác suất trên cây sinh loài

5.2.1. Mô hình bài toán cây sinh loài

Cho T là cây có gốc với n lá. Đặt V(T) là tập các nút của T. Với mỗi một

V E V(T), chúng ta kí hiệu biến Xv, mồi biến này mang 1 trong k giá trị. Trong sinh

hầu như có các giá trị 2, 4 và 20. Kí hiệu P(XV = i) cho xác suất Xv mang trạng thái /.

Mối quan hệ giữa các biến ngẫu nhiên Xy được xác định bởi cấu trúc của cây. Đặt 71 là phân bố của biến xrtại nút gốc r.Với mỗi một nút veV (T) \ {r}, đặt a(v) là nút cha duy nhất của V. Sự chuyển trạng thái từ a(v) đến V được cho bởi ma trận xác

suất chuyển đổi A(v) có kích cỡ k X k. Và xác suất phân bố ở mỗi một nút được tính toán đệ quy như sau:

P{XV= 7 ) = ấ 4V) ~p(x«(v)=0

i= 1

Công thức này được suy ra từ phân bố trên tất cả biến ngẫu nhiên Xv. Chúng ta gán nhãn các nút lá cho rbởi 1, 2, ..., n và ta có xác suất phân bố các biến tại các lá:

ph h. . i , = P ( X ị = h,x2

Trong các ứng dụng sinh học, người ta ước lượng có kn khả năng từ n chuỗi bằng nhau trên Ả: kí tự. Mục đích chúng ta là dựa vào n chuỗi bằng nhau đó, xác định hình dáng cây sinh loài ở quá khứ mà khả năng xảy ra lớn nhất, nói cách khác là tái cấu trúc cây sinh loài. Vậy đầu vào bài toán chúng ta chỉ có n mẫu dữ liệu, tức là n

chuỗi DNA tương ứng, các phân bố gốc 71 và ma trận chuyển trạng thái A(v) là chưa biết. Tuy nhiên để đơn giản cho các bài toán, người ta đưa ra các mô hình đơn giản

av av 1 ồ K cv cv K K cv cv K -cv av <*v > >

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

gần với thực tế thường sử dụng là: Phân phối n là phân phối đều và ma trận chuyển trạng thái A(v) được sử dụng là mô hình Jukes - Cantor hay Kimura 2 và 3 trạng thái.

Với các giả thiết trên, các bất biến của cây sinh loài của mô hình là một đa thức dựa trên các khả năng ở lá làp.ị ị và triệt tiêu với mọi sự chọn lựa tham số của mô hình. Tập các đa thức là iđêan nguyên tố trên vành đa thức với các biến chưa

biết Pụ ị . Mục tiêu chúng ta là tìm các iđêan này.

5.2.2. Nhóm Abel và sự liên hệ với các ma trận chuyển đổi

Ở mô hình Neyman trên 2 kí tự (k = 2) là mô hình với ma trận chuyển đổi

í l - a ,

V av

với av là xác suất được tạo ra bởi sự chuyển đổi giữa các trạng thái dọc theo cạnh từ đến V.

Mô hình Kimura với 3 tham số với k =

chuyển đổi sau:

(\-av-bv-cv av

Mô hình Kimura 2 tham số được định nghĩa như ma trận trên với bv=cv.

Tương tự, mô hình Jukes- Cantor với 4 kí tự, ma trận trên với av=bv=cv.

Chìa khóa đối với trạng thái các biến ngẫu nhiên Xv là nhóm hữu hạn Abel (ví dụ Z2 = {0,1} hoặc Z2 ©Z2 = {(0,0),(0,1),(1,0),(1,1)} với phép toán cộng trên các tọa độ và mod cho 2). Giả sử rằng, chúng ta xem các cơ sở {A, G, c, T) như là các phần tử của nhóm Abel, với phép toán được định nghĩa với bảng cộng sau:

+ A G c T

A A G c T

G G A T c

c c T A G

T T c G A

Nhóm trên đẳng cấu với nhóm Z2 ©Z2 , tương ứng với AO(0,0), GO(0,1), CO(1,0),TO(1,1).

Từ đó dễ thấy rằng, ma trận ở mô hình Kimura 3 tham số có tính chất tương ứng với từng cặp cơ sở (gj,gj). Mặt khác, chúng ta thấy rằng sự chuyển trạng thái từ

Bùi Văn Đồng Trang 39

đối với mô hình Jukes-Cantor. Vì thế, ma trận chuyển đổi của những mô hình đang quan tâm không gì khác hơn những ma trận trên nhóm chúng ta đang xét.

5.3. Biến đổi Fourier

Đặt G là nhóm hữu hạn Abel với phép toán đuợc viết nhu là +. Đặt Y = {z e c: |z| = 1} nhu là vòng tròn đơn vị trên mặt phẳng số phức. Chúng ta thấy

rằngY là một nhóm Abel với phép toán nhân thông thuờng của số phức. Những đặc trung của G là những đồng cấu nhóm từ G vào Y. Nghĩa là X: G —> Y là một đặc trưng nếu x(gi + g2) = z(g\ i g2) cho

tất cả gx,g2 eG . Những đặc trưng

là nhóm

Abel dưới phép toán nhân của các hàm. Nhóm trên được gọi là nhóm đối ngẫu của nhóm G và ký hiệu bởi G. Nhóm G và G là một đẳng cấu. ChogeG và XEG,

chúng ta ký hiệu (x,g) thay cho x(g) • Đối ngẫu trực tiếp tổng G” = ®"=1 G là đẳng cấu G” dưới phép đẳng cấu cho bởi ((Xị 9-9Zn)Ági>-9gn)) =ỴYi=\(Xi’& •

Ví dụ: Giả sử rằng G = Z2 © Z2 . Thì ta có thể viết G = {1 ,ộ,iị/,ộy/}, trong đó các giá trị (x,g) với g e G và X eù cho bởi bảng sau:

(0,0) (0,1) (1,0) 01) 1 1 1 1 1 ẹ 1 - 1 1 - 1 lự l 1 - 1 - 1 (py/ 1 - 1 - 1 1

Cho ánh xạ /: G —» c và ánh xạ /: G —» c được định nghĩa:

f(z)= ỵj(g,z)f(g)

geG

gọi là biến đổi Fourier của/

Cho hai hàm số /i vàf2 trẽn G, tính chập fi*f2 của chúng là một ánh xạ mới được định nghĩa như sau:

đề: Cho f\ vàf2 là những hàm số trên nhóm hữu hạn Abel G đến c và 1 là hàm hằng.

(i) Nhóm G và nhóm đối ngẫu G là đẳng cấu.

(ii) Biến đổi Fourier có tính chập đối với phép nhân, nghĩa là

Ả c G T

0 1 Ả 1 1 1 1

1 1 và c 1 -1 1 -1

1 -1 G 1 1 -1 -1

T 1 -1 -1 1

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

f\* fi(g) = ĩ\* h

(iii) Kx)= I® nếu ỵ = 1 (phần tử đơn vị trong G) và \(ỵ) = 0 ngược lại.

Vỉ dụ (Biến đoi Fourier cho những cây đon giản): Cho T = Kị n là cây có gốc và n lá. Khả năng xảy ra của mô hình cơ sở nhóm được cho bởi:

p(g\,-,gn) = z*wn fV )(h~ S l ) h e G i = 1

Chúng ta sẽ biến đổi Fourier đối với những tổ hợp của xác suất trẽn đối với nhóm Gn . Để làm điều đó, chúng ta thay thế phân bố gốc 71: G —> M bởi một hàm số mới ĩt: G" —> M như sau:

7i(h^ nếu hị=h2=... = hn 0 ngược lại ãỌh,-,hn) = Từ đó chúng ta có: p(gi»-,g„)= X fự\ h i - g i ) ( h...h „ ) e Gn 1=1

p là chập của hai hàm số trên Gn . Biến đổi Fourier cho ra:

q(X i ,-,X n) = x(Z i> -> x,)Ỷ ỉ fụ )(Z i )

7=1

bởi công thức tính chập là độc lập của/'y trong biến đổi Fourier. Mặt khác

â ( X l , - ’ X n ) = ' E( g h g ) e 0. ( ( X l > ~ > X n ) Á g l , - , g „ ) ) - ã (

= ỵi g eo(Z i Z 2-Z „),g)-x(g) = r(Z1Z 2-Z j

cho nên

q(zi,~,z„) = â(Xi,-,zJTlf< 0(Zi)

7=1

Ví dụ trên là cơ sở để giới thiệu sự cần thiết để chứng minh những kết quả tổng quát sau.

Đinh ly (íEvans and speed, 1993]): Cho p(gị,...,gn) là phân phối có điều

kiện của một mô hình cơ sở nhóm đối với cây sinh loài T được giới thiệu ở phần trên. Thì biến đổi Fourier của p có dạng

4(Zi>~>Zj = â(Zi>-,Zj n /<v)( nZi)

veF0O\{/-} /6A(v)

Bùi Văn Đồng Trang 41

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Thay thế tọa độ gốc P ị ị ị bởi tọa độ Fourier q.j J , kết quả của q.ị J là các đơn thức của các tham số.

5.4. Toạ độ Fourier

Mỗi một tọa độ Fourier của 2n hoặc 4n tọa độ được ký hiệu bởi q-ị J . Chú ý, với phân phối tại gốc là phân phối đều và mô hình chúng ta đang xét có cấu trúc nhóm

như Jukes-Cantor hay Kimura-2, Kimura-3, biến đổi Fourier từ ơ,.,. , theo qn , và ngược lại theo định lý trên (ở phần 5.3) như sau:

Phh-J, = 'LxẦ(.h)-xJ',(i„)qh...ì,>

= 77ỵXllU\)-Xl’U„)PĂ...j„-

ở đây ỵl là đặc trưng của nhóm kết họp đến phần tử thứ ỉ của nhóm. Bảng đặc trưng của nhóm chúng ta sử dụng là Z2 và Z2 ©Z2 sau:

Nói cách khác, ỵl (j) là chính là phần tử (/, j) tương ứng trong bảng đặc trung

5.5. Áp dụng tìm bất biến trên một cây sinh loài

5.5.1. Mô hình bài toán

Các nghiên cứu phát sinh sinhloài

Mô hình bài toán câysinh loài