Trong ngành sinh học, người ta nghiên cứu mối quan hệ giữa các loài sinh vật thông qua các bằng chứng phân tử, cụ thể là trình tự DNA và protein. Như vậy sự khác biệt giữa các trình tự (DNA) chỉ định sự phân kỳ di truyền như là kết quả của tiến hóa phân tử theo tiến trình thời gian.
Các phưong pháp dùng để nghiên cứu phát sinh sinh loài chủ yếu dựa trên một sự giả định về các tiến trình tiến hóa ở mức phân tử thông qua việc quan sát phân tích trình tự DNA hoặc protein. Bằng cách sử dụng công cụ máy tính, các chuỗi dữ liệu sẽ được mô phỏng tiến trình tiến hóa và phân tích tiến trình phát sinh sinh loài. Giả sử là chúng ta có một “cây tiến hóa đúng”, chúng ta có thể dùng nó để kiểm tra lại độ chính xác, tính nhất quán khả năng tin cậy của những mô hình tiến hóa. Tuy nhiên khi sử dụng các dữ liệu sinh học, cái gọi là cây tiến hóa có thể không bao giờ có, hoặc ít ra cũng có thể nói là KHÔNG BIÊT. Do vậy người ta chấp nhận một cây tiến hóa được dựng nên mà người ta tin là nó GIÔNG NHÂT với cây tiến hóa đúng.
Trong các bước trình tự cơ bản để cho một nghiên cứu phát sinh sinh loài thì đánh giá sự phát sinh sinh loài cũng là một bước không thể bỏ qua. Sau đây là một số phương pháp được sử dụng hiện nay:
Phương pháp Hà tiện tối đa (Maximum parsimony), một sự giả định cho rằng cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các loài ít thay đổi nhất tức là có ít đột biến nhất, cây vì thế có điểm thấp nhất (hà tiện) theo một tiêu chuẩn định sẵn.
Phương pháp Khoảng cách (Distance method)'. Khác với phương pháp parsimony có mô hình tiến hóa là một hàm ẩn, thì phương pháp khoảng cách lại có mô hình tiến hóa là một hàm hiện. Trong phương pháp này từng cặp trình tự một sẽ được so sánh thẳng hàng cặp đôi và ứng với từng cặp, khoảng cách di truyền sẽ được tính toán. Do mô hình tiến hóa là một hàm hiện nên một trong số mô hình tiến hóa có thể được chọn để tính toán khoảng cách di truyền giữa từng cặp taxa từ đó cho ra một ma trận khoảng cách giữa tất cả các taxa. Và để có được cây tiến hóa, phương pháp phân rã hình ngôi sao thường được sử dụng ví dụ phương pháp neighbor-joining(liên kết cận kề). Do phương pháp neighbor-joining mà một trong những phương pháp nhanh nhất để dò tìm cây tiến hóa nên nó thường được sử dụng để phân tích khối dữ liệu lớn với nhiều taxa.
Phương pháp Hợp lý cực đại (.Maximum Likelihood) là phương pháp tiêu tốn nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất. Mô hình tiến hóa dùng trong phương pháp này cũng là một hàm hiện, ứng với mỗi mô hình tiến hóa được chọn, phương pháp này sẽ tính toán khả năng xác suất mà một cây tiến hóa có thể có từ chuỗi trình tự phân tích. Cây tiến hóa có xác suất cao nhất là cây cuối cùng được chọn.
Chúng ta tập trung vào phương pháp ML, để hiểu được điều này chúng ta bắt đầu với những ví dụ cụ thể để mô hình hóa bài toán trên cây sinh loài.
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
4.3. Mô hình ước lượng hợp lý cực đại trên cây sinh
loài
Cho Sỉ, S2, SN là một dãy mẫu DNA mà chúng ta có. Đe đon giản, giả thiết
rằng mọi chuỗi trên có cùng chiều dài. Chúng ta muốn xác định những tham số của một cây sinh loài thông qua dãy mẫu trên và làm cực đại khả năng có thể xảy ra.
Để giải bài toán này ta cần chỉ rõ một mô hình xác suất. Cho đon giản, giả thiết “DNA” của chúng ta chỉ có hai trạng thái X và Y. Cạnh e đuợc gán xác suất pe, có nghĩa là xác suất những thay thế (X OY) ngang qua e là pe{Hình 4).
xxyxy---yxyxx
Pe
Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA”
Phải chăng cạnh e được gán xác suất pe, có nghĩa xác suất của những mẫu liên quan thay thế ngang qua e, ví dụ XXYXY<Y> YXYXX được xác định rõ, và dễ dàng tính toán hàm Likelihood cho mẫu này: pl( 1 - pe)3.
Qua bài toán trên có câu hỏi đặt ra như sau: Cái gì “hợp lý” mẫu trên? Có nghĩa là tìm kiếm pe mà nó làm cực đại xác suất của các mẫu trên.
Mở rộng mô hình bài toán trên, mô hình mới của chúng ta sẽ gồm có một cây thông thường, nhưng ngoài ra các cạnh được gán những xác suất thay thế.
Hình 5: Cây sinh loài vói các nút trong và xác suất chuyển đổi
a a a a a a a a a a a 4al 1-ẽ4* 1 CO 1 1 1 + 3e~4M — 1 1 O ĩC 1 1 1 + 'ìẽ~4a‘ 1 co 4al 1 x-ẽ** + U ) P<GG)(0 = ^ + -ậeAM ™ P(G
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bây giờ chúng ta không biết trạng thái ở tại nút trong, đồng thời cũng không biết những tham số cạnh pei ,pe2 , pei ,pet , pe PH 5).
Hai hướng được đưa ra:
1. Cực đại qua những trạng thái của những nút bên trong.
2. Trung bình qua những trạng thái của những nút bên trong.
Trong cả hai trường hợp, chúng ta đều làm cực đại những tham số qua cạnh.
Trong hưởng đầu tiên (trung bình, hoặc tồng những trạng thái những nút trong) chúng ta đang tìm kiếm “thích hợp nhất” đặt trên những cạnh của cây. Hướng này được gọi là cực đại khả năng cây sinh loài.
Trong hướng này ML có lẽ là phưong pháp suy diễn rộng rãi nhất được sử dụng hiện nay.
Trong hưởng thứ hai (làm cực đại qua những trạng thái của nhũng nút trong) Chúng ta đang tìm kiếm “thích hợp nhất” những trạng thái to tiên. Hướng này được cực đại khả năng xảy ra ở tổ tiên (ancestral maximum lỉkelihood -AML).
Hướng thứ hai cũng phải sử dụng phưong pháp ML bởi vì mục tiêu cuối cùng cũng phải là cực đại khả năng.
4.4. Mô hình tiến hóa
Bùi Văn Đồng Trang 33
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Ma trận tỷ lệ có được từ ý nghĩa từ tỷ lệ tức thời của đột biến. Từ ma trận tỷ lệ
Q, chúng ta có thể tính được ma trận thay thế 0{t) bởi hàm mũ theo công thức sau:
eự)=eQ' =
Phần tử của 6{t) ở dòng ỉ và cột j chính là xác suất mà sự thay đổi
i—>---> j xảy ra trong một khoảng thời gian là t.
Mô hình đơn giản có một tham số và được biết là mô hình Jukes-Cantor với tỷ lệ chuyển đổi từ một nucleotide này đến một nucleotide khác là bằng nhau như sau:
Và ma trận thay thế tương ứng là:
Ma trận 0{t) thỏa: các phần tử của ma trận đều lớn hơn hoặc bằng 0 và nhỏ hơn hoặc bằng 1, tổng các phần tử trên một hàng bằng 1.
Chúng ta cần xác định tính họp lý mô hình trên. Giả sử chúng ta có ơ ở vị trí nào đó ở thời điểm t = 0, chúng ta hỏi rằng khả năng bao nhiêu ở đó vẫn là G vào thời điểm t (kí hiệu P(GG)(0)> và tương tự như vậy khả năng là bao nhiêu nếu như A thay
thế vào vị trí đó (kí hiệu P(GA) (t)). Neu tỉ lệ thay đổi là a trẽn đơn vị thời gian như mô hình Jukes - Cantor trên, thì:
Cũng theo mô hình Jukes-Cantor thì tất cả thay thế là như nhau, nên phát biểu chung là:
Ta thấy:
Khi t —> 0thì Pựị^(t)—> 1và P(ij)(0 —^
Bùi Văn Đồng Trang 34
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Khi í —» 0 0 thì Pơoự) - và Pạj)(t) -> i
Điều này rõ ràng là phù họp với thực tế của mô hình Jukes - Cantor, vì tại một thời điểm tức thời việc giử nguyên trạng thái với xác suất rõ ràng là bằng 1 và chuyển trạng thái này sang trạng thái khác là 0. Tuơng tự khi thời gian vô cùng lớn thì việc chuyển đổi trạng thái từ một nucleotide này sang một nucleotide khác hay giữ nguyên trạng thái là bằng nhau và bằng 0.25.
Hiện nay, ngoài mô hình Jukes-Cantor còn có một số mô hình khác thuờng sử dụng nhu: Kimura-2, Kimura-3,.... Trong các mô hình này có sự khác nhau về tỉ lệ thay đổi trạng thái giữa các co sở. Khi sử dụng mô hình tiến hóa để tái cấu trúc cây, một là gán giá trị cụ thể cho tỉ lệ hoặc là uớc luợng giá trị từ dữ liệu. Những mô hình này hoàn toàn giả định rằng các tốc độ là nhu nhau ở tất cả các vị trí.
ML cố gắng suy ra một cây sinh loài bằng cách tìm ra cây mà cực đại khả năng đối với dữ liệu mẫu.
Ví dụ: Dữ liệu mẫu ở đây là những chuỗi bằng nhau của nucleotides hoặc amino acids (chiều dài mỗi chuỗi N=32)\
T c AAAAAT GGCTTT ATTCGCTT AAT GCCGTT A T CCGT G AT GG ATTT ATTT c T GC AAT GCCT GT
c
TTCGTGATGGATTTATTGTTGGTATGCCAGTC TTCGTGACGGGTTTATCTTGGCAATGCCGGTC
Chúng ta bắt đầu với một mô hình tiến hóa cho bởi ma trận 6{t) và một giả định một số hình dáng cây với chiều dài tuơng ứng.
Có 15 khả năng cho các dạng cây có gốc với 4 taxa, một trong những cây đó là
hình 6, trong đó các đỉnh ở lá tuong ứng với các dữ liệu dóng theo cột đuợc đánh dấu đánh đậm trên 4 chuỗi trên.
Hình 6: Một trong những cây sinh loài 4 taxa
Chúng ta không biết các nucleotide ở nút X và Y, nhung có 4 khả năng xảy ra cho mỗi nút X và Y, vậy có có 16 truờng họp có thể xảy ra ở cây trên, một trong những truờng họp đó là hình 7.
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
& c T T
A
Hình 7: Cây sinh loài vói dữ liệu trên nút lá và các khả năng xảy ra ở các nút tổ
Bởi vì có 16 trường họp như vậy, xác suất của cây được tính bằng tổng các khả năng như sau:
Đây chỉ là xác suất cho cây với dữ liệu quan sát ở một vị trí i được đánh dấu màu đậm ở các chuỗi trên.
Áp dụng phương pháp ML là tìm xác suất các Ptree ị hay rõ hơn là tìm xác suất chuyển đổi trạng thái trên các nhánh của cây dựa theo tham số của ma trận 9{t) trên từng nhánh của cây sao cho xác suất PTREE đạt giá trị lớn nhất.
Tuy nhiên việc giải bài toán trên là việc giải một hệ thống phương trình phi tuyến với nhiều ẩn số. Việc giải bằng tay là một điều không thể. Hướng giải quyết đưa ra là chọn một phương pháp toán học thích họp kết họp những ứng dụng của đại số máy tính hiện nay chúng ta có thể giải quyết bài toán trên với một số cây sinh loài nhỏ với một số mô hình chuyển đổi thường sử dụng.Với cách tiếp cận như vậy chúng ta có thể giải tìm nghiệm chính xác cho bài toán trẽn. Một trong những phương pháp đó là tìm thành phần bất biến trên cây sinh loài sẽ giới thiệu ở chương sau.
p — p -ị- p 4- ... 4- p
i=1
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Chương 5. BẤT BIẾN TRÊN CÂY SINH LOÀI
Theo chưomg trước chúng ta nhận thấy, giải bài toán cây sinh loài dẫn đến giải một bài toán cực đại một phương trình phi tuyến rất nhiều ẩn. Việc làm này khó khả thi ngay cả những cây sinh loài nhỏ. Người ta nhận thấy, đối với những mô hình thường sử dụng, trên cây sinh loài tồn tại những thành phần bất biến. Đối với một cây sinh loài cụ thể thành phần không đổi và không phụ thuộc vào mẫu dữ liệu quan sát. Từ những thành phần bất biến này, thay vì giải bài toán trên các tham số thì ta giải bài toán tương đương dựa trên các thành phần bất biến với sẽ đơn giản hơn. Trong chương này tập trung vào việc tìm tất cả thành phần bất biến. Cuối chương có một ví dụ về bất biến trên một cây sinh loài cụ thể.
5.1. Dẩn nhập
Mô hình thống kê đại số mà chúng ta đang xét trên cây sinh loài là một ánh xạ có dạng:
f:Cd^Cm
ở đây không gian tổng quát trên trường số phức, tuy nhiên các toạ độ thực tế fx,--;fm
của hàm số là các đa thức có hệ số hữu tỷ, có nghĩa là fx,...,fm e Q[\ỡx,...,ỡd].
Sử dụng phương pháp hợp lý cực đại, với các chuỗi dữ liệu quan sát ta có phương trình họp lý tương ứng sau:
L=/r (1)
trong đó Uị,...9umlà các số nguyên dương.
Mục tiêu cuối cùng là làm cực đại hàm L trên bằng cách giải các phương trình đạo hàm riêng của nó:
z
i=0
= 0 với j=\, ..,d (2)
Tuy nhiên, khi nghiên cứu bài toán trên cây sinh loài các đa thức fx,...,f là những phương trình phi tuyến với nhiều tham số 6X, ..;ỡd, cho nên việc giải bài toán trên với việc giải hệ phương trình (2) là việc làm khó khả thi.
Một câu hỏi được đặt ra: các tập ảnh fx,...,fm như thế nào khi các
0X,..., 0d chạy trên miền xác định của nó? Neu chúng ta xác định được tập các ảnh
fx,...,fm thì thay vì giải quyết bài toán (1) trẽn các tham số 0x,...,6d chúng ta chỉ xét bài toán (1) trên các tọa độ fx,...,fm sẽ đơn giản hơn nhiều.
Vỉ dụ: Chúng ta xét các ví dụ với ánh xạ /: c2 —» c3
(i) Nếu / = (ỡỊ,ỡ\02,0xỡ2) thì tập ảnh là nghiệm phương trình /2 - /3 = 0 (ii) Nếu / = (6X ,26x62,ỡị) thì tập ảnh là nghiệm phương
trình/22 - 4/ , / 3 = 0
(iii) Nếu / = (Oị + 0X02,0X + 02,0X02 + 02) thì tập ảnh là nghiệm phương trình 2n(/i +/2-/3) ( / 2 + / 3 -/1 )5 - ( / 1 + / 3 -/2 )2 0 = 0
Qua các ví dụ trên có nhận xét sau: Các đa thức fx,...,fm ở dạng những đơn thức thì tập ảnh là nghiệm của những phương trình đơn giản, ngược lại thì là những phương
trình bậc rất lớn.
Quay trở lại bài toán trên cây sinh loài chúng ta quan tâm, những đa thức /j ,...,/w đối với từng cây cụ thể có tính chất riêng của chúng. Tập hợp ảnh của những
fx,...,fm tức là tìm tất cả các phương trình quan hệ của chúng. Tập các phương trình như thế được gọi là thành phần bất biến của cây sinh loài.
Mục tiêu của phần này giới thiệu một phép biến đổi có tên là phép biến đồi Fourier để tìm ra tất cả các bất biến trên một cây sinh loài cụ thể.
5.2. Mô hình xác suất trên cây sinh loài
5.2.1. Mô hình bài toán cây sinh loài
Cho T là cây có gốc với n lá. Đặt V(T) là tập các nút của T. Với mỗi một
V E V(T), chúng ta kí hiệu biến Xv, mồi biến này mang 1 trong k giá trị. Trong sinh
hầu như có các giá trị 2, 4 và 20. Kí hiệu P(XV = i) cho xác suất Xv mang trạng thái /.
Mối quan hệ giữa các biến ngẫu nhiên Xy được xác định bởi cấu trúc của cây. Đặt 71 là phân bố của biến xrtại nút gốc r.Với mỗi một nút veV (T) \ {r}, đặt a(v) là nút cha duy nhất của V. Sự chuyển trạng thái từ a(v) đến V được cho bởi ma trận xác
suất chuyển đổi A(v) có kích cỡ k X k. Và xác suất phân bố ở mỗi một nút được tính toán đệ quy như sau:
P{XV= 7 ) = ấ 4V) ~p(x«(v)=0
i= 1
Công thức này được suy ra từ phân bố trên tất cả biến ngẫu nhiên Xv. Chúng ta gán nhãn các nút lá cho rbởi 1, 2, ..., n và ta có xác suất phân bố các biến tại các lá:
ph h. . i , = P ( X ị = h,x2
Trong các ứng dụng sinh học, người ta ước lượng có kn khả năng từ n chuỗi bằng nhau trên Ả: kí tự. Mục đích chúng ta là dựa vào n chuỗi bằng nhau đó, xác định hình dáng cây sinh loài ở quá khứ mà khả năng xảy ra lớn nhất, nói cách khác là tái cấu trúc cây sinh loài. Vậy đầu vào bài toán chúng ta chỉ có n mẫu dữ liệu, tức là n
chuỗi DNA tương ứng, các phân bố gốc 71 và ma trận chuyển trạng thái A(v) là chưa biết. Tuy nhiên để đơn giản cho các bài toán, người ta đưa ra các mô hình đơn giản
av av 1 ồ K cv cv K K cv cv K -cv av <*v > >