Tiếp cận phương pháp maximum likelihood để tái cấu trúc cây sinh loài

Trang 1

Tiếp cận phương pháp maximum

likelihood để tái cấu trúc cây

sinh loài

Trang 2

Nội dung(1)

• Cây phân loài

• Maximum likelihood

• Mô hình tiến hóa

• MLE trên một mô hình tiến hóa

• Tìm hiểu trong thời gian tới

Trang 3

Cây sinh loài

• Phát sinh sinh loài đó là tái tạo lịch sử tiến hóa.

• Dựa trên các phương pháp toán học để

suy luận lịch sử tiến hóa sự sống trên

hành tinh chúng ta.

• Việc tái cấu trúc này liên quan đến việc

nhận diện chỉ định những đặc tính đồng

dạng (homologous characters)- được chia

sẻ giữa các lòai sinh vật khác nhau.

Trang 4

Cây sinh loài

Trang 5

Một số phương pháp tái cấu trúc

cây sinh loài

1 Trong phương pháp Maximum parsimony (MP): một sự giả định cho rằng cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các lòai ít thay đổi nhất tức là có ít đột bi ế n nh ấ t.

2 Phương pháp distance method: Trong phương pháp

này từng cặp trình tự một sẽ được so sánh thẳng hàng cặp đôi và ứng với từng cặp, khỏang cách di truyền sẽ được tính tóan

3 Phương pháp Maximum Likelihood (ML): h ợp lý tối đa là phương pháp tiêu tốn nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất Ứng với mỗi mô hình tiến hóa được chọn, phương pháp này sẽ tính tóan khả năng xác suất mà một cây tiến hóa có thể có từ chuỗi trình tự

phân tích Cây tiến hóa có xác suất cao nhất là cây cuối

Trang 6

Ứơc lượng hợp lí cực đại (MLE)

• Xét mô hình thống kê trên không gian trạng thái

hữu hạn [m]:={1, 2, 3,…, m}.

• Một phân bố xác suất trên tập [m] là một bộ đơn

giản sau:

Trang 7

• Một mô hình thống kê đại số là một ánh xạ

với là các tham số chưa biết mô hình

• Các tham số phân bố trên tập mở

Rd được gọi là không gian tham số của mô

Trang 8

• Dữ liệu của chúng ta được cho bởi dạng một chuỗi của sự quan sát

với i j là một phần tử trong không gian trạng thái

[m], và N chiều dài của chuỗi quan sát, thường

gọi là kích cỡ của mẫu

u=i1 ,i2 ,i3 , ,iN

Trang 9

Dữ liệu thống kê và “good fit”

đối với dữ liệu

• Chúng ta nói rằng mô hình f là thích hợp đối

với dữ liệu u nếu tồn tại một vector

sao cho phân bố xác suất xấp xỉ

với tần số mẫu với Nm

Trang 10

Hàm hợp lí (likelihood function)

• Xác suất của chuỗi mẫu quan sát bằng:

• Nếu v được xác định thì L là một hàm từ vào R+, được gọi là hàm hợp lí (likelihood function)

• Vấn đề của ước lượng hợp lí cực đại là làm cực đại hàm .

Trang 11

Log hàm hợp lí

• Vì hàm và hàm log có cùng điểm

cực trị, mà hàm lại biểu diễn dưới

dạng tích nên ta thay phương trình hợp lý

bởi dạng phương trình tương đương

mục đích giảm nhẹ khâu tính tóan: lấy đạo hàm và giải phương trình.

Lθ 

l  θ =log L θ =v1log f 1 θ  v m log f mθ =∑

i=1 m

v i log f iθ 

Trang 12

Ví dụ: Bài tóan DiaNA

• Một người là DiaNA có 3 tứ diện có tên là X, Y,

Z trên mỗi tứ diện được đánh các nhãn là A, G,

C, T

Trang 13

Bài toán DiaNA (tt)

• DiaNA chọn ngẫu nhiên một trong 3 tứ

diện trên trước khi tung ngẫu nhiên chúng, gọi xác suất để nhận các mặt A, G, C, T

Trang 14

Bài tóan DiaNA (tt)

• Giả sử 2 tứ diện X, Y không cân đối, vì thế khi tung lên và xác suất nhận các mặt tiếp đất khác nhau và cho ở bảng sau:

• Sau 49 lần chọn và tung, DiaNA ghi nhận được dãy chuỗi u sau :

u= TCACGTGATGAGAGCATTCTCAGACCGTGACGCGTGTAGCAGCGGCTC

Trang 15

Tham số hóa mô hình thống kê

bài tóan

• DiaNA sẽ chọn tứ diện X, Y, Z với xác suất

tương ứng là và trước khi tung

Trang 16

Xác định xác suất từng kí tự

Xác suất của từng P A , P C , P G , P T :

Trang 17

Giải tìm nghiệm hợp lí cực đại

• Giải bài tóan cực trị hàm log likelihood trên

Trang 18

Nhận xét kết quả bài toán

• Giá trị hàm log likelihood:

Và xác suất tương ứng:

và gần với tần số mẫu:

Trang 19

Mô hình tiến hóa

• Chuỗi phân kỳ từ cùng một tổ tiên nhưng vì sự hoán chuyển và chia rẽ của sự hóan chuyển đó làm tiến hóa cộng đồng bởi sự chọn lọc, kết quả của sự thay đổi trạng thái của một nucleotide

thành một nucleotide khác ở những vị trí khác nhau

• Tái cấu trúc cây sinh loài, chúng ta cần phải

chấp nhận một số giả định về quá trình và trạng thái thay thế ở trong mô hình

Trang 20

Mô hình tiến hóa

• Mô hình đơn giản nhất là mô hình mà trong đó khả năng của bất kỳ nucleotide nào thay đổi

thành bất kỳ nucleotide khác là bằng nhau

• Dự đoán khả năng rằng một nucleotide cụ thể ở một vị trí cụ thể sẽ thay đổi đến một nucleotide xác định khác trên một khoảng thời gian, chúng

ta cần phải biết là tỉ lệ tức thời của sự thay đổi

• Mô hình đơn giản này có một tham số và được biết là mô hình Jukes-Cantor

Trang 21

Ma trận này thường được gọi là ma trận Q Q.

Đây không phải ma trận xác xuất, mà là ma trận các tỉ lệ, tổng các phần tử của một hàng bằng 0.

Trang 22

Ma trận xác suất thay thế

• Từ ma trận tỉ lệ thay thế tức thời đó chúng ta tính ma trận thay thế tương ứng θ(t) bởi mũ e.

• Qua một số phép tính toán ta có

Trang 23

Xác suất chuyển đổi

• Vậy: Nếu chúng ta biết có G ở vị trí nào đó ở thời điểm t=0, chúng ta hỏi rằng khả năng bao nhiêu ở đó vẫn là G vào thời điểm t (kí hiệu

P (GG) (t) ), và tương tự như vậy khả năng là bao

nhiêu nếu như A thay thế vào vị trí đó (kí hiệu

P (GA) (t)).

• Nếu tỉ lệ thay đổi là  trên đơn vị thời gian như

mô hình Jukes - Cantor trên, thì:

P (t) = 1/4 + 3/4e-4t and P (t)=1/4-1/ 4e-4t

Trang 24

Nhận xét về xác suất chuyển đổi

• Bởi vì theo mô hình Jukes-Cantor thì tất

cả thay thế là như nhau, nên phát biểu

chung là:

P(ii)(t) = 1/4 + 3/4e-4t và P(ij)(t)=1/4-1/4e-4t

• Ta thấy:

– Khi t 0 thì P(ii) 1 và P(ij)0,

– Khi t ∞ thì P(ii) 1/4 và P(ij)1/4

Trang 25

Một số mô hình khác

• Hiện nay, ngòai mô hình Jukes-Cantor

còn có một số mô hình khác thường sử dụng như: Kimura-2, Kimura-3,… Trong các mô hình này có sự khác nhau về tỉ lệ thay đổi trạng thái giữa các Base

Trang 26

Dữ kiện cho trước của mô hình

tiến hóa

• Khi sử dụng mô hình tiến hóa để tái cấu trúc cây, một là gán giá trị cụ thể cho tỉ lệ hoặc là ước lượng giá trị từ dữ liệu.

• Những mô hình này hoàn toàn giả định rằng các tốc độ là như nhau ở tất cả các

vị trí

Trang 27

Maximum Likelihood

• Maximum likelihood (ML) cố gắng suy ra một cây sinh loài bằng cách tìm ra cây mà cực đại khả năng đối với dữ liệu mẫu.

• Dữ liệu mẫu ở đây là những chuỗi bằng nhau của nucleotides hoặc amino acids.

Trang 28

• Chúng ta bắt đầu với một mô hình tiến hóa

cho bởi ma trận Q và một giả định một số hình dáng cây với chiều dài tương ứng

Trang 29

Một dạng cây phân loài

• Có 15 khả năng cho các dạng cây có gốc với 4 taxa, một trong những cây đó là

Y X

Trang 30

Các khả năng xảy ra

• Chúng ta không biết các nucleotide ở nút

X và Y, nhưng có 4 khả năng xảy ra cho mỗi nút X và Y, vậy có có 16 trường hợp

có thể xảy ra ở cây trên, một trong những trường hợp đó là:

T

Trang 31

Các xác suất

• Xác xuất cho sự kiện mà mẫu quan sát A

ở gốc là PA, bằng tần suất xuất hiện của A

và thường bằng 1/4, độc lập với mô hình.

• Xác suất thay đổi từ A ở gốc đến G ở lá

được tính toán từ ma trận Q và chiều dài của nhánh từ A đến G là PAG

T

Trang 32

Xác suất của cây

Xác suất của cây là:

Ptree1=PA x PAG x PAC x PAT x PTT x PTT

Bởi vì có 16 trường hợp như vậy, xác suất của cây được tính bằng tổng khả năng

như sau:

Ptree_i = Ptree1 + Ptree2 + + Ptree16

Đây chỉ là xác suất cho cây đó cho dữ liệu quan sát ở một vị trí i được đánh dấu màu

T A

Trang 33

Hàm log likelihood của cây

Khả năng của toàn bộ dữ liệu mẫu ở tất cả các

vị trí là tích các khả năng cho mỗi một vị trí từ 1 đến N

i=1

Trang 34

Nhận xét

• Hàm likelihood là một hàm khá phức tạp,

để tính toán là một việc khó Vì lí do đó nên với phương pháp MLE, người ta sử dụng nhiều phương pháp toán học khác nhau, đáng kể nhất là đại số máy tính để giải bài toán này.

• Cũng vì nguyên nhân trên, một số công trình hiện nay chỉ giải được với các dạng

Trang 35

Tìm hiểu trong thời gian tới

– Tìm hiểu kỹ mô hình hoá bài toán trên cây

sinh loài với cách tiếp cận ML

– Phương pháp chung giải bài toán ML trên một

số cây sinh loài nhỏ và giải quyết trên 1 cây

cụ thể

– Theo cách tiếp cận khác để giải quyết bài

toán cho một số cây sinh loài đặc biệt

Trang 36

Nội dung(2)

• Nghiên cứu cây phân loài trên mô hình

Jukes-Cantor

• Lấy ví dụ với một cây cụ thể và giải bài

toán trên với phương pháp MLE, nhận xét.

• Biến đổi Fourier (hay kết hợp

Hadamard), nhận xét.

• Hướng nghiên cứu tiếp theo.

Trang 37

Mô hình Jukes-Cantor

• Theo phần trước với mô hình Jukes-Cantor ma trận thay thế là:

• Giả sử T có r cạnh và n lá Đặt θ i = θ i (ti) là ma trận thay thế trạng thái tương ứng với cạnh thứ i của T Tiếp theo,

ta đặt πi=(1-e -4αiti )/4 và μi=(1+3e -4αiti )/4

Vậy

Trang 38

Hàm số trên Mô hình

Trang 39

Ví dụ: Cây phân loài

• Cho cây có hình dáng như sau: Một đỉnh gốc và 3 nút lá được đánh nhãn tương ứng là 1, 2 và 3.

Với n = r = 3,

vậy

Trang 40

Số đa thức ánh xạ

• Ta có {A,C, G,T}4 là 44 = 64 nhưng chỉ có 5

đa thức của các tọa độ của f là khác nhau

– Đặt p123 là xác suất của mẫu quan sát mà 3 kí

tự giống nhau ở 3 lá, pdis là xác suất của mẫu quan sát mà 3 kí tự khác nhau riêng biệt ở 3 lá

– pij là xác suất của mẫu quan sát mà 2 kí tự I

và j giống nhau và khác ở 3 lá thứ 3

Trang 41

Số đa thức ánh xạ (tt)

• Thì:

Trang 42

Tọa độ tương ứng

• Tất cả có 64 trường hợp tương ứng được cho bởi 5 đa thức trên:

Trang 43

Ánh xạ đơn giản hơn của mô

hình

• Theo slide trước, mô hình Jukes-Cantor chúng

ta đang xét là một hàm đơn giản hơn sau:

(Chỉ có 3 tham số bởi vì 3πi+μi=1)

• Cụ thể hơn với cây đang xét có 3 cạnh bằng nhau, hay là μ1= μ2= μ3= x và π1= π2 = π3= y Thay vào các xác suất trên ta được

Trang 44

Ánh xạ đơn giản hơn của mô

Trang 45

Hàm likelihood

• Nếu v=(v1,v2,v3,v4,v5) là số luợng mẫu quan sát tương ứng với 5 trường hợp đã xét ở trên thì hàm likelihood tương ứng là:

Trang 46

Mẫu dữ liệu cho 3 lá của cây

S ố lượng tương ứng của mẫu quan sát trên:

v1=17, v2=3,v3+v4+v5=12

Vậy:

Trang 47

Giải hàm likelihood

Vậy:

Į = 17ln(x 3 +3y 3 )+3ln(18xy 2 +6y 3 )+12ln(3x 2 y+3xy 2 +6y 3 )

Thay x=1-3y vào phưong trình trên, ta có:

Į =17ln(1-9y+27y 2 -24y 3 )+3ln(18y 2 -48y 3 )+12ln(3y-15y 2 +24y 3 )

Đạo hàm l theo y:

Į =2592000y 8 -4701888y 7 +3421764y 6 -1274292y 5 +250722y 4 -23274y 3 +648y 2

Giải phương trình Į = 0 ta được:

Trang 48

Nhận xét

• Đây là trường hợp đối với một cây đơn giản cho nên nên số tham số và bậc phương trình không lớn lắm

• Tuy nhiên đối với mô hình khác và cây có hình dáng phức tạp hơn, thì số tham số cũng như số bậc của hệ thống phương trình cần giải rất lớn

• Điều đó dẫn đến việc là phải có phương pháp toán học để giảm thiểu việc tính toán

Trang 49

Biến đổi Fourier

• Người ta thấy rằng sự kết hợp các p123, pdis, p12,

p13, p23 theo một hệ phương trình tuyến tính với một qui luật nào đó thì kết quả là các đơn thức của các tham số

Trang 50

Phần bất biến của phép biến đổi

Trang 51

Nhận xét (Hạn chế chưa biết)

• Về việc biến đổi Fourier chỉ nắm ý tưởng còn cách thức như thế nào chưa được rõ lắm.

• Sẽ tìm hiểu và hoàn thiện dần trong thời gian tới

Định dạng
Số trang	51
Dung lượng	391,33 KB