Tiếp cận phương pháp maximum likelihood để tái cấu trúc cây sinh loài
Trang 1Tiếp cận phương pháp maximum
likelihood để tái cấu trúc cây
sinh loài
Trang 2Nội dung(1)
• Cây phân loài
• Maximum likelihood
• Mô hình tiến hóa
• MLE trên một mô hình tiến hóa
• Tìm hiểu trong thời gian tới
Trang 3Cây sinh loài
• Phát sinh sinh loài đó là tái tạo lịch sử tiến hóa.
• Dựa trên các phương pháp toán học để
suy luận lịch sử tiến hóa sự sống trên
hành tinh chúng ta.
• Việc tái cấu trúc này liên quan đến việc
nhận diện chỉ định những đặc tính đồng
dạng (homologous characters)- được chia
sẻ giữa các lòai sinh vật khác nhau.
Trang 4Cây sinh loài
Trang 5Một số phương pháp tái cấu trúc
cây sinh loài
1 Trong phương pháp Maximum parsimony (MP): một sự giả định cho rằng cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các lòai ít thay đổi nhất tức là có ít đột bi ế n nh ấ t.
2 Phương pháp distance method: Trong phương pháp
này từng cặp trình tự một sẽ được so sánh thẳng hàng cặp đôi và ứng với từng cặp, khỏang cách di truyền sẽ được tính tóan
3 Phương pháp Maximum Likelihood (ML): h ợp lý tối đa là phương pháp tiêu tốn nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất Ứng với mỗi mô hình tiến hóa được chọn, phương pháp này sẽ tính tóan khả năng xác suất mà một cây tiến hóa có thể có từ chuỗi trình tự
phân tích Cây tiến hóa có xác suất cao nhất là cây cuối
Trang 6Ứơc lượng hợp lí cực đại (MLE)
• Xét mô hình thống kê trên không gian trạng thái
hữu hạn [m]:={1, 2, 3,…, m}.
• Một phân bố xác suất trên tập [m] là một bộ đơn
giản sau:
Trang 7Ứơc lượng hợp lí cực đại (MLE)
• Một mô hình thống kê đại số là một ánh xạ
với là các tham số chưa biết mô hình
• Các tham số phân bố trên tập mở
Rd được gọi là không gian tham số của mô
Trang 8Ứơc lượng hợp lí cực đại (MLE)
• Dữ liệu của chúng ta được cho bởi dạng một chuỗi của sự quan sát
với i j là một phần tử trong không gian trạng thái
[m], và N chiều dài của chuỗi quan sát, thường
gọi là kích cỡ của mẫu
u=i1 ,i2 ,i3 , ,iN
Trang 9Dữ liệu thống kê và “good fit”
đối với dữ liệu
• Chúng ta nói rằng mô hình f là thích hợp đối
với dữ liệu u nếu tồn tại một vector
sao cho phân bố xác suất xấp xỉ
với tần số mẫu với Nm
Trang 10Hàm hợp lí (likelihood function)
• Xác suất của chuỗi mẫu quan sát bằng:
• Nếu v được xác định thì L là một hàm từ vào R+, được gọi là hàm hợp lí (likelihood function)
• Vấn đề của ước lượng hợp lí cực đại là làm cực đại hàm .
Trang 11Log hàm hợp lí
• Vì hàm và hàm log có cùng điểm
cực trị, mà hàm lại biểu diễn dưới
dạng tích nên ta thay phương trình hợp lý
bởi dạng phương trình tương đương
mục đích giảm nhẹ khâu tính tóan: lấy đạo hàm và giải phương trình.
Lθ
l θ =log L θ =v1log f 1 θ v m log f mθ =∑
i=1 m
v i log f iθ
Trang 12Ví dụ: Bài tóan DiaNA
• Một người là DiaNA có 3 tứ diện có tên là X, Y,
Z trên mỗi tứ diện được đánh các nhãn là A, G,
C, T
Trang 13Bài toán DiaNA (tt)
• DiaNA chọn ngẫu nhiên một trong 3 tứ
diện trên trước khi tung ngẫu nhiên chúng, gọi xác suất để nhận các mặt A, G, C, T
Trang 14Bài tóan DiaNA (tt)
• Giả sử 2 tứ diện X, Y không cân đối, vì thế khi tung lên và xác suất nhận các mặt tiếp đất khác nhau và cho ở bảng sau:
• Sau 49 lần chọn và tung, DiaNA ghi nhận được dãy chuỗi u sau :
u= TCACGTGATGAGAGCATTCTCAGACCGTGACGCGTGTAGCAGCGGCTC
Trang 15Tham số hóa mô hình thống kê
bài tóan
• DiaNA sẽ chọn tứ diện X, Y, Z với xác suất
tương ứng là và trước khi tung
Trang 16Xác định xác suất từng kí tự
Xác suất của từng P A , P C , P G , P T :
Trang 17Giải tìm nghiệm hợp lí cực đại
• Giải bài tóan cực trị hàm log likelihood trên
Trang 18Nhận xét kết quả bài toán
• Giá trị hàm log likelihood:
Và xác suất tương ứng:
và gần với tần số mẫu:
Trang 19Mô hình tiến hóa
• Chuỗi phân kỳ từ cùng một tổ tiên nhưng vì sự hoán chuyển và chia rẽ của sự hóan chuyển đó làm tiến hóa cộng đồng bởi sự chọn lọc, kết quả của sự thay đổi trạng thái của một nucleotide
thành một nucleotide khác ở những vị trí khác nhau
• Tái cấu trúc cây sinh loài, chúng ta cần phải
chấp nhận một số giả định về quá trình và trạng thái thay thế ở trong mô hình
Trang 20Mô hình tiến hóa
• Mô hình đơn giản nhất là mô hình mà trong đó khả năng của bất kỳ nucleotide nào thay đổi
thành bất kỳ nucleotide khác là bằng nhau
• Dự đoán khả năng rằng một nucleotide cụ thể ở một vị trí cụ thể sẽ thay đổi đến một nucleotide xác định khác trên một khoảng thời gian, chúng
ta cần phải biết là tỉ lệ tức thời của sự thay đổi
• Mô hình đơn giản này có một tham số và được biết là mô hình Jukes-Cantor
Trang 21Ma trận này thường được gọi là ma trận Q Q.
Đây không phải ma trận xác xuất, mà là ma trận các tỉ lệ, tổng các phần tử của một hàng bằng 0.
Trang 22Ma trận xác suất thay thế
• Từ ma trận tỉ lệ thay thế tức thời đó chúng ta tính ma trận thay thế tương ứng θ(t) bởi mũ e.
• Qua một số phép tính toán ta có
Trang 23Xác suất chuyển đổi
• Vậy: Nếu chúng ta biết có G ở vị trí nào đó ở thời điểm t=0, chúng ta hỏi rằng khả năng bao nhiêu ở đó vẫn là G vào thời điểm t (kí hiệu
P (GG) (t) ), và tương tự như vậy khả năng là bao
nhiêu nếu như A thay thế vào vị trí đó (kí hiệu
P (GA) (t)).
• Nếu tỉ lệ thay đổi là trên đơn vị thời gian như
mô hình Jukes - Cantor trên, thì:
P (t) = 1/4 + 3/4e-4t and P (t)=1/4-1/ 4e-4t
Trang 24Nhận xét về xác suất chuyển đổi
• Bởi vì theo mô hình Jukes-Cantor thì tất
cả thay thế là như nhau, nên phát biểu
chung là:
P(ii)(t) = 1/4 + 3/4e-4t và P(ij)(t)=1/4-1/4e-4t
• Ta thấy:
– Khi t 0 thì P(ii) 1 và P(ij)0,
– Khi t ∞ thì P(ii) 1/4 và P(ij)1/4
Trang 25Một số mô hình khác
• Hiện nay, ngòai mô hình Jukes-Cantor
còn có một số mô hình khác thường sử dụng như: Kimura-2, Kimura-3,… Trong các mô hình này có sự khác nhau về tỉ lệ thay đổi trạng thái giữa các Base
Trang 26Dữ kiện cho trước của mô hình
tiến hóa
• Khi sử dụng mô hình tiến hóa để tái cấu trúc cây, một là gán giá trị cụ thể cho tỉ lệ hoặc là ước lượng giá trị từ dữ liệu.
• Những mô hình này hoàn toàn giả định rằng các tốc độ là như nhau ở tất cả các
vị trí
Trang 27Maximum Likelihood
• Maximum likelihood (ML) cố gắng suy ra một cây sinh loài bằng cách tìm ra cây mà cực đại khả năng đối với dữ liệu mẫu.
• Dữ liệu mẫu ở đây là những chuỗi bằng nhau của nucleotides hoặc amino acids.
Trang 28• Chúng ta bắt đầu với một mô hình tiến hóa
cho bởi ma trận Q và một giả định một số hình dáng cây với chiều dài tương ứng
Trang 29Một dạng cây phân loài
• Có 15 khả năng cho các dạng cây có gốc với 4 taxa, một trong những cây đó là
Y X
Trang 30Các khả năng xảy ra
• Chúng ta không biết các nucleotide ở nút
X và Y, nhưng có 4 khả năng xảy ra cho mỗi nút X và Y, vậy có có 16 trường hợp
có thể xảy ra ở cây trên, một trong những trường hợp đó là:
T
Trang 31Các xác suất
• Xác xuất cho sự kiện mà mẫu quan sát A
ở gốc là PA, bằng tần suất xuất hiện của A
và thường bằng 1/4, độc lập với mô hình.
• Xác suất thay đổi từ A ở gốc đến G ở lá
được tính toán từ ma trận Q và chiều dài của nhánh từ A đến G là PAG
T
Trang 32Xác suất của cây
Xác suất của cây là:
Ptree1=PA x PAG x PAC x PAT x PTT x PTT
Bởi vì có 16 trường hợp như vậy, xác suất của cây được tính bằng tổng khả năng
như sau:
Ptree_i = Ptree1 + Ptree2 + + Ptree16
Đây chỉ là xác suất cho cây đó cho dữ liệu quan sát ở một vị trí i được đánh dấu màu
T A
Trang 33Hàm log likelihood của cây
Khả năng của toàn bộ dữ liệu mẫu ở tất cả các
vị trí là tích các khả năng cho mỗi một vị trí từ 1 đến N
i=1
Trang 34Nhận xét
• Hàm likelihood là một hàm khá phức tạp,
để tính toán là một việc khó Vì lí do đó nên với phương pháp MLE, người ta sử dụng nhiều phương pháp toán học khác nhau, đáng kể nhất là đại số máy tính để giải bài toán này.
• Cũng vì nguyên nhân trên, một số công trình hiện nay chỉ giải được với các dạng
Trang 35Tìm hiểu trong thời gian tới
– Tìm hiểu kỹ mô hình hoá bài toán trên cây
sinh loài với cách tiếp cận ML
– Phương pháp chung giải bài toán ML trên một
số cây sinh loài nhỏ và giải quyết trên 1 cây
cụ thể
– Theo cách tiếp cận khác để giải quyết bài
toán cho một số cây sinh loài đặc biệt
Trang 36Nội dung(2)
• Nghiên cứu cây phân loài trên mô hình
Jukes-Cantor
• Lấy ví dụ với một cây cụ thể và giải bài
toán trên với phương pháp MLE, nhận xét.
• Biến đổi Fourier (hay kết hợp
Hadamard), nhận xét.
• Hướng nghiên cứu tiếp theo.
Trang 37Mô hình Jukes-Cantor
• Theo phần trước với mô hình Jukes-Cantor ma trận thay thế là:
• Giả sử T có r cạnh và n lá Đặt θ i = θ i (ti) là ma trận thay thế trạng thái tương ứng với cạnh thứ i của T Tiếp theo,
ta đặt πi=(1-e -4αiti )/4 và μi=(1+3e -4αiti )/4
Vậy
Trang 38Hàm số trên Mô hình
Trang 39Ví dụ: Cây phân loài
• Cho cây có hình dáng như sau: Một đỉnh gốc và 3 nút lá được đánh nhãn tương ứng là 1, 2 và 3.
Với n = r = 3,
vậy
Trang 40Số đa thức ánh xạ
• Ta có {A,C, G,T}4 là 44 = 64 nhưng chỉ có 5
đa thức của các tọa độ của f là khác nhau
– Đặt p123 là xác suất của mẫu quan sát mà 3 kí
tự giống nhau ở 3 lá, pdis là xác suất của mẫu quan sát mà 3 kí tự khác nhau riêng biệt ở 3 lá
– pij là xác suất của mẫu quan sát mà 2 kí tự I
và j giống nhau và khác ở 3 lá thứ 3
Trang 41Số đa thức ánh xạ (tt)
• Thì:
Trang 42Tọa độ tương ứng
• Tất cả có 64 trường hợp tương ứng được cho bởi 5 đa thức trên:
Trang 43Ánh xạ đơn giản hơn của mô
hình
• Theo slide trước, mô hình Jukes-Cantor chúng
ta đang xét là một hàm đơn giản hơn sau:
(Chỉ có 3 tham số bởi vì 3πi+μi=1)
• Cụ thể hơn với cây đang xét có 3 cạnh bằng nhau, hay là μ1= μ2= μ3= x và π1= π2 = π3= y Thay vào các xác suất trên ta được
Trang 44Ánh xạ đơn giản hơn của mô
Trang 45Hàm likelihood
• Nếu v=(v1,v2,v3,v4,v5) là số luợng mẫu quan sát tương ứng với 5 trường hợp đã xét ở trên thì hàm likelihood tương ứng là:
Trang 46Mẫu dữ liệu cho 3 lá của cây
S ố lượng tương ứng của mẫu quan sát trên:
v1=17, v2=3,v3+v4+v5=12
Vậy:
Trang 47Giải hàm likelihood
Vậy:
Į = 17ln(x 3 +3y 3 )+3ln(18xy 2 +6y 3 )+12ln(3x 2 y+3xy 2 +6y 3 )
Thay x=1-3y vào phưong trình trên, ta có:
Į =17ln(1-9y+27y 2 -24y 3 )+3ln(18y 2 -48y 3 )+12ln(3y-15y 2 +24y 3 )
Đạo hàm l theo y:
Į =2592000y 8 -4701888y 7 +3421764y 6 -1274292y 5 +250722y 4 -23274y 3 +648y 2
Giải phương trình Į = 0 ta được:
Trang 48Nhận xét
• Đây là trường hợp đối với một cây đơn giản cho nên nên số tham số và bậc phương trình không lớn lắm
• Tuy nhiên đối với mô hình khác và cây có hình dáng phức tạp hơn, thì số tham số cũng như số bậc của hệ thống phương trình cần giải rất lớn
• Điều đó dẫn đến việc là phải có phương pháp toán học để giảm thiểu việc tính toán
Trang 49Biến đổi Fourier
• Người ta thấy rằng sự kết hợp các p123, pdis, p12,
p13, p23 theo một hệ phương trình tuyến tính với một qui luật nào đó thì kết quả là các đơn thức của các tham số
Trang 50Phần bất biến của phép biến đổi
Trang 51Nhận xét (Hạn chế chưa biết)
• Về việc biến đổi Fourier chỉ nắm ý tưởng còn cách thức như thế nào chưa được rõ lắm.
• Sẽ tìm hiểu và hoàn thiện dần trong thời gian tới