Tiếp cận phương pháp maximum likelihood để tái cấu trúc cây sinh loài

51 813 3
Tiếp cận phương pháp maximum likelihood để tái cấu trúc cây sinh loài

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tiếp cận phương pháp maximum likelihood để tái cấu trúc cây sinh loài

Tiếp cận phương pháp maximum likelihood để tái cấu trúc sinh loài Nội dung(1) • • • • • Cây phân loài Maximum likelihood Mô hình tiến hóa MLE mô hình tiến hóa Tìm hiểu thời gian tới Cây sinh loài • Phát sinh sinh loài tái tạo lịch sử tiến hóa • Dựa phương pháp toán học để suy luận lịch sử tiến hóa sống hành tinh • Việc tái cấu trúc liên quan đến việc nhận diện định đặc tính đồng dạng (homologous characters)- chia sẻ lòai sinh vật khác Cây sinh loài • Định nghĩa: Một sinh loài S với đỉnh gốc T với tất đỉnh bên có bậc tối thiểu 3, nhãn biểu diễn tập hợp S gồm có dạng khác (được gọi taxa) Một số phương pháp tái cấu trúc sinh loài Trong phương pháp Maximum parsimony (MP): giả định cho tiến hóa tốt mổ tả tiến trình tiến hóa tốt mô tả lòai thay đổi tức có đột biến Phương pháp distance method: Trong phương pháp cặp trình tự so sánh thẳng hàng cặp đôi ứng với cặp, khỏang cách di truyền tính tóan Phương pháp Maximum Likelihood (ML): hợp lý tối đa phương pháp tiêu tốn nhiều thời gian lại cho kết đáng tin cậy Ứng với mô hình tiến hóa chọn, phương pháp tính tóan khả xác suất mà tiến hóa có từ chuỗi trình tự phân tích Cây tiến hóa có xác suất cao cuối chọn Ứơc lượng hợp lí cực đại (MLE) • Xét mô hình thống kê không gian trạng thái hữu hạn [m]:={1, 2, 3,…, m} • Một phân bố xác suất tập [m] đơn giản sau: Ứơc lượng hợp lí cực đại (MLE) • Một mô hình thống kê đại số ánh xạ với tham số chưa biết mô hình • Các tham số phân bố tập mở Θ ⊂¿ ¿ Rd gọi không gian tham số mô hình f Giả sử fi(θ)>0 tất i є[m] θ є Θ Từ giả thuyết đó, có: Ứơc lượng hợp lí cực đại (MLE) • Dữ liệu cho dạng chuỗi quan sát u=i1 ,i2 ,i3 , ,i N với ij phần tử không gian trạng thái [m], N chiều dài chuỗi quan sát, thường gọi kích cỡ mẫu Dữ liệu thống kê “good fit” liệu • Chúng ta nói mô hình f thích hợp liệu u tồn vector θ ∈Θ cho phân bố xác suất f θ  xấp xỉ v v= v , v , v , , v ∈¿ với tần số mẫu w:= N với Nm ¿ v k :=∣{ j ∈[ N ]:i j =k}∣ m Hàm hợp lí (likelihood function) • Xác suất chuỗi mẫu quan sát bằng: v v L θ = f i  θ  f i  θ  f i  θ = f  θ  f  θ  f m  θ  2 v m N • Nếu v xác định L hàm từ Θ vào R+, gọi hàm hợp lí (likelihood function) • Vấn đề ước lượng hợp lí cực đại làm cực đại hàm Lθ  Mô hình Jukes-Cantor • Theo phần trước với mô hình Jukes-Cantor ma trận thay là: • Giả sử T có r cạnh n Đặt θi = θi(ti) ma trận thay trạng thái tương ứng với cạnh thứ i T Tiếp theo, ta đặt πi=(1-e-4αiti)/4 μi=(1+3e-4αiti)/4 Vậy Hàm số Mô hình JukesCantor • Người ta thấy rằng: mô hình Jukes-Cantor T có r cạnh n ánh xạ: Với tọa độ hàm số f đa thức chứa tham số mô hình (π1,μ1),…, (πr,μr) Ví dụ: Cây phân loài • Cho có hình dáng sau: Một đỉnh gốc nút đánh nhãn tương ứng 1, Với n = r = 3, Số đa thức ánh xạ • Ta có {A,C, G,T}4 44 = 64 có đa thức tọa độ f khác – Đặt p123 xác suất mẫu quan sát mà kí tự giống lá, pdis xác suất mẫu quan sát mà kí tự khác riêng biệt – pij xác suất mẫu quan sát mà kí tự I j giống khác thứ Số đa thức ánh xạ (tt) • Thì: Tọa độ tương ứng • Tất có 64 trường hợp tương ứng cho đa thức trên: Ánh xạ đơn giản mô hình • Theo slide trước, mô hình Jukes-Cantor xét hàm đơn giản sau: (Chỉ có tham số 3πi+μi=1) • Cụ thể với xét có cạnh nhau, μ1= μ2= μ3= x π1= π2 = π3= y Thay vào xác suất ta Ánh xạ đơn giản mô hình (tt) • p123= x3+3y3 • Pdis=18xy2+6y3 • p12=p13=p23=3x2y+3xy2+6y3 • Vậy ánh xạ thật cần xét là: Hàm likelihood • Nếu v=(v1,v2,v3,v4,v5) số luợng mẫu quan sát tương ứng với trường hợp xét hàm likelihood tương ứng là: L= (p123 )v1 (pdis)v2(p12)v3(p13)v4(p23)v5 = (p123 )v1 (pdis)v2(p12)v3+v4+v5 Và hàm log likelihood tương ứng: Į= lnL=v1ln(p123)+v2ln(pdis)+(v3+v4+v5)ln(p12) Mục tiêu tìm tham số μ(hoặc π) để làm cực đại hàm Mẫu liệu cho TACAAAATGGCTTTATTCGCTTAATGCCGTTA TCCGTGATGGATTTATTTCTGCAATGCCTGTC TTCGTGATGGATTTATTGCTGGTATGCCAGTC Số lượng tương ứng mẫu quan sát trên: v1=17, v2=3,v3+v4+v5=12 Vậy: Į = 17ln(x3+3y3)+3ln(18xy2+6y3)+12ln(3x2y+3xy2+6y3) Giải hàm likelihood Vậy: Į = 17ln(x3+3y3)+3ln(18xy2+6y3)+12ln(3x2y+3xy2+6y3) Thay x=1-3y vào phưong trình trên, ta có: Į =17ln(1-9y+27y2-24y3)+3ln(18y2-48y3)+12ln(3y-15y2+24y3) Đạo hàm l theo y: Į =2592000y8-4701888y7+3421764y6-1274292y5+250722y4-23274y3+648y2 Giải phương trình Į = ta được: • [1]: • 0.04575561368 • [2]: • 0.2619139838 • [3]: • 0.3426270963 • [4]: • 0.5653626935 Nhận xét • Đây trường hợp đơn giản nên số tham số bậc phương trình không lớn • Tuy nhiên mô hình khác có hình dáng phức tạp hơn, số tham số số bậc hệ thống phương trình cần giải lớn • Điều dẫn đến việc phải có phương pháp toán học để giảm thiểu việc tính toán Biến đổi Fourier • Người ta thấy kết hợp p123, pdis, p12, p13, p23 theo hệ phương trình tuyến tính với qui luật kết đơn thức tham số (Đặt qijk tương ứng với μr=1-3πi) Phần bất biến phép biến đổi Fourier • Với phép biến đổi trên, ta có: q000(q111)2 − q011q101q110 = • Đây phần bất biến ta xét, thay p123, pdis, p12, p13, p23 ngược lại vào bất biến trên, kết hợp với phương trình likelihood tìm nghiệm nhanh chóng Nhận xét (Hạn chế chưa biết) • Về việc biến đổi Fourier nắm ý tưởng cách thức chưa rõ • Sẽ tìm hiểu hoàn thiện dần thời gian tới [...]... bài toán trên cây sinh loài với cách tiếp cận ML – Phương pháp chung giải bài toán ML trên một số cây sinh loài nhỏ và giải quyết trên 1 cây cụ thể – Theo cách tiếp cận khác để giải quyết bài toán cho một số cây sinh loài đặc biệt Nội dung(2) • • • • Nghiên cứu cây phân loài trên mô hình Jukes-Cantor Lấy ví dụ với một cây cụ thể và giải bài toán trên với phương pháp MLE, nhận xét Biến đổi Fourier (hay... cho trước của mô hình tiến hóa • Khi sử dụng mô hình tiến hóa để tái cấu trúc cây, một là gán giá trị cụ thể cho tỉ lệ hoặc là ước lượng giá trị từ dữ liệu • Những mô hình này hoàn toàn giả định rằng các tốc độ là như nhau ở tất cả các vị trí Maximum Likelihood • Maximum likelihood (ML) cố gắng suy ra một cây sinh loài bằng cách tìm ra cây mà cực đại khả năng đối với dữ liệu mẫu • Dữ liệu mẫu ở đây... • Hàm likelihood là một hàm khá phức tạp, để tính toán là một việc khó Vì lí do đó nên với phương pháp MLE, người ta sử dụng nhiều phương pháp toán học khác nhau, đáng kể nhất là đại số máy tính để giải bài toán này • Cũng vì nguyên nhân trên, một số công trình hiện nay chỉ giải được với các dạng cây nhỏ 3 và 4 taxa Tìm hiểu trong thời gian tới – Tìm hiểu kỹ mô hình hoá bài toán trên cây sinh loài. .. G là PAG G C T T T A Xác suất của cây G C T T T Xác suất của cây là: A Ptree1=PA x PAG x PAC x PAT x PTT x PTT Bởi vì có 16 trường hợp như vậy, xác suất của cây được tính bằng tổng khả năng như sau: Ptree_i = Ptree1 + Ptree2 + + Ptree16 Đây chỉ là xác suất cho cây đó cho dữ liệu quan sát ở một vị trí i được đánh dấu màu đỏ ở phần trước Hàm log likelihood của cây Khả năng của toàn bộ dữ liệu mẫu... hoán chuyển và chia rẽ của sự hóan chuyển đó làm tiến hóa cộng đồng bởi sự chọn lọc, kết quả của sự thay đổi trạng thái của một nucleotide thành một nucleotide khác ở những vị trí khác nhau • Tái cấu trúc cây sinh loài, chúng ta cần phải chấp nhận một số giả định về quá trình và trạng thái thay thế ở trong mô hình Mô hình tiến hóa • Mô hình đơn giản nhất là mô hình mà trong đó khả năng của bất kỳ nucleotide... cho bởi ma trận Q và một giả định một số hình dáng cây với chiều dài tương ứng Một dạng cây phân loài • Có 15 khả năng cho các dạng cây có gốc với 4 taxa, một trong những cây đó là G C T T Y X Các khả năng xảy ra • Chúng ta không biết các nucleotide ở nút X và Y, nhưng có 4 khả năng xảy ra cho mỗi nút X và Y, vậy có có 16 trường hợp có thể xảy ra ở cây trên, một trong những trường hợp đó là: G C T... chúng ngẫu nhiên • Hàm likelihood và log likelihood cho mẫu dữ liệu trên là: • Hàm hợp lý là một hàm thực trên tam gíac Xác định xác suất từng kí tự Xác suất của từng PA, PC, PG, PT: Giải tìm nghiệm hợp lí cực đại • Giải bài tóan cực trị hàm log likelihood trên bằng cách giải hệ phương trình ∂l ∂l = =0 ∂θ 1 ∂ θ 2 ta tính được nghiệm: Nhận xét kết quả bài toán • Giá trị hàm log likelihood: Và xác suất... một trong 3 tứ diện trên trước khi tung ngẫu nhiên chúng, gọi xác suất để nhận các mặt A, G, C, T tiếp đất tương ứng là: p A , pG , p C , pT p i = 1 and p i ≥0 for all i 4  p A , p G , p C , p T  : ¿ Δ = Δ m −1 : =¿ ¿ ∑ i= 1 ¿ Bài tóan DiaNA (tt) • Giả sử 2 tứ diện X, Y không cân đối, vì thế khi tung lên và xác suất nhận các mặt tiếp đất khác nhau và cho ở bảng sau: • Sau 49 lần chọn và tung, DiaNA... Vì hàm Lθ  và hàm log Lθ  có cùng điểm cực trị, mà hàm Lθ  lại biểu diễn dưới dạng tích nên ta thay phương trình hợp lý bởi dạng phương trình tương đương m l  θ =log L θ =v 1 log f 1  θ  v m log f m  θ =∑ v i log f i  θ  i=1 mục đích giảm nhẹ khâu tính tóan: lấy đạo hàm và giải phương trình Ví dụ: Bài tóan DiaNA • Một người là DiaNA có 3 tứ diện có tên là X, Y, Z trên mỗi tứ diện... • Nghiên cứu cây phân loài trên mô hình Jukes-Cantor Lấy ví dụ với một cây cụ thể và giải bài toán trên với phương pháp MLE, nhận xét Biến đổi Fourier (hay kết hợp Hadamard), nhận xét Hướng nghiên cứu tiếp theo ... • • Cây phân loài Maximum likelihood Mô hình tiến hóa MLE mô hình tiến hóa Tìm hiểu thời gian tới Cây sinh loài • Phát sinh sinh loài tái tạo lịch sử tiến hóa • Dựa phương pháp toán học để suy... hiểu kỹ mô hình hoá toán sinh loài với cách tiếp cận ML – Phương pháp chung giải toán ML số sinh loài nhỏ giải cụ thể – Theo cách tiếp cận khác để giải toán cho số sinh loài đặc biệt Nội dung(2)... Một số phương pháp tái cấu trúc sinh loài Trong phương pháp Maximum parsimony (MP): giả định cho tiến hóa tốt mổ tả tiến trình tiến hóa tốt mô tả lòai thay đổi tức có đột biến Phương pháp distance

Ngày đăng: 02/02/2016, 09:46

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan