Tính likelihood cho một cây theo định nghĩa

Một phần của tài liệu (LUẬN án TIẾN sĩ) các phương pháp nhanh xây dựng cây bootstrap tiến hóa002 (Trang 54 - 56)

2.2 Thuật tốn pruning để tính likelihood cây

2.2.1 Tính likelihood cho một cây theo định nghĩa

Như đã giới thiệu trong phần 1.3.4, xây dựng cây tiến hóa theo tiêu chuẩn ML

thực chất gồm hai bước tối ưu: (i) với một cấu trúc phân nhánh 𝑇𝑇 cụ thể, tối ưu các tham số của mơ hình tiến hóa 𝑄𝑄 và tối ưu độ dài các cạnh để tính điểm ℓ(𝑇𝑇,𝑄𝑄|𝐴𝐴) và (ii) khám phá không gian các cấu trúc phân nhánh ứng viên để tìm cấu trúc phân

nhánh 𝑇𝑇∗làm cực đại hàm log-likelihood.

𝑇𝑇∗ =𝑡𝑡𝑎𝑎𝑔𝑔𝑚𝑚𝑡𝑡𝑥𝑥𝑇𝑇 {ℓ(𝑇𝑇,𝑄𝑄|𝐴𝐴)}

Đây là một bài tốn khó và phức tạp, nó thuộc lớp các bài tốn NP-khó [10].

2.2 Thut tốn pruning để tính likelihood cây

Phần này tóm tắt lại phương pháp tính likelihood trên một mơ hình tiến hóa có các tham số đã xác định cho một cây đã biết độ dài cạnh theo hai cách: (i) sử dụng

định nghĩa và (ii) sử dụng thuật toán pruning như được trình bày trong [22] để thấy được vai trị quan trọng của thuật toán pruning trong xây dựng cây tiến hóa theo tiêu

chuẩn ML. Ví dụ đưa ra minh họa việc tính tốn cho các chuỗi DNA nhưng có thể tổng quát hóa cho tất cả các mơ hình ký tự rời rạc.

2.2.1 Tính likelihood cho một cây theo định nghĩa

Giả sử ta có một sắp hàng DNAgồm 𝑚𝑚 vị trí. Ta được cho một cây biết độ dài cạnh và một mơ hình tiến hóa 𝑄𝑄 cho phép tính các xác suất biến đổi trạng thái trên cây này. Cụ thể, mơ hình cho phép tính các xác suất chuyển trạng thái 𝑝𝑝𝑖𝑖𝑖𝑖(𝑡𝑡), là xác suất trạng thái 𝑗𝑗 sẽ tồn tại ở điểm kết thúc của một cạnh độ dài 𝑡𝑡, nếu trạng thái ở

điểm bắt đầu của cạnh là 𝑖𝑖. Lưu ý: để tiện lợi 𝑡𝑡 được gọi là “thời gian” trong luận án

này nhưng nó là độ dài cạnh chứ khơng phải thời gian thực sự. Để tính likelihood, ta

cần sử dụng 2 giả thiết:

2. Việc tiến hóa của các cạnh khác nhau là độc lập.

Giả thiết đầu cho phép phân rã likelihood thành một tích, mỗi nhân tử ứng với một vị trí trên sắp hàng như trong (2.1). Suy ra, để tính likelihood cho cây trên một sắp hàng ta chỉ cần biết cách tính likelihood cho cây tại một vị trí đơn lẻ. Với ví dụ trong Hình 2.1, likelihood cho cây tại ví trí minh họa 𝐴𝐴𝑖𝑖 là một tổng, trên tất cả các nucleotide

ứng viên có thể tồn tại ở các đỉnh trong của cây, của các xác suất cho từng ngữ cảnh

biến cố: 𝑃𝑃(𝐴𝐴𝑖𝑖|𝑇𝑇) = � � � � 𝑃𝑃(A, C, C, C, G,𝑢𝑢,𝑣𝑣,𝑧𝑧,𝑤𝑤|𝑇𝑇) 𝑤𝑤 𝑧𝑧 𝑣𝑣 𝑢𝑢 (2.3)

mỗi tổng chạy trên tất cả bốn nucleotide.

Giả thiết về tính độc lập của việc tiến hóa tại từng cạnh cho phép phân rã xác suất ở vế phải của (2.3) thành một tích của các nhân tử:

𝑃𝑃(A, C, C, C, G,𝑢𝑢,𝑣𝑣,𝑧𝑧,𝑤𝑤|𝑇𝑇) = 𝑃𝑃(𝑢𝑢) 𝑝𝑝𝑢𝑢𝑣𝑣(𝑡𝑡6) 𝑝𝑝𝑣𝑣A(𝑡𝑡1) 𝑝𝑝𝑣𝑣C(𝑡𝑡2) 𝑝𝑝𝑢𝑢𝑧𝑧(𝑡𝑡8) 𝑝𝑝𝑧𝑧C(𝑡𝑡3) 𝑝𝑝𝑧𝑧𝑤𝑤(𝑡𝑡7) 𝑝𝑝𝑤𝑤C(𝑡𝑡4) 𝑝𝑝𝑤𝑤G(𝑡𝑡5) (2.4) t1 A C C C G v t2 t3 t4 t5 t6 t7 t8 u z w

Hình 2.1. Một cây biết độ dài cạnh và dữ liệu tại một vị trí đơn lẻ trên sắp hàng. Ví dụ này

Trong thực hành, ta đặt 𝑃𝑃(𝑢𝑢) bằng xác suất cân bằng của ký tự trạng thái 𝑢𝑢 theo mơ hình biến đổi nucleotide. Những xác suất khác được tính từ mơ hình biến đổi nucleotide theo cơng thức (1.2). Biến đổi ở mỗi cạnh độc lập với tất cả các cạnh khác nếu ký tự trạng thái ở điểm bắt đầu cạnh ấy đã xác định.

Biểu thức (2.4) khó tính tốn do có nhiều hạng tử bên trong. Với mỗi vị trí sắp hàng, ta tính tổng của 44 = 256 hạng tử. Số hạng tử tăng theo hàm mũ so với số

lượng loài. Trên một cây có gốc có 𝑛𝑛 lồi, ta có 𝑛𝑛 −1 đỉnh trong, mỗi đỉnh trong có

thể nhận một trong 4 trạng thái. Do đó ta cần 4𝑛𝑛−1 hạng tử.

Một phần của tài liệu (LUẬN án TIẾN sĩ) các phương pháp nhanh xây dựng cây bootstrap tiến hóa002 (Trang 54 - 56)

Tải bản đầy đủ (PDF)

(122 trang)