1.3 Xây dựng cây tiến hóa
1.3.4 Tiêu chuẩn hợp lý nhất (maximum likelihood – ML)
Cơ sở của tiếp cận hợp lý nhất: ML được phát triển bởi R. A. Fisher trong
thập niên 1920 như một phương pháp luận thống kê để ước lượng các tham số chưa biết trong một mơ hình. Hàm likelihood được định nghĩa là xác suất của dữ liệu khi biết các tham số nhưng lại thường được xem là hàm của các tham số khi dữ liệu đã
quan sát được và cố định. Ước lượng hợp lý nhất là những giá trị của tham số làm
cực đại likelihood. Thông thường, ước lượng hợp lý nhất được tìm thấy bằng các
thuật tốn tối ưu hóa lặp của phương pháp số.
Xây dựng cây tiến hóa theo ML: Thuật tốn đầu tiên phân tích dữ liệu chuỗi
DNA theo ML được Felsenstein phát triển [20]. Phương pháp này hiện đang được sử
dụng rộng rãi nhờ vào sự gia tăng sức mạnh tính tốn của máy tính và phần mềm và nhờ việc các mơ hình tiến hóa ngày càng thực tế hơn. Lưu ý rằng để ước lượng cây tiến hóa theo ML cần hai bước tối ưu: (i) với một cấu trúc phân nhánh cụ thể, tối ưu
các tham số của mơ hình tiến hóa và tối ưu độ dài các cạnh để tính điểm likelihood và (ii) khám phá khơng gian cấu trúc phân nhánh để tìm cấu trúc phân nhánh làm cực
đại hàm likelihood. Suy luận cây theo ML tương đương với việc so sánh nhiều giả
thuyết thống kê có cùng số lượng tham số.
Tính tốn likelihood cho một cây cụ thể theo các mơ hình biến đổi khác nhau
được giải thích trong [22,101]. Do giả thiết về tính độc lập giữa tiến hóa của các vị
trí trong chuỗi, likelihood của cây trên sắp hàng được tính bằng tích likelihood của cây cho từng vị trí.
Trong Hình 1.6, ta xét một ví dụ đã được đơn giản hóa để minh họa cách tính
likelihood của cây tại một vị trí sắp hàng 𝐴𝐴𝑖𝑖, với tập trạng thái giả định ℰ = {G, C}, số lượng lồi 𝑛𝑛 = 2 và mơ hình tiến hóa có các tham số đã xác định. Việc đầu tiên khi tìm likelihood của cây trên sắp hàng là đặt gốc trên một cạnh bất kì của cây.
Trường hợp này, ta chỉ có một cách là đặt gốc trên cạnh nối 2 đỉnh lá, gọi cây ví dụ
là cây 𝑇𝑇.
Ta có likelihood của cây 𝑇𝑇 tại 𝐴𝐴𝑖𝑖:
𝐿𝐿(𝑇𝑇|𝐴𝐴𝑖𝑖) = 𝑃𝑃(𝐴𝐴𝑖𝑖|𝑇𝑇) = 𝑃𝑃(𝑔𝑔ố𝑐𝑐 = G|𝑇𝑇) +𝑃𝑃(𝑔𝑔ố𝑐𝑐 = C|𝑇𝑇)
=𝑃𝑃(𝑔𝑔ố𝑐𝑐 = G) 𝑝𝑝GG(𝑡𝑡1) 𝑝𝑝GC(𝑡𝑡2) +𝑃𝑃(𝑔𝑔ố𝑐𝑐 = C) 𝑝𝑝CG(𝑡𝑡1) 𝑝𝑝CC(𝑡𝑡2)
hay 𝐿𝐿(𝑇𝑇|𝐴𝐴𝑖𝑖) = 𝜋𝜋G 𝑝𝑝GG(𝑡𝑡1) 𝑝𝑝GC(𝑡𝑡2) +𝜋𝜋C 𝑝𝑝CG(𝑡𝑡1) 𝑝𝑝CC(𝑡𝑡2) (1.3) Trong (1.3), 𝜋𝜋G,𝜋𝜋C lần lượt là tần suất của các ký tự trạng thái G, C được cho trong mơ hình tiến hóa; 𝑝𝑝GG(𝑡𝑡1),𝑝𝑝GC(𝑡𝑡2),𝑝𝑝CG(𝑡𝑡1), 𝑝𝑝CC(𝑡𝑡2) được tính theo cơng thức (1.2) khi được cho mơ hình tiến hóa.
gốc
G C
t1 t2
Hình 1.6. Một cây 𝑇𝑇 đơn giản để minh họa cách tính likelihood của cây tại một vị trí sắp hàng.
Sau khi đã thiết lập được biểu thức của likelihood theo độ dài cạnh, ta điều chỉnh độ dài từng cạnh để làm cực đại likelihood. Với dữ liệu thực, việc khảo sát độ dài
cạnh thường được thực hiện nhờ phương pháp số, chẳng hạn bằng phương pháp
Newton-Raphson [63].