Chương 1: Cơ sở lý thuyết
1.1 Các khái niệm cơ bản
1.1.6 Xây dựng cây phân loài bằng phương pháp cực đại khả năng
Các thuật toán xây dựng cây phân loài có thể chia thành bốn nhóm là: phương pháp cực tiểu số lượng biến đổi, phương pháp dựa trên khoảng cách và hai phương pháp dựa trên mô hình xác suất là phương pháp Bayes và phương pháp cực đại khả năng.
Phương pháp cực tiểu số lượng biến đổi xây dựng cây phân loài dựa vào phân tích đặc điểm của các trình tự trong sắp hàng. Ý tưởng cốt lõi của phương pháp cực tiểu
số lượng biến đổi là: cây mô tả quá trình tiến hóa tốt nhất là cây có thể biểu diễn dữ liệu cần ít thay đổi nhất hay chính là cây có tổng số lượng biến đổi trên các cạnh nhỏ nhất [15]. Cây tốt nhất có thể tìm theo phương pháp duyệt toàn bộ, tuy nhiên với số lượng cấu trúc cây tăng theo hàm mũ những phương pháp này chỉ thực hiện được trên các bộ dữ liệu nhỏ; trong thực tế các nghiên cứu thường dùng phương pháp leo đồi kết hợp với các kỹ thuật tạo cây khác nhau để xây dựng cây với số lượng lên đến hàng nghìn trình tự [15]–[17] .
Xây dựng cây phân loài dựa vào khoảng cách giữa các trình tự là phương pháp được phát triển và sử dụng rộng rãi [18]–[20]. Xét một cây 𝑇 có 𝑛 lá tương ứng với các đối
n Số lượng cây phân loài không có gốc
3 1
4 3
5 15
6 105
… …
10 2,027,025
… …
20 13,113,070,457,687,988,603,440,625
34
tượng đang được nghiên cứu, khoảng cách giữa hai lá 𝑖 và 𝑗 được tính bằng tổng độ dài các cạnh nằm trên đường đi từ 𝑖 tới 𝑗 trên 𝑇. Với đầu vào là một sắp hàng 𝑛 trình
tự tương đồng, trước hết ta cần tính ma trận khoảng cách di truyền 𝑊 giữa các cặp trình tự; đầu ra của bài toán là cây nhị phân 𝑛 lá sao cho khoảng cách giữa các lá phù hợp với khoảng cách tương ứng trong ma trận khoảng cách 𝑊. Cách đơn giản nhất
để sử dụng ma trận khoảng cách là bắt đầu với 𝑛 đỉnh rời nhau, sau đó lần lượt gộp hai đỉnh gần nhất thành một đỉnh mới và lặp lại việc này đến khi xây dựng cây 𝑛 lá hoàn chỉnh. Ưu điểm của phương pháp dựa trên khoảng cách so với các phương pháp còn lại là chỉ thực hiện tính toán trên ma trận khoảng cách giữa các trình tự, trong khi
số trình tự trong sắp hàng thường nhỏ hơn độ dài sắp hàng nhiều lần. Do vậy cây phân loài được tìm ra nhanh chóng. Cây phân loài xây dựng bằng các phương pháp khoảng cách thường được sử dụng làm cây bắt đầu cho các thuật toán tối ưu cây khác, ví dụ như làm cây bắt đầu cho các thuật toán cực đại khả năng [2].
Đối với phương pháp Bayes trước tiên ta gán xác suất cho cấu trúc cây theo hiểu biết sẵn có, nếu chưa có tri thức gì về cấu trúc cây của các loài đang nghiên cứu thì ta gán xác suất bằng nhau cho các tất cả các cây. Sau đó, ta lấy mẫu dữ liệu và sử dụng một
mô hình tiến hóa ngẫu nhiên cùng với định lý Bayes để tính toán khả năng xảy ra của những cây này. Các cây được xếp vào một trong hai loại là chấp nhận hoặc loại bỏ dựa trên một ngưỡng do người dùng đặt ra. Nếu một cấu trúc cây được chấp nhận, cấu trúc này được thêm vào phân phối hậu nghiệm. Sau khi lặp lại quá trình này với
số lần đủ lớn, ta thu được một phân phối hậu nghiệm lớn. Khi đó, xác suất một cây được chấp nhận trên tất cả số lần lấy mẫu là xác suất hậu nghiệm mà cây đó là cây phân loài trong thực tế [2].
Cực đại khả năng (ML – maximum likehood) là phương pháp thống kê được sử dụng rộng rãi để ước lượng các tham số của mô hình xác suất tương ứng với bộ dữ liệu quan sát được. Hiện nay phương pháp ML được sử dụng phổ biến trong việc xây dựng cây phân loài vì thường cho kết quả tốt hơn các phương pháp khác [2].
35 Hình 1. 2. Cây có một đỉnh gốc và hai lá
Với một sắp hàng cho trước 𝐷 = {𝑑 , 𝑑 , … , 𝑑 } là một sắp hàng có 𝑛 trình tự, mỗi trình tự 𝑑 có độ dài 𝑙 (𝑑 = 𝑑 𝑑 … 𝑑 . Phương pháp ML xác định cây nhị phân không gốc 𝑇 và mô hình thay thế nucleotit/axit amin 𝑄 làm cực đại hóa hàm khả năng 𝐿(𝑇|𝑄, 𝐷):
𝐿(𝑇|𝑄, 𝐷) = 𝐿(𝑇|𝑄, 𝑑 )
(1.8)
Trong đó 𝑑 là cột thứ 𝑖 của sắp hàng và giá trị khả năng tại mỗi vị trí 𝑖 (cột 𝑖) là một hàm tỉ lệ thuận với xác suất thu được của dữ liệu:
𝐿(𝑇|𝑄, 𝑑 ) ∝ 𝑃(𝑑 |𝑇, 𝑄) (1.9)
Các tham số cần được xác định ở đây là cấu trúc cây, độ dài của các nhánh và các giá trị trong mô hình tiến hóa. Cây phân loài tối ưu là cây có giá trị khả năng cao nhất hay chính là cây có xác suất cao nhất đối với bộ dữ liệu quan sát được; mô hình thay thế được dùng để tính giá trị khả năng cần được chọn là mô hình phù hợp nhất với quá trình tiến hóa trong bộ sắp hàng 𝐷.
Sau đây là ví dụ minh họa cho việc tính giá trị khả năng của cây nhị phân ở trường hợp đơn giản nhất – cây chỉ có hai lá.
Xét cây nhị phân 𝑇 của sắp hàng 𝐷, có hai trình tự là 𝑋 = {𝑥 } và 𝑌 = {𝑦 }, mô hình phù hợp nhất dùng để tính toán giá trị khả năng của cây ký hiệu là 𝑄. Ta cần tính giá trị khả năng của cây 𝐿(𝑇|𝑄, 𝐷) thông qua giá trị khả năng của từng vị trí 𝐿(𝑇|𝑄, 𝑑 = 𝑥 𝑦 )
Vì mô hình 𝑄 có tính thuận nghịch theo thời gian, không mất tính tổng quát, ta thêm một đỉnh gốc giả 𝑟 nằm tại vị trí bất kỳ trên cạnh và ký hiệu khoảng cách từ 𝑟 tới hai
lá 𝑋, 𝑌 là 𝑙 , 𝑙 . (Hình 1. 2. Cây có một
đỉnh gốc và hai lá).
Tại vị trí 𝑖 trên đỉnh gốc 𝑟, có 4 giá trị
có thể nhận là các nucleotit A, T, C và
𝑋
𝑌
𝑟
𝑙 𝑙
36
G. Khi đó 𝑃(𝑑 |𝑇, 𝑄) được tính bằng tổng xác suất của cả 4 trường hợp khác nhau của nucleotit lại gốc r. Tức là:
𝑃(𝑑 |𝑇, 𝑄) = 𝑃(𝑥 𝑦 |𝑇, 𝑄)
= 𝜋 𝑃 (𝑙 |𝑇, 𝑄) × 𝑃 𝑙 |𝑇, 𝑄
+𝜋 𝑃 (𝑙 |𝑇, 𝑄) × 𝑃 𝑙 |𝑇, 𝑄 +𝜋 𝑃 (𝑙 |𝑇, 𝑄) × 𝑃 𝑙 |𝑇, 𝑄 +𝜋 𝑃 (𝑙 |𝑇, 𝑄) × 𝑃 𝑙 |𝑇, 𝑄
(1.10)
Trong đó: 𝑃 (𝑙|𝑇, 𝑄) là xác suất nucleotit 𝑢 biến đổi thành nucleotit 𝑣 nếu có 𝑙 biến đổi giữa hai nucleotit 𝑢 và 𝑣.
Cách tính giá trị khả năng cho trường hợp tổng quát cho cây có 𝑛 lá, được mở rộng
từ trường hợp này, cần số lượng tính toán lớn. Mặc dù phương pháp ML là phương pháp có độ phức tạp tính toán cao và cần nhiều thời gian để tính toán, phương pháp này cho kết quả cây phân loài đáng tin cậy nhất và là phương pháp thường được sử dụng hiện nay. Hai bộ thư viện hỗ trợ xây dựng cây bằng phương pháp ML phổ biến nhất là: RAxML-NG [21] và IQTREE [22], ngoài ra còn có nhiều phần mềm khác,
ví dụ như VeryFastTree [23] - kết hợp ML với phương pháp heuristics để tăng tốc
độ, giúp xây dựng cây nhanh hơn gấp nhiều lần so với các phần mềm trên.