nấm
4.1. Dữ liệu
Để ước lượng mô hình biến đổi amino axit, dữ liệu được download từ cơ sở dữ liệu FUNYBASE [17], gồm 246 tập chuỗi protein thuộc 246 họ protein của 21 loài (mỗi tập gồm 21 chuỗi) với tổng cộng ~86000 site (vị trí) và > 1200000 amino axit.
4.2. Mô hình
Mô hình được ước lượng theo cách tiếp cận maximum likelihood của Le và Gascuel [14]. Các bước chi tiết để ước lượng mô hình được mô tả dưới đây:
a. Thu thập và tiền xử lý dữ liệu
Download dữ liệu gồm 246 tập các chuỗi protein thuộc 21 loài nấm từ cơ sở dữ liệu FUNYBASE (21 chuỗi cho mỗi tập)
Tiền xử lý các file, loại bỏ các thông tin không cần thiết (các thông tin định danh), đưa về dạng dễ xử lý hơn.
b. Sắp hàng trình tự
Với mỗi tập dữ liệu, các chuỗi được sắp hàng bằng chương trình MUSCLE (một trong các chương trình sắp hàng đa trình tự phổ biến).
Dữ liệu sau khi được sắp hàng (alignment) có thể chứa các cột có nhiều dấu cách (hay khoảng trống thể hiện cho các đột biến thêm mất amino axit), các cột này không mang nhiều thông tin, nên có thể loại bỏ bằng chương trình G-block.
c. Xây dựng cây phát sinh loài
Với mỗi alignment, khởi tạo cây phát sinh loài tương ứng bằng phương pháp maximum likelihood sử dụng chương trình PhyML với mô hình tiến hóa khởi tạo là LG, mô hình biến đổi tốc độ theo vị trí là mô hình phân phối Γ rời rạc với 4 lớp, không xét các vị trí không biến đổi (θinv = 0). Tham số α của phân phối Γ cũng đồng thời được ước lượng từ dữ liệu cho từng alignment.
d. Phân lớp các vị trí theo tốc độ
Với mỗi alignment, tại mỗi vị trí i, PhyML cũng tính xác suất của dữ liệu ứng với từng hệ số tốc độ của phân phối Γ (L(rcT, Q|Di)). Dựa trên giá trị xác suất này, các vị trí được phân thành các lớp sao cho vị trí i thuộc lớp c(i) nếu c(i) có giá trị xác suất lớn
nhất. Theo đó, các alignment được chia thành 4 alignment con với 4 cây tương ứng. Tổng số lượng alignment và số cây tăng lên gấp 4 lần nhưng tổng số vị trí (cột) thì không đổi.
e. Ước lượng mô hình mới
Mô hình biến đổi mới Q1 (gồm ma trận biến đổi và tần suất các amino axit) sẽ được ước lượng bằng phương pháp likelihood sử dụng chương trình Xrate, một trong những công cụ mạnh để ước lượng ma trận biến đổi và các mô hình xác suất khác.
f. Lặp lại quá trình
Các bước (c)(d)(e) được lặp lại với mô hình tiến hóa sử dụng được thay bằng mô hình Q1, kết quả được mô hình mới gọi la Q2. Mô hình Q2 được chọn làm mô hình biến đổi amino axit cho nấm.
4.3. Kết quả và đánh giá
4.3.1 Kết quả
Với các bước trên, mô hình mới cho dữ liệu nấm được ước lượng, gọi là mô hình FUG. Mô hình gồm ma trận trao đổi amino axit R và vec tơ tần suất amino axit π.
Trước hết, mô hình FUG được so sánh với các mô hình khác về tốc độ trao đổi và tần suất amino axit. Bảng 1 cho thấy mô hình FUG ước lượng khá là gần với mô hình LG cả về hệ số trao đổi tốc độ và tần suất amino axit, trong khi với các mô hình khác thì sự khác biệt là khá lớn. Ở hình 1, tần suất amino axit của FUG được so sánh với 3 mô hình được coi là tốt nhất gồm LG, WAG cùng với tần suất amino axit được tính từ tất cả các alignment trong tập dữ liệu (kí hiệu Funny + Gblock). Sự tương quan là khá lớn giữa FUG với mô hình LG, WAG và tần suất ước lượng từ dữ liệu (>90%) . Tuy nhiên, có thể quan sát thấy một vài sự khác biệt lớn giữa tần suất amino axit của FUG với hai mô hình này. Ví dụ, tần suất của Glutamic (E) trong FUG là ~9%, cao hơn nhiều so với trong mô hình LG (~7%) và mô hình WAG (~6%).
Hệ số tốc độ trao đổi amino axit giữa mô hình FUG và LG được so sánh trong hình 2, hình 3. Hình 2 cho thấy mối tương quan khá cao giữa hai mô hình, hệ số nào cao trong một ma trận cũng tương ứng sẽ cao trong ma trận khác (thể hiện bởi kích thước hình tròn). Cả hai ma trận đều thể hiện được sự tương tự nhau về các đặc điểm sinh học, hóa học, vật lý giữa các amino axit, theo đó tốc độ trao đổi là cao với các amino axit có các đặc tính giống nhau và thấp với các amino axit có các đặc tính khác
nhau. Tuy nhiên, hình 3 cho thấy sự khác biệt giữa hai mô hình, ví dụ một vài hệ số tốc độ của FUG nhỏ hơn ~ 3 đến 4 lần so với LG.
Hình 1. So sánh tần suất amino axit giữa mô hình FUG với mô hình LG, WAG và tần suất được ước lượng từ dữ liệu.
model exchangeabilitymatrix frequencyvector
LG 97.28% 94.23% RtREV 94.94% 82.33% Blosum6 2 91.92% 81.39% WAG 89.86% 83.10% MtArt 86.12% 31.20% JTT FLU 84.33%80.03% 87.64%72.13% MtREV 79.23% 39.68% DCMut 78.35% 75.18% Dayhoff 78.26% 75.18% VT 76.87% 87.59% CpREV 76.59% 71.59% MtMam 76.27% 38.18% HIVb 73.69% 80.45% HIVw 55.68% 51.29%
Bảng 1. Tương quan về ma trận trao đổi amino axit và tần suất amino axit giữa mô hình FUG với 15 mô hình.
Hình 3. Sự khác biệt tương đối giữa hệ số tốc độ trao đổi amino axit của mô hình FUG và LG. Mỗi giá trị (thể hiện bằng một hình tròn) được tính bằng công thức (FUGij – LGij)/ (FUGij – LGij) trong đó Mij là hệ số tốc độ trao đổi giữa amino axit i và j của ma trận M. Giá trị 1/3 và 2/3 tức là hệ số của FUG lớn hơn 2 hoặc 5 lần so với LG. Giá trị -1/3 và -2/3 thể hiện hệ số của FUG nhỏ hơn 2 hoặc 5 lần so với LG.
4.3.2 Đánh giá
Mô hình FUG được đánh giá bằng cách so sánh nó với các mô hình khác khi xây dựng các cây phát sinh loài cho dữ liệu nấm. Các cây được suy ra bằng phương pháp likelihood sử dụng chương trình PhyML với một vài trong số các tính năng sau:
- +Γ4 : sử dụng phân phối Γ rời rạc với 4 lớp
- +I : sử dụng mô hình 2 trạng thái (có xét các vị trí không biến đổi)
- -I : không xét các vị trí không biến đổi (tức mọi vị trí đều trải qua tiến hóa)
- +F : tần suất amino axit được ước lượng lại từ dữ liệu
- -F : tần suất amino axit được lấy từ mô hình
Mô hình FUG được so sánh với các mô hình khác dựa trên các tiêu chí: giá trị likelihood của cây, giá trị AIC, KH-test và so sánh cây.
a. So sánh giá trị likelihood
Bảng 2 và 3 cho thấy mô hình FUG tốt hơn so với các mô hình khác, thể hiện là các cây xây dựng sử dụng mô hình FUG có giá trị likelihood lớn nhất chiếm 184 (-F) và 166(+F) trên tổng số 246 alignment, và đứng thứ hai là 57/246(-F) và 62/246(+F). Các cây của mô hình FUG cũng có giá trị likelihood trung bình lớn nhất.
b. AIC-test
Để đánh giá tất cả mô hình cùng với các tính năng khác nhau, ta sử dụng giá trị AIC (Akaike 1974) để so sánh. Giá trị AIC cho mỗi alignment được tính như sau:
AIC(M,Da) = 2LL(M, Ta|Da) – 2*parameters(M)
Trong đó, 2LL(M, Ta|Da) là giá trị log-likelihood của alignment Da khi tuân theo mô hình tiến hóa M và cây tiến hóa Ta. Tất cả các mô hình sẽ có thêm 1 tham số α nếu sử dụng mô hình phân phối Γ (+Γ), thêm 1 tham số θ nếu sử dụng mô hình 2 trạng thái (+I), cộng với 19 tham số nếu tần suất amino axit được ước lượng từ dữ liệu (+F). Giá trị AIC trung bình theo vị trí của mô hình M được tính cho toàn bộ tập dữ liệu được tính theo công thức:
AIC/site(M,A) = ∑AIC(M,Da) / ∑sa
Trong đó, sa là số ví trí trong alignment Da. Mô hình nào có giá trị AIC lớn hơn sẽ được xem là tốt hơn.
Vì ta ước lượng và đánh giá mô hình FUG trên cùng tập dữ liệu, nên khi tính giá trí AIC trên toàn tập dữ liệu, mô hình FUG sẽ có thêm 189 tham số của mô hình (đây được coi là điểm phạt cho mô hình FUG). Bảng 3 chỉ ra giá trị trung bình AIC/site của FUG cao hơn các mô hình khác, tức là mô hình FUG được xem là tốt hơn các mô hình khác.
c. KH-test
Ngoài ra các mô hình còn được đánh giá bằng KH test (Kishino and Hasegawa test, 1989) [18]. Với mỗi alignment Da, nếu ta có LL(M1,T1a|Da) > LL(M2,T1a|Da) thì KH-test cho biết liệu M1 có thực sự tốt hơn hẳn M2 không. Các cây T1, T2 có thể giống hoặc khác nhau. Tuy nhiên KH-test chỉ áp dụng với các mô hình có cùng số tham số. Bảng 5 cho thấy mô hình FUG tốt hơn hẳn các mô hình khác. Ví dụ, KH-test chỉ ra 115/246 alignment (~47%) mà các cây của mô hình FUG có giá trị likelihood thực sự lớn hơn các cây của mô hình LG. Số alignment thậm chí còn tăng lên 208/246 (~85%) khi so sánh với mô hình WAG, RtREV và JTT. Trong khi đó, không có alignment nào mà FUG thực sự tồi hơn các mô hình khác. Hay nói cách khác, mô hình FUG mô tả quá trình tiến hóa của nấm tốt hơn các mô hình khác, kết quả sẽ tạo nên các cây tiến hóa chính xác hơn.
d. Phân tích cây tiến hóa
Bảng 6 chỉ ra có một số lượng lớn các alignment mà cấu trúc của cây (gọi là topology) xây dựng bởi mô hình FUG và các mô hình khác là khác nhau. Ví dụ, các cây của mô hình FUG và LG có topology khác nhau trên 93 alignment (~38%) trong đó FUG tốt hơn LG 71 alignment (76%), các con số còn lớn hơn rất nhiều khi so sánh với các mô hình khác.
Sự khác nhau giữa 2 topology được đo bằng khoẳng cách Robinson-Fould(RF). Khoảng cách RF được đo bằng số bipartition có trong 1 cây mà không có trong cây còn lại. Trong đó bipartition được định nghĩa như sau: cho cây T với tập lá là L, một cạnh trong e chia cây T thành 2 tập lá L1 và L2, tức L1 ∩ L2 = ø và L1 U L2 = L; khi đó L1 và L2 được gọi là một bipartition của cây T, kí hiệu L1 | L2. Khoảng cách RF thường được chia cho tổng số bipartition có thể có nên giá trị của nó nằm trong khoảng (0,1). Khoảng cách RF giữa 2 cây càng nhỏ chứng tỏ topology của chúng càng gần nhau [16].
1 2 3 4 5 6 7 logLK/site FUG -F 184 57 3 1 1 0 0 -18.51 LG -F 60 183 2 1 0 1 0 -18.55 WAG -F 1 2 148 85 10 0 0 -18.69 CpREV -F 1 2 6 10 85 76 66 -18.83 RtREV -F 0 1 76 118 32 17 2 -18.73 JTT -F 0 0 11 23 91 99 22 -18.81 Dayhoff -F 0 1 0 8 27 54 156 -18.88
Bảng 2. So sánh mô hình FUG với 6 mô hình tốt nhất khi xây dựng cây phát sinh loài với tần suất amino axit được lấy từ các mô hình tương ứng. Giá trị ở cột i tương ứng với model M thể hiện số alignmen mà mô hình M đứng thứ i về giá trị likelihood của cây.
1 2 3 4 5 6 7 logLK/site FUG +F 166 62 14 4 0 0 0 -18.49 LG +F 73 161 12 0 0 0 0 -18.52 WAG +F 3 9 30 175 24 5 0 -18.66 RtREV +F 4 13 188 38 1 2 0 -18.59 JTT +F 0 1 2 24 126 72 21 -18.77 Dayhoff +F 0 0 0 4 22 65 155 -18.88 CpREV +F 0 0 0 1 73 102 70 -18.83
Bảng 3. So sánh mô hình FUG với 6 mô hình tốt nhất khi xây dựng cây phát sinh loài với tần suất amino axit được ước lượng từ dữ liệu. Giá trị ở cột i tương ứng với model M thể hiện số alignmen mà mô hình M đứng thứ i về giá trị likelihood của cây
without F
option (-F) option (+F)with F
difference between +F and -F option FUG -37.04 -37.11 -0.07 LG -37.11 -37.16 -0.06 WAG -37.40 -37.43 -0.03 RtREV -37.48 -37.30 0.17 JTT -37.64 -37.66 -0.02 CpREV -37.67 -37.78 -0.11 Dayhoff -37.78 -37.89 -0.11
Bảng 4. So sánh giá trị AIC/site của mô hình FUG và các mô hình LG, WAG, RtREV, JTT, CpREV, Dayhoff
M1 M2 LogLK/site #M1 > M2 #M1 > M2(p < .05) #M2 > M1(p < .05) FUG (-F) LG (-F) 0.04 184 115 0 FUG (-F) WAG(-F) 0.18 242 208 0 FUG (-F) RtREV(-F) 0.22 246 208 0 FUG (-F) JTT(-F) 0.31 245 208 0 FUG (+F) LG (+F) 0.03 169 111 0 FUG (+F) WAG(+F) 0.16 234 180 0 FUG (+F) RtREV(+F) 0.10 234 181 0 FUG (+F) JTT(+F) 0.28 245 240 0
Bảng 5. So sánh từng cặp giữa mô hình FUG và mô hình LG, WAG, RtREV, JTT. LogLK/site: sự chênh lệch giá trị likelihood/site của các cây được sinh ra dùng mô hình M1 và M2; giá trị dương (âm) thể hiện mô hình M1 tốt hơn (kém hơn) mô hình M2. #M1 > M2: số alignment trên tổng số 246 alignment thỏa mãn M1 cho giá trị likelihood tốt hơn M2. #M1 > M2 (p < .05) thể hiện số alignments mà KH-test chỉ ra là M1 tốt hơn thực sự M2. #M2 > M1 (p < .05) thể hiện số alignments mà KH-test chỉ ra là M2 tốt hơn thực sự M1.
Hình 4. Khoảng cách Robinson-Foulds giữa các cây được xây dựng dùng mô hình FUG và mô hình LG, WAG, RtREV và JTT. Trục hoành thể hiện khoảng cách RF giữa 2 cây. Trục tung thể hiện số alignment.
M1 M2 #T1 > T2 #T1 > T2(p < .05) #T2 > T1(p < .05) FUG (-F) LG (-F) 71/93 43 0 FUG (-F) WAG(-F) 166/169 140 0 FUG (-F) RtREV(-F) 127/127 113 0 FUG (-F) JTT(-F) 141/142 117 0 FUG (+F) LG (+F) 57/87 41 0 FUG (+F) WAG(+F) 146/152 114 0 FUG (+F) RtREV(+F) 122/126 92 0 FUG (+F) JTT(+F) 209/210 205 0
Bảng 6. So sánh từng cặp giữa mô hình FUG và mô hình LG, WAG, RtREV, JTT. T1 (T2) là cây được sinh ra dùng mô hình M1 (M2). #T1 > T2 (N/M) : M là số alignment trên tổng số 246 alignment thỏa mãn topology của cây T1 và T2.khác nhau, N là số alignment thỏa mãn M và giá trị likelihood của cây T1 lớn hơn cây T2. #T1 > T2 (p < .05) thể hiện số alignments thỏa mãn (#T1 > T2) và T1 tốt hơn thực sự T2. #T2 > T1 (p < .05) thể hiện số alignments thỏa mãn (#T2 > T1) và T2 tốt hơn thực sự T1
Kết luận
Mô hình biến đổi amino axit là thành phần quan trọng trong nhiều bài toán phân tích sinh học. Nó mô phỏng quá trình tiến hóa của các loài thông qua mô hình hóa quá trình biến đổi giữa các amino axit. Thành phần chính của mô hình là ma trận tốc độ biến đổi tức thời Q20x20 = {qij} trong đó qij thể hiện tốc độ biến đổi từ amino axit i thành amino axit j trong một đơn vị thời gian; và π – vecto tần số các amino axit. Phương pháp maximum likelihood được xem là phương pháp ước lượng mô hình tốt nhất. Ý tưởng của phương pháp này là đồng thời tìm cây tiến hóa với các độ dài nhánh và các tham số của mô hình sao cho nó mô phỏng tốt nhất tập dữ liệu đầu vào. Whelan và Goldman đã đơn giản hóa việc tính toán bằng phương pháp hai bước, tránh việc ước lượng đồng thời cây tiến hóa và mô hình tiến hóa, với nhận định rằng tham số mô hình
Áp dụng cách tiếp cận maximum-likelihood, mô hình mới FUG được ước lượng để mô hình hóa sự tiến hóa của loài nấm. Phân tích cho thấy mô hình FUG khác biệt khá lớn so với các mô hình khác cả về tần suất amino axit cũng như hệ số của mô hình. So sánh dựa trên việc khởi tạo cây phát sinh loài, các kết quả cho thấy mô hình FUG cho các cây có giá trị likelihood tốt hơn. Dùng KH-test so sánh với các mô hình tốt nhất với dữ liệu nấm, FUG chứng tỏ nó thực sự tốt hơn ở phần lớn các alignment và không hề thực sự kém hơn ở alignment nào. FUG không chỉ cải thiện giá trị likelihood của các cây mà nó còn thay đổi topology của một số lớn cây.
Tóm lại, mô hình FUG mô hình hóa tốt hơn quá trình tiến hóa của nấm so với các mô hình hiện tại.