Chương 1: Cơ sở lý thuyết
1.1 Các khái niệm cơ bản
1.1.3 Mô hình thay thế nucleotit/axit amin
Mô hình thay thế nucleotit/axit amin mô tả quá trình tiến hóa. Cụ thể là biểu diễn thông tin về quá trình biến đổi giữa các nucleotit/axit amin của những loài trong bộ
dữ liệu được xét. Quá trình biến đổi này là một quá trình ngẫu nhiên và liên tục theo
25
thời gian với tập trạng thái là bốn nucleotit hoặc 20 axit amin. Quá trình biến đổi có thể được mô hình hóa bởi một mô hình Markov [2] biểu diễn bởi một ma trận để xác định tốc độ biến đổi giữa các trạng thái của các vị trí trên tập trình tự. Mô hình Markov thỏa mãn các tính chất sau:
- Độc lập với quá khứ (memoryless): tốc độ biến đổi từ trạng thái 𝑖 sang trạng thái
𝑗 là độc lập với các trạng thái trước đó của 𝑖.
- Liên tục (continuous): Quá trình biến đổi giữa các trạng thái xảy ra liên tục tại bất
cứ thời điểm nào trong quá trình tiến hóa.
- Ổn định (stationary): Tần số của mỗi nucleotit/axit amin ở trạng thái cân bằng, không thay đổi trong suốt quá trình tiến hóa.
Mỗi vị trí trên một trình tự được coi là một biến ngẫu nhiên 𝑛 trạng thái tùy thuộc vào loại dữ liệu (tức là 𝑛 = 4 trong trường hợp dữ liệu DNA và 𝑛 = 20 trong trường hợp dữ liệu protein). Khi đó, ma trận xác suất chuyển 𝑃(𝑡) = 𝑝 (𝑡) mô tả quá trình Markov là ma trận cỡ 4 × 4 hoặc 20 × 20; trong đó 𝑝 (𝑡) biểu diễn xác suất trạng thái 𝑖 chuyển thành trạng thái 𝑗 sau 𝑡 đơn vị thời gian. Các điều kiện đề cập ở trên của quá trình Markov được viết lại cho các phần tử trong ma trận 𝑃 như sau:
(i) Tổng xác suất chuyển từ một trạng thái 𝑖 sang các trạng thái khác bằng 1:
∑ 𝑝 (𝑡) = 1
(ii) Phương trình Chapman–Kolmogorov: 𝑃(𝑡 + 𝑠) = 𝑃(𝑡) + 𝑃(𝑠)
(iii) 𝑝 (𝑡) > 0 ∀ 𝑡 > 0
(iv) Điều kiện khởi tạo: 𝑝 (0) = 1 ∀𝑖
𝑝 (0) = 0 ∀𝑖 ≠ 𝑗
Trong lân cận ∆𝑡 của 𝑡 = 0, 𝑃(∆𝑡) được xấp xỉ bởi công thức khai triển Taylor:
𝑃(∆𝑡) = 𝑃(0) + ∆𝑡𝑄 (1.1)
Với 𝑄 = 𝑞 là ma trận tốc độ thay thế tức thì, tức là 𝑞 là tốc độ thay thế tức thì từ trạng thái 𝑖 sang trạng thái 𝑗. Trong phương trình 1.1 ma trận tốc độ 𝑄 là đạo hàm cấp
26
1 của 𝑃(𝑡). Vì 𝑃(𝑡) là quá trình Markov đồng nhất về thời gian, đạo hàm cấp 1 của
nó là 𝑄 không phụ thuộc vào thời gian.
Để thỏa mãn điều kiện (i) – tổng xác suất chuyển từ trạng thái 𝑖 sang các trạng thái khác bằng 1 sau khoảng thời gian bất kỳ, tổng các phần tử trên một hàng của 𝑄 phải bằng 0:
𝑞 = 0 (1.2)
Các phần tử trên đường chéo chính được xác định thông qua các phần tử còn lại trên cùng hàng:
𝑞 = − 𝑞 (1.3)
Nếu đặt tổng số thay thế của tất cả các trạng thái trong một đơn vị thời gian là 𝜇:
𝜇 = − 𝜋 𝑞
(1.4)
Thì trong một khoảng thời gian 𝑡, tổng số thay thế là 𝑑 = 𝜇𝑡. Ma trận tốc độ thay thế tức thì 𝑄 có thể được chuẩn hóa để tổng số thay thế trong một đơn vị thời gian là 1 (𝜇 = 1) mà không làm thay đổi tương quan thay thế giữa các trạng thái.
Từ phương trình Chapman–Kolmogorov, 𝑃(𝑡) được viết dưới dạng một hàm của 𝑄
và biến 𝑡:
𝑃(𝑡) = 𝑒 (1.5)
Để đơn giản hóa việc tính toán, quá trình 𝑃 thường được giả thiết là có tính thuận nghịch; tức là, số thay đổi từ trạng thái 𝑖 sang trạng thái 𝑗 trong một đơn vị thời gian đúng bằng số thay đổi từ 𝑗 sang 𝑖:
𝜋 𝑞 = 𝜋 𝑞 hay = (1.6)
27
Ký hiệu ma trận 𝑅 = 𝑟 = là ma trận hệ số hoán đổi. Khi đó, 𝑅 là ma trận đối xứng vì 𝑟 = = = 𝑟 và các phần tử trên đường chéo chính 𝑟 = 0. Ta viết lại
ma trận 𝑄 dưới dạng tích của ma trận 𝑅 và vectơ tần số của các trạng thái 𝛱:
𝑞 =
𝜋 𝑟 với 𝑖 ≠ 𝑗
− 𝑞 với 𝑖 = 𝑗
(1.7)
Với 𝑛 trạng thái, để xác định trực tiếp ma trận 𝑄 cần xác định giá trị cho 𝑛 × (𝑛 − 1) tham số, trong khi nếu tính 𝑄 thông qua 𝑅 và 𝛱 ta chỉ cần xác định ( )− 1 tham
số cho 𝑅 (do ma trận 𝑅 đối xứng có đường chéo chính bằng 0 và tổng các phần tử bằng 0) và 𝑛 − 1 tham số cho 𝛱 (do vectơ tần số có tổng thành phần bằng 1); tổng số
là ( )− 2 tham số.
Với trường hợp dữ liệu DNA, mô hình thay thế cần tổng cộng 8 tham số (3 tham số cho tần suất nucleotit và 5 tham số cho ma trận hệ số hoán đổi). Do số lượng tham số khá nhỏ, việc ước lượng các tham số này thường được thực hiện cho từng bộ dữ liệu.
Có một số kiểu mô hình thay thế phổ biến cho DNA [3]–[5], mỗi mô hình có số lượng tham số khác nhau. Một trong số mô hình thường dùng là mô hình GTR (General Time-Reversible Model) [6]. Với 5 tham số 𝑎; 𝑏; 𝑐; 𝑑; 𝑒; 𝑓 của ma trận 𝑅 và
𝜋 ; 𝜋 ; 𝜋 ; 𝜋 tương ứng là tần suất của các nucleotit A, C, G và T, mô hình GTR xác định bởi ma trận 𝑄:
28
Với dữ liệu protein, mô hình thay thế có tổng cộng 208 tham số (do số lượng là 20 axit amin nên ma trận hệ số hoán đổi có 189 tham số và vectơ tần suất axit amin có
19 tham số). Việc ước lượng 208 tham số trong mỗi lượt chạy không thể thực hiện được cho các bộ dữ liệu nhỏ và vừa do số lượng tham số quá lớn. Vì vậy các mô hình thay thế axit amin thường được ước lượng sẵn trên các bộ dữ liệu lớn [7]–[10], sau
đó được sử dụng chung cho các bộ dữ liệu khác nhau với giả thiết quá trình tiến hóa của các loài sinh vật nói chung tuân theo các quy tắc tương đồng. Các mô hình đã ước lượng được chia làm hai loại: mô hình chung cho nhiều loài (ví dụ như: LG [9], JTT [10] – là các mô hình được ước lượng sử dụng lượng lớn sắp hàng thu thập từ nhiều loại sinh vật để tạo độ đa dạng cho dữ liệu, những mô hình này được dùng với giả thiết là các loài sinh vật nói chung đều có quá trình tiến hóa tương tự nhau) và mô hình cho một nhóm loài cụ thể. Dữ liệu sử dụng trong trường hợp ước lượng mô hình cho nhóm loài cụ thể tập trung vào các loài có quan hệ gần, thường là những loài có đặc điểm khác biệt so với các sinh vật nói chung (ví dụ như: HIVb, HIVw [11], FLU [12] là các mô hình ước lượng trên một loại vi rút cụ thể).
Bảng 1. 4 trình bày một ví dụ về mô hình thay thế axit amin (mô hình trong bảng là
mô hình LG). 19 dòng đầu của bảng thể hiện nửa dưới của ma trận hệ số hoán đổi; dòng dưới cùng thể hiện tần suất của từng axit amin. Ma trận tốc độ thay thế tức thì của axit amin xác định bằng tích của hai thành phần này được gọi là mô hình thay thế
𝑄, hay gọi tắt là mô hình 𝑄
29
Bảng 1. 4. Ví dụ về mô hình thay thế axit amin (mô hình LG)
A R N D C Q E G H I L K M F P S T W Y V
A
R 0.425
N 0.277 0.752
D 0.395 0.124 5.076
C 2.489 0.535 0.529 0.063
Q 0.970 2.808 1.696 0.523 0.085
E 1.039 0.364 0.542 5.244 0.003 4.129
G 2.066 0.390 1.438 0.845 0.569 0.268 0.349
H 0.359 2.427 4.509 0.927 0.641 4.814 0.424 0.311
I 0.150 0.127 0.192 0.011 0.321 0.073 0.044 0.009 0.109
L 0.395 0.302 0.068 0.015 0.594 0.582 0.070 0.044 0.366 4.145
K 0.537 6.326 2.145 0.283 0.013 3.234 1.807 0.297 0.697 0.159 0.138
M 1.124 0.484 0.371 0.026 0.894 1.673 0.174 0.140 0.442 4.274 6.312 0.657
F 0.254 0.053 0.090 0.017 1.105 0.036 0.019 0.090 0.682 1.113 2.593 0.024 1.799
P 1.178 0.333 0.162 0.394 0.075 0.624 0.419 0.197 0.509 0.078 0.249 0.390 0.100 0.094
S 4.727 0.858 4.008 1.240 2.784 1.224 0.612 1.740 0.990 0.064 0.182 0.749 0.347 0.362 1.338
T 2.140 0.579 2.001 0.426 1.143 1.080 0.605 0.130 0.584 1.034 0.303 1.137 2.020 0.165 0.571 6.472
W 0.181 0.594 0.045 0.030 0.670 0.236 0.078 0.268 0.597 0.112 0.620 0.050 0.696 2.457 0.095 0.249 0.141
Y 0.219 0.314 0.612 0.135 1.166 0.257 0.120 0.055 5.307 0.233 0.300 0.132 0.481 7.804 0.090 0.401 0.246 3.152
V 2.548 0.171 0.084 0.038 1.959 0.210 0.245 0.077 0.119 10.649 1.703 0.185 1.899 0.655 0.297 0.098 2.188 0.190 0.249
𝜫 0.079 0.056 0.042 0.053 0.013 0.041 0.072 0.057 0.022 0.062 0.099 0.065 0.023 0.042 0.044 0.061 0.053 0.012 0.034 0.069
30