CHƯƠNG 1. TỔNG QUAN LÝ THUYẾT
1.3. TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
Ma trận điểm số nucleotide đơn giản đã đƣợc tích hợp trong công cụ sử dụng phổ biến BLASTN để tìm kiếm trình tự tương đồng với một trình tự nucleotide cho trước, với giả định rằng các nucleotide trong các trình tự tiến hóa với tốc độ nhƣ nhau. Tuy nhiên, trên thực tế, mức độ thay thế giữa các nucleotide tương đồng về cấu trúc hóa học, chẳng hạn giữa C và T, hoặc giữa A và G (transition) thường cao hơn giữa các nucleotide khác nhau về cấu trúc hóa học, nhƣ giữa các pyrimidine (C và T) và các purine (A và G) (transversion), do sự chuyển hóa giữa các nucleotide tương đồng về cấu trúc hóa học đòi hỏi ít năng lƣợng hơn. Vả lại, mã di truyền cho phép sự chuyển đổi giữa các cấu trúc tương đồng nhiều hơn giữa các cấu trúc không tương đồng về mặt hóa học mà không làm thay thế các amino acid [9, 10]. Theo thực tế này, Kimura [9] đã cho ra đời mô hình K80 – trong đó mức độ thay thế giữa các nucleotide tương đồng về cấu trúc hóa học khác với mức độ thay thế giữa các nucleotide không tương đồng về cấu trúc hóa học, tương ứng là và (Bảng 1.5).
25
Bảng 1.5. Ma trận điểm số nucleotide K80 [9].
chỉ mức độ chuyển đổi giữa các purine hay giữa các pyrimidine với nhau ; chỉ mức độ chuyển đổi giữa purine và pyrimidine.
Felsenstein [11] cũng mở rộng mô hình JC69 thành mô hình F81 trong đó có tính đến sự khác nhau về tần suất xuất hiện của các nucleotide trong trình tự, nhƣ là kết quả của chọn lọc tự nhiên. Một số mô hình sau đó cũng đƣợc phát triển trên cơ sở mở rộng các mô hình JC69 và K80, nhƣ mô hình HKY85 [12] và mô hình SYM94 [13]. Mô hình phức tạp hơn cả là mô hình GTR86 [14], vì có thêm các thông số phản ánh mức độ thay thế khác nhau của các nucleotide khác nhau và tần suất xuất hiện của các nucleotide cũng khác nhau. Ngoài ra, các thông số phản ánh các vị trí mà tại đó các nucleotide không thay đổi theo thời gian (invariable sites, +I) [15], cũng nhƣ phản ánh mức độ thay thế khác nhau giữa các vị trí khác nhau trong trình tự (variation across sites, +G) [16], chẳng hạn nhƣ mô hình GTR86+G+I [17] cũng có thể đƣợc thêm vào các mô hình trên. Mô hình GTR86+G+I thường phản ánh dữ liệu thật tốt hơn các mô hình đơn giản khác, cho thấy tiến hóa thực sự là một quá trình rất phức tạp. Tuy nhiên, do mô hình GTR86+G+I quá phức tạp về mặt toán học và do đó không đƣợc áp dụng trong thực tế. Vì vậy, Arenas [18] cho rằng các nghiên cứu tiếp theo cần tính đến khả năng thực thi của mô hình nghiên cứu để có thể ước tính chính xác mức độ tương đồng giữa các trình tự nucleotide.
Đối với ma trận điểm số amino acid, trong các ma trận PAM, chỉ có ma trận PAM1 là có điểm số đƣợc tính trực tiếp từ cơ sở dữ liệu protein, còn các ma trận PAM khác thì đƣợc tạo thành từ PAM1 nên đã không phản ánh tốt dữ liệu thật. Ngoài ra, do đƣợc thiết lập dựa trên các trình tự protein có mối quan hệ tiến hóa rất gần nhau, cho nên ma trận PAM không phản ánh đúng mức độ tương đồng giữa các trình tự protein có mối quan hệ tiến hóa xa. Mueller et al. [19] nhấn mạnh các mô hình tiến hóa cần phải mô tả chính xác tần suất thay thế amino acid trong các khoảng thời gian tiến hóa xa.
26
Trong khi đó, khi mô tả các ma trận BLOSUM, Henikoff & Henikoff [6] đã chỉ ra rằng BLOSUM62 thể hiện tốt hơn nhiều so với PAM120 (tương đương với BLOSUM62). BLOSUM62 đã đƣợc tích hợp vào công cụ BLASTP sử dụng trong tìm kiếm các trình tự tương đồng trên cơ sở dữ liệu, trong khi BLOSUM50 lại được tích hợp vào các công cụ FASTA và SSEARCH. Hai công cụ này cho sự tìm kiếm nhạy hơn so với BLOSUM62 nhƣng yêu cầu sắp gióng cột dài hơn. Do đƣợc giả định rằng tất cả các vị trí trong trình tự protein đều tiến hóa với tốc độ nhƣ nhau, cho nên các ma trận điểm số PAM và BLOSUM có thể không phản ánh đúng dữ liệu thật. Theo Arenas [18], điểm số trong các ma trận BLOSUM ảnh hưởng rất lớn đến độ nhạy của chương trình tìm kiếm, vì các điểm số này phản ánh trực tiếp tần suất thay thế của các amino acid trong tập hợp các trình tự sử dụng để tạo ra chúng. Đồng thời, các ma trận này yêu cầu sắp gióng cột các trình tự dài mới cho điểm tương đồng có ý nghĩa. Trong khi đó, các ma trận PAM thể hiện tốt hơn khi tìm kiếm các trình tự tương đồng ngắn, các exon ngắn (<150 nucleotide), hay những trình tự có mối quan hệ tiến hóa rất gần [21]. Vì vậy, Arenas cho rằng cần thiết phải thay đổi ma trận hiện đang tích hợp mặc định cho BLASTP – BLOSUM62, và cho FASTA/SSEARCH – BLOSUM50. Trên thực tế, các vị trí trong trình tự protein tiến hóa với các tốc độ không giống nhau. Do đó, có một số nghiên cứu đã đƣa ra các mô hình tiến hóa khác nhau trong đó có tính đến sự khác nhau của các vùng/vị trí trong trình tự protein [20-22]. Ngoài ra, Keane et al. [23] còn cho thấy ma trận điểm số phản ánh tốt nhất hai bộ dữ liệu protein lớn của vi khuẩn proteobacteria và vi khuẩn cổ (archaea) lại đƣợc thiết lập từ các protein Pol của retrovirus.
Ngoài các ma trận điểm số dựa trên các trình tự protein có sẵn nhƣ PAM và BLOSUM, mô hình tiến hóa dựa trên các đặc điểm gấp nếp protein cũng đƣợc đề nghị vì đã cải tiến một cách có ý nghĩa những nhƣợc điểm của PAM và BLOSUM khi phản ánh dữ liệu thực [24-31], tuy nhiên, lại chƣa đƣợc thiết lập một cách hoàn thiện, bởi vì các hàm khả năng (thực thi bởi các chương trình phân tích tiến hóa) không giải quyết đƣợc sự phụ thuộc lẫn nhau giữa các vùng/vị trí trong trình tự và do đó vẫn chƣa đƣợc thiết lập trong các chương trình phổ biến cho các mục đích cụ thể.
27
Đối với ma trận điểm số codon, có một số nghiên cứu cho thấy việc xem xét sự tiến hóa phân tử ở mức độ codon cho phép tìm ra mối quan hệ tiến hóa giữa các chủng/loài tốt hơn so với ở mức độ amino acid [32, 33].
Ma trận điểm số codon đầu tiên đƣợc thiết lập bởi Schneider et al. vào năm 2005 [7], trên cơ sở 5 trình tự bộ gene hoàn chỉnh của động vật có xương sống, gồm người, chuột, gà, ếch và cá ngựa, bằng cách sắp gióng cột từng cặp trình tự tương đồng mã hóa cho protein từ từng cặp bộ gene, sau đó chỉ chọn các trình tự có mức tương đồng từ 57% đến 78% để xác định tần suất xuất hiện của các codon không thay đổi và các codon bị thay thế giữa các cặp trình tự, trên cơ sở đó để thiết lập ma trận điểm số codon (Bảng 1.3). Tuy nhiên, cho đến nay, ma trận điểm số này chƣa đƣợc ứng dụng một cách cụ thể, có thể là do nó được thiết lập từ chỉ 5 bộ gene sinh vật có xương sống, và chỉ có các trình tự có mức độ tương đồng từ 57% đến 78% được sử dụng để thiết lập ma trận nên tính đại diện cho các giống loài sinh vật không cao.
Mặt khác, theo báo cáo tổng quan năm 2015 của Arenas [18] về các xu hướng phát triển các ma trận điểm số phục vụ phản ánh sự tiến hóa ở mức độ phân tử, để xây dựng đƣợc một ma trận điểm số codon phản ánh đúng sự tiến hóa cần tính đến tính không đồng nhất dọc theo trình tự và theo thời gian, tức các vùng/vị trí trong trình tự có thể tiến hóa theo các cách thức khác nhau theo các khoảng thời gian khác nhau.