1.3. Các phương pháp trong nghiên cứu phân loại ở thực vật
1.3.3. Ứng dụng chỉ thị phân tử trong xác định quan hệ tiến hóa
Phân tích quan hệ tiến hóa dựa trên nền tảng những đặc điểm giống và khác nhau trong phạm vi nhóm sinh vật nào đó, từ đó xây dựng lại các cây quan hệ tiến hóa để thể hiện quá trình tiến hóa. Trong hệ thống học kinh điển, cây quan hệ tiến hóa được xây dựng dựa trên các dữ liệu về hình thái. Từ khi có sự phát triển mạnh mẽ của thông tin di truyền, việc xây dựng cây quan hệ tiến hóa dựa trên dữ liệu phân tử đã trở thành công việc thực hành thông dụng và được biết đến dưới tên gọi là phân tích quan hệ tiến hóa sử dụng dữ liệu phân tử - molecular phylogeny [57].
Các dữ liệu được biểu hiện dưới dạng trình tự DNA, trình tự protein và các DNA fingerprint [57].
Phân tích quan hệ tiến hóa sử dụng dữ liệu phân tử để xây dựng lại quá trình tiến hóa bao gồm bốn bước. Khi sử dụng các trình tự DNA làm dữ liệu mang tính thông tin thì bước đầu tiên là chọn và căn trình tự. Việc này được tiến hành nhằm xác định các vị trí tương đồng và thăm dò các sai khác về trình tự DNA. Bước thứ hai là xây dựng mô hình toán để mô tả lịch sử tiến hóa của các trình tự. Mô hình tính toán cho phép đánh giá khoảng cách di truyền giữa hai trình tự tương đồng.
Khoảng cách di truyền được đo bằng số lượng được các thay thế tại một vị trí xảy ra trong quá trình tiến hóa. Các khoảng cách di truyền được biểu diễn bởi chiều dài
nhánh trong cây quan hệ tiến hóa. Bước thứ ba là áp dụng một phương pháp phân tích phù hợp để tìm hình thể của cây và chiều dài các nhánh vốn mô tả mối quan hệ tiến hóa. Bước cuối cùng là giải thích, biện luận. Ngày nay, các mô hình toán được thực hiện trong rất nhiều các phần mềm máy tính như Molphy (Adachi và Hasegawa, 1995), Phylip (Felsenstein, 1995), PassmL (Lio và Goldman, 1998), Paup* and MEGA [57-59].
Việc thêm một hay một vài taxon ngoài nhóm (outgroup - chuẩn ngoại) là một tiêu chí quan trọng trong phân tích quan hệ tiến hóa. Các taxon ngoài nhóm được cho là không thuộc cùng nhóm với các taxon đang khảo sát và có thể là bất kỳ taxon nào có quan hệ gần với nhóm taxon đang nghiên cứu nhưng không là tổ tiên của chúng. Chuẩn ngoại được dùng với mục đích so sánh trong việc xác định tính khác biệt về đặc điểm và xác định chiều hướng thay đổi trong việc thay đổi trang thái đặc điểm [41].
Bên cạnh đó, việc kiểm tra độ tin cậy của cây quan hệ tiến hóa là cần thiết.
Phương pháp kiểm tra thông dụng nhất là phân tích bootstrap. Phương pháp này được áp dụng vào nghiên cứu phân tích phát sinh [59]. Độ tin cậy càng cao khi giá trị bootstrap càng cao.
1.3.3.1. Xây dựng cây quan hệ phát sinh
Cây quan hệ phát sinh được xây dựng nhằm mô hình hóa lịch sử tiến hóa của một nhóm các trình tự hay các sinh vật. Việc tái hiện mối quan hệ phát sinh có thể được thực hiện bằng các phương pháp dựa trên khoảng cách di truyền hoặc dựa trên đặc điểm như trình bày sau đây:
+ Xây dựng cây quan hệ phát sinh dựa trên khoảng cách
Hai thuật toán thông dụng dựa trên so sánh khoảng cách theo cặp là phương pháp lập nhóm không có trọng số dùng trung bình số học (UPGMA - Unweighted Pair Group Method using arithmetic Averages) [60] và Gom cụm lân cận (Neighbor joining) [61]. Bước đầu tiên trong các phép phân tích này là tính toán xây dựng ma trận khoảng cách theo cặp giữa các taxon được khảo sát thông qua các đặc điểm khác nhau về trình tự của chúng. Để hiệu chỉnh, thông thường người ta sử dụng hiệu chỉnh khoảng cách bằng một mô hình tiến hóa nào đó, chẳng hạn như mô hình Jukes-Cantor, mô hình Felsentein, mô hình hai thông số của Kimura, mô hình Tamura, mô hình Tamura và Nei.
Hình 1.8. Các phương pháp xây dựng cây tiến hóa
Trích nguồn: Atri B., Lichtarge O. (2018) Computational Approaches to Studying Molecular Phylogenetics. In: Shanker A. (eds) Bioinformatics: Sequences, Structures, Phylogeny.
Springer, Singapore. https://doi.org/10.1007/978-981-13-1562-6_9 + Xây dựng cây quan hệ phát sinh dựa trên đặc tính
Trong khi các phương pháp dựa trên khoảng cách đưa thông tin trình tự thành một con số đơn (biểu diễn khoảng cách) thì các phương pháp dựa trên đặc tính lại cố gắng suy luận mối quan hệ phát sinh dựa trên toàn bộ các đặc tính riêng lẽ như các nucleotide hay amino acid. Thuộc nhóm phương pháp này là các phương pháp Giản tiện tối đa (Parsimony) không dựa trên mô hình tiến hóa và hai phương pháp Maximum likelihood và Bayesian, là những phương pháp suy luận dựa vào xác xuất [43].
+ Các phương pháp dựa vào ký tự: Trong khi các phương pháp dựa trên khoảng cách đưa thông tin trình tự thành một con số đơn (biểu diễn khoảng cách) thì các phương pháp dựa trên đặc tính lại cố gắng suy luận mối quan hệ tiến hóa dựa trên toàn bộ các đặc tính riêng lẻ như các nucleotide hay amino acid. Thuộc nhóm phương pháp này là các phương pháp Giản tiện tối đa (Parsimony) không dựa trên mô hình tiến hóa và hai phương pháp Maximum likelihood và Bayesian, là những phương pháp suy luận dựa vào xác xuất [43].
1.3.3.2. Cơ sở khoa học ứng dụng chỉ thị phân tử để phân tích quan hệ tiến hóa Quan hệ tiến hóa là sơ đồ tổng quát nhằm mô tả nguồn gốc phát sinh, diễn biến phát sinh và mối quan hệ giữa các loài hoặc thực thể trong một cây tiến hóa.
Vào năm 1758, Linnaeus đã xây dựng hệ thống phân loại mang tính thứ tự trước khi phát triển học thuyết tiến hóa [62]. Sự xuất hiện và phát triển của các kỹ thuật phân tử và PCR đã tạo một lượng lớn dữ liệu hỗ trợ giải trình tự DNA và các kỹ thuật liên quan trong đánh dấu DNA (DNA fingerprint). Tính phong phú, đa dạng và mở là cơ sở quan trọng để hỗ trợ nhà nghiên cứu phân tích các dữ liệu phân tử trên Genbank hiện nay đã cho phép mở rộng phân tích ra các taxon khác ngoài các taxon thu được mẫu [62].
Nhiều dạng đặc điểm mang tính thông tin, đặc biệt là các trình tự DNA đã được ứng dụng trong nghiên cứu mối quan hệ tiến hóa và quá trình tiến hóa ở thực vật. Các thực vật bậc cao mang trong nó ba bộ gen: bộ gen trong nhân, bộ gen ty thể và bộ gen lạp thể. Tỷ lệ thay thế các nucleotide ở các bộ gen này xảy ra không đồng đều [63]. Bộ gen ty thể có mức độ thay thế nucleotide thấp nhất, trung bình khoảng (0,2 - 1,1) × 10-9 thay thế cho một vị trí trong một năm. Bộ gen lạp thể có mức độ thay thế nhanh hơn chút ít, khoảng (1,1 - 2,9) × 10-9 thay thế cho một vị trí trong một năm. Trái lại, bộ gen trong nhân có tỷ lệ thay thế nucleotide nhanh hơn gấp 150 lần so với bộ gen ty thể (đến 31,5 × 10-9 thay thế cho một vị trí trong một năm [64].
Tỷ lệ thay thế nucleotide ở thực vật khác về căn bản so với sự tiến hóa nhanh chóng của các phân tử ty thể ở động vật. Trong lịch sử tương đối ngắn của hệ thống học phân tử, lúc đầu các nhà nghiên cứu tập trung nhiều vào bộ gen lục lạp, về sau đã chuyển hướng sang các trình tự gen trong nhân [34].
Trong nghiên cứu tiến hóa, việc sử dụng chỉ thị phân tử là lựa chọn 1 đoạn hoặc 1 vùng DNA nhất định của loài/mẫu nghiên cứu để thể hiện cho cây loài (species tree). Do đó, đoạn DNA hay chỉ thị phân tử được lựa chọn phải mang tính đại diện cho loài, có tốc độ biến đổi phù hợp trong các nhóm phân tích đồng thời.
Thông tin chứa đựng trong trình tự DNA sử dụng làm chỉ thị phân tử cũng cần phải được đặc biệt quan tâm vì chỉ có những vùng giàu thông tin (rich informative region) mới có ý nghĩa nhiều để so sánh. Ngoài ra, việc lựa chọn thuật toán cũng như mô hình tiến hóa phải phù hợp [53].