Đặc điểm của các phương pháp xây dựng cây chủng loại

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng quy trình định lượng nồng độ bkv dna bằng kỹ thuật real time pcr và phân tích đặc điểm di truyền phân tử của virus bk ở bệnh nhân ghép thận​ (Trang 32 - 34)

Hai tiêu chí chính được sử dụng để phân loại các phương pháp xây dựng cây phát sinh gồm loại dữ liệu sử dụng làm đầu vào và thuật toán sử dụng để xác định cây. Dữ liệu đầu vào có thể là dữ liệu phân tử hoặc có thể là dữ liệu khoảng cách. Dữ liệu phân tửđặc trưng bởi các chuỗi liên kết (nucleotide hoặc axit amin), trong khi đó dữ liệu khoảng cách là một ma trận với một thước đo khoảng cách tiến hóa giữa mỗi cặp trình tự trong nhiều liên kết đã được tính toán. Ưu điểm chính của dữ liệu khoảng cách là cho phép tính toán nhanh chóng các cây phát sinh, tuy nhiên lại mất thông tin khi chuyển từ dữ liệu phân tử sang dữ liệu khoảng cách.

Phương pháp khoảng cách chỉ có thểđược sử dụng trên dữ liệu khoảng cách, dựa trên ý tưởng từng cặp trình tự sẽđược so sánh thẳng hàng và ứng với từng cặp, khoảng cách di truyền được xác định. Thuật toán chỉ dừng lại khi tất cả các chuỗi đã được phân nhóm và các trình tự được nhóm lại sẽ xác định cấu trúc liên kết cây. Phương pháp khoảng cách gồm hai thuật toán là UPGMA (Unweighted pair-group method using arithmetic averages) và NJ (Neighbour Joining).

UPGMA là thuật toán xây dựng cây đơn giản nhất với việc giả định tốc độ tiến hóa không đổi của các chuỗi trong tất cả các nhánh của cây (giả định đồng hồ phân tử). Giảđịnh này rất khó có thể xảy ra nếu các trình tự cách nhau với khoảng cách tiến hóa lớn. Tuy nhiên, thuật toán này có ưu điểm là tạo ra cây có gốc với tốc độ rất nhanh [90].

Bên cạnh đó, NJ là phương pháp tiến hóa tối thiểu ở mỗi bước trong quá trình tính toán phân cụm. Khác với UPGMA, NJ không cho rằng tốc độ tiến hóa là như nhau trong tất cả các nhánh của cây và điều chỉnh tỷ lệ biến thể giữa các nhánh. Phương pháp này bắt đầu với một cây gốc dạng như ngôi sao. Mỗi cặp sẽ được

đánh giá riêng và tổng của tất cả các chiều dài nhánh được tính toán để hình thành cây. Cặp có tổng nhỏ nhất thì có mối quan hệ gần nhất và do đó được nối lại với nhau để hình thành một nhánh mới. Quá trình này được lặp lại cho đến khi chỉ có một điểm đầu và một điểm cuối duy nhất. Phương pháp NJ tương đối nhanh và thường cho kết quả tốt hơn phương pháp UPGMA [90].

Phương pháp dựa trên ký tự có thể được sử dụng trên cả dữ liệu chuỗi và khoảng cách, dựa trên ý tưởng tạo ra tất cả các cấu trúc liên kết cây có thể từ các chuỗi dữ liệu đầu vào. Cây có xác suất xuất hiện cao nhất là cây phù hợp nhất với dữ liệu đầu vào. Nhược điểm của các thuật toán này là rất tốn thời gian vì sốlượng cấu trúc liên kết cây phát triển rất nhanh với số lượng trình tự. May mắn thay, có các phương pháp tìm kiếm tránh phải đánh giá tất cả các cây, tuy nhiên, việc đánh giá nhiều cây khác nhau làm cho các phương pháp dựa trên ký tự tốn nhiều thời gian hơn so với các phương pháp phân cụm (khoảng cách). Trong khi phương pháp phân cụm cho kết quả trong vòng vài giây thì phương pháp ký tự có thể mất vài phút, thậm chí là hàng giờ, tùy thuộc vào sốlượng trình tựvà độ dài của chúng. Ưu điểm chính của các phương pháp dựa trên ký tự là chúng cho phép tính toán các chuỗi tổ tiên (nghĩa là chuỗi tại các nút bên trong của cây) và không bị mất thông tin (hoạt động trực tiếp trên nhiều dữ liệu căn chỉnh chuỗi) [90]. Thuật toán này gồm hai phương pháp là:

* MP (Maximum Parsimony: khả năng tối thiểu): cơ sở lý thuyết của phương pháp này là ý tưởng triết học của William of Ockham, với giả thuyết tốt nhất để giải thích một quá trình là một yêu cầu đặt ra các giảđịnh nhỏ nhất. Phân tích tối đa được áp dụng cho việc xây dựng cây phát sinh liên quan đến việc tính toán sốlượng thay thế tối thiểu trên tất cả các vị trí cho mỗi cấu trúc liên kết để hình thành chiều dài cây. Cây MP là cây có chiều dài cây tối thiểu với ưu điểm chính là phù hợp với các chuỗi liên quan rất xa do thông tin trong một số vị trí bảo tồn có xu hướng biến mất nếu sử dụng các phương pháp khoảng cách cho các chuỗi [90].

* ML (Maximum Likehood: khả năng tối đa): Đây là phương pháp tốn nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất với khả năng tái cấu

trúc chính xác các mối quan hệ giữa các chuỗi đã được tách ra trong một thời gian dài hoặc đang phát triển nhanh chóng, đòi hỏi một phương pháp sửa chữa cho nhiều sự kiện đột biến tại cùng một vị trí. Ứng với mỗi mô hình tiến hóa được chọn, phương pháp này sẽ tính toán khả năng xác suất mà một cây tiến hóa có thể có từ chuỗi trình tự phân tích. Cây tiến hóa có xác suất cao nhất là cây cuối cùng được chọn [90].

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng quy trình định lượng nồng độ bkv dna bằng kỹ thuật real time pcr và phân tích đặc điểm di truyền phân tử của virus bk ở bệnh nhân ghép thận​ (Trang 32 - 34)

Tải bản đầy đủ (PDF)

(99 trang)