Phân tích phát sinh chủng loại

Một phần của tài liệu (LUẬN văn THẠC sĩ) giải trình tự hệ gen lục lạp của sâm ngọc linh (panax vietnamensis ha et grushv) (Trang 28 - 31)

CHƢƠNG 1 : TỔNG QUAN TÀI LIỆU

1.4. Phân tích phát sinh chủng loại

Trước đây, thuật ngữ cây phát sinh chủng loại chủ yếu được sử dụng trong hệ thống học và phân loại học để mô tả mối quan hệ giữa các loài, các chi,... Ngày nay, với sự ra đời và phát triển mạnh mẽ của cơng nghệ giải trình tự DNA, thuật ngữ này dần dần được sử dụng trong hầu hết các ngành sinh học. Bên cạnh việc mô tả mối quan hệ của các loài, các chi như trước đây, cây phát sinh chủng loại còn được sử dụng trên cấp độ phát sinh quần thể, nguồn gốc phát sinh gen,... [61, 31]. Hiện nay, với sự phát triển của khoa học và công nghệ ứng dụng trong sinh học mở ra những hướng đi mới trong nghiên cứu thì phân tích chủng loại phát sinh đã trở

thành một công cụ hữu hiệu và khơng thể thiếu trong các phân tích về gen, hệ gen, metagenomics,... [19]. Cây phát sinh chủng loại thể hiện lịch sử tiến hóa của nhóm các đối tượng thông qua các điểm nút (node) và các nhánh (branch). Ngồi ra, cây cịn có thể có thêm gốc (root) trong một số trường hợp. Trong đó, các điểm nút sẽ đại diện cho một sự kiện đặc biệt nào đó (ví dụ như sự phân chia lồi). Các nhánh biểu hiện cho mối quan hệ phát sinh, khoảng cách di truyền hay sự tồn tại theo thời gian của các đối tượng đang xét (gen, hệ gen, cá thể, loài, chi,...) [100].

Cây phát sinh chủng loại được xây dựng dựa trên đặc điểm hoặc khoảng cách tính tốn của dữ liệu về đối tượng. Có hai nhóm phương pháp xây dựng cây phát sinh chủng loại là phương pháp khoảng cách và phương pháp dựa trên đặc điểm của dữ liệu. Phương pháp khoảng cách hay được sử dụng là Neighbor joining với thuật tốn gộp nhóm để tính tốn ma trận khoảng cách, từ đó tạo nên cây hoàn chỉnh. Phương pháp này tuy có tốc đơ nhanh nhưng lại có độ chính xác kém hơn các phương pháp dựa trên đặc điểm. Nhóm các phương pháp dựa trên đặc điểm bao gồm Maximum parsimony, Maximum likelihood (ML) và Bayesian. Nhóm phương pháp này có quy luật chung là so sánh đ ng thời các trình tự và sau đó xem xét các đặc điểm tại cùng một vị trí sắp xếp. Dựa trên những đánh giá về đặc điểm này có thể tạo ra điểm của cây. Tuy nhiên, do sử dụng các thuật tốn và cách tính tốn khác nhau, điểm của cây trong các phương pháp này cũng khác nhau. Phương pháp Maximum parsimony có điểm của cây được tính là giá trị thay đổi nhỏ nhất. Ở phương pháp ML, điểm số của cây được đưa ra là giá trị bootstrap, biểu hiện cho tỷ lệ xuất hiện hay khả năng xảy ra của cây. Điểm của cây ở phương pháp Bayesian là xác suất hậu nghiệm của các nhánh thể hiện cho khả năng xảy ra của cây phát sinh chủng loại. Trong các phương pháp này, cây có điểm số cao nhất trong tất cả các cây có khả năng xảy ra sẽ được đưa ra. Tuy nhiên, trong thực tế, không một phương pháp nào được đánh giá là chính xác tuyệt đối hay là tốt nhất cho phân tích phát sinh chủng loại và mỗi phương pháp đều có những ưu nhược điểm riêng nên thơng thường kết quả được đánh giá dựa trên một vài phương pháp xây dựng cây khác nhau để tránh nhầm lẫn trong phân tích [100].

Phương pháp ML tính tốn khả năng cây phát sinh chủng loại phù hợp nhất bộ dữ liệu ban đầu. Phương pháp này thực hiện việc đảo các nhánh trên một cây ban đầu để tính tốn khả năng xảy ra với điểm tương đồng cao nhất [44]. Phương pháp Bayesian là phương pháp xây dựng cây phát sinh chủng loại dựa trên phân tích và phán đoán bằng xác suất thống kê. Phương pháp này cũng dựa trên độ tương đồng để tính tốn xác suất. Tuy nhiên, Bayesian và ML khác nhau ở các tham số sử dụng để tính tốn. Hiện nay, phân tích Bayesian đang trở nên phổ biến hơn nhờ những tiến bộ trong phương pháp tính tốn, đặc biệt là thuật toán Markov chain Monte Carlo (MCMC). Hai phương pháp này đều sử dụng khả năng có thể xảy ra của cây phát sinh chủng loại nên chúng tương đối giống nhau ở một số ưu điểm như tính thống nhất và hiệu quả [99]. Tuy nhiên, thuật toán và suy luận thống kê sử dụng trong hai phương pháp là khác nhau nên một sô ưu nhược điểm sẽ tùy thuộc vào từng phương pháp. Nhược điểm chính của phương pháp ML là giá trị bootstrap thường rất khó giải thích. Đối với Bayesian, lỗi phát sinh trong q trình tính tốn khó có thể phát hiện được khi sử dụng MCMC với bộ dữ liệu quá lớn và xác suất hậu nghiệm thường đưa ra quá cao. Hiện nay, ML và Bayesian vẫn là hai phương pháp được sử dụng rộng rãi nhất trong phân tích phát sinh chủng loại [100].

Nhằm đưa ra một phương pháp tối ưu hơn cho giải trình tự hệ gen lục lạp ở sâm Ngọc Linh nói riêng và các lồi thực vật nói chung phục vụ cho việc tìm kiếm các chỉ thị phân tử giúp định loại lồi chúng tơi xây dựng đề tài: “Giải trình tự hệ

gen lục lạp của sâm Ngọc Linh (Panax vietnamensis Ha et Grushv.)”. Nghiên

cứu sử dụng phương pháp phân tách các phân đoạn DNA methyl hóa và khơng methyl hóa ở CpG kết hợp với giải trình tự bằng hệ thống Ion Torrent. Các nghiên cứu liên quan đến giải trình tự và khai thác thơng tin về hệ gen, trong đó có hệ gen lục lạp, xây dựng cơ sở dữ liệu hệ gen của sâm Ngọc Linh sẽ hỗ trợ các nghiên cứu tiến hóa, nhận dạng, bảo tồn, khai thác và sử dụng bền vững nguồn gen quý hiếm này.

Một phần của tài liệu (LUẬN văn THẠC sĩ) giải trình tự hệ gen lục lạp của sâm ngọc linh (panax vietnamensis ha et grushv) (Trang 28 - 31)