Các nghiên cứu phát sinh sinh lồi

Một phần của tài liệu Luận văn Thạc sĩ Khoa học máy tính Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ (Trang 34)

Trong ngành sinh học, người ta nghiên cứu mối quan hệ giữa các lồi sinh vật thơng qua các bằng chứng phân tử, cụ thể là trình tự DNA và protein. Như vậy sự khác biệt giữa các trình tự (DNA) chỉ định sự phân kỳ di truyền như là kết quả của tiến hĩa phân tử theo tiến trình thời gian.

Các phương pháp dùng để nghiên cứu phát sinh sinh lồi chủ yếu dựa trên một sự giảđịnh về các tiến trình tiến hĩa ở mức phân tử thơng qua việc quan sát phân tích trình tự DNA hoặc protein. Bằng cách sử dụng cơng cụ máy tính, các chuỗi dữ liệu sẽ được mơ phỏng tiến trình tiến hĩa và phân tích tiến trình phát sinh sinh lồi. Giả sử là chúng ta cĩ một “cây tiến hĩa đúng”, chúng ta cĩ thể dùng nĩ để kiểm tra lại độ chính xác, tính nhất quán khả năng tin cậy của những mơ hình tiến hĩa. Tuy nhiên khi sử

dụng các dữ liệu sinh học, cái gọi là cây tiến hĩa cĩ thể khơng bao giờ cĩ, hoặc ít ra cũng cĩ thể nĩi là KHƠNG BIẾT. Do vậy người ta chấp nhận một cây tiến hĩa được dựng nên mà người ta tin là nĩ GIỐNG NHẤT với cây tiến hĩa đúng.

Trong các bước trình tự cơ bản để cho một nghiên cứu phát sinh sinh lồi thì

đánh giá sự phát sinh sinh lồi cũng là một bước khơng thể bỏ qua. Sau đây là một số

phương pháp được sử dụng hiện nay:

Phương pháp Hà tin ti đa (Maximum parsimony), một sự giả định cho rằng cây tiến hĩa tốt nhất mổ tả tiến trình tiến hĩa tốt nhất chính là cây mơ tảđược các lồi ít thay đổi nhất tức là cĩ ít đột biến nhất, cây vì thế cĩ điểm thấp nhất (hà tiện) theo một tiêu chuẩn định sẵn.

Phương pháp Khong cách (Distance method): Khác với phương pháp parsimony cĩ mơ hình tiến hĩa là một hàm ẩn, thì phương pháp khoảng cách lại cĩ mơ hình tiến hĩa là một hàm hiện. Trong phương pháp này từng cặp trình tự một sẽ được so sánh thẳng hàng cặp đơi và ứng với từng cặp, khoảng cách di truyền sẽ được tính tốn. Do mơ hình tiến hĩa là một hàm hiện nên một trong số mơ hình tiến hĩa cĩ thể được chọn để tính tốn khoảng cách di truyền giữa từng cặp taxa từđĩ cho ra một ma trận khoảng cách giữa tất cả các taxa. Và để cĩ được cây tiến hĩa, phương pháp phân rã hình ngơi sao thường được sử dụng ví dụ phương pháp neighbor-joining(liên kết cận kề). Do phương pháp neighbor-joining mà một trong những phương pháp nhanh nhất để dị tìm cây tiến hĩa nên nĩ thường được sử dụng để phân tích khối dữ liệu lớn với nhiều taxa.

Phương pháp Hp lý cc đại (Maximum Likelihood) là phương pháp tiêu tốn nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất. Mơ hình tiến hĩa dùng trong phương pháp này cũng là một hàm hiện. Ứng với mỗi mơ hình tiến hĩa được chọn, phương pháp này sẽ tính tốn khả năng xác suất mà một cây tiến hĩa cĩ thể cĩ từ chuỗi trình tự phân tích. Cây tiến hĩa cĩ xác suất cao nhất là cây cuối cùng được chọn.

Chúng ta tập trung vào phương pháp ML, để hiểu được điều này chúng ta bắt

Một phần của tài liệu Luận văn Thạc sĩ Khoa học máy tính Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ (Trang 34)