Bài giảng Tin sinh học: Chương 4 - ThS. Nguyễn Thành Luân
Trang 1ThS Nguyễn Thành Luân
luannt@cntp.edu.vn
Bioinformatics
Các ứng dụng thực tiễn
Trang 2như động vật có xương sống bên
cạnh động vật nguyên sinh có cấu
tạo rất đơn giản?
Bioinformatics
Tìm hiểu các quan hệ loài
Trang 3Bioinformatics
CÂY PHÁT SINH LOÀI LÀ GÌ?
Miêu tả lịch sử tiến hóa của một nhóm
loài với những đặc tính khác nhau
nhưng có cùng mối quan hệ họ hàng
Cây phát sinh loài „kể lại‟các thời
điểm „lâu đời nhất‟ trong mối quan
hệ loài từ 1 tổ tiên chung
Biểu hiện tổ tiên chung cho tất cả các
loài/gene trong cây phát sinh
Các loài gần nhau, có khoảng cách từ gốc
đến ngọn sát nhau có thể là họ hàng „gần‟
của nhau trong 1 thời điểm ở quá khứ
Ý nghĩa cây phát sinh loài
Phản ánh
Mức độ quan hệ giữa các nhóm loài sinh
vật
Quá trình tiến hoá của các nhóm sinh vật
từ thấp đến cao, từ đơn giản đến phức
tạp
Biết được số lượng của các nhóm động
vật
Trang 4Bioinformatics 10
Tác phẩm “Nguồn gốc các loài”
Tác giả: Charles Darwin
Xuất bản năm 1859
Giới thiệu giả thuyết các loài tiến hóa
là kết quả của quá trình chọn lọc tự
nhiên
Quyển sách gây tranh cãi vì mâu
thuẫn với niềm tin tôn giáo
Trang 5Darwin cho rằng các loài có chung
một nguồn gốc khi ông quan sát các
loài “tương tự” trong suốt chuyến
hành trình
Trang 6Bioinformatics 16
Ý tưởng …
Nhóm 1: 6 loài (1, 3,
4, 5, 6, 10) sống trên cây
Nhóm 2: 6 loài (7, 8,
11, 12, 13, 14) sống trên mặt đất Nhóm 3: 1 loài (9) sống ở đảo Cocos Nhóm 4: 1 loài (2) khác với chim sẽ và giống chim nháy
Darwin‟s tree of life
Quan điểm Darwin về tiến hóa
của loài người
Trang 8Bioinformatics 22
Trình tự bảo tồn
Là những trình tự mã hóa hoặc không
mã hóa protein đóng vai trò chức
năng quan trọng đối với sinh vật
Trang 9Bioinformatics 25
Phương pháp nghiên cứu
Sắp xếp các trình tự
Phối hợp với thời gian
Xây dựng cây phát sinh loài
Trang 10Bioinformatics
Các đột biến có thể xảy ra
Transition (Sự chuyển đoạn)
Xảy ra ở các nhóm chuyển tiếp từ purine (A <-> G) hay
pyrimidine (C <->T)
Transversion (Sự đảo đoạn)
Xảy ra ở các nhóm chuyển từ purine sang pyrimidine
hoặc ngược lại (A<->T, C<->G, A<->C, T<->G)
Tất cả các đột biến trên đều là đột biến điểm
(point mutation) trong di truyền với các loại: mất
đoạn, chuyển đoạn, thêm đoạn, hoặc đảo
Các dạng cây tiến hóa loài với dạng cây phát sinh loài
không biết rõ nguồn gốc (a) và cây biết rõ nguồn gốc (b)
Trang 11Bioinformatics
Cây phát sinh loài không rõ
nguồn gốc (Unrooted tree)
Là dạng mạng lưới quan hệ loài
Không chắc chắn thời gian, không
gian khởi đầu
Biểu hiện quan hệ họ hàng nhưng
không phản ánh sự tiến hóa
Không thể nhận rõ khi quá trình
nhân bản gene diễn ra
Bioinformatics
Cây phát sinh loài biết rõ
nguồn gốc (Rooted tree)
Cây phát sinh loài biểu hiện rõ sự
tiến hóa
Có thể chỉ ra quá trình nhân bản gene xuất
hiện
Có nguồn gốc - Ví dụ tổ tiên chung liên quan
đến tất cả các trình tự gene hoặc loài
Đòi hỏi1 nhóm đặc biệt không liên quan đến
nhóm nghiên cứu (outgroup)
Cây phát sinh loài biết rõ
nguồn gốc (Rooted tree)
Trang 12Bioinformatics
Các dạng của cây phát sinh loài
biết rõ nguồn gốc (Rooted tree)
Cây phát sinh sơ đồ phân ly (Cladograms) biểu hiện tất cả các tỷ
lệ quan hệ loài ngang nhau ở mức độ quan hệ họ hàng Cây
phát sinh nhánh tiến hóa (phylograms) biểu hiện các nhánh
có tỷ lệ khác nhau tiêu biểu cho sự khác biệt giữa gene/loài
Bioinformatics
Cây phát sinh nhánh tiến hóa
Các nhánh dài hơn chỉ ra việc tiến hóa diễn ra nhanh hơn – đặc biệt hữu ích trong việc tìm hiểu các quan hệ được sinh ra từ dữ liệu mã hóa trình tự, có thể chỉ ra sự thay đổi về chức năng, hoặc về môi trường sống…
Bioinformatics
Ví dụ
Cây phát sinh loài 1, 2, 3 theo thứ tự là;
(a) Dạng phân ly, nhánh tiến hóa và dendrogram
(b) Không rõ nguồn gốc, nhánh tiến hóa và phân
ly
(c) Có nguồn gốc, phân ly và nhánh tiến hóa
(d) Không có đáp án nào đúng
Trang 13Bioinformatics
Các phương pháp để xây
dựng cây phát sinh loài
Các phương pháp cơ bản trong phân
mối liên hệ loài gần nhất
Là 1 cơ chế phân tử nghiêm ngặt
(theo dạng đồng hồ)
–Tỷ lệ đột biến gen ngang nhau trong
mỗi giống loài
– Khi tỷ lệ khác biệt 1 cách chắn
chắn không chính xác
Trang 14Bioinformatics
Cách tính
(1) a + b = 3 (2) a + e + c = 9 (3) b + e + c = 8 _
(2)-(3) a - b = 1 (1) a+ b = 3 (2-3+1) 2a = 4
a = 2
b = 1 Tương tự:
Sự khác biệt giữa các nhánh có thể biểu hiện dạng
số hay độ dài của các nhánh tiến hóa
Nhánh tiến hóa càng ngắn, loài đó được xem như
xuất hiện trước, nhánh tiến hóa dài biểu hiện loài
xuất hiện sau
Bioinformatics
Phương pháp thống kê
Nguồn gốc Parsimony: giả thuyết
đơn giản nhất nên là 1 giả thuyết
thích hợp nhất (the preferred
hypothesis)
Là 1 dạng ứng dụng xây dựng cây
phát sinh loài dựa trên trình tự, cây
nào được suy ra có ít tỷ lệ đột biến
nhất sẽ được chọn là cây phát sinh
loài thích hợp
Trang 15• Sau đó vẽ sơ đồ cột đầu tiên của trình tự
được sắp xếp trên mỗi cây, đếm số lượng
các thay đổi trong trình tự
Lặp lại các phân tích cho mỗi cột trình tự
Tổng hợp các thay đổi cho mỗi loại cây phát
sinh có thể xảy ra tạo nên cây phát sinh loài:
Ví dụ: Tree 1 = 1 (Cột 1) + 1 (Cột 2) + 1(Cột 3)
+ 0(Cột 4)
Cây phát sinh thích hợp được lựa chọn dựa trên
sự thay đổi ít nhất của số lần thay đổi
Phương pháp tìm kiếm các khả
năng có thể xảy ra (Likelihood)
trình tự
biệt, tính toán các khả năng có thể xảy ra
Đưa ra 1 mô hình tiến hóa nhất
sánh các khác biệt
Trang 16Bioinformatics
Khảo sát sự tiến hóa
Quá trình chuyển đoạn ( transition A↔G, C↔T ) xảy
ra thường xuyên hơn quá trình đảo đoạn
( transversion A↔C, A↔T, G↔C, G↔T )
Các sự đảo đoạn miêu tả những sự thay đổi mãnh
liệt hơn so với các trình tự nhóm với nhau bởi quá
trình chuyển đoạn
Bioinformatics
Khảo sát sự tiến hóa
Bioinformatics
Khảo sát sự tiến hóa
định tỷ lệ đột biến (Base thường xuất hiện
và các tỷ lệ đột biến)
khả năng có thể xảy ra của mỗi cây phát
sinh loài tại mỗi vị trí của trình tự sắp xếp
định cây phát sinh loài thích hợp nhất
Trang 17Bioinformatics
Câu hỏi ôn tập
Theo bảng cột dữ liệu trình tự dưới
đây,cây phát sinh loài nào thích hợp hơn
nếu PP likelihood được sử dụng để phân
tích dữ liệu
Bioinformatics
Độ tin cậy của cây phát sinh loài
Phương pháp chuẩn cho tất cả các cây
(ma trận khoảng cách, parsimony,
likelihood) là điểm lặp lại (bootstrap)
Sequence1 GAGCTAGGGAATCTTAATTTGAAGGTT
Sequence2 GAACTCGGGACTCTTGATCTGAGGGTT
Sequence3 ATGTGAGGGAATCTTATATTGAAGGTT
Sequence4 ATATGAGGAAATCTTAATTTGAAGGTT
Điểm lặp lại (Bootstrap)
Là kỹ thuật xử lý thống kê các phép đo lường
về độ chính xác với các khoảng ước lượng về
mẫu nghiên cứu
Cho phép sự ước lượng các giá trị khác biệt
trong 1 sự phân bố các mẫu nghiên cứu
(sample)
Kiểm định giả thuyết trong thống kê bằng số
lần thử lại (resampling) với sự thay thế từ
nguồn dữ liệu gốc (original data)
Trang 18Bioinformatics
Điểm lặp lại (Bootstrap)
Ngẫu nhiên khảo sát các cột từ trình tự n
lần
1 số cột được trình bày nhiều lần, 1 số khác thì
hoàn toàn không
Xác định cây phát sinh loài tốt nhất trong nguồn
dữ liệu
Lặp lại ngẫu nhiên mẫu nghiên cứu và khảo sát
cây phát sinh loài nhiều lần khác nhau (100 –
Không hoàn toàn mô tả chính xác lịch
sử tiến hóa của các loài
Các vấn đề về việc dựa vào các phân
tích trên 1 loại đơn lẻ về tính trạng
hoặc biểu hiện gen & protein
Thường khác biệt với loài đầu tiên so
sánh dựa trên dữ liệu khác biệt trong
nghiên cứu
Trang 19Bioinformatics
Các hạn chế của cây phát
sinh
Dữ liệu đầu ra của phân tích quan hệ loài
là 1 phép ước lượng các biểu hiện phát
sinh loài (phylogenetic characteristic)
VD: 1 cây phát sinh loài về 1 tiểu phần gen
về Haemoglobin) không phải cây phát sinh
loài về phân loại về Haemoglobin của loài từ
Khi 1 loài đã tuyệt chủng có trong cây phát sinh
loài, chúng là đại diện cho 1 nhánh cuối không
liên quan vì chúng hầu như không giống 1 tổ
tiên trực tiếp của 1 loài đang còn tồn tại khi
chưa được chứng minh
Theo quan điểm chủ nghĩa hoài nghi, 1 loài đã
tuyệt chủng được phân tích trình tự hoàn toàn
Lần đầu tiên trong lịch sử một ngành nghiên cứu
tiến hóa được ứng dụng trong việc xác định các
tội phạm trong xét xử
Xác định phụ nữ mang thai mang virus HIV+ trong các
biểu đồ tuần hoàn máu sau khi mang thai
Chồng cô đã kiểm tra HIV âm tính
Người phu nữ khẳng định rằng cô ta không có thói
quen “bừa bãi trong sinh hoạt”
Trang 20Bioinformatics
Luận điểm của Louisiana vs
Schmidt
Cô ta khẳng định rằng chỉ 1 nguồn duy
nhất có thể lây truyền là 1 chất tiêm
“Vitamin K” được đưa bởi bạn trai cũ
Chia tay không êm thắm Bạn trai cũ nổi
giận, chia tay với những cuộc viếng thăm
hoặc cuộc gọi không mong muốn
Bạn trai cũ của cô là 1 nha sĩ, có 1 bệnh
nhân HIV mà anh ấy đã lấy mẫu máu
tiêm và tỷ lệ phát triển nhanh của các
đột biến di truyền của virus HIV/AIDS,
căn cứ theo các nguồn dữ liệu về AIDS
Câu hỏi: Có phải dòng HIV từ người
phụ nữ có phải có mối liên quan với
dòng HIV được lấy từ máu bệnh
nhân của nha sĩ?
Trang 21Chứng minh giả thiết
Chiết DNA, phóng đại DNA bằng PCR và giải mã
trình tự từ những nhóm gen riêng biệt như:
–Người phụ nữ
–Virus HIV của người nha sĩ
–Từ bệnh nhân có mang HIV+
–Các dòng AIDS từ các phân bố và phân loại loài
có liên hệ gần của Lafayette
Sắp xếp tất cả trình tự
Phân tích cây phát sinh loài
Chứng minh giả thiết dựa
trên cây phát sinh loài
Trang 22Bioinformatics
Các ứng dụng khác
Bioinformatics
Các tài liệu tham khảo thêm
Cây phát sinh loài không
rõ nguồn gốc biểu hiện mối quan hệ giữa trình tự aa của
F rubripes IL-6 cho toàn bộ
chiều dài phân tử với các nhóm IL-6 đã biết trong trình tự thành viên của họ
IL 6
Cây phát sinh loài được xây dựng dựa trên mối quan
hệ láng giềng joining)
Sự tiến hóa tương lai???
Trang 23Bioinformatics
Các kiến thức cần nhớ
Định nghĩa cây phát sinh loài
Ý nghĩa của cấy phát sinh loài
Các dạng đột biến trong cây phát