Bài giảng Tin sinh học với mục tiêu là giới thiệu khái quát cách tìm kiếm nguồn thông tin trên Internet, phục vụ cho việc học tập, nghiên cứu, viết luận văn. Trang bị kiến thức cơ bản và một số công cụ thông dụng của tin sinh học để: Khai thác và xử lý các thông tin sinh học Ứng dụng trong lĩnh vực nghiên cứu, trong phòng thí nghiệm và thực tiễn.
1/6/2019 Mục tiêu môn học: Tin sinh học (Bioinformatics) Thông tin học phần Giới thiệu khái quát cách tìm kiếm nguồn thơng tin Internet, phục vụ cho việc học tập, nghiên cứu, viết luận văn Mã học phần: SH3036 Số tín chỉ: (2LT + 1TH) Trang bị kiến thức số công cụ thông dụng Học phần tiên quyết: tin sinh học để: + Sinh học phân tử I, II (SH2003; SH2004), Khai thác xử lý thông tin sinh học + Kỹ thuật di truyền - nguyên lý ứng dụng Ứng dụng lĩnh vực nghiên cứu, phòng thí nghiệm thực tiễn Nội dung mơn học Tóm tắt nội dung mơn học Phần Lý thuyết Phần Giới thiệu số cơng cụ phân tích CSDL sinh học Phần Lý thuyết Phần Thực hành máy tính Giới thiệu đơi nét Internet phương pháp tìm kiếm thơng tin Nhiệm vụ sinh viên Dự lớp, thảo luận Thực hành, làm tập Nền tảng sinh học Bioinformatics Sự đời vai trò Bioinformatics Cơ sở liệu sinh học (CSDL) Hình thức thi: Thi viết thực hành máy tính So sánh trình tự (sequence alignment) Thang điểm đánh giá: Thang điểm 10,0 Chuyên cần: dự lớp, thảo luận…: 10% Kiểm tra kỳ, báo cáo thực hành/tiểu luận…: 20% Điểm thi cuối kỳ (lý thuyết + thực hành) 70% Tóm tắt nội dung mơn học Phần Lý thuyết Phân tích gene promoter Tóm tắt nội dung môn học Phần Giới thiệu số công cụ phân tích CSDL sinh học Tìm kiếm thơng tin gene, báo thông Nghiên cứu mối quan hệ tiến hóa sinh vật mức độ phân tử (molecular phylogenetics) tin liên quan Tìm kiếm CSDL tương đồng Tin sinh học nghiên cứu cấu trúc phân tử So sánh trình tự sinh học Nghiên cứu genomics proteomics Phân tích trình tự ADN 10 Sinh học hệ thống (Systems Biology): Phân tích chức Phân tích trình tự protein genome Phân tích gene promoter Làm quen với cấu trúc chiều phân tử protein 1/6/2019 Tóm tắt nội dung môn học Phần Thực hành Các tập thực hành bao gồm tập liên quan đến việc ứng dụng công cụ để phân tích CSDL sinh học Phần thực hành cần thao tác trực tiếp máy tính có kết nối Internet Trước buổi thực hành có phần tập tài liệu hướng dẫn thực hành Thực hành hội trường Khoa, lớp chia thành nhóm Tài liệu học tập J.Xiong (2006) Essential bioinformatics, Cambridge University Press Hui-Huang Hsu (2006) Advance in data mining technologies in bioinformatics Idea Group Inc J M.Claverie, C Notredame (2007) Bioinformatics For Dummies®, 2nd Edition Wiley Publishing, Inc S.Q.Ye (2008) Bioinformatics: A Practical Approach Taylor & Francis Group J.Pevsner (2009) Bioinformatics and functional genomics A John Wiley & Sons, Inc P.M.Selzer, R.J Marhöfer, A Rohwer (2009) Applied bioinformatics: An introduction Springer-Verlag Berlin Heidelberg P Kangueane (2009) Bioinformation Discovery Data to Knowledge in Biology Springer Dordrecht Heidelberg London New York Phan Trọng Nhật, Nguyễn Đức Bách Bài giảng Tin sinh học, Đại học Nông nghiệp Hà Nội Chương Giới thiệu Bioinformatics 1.1 Lịch sử đời phát triển • Khái niệm • Những mốc lịch sử quan trọng Khái niệm Bioinformatics is the application of computer science and information technology to the field of biology and medicine Khái niệm Bioinformatics liên quan đến: Thuật toán, CSDL, hệ thống thông tin, công nghệ Web, trí thông minh nhân tạo, phần mềm, khai thác CSDL, xử lý hình ảnh, mô hình, mô phỏng, xử lý thống kê, tạo các CSDL mới… DNA computing neural computing evolutionary computing immuno-computing swarm-computing cellular-computing Requirements Java, XML, Perl, C, C++, Python, R, SQL and Mat Lab are the programming languages popularly used in this field A bioinformatician needs to have a basic and general sense of the ideas and approaches of science and engineering 1866: Gregor Mendel công bố kết nghiên Một vài mốc lịch sử quan trọng sinh học phân tử cứu tính di truyền “yếu tố di truyền” đậu Hà Lan 1950's Maurice Wilkins (1916- ), Rosalind Franklin Rosalind Franklin (1920-1958), Francis H C Crick (1916- ) (U.K) Nhà nghiên cứu lý sinh học, vật lý học, hóa học, James D Watson (1928- ) (U.S.) tinh thể học người Anh Đóng góp quan trọng việc hiểu rõ cấu trúc phân tử DNA, RNA cấu trúc virus, than đá, than chì Khám phá cấu trúc hóa học DNA, khởi đầu nhánh khoa học: Sinh học phân tử Franklin biết đến nhiều từ kết nghiên cứu ảnh nhiễu xạ tia X DNA Watson Crick dựa kết quan trọng để đưa giả thuyết mơ hình cấu trúc phân tử DNA (1953) Khám phá cấu trúc DNA 1957: Arthur Kornberg (1918-2007 ) (U.S) tổng hợp DNA ống nghiệm Ông giành giải thưởng Nobel Book: The double helix Cuộc chiến Watson Crick vs Linus Carl Pauling sinh lý năm 1959 cho đóng góp về: “Các chế tổng hợp sinh học DNA” 1955 F Sanger (U.K) phát triển quy trình xác định amino Một số mốc lịch sử xác định trình tự amino acid acid (insulin) 1975 F Sanger phát triển phương pháp xác định trình tự nucleotide Ông nhận giải thưởng Nobel (1958, 1980) cho đóng góp Đến có người nhận giải thưởng Nobel đời Marie Curie (Physics, 1903 and Chemistry, 1911), Linus Pauling (Chemistry, 1954 and Peace, 1962) Frederick Sanger (2 Chemistry, 1956 and 1972) John Bardeen (2 Physics, 1956 and 1972) Mã di truyền (Genetic code) Làm để xác định mã di truyền? Năm 1966 mã di truyền phát Kết dẫn đến đột phá quan trọng kỹ nghệ di truyền (genetic engineering) Khám phá mã di truyền nucleotide phân tử DNA (RNA) 20 amino acid chuỗi polypeptide biết 1972 Paul Berg (1926- ) (U.S) tạo phân tử DNA tái tổ hợp In 1980 ông nhận giải thưởng Nobel với Walter Gilbert Frederick Sanger Năm 1953, cấu trúc DNA xác định George Gamow giả thiết phải chữ để mã cho 20 aa số tự nhiên nhỏ (43 = 64) Giả thuyết Crick Brenner tác giả khác chứng tỏ thực nghiệm (1961) Sử dụng hệ thống dịch mã không cần tế bào: Poly UUUU… tạo phenlyalanine Poly AAAA tạo thành polylysine Poly CCCC tạo thành polyproline 1983 Barbara McClintock (1902-1992) (U.S.) nhận giải thưởng Nobel cho phát yếu tố di truyền vận động Cuối năm 1980, hiệp hội quốc tế số phịng thí nghiệm lớn đưa dự án xác định lập đồ genome người Năm 1990, lần liệu pháp gen đưa vào điều trị Năm 1993 Kary Mullis phát minh quy trình PCR (Giải thưởng Nobel) Năm 1994 FDA chấp nhận cho phép dùng chuyển gene thực phẩm (Cà chua) Năm 1997: Động vật có vú lần clone Mốc lịch sử xác định trình tự genome 1992 Welcome Trust United Kingdom Medical Research Council thiết lập trung tâm Sanger Centre để xác định trình tự genome quy mô lớn 1992 1953 Cấu trúc DNA 1975 F Sanger (độc lập), A Maxam W Gilbert: phương pháp xác định trình tự DNA 1977 Genome φ X-174 xác định trình tự 1980 Mỹ cấp phát minh cho vi khuẩn cải biến gen (cơ sở cho patent gene) 1981 DNA ti thể người xác định trình tự:16 569 base pairs 1984 Epstein-Barr virus genome : 172 281 base pairs 1990 Dự án xác định trình tự genome người (dự kiến 15 năm) 1991 J C Venter cộng xác định gen hoạt động dựa sở EST 1992 Bản đồ liên kết (mức độ phân giải thấp) genome người hoàn thành 1992 Khởi động dự án xác định trình tự genome Caenorhabditis elegans J C Venter sáng lập Viện nghiên cứu genome (The Institute for Genome Research (TIGR) 1995 Genome vi khuẩn giải trình tự Haemophilus influenzae (bởi TIGR) Bản đồ liên kết (mức độ phân giải cao) genome người hoàn thành Khoảng cách marker khoảng 600 000 nucleotide 1996 Hoàn thành genome nấm men (genome eukaryote) 1998 Hồn thành xác định trình tự genome người 1998 Genome Caenorhabditis elegans công bố 1999 Genome Drosophila melanogaster công bố 1999 Bản nháp hồn thành (90% gene xác định trình tự với mức xác >95%) 12/ 1999 Trình tự NST số người công bố 2000 Bản nháp trình tự DNA genome người cơng bố Genome người ◼ Một thư viện có 46 sách (NST) Mỗi sách có 48 đến 250 triệu chữ (A,C,G,T) Tồn thư viện có tỉ chữ ◼ Thư viện đặt nhân ◼ tế bào có kích thước nhỏ Trong tế bào chứa thư viến (gồm 46 sách) ◼ Những vấn đề tồn đọng phân tích genome ◼ Mối quan hệ tiến hóa sinh vật ◼ Nghiên cứu cấu trúc chức protein ◼ Proteomes sinh vật ◼ Mối tương quan SNP với sức khỏe bệnh tật ◼ Dự đoán khả mẫn cảm bệnh dựa sở so sánh đa hình trình tự gene ◼ ◼ Những vấn đề tồn đọng phân tích genome ◼ Xác định số lượng gene, vị trí phân bố NST chức ◼ Điều hòa hoạt động gene ◼ Cấu trúc NST tổ chức gene, trình tự DNA NST ◼ Các dạng DNA khơng mã hóa, số lượng, phân bố, thơng tin, chức chúng ◼ Xác định vị trí gene biểu NST, kiên liên quan đến sinh tổng hợp protein, cải biến sau dịch mã Các gen liên quan đến tính trạng phức tạp bệnh liên quan đến nhiều gen ◼ Tương tác protein phức hợp với phân tử khác Sinh học hệ thống ◼ Dư đoán chức gene so sánh với kết thực nghiệm Bioinformatics Paulien Hogeweg (1979) đưa thuật ngữ nghiên cứu q trình xử lý thơng tin hệ thống sinh học Những năm gần đây, lượng lớn liệu sinh học tạo (genomic, proteomic) Để phân tích CSDL cần phải sử dụng thuật tốn, cơng cụ thống kê, khoa học máy tính 1.2 Nhiệm vụ bioinformatics 1.2 Nhiệm vụ bioinformatics ◼ Xây dựng CSDL (Genomic, protein databases) ◼ Xây dựng CSDL đột biến gene SNP Quản lý CSDL ◼ Các trình duyệt cho genome (Genome browser) Phát triển công cụ, thuật tốn để khám phá thơng tin ◼ So sánh trình tự (Sequence alignment) ◼ Dự đốn gene (Ab initio gene prediction), xác định tổ chức gene NST, ẩn chứa CSDL genome ◼ Xây dựng mơ hình biểu gene: SAGE, EST ◼ Dự đoán promoter (Promoter prediction) ◼ Xây dựng cấu trúc đại phân tử mơ hình tương tác ◼ Các bước nghiên cứu sau: Tương tác CSDL gene ontology 1.2 Nhiếm vủ và các hướng nghiên cứu bioinformatics ◼ Xây dưng CSDL (Databases) ◼ Phân tích trình tư (sequence analysis) ◼ Mô tả genome (Genome annotation) ◼ Sinh học tiến hóa (Computational evolutionary biology ◼ Phân tích biểu hiện gene (Analysis of gene expression ◼ Phân tích điều hòa phiên mã (Analysis of regulation) ◼ Phân tích biểu hiện protein (Analysis of protein expression) ◼ Phân tích đột biến ung thư (Analysis of mutations in cancer ◼ Dư đoán cấu trúc protein (Prediction of protein structure) ◼ So sánh genome (Comparative genomics ◼ Mơ hình hóa các hệ thống sinh học (Modeling biological systems) ◼ Phân tích hình ảnh quy mơ lớn (High-throughput image analysis) ◼ Nghiên cứu tương tác protein (Protein-protein interaction ◼ Phát triển các phần mềm và công cụ (Software and tools) Machine learning: Microarray 1.2 Nhiệm vụ bioinformatics Phân tích biểu gene ◼ Microarray kết hợp với high throughput (HT) mass spectrometry (MS) cung cấp tranh có mặt protein mẫu sinh học ◼ CSDL microarray MS vơ cần thiết Phân tích đột biến ung thư ◼ ◼ ◼ Dự đoán cấu trúc phân tử protein Các đột biến điểm: tạo gen đột biến dẫn đến ung thư ◼ Các nhà tin sinh học tạo hệ thống để quản lý ◼ liệu trình tự phát triển thuật toán để so sánh trình ◼ tự nhằm phát đa hình ◼ Các thư viện SNPs kho liệu để phân Các bậc cấu trúc protein Phát triển thuốc điều trị Phát triển enzyme Thuật toán phần mềm, độ xác cấu trúc hạn chế tích đột biến điểm So sánh genome ◼ Mơ phỏng, mơ hình hóa hệ thống sinh học Nghiên cứu mối quan hệ cấu trúc chức genome lồi khác ◼ ◼ Tìm kiếm gene ứng dụng quan trọng nghiên cứu so sánh giao tiếp để xây dựng, mô hệ thống sinh học, tạo genome (phát vùng, yếu tố mã hóa, khơng mã hóa…) ◼ mạng lưới đường trao đổi chất (enzyme, dẫn truyền tín hiệu, So sánh genome cho biết giống khác protein (kết hợp với mạng lưới điều hòa) nghiên cứu thực nghiệm) để phát chức chế sinh học ◼ Sử dụng thuật toán, cấu trúc liệu, hiển thị công cụ ◼ So sánh genome phát vai trò gene điều hịa vùng Mơ hệ thống sống đơn giản (hoạt động tế bào, dạng sống đơn giản) điều hòa SV khác → Xác định chức yếu tố genome Protein docking Phân tích hình ảnh (High-throughput image analysis) ◼ Cho đến 10.000 cấu trúc chiều protein xác định kỹ thuật kết tinh cộng hưởng từ hạt nhân, nhiễu xạ tia X ◼ ◼ Sử dụng công nghệ máy tính để xử lý tự động lượng lớn Câu hỏi đặt phân tử tương tác với không gian dựa vào cấu trúc D? hình ảnh (mang nhiều thơng tin) sử dụng y học chẩn đoán ◼ Hiển thị đồ, cấu trúc phân tử protein mức phân giải cao Phân tích tồn trình tự genome Các cơng cụ so sánh trình tự Nhận dạng dự đốn gene yếu tố khác (Ab initio gene prediction) Phân tích EST Phân tích đa hình Phân tích đường trao đổi chất điều hòa Các hồ sơ (profilling) biểu gene (thư viện microarray) Proteomic Các mạng lưới trao đổi chất điều hòa 1/6/2019 Bản chất BLAST Bản chất BLAST • • • • Tìm trình tự CSDL có cụm GTW Mở rộng tìm kiếm hai phía GTW Đánh giá điểm số → tiếp tục dừng lại Ngưỡng điểm số định tiếp tục hay dừng lại bước BLAST • (1) Chọn trình tự truy vấn • (2) Chọn chương trình BLAST • (3) Chọn CSDL • (4) Chọn thông số (gap cost/ mismatch/matrix) • Cuối click “BLAST” Mức tin cậy BLAST • Tính tốn thống kê • Giá trị E (E-value) tỉ lệ nghịch với điểm số (điểm số cao → giá trị E nhỏ) • E-value xác nhận trình tự tìm giống với trình tự truy vấn ngẫu nhiên hay có ý nghĩa thống kê Biến thể BLAST chức • blastn: – Tốt: tìm trình tự giống với điểm số cao, – Khơng tốt: trình tự có mối quan hệ xa • blastp: – Sử dụng substitution matrix để xác định khoảng cách mối quan hệ • blastx: – Áp dụng cho trình tự DNA – Phân tích ESTs • tblastn: – Tìm vùng mã hóa (Coding region) chưa xác định CSDL • tblastx: – Phân tích ESTs 1/6/2019 Nhận xét kết BLAST E-Value: Dừng lại e-10 Định dạng FAST cho query 1/6/2019 Lựa chọn chương trình BLAST Số khung đọc đoạn DNA Lựa chọn CSDL nucleotide CSDL Protein 1/6/2019 1/6/2019 Câu hỏi CHƯƠNG CÂY TIẾN HĨA & PHÂN TÍCH TIẾN HĨA Phylogenetic tree Tiến hóa gì? 10 11 Tiến hóa gì? Q trình tiến hóa gì? Lồi gì? Thế lồi/lồi phụ? Q trình phát sinh lồi? Nghiên cứu tiến hóa để làm gì? Thế tiến hóa? Dữ liệu dùng để xây dựng tiến hóa? Đột biến nguồn liệu để phân tích tiến hóa? Phương pháp xây dựng tiến hóa? Cách “đọc” tiến hóa? Các phần mềm xây dựng tiến hóa? Tiến hóa gì? • The process by which different kinds of living organism are believed to have developed from earlier forms during the history of the earth Definition of evolution in Oxford dictionary • The process by which different kinds of living organisms are thought to have developed and diversified from earlier forms during the history of the earth Definition of evolution in US English dictionary Evolution? • Evolution is the change in the inherited characteristics of biological populations over successive generations • Evolution is a change in the gene pool of a population over time Q trình tiến hóa • Q trình tiến hóa phát triển từ nguồn gốc ban đầu tạo nhiều dạng khác điều kiện khác • Tiến hóa biến đổi nguồn gene (gene pool) quần thể qua hệ 1/6/2019 Species? • Trong sinh học, lồi đơn vị phân loại • Lồi nhóm sinh vật có khả giao phối với sinh qua nhiều hệ Lồi, lồi/lồi phụ Species/subspecies/varieties • Các giống (variety) có khác biệt kiểu hình với có khả lai với cách tự • Thơng thường phân cách địa lý tạo nhiều giống khác • Ví dụ: có nhiều giống lúa địa phương khác giống lợn khác nhau… • Lồi phụ: có khác biệt với từ hai nhiều đặc điểm Có thể giao phối tạo hệ hữu thụ tự nhiên thường xảy Nguyên nhân chủ yếu cách ly địa lý dẫn đến cách li sinh sản Ví dụ lúa có hai lồi phụ chính: indica japonica Q trình phát sinh lồi? • Là q trình dẫn đến thay đổi kiểu gene quần thể ban đầu tạo kiểu gene cách li sinh sản với quần thể gốc – Cách li sinh sản – Cách li địa lí – Đa bội hóa – Đột biến Thế tiến hóa? Nghiên cứu tiến hóa để làm gì? • Lịch sử phát triển sinh giới hệ kiện xảy tự nhiên • Giải thích đa dạng sinh giới • Mối quan hệ lồi nguồn gốc tiến hóa • Cơ chế q trình hình thành lồi • Vị trí lồi hệ thống sinh giới • Dự đốn chiều hướng tiến hóa Phylogenetic tree • • • • • • • • • Phylogenetic tree/ evolution tree Root/ Branch/ Node/ Leaf Operational taxonomic units (OTU) Hypothetical taxonomic unit (HTU) Common ancester Rooted/ unrooted tree Descendant Relatedness/change Time 1/6/2019 Phylogenetic tree Phylogenetics • Phylogenetics khoa học nghiên cứu mối quan hệ tiến hóa lồi • Để dự đốn mối quan hệ tiến hóa, tiến hóa xây dựng để liên kết loài với • Một sơ đồ tiến hóa minh họa mối quan hệ thực thể (thường nhóm phân loại taxon) có tổ tiên chung • Một sơ đồ hiển thị mối quan hệ tiến hóa nhóm sinh vật Phylogenetic tree Mối quan hệ/ Mức độ thay đổi Thời gian • Là tiến hóa sơ đồ nhánh hiển thị mối quan hệ tiến hóa lồi dựa vào giống khác đặc điểm vật lý di truyền • Các taxon kết nối với thành xuất phát từ tổ tiên chung Tại phải nghiên cứu mối quan hệ tiến hóa So sánh đặc điểm giống • Tìm mối quan hệ tiến hóa sinh vật (phân tích biến đổi xảy sinh vật khác trình tiến hóa) • Hiểu mối quan hệ trình tự tổ tiên cháu (tiến hóa phân tử, tiến hóa trình tự) • Dự đoán thời gian phân li (tách ra) nhóm sinh vật chia sẻ tổ tiên chung 1/6/2019 Giả thuyết đồng hồ phân tử (Molecular clock) • Tất đột biến xảy với tốc độ tất nhánh • Tốc độ đột biến tất vị trí dọc theo chiều dài trình tự • Giả thuyết đồng hồ sinh học phù hợp lồi có mối quan hệ gần gũi Tuy nhiên lồi có mối quan hệ xa việc áp dụng khó thuyết phục • • • • Các (1, 2, 3, 4, 5) gọi OTU (operation taxon unit) Các điểm bên (internal node) tổ tiên chung (6, 7, 8) Cây không gốc khơng tổ tiên mà từ cháu phát sinh • • Cây mơ tả loài một nhánh xuất phát từ điểm gọi node (tổ tiên chung gần nhất) Mối quan hệ loài liên hệ coi cành Chiều dài cành thể thời gian tiến hóa mức độ biến đổi trình tự Các (a) (b) không gốc (dạng cladogram), chúng đơn biểu diễn mối quan hệ taxon (A, B, C, D) tiến hóa Phương pháp tạo gốc tổ tiên chung mà từ cháu phát sinh Gốc tổ tiên tất lồi Có n-1 cách tạo có gốc với n số điểm (node) Cây tiến hóa • Có loại tiến hóa: • Cây có gốc: có điểm mà từ điểm khác phát sinh • Cây khơng có gốc: khơng xác định nguồn gốc từ điểm làm tổ tiên ban đầu mà từ phát sinh lồi tổ tiên tiếp 1/6/2019 Xây dựng tiến hóa có gốc • Để xây dựng tiến hóa có điểm làm tổ tiên chung cần đưa lồi vào để phân tích chung gọi nhóm ngoại Nhóm ngoại phải có đặc điểm có tổ tiên chung gần với tất OTU có tiến hóa phải có khác biệt đủ lớn để tách biệt với tất OTU khác • Một dấu khác biệt dễ dàng nhận có gốc khơng có gốc xuất nhóm ngoại Nhóm ngoại nằm vị trí gốc chung tất OTUs tách riêng nhánh riêng biệt • Nếu việc tìm nhóm ngoại bổ sung nhóm ngoại khó biện pháp khác áp dụng để xác định gốc cho chẳng hạn dùng điểm (midpoint) nhánh dài cành liên tiếp gần kề Cách áp dụng tiến hóa tuân theo đồng hồ phân tử Dữ liệu dùng để xây dựng tiến hóa? • • • • • • • • Các liệu hình thái Dữ liệu sinh lý hóa sinh Các protein, enzyme Các đoạn DNA đa hình (microsatellite, RFLP, SSR, RAPD) Các vùng trình tự khơng mã hóa (16S, 18S, ITS, LSU) Trình tự amino acid Trình tự nucleotide Trình tự DNA ti thể Đột biến nguồn liệu hữu ích phân tích tiến hóa • Đột biến, lỗi xảy q trình chép sửa chữa DNA • Chỉ đột biến xảy tế bào mầm (germline cells) đóng vai trị quan trọng tiến hóa Tuy nhiên số sinh vật khơng có phân biệt tế bào mầm hay tế bào soma • Chỉ đột biến mà cố định quần thể (tồn mức tần số allele định) gọi thay 1/6/2019 Phương pháp phổ biến xây dựng tiến hóa? • Phương pháp phổ biến thông dụng để xây dựng tiến hóa dựa vào: khoảng cách so sánh đặc điểm ký tự • Phương pháp khoảng cách đo khoảng cách cặp phân tích (cặp trình tự) sở lập ma trận khoảng cách • Phương pháp so sánh ký tự xác định tất tìm phù hợp tổng số Phương pháp sử dụng để xây dựng tiến hóa • Phương pháp dựa vào khoảng cách – UPGMA (unweighted pair group method with arithmetic mean) – NJ (Neighbour Joining) • Phương pháp dựa vào ký tự trình tự – Parsimony methods – Maximum likelihood • Phương pháp kiểm định tiến hóa – Bootstrapping – Jack Knife 1/6/2019 Phương pháp UGPMA • Phương pháp xây dựng sở theo quy trình sau: – – – • • Giả thuyết ban đầu loài phân bố điểm (OTU) Ghép cặp OTU, xác định khoảng cách cặp sở so sánh ma trận, chọn cặp có khoảng cách ngắn Khoảng cách hai OTU tính trung bình khoảng cách tính từ ma trận Các cặp có khoảng cách ngắn ghép lại thành OTU Các OTU lại ghép với để xác định khoảng cách Lặp lại q trình tất lồi nối với cụm Thuật tốn mang tính phân loại theo ngoại hình (phenetic), khơng thể hệ, dịng dõi mức độ phân ly mối quan hệ tiến hóa Thuật toán chấp nhận giả thuyết đồng hồ sinh học Ngồi phương pháp UGPMA cịn có phương pháp WPGMA UPGMS với thuật toán tương tự UPGMA UPGMA OTU: A, B, C, D, E Tính tốn cặp OTUs với khoảng cách nhỏ A B tách khoảng cách = Điểm phân nhánh A B tính ½ khoảng cách chúng → sơ đồ nhánh A B Các phương pháp ma trận khoảng cách • ClustalW, Phylo_win, Paup • Paupsearch, distances (GCG software package) • DNADist, PROTDist, Fitch, Kitch, Neighbor (Phylip package) UPGMA & Neighbor Joining • UPGMA Neighbor Joining sử dụng quy trình phân tích nhóm • Các “node” nhóm với bước để tạo thành “node” Quá trình thực liên tục từ The method works by clustering nodes at each stage and then forming a new node on a tree This process continues from the bottom of the tree and in each step a new node is added, and the tree grows upward • The length of the branch at each step is determined by the difference in heights of the nodes at each end of the branch • UPGMA has built in assumptions that the tree is additive and that all nodes are equally distance from the root • UPGMA is not used much today, but gave way to a very common approach now termed “Neighbor Joining” 1/6/2019 Gene tree vs phylogenetic tree • Sử dụng vài trình tự DNA/Protein → tiến hóa • Liệu có đủ tin cậy? Multisequence alignment → phylogenetic tree 1/6/2019 Cách “đọc” tiến hóa? Cách “đọc” tiến hóa? • To some biologists, use of the term "cladogram" emphasizes that the diagram represents a hypothesis about the actual evolutionary history of a group, while "phylogenies" represent true evolutionary history • To other biologists, "cladogram" suggests that the lengths of the branches in the diagram are arbitrary, while in a "phylogeny," the branch lengths indicate the amount of character change Phylogenetic tree Những sau tương đương • A phylogenetic tree, also known as a phylogeny, is a diagram that depicts the lines of evolutionary descent of different species, organisms, or genes from a common ancestor • Phylogenies are useful for organizing knowledge of biological diversity, for structuring classifications, and for providing insight into events that occurred during evolution 1/6/2019 Trong sau, nhánh bên thay đổi dẫn đến làm thay đổi trật tự xếp taxa Các chương trình xây dựng tiến hóa Các chương trình xây dựng tiến hóa… Các chương trình xây dựng tiến hóa Các chương trình xây dựng tiến hóa 10 1/6/2019 Các chương trình xây dựng tiến hóa 11 ... CSDL sinh học gì? CƠ SỞ DỮ LIỆU SINH HỌC (Biological databases) Knowledge is unlimited → No border for database CSDL sinh học gì? Ý nghĩa CSDL sinh học • CSDL Sinh học thư viện chứa thơng tin. .. (1920-1958), Francis H C Crick (1916- ) (U.K) Nhà nghiên cứu lý sinh học, vật lý học, hóa học, James D Watson (1928- ) (U.S.) tinh thể học người Anh Đóng góp quan trọng việc hiểu rõ cấu trúc phân... Biology Springer Dordrecht Heidelberg London New York Phan Trọng Nhật, Nguyễn Đức Bách Bài giảng Tin sinh học, Đại học Nông nghiệp Hà Nội Chương Giới thiệu Bioinformatics 1.1 Lịch sử đời phát triển