Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
708,6 KB
Nội dung
Nội dung môn học BÀI GIẢNG TIN SINH HỌC GV Ngô Công Thắng Bộ môn Công nghệ phần mềm Website: fita.hua.edu.vn/ncthang Mục đích môn học Nắm kiến thức Tin sinh học Có khả khai thác sử dụng công cụ trực tuyến, phần mềm hỗ trợ việc phân tích xử lý thông tin sinh học Có khả xây dựng phần mềm đơn giản giải số toán Tin sinh học học 45 tiết = 20 LT + 25 TH Tổng quan Tin sinh học Cơ sở liệu sinh học công cụ trực tuyến tuyến Lập trình Perl Tài liệu học tập Bài giảng Tin sinh học Nguyễn Văn Cách, Tin sinh học, Nxb Khoa học Kỹ thuật, 2005 Hồ Huỳnh Thùy Dương, Sinh học phân tử, Nxb Giáo dục, 2000 Trần Linh Thước, Thực tập Bioinformatics, Đại học quốc gia Thành phố HCM, 2004 Nguyễn Hải Thanh, ứng dụng Tin học ngành Nông nghiệp, Nxb Khoa học Kỹ thuật, 2005 Bernard R Glick, Jack J Pasternak, Molecular Biotechnology, 1999 Andreas D Baxevanis, BIOINFORMATICS: A Practical Guide to the Analysis of Genes and Proteins, USA, 2002 David W Mount, BIOINFORMATICS: Sequencer and genome analysis, Cold Spring Harbor Laboratory Press, 2002 Các tài liệu mạng Internet: www.bioinformatics.org www.bioinformatics.org;; www.bioperl.org Phương pháp học Nghe giảng lớp Nghiên cứu chuyên đề theo nhóm, báo cáo kết nghiên cứu buổi học Thực hành sử dụng số phần mềm Tin sinh học lập trình ngôn ngữ Perl Nội dung BÀI GIẢNG TIN SINH HỌC Chương Tổng quan Tin sinh học Nội dung Sơ lược Sinh học phân tử (SHPT) Giới thiệu Tin sinh học Giới thiệu toán SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng phát sinh chủng loài Xây dựng chương trình Sơ lược Sinh học phân tử (SHPT) Giới thiệu Tin sinh học Giới thiệu toán SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng phát sinh chủng loài Xây dựng chương trình Sinh học phân tử Tế bào đơn vị cấu tạo nên tất quan thể sinh vật Mỗi tế bào hệ thống phức tạp, bao gồm nhiều thành phần khác bao bọc lớp màng tế bào Trong tế bào có tiểu phân tử (nucleotide, amino acid…) đại phân tử (DNA, RNA, Protein…) DNA (d (deoxyribonucleic eoxyribonucleic acid acid)) DNA tạo thành chuỗi nucleotide: A, C, G T (A(A-Adenine, C Cytosine, G -Guanin, T Thymine) DNA tồn dạng xoắn kép (double (double helix), bao gồm hai chuỗi nucleotide đơn Dạng xoắn kép tạo thành liên kết cặp AA-T, GG-C Protein Protein tạo thành từ hay nhiều dãy amino acid theo thứ tự đặc biệt Có 20 loại amino acid Một số loại protein là: T-T-G-A-C-T-A-T-C-C-A-G-A-T-C A-A-C-T-G-A-T-A-G-G-T-C-T-A-G RNA (ribonucleic acid) RNA tạo thành nucleotide, khác với DNA, T (Thymine) thay U (Uracil) RNA không tồn dạng xoắn kép RNA có nhiều chức tế bào, mRNA tRNA kiểu chức khác RNA, cần thiết tổng hợp protein Protein cấu trúc (structural protein): góp phần tạo nên cấu trúc thể Enzyme: chất xúc tác cho phản ứng hoá sinh thể Protein màng (transmembrane protein): chìa khóa trì môi trường tế bào, điều hòa dung tích tế bào Protein Một chuỗi protein thực chất chuỗi amino acid nối kết với thành mạch dài nhờ liên kết peptit Hình dáng thực tế protein phụ thuộc vào trình tự amino acid Biểu diễn liệu sinh học phân tử máy tính Một dây DNA (trong chuỗi xoắn kép) chuỗi ký tự tạo thành ký tự AA-T-G-C, RNA chuỗi ký tự tạo thành từ ký tự AA-U-G-C, protein chuỗi ký tự tạo thành 20 ký tự biểu diễn 20 loại amino acid Với việc biểu diễn trên, việc xử lý chuỗi sinh học đưa toán xử lý xâu ký tự Ví d DNA: CCTTCATTGACCTCAACTACATGGTCTACATGTTCCAGTATGATTCCACCGC Ví d protein: MDPELAKCLFFEGATVVILNMPKGTEFGIDYNSWEVGPKFRGVKMIPPGIHFLH Bảng mã DNA, RNA protein B∀ng mã ký t∃ dùng cho DNA/RNA B∀ng mã ký t∃ dùng cho protein Nội dung Sơ lược Sinh học phân tử (SHPT) Giớ i thiệu thi u v Tin sinh học h c Gi Giới thiệu toán SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng phát sinh chủng loài Xây dựng chương trình Tin sinh học (Bioinformatics) Bio:: Molecular Biology Bio Informatics Informatics:: Computer Science Bioinformatics Bioinformatics:: Giải toán sinh học phương pháp tin học Các tên gọi khác khác:: Computational biology, Computational molecular biology, Biocomputing Tin sinh học (tiếp) Tin sinh học (bioinformatics) khoa học ứng dụng, sử dụng phương pháp khoa học máy tính công nghệ thông tin việc quản lý, phân tích liệu sinh học Tin sinh học giao ngành hai ngành tin học sinh học với mục đích khám phá thông tin ẩn giấu sau khối lượng liệu sinh học khổng lồ mà nhà sinh học thu thập được, tiến tới hiểu rõ quy luật vận động thể sống Nội dung Sơ lược Sinh học phân tử (SHPT) Giới thiệu Tin sinh học Giới thiệu toán SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng phát sinh chủng loài Xây dựng chương trình Các toán tin sinh học Lớp toán phân tích trình tự: toán khớp chuỗi hay gióng chuỗi (sequence alignment), tìm kiếm trình tự sở liệu (sequence database searching)… Lớp toán phân tích cấu trúc: toán so sánh cấu trúc protein (protein structure comparison), phân lớp cấu trúc protein (protein structure classification), dự đoán cấu trúc protein (protein structure prediction)… Lớp toán phân tích chức năng: dự đoán vị trí protein tế bào (protein subcellular localization prediction), dự đoán tương tác protein (protein interaction prediction), dự đoán chức protein… Một số nguồn CSDL tin sinh học Internet EMBL (European Molecular Biology Laboratory): Đây nguồn sở liệu chuỗi nucleotide đặt Viện sinh học Châu Âu, Hinxton, Anh Website: http://www.ebi.ac.uk/embl/ GenBank:: Đây nguồn CSDL chuỗi đặt GenBank National Center for Biotechnology information (NCBI), Bethesda, Mỹ Website: http://www.ncbi.nlm.nih.gov/Genbank Một ột số nguồn CSDL tin sinh học Internet DDBJ (DNA Data Bank of Japan): Đây ngân hàng chuỗi DNA đặt CIB, Mishima, Nhật Bản Website: http://www.ddbj.nig.ac.jp UniRef (UniProt NonNon-redundant REFerence): Đặt EBI, Anh Website: http://www.ebi.ac.uk/uniref/index.html SWISS SWISS PROT PROT:: Đặt Viện tin sinh học Thụy sỹ Website: http://us.expasy.org Một số dạng file liệu chuỗi sinh học Dạng FASTA: FASTA: Các file chuỗi định dạng theo FASTA chứa nhiều chuỗi khác Cấu trúc file fasta sau: Mỗi chuỗi bắt đầu dòng tiêu đề, theo sau dòng liệu chuỗi Dòng tiêu đề bắt đầu dấu lớn (“>”), sau đến tên chuỗi thông tin chuỗi Các dòng trống khoảng trống hay ký tự gap tệp FASTA bỏ qua Một số dạng file liệu chuỗi sinh học Một số dạng file liệu chuỗi sinh học D Dạng ng ALN ClustalW: ClustalW: Dạng ALN có nguồn gốc từ chương trình khớp chuỗi ClustalW File liệu bắt đầu với từ “CLUSTAL”, sau thông tin kiểu chương trình clustal tạo file liệu Tiếp theo chuỗi đa khớp, tổ chức theo khối 60 ký tự Mỗi khối có nhiều dòng, bắt đầu dòng tên chuỗi, ký tự chuỗi cuối dòng tổng số ký tự chuỗi tính đến cuối dòng GenBank: GenBank: Một file liệu chuỗi GenBank chứa hay nhiều chuỗi Mỗi chuỗi file liệu dạng gồm có nhiều dòng có kiểu khác Các dòng chứa ký tự chuỗi nằm dòng chứa từ “ORIGIN” dòng chứa hai dấu gạch chéo // Nội dung Sơ lược Sinh học phân tử (SHPT) Giới thiệu Tin sinh học Giới thiệu toán SHPT cặp p chu i Bài toán gióng c Bài toán gióng đa chuỗi Bài toán xây dựng phát sinh chủng loài Xây dựng chương trình Bài toán gióng cặp chuỗi Cho hai chuỗi sinh học S1, S2 Gióng cặp chuỗi thực cách chèn thêm vào hai chuỗi S1 S2 dấu cách (ký hiệu là− −) vị trí với số lượng không hạn chế để tạo hai chuỗi S1’, S2’ tương ứng, sau đặt chuỗi chuỗi cho ký tự chuỗi gióng thẳng với ký tự chuỗi cặp ký tự gióng không đồng thời dấu cách Chuỗi sinh học ban đầu dấu cách loại bỏ dấu khỏi khỏi S1’ S2’ ta có S1 S2 ban đầu Bài toán gióng cặp chuỗi Mỗi phương án gióng cặp chuỗi cho điểm dựa vào mức độ giống hai chuỗi gióng Phương pháp cho điểm tuyến tính (linear additive scoring scheme): Mỗi cặp ký tự giống tính điểm, cặp không giống tính điểm, cặp có ký tự dấu cách -1 điểm Cộng dồn điểm tất cặp ký tự hai chuỗi điểm cho phương án gióng chuỗi Phương án gióng cặp chuỗi cho điểm cao phương án tốt Phương án tối ưu phương án mà không phương án khác có điểm cao Điểm số cho phương án tối ưu gọi mức độ tương đồng hai chuỗi (similarity) Một số phương pháp gióng cặp chuỗi Phương pháp sử dụng ma trận điểm (dot matrix) Phương pháp quy hoạch động Phương pháp BLAST Phương pháp sử dụng ma trận điểm Giải thuật gióng cặp chuỗi Needleman Needleman Wunsch Giải thuật Needleman Needleman Wunsch gồm bước: B1: Khởi tạo ma trận đánh giá từ hai chuỗi chuỗi B2: Tính toán, điền giá trị cho ma trận đánh giá B3: Sử dụng kỹ thuật quay lui để tìm kết Giải thuật gióng cặp chuỗi Needleman Needleman Wunsch Giải thuật NeedlemanNeedleman-Wunsch giải thuật gióng cặp chuỗi toàn dựa quy hoạch động để tính điểm cho trình gióng chuỗi Để tính điểm cho cặp ký tự gióng chuỗi theo giải thuật Needleman Needleman Wunsch người ta dùng ma trận thay thế, chuỗi protein người hay dùng ma trận thay PAM250 BLOSUM62 Phương pháp quy hoạch động đảm bảo mặt toán học tìm phương án gióng cặp chuỗi tối ưu ứng với chế tính điểm cụ thể Tuy nhiên phương pháp có số bước tính toán lớn, khoảng bình phương chiều dài chuỗi Bước khởi tạo giải thuật NeedlemanNeedleman-Wunsch S(0,0) = S(3,0) = Khôi phục lại đường giải thuật NeedlemanNeedleman-Wunsch Giải thuật gióng cặp chuỗi SmithSmith-Waterman Quá trình gióng chuỗi thực việc gióng chuỗi cặp chuỗi Khi điểm cho gióng chuỗi cặp ký tự phụ thuộc vào: hai ký tự giống (matches), hai ký tự không giống (mismatches) điểm cho việc thêm/bớt khoảng trống (gap penalty) Kết gióng cặp cục tìm đoạn chuỗi có độ tương đồng cao Giải thuật gióng cặp chuỗi SmithSmith-Waterman Nội dung Giải thuật Smith Smith Waterman giải thuật gióng cặp chuỗi cục dựa quy hoạch động để tính điểm cho trình gióng chuỗi Giải thuật giúp nhận miền tương đồng hai chuỗi tìm kiếm cho gióng chuỗi cục tối ưu Giải thuật xây dựng ý tưởng so sánh tìm đoạn hay miền hai chuỗi mà có độ tương đồng cao nhất, để từ đánh giá mức độ tương đồng hai chuỗi Sơ lược Sinh học phân tử (SHPT) Giới thiệu Tin sinh học Giới thiệu toán SHPT Bài toán gióng cặp chuỗi Bài toán gióng a chu i Bài toán xây dựng phát sinh chủng loài Xây dựng chương trình Bài toán gióng đa chuỗi Ý nghĩa toán gióng đa chuỗi Gióng đa chuỗi (Multiple Sequence Alignment, MSA) phương pháp so sánh nhiều chuỗi, thực cách chèn thêm dấu cách vào chuỗi để thu chuỗi có chiều dài cho gióng theo cột ký tự chuỗi gióng thẳng với ký tự dấu cách chuỗi khác cột có toàn dấu cách Một phương án gióng đa chuỗi gọi tối ưu có số ký tự giống tương tự cột ký tự lớn Bài toán gióng đa chuỗi toán tìm phương án gióng tối ưu cho nhiều chuỗi Bài toán gióng đa chuỗi có ý nghĩa to lớn Tin sinh học Giả sử có tập hợp gồm nhiều chuỗi đại diện cho loài sinh vật, nhìn vào tập hợp loài đặt câu hỏi liệu tổ tiên chúng có quan hệ với không? Giữa chúng có mối quan hệ gì? Để trả lời câu hỏi ta phải xét đến trình tiến hoá loài vật Mặt khác kết gióng đa chuỗi cho phép ta xây dựng phát sinh chủng loài, xây dựng tiến hoá, từ đánh giá mối quan hệ loài Bài toán gióng đa chuỗi Một số giải thuật giải toán gióng đa chuỗi Ví dụ: Giả sử có chuỗi S1 = AAGAAA, S2 = ATAATG, S3 = CTGGG, S4 = CCAGTT S5 = CCGG Khi đó, phương án gióng chuỗi sau: Giải thuật Quy hoạch động Giải thuật Heristics Star Alignment Giải thuật Clustalw Giải thuật Quy hoạch động cho toán gióng đa chuỗi Giải thuật Clustalw Ví dụ có chuỗi S1, S2, S3 Khi tính điểm gióng chuỗi vị trí i,j,k chuỗi S1, S2, S3 cách xây dựng khối lập phương không gian ba chiều với trục chuỗi Quá trình gióng chuỗi toàn xảy từ “nguồn” “đích” hình đây: Đích Giải thuật clustalw phương pháp cải tiến cho gióng đa chuỗi Phương pháp sử dụng rộng rãi cho gióng đa chuỗi xây dựng phát sinh loài (Phylogennetic tree) phương pháp giải độ phức tạp tính toán mà phương pháp khác chưa giải được, đồng thời giải toán gióng đa chuỗi – xây dựng phát sinh loài đánh giá mức độ tương đồng chuỗi Phương pháp xây dựng gióng đa chuỗi bắt đầu với việc xác định gióng cặp có mối quan hệ tương đồng lớn Sau xây dựng gióng đa chuỗi tương tự HSA Nguồn Giải thuật Heristics Star Alignment Heristics Star Alignment (HSA) giải thuật dựa ý tưởng tính toán tất cặp pairwise alignment từ tìm chuỗi trung tâm (center of star), chuỗi có mức độ tương đồng cao so với chuỗi lại Sau tìm chuỗi trung tâm, thực gióng cặp kết hợp chúng lại ta thu gióng đa chuỗi Các bước giải thuật Clustalw Bước 1: Thực gióng cặp chuỗi tất chuỗi xác định mức độ tương đồng cặp Từ xây dựng ma trận khoảng cách “distance” tương đồng chuỗi Bước 2: Từ ma trận khoảng cách xây dựng dẫn (guide tree) thể mối quan hệ tương đồng chuỗi Sử dụng phương thức neighbor– neighbor–joining (quan hệ hàng xóm) Bước 3: Xây dựng gióng đa chuỗi (MSA) Căn vào dẫn (guide tree) thu bước ta xác định nhánh có cặp chuỗi tương đồng lớn để thực gióng cặp, sau kết hợp gióng cặp lại (tương tự giải thuật HSA) ta thu kết gióng đa chuỗi Nội dung Sơ lược Sinh học phân tử (SHPT) Giới thiệu Tin sinh học Giới thiệu toán SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng phát sinh chủng loài Xây dựng chương trình Bài toán xây dựng phát sinh chủng loài Sau gióng đa chuỗi, số liệu thu dùng để xây dựng phát sinh chủng loài (cây phân loại) Hướng tiếp cận đơn giản chuyển thông tin gióng chuỗi thành ma trận khoảng cách, thể khoảng cách tiến hóa tất cặp chuỗi bảng liệu Một số phương pháp: Phương pháp NeighborNeighbor-Joining (N (N J) Phương pháp Maximum Parsimony (MP) Nội dung Sơ lược Sinh học phân tử (SHPT) Giới thiệu Tin sinh học Giới thiệu toán SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng phát sinh chủng loài Xây dựng chương trình Xây dựng chương trình Chương trình gồm hai phần chính: Phần giao diện thiết kế dạng trang web để nhận liệu từ người sử dụng Phần chương trình xử lý liệu viết ngôn ngữ lập trình Perl dựa kịch cgi Chương trình hoạt động theo chế hoạt động CGI Cơ chế hoạt động CGI Trình duyệt máy khách chuyển liệu đầu vào (yêu cầu) tới máy chủ Máy chủ chuyển liệu nhận tới chương trình CGI máy chủ CGI nhận liệu xử lý chuyển tới ứng dụng khác (nếu cần), sau gửi liệu (kết quả) cho máy chủ Web Máy chủ Web gửi kết CGI xử lý cho trình duyệt máy khách thể kết trang web [...]... về Sinh học phân tử (SHPT) Giới thiệu về Tin sinh học Giới thiệu các bài toán trong SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng cây phát sinh chủng loài Xây dựng chương trình Bài toán xây dựng cây phát sinh chủng loài Sau khi gióng đa chuỗi, các số liệu thu được sẽ được dùng để xây dựng cây phát sinh chủng loài (cây phân loại) Hướng tiếp cận đơn giản nhất là chuyển thông tin. .. Một số phương pháp: Phương pháp NeighborNeighbor-Joining (N (N J) Phương pháp Maximum Parsimony (MP) Nội dung Sơ lược về Sinh học phân tử (SHPT) Giới thiệu về Tin sinh học Giới thiệu các bài toán trong SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng cây phát sinh chủng loài Xây dựng chương trình Xây dựng chương trình Chương trình gồm hai phần chính: Phần giao diện được thiết kế... được gọi là tối ưu nếu có số ký tự giống nhau hoặc tương tự nhau trên từng cột ký tự là lớn nhất Bài toán gióng đa chuỗi là bài toán đi tìm phương án gióng tối ưu cho nhiều chuỗi Bài toán gióng đa chuỗi có ý nghĩa rất to lớn trong Tin sinh học Giả sử có một tập hợp gồm nhiều chuỗi đại diện cho những loài sinh vật, nhìn vào tập hợp loài nào đó có thể đặt câu hỏi liệu tổ tiên của chúng có quan hệ với... những câu hỏi đó ta phải xét đến quá trình tiến hoá của những loài vật Mặt khác kết quả gióng đa chuỗi cho phép ta xây dựng được cây phát sinh chủng loài, xây dựng cây tiến hoá, từ đó đánh giá được mối quan hệ giữa các loài Bài toán gióng đa chuỗi Một số giải thuật giải bài toán gióng đa chuỗi Ví dụ: Giả sử có 5 chuỗi S1 = AAGAAA, S2 = ATAATG, S3 = CTGGG, S4 = CCAGTT và S5 = CCGG Khi đó, một phương án... gióng đa chuỗi Phương pháp này đang được sử dụng rộng rãi cho gióng đa chuỗi và xây dựng cây phát sinh loài (Phylogennetic tree) bởi vì phương pháp này giải quyết về độ phức tạp tính toán mà những phương pháp khác chưa giải quyết được, đồng thời giải quyết được bài toán gióng đa chuỗi – xây dựng cây phát sinh loài và đánh giá được mức độ tương đồng giữa các chuỗi Phương pháp này xây dựng gióng đa chuỗi.. .Bài toán gióng đa chuỗi Ý nghĩa của bài toán gióng đa chuỗi Gióng đa chuỗi (Multiple Sequence Alignment, MSA) là phương pháp so sánh nhiều chuỗi, được thực hiện bằng cách chèn thêm các dấu cách vào các chuỗi để thu được... ATAATG, S3 = CTGGG, S4 = CCAGTT và S5 = CCGG Khi đó, một phương án gióng 5 chuỗi này như sau: Giải thuật Quy hoạch động Giải thuật Heristics Star Alignment Giải thuật Clustalw Giải thuật Quy hoạch động cho bài toán gióng đa chuỗi Giải thuật Clustalw Ví dụ có 3 chuỗi S1, S2, S3 Khi đó có thể tính điểm khi gióng chuỗi tại vị trí i,j,k của 3 chuỗi S1, S2, S3 bằng cách xây dựng một khối lập phương trong không ... Biocomputing Tin sinh học (tiếp) Tin sinh học (bioinformatics) khoa học ứng dụng, sử dụng phương pháp khoa học máy tính công nghệ thông tin việc quản lý, phân tích liệu sinh học Tin sinh học giao... Tổng quan Tin sinh học Nội dung Sơ lược Sinh học phân tử (SHPT) Giới thiệu Tin sinh học Giới thiệu toán SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng phát sinh chủng... lược Sinh học phân tử (SHPT) Giới thiệu Tin sinh học Giới thiệu toán SHPT Bài toán gióng cặp chuỗi Bài toán gióng đa chuỗi Bài toán xây dựng phát sinh chủng loài Xây dựng chương trình Sinh học