Trong lĩnh vực Công Nghệ Thông Tin nói riêng, yêu cầu quan trọng nhất của người học đó chính là thực hành. Có thực hành thì người học mới có thể tự mình lĩnh hội và hiểu biết sâu sắc với lý thuyết. Với ngành mạng máy tính, nhu cầu thực hành được đặt lên hàng đầu. Tuy nhiên, trong điều kiện còn thiếu thốn về trang bị như hiện nay, người học đặc biệt là sinh viên ít có điều kiện thực hành. Đặc biệt là với các thiết bị đắt tiền như Router, Switch chuyên dụng
TÀI LIỆU HỌC TẬP TIN SINH HỌC ĐẠI CƯƠNG (Introduction to Bioinformatics) • Trần Văn Lăng, Ứng dụng Tin học việc giải số toán Sinh học phân tử Nxb Giáo dục, 2008, 230tr PGS.TS Trần Văn Lăng Email: langtv@vast.vn Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY NỘI DUNG • Một số ngân hàng liệu trình tự • Cơ sở liệu cấu trúc PDB • BLAST việc tìm kiếm tương đồng Chương 2: TÌM KIẾM TRÌNH TỰ TƯƠNG ĐỒNG TRÊN NGÂN HÀNG DỮ LIỆU Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 1 Một số ngân hàng liệu MỘT SỐ NGÂN HÀNG DỮ LIỆU TRÌNH TỰ GENE • GenBank • EMBL • DDBJ Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY GenBank • 20/9/2012: có 126.551.501.141 bases, từ 135.440.924 sequences • 15/8/2013: có 154.192.921.011 bases, từ 167.295.840 sequences • 15/8/2014: có 165.722.980.375 bases, từ 174.108.750 sequences • GenBank sở liệu trình tự gen NIH (National Institutes of Health) • Nhằm tập hợp trình tự DNA cơng bố kèm theo lời thích • http://www.ncbi.nlm.nih.gov/genbank/ Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY • Ví dụ, cần tìm giống lúa Việt Nam • 15/8/2015: có 199.823.644.287 bases, từ 187.066.846 sequences • 15/8/2016: có 217.971.437.647 bases, từ 196.120.831 sequences – Vào trang http://www.ncbi.nlm.ni h.gov – Nhập vào dịng tìm kiếm tương ứng, chẳng hạn “Vietnam Rice” (Xem ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt) Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10 • Kết đưa danh sách liên quan đến “Vietnam Rice” Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 11 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 12 • Chọn “Southern rice black-streaked dwarf virus isolate Son La major capsid protein gene, complete cds”, liên quan đến virus lúa Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 • Để nhận kết quả, chọn nút “Send” góc bên phải 14 • Ban đầu GenBank xây dựng Phịng thí nghiệm quốc gia Los Alamos, Hoa Kỳ (LANL Los Alamos National Laboratory) • Chẳng hạn, chọn hình bên để ghi file với đầy đủ thơng tin theo GenBank • Sau đó, vào năm 1990, đưa Trung tâm quốc gia Thông tin Công nghệ sinh học (NCBI National Center for Biotechnology Information) • Khi đó, default download folder có tập tin sequence.gb Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 15 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 16 • Để cung cấp nguồn tài nguyên thơng tin sinh học phân tử • Thơng qua GenBank, NCBI hỗ trợ phân phối nhiều sở liệu thông tin sinh học khác cho cộng đồng GenBank phận International Nucleotic Sequence Database Collaboration Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18 Sự hợp tác ngân hàng • The International Nucleotic Sequence Databases Collaboration phát triển trì hợp tác DDBJ, EMBL GenBank 22 năm (2016) Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20 • Người ta gửi trình tự sinh học lên GenBank nhờ cơng cụ: – Sequin (http://www.ncbi.nlm.nih.gov/projects/Sequin/) • Khi người dùng giải nhiều thơng tin cho trình tự khám phá Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22 http://www.ncbi.nlm.nih.gov/projects/Sequin/ Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24 EMBL (http://www.embl.de) http://www.embl.de • EMBL Phịng Thí nghiệm sinh học phân tử Châu Âu, European Molecular Biology Laboratory Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25 • EMBL thành lập năm 7/1974 với tài trợ giúp đỡ 17 thành viên thuộc nước Châu Âu Israel 26 • Trong EMBL có European Bioinformatics Institute (EBI) • Cơ sở vật chất EMBL bao gồm phịng thí nghiệm Heidelberg (Đức), trạm Hamburg (Đức), Grenoble (Pháp) Hinxton (Anh), với chương trình nghiên cứu đặt Monterotondo (Ý) Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY – viện nghiên cứu học thuật tin sinh học đặt Wellcome Trust Genome Campus Hinxton gần Cambridge, – thành lập năm 1994 27 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28 • Ngân hàng EMBL chứa 247.335.689 trình tự bao gồm 429.512.389.024 nucleotide (20 Sep 2012) • Việc truy cập tiện lợi giống sử dụng GenBank NCBI Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30 31 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32 • Chẳng hạn, Genome đầy đủ virus dày người C117 (Human enterovirus C117 strain LIT22) công bố ngày 14 Sep 2012 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36 DDBJ (http://www.ddbj.nig.ac.jp) • DNA Data Bank of Japan bắt đầu hoạt động lưu trữ ngân hàng liệu DNA từ năm 1986 • Đặt Viện Di truyền quốc gia Nhật Bản - NIG (National Institute of Genetics) Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38 http://getentry.ddbj.nig.ac.jp/top-e.html • Việc tìm kiếm DDBJ đơn giản tương tự EMBL hay GenBank • Chẳng hạn, có ID gen đầy đủ Human enterovirus C117 JX262382 • Việc tìm kiếm sau: Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40 10 Kết tìm kiếm Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41 • Cũng lấy tồn liệu từ ngân hàng cách dùng giao thức ftp để truyền tập tin Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42 CƠ SỞ DỮ LIỆU CẤU TRÚC PDB • Cụ thể – ftp://ftp.ddbj.nig.ac.jp – ftp://ftp.ebi.ac.uk – ftp://ftp.ncbi.nih.gov Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44 11 Cơ sở liệu PDB • PDB (Protein Data Bank) sở liệu sinh học phân tử giới thành lập trước sở liệu DNA • Năm 1971, PDB thành lập Brookhaven National Laboratory • Từ 1998, PDB chuyển đến cho Research Collaboratory for Structural Bioinformatics (RCSB) • Kể từ cấu trúc protein cơng bố năm 1950 đến năm 1970 giới khơng có biến động đáng kể số lượng cấu trúc protein Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46 47 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48 http://www.rcsb.org/pdb/home/home.do Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 12 • Trong ngân hàng PDB, – – – – – có 84.645 liệu cấu trúc (20/9/2012) 10/9/2013, có 93.788 cấu trúc 23/9/2014, có 103.557 cấu trúc 09/9/2015, có 111.956 cấu trúc 15/9/2016, có 122.583 cấu trúc • Chẳng hạn, tìm cấu trúc “Human Enterovirus” Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50 Protein ID: 3N6L Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52 13 • Để coi cấu trúc protein có PDB, sử dụng trực tiếp từ trang web PDB • Hoặc coi từ phần mềm khác Chẳng hạn, với Jmol viết Java Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53 Mơ hình CSDL Protein Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54 Ý nghĩa table • Table PROTEIN: Lưu trữ tên protein, bảng sở liệu protein • Table PRO_HEADER: Mỗi mẫu tin bảng liệu mẫu tin định nghĩa tập tin PDB thơng qua khố Mẫu tin cung cấp thông tin phân loại thực thể Cuối thông tin ngày mà lưu trữ PDB Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56 14 • Table PRO_OBSLTE: Xuất cấu trúc protein bị loại • Table PRO_TITLE: Chứa tiêu đề mô tả nội dung cấu trúc thủ tục điều kiện để phân biệt cấu trúc với cấu trúc khác • Table PRO_CAVEAT: Cảnh báo lỗi phục vụ cấu trúc, mẫu tin xác định cấu trúc bị rút khỏi tập hợp cấu trúc công bố • Table PRO_COMPND: Mẫu tin compnd mơ tả nội dung cấu trúc Mỗi đại phân tử tìm thấy cấu trúc mô tả tập hợp token: giá trị cặp tham chiếu đến thành phần mẫu tin compnd khác Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57 • Table PRO_SOURCE: Mẫu tin định loại tài nguyên sinh học hoá học phần tử sinh học cấu trúc • Table PRO_KEYWDS: Lưu trữ tập hợp khố thích hợp đến cấu trúc Các khoá bảng KEYWDS cung cấp ý nghĩa để phân loại cấu trúc Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58 • Table PRO_EXPDTA: Đại diện thông tin thực nghiệm Mẫu tin bắt buộc xuất tất cấu trúc • Table PRO_AUTHOR: Lưu tên người tìm cấu trúc 59 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60 15 • Table PRO_REVDAT: Lưu lại lịch sử sửa đổi cấu trúc từ cơng bố • Table PRO_SPRSDE: Chứa danh sách mã ID cấu trúc bị lạc hậu, bị rút khỏi tập liệu cơng bố • Table PRO_JRNL: Lưu trữ báo mô tả trình thực nghiệm tìm kết Một cấu trúc có tham chiếu JRNL • Table PRO_REMARK1: Lưu trữ chi tiết thực nghiệm, giải thích, ghi thông tin không nằm mẫu tin khác Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61 TÌM KIẾM TƯƠNG ĐỒNG TRONG NGÂN HÀNG DỮ LIỆU • Có thể tìm tài liệu cấu trúc CSDL DNA Protein Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62 63 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64 16 BLAST • BLAST (Basic Local Alignment Search Tool) cơng cụ tìm vị trí tương đồng cục trình tự sinh học DNA Protein • BLAST tìm kiếm chuỗi truy vấn với chuỗi có CSDL bằng: – Phương pháp heurictic – Giải thuật Smith-Waterman • Được phát triển NCBI Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65 • Mặc dù khơng xác thuật giải SmithWaterman, phương pháp heurictic chọn lựa cho tốc độ tìm kiếm nhanh gấp nhiều lần phải truy vấn ngân hàng liệu lớn Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66 • Có chương trình BLAST chính: – – – – – nucleotide blast protein blast Blastx tblastn tblastx Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68 17 • nucleotide blast: để tìm trình tự nulcleotide từ CSDL nucleotide • Thuật tốn sử dụng: – blastn, megablast, discontiguous megablast Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY – blastp, psi-blast, phi-blast, delta-blast 69 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70 • tblastn: tìm trình tự protein từ CSDL nucleotide biên dịch • blastx: tìm trình tự nucleotide biên dịch từ CSDL protein Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY • protein blast: tìm trình tự peptide, polypeptide từ CSDL protein • Thuật tốn: 71 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72 18 BLAST (http://blast.ncbi.nlm.nih.gov) • tblastx: tìm trình tự nucleotide biên dịch từ CSDL nucleotide biên dịch Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74 Ví dụ • Sau chuyển vào trang dùng Nucleotide BLAST • Tạo DNA ngẫu nhiên từ http://www.bioinformatics.org/sms2/random_ dna.html Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75 Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76 19 • Kết tìm kiếm được: Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77 20