CHUONG II CO SO DU LIEU

66 10 0
CHUONG II   CO SO DU LIEU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TPHCM KHOA CNSH & KTMT HỆ ĐẠI HỌC Chương II Cơ sở liệu Tin sinh học (Bioinformatic Databases) Sự thử thách nguồn thông tin mở GV: ThS Nguyễn Thành Luân luannt@cntp.edu.vn Mục tiêu học  Nắm nguyên tắc so sánh trình tự sinh học  Sử dụng chương trình BLAST giúp nhanh chóng tìm trình tự sinh học tương đồng (nếu có CSDL lớn NCBI, EMBL, DDPJ…) với trình tự yêu cầu  Cung cấp số liệu tỉ lệ tương đồng, nguồn gốc trình tự tương đồng, … Nội dung học • Khái niệm sở liệu (CSDL) • Các cơng cụ sở liệu: – GenBank – BankIt – BLAST • Các nguồn sở liệu sinh học • Các cơng cụ tìm kiếm liệu • Phân loại CSDL Tin sinh học WHAT ARE DATABASES Cơ sở liệu gì? • Là tổ chức chuỗi thơng tin theo dạng tệp • Thơng tin bỏ vào lấy (Ease of Access) • Đơn giản hóa nguồn thơng tin ký hiệu đặc biệt (Số hóa – Digital databases) • Lưu trữ nguồn liệu thông qua ngân hàng CSDL website • Chứa đựng khám phá nghiên cứu khoa học What are Databases? • CSDL xếp • Thơng tin lưu “Hồ sơ” (records) “Đề mục”(Fields) • “Đề mục” loại phạm vi tìm kiếm – Phải giống tính chất chức • “Hồ sơ” chứa liệu liên quan chủ đề 9/25/2013 SNP ID SNPSeqI D Gene +primer -primer Hap A Hap B Hap C D1Mit160_1 10.MMHAP6 7FLD1.seq lymphocyte  antigen 84 AAGGTAAAA GGCAATCAG CACAGCC TCAACCTGG AGTCAGAGG CT C — A M­05554_1 12.MMHAP3 1FLD3.seq procollagen,  type III, alpha  TGCGCAGAA GCTGAAGTC TA TTTTGAGGTG TTAATGGTTC T C — A M­05554_2 X60184 complement  component  factor i ACTTCCAGC CCTGGCTCT ATATGCCAC CAAGAAGCA A C — M­09947_3 AF067835 caspase 8 TCACAGAGG GAAACATGA AG CTCCACATT GAACCAAAG CA G C T M­11415_1 U02023 insulin­like  growth factor  binding protein  GGGAAAAGC CTGAAAGAA GC AGCTGAAAC CGGACATCA AT T G — D1Mit284_ J05234 nucleolin TGTTGGAAC CGACTTCTTC A AAGAGTCAA AGAATTTATG GAATGA G T T Ví dụ CSDL • Các cột “Đề mục” (Fields) • Các hàng “Hồ sơ” (Records) • Ứng dụng hàm tìm kiếm Boolean: AND, OR, NOT 9/25/2013 CSDL tài liệu tham khảo & trích dẫn (Bibliographic databases) 9/25/2013 Thư viện Quốc hội Mỹ (Library of congress) Washington D.C – 120 million books, 750 km of shelves CSDL Pubmed • Sách tạp chí chun ngành y sinh học/ khoa học đời sống 21 million citations - back to 1966 • 500,000 ấn thêm vào năm www.pubmed.com 9/25/2013 Chức & nhiệm vụ CSDL • Định nghĩa miêu tả • Chìa khóa về: – Cập nhật phiên phần mềm tin sinh học – Liên kết tới nguồn CSDL khác – Lưu trữ tài liệu • Ấn bản, cập nhật chỉnh sửa tài liệu, trình tự dựa nguồn CSDL,… Cơ sở liệu sinh học (Biological databases) • Trình tự DNA, RNA protein gene • Hầu hết trường hợp, trình tự protein hiểu trình tự sinh học • Hiểu rõ dạng khác trình tự mấu chốt cho giải thích vấn đề • Phân tích lỗi xuất trình tự nhằm so sánh khác biệt trình tự CSDL trình tự Genome • TIGR (www.tigr.org) • The Whitehead (Giải mã trình tự MIT) (www.genome.wi.mit.edu) • The Sanger Institute (www.sanger.ac.uk) • Celera-PE Biosystems (www.celera.com) • Ensembl (www.ensembl.org)  Phục vụ cho nhu cầu ngày cao tìm hiểu gen sinh vật (genomics) TIGR (www.tigr.org) - Bộ sưu tập sở liệu DNA protein - Các biểu gen, vai trò tế bào - Tập hợp protein - Các số liệu phân loại loài vi khuẩn, thực vật người - Là nơi chứa liệu genome VSV nhiều chi tiết Viện nghiên cứu The Whitehead- Dự án giải mã trình tự MIT & Harvard • Dự án lớn Genome người Mỹ (US Human Genome Project – HGP) • Dự án bắt đầu năm 1990 kết thúc năm 2003 (14/04/2003) sớm so với dự kiến năm Human Genome Project (HGP) • Sau 13 năm thực đạt số kết quả: – Nhận biết tổng cộng 20,000 – 25,000 gen – Xác định chuỗi DNA người 3,300,000,000 bp – Lưu trữ thông tin CSDL lớn – Tiến hành cải tiến công cụ phân tích liệu – Phát triển quy định đạo đức pháp luật từ dự án The Sanger Institute (www.sanger.ac.uk) • Lấy theo tên nhà khoa học người Anh Frederick Sanger (1918) • Nobel sinh học cấu trúc protein nghiên cứu insulin (1958) • So sánh phân tích trình tự DNA cấp độ lớn hệ gen người loài khác • Cung cấp nguồn CSDL mở cho tất người Celera-PE Biosystems (www.celera.com)  Khởi đầu nhắm vào giải mã trình tự gen người  Hiện tại, nơi chứa CSDL triệu nucleotide tiềm SNP (Single Nucleotide Polymophism – nucleotide đa hình đơn)  Các halotype liên kết Nơi sở hữu CSDL gen cho người, chuột ruồi giấm Ensembl (www.ensembl.org) Dựa hợp tác EBI & Sanger Institute Trung tâm CSDL: Cambridge Nguồn CSDL có khả tự động xác định hệ gen loài Eukaryote  Đặc biệt nghiên cứu người chuột  Nguồn CSDL gen loài ký sinh trùng Là nơi kết nối CSDL khác TG Giao diện Ensembl Các nguồn CSDL genome khác • UCSC: chứa nhiều genome người động vật khác ( http://genome.cse.ucsc/edu) • CSDL genome lúa (IRRI) (http://www.irri.org) • Dự án xây dựng gen lúa OMAP • CSDL GRAMENE (http://www.gramene.org): chứa genome, protein, đồ di truyền, marker lúa TV khác • CSDL hợp chất đại phân tử sinh học (Macromolecular Structural Databases – MSD) sản phẩm liên kết CSDL lớn EBI (European Bioinformatic Institute - Châu Âu) PDB (Protein Database Bank - Mỹ) Các nguồn CSDL sinh học khác Mạng lưới CSDL liên kết & tương tác hỗ trợ sinh học phân tử, hợp chất phân tử đường dẫn liên kết báo cáo khoa học – CSDL đường trao đổi chất (http://www.genome.jp/kegg/pathway.html) – CSDL đồ trình tự protein (http://www.ncbi.nlm.nih.gov/taxonomy) – CSDL báo phân tích (http://www.ncbi.nlm.nih.gov/Pubmed) Các kiến thức cần nhớ • Cơ sở liệu gì? Đặc điểm CSDL sinh học? • Các nhóm CSDL sinh học bản? • Khái niệm BLAST, phân loại BLAST chức BLAST? • Các nguồn CSDL nucleotide, protein, genome • Các nguồn CSDL sinh học khác KẾT THÚC CHƯƠNG II ... CT C — A M­05554_1 12.MMHAP3 1FLD3.seq procollagen,  type III, alpha  TGCGCAGAA GCTGAAGTC TA TTTTGAGGTG TTAATGGTTC T C — A M­05554_2 X60184 complement  component  factor i ACTTCCAGC CCTGGCTCT ATATGCCAC... liệu trình tự – Score (bits): đo lường ý nghĩa thống kê việc so sánh trình tự  Scores < 50 = không ý nghĩa – E-value: expectation value – (giá trị kỳ vọng) số lần mà giá trị Score dự báo thay... trình tự để tính giá trị gọi [Bit-score] Giá trị Score cao trình tự bắt cặp cao • Ngồi BLAST tính tốn giá trị trơng đợi E-Value (Expected-Value) phụ thuộc vào BitScore THƠNG SỐ TÌM KIẾM BLAST • Dựa

Ngày đăng: 07/08/2021, 09:23

Mục lục

    Cơ sở dữ liệu Tin sinh học (Bioinformatic Databases)

    Mục tiêu của bài học

    Nội dung bài học

    WHAT ARE DATABASES Cơ sở dữ liệu là gì?

    Ví dụ về CSDL

    CSDL các tài liệu tham khảo & trích dẫn (Bibliographic databases)

    Chức năng & nhiệm vụ CSDL

    Cơ sở dữ liệu sinh học (Biological databases)

    Cách khai thác & sử dụng Genbank

    Cơ sở dữ liệu Genbank

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan