1. Trang chủ
  2. » Luận Văn - Báo Cáo

TIỂU LUẬN CÔNG NGHỆ SINH HỌC: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU

40 2,7K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 3,1 MB

Nội dung

TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI Khoa công nghệ sinh học CHỦ ĐỀ: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU GV hướng dẫn: Nguyễn Đức Bách Nhóm thực hiện: 5 Cơ sở dữ liệu sinh học (CSDL) là thư viện của thông tin khoa học về sự sống, được thu thập từ các nghiên cứu khoa học, các công trình khoa học đã công bố, các thử nghiệm công nghệ cao và các phân tích tính toán. Chúng lưu trữ các thông tin chủ yếu về gen, protein, nucleotide... Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ.

CHỦ ĐỀ: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI Khoa công nghệ sinh học GV hướng dẫn: Nguyễn Đức Bách Nhóm thực hiện: 5 1  Thành viên trong nhóm 5 ST T Họ và tên Mã sinh viên Lớp 1 Nguyễn Thùy Dương 550331 K55CNSHA 2 Hoàng Thị Duyền 550329 K55CNSHA 3 Tạ Thị Bé 550320 K55CNSHA 4 Vũ Kim Cúc 550324 K55CNSHA 5 Phạm Thị Lan Anh 550319 K55CNSHA 6 Nguyễn Văn Đức 550338 K55CNSHA 8 Trần Thị Thùy Dương 550332 K55CNSHA 9 Nguyễn Quang Hải K55CNSHA 2 CÁC NỘI DUNG CHÍNH 3 I. CƠ SỞ DỮ LIỆU SINH HỌC LÀ GÌ? Cơ sở dữ liệu sinh học (CSDL) là thư viện của thông tin khoa học về sự sống, được thu thập từ các nghiên cứu khoa học, các công trình khoa học đã công bố, các thử nghiệm công nghệ cao và các phân tích tính toán. Chúng lưu trữ các thông tin chủ yếu về gen, protein, nucleotide Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ. 4 5 II. CSDL của các ngân hàng gen Cả 3 CSDL lớn nhất (NCBI, EMBL và DDBJ) đều có đầy đủ thông tin cơ bản về các CSDL trên. Tuy nhiên mỗi ngân hàng có một cách phân loại và tổ chức các loại dữ liệu khác nhau. 6 1. CSDL CỦA EMBL/EBI 7 1. CSDL của EMBL/EBI 8 a/ CSDL tài liệu (Literature Databases)  Medline: Bao quát tất cả các lĩnh vực của y học.  Omim: Di truyền Mendel ở người (Online Mendelian Inheritance in Man -OMIM) là một tập hợp của các gen và các rối loạn di truyền.  Patent Abstracts: Các bản tóm tắt có liên quan đến CNSH của các ứng dụng mô hình lấy từ các sản phẩm dữ liệu của European Patent Office (EPO)- trụ sở sáng chế châu Âu  Taxonomy: CSDL phân loại của ISDC (International Sequence Database Collaboration) chứa các tên của các sinh vật được trình bày dưới dạng CSDL trình tự. 9 b/ CSDL Microarray (Microarray Databases) Là một kho dữ liệu `Microarray về biểu hiện gen. Chức năng của nó là lưu trữ các kho dữ liệu đo lường, quản lý chỉ mục tìm kiếm và tạo các dữ liệu phù hợp cho các ứng dụng khác.  ArrayExpress: Một CSDL cho microarry dựa vào dữ liệu biểu hiện gen.  Miame : Thông tin tối thiểu về một thí nghiệm microarry (Minimum Information About a Microarray Experiment (MIAME). 10 [...]... các trình tự và cấu trúc lân cận  Conserved Domains: Tập hợp các CSDL về các vùng domain bảo thủ của các protein, họ protein 32 e/ Cơ sở dữ liệu hệ thống học (Taxonomy Databases)  Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein 33 f/ Cơ sở dữ liệu genom (genome database)  Các nhiễm sắc... nhưng có thể lấy từ dữ liệu sơ cấp của GenBank  RHdb: là một cơ sở dữ liệu của các dữ liệu thô được sử dụng trong việc thiết kế các bản đồ lai phóng xạ Nó bao gồm các dữ liệu STS, điểm số, các điều kiện thí nghiệm và các tra cứu chéo 30 c CSDL Protein (Protein Databases) 3D Domains: Bao gồm các trình tự và cấu trúc 3 chiều của các domain trong các phân tử protein  Proteins: Tập hợp các CSDL trình tự... đoạn contig DNA genom, các mRNA, các protein của các gen đã biết  dbSTS (data base of sequence tagged sites): CSDL của các vị trí các trình tự ngắn thường chỉ có mặt một lần duy nhất trong genom  UniSTS: là một cơ sở dữ liệu toàn diện của các STS (các vị trí đánh dấu trình tự)  UniGene: Tập hợp của các trình tự EST và các trình tự mRNA có chiều dài đầy đủ được nhóm vào các cụm và mỗi cụm đại diện cho... các công cụ dễ dàng truy cập vào PDB  MSDtarget: Máy chủ chung cấp các công cụ tìm kiếm 20  RESID: CSDL các protein cải biến  Reactome: CSDL về các quá trình sinh học ở cơ thể người  BioModels: CSDL của các mô hình sinh học cho phép các nhà sinh học lưu giữ, tìm kiếm và công bố các mô hình toán học trong lĩnh vực sinh học 21 2 CSDL CỦA NCBI 22 2 CSDL của NCBI a/ CSDL tài liệu (Literature Database)... UniProtKB/TrEMBL, Ensembl và RefSeq  PANDIT: là một bộ các chương trình so sánh trình tự và xây dựng cây phân loại 16  Proteome Analysis: Phân tích so sánh và thống kê các proteom của các sinh vật  UniProt: Nguồn Protein phổ biến cho các trình tự protein và trung tâm của các CSDL protein cho các ngân hàng CSDL khác  UniProt Archive: Một phần trình tự protein được trích ra từ CSDL công khai chỉ chứa các trình tự... Chromosomes: 3 cơ sở dữ liệu NCI/NCBI SKY?M-FISH và CGH  COGs (Clusters of Orthologous Groups of proteins): Nhóm của các nhóm Orthologous của protein được dẫn xuất từ việc so sánh trình tự protein được mã hóa thành các genom hoàn chỉnh, đại diện cho các dòng giống chủ yếu của phân loại hệ thống học  Cơ sử dữ liệu các gen: Gene: Các gen được lưu trữ trong một hệ thống, để truy cập có thể sử dụng các công cụ... cập vào hàng trăm trình tự genome hoàn chỉnh cùng với các sản phẩm protein dịch mã nhờ máy chủ của EBI  ASD (Alternative Splicing Database): chứa dữ liệu về các exon phân cắt phát sinh cùng với các thông tin bổ sung đi kèm Dự án ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở quy mô genome 11  ATD: CSDL đa dạng về các bản phiên mã nảy sinh (Alternate Transcript Diversity Database) chứa dữ liệu. .. Gene 34  Cơ sở dữ liệu của các dự án giải trình tự: Genome Project: Các trình tự hoàn tất, đang ở giai đoạn lắp ráp hoặc đang tiến hành đều được lưu trữ trong một hệ thống Chúng ta có thể sử dụng công cụ Entrez Genome Project để truy cập  Genomes: Các nguồn genom đặc thù từng loại sinh vật: Chứa toàn bộ genom của hơn 1000 sinh vật gồm những genom hoàn chỉnh và đang tiến hành 35 g/ Cơ sử dữ liệu cấu... DNA, RNA và Protein  PROW: CSDL về protein trên Web (Protein Reviews on the Web PROW) 31 d/ Cơ sở dữ liệu cấu trúc (Structure Databases) 3D Domain  MMDB (Molecular Modeling Database) : CSDL mô hình cấu trúc phân tử 3D, bao gồm các protein và các polynucleotide MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của CSDL ở NCBI, bao gồm các trình tự, các trích dẫn, phân loại học, và các trình... (submit) 19 dữ liệu protein ở dạng PRIDE XML f/ CSDL cấu trúc (Structure Databases) EBI đã phát triển và duy trì một số lượng các CSDL có liên quan đến cấu trúc của các đại phân tử  DALI: Thư mục cấu trúc domain của các protein  MSD: CSDL cấu trúc các đại phân tử (MSD), bao gồm các công cụ tìm kiếm PDB  MSDchem: Thư viện hóa học của các thành phần hóa học tìm thấy trong PDB  MSDlite: Cung cấp các công . phân cắt phát sinh cùng với các thông tin bổ sung đi kèm. Dự án ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở quy mô genome. 11  ATD: CSDL đa dạng về các bản phiên mã nảy sinh (Alternate. Quang Hải K55CNSHA 2 CÁC NỘI DUNG CHÍNH 3 I. CƠ SỞ DỮ LIỆU SINH HỌC LÀ GÌ? Cơ sở dữ liệu sinh học (CSDL) là thư viện của thông tin khoa học về sự sống, được thu thập từ các nghiên cứu khoa. nghiệm công nghệ cao và các phân tích tính toán. Chúng lưu trữ các thông tin chủ yếu về gen, protein, nucleotide Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh

Ngày đăng: 12/07/2014, 14:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w