TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI Khoa công nghệ sinh học CHỦ ĐỀ: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU GV hướng dẫn: Nguyễn Đức Bách Nhóm thực hiện: 5 Cơ sở dữ liệu sinh học (CSDL) là thư viện của thông tin khoa học về sự sống, được thu thập từ các nghiên cứu khoa học, các công trình khoa học đã công bố, các thử nghiệm công nghệ cao và các phân tích tính toán. Chúng lưu trữ các thông tin chủ yếu về gen, protein, nucleotide... Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ.
Trang 1CHỦ ĐỀ: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ
Trang 25 Ph m Th Lan Anh ạ ị 550319 K55CNSHA
6 Nguy n Văn Đ c ễ ứ 550338 K55CNSHA
8 Tr n Th Thùy ầ ị
Trang 3CÁC N I DUNG CHÍNH Ộ
3
Trang 4I CƠ SỞ DỮ LIỆU SINH HỌC LÀ GÌ?
C s d li u sinh h c (CSDL) là th vi n ơ ở ữ ệ ọ ư ệ
c a thông tin khoa h c v s s ng, đ c thu th p ủ ọ ề ự ố ượ ậ
t các nghiên c u khoa h c, các công trình khoa ừ ứ ọ
h c đã công b , các th nghi m công ngh cao và ọ ố ử ệ ệ
các phân tích tính toán Chúng l u tr các thông ư ữ
tin ch y u v gen, protein, nucleotide ủ ế ề
Các thông tin này đ c s p x p và l u tr b i ượ ắ ế ư ữ ở
m t h th ng các máy ch r t m nh c a 3 ngân ộ ệ ố ủ ấ ạ ủ
hàng gen l n nh t th gi i là NCBI, EMBL và ớ ấ ế ớ
Trang 6II CSDL c a các ngân hàng gen ủ
Trang 71 CSDL C A EMBL/EBI Ủ
7
Trang 81 CSDL c a EMBL/EBI ủ
8
Trang 9a/ CSDL tài li u ( ệ Literature Databases)
Medline: Bao quát t t c các lĩnh v c c a y h c ấ ả ự ủ ọ
Omim: Di truy n Mendel ng iề ở ườ (Online Mendelian
Inheritance in Man -OMIM) là m t t p h p c a các gen ộ ậ ợ ủ
9
Trang 10b/ CSDL Microarray (Microarray Databases)
Là một kho dữ liệu `Microarray về biểu hiện gen Chức năng của nó là lưu trữ các kho dữ liệu đo lường, quản lý chỉ mục tìm kiếm và tạo các dữ liệu phù hợp cho các ứng dụng khác.
ArrayExpress: Một CSDL cho microarry dựa vào
dữ liệu biểu hiện gen.
Miame : Thông tin tối thiểu về một thí nghiệm
microarry (Minimum Information About a
Trang 11c/ CSDL Nucleotide (Nucleotide Databases)
CSDL trình t nucleotide: Có th truy c p vào ự ể ậhàng trăm trình t genome hoàn ch nh cùng v i các ự ỉ ớ
s n ph m protein d ch mã nh máy ch c a EBI ả ẩ ị ờ ủ ủ
ASD (Alternative Splicing Database): ch a d li u ứ ữ ệ
v các exon phân c t phát sinh cùng v i các thông ề ắ ớtin b sung đi kèm D án ASD nh m hi u rõ h n ổ ự ằ ể ơ
v c ch c t ghép n y sinh quy mô genome.ề ơ ế ắ ả ở
11
Trang 12 ATD: CSDL đa d ng v các b n phiên mã n y sinh ạ ề ả ả (Alternate Transcript Diversity Database) ch a d li u ứ ữ ệ
v các b n phiên mã trong đó m i b n phiên mã đ c ề ả ỗ ả ượ
mô t cho m t d ng c t ghép n y sinh và s polyadenyl ả ộ ạ ắ ả ựhóa n y sinh (alternative polyadenylation).ả
EMBL-Align database: CSDL so sánh nhi u trình t ề ự
EMBL-Bank: Ngân hàng EMBL còn đ c g i là CSDL ượ ọtrình t nucleotide EMBL, đóng góp vào ngu n trình t ự ồ ựnucleotide s c p c a châu Âu ơ ấ ủ 12
Trang 13 EMBL CDS: là m t CSDL c a trình t nucleotide ộ ủ ự
mã hóa (CDS coding sequence)
Ensembl: Mô t t đ ng c a các genome eukaryote ả ự ộ ủ
Genomes Server: cho phép truy c p v i m t s ậ ớ ộ ố
l ng l n các genom hoàn ch nh.ượ ớ ỉ
Genome Reviews: CSDL genome đ c ch nh s a ượ ỉ ửbao g m các phiên b n chính xác c a các m c tra ồ ả ủ ụ
c u (entry) genome hoàn ch nh t CSDL trình t ứ ỉ ừ ựnucleotide c a EMBL/GenBank/DDBJủ
Karyn's Genomes: thu th p và mô t m t s trình ậ ả ộ ố
t genome ự
13
Trang 14 IMGT/HLA: CSDL di truyền miễn dịch, bao gồm
CSDL IMGT/HLA của phức hệ phù hợp tổ chức (MHC) CSDL di truyền miễn dịch IMGT/LIGM bao gồm CSDL IMGT/LIGM của các Ig và các thụ thể tế bào T
IPD: CSDL đa hình miễn dịch (Immun Polymorphism
Database), bao gồm các gen đa hình của hệ thống miễn dịch
LGICdb: CSDL các chất gắn các kênh Ion (Ligand
Gated Ion Channel Database)
Mutations: Dự án CSDL sự đa hình trình tự (Sequence
variation database project)
Parasites: CSDL genome ký sinh (Parasite Genome
databases)
14
Trang 15 d/ CSDL protein (Protein Databases)
EBI đã phát triển và duy trì một số CSDL protein có liên
quan với nhau Danh sách của các dự án và CSDL:
CluSTr: Đề xuất một sự phân loại tự động của
UniProtKB/Swiss-Prot + UniProtKB/TrEMBL
CSA: Tập hợp các vị trí xúc tác (Catalytic Site Atlas) là
một nguồn của các vị trí xúc tác và các gốc được tìm
thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.
GO: Các trang của hiệp hội Gene Ontology của EBI
GOA: Cung cấp các thông tin về sản phẩm gen vào
nguồn GO.
HPI: Các proteomic của người ban đầu (Human
Proteomics Initiative) là một khởi xướng bởi SIB và
EBI để mô tả tất cả các trình tự đã biết của người theo
tiêu chuẩn chất lượng của UniProtKB/Swiss-Prot
Trang 16 IntAct: Là một CSDL đi kèm với hệ thống phân tích,
nó cung cấp một giao diện truy vấn và một module
để phân tích các dữ liệu.
IntEnz: CSDL liên quan giữa các enzym (Integrated
relational Enzyme database) chứa các dữ liệu enzym được chứng nhận bởi hội đồng định tên (Nomenclature Committee) với mục đích là để tạo ra một CSDL các enzym có mối quan hệ đơn.
InterPro: CSDL là một sự kết hợp của nguồn tài liệu
trích dẫn cho các họ proein, các domain và các vị trí
hoạt động
IPI: (International Protein Index) một hệ thống
proteom không dư thừa (non-redundant) được xây dựng từ UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Ensembl và RefSeq
PANDIT: là một bộ các chương trình so sánh trình tự
và xây dựng cây phân loại.
16
Trang 17 Proteome Analysis: Phân tích so sánh và thống kê các
proteom của các sinh vật.
UniProt: Nguồn Protein phổ biến cho các trình tự
protein và trung tâm của các CSDL protein cho các ngân hàng CSDL khác
UniProt Archive: Một phần trình tự protein được trích
ra từ CSDL công khai chỉ chứa các trình tự protein
UniProtKB/Swiss-Prot: CSDL trình tự protein được
mô tả, một phần của UniProtKB
UniProtKB/TrEMBL: Một CSDL protein được tạo ra
bằng máy tính, là một phần của UniProtKB.
17
Trang 19e/ CSDL Proteomic (Proteomic Databases)
EBI đã phát tri n và l u gi m t s l ng l n các CSDL liên quan proteom ể ư ữ ộ ố ượ ớ
D i đây là m t s CSDL proteom ướ ộ ố
ChEBI (Chemical Entities of Biological Interest ChEBI): m t t đi n c a ộ ừ ể ủ các phân t nh ử ỏ
Trang 20f/ CSDL c u trúc (Structure Databases) ấ
EBI đã phát tri n và duy trì m t s l ng các ể ộ ố ượ
CSDL có liên quan đ n c u trúc c a các đ i phân t ế ấ ủ ạ ử
DALI: Th m c c u trúc domain c a các protein.ư ụ ấ ủ
Trang 21 RESID: CSDL các protein cải biến
Reactome: CSDL về các quá trình sinh học ở cơ thể người
BioModels: CSDL của các mô hình sinh học cho phép các
nhà sinh học lưu giữ, tìm kiếm và công bố các mô hình toán học trong lĩnh vực sinh học.
Trang 222 CSDL CỦA NCBI
22
Trang 232 CSDL của NCBI
a/ CSDL tài liệu (Literature Database)
Bookshelf: Tìm kiếm những thông tin cơ bản hoặc các chủ
đề nghiên cứu mới, miễn phí, có một phần ở PubMed.
PubMed: là giao diện tìm kiếm thông tin trong lĩnh vực sinh
y học, cung cấp các công trình khoa học đã được công bố trong Medline.
PubMed Central: Là một tạp chí khoa học sự sống, kết hợp
với hệ thống Enztrez, PMC cho phép truy cập tự do và không hạn chế với hơn 160 tạp chí khoa học sự sống.
Trang 24Online Mendelian Inheritance in Man (OMIM): là
CSDL về genome người nằm trong dự án xác định genome người.
Online Mendelian Inheritance in Animals (OMIA)
Là một CSDL của các gen, các rối loạn di truyền và các tính trạng của các loài động vật.
Journals: Tìm kiếm các CSDL tạp chí cho phép kết
nối (link) các tạp chí với hệ thống Entrez kể cả CSDL
di truyền.
24
Trang 26b/ CSDL Nucleotide (Nucleotide databases)
GenBank: Tập hợp tất cả các trình tự nucleotide và axit amin hiện có
Chẳng hạn, chúng ta có thể xem bản ghi cho một gen của
Saccharomyces cerevisiae thì GenBank đã cung cấp đầy đủ Cứ sau 2
tháng, một phiên bản update được đưa ra
GenBank là một phần của (
International Nucleotide Sequence Database Collaboration ) bao gồm ở DDBJ, EMBL và NCBI
dbEST (data base of Expressed Sequence Tags): Theo Nature
Genetics 4:332-3; 1993 thì dbEST là một tập hợp của các trình tự ngắn, duy nhất lấy từ mRNA (cDNA) dbEST cũng là một nhánh của GenBank
dbSNP (data base of Single-base Nucleotide Polymorphism): là
CSDL các đa hình do sự thay thế hoặc thêm, bớt một nucleotide 26
Trang 27 dbGSS (data base of Genome Survey Sequences):
cũng là một nhánh của GenBank nhưng khác với
dbEST là hầu hết các trình tự đều có nguồn gốc từ
genomic chứ không phải là cDNA (mRNA) Nhánh
dbGSS chứa các dạng dữ liệu sau:
• Single - pass genom sequence
Trang 28 RefSeq: CSDL của các trình tự tra cứu không có sự dư
thừa (non-redundant reference sequence) bao gồm: các đoạn contig DNA genom, các mRNA, các protein của các gen đã biết
db STS (data base of sequence tagged sites): CSDL của các vị trí các trình tự ngắn thường chỉ có mặt một lần duy nhất trong genom.
UniSTS: là một cơ sở dữ liệu toàn diện của các STS
(các vị trí đánh dấu trình tự)
UniGene: Tập hợp của các trình tự EST và các trình
tự mRNA có chiều dài đầy đủ được nhóm vào các cụm
và mỗi cụm đại diện cho một gene duy nhất được biết hoặc gene người được mô tả cùng với bản đồ và những thông tin về quá trình biểu hiện gen. 28
Trang 29dbHTG (data base of high-throughput genom
sequence): tập hợp của các trình tự genom thu được
từ các trung tâm xác định trình tự genom.
HomoloGene: Sử dụng để so sánh trình tự
nucleotide giữa hai sinh vật để đánh giá mức độ
ortholog giả định.
MGC: (Mamalian Gene Collection) cung cấp các
dòng đầy đủ chiều dài các khung đọc mở length open reading frame FL-ORF) cho người, chuột nhắt và chuột cống
(full-PopSet: PopSet là một hệ thống các trình tự DNA
được thu thập để phân tích mối quan hệ tiến hóa
Trang 30 RefSeq: Cung cấp hệ thống các trình tự: DNA, các loại
RNA và sản phẩm protein để nghiên cứu các sinh vật
TPA: Third Party Annotation (TPA) Sequence: Được
thiết kế để thu hút các kết quả thực nghiệm và hỗ trợ cho những người đăng ký mô tả, giải thích về trình tự mà người đăng ký không xác định được trực tiếp nhưng có thể lấy từ
dữ liệu sơ cấp của GenBank.
RHdb: là một cơ sở dữ liệu của các dữ liệu thô được sử
dụng trong việc thiết kế các bản đồ lai phóng xạ Nó bao gồm các dữ liệu STS, điểm số, các điều kiện thí nghiệm và
Trang 31c CSDL Protein (Protein Databases) 3D Domains:
Bao g m các trình t và c u trúc 3 chi u c a các ồ ự ấ ề ủdomain trong các phân t protein.ử
Proteins: T p h p các CSDL trình t proteinậ ợ ự
RefSeq: Cung c p m t CSDL không d th a (non-ấ ộ ư ừredundant) bao g m DNA, RNA và Protein.ồ
PROW: CSDL v protein trên Web (Protein Reviews ề
Trang 32d/ Cơ sở dữ liệu cấu trúc (Structure Databases) 3D Domain
MMDB (Molecular Modeling Database) : CSDL mô hình cấu
trúc phân tử 3D, bao gồm các protein và các polynucleotide MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của CSDL ở NCBI, bao gồm các trình tự, các trích dẫn, phân loại học, và các trình tự và cấu trúc lân cận
Conserved Domains: Tập hợp các CSDL về các vùng
domain bảo thủ của các protein, họ protein
32
Trang 33e/ Cơ sở dữ liệu hệ thống học (Taxonomy Databases)
Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở
dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein
33
Trang 34f/ C s d li u genom (genome database) ơ ở ữ ệ
Các nhi m s c th ung th : ễ ắ ể ư Cancer Chromosomes: 3
c s d li u NCI/NCBI SKY?M-FISH và CGH.ơ ở ữ ệ
COGs (Clusters of Orthologous Groups of proteins):
Nhóm c a các nhóm Orthologous c a protein đ c d n ủ ủ ượ ẫ
xu t t vi c so sánh trình t protein đ c mã hóa thành ấ ừ ệ ự ượcác genom hoàn ch nh, đ i di n cho các dòng gi ng ch ỉ ạ ệ ố ủ
Trang 35 C s d li u c a các d án gi i trình t : ơ ở ữ ệ ủ ự ả ự Genome
Project: Các trình t hoàn t t, đang giai đo n l p ráp ự ấ ở ạ ắ
ho c đang ti n hành đ u đ c l u tr trong m t h ặ ế ề ượ ư ữ ộ ệ
th ng Chúng ta có th s d ng công c Entrez Genome ố ể ử ụ ụProject đ truy c p.ể ậ
Genomes: Các ngu n genom đ c thù t ng lo i sinh v t: ồ ặ ừ ạ ậ
Ch a toàn b genom c a h n 1000 sinh v t g m nh ng ứ ộ ủ ơ ậ ồ ữgenom hoàn ch nh và đang ti n hành.ỉ ế
35
Trang 36g/ C s d li u c u trúc (Structure Databases) ơ ử ữ ệ ấ
MMDB (Molecular Modeling Database): CSDL mô hình phân t ch a các c u trúc 3D c a đ i phân t , ử ứ ấ ủ ạ ửbao g m các protein và các polynucleotide MMDB ồ
ch a h n 28,000 c u trúc và nó đ c k t n i v i ph n ứ ơ ấ ượ ế ố ớ ầcòn l i c a NCBI bao g m các trình t , trích d n, h ạ ủ ồ ự ẫ ệ
th ng phân lo i và các trình t và c u trúc liên quan.ố ạ ự ấ
GEO Datasets: CSDL này l u gi các gen bi u hi n ư ữ ể ệ(Gene Expression Omnibus GEO)
36
Trang 37 SAGE: Đ h tr cho vi c s d ng công c ng và công ể ỗ ợ ệ ử ụ ộ
b các d li u gen bi u hi n (serial analysis of gene ố ữ ệ ể ệexpression SAGE)
SAGEmap là m t ngu n d li u SAGE cho yêu c u truy ộ ồ ữ ệ ầ
v n, thu nhân và phân tích các d li u SAGE t m t ấ ữ ệ ừ ộloài sinh v t b t kỳ T t c các d li u có m t trong ậ ấ ấ ả ữ ệ ặwebsite này có th đ c truy c p t các kho l u tr c a ể ượ ậ ừ ư ữ ủGEO (Gene Expression Omnibus)
37
Trang 38k/ Cơ sở dữ liệu hóa học (Chemical Databases)
Các phản ứng, test
Danh sách các chất hóa học
Danh sách các hợp chất
38
Trang 39III Ý NGHĨA C A VI C T O NÊN CÁC Ủ Ệ Ạ
C S D LI U SINH H C Ơ Ở Ữ Ệ Ọ
Cung c p các d li u h tr cho vi c nghiên c uấ ữ ệ ỗ ợ ệ ứ
Cho bi t nh ng công trình nghiên c u khoa h c ế ữ ứ ọ
đã đ c công b ượ ố
Hình thành s liên k t gi a các c s d li u ự ế ữ ơ ở ữ ệ
39