CƠ SỞ DỮ LIỆUGiới thiệu Mô hình dữ liệu NCBI (tuần 1) Cơ sở dữ liệu trình tự GenBank (tuần 2) Cơ sở dữ liệu về cấu trúc (tuần 3) Cơ sở dữ liệu bản đồ genom (tuần 4).Các cơ sở dữ liệuCơ sở dữ liệu NCBI (National Center forBiotechnology Information) C docx
CƠSỞDỮ LIỆU
Giới thiệu
Mô hìnhdữliệuNCBI
(tuần 1)
Cơ sởdữliệutrìnhtự GenBank
(tuần 2)
Cơ sở dữ liệuvềcấu trúc
(tuần 3)
Cơ sởdữliệubảnđồ genom
(tuần 4)
Các cơsởdữ liệu
CơsởdữliệuNCBI
(National Center for
Biotechnology Information)
Cơsởdữliệu EMBL-EBI
(European Molecular
Biology Laboratory-European Bioinformatics
Institute)
Cơsởdữliệu CIB-DDBJ
(Center for Information
Biology-DNA Data Bank of Japan)
Mô hìnhdữliệu NCBI
NCBI dựa trên 4 dữliệucơ bản:
- Bài báo khoa học
- Trìnhtự ADN
- Trìnhtự protein
- Cấutrúc ba chiều.
Ngoài ra còn có các cơsởdữliệu khác:
- Taxonomy
- Bảnđồ genome
Mô hìnhdữliệu NCBI:
Bài báo khoa học
Tên tác giả
Bài báo: Tên bài báo, tập, số, trang.
Patent
Yếu tố nhận dạng MEDLINE và PubMed: Để truy cập
bài báo.
- MEDLINE unique identifier (MUID): số nguyên
- PubMed (Có chứa tất cả MEDLINE) với yếu tố nhận
dạng: PubMed identifier (PMID).
- Ghi chú: Bài báo có trong MEDLINE sẽ có cả PMID và
MUID. Bài báo chỉ có trong PubMed sẽ chỉ có PMID.
- PubMed Central: Bao gồm cả các bài báo điện tử hoặc
trước khi xuất bản chính thức trong các tạp chí in.
Mô hìnhdữliệu NCBI:
Yếu tố nhận dạng trìnhtự (SEQ-Ids)
Locus name: Nhằm cung cấp yếu tố nhận dạng duy nhất
- Có trong GenBank, EMBL và DDBJ
- Gồm một sốsố (<=10) và chữ in hoa
Accession Number:
- 1 chữ in hoa kèm 5 số
- Số mới gồm 2 chữ in hoa kèm 6 số
gi Number (GenInfo Identifiers) : yếu tố nhận dạng cho 1 trình
tự riêng biệt, bao gồm:
- Trìnhtự nucleotid từ DDBJ/EMBL/GenBank
- Trìnhtự protein từ dịch mã vùng CDS
- Trìnhtự protein từ SWISS-PROT, PIR, PRF, PDB, patent, …
ưu điểm của gi:
- Yếu tố nhận dạng trìnhtự được sử dụng trong nhiều CSDL.
- Yếu tố nhận dạng chuyên biệt cho một trìnhtự chính xác
- Yếu tố nhận dạng ổn định và dễ truy cập.
Mô hìnhdữliệu NCBI:
Yếu tố nhận dạng trìnhtự (SEQ-Ids)
Accession.Version Combined Identifier: Do hợp tác
của GenBank, EMBL và DDBJ đưa ra
- Vẫn cho phép truy cập một bản ghi chỉ dựa trên số
truy cập mà không có phiên bản.
- Cho phép truy cập trìnhtự đã thay đổi sử dụng số
truy cập và số phiên bản.
- Cho biết trìnhtự đã thay đổi bao nhiêu lần dựa trên
số phiên bản.
Accession Numbers on Protein Sequences:
- Accession.version Numbers cũng đã được sử dụng
cho trìnhtự protein trong CDS feature’s /protein ID
qualifier.
- Gồm 3 chữ in hoa kèm 5 số và 1 số chỉ phiên bản.
. C SỞ DỮ LIỆU Giới thiệu Mô hình dữ liệu NCBI (tuần 1) C sở dữ liệu trình tự GenBank (tuần 2) C sở dữ liệu về c u tr c (tuần 3) C sở dữ liệu bản đồ genom (tuần 4) C c c sở dữ liệu . báo chỉ c trong PubMed sẽ chỉ c PMID. - PubMed Central: Bao gồm c c c bài báo điện tử ho c trư c khi xuất bản chính th c trong c c tạp chí in. Mô hình dữ liệu NCBI: Yếu tố nhận dạng trình tự. CIB-DDBJ (Center for Information Biology-DNA Data Bank of Japan) Mô hình dữ liệu NCBI NCBI dựa trên 4 dữ liệu c bản: - Bài báo khoa h c - Trình tự ADN - Trình tự protein - C u tr c ba chiều.