1. Trang chủ
  2. » Luận Văn - Báo Cáo

TIỂU LUẬN CÔNG NGHỆ SINH HỌC: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU

40 2,7K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 3,1 MB

Nội dung

TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI Khoa công nghệ sinh học CHỦ ĐỀ: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU GV hướng dẫn: Nguyễn Đức Bách Nhóm thực hiện: 5 Cơ sở dữ liệu sinh học (CSDL) là thư viện của thông tin khoa học về sự sống, được thu thập từ các nghiên cứu khoa học, các công trình khoa học đã công bố, các thử nghiệm công nghệ cao và các phân tích tính toán. Chúng lưu trữ các thông tin chủ yếu về gen, protein, nucleotide... Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ.

Trang 1

CHỦ ĐỀ: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ

Trang 2

5 Ph m Th Lan Anh ạ ị 550319 K55CNSHA

6 Nguy n Văn Đ c ễ ứ 550338 K55CNSHA

8 Tr n Th Thùy ầ ị

Trang 3

CÁC N I DUNG CHÍNH Ộ

3

Trang 4

I CƠ SỞ DỮ LIỆU SINH HỌC LÀ GÌ?

C s d li u sinh h c (CSDL) là th vi n ơ ở ữ ệ ọ ư ệ

c a thông tin khoa h c v s s ng, đ c thu th p ủ ọ ề ự ố ượ ậ

t các nghiên c u khoa h c, các công trình khoa ừ ứ ọ

h c đã công b , các th nghi m công ngh cao và ọ ố ử ệ ệ

các phân tích tính toán Chúng l u tr các thông ư ữ

tin ch y u v gen, protein, nucleotide ủ ế ề

Các thông tin này đ c s p x p và l u tr b i ượ ắ ế ư ữ ở

m t h th ng các máy ch r t m nh c a 3 ngân ộ ệ ố ủ ấ ạ ủ

hàng gen l n nh t th gi i là NCBI, EMBL và ớ ấ ế ớ

Trang 6

II CSDL c a các ngân hàng gen ủ

Trang 7

1 CSDL C A EMBL/EBI Ủ

7

Trang 8

1 CSDL c a EMBL/EBI ủ

8

Trang 9

a/ CSDL tài li u ( ệ Literature Databases)

Medline: Bao quát t t c các lĩnh v c c a y h c ấ ả ự ủ ọ

Omim: Di truy n Mendel ng iề ở ườ (Online Mendelian

Inheritance in Man -OMIM) là m t t p h p c a các gen ộ ậ ợ ủ

9

Trang 10

b/ CSDL Microarray (Microarray Databases)

Là một kho dữ liệu `Microarray về biểu hiện gen Chức năng của nó là lưu trữ các kho dữ liệu đo lường, quản lý chỉ mục tìm kiếm và tạo các dữ liệu phù hợp cho các ứng dụng khác.

ArrayExpress: Một CSDL cho microarry dựa vào

dữ liệu biểu hiện gen.

Miame : Thông tin tối thiểu về một thí nghiệm

microarry (Minimum Information About a

Trang 11

c/ CSDL Nucleotide (Nucleotide Databases)

CSDL trình t nucleotide: Có th truy c p vào ự ể ậhàng trăm trình t genome hoàn ch nh cùng v i các ự ỉ ớ

s n ph m protein d ch mã nh máy ch c a EBI ả ẩ ị ờ ủ ủ

ASD (Alternative Splicing Database): ch a d li u ứ ữ ệ

v các exon phân c t phát sinh cùng v i các thông ề ắ ớtin b sung đi kèm D án ASD nh m hi u rõ h n ổ ự ằ ể ơ

v c ch c t ghép n y sinh quy mô genome.ề ơ ế ắ ả ở

11

Trang 12

ATD: CSDL đa d ng v các b n phiên mã n y sinh ạ ề ả ả (Alternate Transcript Diversity Database) ch a d li u ứ ữ ệ

v các b n phiên mã trong đó m i b n phiên mã đ c ề ả ỗ ả ượ

mô t cho m t d ng c t ghép n y sinh và s polyadenyl ả ộ ạ ắ ả ựhóa n y sinh (alternative polyadenylation).ả

EMBL-Align database: CSDL so sánh nhi u trình t ề ự

EMBL-Bank: Ngân hàng EMBL còn đ c g i là CSDL ượ ọtrình t nucleotide EMBL, đóng góp vào ngu n trình t ự ồ ựnucleotide s c p c a châu Âu ơ ấ ủ 12

Trang 13

EMBL CDS: là m t CSDL c a trình t nucleotide ộ ủ ự

mã hóa (CDS coding sequence)

Ensembl: Mô t t đ ng c a các genome eukaryote ả ự ộ ủ

Genomes Server: cho phép truy c p v i m t s ậ ớ ộ ố

l ng l n các genom hoàn ch nh.ượ ớ ỉ

Genome Reviews: CSDL genome đ c ch nh s a ượ ỉ ửbao g m các phiên b n chính xác c a các m c tra ồ ả ủ ụ

c u (entry) genome hoàn ch nh t CSDL trình t ứ ỉ ừ ựnucleotide c a EMBL/GenBank/DDBJủ

Karyn's Genomes: thu th p và mô t m t s trình ậ ả ộ ố

t genome ự

13

Trang 14

IMGT/HLA: CSDL di truyền miễn dịch, bao gồm

CSDL IMGT/HLA của phức hệ phù hợp tổ chức (MHC) CSDL di truyền miễn dịch IMGT/LIGM bao gồm CSDL IMGT/LIGM của các Ig và các thụ thể tế bào T

IPD: CSDL đa hình miễn dịch (Immun Polymorphism

Database), bao gồm các gen đa hình của hệ thống miễn dịch

LGICdb: CSDL các chất gắn các kênh Ion (Ligand

Gated Ion Channel Database)

Mutations: Dự án CSDL sự đa hình trình tự (Sequence

variation database project)

Parasites: CSDL genome ký sinh (Parasite Genome

databases)

14

Trang 15

d/ CSDL protein (Protein Databases)

EBI đã phát triển và duy trì một số CSDL protein có liên

quan với nhau Danh sách của các dự án và CSDL:

CluSTr: Đề xuất một sự phân loại tự động của

UniProtKB/Swiss-Prot + UniProtKB/TrEMBL

CSA: Tập hợp các vị trí xúc tác (Catalytic Site Atlas) là

một nguồn của các vị trí xúc tác và các gốc được tìm

thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.

GO: Các trang của hiệp hội Gene Ontology của EBI

GOA: Cung cấp các thông tin về sản phẩm gen vào

nguồn GO.

HPI: Các proteomic của người ban đầu (Human

Proteomics Initiative) là một khởi xướng bởi SIB và

EBI để mô tả tất cả các trình tự đã biết của người theo

tiêu chuẩn chất lượng của UniProtKB/Swiss-Prot

Trang 16

IntAct: Là một CSDL đi kèm với hệ thống phân tích,

nó cung cấp một giao diện truy vấn và một module

để phân tích các dữ liệu.

IntEnz: CSDL liên quan giữa các enzym (Integrated

relational Enzyme database) chứa các dữ liệu enzym được chứng nhận bởi hội đồng định tên (Nomenclature Committee) với mục đích là để tạo ra một CSDL các enzym có mối quan hệ đơn.

InterPro: CSDL là một sự kết hợp của nguồn tài liệu

trích dẫn cho các họ proein, các domain và các vị trí

hoạt động

IPI: (International Protein Index) một hệ thống

proteom không dư thừa (non-redundant) được xây dựng từ UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Ensembl và RefSeq

PANDIT: là một bộ các chương trình so sánh trình tự

và xây dựng cây phân loại.

16

Trang 17

Proteome Analysis: Phân tích so sánh và thống kê các

proteom của các sinh vật.

UniProt: Nguồn Protein phổ biến cho các trình tự

protein và trung tâm của các CSDL protein cho các ngân hàng CSDL khác

UniProt Archive: Một phần trình tự protein được trích

ra từ CSDL công khai chỉ chứa các trình tự protein

UniProtKB/Swiss-Prot: CSDL trình tự protein được

mô tả, một phần của UniProtKB

UniProtKB/TrEMBL: Một CSDL protein được tạo ra

bằng máy tính, là một phần của UniProtKB.

17

Trang 19

e/ CSDL Proteomic (Proteomic Databases)

EBI đã phát tri n và l u gi m t s l ng l n các CSDL liên quan proteom ể ư ữ ộ ố ượ ớ

D i đây là m t s CSDL proteom ướ ộ ố

ChEBI (Chemical Entities of Biological Interest ChEBI): m t t đi n c a ộ ừ ể ủ các phân t nh ử ỏ

Trang 20

f/ CSDL c u trúc (Structure Databases) ấ

EBI đã phát tri n và duy trì m t s l ng các ể ộ ố ượ

CSDL có liên quan đ n c u trúc c a các đ i phân t ế ấ ủ ạ ử

DALI: Th m c c u trúc domain c a các protein.ư ụ ấ ủ

Trang 21

RESID: CSDL các protein cải biến

Reactome: CSDL về các quá trình sinh học ở cơ thể người

BioModels: CSDL của các mô hình sinh học cho phép các

nhà sinh học lưu giữ, tìm kiếm và công bố các mô hình toán học trong lĩnh vực sinh học.

Trang 22

2 CSDL CỦA NCBI

22

Trang 23

2 CSDL của NCBI

a/ CSDL tài liệu (Literature Database)

Bookshelf: Tìm kiếm những thông tin cơ bản hoặc các chủ

đề nghiên cứu mới, miễn phí, có một phần ở PubMed.

PubMed: là giao diện tìm kiếm thông tin trong lĩnh vực sinh

y học, cung cấp các công trình khoa học đã được công bố trong Medline.

PubMed Central: Là một tạp chí khoa học sự sống, kết hợp

với hệ thống Enztrez, PMC cho phép truy cập tự do và không hạn chế với hơn 160 tạp chí khoa học sự sống.

Trang 24

Online Mendelian Inheritance in Man (OMIM): là

CSDL về genome người nằm trong dự án xác định genome người.

Online Mendelian Inheritance in Animals (OMIA)

Là một CSDL của các gen, các rối loạn di truyền và các tính trạng của các loài động vật.

Journals: Tìm kiếm các CSDL tạp chí cho phép kết

nối (link) các tạp chí với hệ thống Entrez kể cả CSDL

di truyền.

24

Trang 26

b/ CSDL Nucleotide (Nucleotide databases)

 GenBank: Tập hợp tất cả các trình tự nucleotide và axit amin hiện có

Chẳng hạn, chúng ta có thể xem bản ghi cho một gen của

Saccharomyces cerevisiae thì GenBank đã cung cấp đầy đủ Cứ sau 2

tháng, một phiên bản update được đưa ra

GenBank là một phần của (

International Nucleotide Sequence Database Collaboration ) bao gồm ở DDBJ, EMBL và NCBI

dbEST (data base of Expressed Sequence Tags): Theo Nature

Genetics 4:332-3; 1993 thì dbEST là một tập hợp của các trình tự ngắn, duy nhất lấy từ mRNA (cDNA) dbEST cũng là một nhánh của GenBank

dbSNP (data base of Single-base Nucleotide Polymorphism): là

CSDL các đa hình do sự thay thế hoặc thêm, bớt một nucleotide 26

Trang 27

dbGSS (data base of Genome Survey Sequences):

cũng là một nhánh của GenBank nhưng khác với

dbEST là hầu hết các trình tự đều có nguồn gốc từ

genomic chứ không phải là cDNA (mRNA) Nhánh

dbGSS chứa các dạng dữ liệu sau:

• Single - pass genom sequence

Trang 28

 RefSeq: CSDL của các trình tự tra cứu không có sự dư

thừa (non-redundant reference sequence) bao gồm: các đoạn contig DNA genom, các mRNA, các protein của các gen đã biết

db STS (data base of sequence tagged sites): CSDL của các vị trí các trình tự ngắn thường chỉ có mặt một lần duy nhất trong genom.

 UniSTS: là một cơ sở dữ liệu toàn diện của các STS

(các vị trí đánh dấu trình tự)

UniGene: Tập hợp của các trình tự EST và các trình

tự mRNA có chiều dài đầy đủ được nhóm vào các cụm

và mỗi cụm đại diện cho một gene duy nhất được biết hoặc gene người được mô tả cùng với bản đồ và những thông tin về quá trình biểu hiện gen. 28

Trang 29

dbHTG (data base of high-throughput genom

sequence): tập hợp của các trình tự genom thu được

từ các trung tâm xác định trình tự genom.

HomoloGene: Sử dụng để so sánh trình tự

nucleotide giữa hai sinh vật để đánh giá mức độ

ortholog giả định.

MGC: (Mamalian Gene Collection) cung cấp các

dòng đầy đủ chiều dài các khung đọc mở length open reading frame FL-ORF) cho người, chuột nhắt và chuột cống

(full-PopSet: PopSet là một hệ thống các trình tự DNA

được thu thập để phân tích mối quan hệ tiến hóa

Trang 30

RefSeq: Cung cấp hệ thống các trình tự: DNA, các loại

RNA và sản phẩm protein để nghiên cứu các sinh vật

TPA: Third Party Annotation (TPA) Sequence: Được

thiết kế để thu hút các kết quả thực nghiệm và hỗ trợ cho những người đăng ký mô tả, giải thích về trình tự mà người đăng ký không xác định được trực tiếp nhưng có thể lấy từ

dữ liệu sơ cấp của GenBank.

RHdb: là một cơ sở dữ liệu của các dữ liệu thô được sử

dụng trong việc thiết kế các bản đồ lai phóng xạ Nó bao gồm các dữ liệu STS, điểm số, các điều kiện thí nghiệm và

Trang 31

c CSDL Protein (Protein Databases) 3D Domains:

Bao g m các trình t và c u trúc 3 chi u c a các ồ ự ấ ề ủdomain trong các phân t protein.ử

Proteins: T p h p các CSDL trình t proteinậ ợ ự

RefSeq: Cung c p m t CSDL không d th a (non-ấ ộ ư ừredundant) bao g m DNA, RNA và Protein.ồ

PROW: CSDL v protein trên Web (Protein Reviews

Trang 32

d/ Cơ sở dữ liệu cấu trúc (Structure Databases) 3D Domain

MMDB (Molecular Modeling Database) : CSDL mô hình cấu

trúc phân tử 3D, bao gồm các protein và các polynucleotide MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của CSDL ở NCBI, bao gồm các trình tự, các trích dẫn, phân loại học, và các trình tự và cấu trúc lân cận

Conserved Domains: Tập hợp các CSDL về các vùng

domain bảo thủ của các protein, họ protein

32

Trang 33

e/ Cơ sở dữ liệu hệ thống học (Taxonomy Databases)

 Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở

dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein

33

Trang 34

f/ C s d li u genom (genome database) ơ ở ữ ệ

Các nhi m s c th ung th : ễ ắ ể ư Cancer Chromosomes: 3

c s d li u NCI/NCBI SKY?M-FISH và CGH.ơ ở ữ ệ

COGs (Clusters of Orthologous Groups of proteins):

Nhóm c a các nhóm Orthologous c a protein đ c d n ủ ủ ượ ẫ

xu t t vi c so sánh trình t protein đ c mã hóa thành ấ ừ ệ ự ượcác genom hoàn ch nh, đ i di n cho các dòng gi ng ch ỉ ạ ệ ố ủ

Trang 35

C s d li u c a các d án gi i trình t : ơ ở ữ ệ ủ ự ả ự Genome

Project: Các trình t hoàn t t, đang giai đo n l p ráp ự ấ ở ạ ắ

ho c đang ti n hành đ u đ c l u tr trong m t h ặ ế ề ượ ư ữ ộ ệ

th ng Chúng ta có th s d ng công c Entrez Genome ố ể ử ụ ụProject đ truy c p.ể ậ

Genomes: Các ngu n genom đ c thù t ng lo i sinh v t: ồ ặ ừ ạ ậ

Ch a toàn b genom c a h n 1000 sinh v t g m nh ng ứ ộ ủ ơ ậ ồ ữgenom hoàn ch nh và đang ti n hành.ỉ ế

35

Trang 36

g/ C s d li u c u trúc (Structure Databases) ơ ử ữ ệ ấ

 MMDB (Molecular Modeling Database): CSDL mô hình phân t ch a các c u trúc 3D c a đ i phân t , ử ứ ấ ủ ạ ửbao g m các protein và các polynucleotide MMDB ồ

ch a h n 28,000 c u trúc và nó đ c k t n i v i ph n ứ ơ ấ ượ ế ố ớ ầcòn l i c a NCBI bao g m các trình t , trích d n, h ạ ủ ồ ự ẫ ệ

th ng phân lo i và các trình t và c u trúc liên quan.ố ạ ự ấ

 GEO Datasets: CSDL này l u gi các gen bi u hi n ư ữ ể ệ(Gene Expression Omnibus GEO)

36

Trang 37

SAGE: Đ h tr cho vi c s d ng công c ng và công ể ỗ ợ ệ ử ụ ộ

b các d li u gen bi u hi n (serial analysis of gene ố ữ ệ ể ệexpression SAGE)

 SAGEmap là m t ngu n d li u SAGE cho yêu c u truy ộ ồ ữ ệ ầ

v n, thu nhân và phân tích các d li u SAGE t m t ấ ữ ệ ừ ộloài sinh v t b t kỳ T t c các d li u có m t trong ậ ấ ấ ả ữ ệ ặwebsite này có th đ c truy c p t các kho l u tr c a ể ượ ậ ừ ư ữ ủGEO (Gene Expression Omnibus)

37

Trang 38

k/ Cơ sở dữ liệu hóa học (Chemical Databases)

Các phản ứng, test

Danh sách các chất hóa học

Danh sách các hợp chất

38

Trang 39

III Ý NGHĨA C A VI C T O NÊN CÁC Ủ Ệ Ạ

C S D LI U SINH H C Ơ Ở Ữ Ệ Ọ

 Cung c p các d li u h tr cho vi c nghiên c uấ ữ ệ ỗ ợ ệ ứ

 Cho bi t nh ng công trình nghiên c u khoa h c ế ữ ứ ọ

đã đ c công b ượ ố

 Hình thành s liên k t gi a các c s d li u ự ế ữ ơ ở ữ ệ

39

Ngày đăng: 12/07/2014, 14:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w