Bài giảng Tin sinh học: Chương 2 - Thạc sĩ. Nguyễn Thành Luân

Bài giảng Tin sinh học: Chương 2 - ThS. Nguyễn Thành Luân

Trang 1

Cơ sở dữ liệu Tin sinh học

Mục tiêu của bài học

 Nắm được những nguyên tắc so sánh các

trình tự sinh học

 Sử dụng chương trình BLAST giúp chúng ta

nhanh chóng tìm ra những trình tự sinh học

tương đồng (nếu có trong các CSDL lớn như

NCBI, EMBL, DDPJ…) với trình tự yêu cầu

 Cung cấp những số liệu về tỉ lệ tương đồng,

nguồn gốc các trình tự tương đồng, …

Trang 2

Nội dung bài học

• Khái niệm cơ sở dữ liệu (CSDL)

• Các công cụ về cơ sở dữ liệu:

– GenBank

– BankIt

– BLAST

• Các nguồn cơ sở dữ liệu sinh học cơ bản

• Các công cụ tìm kiếm dữ liệu

• Phân loại CSDL Tin sinh học

WHAT ARE DATABASES

Cơ sở dữ liệu là gì?

• Là tổ chức các chuỗi thông tin theo dạng tệp

• Thông tin có thể bỏ vào và lấy ra bất kz khi nào

(Ease of Access)

• Đơn giản hóa nguồn thông tin bằng các ký

hiệu đặc biệt (Số hóa – Digital databases)

• Lưu trữ mọi nguồn dữ liệu thông qua các ngân

hàng CSDL là các website

• Chứa đựng các khám phá mới trong nghiên cứu

khoa học

Trang 3

Chức năng & nhiệm vụ CSDL

• Định nghĩa và miêu tả

• Chìa khóa duy nhất về:

– Cập nhật các phiên bản phần mềm tin sinh học

– Liên kết tới những nguồn CSDL khác

– Lưu trữ tài liệu

• Ấn bản, cập nhật và chỉnh sửa tài liệu, trình tự dựa

trên nguồn của CSDL,…

Cơ sở dữ liệu sinh học

(Biological databases)

• Trình tự DNA, RNA và protein hoặc 1 gene

• Hầu hết các trường hợp, 1 trình tự protein được hiểu

là 1 trình tự trong sinh học

• Hiểu rõ các dạng khác nhau của trình tự là mấu chốt

cho bất cứ sự giải thích vấn đề nào

• Phân tích các lỗi có thể xuất hiện trên trình tự nhằm so

sánh các sự khác biệt giữa các trình tự

Trang 4

Nguồn: http://ncbi.nlm.nih.gov

BIOLOGICAL PATHWAYS

HOW DID THEY DO

THAT?

GENBANK

KHÁI NIỆM GenBank?

Là nơi mà cơ sở dữ liệu được chứa đựng tất

cả thông tin về đoạn gen đã được mã hóa

(DNA, RNA) hoặc những trình tự protein gốc

với việc đính kèm và biểu hiện tất cả thông

tin sinh học chứa đựng về đoạn gen mã

hóa đó

http://www.ncbi.nlm.nih.gov/GenBank/Genb

ank overview.html

Trang 5

Cách khai thác & sử dụng Genbank

• Chú trọng vào xử lý nucleotide của gene - nơi chứa

nguồn thông tin trung tâm (Molecular Databases)

• Là chỗ chứa đựng tất cả các trình tự mã hóa phổ

biến theo dạng công cộng (public)

• Dữ liệu được nhóm lại với nhau theo các cơ sở

phân loại khác biệt

• Chỉ có thể sử dụng & quản lý thông qua Internet

• Nhanh, hiệu quả, cứ mỗi 2 tháng là có 1 ấn bản

hoàn chỉnh về 1 gen

Cơ sở dữ liệu Genbank

 Chứa nhiều đoạn gene đã được mã hóa và

công bố theo dạng gói (zip batch)

– Nhiều thông tin lệ thuộc nhau về

– Mọi người đều có thể đưa trình tự vào (thông tin

mở và tính khoa học không cao)

 Tuy nhiên, nó được chỉnh sửa liên tục để

Trang 6

Cơ sở dữ liệu Genbank

• Dựa trên vào các trung tâm dữ liệu tin

sinh học có thể chấp thuận việc nhập dữ

liệu các gen mã hóa dưới dạng web cho

phép sự truy cập của người dùng theo 3

website cơ bản

–GenBank (US)

– EMBL- EBI (Europe)

– DDBJ (Japan)

• Thông tin có thể được trao đổi giữa 3

trung tâm trên

Hệ thống phân loại loài trong GenBank

• SYN-Synthetic (Enzyme tổng hợp)

• BCT –Bacterial (Vi khuẩn)

• UNA-Unannotated (Chưa xác định)

Trang 7

Hệ thống phân loại chức năng trong GenBank

• PAT –Patent

• EST -Expressed sequence tag

• STS -Sequence tagged site

• GSS -Genome survey sequence

• HTG-High throughput genome

Tại sao phải cập nhật các gen mã

hóa trên Genbank?

• Tính chia sẻ trong nghiên cứu khoa học

• Không có nguồn gen mã hóa liên quan đến

bài báo đã ấn bản

• Các bài báo nghiên cứu khoa học trở nên lạc

hậu và không còn đúng với hiện thực

• Bản gen bằng điện tử hữu ích, hiệu quả

hơn và được chấp nhận về tính giá trị

• Cách tốt nhất trong việc trao đổi các thông

tin dữ liệu mới và cập nhật

Trang 8

Cấu trúc Genbank

Tính liên kết trong Genbank

Nguồn: http://ncbi.nlm.nih.gov

Trang 9

Công cụ hỗ trợ việc ấn bản trình tự

• BankIt: Công cụ dựa trên nền tảng web:

– Nhanh & đơn giản, cần độ chính xác cao

– Dễ sử dụng cho việc cập nhật các trình tự

đơn giản

– Kết nối với Internet để ấn bản online

• Sequin: được download để sử dụng

– Khó sử dụng hơn, chỉnh sửa được nhiều lần

– Có các tư liệu hỗ trợ và lý tưởng cho các trình

tự phức tạp, lớn và đa dạng hơn

– Làm việc không cần kết nối Internet (Offline)

Giao diện BankIt

Trang 10

BankIt

BLAST

BLAST = Basic Local Alignment Search Tool (Công cụ

tìm kiếm trình tự cơ bản)

BLAST là một giải thuật sử dụng để so sánh

các chuỗi trình tự sinh học, như các trình tự

của các protein hay của các DNA khác nhau

– Chúng ta dùng BLAST khi câu hỏi đặt ra “liệu có trình

tự nào trong ngân hàng dữ liệu giống hoặc gần giống

với trình tự của bạn đang làm không? ”

Trang 11

Giao diện BLAST trên NCBI

Trình tự tìm kiếm trong BLAST

Chính xác và hiểu rõ

công việc

Trang 12

Thuật toán BLAST

• Thuật toán của BLAST có 2 phần

– Chức năng tìm kiếm

– Đánh giá thống kê

• Trong phần đánh giá thống kê, BLAST dựa

trên cơ sở đánh giá của một cặp trình tự để

tính ra một giá trị gọi là [Bit-score] Giá trị

Score càng cao các trình tự bắt cặp càng cao

• Ngoài ra BLAST tính toán một giá trị trông đợi

E-Value (Expected-Value) phụ thuộc vào

Bit-Score

THÔNG SỐ TÌM KIẾM BLAST

• Dựa vào các mối quan hệ về số liệu của trình tự

– Score (bits): đo lường ý nghĩa thống kê của việc

so sánh trình tự  Scores < 50 = không ý nghĩa

– E-value: expectation value – (giá trị kỳ vọng) số

lần mà giá trị Score có thể được dự báo thay đổi

có thể xảy ra

• Giá trị E-value càng thấp, các so sánh về trình tự mã hóa

càng có ý nghĩa

• Giá trị E-value >0.001 = không ý nghĩa

– L (locus information: điểm thông tin) –liên kết

tới vị trí chính xác của đoạn gen đó trong hệ gen

Trang 13

Hiển thị cơ bản trong tìm kiếm BLAST

• Chế độ view bằng giao diện đồ họa

(Graphical View)

• Chế độ view BLAST theo các cấu trúc

khung đọc mở (Open Reading Frame -

ORF)

• Chế độ view theo Bảng chú thích

(Description View)

GRAPHICAL VIEW

Trang 14

ORF VIEW

DESCRIPTION VIEW

Trang 15

Các dạng BLAST

 Nucleotide-nucleotide BLAST (blastn)

 Protein-protein BLAST (blastp)

 Position-Specific Iterative BLAST (PSI-BLAST)

(blastpgp)

 Nucleotide 6-frame translation-protein (blastx)

 Nucleotide 6-frame translation-nucleotide (tblastx)

 Protein-nucleotide 6-frame translation (tblastn)

 Large numbers of query sequences (megablast)

Các dạng BLAST

Trang 16

Mỗi Entry CSDL chứa

– Mã số nhận biết đặc hiệu (Accession

number)

– Tác giả (Author)

– Trình tự (Sequence)

– Tên gen (Gene name)

– Vị trí chính xác điểm khởi đầu và kết thúc

(Locus Information)

– Trình tự dịch mã sang amino acid

– Loài và phân loại (Organism and Classification)

– Chi tiết về việc công bố xuất bản (Publication)

Trang 17

CƠ SỞ DỮ LIỆU CẤU TRÚC

(Structural Database)

Nucleotide

DNA

NDB (Nucleic Acid Database)

Cấu trúc 3D của DNA

RNA

RDP (Ribosomal Database Project)

Cấu trúc 2D của gen rRNA, tRNA, mRNA

Protein

PDB (Protein Data Bank)

Cấu trúc 3D của protein

CSDL CẤU TRÚC PROTEIN

• Nghiên cứu với các CSDL máy tính có các

ấn bản trình tự protein – dựa trên các lập trình web cho phép đặt câu hỏi và thảo luận:

SwissProt GenPept TrEMBL Brookh

Trang 18

CSDL cấu trúc protein

• Nhiệm vụ chính của hầu hết là

– Tổ chức và xác định các cấu trúc protein, – Cung cấp cho cộng đồng sinh học các hữu ích nhất

 Quản lý nguồn dữ liệu nghiên cứu

PDB -Insulin hexamer

CSDL Protein

 CSDL cấu trúc đại phân tử (Macromolecular

Structure Databases-EBI) -lựa chọn, quản lý và

xây dựng dữ liệu về các cấu trúc đại phân tử

 CSDL về phân loại trình tự cấu trúc (EBI) cấu

trúc bậc 2, tính đồng đẳng và các đoạn gấp

 Cấu trúc 3D (EMBL) CSDL của tất cả các cấu

trúc protein và các trình tự liên quan

PIR

SWISS-PROT

TrEMBL

Trang 19

PIR (Protein Information Resource) là 1 phân nhánh của Tổ chức Nghiên cứu Y sinh Malaysia (The National Biomedical Research

Foundation -NBRF) được liên kết với Trung tâm Y học Đại học Georgetown, Penang, Malaysia (GUMC)

CSDL Protein

 SWISS-PROT-1 nguồn CSDL trình tự protein duy trì

sự hợp tác bởi Viện Tin sinh học Thụy Sĩ (the Swiss

Institute for Bioinformatics-SIB) và Viện Tin Sinh học

Châu Âu (EBI-European Bioinformatics Institute)

 TrEMBL-là 1 phần phụ hỗ trợ xác định bằng

máy tính của SWISS-PROT, chứa tất cả các

dịch mã của các trình tự nucleotide chưa được

hợp nhất trong SWISS-PROT

 Cả 2 CSDL trình tự trên đã được sát

nhập vào CSDL UniProt

Trang 20

Tiềm năng của CSDL Protein

Trang 21

Nghiên cứu các sự tiến hóa protein từ các

cấu trúc chức năng khác nhau (Proteomics)

CSDL cấu trúc nucleotide

• Chia làm 2 mảng nghiên cứu:

– Cấu trúc hệ gene (Genomics) – Cấu trúc DNA & RNA

Trang 22

Cấu trúc DNA

trúc DNA nhằm đánh giá và phân tích các bệnh di truyền, kỹ thuật xác định vân tay trong việc xác định tội phạm

và nghiên cứu di truyền phả hệ

trúc DNA có thể được

ấn bản theo dạng công cộng hoặc cá nhân

 tRNA,mRNA và rRNA (RNA)

Hiểu thêm chức năng

về sự phát triển của các

Trang 23

Các CSDL trình tự nucleotide khác

• EMBL Nucleotide Sequence Database (EBI)

• EMEST: giải mã trình tự EST thuộc EBI

• The Sanger Institute (www.sanger.ac.uk)

• Celera-PE Biosystems (www.celera.com)

• Ensembl (www.ensembl.org)

 Phục vụ cho nhu cầu ngày càng cao về tìm

hiểu bộ gen của sinh vật (genomics)

Trang 24

- Là nơi chứa dữ liệu genome VSV nhiều nhất và chi tiết nhất

Viện nghiên cứu The Whitehead-

Dự án giải mã trình tự của MIT &

Harvard

• Dự án lớn nhất về Genome người ở Mỹ (US Human Genome Project – HGP)

• Dự án bắt đầu năm 1990 kết thúc năm 2003 (14/04/2003) sớm hơn so với dự kiến 2 năm

Trang 25

Human Genome Project (HGP)

• Sau hơn 13 năm thực hiện đã đạt được 1 số

kết quả:

– Nhận biết được tổng cộng 20,000 – 25,000 bộ gen

– Xác định được chuỗi DNA người là 3,300,000,000

bp

– Lưu trữ thông tin trong các CSDL lớn

– Tiến hành cải tiến những công cụ phân tích dữ liệu

– Phát triển những quy định về đạo đức và pháp

độ lớn của hệ gen người và các loài khác

• Cung cấp nguồn CSDL mở cho tất cả mọi

người

Trang 26

Nucleotide Polymophism – các nucleotide đa hình đơn)

 Đặc biệt nghiên cứu về người và chuột

 Nguồn CSDL gen của các loài

ký sinh trùng

Là nơi kết nối các CSDL khác trên TG

Trang 27

Giao diện Ensembl

Các nguồn CSDL genome khác

• UCSC: chứa nhiều genome về người và các động vật khác

( http://genome.cse.ucsc/edu )

• CSDL genome cây lúa (IRRI) (http://www.irri.org )

• Dự án xây dựng bộ gen lúa OMAP

• CSDL GRAMENE (http://www.gramene.org ): chứa các genome,

protein, bản đồ di truyền, marker của lúa và TV khác

• CSDL các hợp chất đại phân tử sinh học (Macromolecular

Structural Databases – MSD) là sản phẩm liên kết giữa 2 CSDL lớn là

EBI (European Bioinformatic Institute - Châu Âu) và PDB (Protein

Trang 28

Các nguồn CSDL sinh học khác

Mạng lưới CSDL liên kết & tương tác hỗ

trợ về sinh học phân tử, hợp chất phân tử

và đường dẫn liên kết các báo cáo khoa học

– CSDL con đường trao đổi chất

• Khái niệm BLAST, phân loại BLAST và các

chức năng của BLAST?

• Các nguồn CSDL nucleotide, protein,

genome

• Các nguồn CSDL sinh học khác

Trang 29

KẾT THÚC CHƯƠNG II

Định dạng
Số trang	30
Dung lượng	3,57 MB