Bai Giang Applied Bioinformatics.pdf

Bai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdf

Trang 1

điền

Trang 2

CHƯƠNG I

GIỚI THIỆU VỀ TIN – SINH HỌC

(INTRODUCTION OF BIOINFORMATICS)

Trang 3

TIN SINH HỌC LÀ GÌ ?

Sinh học

Tin sinh học (Bioinforma1cs)

Trang 4

NHIỆM VỤ CƠ BẢN CỦA TIN SINH HỌC ?

Thứ nhất: Xây dựng, phát triển, tổ chức quản lý và khai thác cơ sơ dữ liệu sinh học một

cách đa dạng và toàn diện trênquy mô toàn cầu

Thứ hai: Xây dựng, phát triển, tổ chức quan lý và khai thác các công cụ tin sinh học

nhằm xử lý thông tin khoa học

CÁC ỨNG DỤNG CỦA TIN SINH HỌC ?

Trang 5

SỰ BÙNG NỔ VỀ CƠ SỞ DỮ LIỆU (DATA EXPLOSION)

Trang 6

CHI PHÍ CHO GIẢI TRÌNH TỰ HỆ GEN

Trang 7

VAI TRÒ CỦA CÁC NHÀ KHOA HỌC KHÁC CHUYÊN NGÀNH TRONG LĨNH VỰC TIN SINH HỌC

2 Phát triển công cụ

* Các nhà khoa học về In sinh học

3 Cung cấp và sử dụng dữ liệu

* Các nhà khoa học về sinh học/công nghệ sinh học

Trang 8

CÁC THUẬT NGỮ TIN SINH HỌC

Trang 9

Trang 10

Trang 11

Trang 12

Trang 13

CHƯƠNG II

CƠ SỞ DỮ LIỆU SINH HỌC – TRA CỨU,

TẢI DỮ LIỆU QUA INTERNET

Trang 14

DANH SÁCH NGUỒN TÀI NGUYÊN

Trang 15

ĐẶC ĐIỂM CHUNG CỦA CÁC CƠ SỞ DỮ LIỆU SINH HỌC

+ Dữ liệu về thông In thông thường: bao gồm các loại thông In như tạp chí khoa học, các công trình khoa học đã công bố, sách, bằng sáng chế

+ Dữ liệu về trình tự: bao gồm các đặc @nh về trình tự, cấu trúc, chức năng, … Của các kiểu trình tự nucleoIde, amino acid

+ Dữ liệu bộ gen: bao gồm các đặc @nh về trình tự, cấu trúc, chức năng của của các cấu phần

+ Dữ liệu về phân loại học: bao gồm các đặc @nh về chủng loại của nhiều đối tượng sinh vật khác nhau như vi sinh vật , thực vật, động vật

Trang 16

CÁC CƠ SỞ DỮ LIỆU VỀ CẤU TRÚC VÀ TRÌNH TỰ

2 UniProt: h–p://www.uniprot.org/

+ Nguồn dự liệu chuyên sâu trình tự các protein và thông In chức năng của chúng

+ Hiện có khoảng 79,180 cấu trúc cho đến tháng 2/2012

Trang 17

CÁC CƠ SỞ DỮ LIỆU VỀ CẤU TRÚC VÀ TRÌNH TỰ

4 Pfam: h–p://pfam.sanger.ac.uk

+ Bộ sưu tập các họ protein, mỗi protein được thể hiện bằng phương pháp alignment nhiều trình tự

+ Khoảng 13, 672 họ protein trong cơ sở dữ liệu này cho đến tháng 11/2011

Trang 18

GENOME BROWSERS

1.  UCSC genome browser

h–p://genome.ucsc.edu/cgi-bin/hgGateway

Trang 19

GENE EXPRESSION DATA

1.  Gene expression omnibus (GEO)

h–p://www.ncbi.nlm.nih.gov/geo/

2 Array Express

h–p://www.ebi.ac.uk/aarayexpress/

Trang 20

MỘT SỐ CƠ SỞ DỮ LIỆU LỚN TRÊN THẾ GIỚI

Trang 21

TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET

Trang 22

TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET

CHỌN CÔNG CỤ TÌM KIẾM

-  Google Patent Search : tìm kiếm bằng sáng chế

-  Google scholar: công cụ tìm kiếm dành cho học giả

-  Google books – công cụ tìm kiếm sách

Trang 23

INTERNET DATABASES TRONG VIỆC TÌM KIẾM THÔNG TIN

Trang 24

CHƯƠNG III

SO SÁNH CÁC TRÌNH TỰ SINH HỌC

BẰNG CLUSTALX VÀ BLAST

Trang 25

NGHIÊN CỨU SO SÁNH TRÌNH TỰ

So sánh trình tự (sắp gióng cột các trình tự): là quá trình nghiên cứu, đo lường sự giống

nhau giữa hai hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần (ký tự) củ trình tự DNA, RNA, hoặc protein để wm ra những điểm tương đồng, giống nhau giữa chúng, trên nguyên tắc là điều chỉnh sự sắp xếp sao cho giữa hai hay nhiều trình tự có được sự giống nhau tối đa

PHÂN LOẠI

1.  So sánh toàn bộ (global alignment): so sánh bao phủ toàn bộ chiều dài của trình tự liên quan

Thuật toán Needleman-Wunsch sẽ Lm so sánh tốt nhất toàn bộ 2 trình tự

2 So sánh cục bộ (local alignment): so sánh một số phần của trình tự

Thuật toán Smith-Waterman sẽ Lm so sánh cục bộ tốt nhất giữa 2 trình tự

Trang 27

GIỚI THIỆU CHƯƠNG TRÌNH CLUSTAL

1.  Clustal W là một chương trình mã nguồn mở được phát triển bởi các nhà khoa học tại EMBL, CNRS và UCD và được công bố trên tạp chí Nucleic Acids Research năm 1994

2.  Hiện nay Clustal W không còn sử dụng được nữa và đã được nâng cấp lên version ClustalW2 bao gồm Clustal Omega cho protein và MUSCLE hoặc MAFFT cho DNA

Trang 28

nhiều hơn các trình tự Trong trường hợp sắp gióng 2 trình tự thì có thể sử dụng công cụ pairwise sequence alignment tools

Trang 29

giống nhau nhằm chỉ ra các mối quan hệ về chức ăng, cấu trúc và Iến hoá giữa hai trình tự so sánh

Trang 30

Vd: Dán vào cửa sổ trình tự mẫu đối chứng (ô trên) và mẫu đột biến (ô dưới) theo định dạng FASTA

Trang 31

Nhấp vào nút Submit Kết quả gióng chuỗi được trả về để so sánh trình tự đối chứng và đột biến được đưa vào chương trình Needle Nhìn trên trình tự, các thanh dọc chỉ ra sự tương đồng giữa hai trình tự cho đến khi đến điểm chấm đầu Iên chỉ ra sự khác biệt giũa hai trình

tự này

Amino acid đầu Iên thày đổi từ leucine thành arginine ở vị trí 490 Các chuổi đột biến thay đổi là “RSLSPSQC”, sau đó trình tự đột biến chấm dứt Thông In như trình bày trong FRM (Fragment Replace ModiﬁcaIon)

Trang 32

Gióng cột EMBOSS Stretcher của trình tự amino acid gen dehydrogenase Ký tự của sự khác biệt thể hiện ở màu vàng Accession number là PfLDH và PvLDH xuất hiện bên dưới vùng được đánh dấu Số truy cập là PfLDH: PlasmoDBid:PF3D7_1324900, PVLDH:PlasmoDBid: PVX_116630

Trang 34

Việc sắp xếp Amblyomin-X (mã GB AAT68575.1; vị trí amino acid A22 đến C79 tương ứng với vùng Kunitz) với bikunin của con người (PDB ID 1BIK), sử dụng phương pháp ClustalW2 và EMBOSS Matcher

Trang 35

A) Kết quả tìm kiếm tương tự của LALIGN so sánh coxsackie và receptor adenovirus (CAR) (P78310) với protein streptococcus M nhóm A (P02977); Và (B) kết quả tìm kiếm tương tự của LALIGN so sánh coxsackie và thụ thể adenovirus (CAR) (P78310) với myosin tim của con người (P13533)

Trang 36

MUSCLE là viết tắt của MUltiple Sequence Comparison bởi Log-Expectation MUSCLE

được cho là đạt được độ chính xác trung bình tốt hơn và tốc độ tốt hơn ClustalW2 hoặc Coffee, tùy thuộc vào các lựa chọn đã chọn

Trang 37

trình tự tốc độ cao

MulIple sequence alignment overview window (generated by mulIple alignment using fast Fourier transform online tool) displaying the alignment of cds encoding acIve domains of divergent toll-like receptors and Nod like receptors from various animal species

Trang 38

CÁC THAO TÁC SỬ DỤNG CHƯƠNG TRÌNH VÀ PHÂN TÍCH KẾT QUẢ

Bước 1: Tạo ﬁle ở định dạng FASTA Lưu ﬁle ở định dạng txt

Trang 39

chọn set of DNA/Protein/RNA tuỳ theo mục đích thí nghiệm

Trang 40

tự định dạng FASTA

Trang 41

noIﬁed by email để nhận kết quả qua email

Trang 42

xuất alignment ﬁle bằng cách click vào download alignment ﬁle hoặc xem hình

phylogeneIc tree của các trình tự so sánh

Trang 43

PHÂN TÍCH TÍNH TƯƠNG ĐỒNG BLAST

Định nghĩa: BLAST (Basic Local Alignment Sequence Tool) là chương trình nhằm so sánh trình

tự sinh học với cấu trúc bậc một (nucleoIde hoặc amino acid) đầu vào (input) với các trình tự trong cơ sở dữ liệu nhằm wm ra các trình tự có độ tương đồng cao nhất với trình tự đầu vào

Trang 44

THAO TÁC SỬ DỤNG CHƯƠNG TRÌNH BLAST

Bước 1: Mở giao diện BLAST (h–ps://blast.ncbi.nlm.nih.gov/Blast.cgi)

Trang 46

+ Định dạng FASTA: là kiểu định dạng trong đó trình tự được viết phía sau dấu “>” hoặc

“>gi[….] (chỉ kích thước trình tự lớn hơn)

+ “IdenIﬁers” là kiểu định dạng trong đó trình tự đước viết như sau: ACCESSION….gi|…

Có thể dán trực Iếp trình tự (Các định dạng quy định) vào trong ô hoặc chọn choose ﬁle để up

dự liệu cần phân @ch

Trang 47

+ query subrange: cung cấp thông In về vị trí đoạn trình tự cần phân @ch bằng cách nhập hai giá trị giới hạn đầu và cuối Nếu phân @ch toàn bộ trình tự dữ liệu nhập sẽ là from 1 to length hoặc để trống

+ Cơ sở dữ liệu (choose search set)

- Human genomic plus transcript: dữ liệu trình tự bộ gen người + trình tự gen người được phiên mã

- Mouse genomic plus transcript: dự liệu trình tự bộ gen chuột + trình tự gen chuột được phiên mã

- Others: cơ sở dữ liệu khác

Trang 48

Bước 5: Gửi yêu cầu xử lý (nhấn BLAST để thông In được gửi đi và đợi nhận kết quả)

Trang 50

+ Phần II: hiển thị kết quả tóm tắt dưới dạng liệt kê thông In về từng trình tự BLAST

wm được trong cơ sở dữ liệu với các giá trị score và e-value

Trang 51

+ Phần III: hiển thị kết quả so sánh chi Iết từng cặp trình tự (giữa query – trinh tự nhập vào để phân @ch @nh tương đồng và mỗi trình tự được BLASt wm được trong cơ sở

dữ liệu) Trong phần này sẽ có chỉ số tương đồng (idenIIes) và các khoảng trống (gap)giữa hai trình tự so sánh được hiển thị

Trang 52

CÁCH LẤY TRÌNH TỰ DỰA TRÊN ACCESSION NUMBER CỦA GEN Bước 1: Mở giao diện NCBI (h–ps://www.ncbi.nlm.nih.gov/ )

+ All database: chọn Gene và nhập accession number và click vào Search

Trang 53

Bước 1: Kết quả (click vào kết quả wm được phần màu xanh)

Trang 54

Bước 2: Click vào FASTA đề lấy trình tự của gen

Trang 55

Bước 3: Lấy trình tự sequence của gen đích bằng định dạng FASTA

Trang 56

CHƯƠNG IV

Trang 57

•   Mấu (node) : điểm gặp giữa các nhánh, các node đại diện cho tổ Iên chung của taxa

•   Gốc (root node): điểm xuất phát đầu Iên, chung cho tất cả các nhánh, đại diện cho tổ Iên chung của taxa

•   Địa hình học (cấu trúc liên kết, Topology): cách thức phân nhánh trong cây phát sinh chủng loại

Trang 58

Polytomy

Trang 60

Maximizes tree likelihood given specific parameter values

Easily trapped in local

optima

Assumptions fail when evolution is rapid

Highly dependent on assumed evolution model

Good for generating

Good for very small data sets and for testing trees built using other methods

Trang 61

Inferred tree Many more replicates (between 100 - 1000)

! rat ! GGAAGGGGCTTTTTA!

human ! CCTTTTAAATTTTCC!

turtle ! CCCCCTAAATTTTGG ! ! fruitfly ! CCCCCTTTTTTTTGG!

Trang 62

bb/

http://phylobench.vital-it.ch/raxml-http://power.nhri.org.tw/power/

home.htm

Trang 63

•  MEGA (Molecular EvoluIonary GeneIcs Analysis )

Giao diện chương trình Mega 6.0

Trang 64

•  Bước 1: thu thập trình tự

Trang 66

Thao tác sử dụng và phân @ch kết quả

•  Bước 3: Xây dựng cây phát sinh chủng loại phân tử

Trang 67

Trang 68

•  Bước 4: Hiển thị cây phát sinh chủng loài phân tử

Trang 69

Các dạng hiển thị của cây phát sinh

Trang 71

THANK YOU

Tiêu đề	Giới Thiệu Về Tin – Sinh Học
Tác giả	Nguyễn Bảo Quốc
Trường học	Nong Lam University
Chuyên ngành	Tin Sinh Học Ứng Dụng
Thể loại	Bài Giảng
Năm xuất bản	2020

Định dạng
Số trang	71
Dung lượng	5,57 MB