1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bai Giang Applied Bioinformatics.pdf

71 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Bai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdf

Trang 1

TIN SINH HỌC ỨNG DỤNG (Applied Bioinformatics)

TS Nguyễn Bảo Quốc RIBE-NLU

Nong Lam University

baoquoc@hmcuaf.edu.vn

điền

Trang 2

CHƯƠNG I

GIỚI THIỆU VỀ TIN – SINH HỌC

(INTRODUCTION OF BIOINFORMATICS)

Trang 3

TIN SINH HỌC LÀ GÌ ?

-  Các giả thuyết -  Các câu hỏi

-  Các mẫu thí nghiệm -  Các thí nghiệm

-  Lưu trữ/phục hồi -  Trực tuyến

-  Các phương pháp máy @nh -  Các phương pháp thống kê

* DNA * Trình tự * RNA * Biểu hiện * Protein * Cấu trúc * Metabolite * Tương tác * Phenotype

khán phá một cách nhanh chóng những nguyên lý trong sinh học

Trang 4

NHIỆM VỤ CƠ BẢN CỦA TIN SINH HỌC ?

Thứ nhất: Xây dựng, phát triển, tổ chức quản lý và khai thác cơ sơ dữ liệu sinh học một

cách đa dạng và toàn diện trênquy mô toàn cầu

Thứ hai: Xây dựng, phát triển, tổ chức quan lý và khai thác các công cụ tin sinh học

nhằm xử lý thông tin khoa học

CÁC ỨNG DỤNG CỦA TIN SINH HỌC ?

•  Nghiên cứu về chuỗi trình tự •  Nghiên cứu về bộ gen

•  Nghiên cứu về sự Iến hoá của sinh học bằng máy @nh

•  Nghiên cứu @nh đa dạng di truyền

•  Nghiên cứu các đột biến của tế bàp ung thư •  V.v…

Trang 5

SỰ BÙNG NỔ VỀ CƠ SỞ DỮ LIỆU (DATA EXPLOSION)

Trang 6

CHI PHÍ CHO GIẢI TRÌNH TỰ HỆ GEN

Trang 7

VAI TRÒ CỦA CÁC NHÀ KHOA HỌC KHÁC CHUYÊN NGÀNH TRONG LĨNH VỰC TIN SINH HỌC

1.  Phát triển thuật toán

* Các nhà khoa học về sinh học/công nghệ sinh học

Trang 8

CÁC THUẬT NGỮ TIN SINH HỌC

Trang 9

CÁC THUẬT NGỮ TIN SINH HỌC -  Downstream: đầu 3 của trình tự nucleoIde

-  Input: dùng để chỉ trình tự đầu vào, do người sử dụng đưa vào một chương trình

Trang 10

CÁC THUẬT NGỮ TIN SINH HỌC -  Output : dùng để chỉ trình tự đầu ra

-  Max ident (maximum iden1ty): độ tươn đồng cao nhất , được dùng để trình bày kết quả wm

-  Max score (Maximum score): điểm số cao nhất trong kết quả wm trình tự tương đồng

-  ORF (open reading frame): khung đọc mở, đơn vị mã được dịch cho một trình tự polypepIde -  Orthology: để chỉ @nh tương đồng giữa hai hay nhiều trình tự, @nh tương đồng này có được

Trang 11

CÁC THUẬT NGỮ TIN SINH HỌC

-  RFLP (restric1on fragment length polymorphism): @nh đa hình chiều dài của các đoạn DNA

-  Replica1on: sự tái bản DNA

-  Sequence: trình tự chuỗi DNA, RNA hay protein Đơn vị đo của sequence vì thế có thể là

-  SNP (single nucleo1de polymorphism): @nh đa hình của đơn nucleoIde -  Similarity: @nh tương tự giữa các trình tự

-  Splicing: sự loại bỏ các intron và nối các exon trong quá trình trưởng thành RNA thuộc

eukaryote

Trang 12

CÁC THUẬT NGỮ TIN SINH HỌC

Trang 13

CHƯƠNG II

CƠ SỞ DỮ LIỆU SINH HỌC – TRA CỨU, TẢI DỮ LIỆU QUA INTERNET

Trang 14

DANH SÁCH NGUỒN TÀI NGUYÊN

Trang 15

ĐẶC ĐIỂM CHUNG CỦA CÁC CƠ SỞ DỮ LIỆU SINH HỌC

+ Dữ liệu về phân loại học: bao gồm các đặc @nh về chủng loại của nhiều đối tượng sinh vật khác nhau như vi sinh vật , thực vật, động vật

Trang 16

CÁC CƠ SỞ DỮ LIỆU VỀ CẤU TRÚC VÀ TRÌNH TỰ

1.  Genbank: h–p://www.ncbi.nlm.nih.gov/genbank

+ Hiện có khoảng 79,180 cấu trúc cho đến tháng 2/2012

Trang 17

CÁC CƠ SỞ DỮ LIỆU VỀ CẤU TRÚC VÀ TRÌNH TỰ

+ Khoảng 13, 672 họ protein trong cơ sở dữ liệu này cho đến tháng 11/2011

Trang 18

GENOME BROWSERS

1.  UCSC genome browser

Trang 19

GENE EXPRESSION DATA

1.  Gene expression omnibus (GEO)

h–p://www.ebi.ac.uk/aarayexpress/

Trang 20

MỘT SỐ CƠ SỞ DỮ LIỆU LỚN TRÊN THẾ GIỚI

1.  Cơ cở dữ liệu sinh học NCBI – NaIonal Center for Biotechnology InformaIon – h–p://www.ncbi.nlm.nih.gov/

h–p://www.ddbj.nig.ac.jp/

Trang 21

TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET

Trang 22

TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET

CHỌN CÔNG CỤ TÌM KIẾM

-  Google Patent Search : tìm kiếm bằng sáng chế -  Google scholar: công cụ tìm kiếm dành cho học giả -  Google books – công cụ tìm kiếm sách

Trang 23

INTERNET DATABASES TRONG VIỆC TÌM KIẾM THÔNG TIN

1.  Trang web của google

h–p://www.google.com

h–p://www.researchgate.net

Trang 24

CHƯƠNG III

SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG CLUSTALX VÀ BLAST

Trang 25

NGHIÊN CỨU SO SÁNH TRÌNH TỰ

PHÂN LOẠI

1.  So sánh toàn bộ (global alignment): so sánh bao phủ toàn bộ chiều dài của trình tự liên quan

Thuật toán Smith-Waterman sẽ Lm so sánh cục bộ tốt nhất giữa 2 trình tự

Trang 27

GIỚI THIỆU CHƯƠNG TRÌNH CLUSTAL

1.  Clustal W là một chương trình mã nguồn mở được phát triển bởi các nhà khoa học tại EMBL, CNRS và UCD và được công bố trên tạp chí Nucleic Acids Research năm 1994 2.  Hiện nay Clustal W không còn sử dụng được nữa và đã được nâng cấp lên version

ClustalW2 bao gồm Clustal Omega cho protein và MUSCLE hoặc MAFFT cho DNA

Trang 28

nhiều hơn các trình tự Trong trường hợp sắp gióng 2 trình tự thì có thể sử dụng công cụ pairwise sequence alignment tools

Trang 29

giống nhau nhằm chỉ ra các mối quan hệ về chức ăng, cấu trúc và Iến hoá giữa hai trình tự so sánh

Trang 30

Vd: Dán vào cửa sổ trình tự mẫu đối chứng (ô trên) và mẫu đột biến (ô dưới) theo định dạng FASTA

Trang 31

Nhấp vào nút Submit Kết quả gióng chuỗi được trả về để so sánh trình tự đối chứng và đột biến được đưa vào chương trình Needle Nhìn trên trình tự, các thanh dọc chỉ ra sự tương đồng giữa hai trình tự cho đến khi đến điểm chấm đầu Iên chỉ ra sự khác biệt giũa hai trình tự này

Amino acid đầu Iên thày đổi từ leucine thành arginine ở vị trí 490 Các chuổi đột biến thay đổi là “RSLSPSQC”, sau đó trình tự đột biến chấm dứt Thông In như trình bày trong FRM (Fragment Replace ModificaIon)

Trang 32

Gióng cột EMBOSS Stretcher của trình tự amino acid gen dehydrogenase Ký tự của sự khác biệt thể hiện ở màu vàng Accession number là PfLDH và PvLDH xuất hiện bên dưới vùng được đánh dấu Số truy cập là PfLDH: PlasmoDBid:PF3D7_1324900, PVLDH:PlasmoDBid: PVX_116630

Trang 34

Việc sắp xếp Amblyomin-X (mã GB AAT68575.1; vị trí amino acid A22 đến C79 tương ứng với vùng Kunitz) với bikunin của con người (PDB ID 1BIK), sử dụng phương pháp ClustalW2 và EMBOSS Matcher

Trang 35

A) Kết quả tìm kiếm tương tự của LALIGN so sánh coxsackie và receptor adenovirus (CAR) (P78310) với protein streptococcus M nhóm A (P02977); Và (B) kết quả tìm kiếm tương tự của LALIGN so sánh coxsackie và thụ thể adenovirus (CAR) (P78310) với myosin tim của con người (P13533)

Trang 36

MUSCLE là viết tắt của MUltiple Sequence Comparison bởi Log-Expectation MUSCLE

được cho là đạt được độ chính xác trung bình tốt hơn và tốc độ tốt hơn ClustalW2 hoặc Coffee, tùy thuộc vào các lựa chọn đã chọn

Trang 37

MulIple sequence alignment overview window (generated by mulIple alignment using fast Fourier transform online tool) displaying the alignment of cds encoding acIve domains of divergent toll-like receptors and Nod like receptors from various animal species

Trang 38

CÁC THAO TÁC SỬ DỤNG CHƯƠNG TRÌNH VÀ PHÂN TÍCH KẾT QUẢ

Bước 1: Tạo file ở định dạng FASTA Lưu file ở định dạng txt

Trang 39

chọn set of DNA/Protein/RNA tuỳ theo mục đích thí nghiệm

Trang 40

tự định dạng FASTA

Trang 41

noIfied by email để nhận kết quả qua email

Trang 42

xuất alignment file bằng cách click vào download alignment file hoặc xem hình phylogeneIc tree của các trình tự so sánh

Trang 43

PHÂN TÍCH TÍNH TƯƠNG ĐỒNG BLAST

+ Score: giá trị này càng cao chứng tỏ khả năng tương tự của các bắt cặp càng cao + E-value: giá trị này càng nhỏ kết quả càng có ý nghĩa thống kê

Trang 44

THAO TÁC SỬ DỤNG CHƯƠNG TRÌNH BLAST

Bước 1: Mở giao diện BLAST (h–ps://blast.ncbi.nlm.nih.gov/Blast.cgi)

Trang 47

- Human genomic plus transcript: dữ liệu trình tự bộ gen người + trình tự gen người được phiên mã

- Mouse genomic plus transcript: dự liệu trình tự bộ gen chuột + trình tự gen chuột được phiên mã

- Others: cơ sở dữ liệu khác

Trang 48

Bước 5: Gửi yêu cầu xử lý (nhấn BLAST để thông In được gửi đi và đợi nhận kết quả)

Trang 49

Màu đỏ, hồng: vùng mức độ bắt cặp tốt;

Xanh lục và xanh dương: vùng mức độ bắt cặp trung bình; Màu đen: vùng mức độ bắt cặp kém

Trang 50

+ Phần II: hiển thị kết quả tóm tắt dưới dạng liệt kê thông In về từng trình tự BLAST wm được trong cơ sở dữ liệu với các giá trị score và e-value

Trang 51

+ Phần III: hiển thị kết quả so sánh chi Iết từng cặp trình tự (giữa query – trinh tự nhập vào để phân @ch @nh tương đồng và mỗi trình tự được BLASt wm được trong cơ sở dữ liệu) Trong phần này sẽ có chỉ số tương đồng (idenIIes) và các khoảng trống (gap)giữa hai trình tự so sánh được hiển thị

Trang 52

CÁCH LẤY TRÌNH TỰ DỰA TRÊN ACCESSION NUMBER CỦA GEN Bước 1: Mở giao diện NCBI (h–ps://www.ncbi.nlm.nih.gov/ )

+ All database: chọn Gene và nhập accession number và click vào Search

Trang 53

Bước 1: Kết quả (click vào kết quả wm được phần màu xanh)

Trang 54

Bước 2: Click vào FASTA đề lấy trình tự của gen

Trang 55

Bước 3: Lấy trình tự sequence của gen đích bằng định dạng FASTA

Trang 56

CHƯƠNG IV

Trang 57

• Địa hình học (cấu trúc liên kết, Topology): cách thức phân nhánh trong cây phát sinh chủng loại

Trang 58

Polytomy

Trang 59

evoluIonary path

Trang 60

Distance Maximum parsimony

Minimizes total distance

Maximizes tree likelihood given specific parameter values

Easily trapped in local optima

Assumptions fail when evolution is rapid

Highly dependent on assumed evolution model

Good for generating tentative tree, or choosing among multiple trees

Best option when tractable (<30 taxa, homoplasy rare)

Good for very small data sets and for testing trees built using other methods

Trang 61

Inferred tree Many more replicates (between 100 - 1000)

Pseudo sample 2

Trang 62

• Phylip • BioNJ

Trang 63

Giao diện chương trình Mega 6.0

Trang 64

• Bước 1: thu thập trình tự

Trang 65

• Save alignment à save as mega format

Trang 66

• Bước 3: Xây dựng cây phát sinh chủng loại phân tử

Trang 67

Thao tác sử dụng và phân @ch kết quả

Trang 68

Thao tác sử dụng và phân @ch kết quả • Bước 4: Hiển thị cây phát sinh chủng loài phân tử

Trang 69

Các dạng hiển thị của cây phát sinh

Trang 70

EvoluIonary GeneIcs Analysis version 6.0 Mol.Biol Evol doi 10.1093/molbev/mst197

Trang 71

THANK YOU

Ngày đăng: 26/07/2024, 14:27