1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG BLAST VÀ CLUTALX pptx

42 4K 25

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 42
Dung lượng 4,29 MB

Nội dung

Mục tiêu của bài học Nắm được những nguyên tắc so sánh các trình tự sinh học  Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng nếu có tron

Trang 1

n to

SO SÁNH CÁC TRÌNH TỰ SINH

HỌC BẰNG BLAST VÀ CLUTALX

Trang 2

Mục tiêu của bài học

Nắm được những nguyên tắc so sánh các trình tự sinh học

Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có trong các CSDL lớn như NCBI, EMBL, DDPJ…) với trình tự yêu cầu

Cung cấp những số liệu về tỉ lệ tương đồng,

Trang 3

Bắt cặp trình tự

Sắp xếp thẳng hàng trình tự là phương pháp sắp

xếp hai hoặc nhiều trình tự nhằm đạt được sự giống nhau tối đa

 Các trình tự này có thể được xen bằng các

khoảng trống (thường được diễn tả bằng các gạch nối ngang) tại các vị trí có thể để làm sao tạo thành các cột giống nhau (identical) hoặc tương tự nhau (similar)

tcctctgcctctgccatcat -caaccccaaagt

|||| ||| ||||| ||||| ||||||||||||

tcctgtgcatctgcaatcatgggcaaccccaaagt

Gi i thi u môn h c ớ ệ ọ 3

Trang 4

 Phương pháp này thường được dùng để nghiên cứu

sự tiến hóa của các trình tự từ một tổ tiên chung, đặc biệt là các trình tự sinh học như trình tự protein hoặc trình tự DNA

 Các bắt cặp không đúng trong trình tự tương ứng với các đột biến và các khoảng trống tương ứng với phần thêm vào hoặc xóa đi

 Thuật ngữ "sắp xếp thẳng hàng trình tự" cũng chỉ quá trình tạo ra sự sắp xếp này hay tìm ra các cách sắp xếp tốt nhất trong cơ sở dữ liệu gồm các trình tự riêng

Trang 5

Sắp gióng cột đôi một (Pairwise alignment)

 Sắp gióng cột đôi một là phương pháp phục vụ cho việc tìm kiếm một trình tự sắp gióng cột toàn bộ hay (cục bộ) mà trùng khớp nhất của các chuỗi protein (

amino acid) hay DNA (nucleic acid)

 Thông thường, mục đích của nó là tìm ra (mối quan hệ) đồng đẳng của một gene hay một sản phẩm-gen trong một cơ sở dữ liệu các thông tin mẫu đã có sẵn Thông tin này là hữu ích để trả lời một loạt các câu hỏi

sinh học khác nhau

Gi i thi u môn h c ớ ệ ọ 5

Trang 6

chuỗi amino-acid mà ta đã biết không?

 Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?

 Có gen nào khác dùng để mã hóa các protein có cấu trúc hay dáng dấp gần với cái mà ta vừa xác định không?

Trang 7

BLAST là một giải thuật để so sánh các chuỗi sinh

học, như các chuỗi của các protein hay của các chuỗi DNA khác nhau

 Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không”?

Gi i thi u môn h c ớ ệ ọ 7

Trang 8

Nguyên tắc trong blast

Thuật toán của BLAST có 2 phần, một phần tìm kiếm

và một phần đánh giá thống kê dựa trên kết quả tìm được

Trang 9

Thuật toán blast

 Thuật toán của BLAST có 2 phần, một phần tìm kiếm

và một phần đánh giá thống kê dựa trên kết quả tìm được

 Trong phần đánh giá thống kê, BLAST dựa trên cơ sở đánh giá của một cặp trình tự để tính ra một giá trị gọi

là [Bit-Score] Giá trị càng cao chứng tỏ khả năng

tương tự của các bắt cặp càng cao

 Ngoài ra BLAST tính toán một giá trị trông đợi E-Score

(Expect-Score) phụ thuộc vào Bit-Score

Gi i thi u môn h c ớ ệ ọ 9

Trang 10

Giá trị xác xuất trong blast

Trang 11

Các bước tìm kiếm trong blast

Gi i thi u môn h c ớ ệ ọ 11

Minimum Score (S)

Neighborhood Score Threshold (T)

Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao

Những chuỗi con nào có số điểm lớn hơn một

giá trị ngưỡng T (threshold value) thì được

gọi là tìm thấy và được BLAST gọi là Hits

Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những Hit đã tìm được trong bước 1

Trang 12

Mở rộng so sánh các trình tự

 Bước 3: Cuối cùng BLAST mở rộng những cặp Hits

đã tìm được theo cả hai chiều và đồng thời đánh số điểm

 Quá trình mở rộng kết thúc khi điểm của các cặp Hits không thể mở rộng thêm nữa

KENFDKARFSGTWYAMAKKDPEG 50 RBP (query)

MKGLDIQKVAGTWYSLAMAASD 44 lactoglobulin (hit)

Hit!

Mở rộng

Mở rộng

Trang 13

Những chuỗi con nucleotide trong blast

Gi i thi u môn h c ớ ệ ọ 13

Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế ( Substitutionsmatrix ) BLOSUM hoặc PAM

Trang 14

Protein words

Trang 17

So sánh các đặc tính di truyền của các loài

Trang 18

Bò và Cá (DNA)

32 ACAGGACATTTTACTACTCTGCAGATA ATGGCTGACTTTGACATGGTAC 80 | | | | | | || | | || | | |||| |

51 TTCTTCAGACTGCGCC ATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100 .

81 TGAAGTGCTGGGGTCCAATGGAGGCGGACCACGCAACCCACGGGAGTCTG 130 |||| |||||| ||||||| || |||| ||| ||| |

101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150 .

131 GTGCTGACCCGTTTATTCACAGAGCACCCAGAAACCCTAAAGTTATTCCC 180 || || | | | | ||||||| || || || ||||| || |||

151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200 .

181 CAAGTTTGCTGGC ATCGCCCATGGGGACCTGGCCGGGGATGCAGGTG 227 |||||| | | | | | || || | | |

201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250

48% similarity

Trang 19

Bò và Heo

1 CAGCTGTCGGAGACAGACACCCAGTCAGTCCCGCCCTTGTTCTTTTTCTC 50 | ||| ||| || | ||||| |||| ||| ||||||

1 CAGAGCCAGGACACCCAGTACGCCCGCACTTGCTCTGTTTCTC 43 .

51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100 |||| ||||||| |||||||||||||||||||||||||||||| ||||||

44 TTCTGCAGACTGTGCCATGGGGCTCAGCGACGGGGAATGGCAGCTGGTGC 93 .

101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150 |||| | |||||||||||||||||||||||||||||||||||||||||||

94 TGAACGTCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 143 .

151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200 ||||||||||||||||| | ||||| |||||||||||||||||||||||

144 GTCCTCATCAGGCTCTTTAAGGGTCACCCCGAGACCCTGGAGAAATTTGA 193 .

201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250 |||||| |||||||||||| |||||| ||||||||||||||| |||||||

194 CAAGTTTAAGCACCTGAAGTCAGAGGATGAGATGAAGGCCTCTGAGGACC 243

80% giống nhau (88% at aa!)

Trang 20

Các biến thể của blast

Trang 22

So sánh trình tự Nhập vào với trình tự cơ sở dữ liệu

Trang 23

Gi i thi u môn h c ớ ệ ọ 23

Megablast

Large numbers of query sequences (megablast):

Khi so sánh một số lượng lớn các chuỗi đầu vào qua chỉ một BLAST dạng dòng lệnh, "megablast" là nhanh hơn rất nhiều so với chạy BLAST nhiều lần.

Trang 24

Protein-protein BLAST

Chương trình này, khi đưa vào một protein truy vấn,

sẽ trả về các chuỗi protein gần giống nhất từ cơ sở

dữ liệu protein mà người dùng chỉ định

 Blastp

 PSI-blast

 PHI-blast

Trang 25

Kết quả

Gi i thi u môn h c ớ ệ ọ 25

PSI-Blast PHI-Blast

Trang 26

PSI blast Iteration 1

Trang 27

Chứa đựng những vùng protein-PSI blast

Gi i thi u môn h c ớ ệ ọ 27

Một trong những chương trình BLAST mới nhất,

chương trình này dùng để tìm kiếm các mối quan hệ xa (distant relative) của một protein

Trang 28

Kết quả

Trang 29

Kết quả

Gi i thi u môn h c ớ ệ ọ 29

Trang 30

Blastx

Trang 31

Kết quả

Gi i thi u môn h c ớ ệ ọ 31

Blastx dịch mã protein từ trình tự DNA nhập vào

Trang 32

So sánh hai trình tự bằng blast

Trang 33

So sánh H5N1 và streptococus

Gi i thi u môn h c ớ ệ ọ 33

Load trình tự 1

Load trình tự 2 Nhấn thẻ

Trang 34

Kết quả bảng đồ so sánh hai trình tự

Trang 35

Kết quả so sánh H5N1 và Streptococus

Gi i thi u môn h c ớ ệ ọ 35

Trang 36

Phần mềm Clutalx

 Clustalx là một phần mềm (giao diện window) dùng cho việc so sánh sự tương đồng của hai hay nhiều trình tự sinh học

 Clustalx mô tả kết quả bằng hệ thống màu sắc và các

ký hiệu nổi bậc những nét đặc trưng trong những đoạn tương đồng

 ClustaX ngày càng trở nên hữu ích cho các nhà

Trang 37

Nguyên tắc Clustalx

 Thu nhận và lựa chọn tập trình tự (protein hay DNA, RNA)

 Nhập các trình tự sinh học vào Clustalx

 Phân tích kết quả sắp giống cột

Gi i thi u môn h c ớ ệ ọ 37

Trang 39

Sắp giống cột bằng Clustalx

Gi i thi u môn h c ớ ệ ọ 39

Trang 41

Bài tập

1. Thực hiện sắp giống cột các trình tự protein HSP70

ở một số loài vi khuẩn

2. Thu thập và chọn lọc tập trình tự gen quan tâm, ( ví

dụ gen C-prM ở virus Dengue, gây đột huyết ở người

3. Chọn vùng bảo tồn nhất trong tập trình tự được sắp

giống cột

4. Đoạn bảo tồn được chọn làm trình tự đích để nhân

bản bằng phần mềm thiết kế mồi PDA

Gi i thi u môn h c ớ ệ ọ 41

Trang 42

Tin sinh học trả lời mối quan hệ họ hàng

 http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/tut1.html

Ngày đăng: 23/03/2014, 12:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w