Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
4,29 MB
Nội dung
1
n to
SO SÁNHCÁCTRÌNHTỰSINH
HỌC BẰNGBLASTVÀ CLUTALX
Mục tiêu của bài học
Nắm được những nguyên tắc sosánhcáctrìnhtự
sinh học
Sử dụng chương trìnhBLAST giúp chúng ta
nhanh chóng tìm ra những trìnhtựsinhhọc tương
đồng (nếu có trong các CSDL lớn như NCBI,
EMBL, DDPJ…) với trìnhtự yêu cầu.
Cung cấp những số liệu về tỉ lệ tương đồng,
nguồn gốc cáctrìnhtự tương đồng,…
Tìm ki m trình t sinh h cế ự ọ
2
Bắt cặp trình tự
Sắp xếp thẳng hàng trìnhtự là phương pháp sắp
xếp hai hoặc nhiều trìnhtự nhằm đạt được sự giống
nhau tối đa.
Cáctrìnhtự này có thể được xen bằngcác
khoảng trống (thường được diễn tả bằngcác gạch nối
ngang) tại các vị trí có thể để làm sao tạo thành các
cột giống nhau (identical) hoặc tương tự nhau
(similar).
tcctctgcctctgccatcat caaccccaaagt
|||| ||| ||||| ||||| ||||||||||||
tcctgtgcatctgcaatcatgggcaaccccaaagt
Gi i thi u môn h cớ ệ ọ
3
Phương pháp này thường được dùng để nghiên cứu
sự tiến hóa của cáctrìnhtựtừ một tổ tiên chung, đặc
biệt là cáctrìnhtựsinhhọc như trìnhtự protein hoặc
trình tự DNA.
Các bắt cặp không đúng trong trìnhtự tương ứng với
các đột biến vàcác khoảng trống tương ứng với phần
thêm vào hoặc xóa đi.
Thuật ngữ "sắp xếp thẳng hàng trình tự" cũng chỉ quá
trình tạo ra sự sắp xếp này hay tìm ra các cách sắp
xếp tốt nhất trong cơ sở dữ liệu gồm cáctrìnhtự riêng
biệt.
Gi i thi u môn h cớ ệ ọ
4
Sắp gióng cột đôi một (Pairwise alignment)
Sắp gióng cột đôi một là phương pháp phục vụ cho
việc tìm kiếm một trìnhtự sắp gióng cột toàn bộ hay
(cục bộ) mà trùng khớp nhất của các chuỗi protein (
amino acid) hay DNA (nucleic acid).
Thông thường, mục đích của nó là tìm ra (mối quan
hệ) đồng đẳng của một gene hay một sản phẩm-gen
trong một cơ sở dữ liệu các thông tin mẫu đã có sẵn.
Thông tin này là hữu ích để trả lời một loạt các câu hỏi
sinh học khác nhau.
Gi i thi u môn h cớ ệ ọ
5
Ứng dụng
Một vài ví dụ về những câu hỏi mà các nhà nghiên
cứu dùng BLAST để tìm câu trả lời.
Chủng loại vi khuẩn nào có các protein có liên hệ về
giống loài với một loại protein khác mà có
chuỗi amino-acid mà ta đã biết không?.
Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?
Có gen nào khác dùng để mã hóa các protein có cấu
trúc hay dáng dấp gần với cái mà ta vừa xác định
không?.
BLAST còn được dùng kết hợp với các giải thuật khác
có đòi hỏi sự so trùng chuỗi gần đúng.
Gi i thi u môn h cớ ệ ọ
6
Blast
BLAST là một giải thuật để sosánhcác chuỗi sinh
học, như các chuỗi của các protein hay của các chuỗi
DNA khác nhau.
Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trìnhtự
nào trong ngân hàng dữ liệu giống hoặc gần giống với
trình tự của bạn không”?.
Gi i thi u môn h cớ ệ ọ
7
Nguyên tắc trong blast
Thuật toán của BLAST có 2 phần, một phần tìm kiếm
và một phần đánh giá thống kê dựa trên kết quả tìm
được.
Gi i thi u môn h cớ ệ ọ
8
Thu thập và lựa
chọn trìnhtự
(protein hay
DNA, RNA)
Blast
Phân tích kết
quả blast
Thuật toán blast
Thuật toán của BLAST có 2 phần, một phần tìm kiếm
và một phần đánh giá thống kê dựa trên kết quả tìm
được.
Trong phần đánh giá thống kê, BLAST dựa trên cơ sở
đánh giá của một cặp trìnhtự để tính ra một giá trị gọi
là [Bit-Score]. Giá trị càng cao chứng tỏ khả năng
tương tự của các bắt cặp càng cao.
Ngoài ra BLAST tính toán một giá trị trông đợi E-Score
(Expect-Score) phụ thuộc vào Bit-Score.
Gi i thi u môn h cớ ệ ọ
9
Giá trị xác xuất trong blast
Gi i thi u môn h cớ ệ ọ
10
[...]... chương trìnhBLAST mới nhất, chương trình này dùng để tìm kiếm các mối quan hệ xa (distant relative) của một protein Giới thiệu môn học 27 Kết quả Giới thiệu môn học 28 Kết quả Giới thiệu môn học 29 Blastx Giới thiệu môn học 30 Kết quả Blastx dịch mã protein từtrìnhtự DNA nhập vào Giới thiệu môn học 31 Sosánh hai trìnhtựbằngblast Giới thiệu môn học 32 Sosánh H5N1 và streptococus Load trìnhtự 1... 243 Các biến thể của blast Program query blastn DNA blastp protein blastx DNA 1 1 6 Database DNA protein protein 20 Blastn Megablast Discontiguous megablast Giới thiệu môn học 21 So sánhtrình tự Nhập vào với trìnhtự cơ sở dữ liệu Giới thiệu môn học 22 Megablast Large numbers of query sequences (megablast): Khi sosánh một số lượng lớn các chuỗi đầu vào qua chỉ một BLAST dạng dòng lệnh, "megablast"... streptococus Load trìnhtự 1 Load trình tự 2 Nhấn thẻ Giới thiệu môn học 33 Kết quả bảng đồ sosánh hai trìnhtự Giới thiệu môn học 34 Kết quả sosánh H5N1 và Streptococus Giới thiệu môn học 35 Phần mềm Clutalx Clustalx là một phần mềm (giao diện window) dùng cho việc sosánh sự tương đồng của hai hay nhiều trình tựsinhhọc Clustalx mô tả kết quả bằng hệ thống màu sắc vàcác ký hiệu nổi bậc những nét... nhiều so với chạy BLAST nhiều lần Giới thiệu môn học 23 Protein-protein BLAST Chương trình này, khi đưa vào một protein truy vấn, sẽ trả về các chuỗi protein gần giống nhất từ cơ sở dữ liệu protein mà người dùng chỉ định Blastp PSI -blast PHI -blast Giới thiệu môn học 24 Kết quả PHI -Blast PSI -Blast Giới thiệu môn học 25 PSI blast Iteration 1 Giới thiệu môn học 26 Chứa đựng những vùng protein-PSI blast. .. thiệu môn học 11 Mở rộng so sánhcác trình tự Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm được theo cả hai chiều và đồng thời đánh số điểm Quá trình mở rộng kết thúc khi điểm của các cặp Hits không thể mở rộng thêm nữa KENFDKARFSGTWYAMAKKDPEG 50 MKGLDIQKVAGTWYSLAMAASD 44 Mở rộng Hit! RBP (query) lactoglobulin (hit) Mở rộng Giới thiệu môn học 12 Những chuỗi con nucleotide trong blast Những.. .Các bước tìm kiếm trong blast Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những Hit đã tìm được trong bước 1 Minimum Score (S) Neighborhood Score Threshold (T) Những chuỗi con nào có số điểm lớn hơn một giá trị ngưỡng T (threshold value) thì được gọi là tìm thấy và được BLAST gọi... extension penalty (-1) DNA Defaults Cách tính điểm số DNA GGGGGGAGAA |||||*|*|| GGGGGAAAAAGGGGG 2 8(1)+2(-3)= GGGGGGAGAA GGG |||||*|*|| ||| GGGGGAAAAAGGGGG 3 11(1)+2(-3)+1(-1)+1(-1)= So sánhcác đặc tính di truyền của các loài Bò và Cá (DNA) 32 ACAGGACATTTTACTACTCTGCAGATAATGGCTGACTTTGACATGGTAC | | | | | | || | | || | | |||| | 51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 81 TGAAGTGCTGGGGTCCAATGGAGGCGGACCACGCAACCCACGGGAGTCTG... (Substitutionsmatrix) BLOSUM hoặc PAM Giới thiệu môn học 13 Protein words Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM Giới thiệu môn học 14 Cách tính điểm Phương pháp chung: Terminal mismatches (0) Bắt cặp nhau score (1) Mismatch penalty (-3) Gap penalty (-1) Gap extension penalty (-1) DNA Defaults Cách tính điểm số DNA GGGGGGAGAA |||||*|*||... mô tả kết quả bằng hệ thống màu sắc vàcác ký hiệu nổi bậc những nét đặc trưng trong những đoạn tương đồng ClustaX ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trìnhtự DNA hoặc protein Giới thiệu môn học 36 ... GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 181 CAAGTTTGCTGGC ATCGCCCATGGGGACCTGGCCGGGGATGCAGGTG |||||| | | | | | || || | | | 201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 48% similarity 80 100 130 150 180 200 227 250 Bò và Heo 1 CAGCTGTCGGAGACAGACACCCAGTCAGTCCCGCCCTTGTTCTTTTTCTC | ||| ||| || | ||||| |||| ||| |||||| 1 .CAGAGCCAGGACACCCAGTACGCCCGCACTTGCTCTGTTTCTC 51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC . to
SO SÁNH CÁC TRÌNH TỰ SINH
HỌC BẰNG BLAST VÀ CLUTALX
Mục tiêu của bài học
Nắm được những nguyên tắc so sánh các trình tự
sinh học
Sử dụng chương trình. của các trình tự từ một tổ tiên chung, đặc
biệt là các trình tự sinh học như trình tự protein hoặc
trình tự DNA.
Các bắt cặp không đúng trong trình tự