Tìm hiểu bài toán so sánh cặp trình tự

35 1.7K 1
Tìm hiểu bài toán so sánh cặp trình tự

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Báo cáo tin sinh học  Sinh viên thực hiện: Nguyễn Thị Thu Quỳnh  Lớp : tin học C-k52  Khoa: Công nghệ thông tin Chuyên đề 7: Tìm hiểu bài toán so sánh cặp trình tự 1. Nội dung và ý nghĩa sinh học bài toán so sánh cặp trình tự 2. Thuật toán ma trận điểm (dot matrix) 4. Thuật toán quy hoạch động Needman-Wunch 1. Nội dung và ý nghĩa của bài toán so sánh cặp chuỗi  a. Định nghĩa  b. Ý nghĩa a. Định nghĩa Định nghĩa: so sánh trình tự(phép gióng hang gióng cột) là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự,là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần(ký tự) của trình tự để tìm ra những điểm tương đồng, giống nhau giữa các trình tự. Các trình tự được đề cập đến trong phần nghiên cứu này là các chuỗi trình tự DNA, RNA hoặc các trình tự amino axit. Một vài ý nghĩa của việc so sánh các trình tự  Đánh giá mức độ sai khác giữa các trình tự do nhiều nguyên nhân. Có thể ứng dụng để phát hiện các đột biến điểm hoặc mất đoạn nucleotide.  Xác định được các intron, exon (khi so sánh 1 trình tự RNA và các trình tự DNA)  Nghiên cứu và xây dựng cây phát sinh chủng loại(phylogenetic).  Xác định được các vùng bảo thủ trong các trình tự chằng hạn như vùng promoter(kĩ thuật footprinting).  Là một phần không thể thiếu khi đăng kí trình tự vào ngân hàng gen EMBL 2. Thuật toán ma trận điểm (dot matrix) a. Phương pháp ma trận điểm b. Thuật toán ma trận điểm c. Ví dụ a. Phương pháp ma trận điểm  Phương pháp ma trận này cho phép phát hiện sự có mặt của các dạng mất đoạn hoặc thêm đoạn giữa trình tự vì chúng làm thay đổi hướng theo chiều ngan hoặc dọc  Phương pháp này có thể hiện một số đặc điểm, chẳng hạn như là sự tương đồng giữa các nhiễm sắc thể, các vùng lặp trong protein. b. Thuật toán ma trận điểm  B1: Khởi tạo 1 sơ đồ từ 2 chuỗi ban đầu (Một trình tự viết theo chiều ngang trang giấy và trình tự còn lại viết từ trên xuống dưới bên tay trái)  B2: Các axit amin hay nucleotide của mỗi trình tự đối chiếu với nhau.Khi nào chúng giống nhau thì được đánh bởi 1 dấu chấm.  B3: Kết quả sẽ tạo ra một bảng các điểm chấm. Nếu các điểm chấm là liên tục sẽ tạo thành 1 chuỗi các điểm châm. Ví dụ1  So sánh 2 cặp trình tự giống nhau Seq1: ATTCCGGTACGT Seq2: ATTCCGGTACGT [...]... Gap ở A gióng với B[i] c Ví dụ minh họa  Cho 2 trình tự A và B: Trình tự A: GAATTCAGTTA (n=11) Trình tự B: GGATCGA (m=7) Hãy so sánh 2 trình tự trên? Input: 2 trình tự A,B Output: các alignment   Trong đó n là độ dài của trình tự A, m là độ dài của trình tự B Cách tính điểm: Si,j = 1 nếu 2 ký tự trùng khớp Si,j = 0 nếu 2 ký tự không trùng khớp(2 kí tự cách nhau ) d = 0 nếu gặp khoảng cách (gap)... amin, đồng thời cho phép rất nhiều dạng tổ hợp khác nhau của các cặp ghép, cặp k0 ghép, hoặc các axit amin thêm trong 1 trình tự Trong thuật ngữ của khoa học máy tính, quá trình này được gọi là chương trình động học b Thuật toán quy hoạch động Needman-Wunch  Phát biểu bài Toán: Giả sử có hai trình tự A và B Để việc sắp gióng cột cặp trình tự AB có điểm cao nhất (tức cho kết quả tương đồng cao nhất),... So sánh 2 cặp trình tự khác nhau Sqe1: ATTCCGGTACGT Sqe2: ATTCCAAAGGTACGT 4 Thuật toán quy hoạch động Needman-Wunch    a Giới thiệu chung về thuật toán b Giải thuật tổng quát c Ví dụ minh họa a Giới thiệu tổng quát   Năm 1970 needleman và wunsch đã tạo ra quá trình alignment bằng cách so sánh 2 axit amin đồng thời Họ bắt đầu ở cuối của mỗi trình tự và sau đó di chuyển dần lên trên mỗi lần 1 cặp. .. giữa hai kí tự i và j d là một điểm phạt tuyến tính cho các gap (gap penalty) Trong ma trận, trục hoành là các kí tự của trình tự A (có chiều dài x), các kí tự của trình tự B (có chiều dài y) được biểu diễn trên trục tung  GAP??? Trong quá trình sắp gióng cột, các khoảng trống gap(được kí hiệu bằng dấu _) được chèn vào giữa các vị trí nucleotide hay amino axit để các trình tự có sự tương tự nhau nhiều... trình tự có sự tương tự nhau nhiều nhất trong mỗi cột Nếu 2 trình tự được sắp gióng cột có chung 1 tổ tiên, các gap biểu thị cho các đột biến thêm vào hay mất đi của nucleotide trong quá trình tiến hóa  Trong sắp gióng cột các trình tự protein, mức độ tương đồng giữa các amino axit biểu thị cho sự bảo tồn của một vùng đặc biệt trong sắp trình tự Sắp gióng cột protein cũng cho thấy có sự thay thế các... protein cũng cho thấy có sự thay thế các amino axit Sự thay thế bởi các amino axit có đặc tính sinh hóa tương tự nhau ( sự thay thế có tính bảo tồn) tại một vùng đặc biệt của trình tự giải thích cho vai trò quan trọng về cấu trúc hoặc chức năng của vùng đó     Các bước thực hiện thuật toán: Bước 1: Khởi tạo ma trận từ 2 chuỗi sequence Bước 2: lấp đầy ma trận Bước 3: Traceback Bước 1: Khởi tạo... sau đây là một giải pháp thay thế khác ( quay lui theo một con đường khác ):   kết quả được một alignment :  G_AATTCAGTTA | | || | | GG_A_TC_G A Tài liệu tham khảo     1 .Bài giảng tin sinh học-thầy Phan Trọng Nhật 2 Bài giảng tin sinh học- thầy Ngô Công Thắng 3 http://www.nhasinhhoctre.com 4.http://tailieu.vn ... Giá trị tại vị trí F(i,j) sẽ được tính dựa vào điểm tại F(i-1,j-1), F(I,j-1) theo công thức sau:  Fi,j = MAX[ Fi-1, j-1 + Si,j ,Fi,j-1 + d , Fi-1,j + d ] Bước 3:Traceback 1 Dựa vào kỹ thuật lưu vết để tìm đường đi ngược lại a Khởi tạo: Xuất phát từ ô (m,n) b.Các bước lặp: Từ ô (i,j) ta xét các ô (i-1,j-1), (i1,j), (i,j-1) - Nếu F(i,j) = F(i,j-1) +d thì ta có đường đi từ ô (i,j-1) đến ô (i,j) - Nếu F(i,j)... đầy ma trận Vd: Ta tính F1,1 như sau: Ta có :S 1,1 = 1,d = 0, F 0,0 =0, F 1, 0=0 , F 0,1=0 Vì vậy, F 1,1= Max [F 0,0 + 1, F 1, 0 + 0, F0,1 + 0] = Max [1, 0, 0] = 1.(Hình 2) Các Fi,j còn lại tính tương tự Cuối cùng ta được ma trận như sau: G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3... F(i-1,j-1) + S (i,j) với điều kiện A[j] giống B[i] thì ta có đường đi từ ô (i,j) đến ô (i1,j-1) - Nếu F(i,j) = F(i-1,j-1) thì cũng có đường đi từ ô (i,j) đến (i-1,j-1)  Mỗi bước có thể chọn nhiều đường đi  2 Tìm ra các alignment( The edit transcript) + Nếu đường đi theo hướng đường chéo từ ô (i-1,j-1) đến ô (i,j) - Nếu A[j] giống B[i] thì A[j] và B[i] được nối với nhau - Nếu A[j] khác B[i] thì A[j] được gióng . tin Chuyên đề 7: Tìm hiểu bài toán so sánh cặp trình tự 1. Nội dung và ý nghĩa sinh học bài toán so sánh cặp trình tự 2. Thuật toán ma trận điểm (dot matrix) 4. Thuật toán quy hoạch động. trình tự, là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần(ký tự) của trình tự để tìm ra những điểm tương đồng, giống nhau giữa các trình tự. Các trình. của bài toán so sánh cặp chuỗi  a. Định nghĩa  b. Ý nghĩa a. Định nghĩa Định nghĩa: so sánh trình tự( phép gióng hang gióng cột) là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình

Ngày đăng: 14/04/2015, 09:01

Từ khóa liên quan

Mục lục

  • Báo cáo tin sinh học

  • Chuyên đề 7: Tìm hiểu bài toán so sánh cặp trình tự

  • 1. Nội dung và ý nghĩa của bài toán so sánh cặp chuỗi

  • a. Định nghĩa

  • Một vài ý nghĩa của việc so sánh các trình tự

  • 2. Thuật toán ma trận điểm (dot matrix)

  • a. Phương pháp ma trận điểm

  • b. Thuật toán ma trận điểm

  • Ví dụ1

  • Slide 10

  • Ví dụ 2

  • Slide 12

  • 4. Thuật toán quy hoạch động Needman-Wunch

  • a. Giới thiệu tổng quát

  • b. Thuật toán quy hoạch động Needman-Wunch

  • Slide 16

  • Slide 17

  • Slide 18

  • Slide 19

  • Slide 20

Tài liệu cùng người dùng

Tài liệu liên quan