1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài giảng Tin sinh học đại cương - Chương 3: Bắt cặp trình tự (Sequence Alignment)

37 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trong lĩnh vực Công Nghệ Thông Tin nói riêng, yêu cầu quan trọng nhất của người học đó chính là thực hành. Có thực hành thì người học mới có thể tự mình lĩnh hội và hiểu biết sâu sắc với lý thuyết. Với ngành mạng máy tính, nhu cầu thực hành được đặt lên hàng đầu. Tuy nhiên, trong điều kiện còn thiếu thốn về trang bị như hiện nay, người học đặc biệt là sinh viên ít có điều kiện thực hành. Đặc biệt là với các thiết bị đắt tiền như Router, Switch chuyên dụng

TIN SINH HỌC ĐẠI CƯƠNG (Introduction to Bioinformatics) Chương 3: PGS.TS Trần Văn Lăng Email: langtv@vast.vn PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM BẮT CẶP TRÌNH TỰ (SEQUENCE ALIGNMENT) PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM NỘI DUNG •  Giới thiệu •  Bắt cặp hai trình tự •  Bắt cặp nhiều trình tự PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM MỘT SỐ KHÁI NIỆM CHUNG PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Nhắc lại •  Sinh vật tạo thành từ tế bào •  Bên tế bào - ngoại trừ hồng huyết cầu trưởng thành - có nhân (nucleus) chứa tất thị di truyền (genetic instruction) •  Những thị chức tế bào •  Các tế bào, với ngăn khác gọi bào quan, phải đối mặt với vấn đề là: –  Tế bào sản xuất phân tử kích thích tố, dẫn truyền thần kinh, cytokine enzyme –  Chúng phải gửi đến nơi khác bên tế bào, xuất khỏi tế bào –  Việc sản xuất vận chuyển phải thực nơi lúc PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Chẳng hạn, tế bào người có 46 nhiễm sắc thể, tổ chức thành 23 cặp •  Mỗi nhiễm sắc thể cấu thành trình tự DNA •  DNA chứa gen mã hóa RNA mà sinh protein, để từ điều chỉnh tất q trình phát triển sinh vật •  Một gene đoạn DNA với trình tự base đặc trưng – cụ thể, gọi mã di truyền (genetic code), hay thị di truyền để xác định chức tế bào PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Khái niệm bắt cặp •  Bắt cặp trình tự, xếp thẳng hàng trình tự (Sequence Alignment) •  Mục đích đạt đến giống đến mức tối đa trình tự •  Việc bắt cặp thực cách thêm “gap” vào vị trí cho cột giống tương tự •  Việc thêm gap biểu thị đột biến nucliotide xãy vị trì trình tự •  Trong tin học, việc thêm ký tự gap khoảng trống (“-”) giúp cho việc tạo chuỗi ký tự gần giống PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Tiến hóa đột biến •  Trong tiến hóa, gốc giống phần trình tự sinh học tổ tiên •  Cịn gốc bắt cặp khơng giống đột biến hai trình tự –  Tuy nhiên, khơng thể xác định trình tự bị đột biến so với trình tự PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM •  Dưới góc độ sinh học, đột biến xãy trình tự DNA gene •  Vì xãy tại: –  gene mã hóa protein –  gene mã hóa phân tử RNA chức –  trình tự điều hịa tham gia bật tắc gene khác –  vùng trình tự nối gene PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Từ đó, đột biến ảnh hưởng hay khơng ảnh hưởng đến kiểu hình sinh vật •  Khi phân loại, có loại đột biến –  đột biến điểm: xãy nucleotide, quan trọng vùng mã hóa protein, hay vùng tín hiệu –  đột biến đoạn: hay thêm đoạn trình tự Kết việc đột biến đoạn nhân đôi gene hay nhân đôi vùng nhiễm sắc thể PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Qua thời gian, đột biến có lợi khơng có hại giữ lại quần thể, kích thích hình thành phát triển lồi •  Đó tiến hóa (evaluation), đột biến nguyên liệu quan trọng PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Ví dụ •  Tương tự, với trình tự dài •  Ví dụ bắt cặp trình tự – GAATTCAGTTA – GGATCGA •  Kết – GAATTCAGTTA – | || | | | – GGAT-C-G—-A •  Hoặc trình tự – ACGCTG – CATGT – tcctctgcctctgccatcat -caaccc – |||| ||| ||||| ||||| |||||| – tcctgtgcatctgcaatcatgggcaaccc •  Kết – ACGCTG–  | | | – -C-ATGT PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Ký tự “gap” •  Ký tự “gap” chỗ trống, khe hở, chỗ gián đoạn, chỗ thiếu sót •  Trong sinh học gap có ý nghĩa: đột biến, q trình tiến hóa Nếu lấy v làm cứ, u có: •  match •  mismatch •  insertion •  deletion Cho trình tự: u = ATCTGATG v = TGCATAC match deletion A T - C - T G A T G - T G C A T - A - C insertion PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM mismatch PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Về bắt cặp trình tự protein •  Mục đích –  Bắt cặp trình tự nhằm nghiên cứu tiến hóa –  Hoặc để tìm kiếm, so sánh mức độ tương đồng trình tự PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Sự bắt cặp trình tự khơng dừng lại trình tự DNA mà trình tự protein •  Trong đó, việc có ký tự thay 20 ký tự •  Tuy nhiên, protein có đặc điểm bảo tồn cấu trúc chức cao (bởi chức gây bất lợi) PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Đánh giá bắt cặp •  Vì vậy, qua trình tiến hóa có khuynh hướng thay amino acid có cấu trúc tương tự, làm thay đổi đến cấu trúc chức protein •  Những trình tự protein họ tiến hóa chung thường có thay amino acid có đặc tính hóa lý •  Thế bắt cặp tốt, tiêu chuẩn •  Có thể cho điểm tốt giá trị Match, điểm xấu với trường hợp ngược lại •  Tuy nhiên, với trình tự protein việc thay amino acid khác bảo toàn cấu trúc chức điểm xấu PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Đánh giá •  Sự tương tự PAM BLOSUM: •  Chính vậy, với việc bắt cặp trình tự protein có ma trận điểm thay để xem xét khả thay amino acid mà khơng ảnh hưởng •  Có loại ma trận điểm thay thế: –  Ma trận PAM (Percentage Accepted Mutation) –  Ma trận BLOSUM (BLOck SUbstitution Matrix) PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM –  PAM100 ~ BLOSUM90 –  PAM160 ~ BLOSUM62 –  PAM250 ~ BLOSUM45 •  PAM tạo từ khoảng cách tiến hóa trình tự liên quan –  Chẳng hạn, PAM100 có khoảng cách tiến hóa 100 lần đột biến 100 gốc amino acid PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Hàm đánh giá trình tự DNA •  BLOSUM tính tốn thơng qua tần suất thay cặp amino acid việc bắt cặp trình tự có độ tương đồng cao –  Chẳng hạn, BLOSUM45 gồm nhóm trình tự giống 45% PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Đánh giá bắt cặp trình tự DNA: dùng hàm đánh giá •  Chẳng hạn, –  Match (Giống vi trí): giá trị +2 –  Mismatch (Không giống nhau): giá trị -1 –  Gap (Thêm vào bị loại bỏ): giá trị -2 •  Hàm đánh giá có giá trị cao giống nhiều PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM •  Trong đó, •  Định nghĩa: Mức độ tương đồng (điểm đánh giá) trình tự bắt cặp S1’ S2’ đại lượng: na x match + ni x mismatch + ng x gap PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM –  na, ni, ng: tương ứng số phần tử giống (match), không giống (mitmatch) số gap –  match, mismatch, gap: tương ứng giá trị tính tốn để đánh giá –  Thơng thường, điểm dương cho match, điểm âm cho đột biến (mismatch gap) PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Ví dụ •  Với –  match = –  mismatch = -1 –  gap = -2 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM AC GCTG | | | -CATG-T- •  Điểm đánh giá: x (+2) + x (-2) + x (-1) = -4 GAATTCAGTTA | || | | | GGAT-C-G—-A •  Điểm đánh giá: x (+2) + x (-2) + x (-1) = PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM ACGCTG| || -C-ATGT •  Điểm: x (+2) + x (-2) + x (-1) = -1 tcctctgcctctgccatcat -caaccc |||| ||| ||||| ||||| |||||| tcctgtgcatctgcaatcatgggcaaccc •  Điểm: 23 x (+2) + x (-2) + x (-1) = 37 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Phân loại •  Có loại: –  Bắt cặp tồn cục (Global alignment): áp dụng tồn trình tự để tìm tương đồng trình tự –  Thường sử dụng trình tự có độ tương đồng cao, chiều dài xấp xỉ –  Bắt cặp cục (Local alignment): thực vùng trình tự tương đồng nằm vị trí khác hai trình tự –  Mục đích tìm vùng trình tự tương đồng –  Sử dụng so sánh trình tự có chiều dài khác nhau, mức độ tương đồng toàn thấp Thuật toán: Smith - Waterman Thuật toán sử dụng: Needleman - Wunsch PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Bắt cặp hai trình tự •  Bài tốn (Pairwise Sequence Alignment - PSA): cho trình tự sinh học S1, S2 Hãy tìm trình tự S1’, S2’ cách thêm ký tự ‘-’ cho: –  Điểm đánh giá Score(S1’, S2’) lớn với giá trị match, mismatch gap cho trước –  Chiều dài S1’, S2’ bằnh (|S1’| = |S2’|) –  Nếu loại bỏ ký tự gap từ S1’, S2’ nhận S1, S2 ban đầu PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Ví dụ PSA – S1 = “ACGCTG” – S2 = “CATGT” – S1’ = “-ACGCTG” – S2’ = “CATG-T-” PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Bắt cặp đa trình tự •  Bài tốn (Multiple Sequence Alignment - MSA): Cho k trình tự sinh học S1, S2, …, Sk Hãy tìm k trình tự S1’, S2’,…, Sk’ cách thêm ký tự ‘-’ cho: –  Mức độ tương đồng trình tự cao –  |S1’| = |S2’|= … = |Sk’| –  Nếu loại bỏ ký tự gap từ S1’, S2’, …,Sk’ nhận S1, S2, …, S2 tương ứng PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Ví dụ MSA •  Thơng thường, bắt cặp đa trình tự sử dụng cần tìm kiếm trình tự đại diện tập hợp nhiều trình tự sinh học PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Ví dụ •  Với đoạn trình tự “ACTCGATT” •  Trong q trình tiến hóa, đoạn gen có thể: –  đột biến –  –  di truyền lại (giữ lại) PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM –  Mất T,C vị trí 3, 4: “ACGATT” –  Đột biết vị trí (thay C G), vị trí (thay G C), vị trí (thay T C): “AGCATC” –  Thêm TA vào vị trí 4: “AGCTAATC” •  Như vậy, từ “ACTCGATT” tiến hóa “AC GATT”, “AG CATC”, “AG CTAATC” PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 10 •  Tạo ma trận đánh giá theo quy tắc: –  M00 = –  Mi0 = Mi-1,0 + d –  M0j = M0,j-1 + d –  Mij = Max {Mi-1,j-1 + σij, Mi,j-1 + d, Mi-1,j + d} –  d = -1 •  Có thể biểu diễn –  U = “ACGCDG” –  V = “CADGD” •  Trong –  σij = +2 Ui Vj giống –  σij = -1 Ui Vj khác PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM C A D G D -1 -2 -3 -4 -5 A -1 -1 -1 -2 C -2 0 -1 -2 G -3 0 -1 C -4 -1 -1 -1 1 D -5 -2 -2 G -6 -3 -3 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Tìm vết cách dùng d = -1 ma trận σ để so sánh trình tự: •  Xuất phát từ M65, nếu: –  Mij = Mi-1,j-1 + σij vết (i,j) → (i-1,j-1) theo đường chéo –  Mij = Mi,j-1 + d vết (i,j) → (i,j-1) lui –  Mij = Mi-1,j + d vết (i,j) → (i-1,j) lên PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM 23 •  Trong trường hợp này, có nhiều vết tạo (màu red, blue, green) C A D G D -1 -2 -3 -4 -5 A -1 -1 -1 -2 C -2 0 -1 -2 G -3 0 -1 C -4 -1 -1 -1 1 D -5 -2 -2 G -6 -3 -3 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM C A D G D -1 -2 -3 -4 -5 C A D G D -1 -2 -3 -4 -5 A -1 -1 -1 -2 A -1 -1 -1 -2 C -2 0 -1 -2 C -2 0 -1 -2 G -3 0 -1 C -4 -1 -1 -1 G -3 0 -1 1 C -4 -1 -1 -1 1 D -5 -2 -2 D -5 -2 -2 G -6 -3 -3 G -6 -3 -3 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM •  Vết Red: 3(2) + 1(-1) + 3(-1) = •  Sử dụng kỹ thuật lưu vết theo quy tắc: –  (i,j) →(i-1,j-1): Ui Vj ghi vào –  (i,j) →(i-1,j): “-” Vj ghi –  (i,j) →(i,j-1): Ui “-” ghi vào CADG-D-ACGCDG •  Vết Blue: 3(2) + 1(-1) + 3(-1) = -CA-DGD ACGCDG- •  Vết Green: 3(2) + 1(-1) + 3(-1) = -C-ADGC ACGCDGPGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 24 Một ví dụ khác •  Cho trình tự DNA: GGATCGA GAATTCAGTTA PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM G A A T T C A G T T A -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 G -1 -1 -2 -3 -4 -5 -6 -7 -8 G -2 1 -1 -2 -3 -4 -2 -3 -4 -5 A -3 3 -1 -2 -3 -4 -2 T -4 -1 2 -1 -2 C -5 -2 1 4 G -6 -3 0 3 5 A -7 -4 -1 2 6 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Bài tập •  Bắt cặp trình tự là: GGA-TC-G A | | || | | GAATTCAGTTA •  Kết quả: 6(2) + 4(-1) + 1(-1) = •  (P1) Tính tốn giá trị ma trận với trường hợp tương tự, nhưng: –  M00 = –  Mi0 = Mi-1,0 + d –  M0j = M0,j-1 + d –  d = -2 •  Rút nhận xét PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 25 TG Needleman – Wunsch nguyên thủy for i=0 to length(U) M(i,0) ← d*i for j=0 to length(V) M(0,j) ← d*j for i=1 to length(U) for j=1 to length(V){ Match ← M(i-1,j-1) Delete ← M(i-1,j) + Insert ← M(i,j-1) + M(i,j) ← max(Match, } + σ(i,j) d d Insert, Delete) PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM else if (Score == ScoreLeft + d){ AlignmentU ← Ui + AlignmentU AlignmentV ← "-" + AlignmentV i ← i - } otherwise (Score == ScoreUp + d){ AlignmentU ← "-" + AlignmentU AlignmentV ← Vj + AlignmentV j ← j - } } PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM AlignmentU ← "" AlignmentV ← "" i ← length(U) j ← length(V) while (i > and j > 0){ Score ← M(i,j) ScoreDiag ← M(i - 1, j - 1) ScoreUp ← M(i, j - 1) ScoreLeft ← M(i - 1, j) if (Score == ScoreDiag + σ(i,j)){ AlignmentU ← Ui + AlignmentU AlignmentV ← Vj + AlignmentV i ← i - j ← j - } PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM while (i > 0){ AlignmentU ← AlignmentV ← i ← i - } while (j > 0){ AlignmentU ← AlignmentV ← j ← j - } Ui + AlignmentU "-" + AlignmentV "-" + AlignmentU Vj + AlignmentV Coi thêm NeedWun.java PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM 26 •  Do Temple F Smith Michael S Waterman đưa vào 1981 Thuật toán SMITH - WATERMAN PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Khác biệt so với thuật toán Needleman – Wunsch sử dụng để bắt cặp trình tự đoạn trình tự (bắt cặp cục Local Alignment) PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Các bước tính tốn hoàn toàn tương tự, khác số bước sau: –  Cách thức tính ma trận: Hi0 = 0, ∀i = 0,n, H0 j = 0, ∀j = 0,m { Hij = max 0,Hi−1,j−1 + σ ij ,Hi−1,j + d,Hi,j−1 + d}, •  Do bắt cặp cục bộ, nên vết xác định giá trị cuối (Hnm), mà từ giá trị tốt (điểm cao ma trận) ∀i = 1,n; j = 1,m #match σ ij = $ , d = gap %mismatch Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM 27 Ví dụ •  Với U = “ACA”, V = “AGCA”, với d = -1 ta có phần tử ma trận H sau: H21 = max{0,H10 + σ 21 ,H11 −1,H20 −1} = max{0,0−1,2−1,0−1} = A C A 0 0 A H11 H12 H13 H22 = max{0,H11 + σ 22 ,H12 −1,H21 −1} G H21 H22 H23 C H31 H32 H33 = max{0,2−1,1−1,2−1} = A H41 H42 H43 H11 = max{0,H00 + σ 11 ,H01 −1,H10 −1} = max{0,0+2,0−1,0−1} = H23 = max{0,H12 + σ 23 ,H13 −1,H22 −1} = max{0,1−1,2−1,1−1} = H12 = max{0,H01 + σ 12 ,H02 −1,H11 −1} = max{0,0−1,0−1,2−1} = H13 = max{0,H02 + σ 13 ,H03 −1,H12 −1} = max{0,0+2,0−1,1−1} = PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM H31 = max{0,H20 + σ 31 ,H21 −1,H30 −1} H41 = max{0,H30 + σ 41 ,H31 −1,H40 −1} = max{0,0−1,1−1,0−1} = = max{0,0+2,0−1,0−1} = H32 = max{0,H21 + σ 32 ,H22 −1,H31 −1} H42 = max{0,H31 + σ 42 ,H32 −1,H41 −1} = max{0,1+2,1−1,0−1} = = max{0,0−1,3−1,2−1} = H33 = max{0,H22 + σ 33 ,H23 −1,H32 −1} H43 = max{0,H32 + σ 43 ,H33 −1,H42 −1} = max{0,1−1,1−1,3−1} = = max{0,3+2,2−1,2−1} = PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 28 Tạo vết A C A 0 0 A 2 G 1 C 0 A 2 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Xuất phát từ Hnmax,mmax, nếu: –  Hij = Hi-1,j-1 + σij vết (i,j) → (i-1,j-1) theo đường chéo –  Hij = Hi,j-1 + d vết (i,j) → (i,j-1) lui –  Hij = Hi-1,j + d vết (i,j) → (i-1,j) lên PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Tìm kết A C A 0 0 A 2 G 1 C 0 A 2 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM •  Nếu –  (i,j) →(i-1,j-1): theo đường chéo Ui Vj ghi vào –  (i,j) →(i-1,j): lên “-” Vj ghi vào –  (i,j) →(i,j-1): lui Ui “-” ghi vào PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 29 Ví dụ •  Với trình tự dài hơn, chẳng hạn: •  Kết bắt cặp U = “ATATGCTAAG” V = “ACTACTTAG” –  U’ = “A-CA” –  V’ = “AGCA” •  Độ đánh giá: 3(2) + 1(-1) + 0(-1) = •  Chọn d = -1, Match = Mismatch = -1 cho tương đồng không tương đồng phân tử trình tự PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Với kỹ thuật lưu vết A T A T G C T A A G A T A T G C T A A G 0 0 0 0 0 0 0 0 0 0 0 A 2 0 2 A 2 0 2 C 1 1 1 1 C 1 1 1 1 T 0 3 T 0 3 A 2 3 A 2 3 C 1 4 5 C 1 4 5 T 0 3 T 0 3 T 0 2 5 6 T 0 2 5 6 A 4 4 7 A 4 4 8 G 1 3 10 G 1 3 7 10 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 30 Ví dụ •  Với trình tự hình, tính •  Cũng cách ghi kết theo vết, trình tự bắt cặp: –  U’ = “ACTA CTAAG” –  V’ = “A-TATGCTAAG” •  Kết quả: 8(2) + 3(-1) + 0(-1) = 13 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Kết ứng với match = 2, mismatch = -3 gap = -2 •  Khi đó, giá trị lớn nhất, nên vị trị để xác định vết •  Từ đó, kết bắt cặp cục đoạn trình tự: ATCC ATCC PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM 31 Thuật tốn ClustalW Thuật toán CLUSTAL PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Dùng cho việc bắt cặp nhiều trình tự (giải tốn MSA) •  Lấy ý tưởng từ thuật tốn lũy tiến (Progessive Algorithm) PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Thuật tốn Clustal W •  Thuật toán lũy tiến sau: –  Bước 1: giải tốn PSA trình tự chọn –  Bước 2: chọn trình tự khác hàng với nhóm thực –  Bước 3: lặp lại Bước cho trình tự khác PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM •  Bước 1: –  Dùng PSA cho tất trình tự –  Xác định mức độ tương đồng cặp –  Xây dựng ma trận khoảng cách tương đồng trình tự PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 32 •  Bước 2: –  Xây dựng cây tương đồng (similarity tree) hay hướng dẫn (guide tree) cách dùng thuật tốn gom nhóm Neighbor – Joining –  Cây hướng dẫn hể mối quan hệ tương đồng trình tự với PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM •  Bước 3: Thực q trình lũy tiến –  Căn vào hướng dẫn xác định nhánh có cặp trình tự tương đồng lớn –  Thực PSA cặp –  Kết hợp cặp lại thu kết đa trình tự PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM Minh họa •  Xét trình tự: –  S1 = “ARDFGI” –  S2 = “AKHGL” –  S3 = “ADFIKF” –  S4 = “ARFGLI” –  S5 = “AKDILM” PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM •  Lần lượt bắt cặp: –  S1’ = “ARDFGI” –  S2’ = “A-KHGL” –  S1’ = “ARDFG-I” –  S4’ = “AR-FGLI” –  S1’ = “ARDFGI ” –  S3’ = “A-DF-IKF” –  S1’ = “ARDFGI ” –  S5’ = “AKD ILM” PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 33 –  S2’ = “A -KHGL” –  S3’ = “ADFIK F” –  S2’ = “AKHGL-” –  S5’ = “AKDILM” –  S2’ = “AKHGL-” –  S4’ = “ARFGLI” PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM –  S3’ = “ADF IKF” –  S4’ = “ARFGLI ” –  S4’ = “ARFGLI” –  S5’ = “AKDILM” –  S3’ = “A-DFIKF” –  S5’ = “AKD-ILM” PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM •  Khoảng cách D(S1’,S2’) trình tự tỷ số m n Trong –  m = số mismatch trình tự (khơng tính gap) –  n = số cặp gap trình tự •  Ví dụ: –  S1’ = “ARDFGI” –  S2’ = “A-KHGL” •  Ví dụ: –  S1’ = “ARDFGI ” –  S3’ = “A-DF-IKF” Có m = 0, n = Suy D(S1’,S3’) = 0/4 = Có m = 3, n = Suy D(S1’,S2’) = 3/5 = 0,6 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 34 Ma trận khoảng cách S1 •  Ví dụ: –  S1’ = “ARDFGI ” –  S5’ = “AKD ILM” Có m = 1, n = Suy D(S1’,S5’) = 1/4 = 0.25 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM S2 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM S4 S1 - S2 0,60 - S3 0,33 - S4 0,40 0,25 - S5 0,25 0,60 0,40 0,66 S5 - PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM S13 •  Theo ma trận khoảng cách, S1 S3 nhỏ nhất, nên mức độ gần nhiều •  Hoặc S1 S4 S3 S2 S4 S5 S13 S2 (0,6+0,33)/2 = 0.465 S4 (0+0,25)/2 = 0.125 0,4 S5 (0,25+0,4)/2 = 0.325 0,6 0,66 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 35 S13,4 S2 S5 S13,4 •  Tiếp tục, khoảng cách S13 S4 nhỏ •  Nên S13 S4 gần PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM S2 (0,465+0,4)/2 = 0,4325 S5 (0,325+0,66)/2 = 0,4925 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM •  Tiếp tục, cịn S134 S2 nhỏ S134,2 S134,2 S5 (0,4925+0,6)/2 = 0,54625 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 0,6 S5 ARDFG-I-A-DF IKF AR-FGLI-A-KHGL ARDFG-I-A-DF IKF AR-FGLI-A-KHGL AKD -ILM ARDFGI-A-DF-IKF ARDFG-I-A-DF IKF AR-FGLI S1 ARDFGI S3 ADFIKF S4 ARFGLI S2 AKHGL S5 AKDILM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 36 •  Ở kết có cách gióng cặp: –  S1, S3 –  Lấy kết S1 có để bắt cặp với S4 –  Tương tự, với S2 –  Rồi với S5 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 37

Ngày đăng: 01/07/2023, 06:38