Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 39 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
39
Dung lượng
0,98 MB
Nội dung
TIN SINH HỌC ĐẠI CƯƠNG (Introduction to Bioinformatics) Chương 3: BẮT CẶP TRÌNH TỰ (SEQUENCE ALIGNMENT) PGS.TS Trần Văn Lăng Email: langtv@vast.vn PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM NỘI DUNG MỘT SỐ KHÁI NIỆM CHUNG • Giới thiệu • Bắt cặp hai trình tự • Bắt cặp nhiều trình tự PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Nhắc lạiại • Các tế bào, với ngăn khác gọi bào quan, phải đối mặt với vấn đề là: • Sinh vật tạo thành từ tế bào • Bên tế bào - ngoại trừ hồng huyết cầu trưởng thành - có nhân (nucleus) chứa tất thị di truyền (genetic instruction) • Những thị chức tế bào –Tế bào sản xuất phân tử kích thích tố, dẫn truyền thần kinh, cytokine enzyme –Chúng phải gửi đến nơi khác bên tế bào, xuất khỏi tế bào –Việc sản xuất vận chuyển phải thực nơi lúc PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM • Chẳng hạn, tế bào người có 46 nhiễm sắc thể, tổ chức thành 23 cặp • Mỗi nhiễm sắc thể cấu thành trình tự DNA • DNA phiên mã thành RNA, dịch mã thành Protein Từ điều chỉnh tất q trình phát triển sinh vật • Một gene đoạn DNA với trình tự base đặc trưng – cụ thể, gọi mã di truyền (genetic code), hay thị di truyền để xác định chức tế bào PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Chẳng hạn, ung thư • Việc tổn hại thường xảy trình sinh sống phát triển đời người • Bên cạnh có số nhỏ thừa hưởng gene tổn hại từ cha mẹ • Bình thường tế bào phát triển nhân lên theo quy tắc Tuy nhiên, gene bị tổn hại phát triển khơng bình thường phát triển thành khối gọi u bướu • Cơ thể liên tục sản xuất tế bào để giúp phát triển, để thay tế bào chết, hàn gắn lại tế bào bị tổn thương sau chấn thương • Có gene kiểm sốt q trình này; gene bị gây tổn hại dẫn đến bệnh tật, đặc biệt ung thư PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM 10 Như vậy, • Ung thư xuất phát từ tế bào đơn lẻ, sau chuyển dạng tế bào bình thường thành tế bào ung thư Việc do: • Những khối u lành tính (khơng phải ung thư) ác tính (ung thư) • Những khối u lành tính khơng xâm lấn vào quan mơ xung quanh thể Trong khối u ác tính phát triển, xâm lấn vào mô xung quanh, trở thành ung thư –Tác nhân vật lý: tia cực tím, xạ ion –Tác nhân hóa học: Asbestos: thành phần khói thuốc lá, Aflatoxin: chất nhiễm bẩn thức ăn Arsenic: chất nhiễm bẩn nước uống –Tác nhân sinh học: nhiễm trùng từ virus, vi khuẩn, ký sinh trùng PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 11 12 • Quá trình phân bào phải chép truyền đạt lại tồn xác thơng tin di truyền cho tế bào • Nên DNA tế bào mẹ phải nhân đôi cách xác cho tế bào nhận DNA giống tế bào mẹ • Trong q trình sinh trưởng phát triển, tế bào thay tế bào nhờ trình phân bào Ngoại trừ tế bào não tế bào thần kinh không sinh sản thêm mà PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 13 14 • Các tác nhân từ ngồi tác động gây tế bào có DNA "bất thường" Nhưng thể người phận để phản ứng với tình trạng cách: • Cơ chế làm cho hầu hết tế bào có DNA bất thường (gọi tế bào "tiền ung thư") chết trước gây ung thư –Các tế bào có chế để sửa chữa DNA bị hư trước chúng gây vấn đề Hoặc, –Hệ thống miễn dịch nhận tế bào bất thường tiêu diệt • Chỉ có số khơng bị diệt (lọt lưới) để gây ung thư PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 15 16 Khái niệm bắt cặp • Các tế bào ung thư lưu hành hệ bạch huyết máu tìm đến phận yếu thể để lưu lại • Khi tế bào ung thư tiếp tục trình phân bào để tạo thành khối u ung thư • Bắt cặp trình tự, xếp thẳng hàng trình tự (Sequence Alignment) • Mục đích đạt đến giống đến mức tối đa trình tự • Việc bắt cặp thực cách thêm “gap” vào vị trí cho cột giống tương tự PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 17 18 Ví dụ • Ví dụ bắt cặp trình tự • Việc thêm gap biểu thị đột biến nucliotide xãy vị trì trình tự • Trong tin học, việc thêm ký tự gap khoảng trống (“-”) giúp cho việc tạo chuỗi ký tự gần giống – GAATTCAGTTA – GGATCGA • Kết – GAATTCAGTTA – | || | | | – GGAT-C-G—-A • Hoặc trình tự – ACGCTG – CATGT • Kết – ACGCTG– | | | – -C-ATGT PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 19 20 Nếu lấy v làm cứ, u có: • match • mismatch • insertion • deletion Cho trình tự: u = ATCTGATG v = TGCATAC • Tương tự, với trình tự dài –tcctctgcctctgccatcat -caaccc –|||| ||| ||||| ||||| |||||| –tcctgtgcatctgcaatcatgggcaaccc match deletion A - T T G C C A T T G - A A insertion G C mismatch PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 21 T - 22 Về bắt cặp trình tự protein • Sự bắt cặp trình tự khơng dừng lại trình tự DNA mà trình tự protein • Trong đó, việc có ký tự thay 20 ký tự • Tuy nhiên, protein có đặc điểm bảo tồn cấu trúc chức cao (bởi chức gây bất lợi) • Mục đích –Bắt cặp trình tự nhằm nghiên cứu trình tự –Hoặc để tìm kiếm, so sánh mức độ tương đồng trình tự PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 23 24 Đánh giá bắt cặp • Vì vậy, qua trình biến đổi có khuynh hướng thay amino acid có cấu trúc tương tự, làm thay đổi đến cấu trúc chức protein • Thế bắt cặp tốt, tiêu chuẩn • Có thể cho điểm tốt giá trị match, điểm xấu với trường hợp ngược lại • Tuy nhiên, với trình tự protein việc thay amino acid khác bảo toàn cấu trúc chức khơng thể điểm xấu • Những trình tự protein họ thường có thay amino acid có đặc tính hóa lý PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM 25 26 • Sự tương tự PAM BLOSUM: • Chính vậy, với việc bắt cặp trình tự protein có ma trận điểm thay để xem xét khả thay amino acid mà khơng ảnh hưởng • Có loại ma trận điểm thay thế: –PAM100 ~ BLOSUM90 –PAM160 ~ BLOSUM62 –PAM250 ~ BLOSUM45 • PAM tạo từ khoảng cách trình tự liên quan –Ma trận PAM (Percentage Accepted Mutation) –Ma trận BLOSUM (BLOck SUbstitution Matrix) –Chẳng hạn, PAM100 có khoảng cách 100 lần đột biến 100 gốc amino acid PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 27 28 Bảng giá trị BLOSUM62 • BLOSUM tính tốn thơng qua tần suất thay cặp amino acid việc bắt cặp trình tự có độ tương đồng cao –Chẳng hạn, BLOSUM45 gồm nhóm trình tự giống 45% PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 29 30 Hàm đánh giá trình tự nucleotide • Đánh giá bắt cặp trình tự nucleotide: dùng hàm đánh giá • Chẳng hạn, • Định nghĩa: Mức độ tương đồng (điểm đánh giá) trình tự bắt cặp S1’ S2’ đại lượng: –Match (Giống vi trí): giá trị +2 –Mismatch (Không giống nhau): giá trị -1 –Gap (Thêm vào bị loại bỏ): giá trị -2 na x match + ni x mismatch + ng x gap • Hàm đánh giá có giá trị cao giống nhiều PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 31 32 Ví dụ • Trong đó, –na, ni, ng: tương ứng số phần tử giống (match), không giống (mitmatch) số gap –match, mismatch, gap: tương ứng giá trị tính tốn để đánh giá –Thông thường, điểm dương cho match, điểm âm cho đột biến (mismatch gap) • Với –match = –mismatch = -1 –gap = -2 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 33 34 AC GCTG | | | -CATG-T- GAATTCAGTTA | || | | | GGAT-C-G—-A 35 • Điểm đánh giá: x (+2) + x (-2) + x (-1) = • Điểm đánh giá: x (+2) + x (-2) + x (-1) = -4 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 36 Phân loại ACGCTG| || -C-ATGT • Có loại: –Bắt cặp tồn cục (Global alignment): áp dụng tồn trình tự để tìm tương đồng trình tự –Thường sử dụng trình tự có độ tương đồng cao, chiều dài xấp xỉ • Điểm: x (+2) + x (-2) + x (-1) = -1 tcctctgcctctgccatcat -caaccc |||| ||| ||||| ||||| |||||| tcctgtgcatctgcaatcatgggcaaccc Thuật tốn sử dụng: Needleman - Wunsch • Điểm: 23 x (+2) + x (-2) + x (-1) = 37 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 37 38 Bắt cặp hai trình tự –Bắt cặp cục (Local alignment): thực vùng trình tự tương đồng nằm vị trí khác hai trình tự –Mục đích tìm vùng trình tự tương đồng –Sử dụng so sánh trình tự có chiều dài khác nhau, mức độ tương đồng tồn thấp • Bài tốn (Pairwise Sequence Alignment PSA): cho trình tự sinh học S1, S2 Hãy tìm trình tự S1’, S2’ cách thêm ký tự ‘-’ cho: –Điểm đánh giá Score(S1’, S2’) lớn với giá trị match, mismatch gap cho trước –Chiều dài S1’, S2’ (|S1’| = |S2’|) –Nếu loại bỏ ký tự gap từ S1’, S2’ nhận S1, S2 ban đầu Thuật toán: Smith - Waterman PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 39 40 10 • Trong trường hợp này, có nhiều vết tạo (màu red, blue, green) C A D G D -1 -2 -3 -4 -5 A -1 -1 -1 -2 C -2 0 -1 -2 G -3 0 -1 C -4 -1 -1 -1 1 D -5 -2 -2 G -6 -3 -3 A D G D C A D G D -1 -2 -3 -4 -5 -1 -2 -3 -4 -5 A -1 -1 -1 -2 A -1 -1 -1 -2 C -2 0 -1 -2 C -2 0 -1 -2 G -3 0 -1 G -3 0 -1 C -4 -1 -1 -1 1 C -4 -1 -1 -1 1 D -5 -2 -2 D -5 -2 -2 G -6 -3 -3 G -6 -3 -3 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 97 C 98 • Vết Red: 3(2) + 1(-1) + 3(-1) = CADG-D-ACGCDG • Sử dụng kỹ thuật lưu vết theo quy tắc: –(i,j) →(i-1,j-1): Ui Vj ghi vào –(i,j) →(i-1,j): “-” Vj ghi –(i,j) →(i,j-1): Ui “-” ghi vào • Vết Blue: 3(2) + 1(-1) + 3(-1) = -CA-DGD ACGCDG- • Vết Green: 3(2) + 1(-1) + 3(-1) = -C-ADGC ACGCDGPGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 99 PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 100 25