đây là tài liệu chuyên ngành dành riêng cho lĩnh vực tin sinh học nó được tổng hợp từ các tài liệu nước ngoài.giúp các bạn sinh viên hiểu rõ hơn về những kiến thức cơ bản về môn tin sinh học cũng như các phần mềm về tin sinh học
NHẬPMÔN TI NSI NHHỌC P1: JZP 0521840988pre CB1022/Xiong 521 84098 January 10, 2006 This page intentionally left blank ii 15:7 P1: JZP 0521840988pre CB1022/Xiong 521 84098 January 10, 2006 NHẬP MÔN TIN SINH HỌC Nhập môn tin sinh học sách giáo khoa ngắn đầy đủ Tin Sinh học, giới thiệu cho độc giả toàn lĩnh vực nghiên cứu cách đại khái Cuốn sách viết chủ yếu cho nhà khoa học, lý thuyết tin sinh học giải thích trước, đến thảo luận công cụ tin học có để tìm giải pháp cho vấn đề nghiên cứu sinh học Mọi lĩnh vực quan trọng tin sinh học đề cập, bao gồm sở liệu sinh học, gióng cột trình tự, dự đoán gene promoter, hệ thống phát sinh loại học phân tử, tin sinh học cấu trúc, hệ gene học hệ protein học Cuốn sách tập trung vào sở & nguyên lý thuật toán so sánh ưu nhược điểm phương pháp khác Bằng cách tiếp cận cân dễ hiểu, sách có giá trị cho có kiến thức máy tính Các chi tiết kỹ thuật thuật toán giải thích với công thức toán học có thể; minh họa hình ảnh dùng thay cho công thức để hỗ trợ việc hiểu cho người đọc Sự kết hợp hiệu tài liệu có với việc đề cập sâu cập nhật tất chủ đề Tin sinh học làm cho sách phù hợp cho sinh viên ngành Y Sinh học theo học khóa Tin sinh học cho nhà nghiên cứu muốn nâng cao kiến thức để hỗ trợ cho nghiên cứu Jin Xiong giáo sư Sinh học Đại học Texas A&M, nơi ông dạy Tin sinh học cho sinh viên đại học học viên cao học nhiều năm Lĩnh vực nghiên cứu ông phân tích tin sinh học thực nghiệm hệ thống quang hợp i 15:7 P1: JZP 0521840988pre CB1022/Xiong 521 84098 January 10, 2006 ii 15:7 P1: JZP 0521840988pre CB1022/Xiong 521 84098 January 10, 2006 NHẬP MÔN TIN SINH HỌC JIN XIONG Đại học Texas A&M iii 15:7 cambridge university press Cambridge, New York, Melbourne, Madrid, Cape Town, Singapore, São Paulo Cambridge University Press The Edinburgh Building, Cambridge cb2 2ru, UK Published in the United States of America by Cambridge University Press, New York www.cambridge.org Information on this title: www.cambridge.org/9780521840989 © Jin Xiong 2006 This publication is in copyright Subject to statutory exception and to the provision of relevant collective licensing agreements, no reproduction of any part may take place without the written permission of Cambridge University Press First published in print format 2006 isbn-13 isbn-10 978-0-511-16815-4 eBook (EBL) 0-511-16815-2 eBook (EBL) isbn-13 isbn-10 978-0-521-84098-9 hardback 0-521-84098-8 hardback isbn-13 isbn-10 978-0-521-60082-8 0-521-60082-0 Cambridge University Press has no responsibility for the persistence or accuracy of urls for external or third-party internet websites referred to in this publication, and does not guarantee that any content on such websites is, or will remain, accurate or appropriate P1: JZP 0521840988pre CB1022/Xiong 521 84098 January 10, 2006 Mục lục Lời nói đầu ■ ix PHẦN GIỚI THIỆU VỀ TIN SINH HỌC & CƠ SỞ DỮ LIỆU SINH HỌC Giới thiệu ■ Tin sinh học ? ■ Mục tiêu ■ Phạm vi ■ Ứng dụng ■ Hạn chế ■ Các vấn đề ■ Đọc thêm ■ Giới thiệu sở liệu sinh học ■ 10 Cơ sở liệu gì? ■ 10 Các loại sở liệu? ■ 10 Cơ sở liệu sinh học ■ 13 Các vấn đề cần tránh sở liệu sinh học ■ 17 Thu nhận thông tin từ sở liệu sinh học ■ 18 Tóm tắt ■ 27 Đọc thêm ■ 27 PHẦN II GIÓNG CỘT TRÌNH TỰ Sắp gióng cột hai trình tự ■ 31 Cơ sở tiến hóa ■ 31 Tương đồng tương tự trình tự ■ 32 Tương tự đồng trình tự ■ 33 Phương pháp ■ 34 Ma trận cho điểm gióng cột ■ 41 Ý nghĩa thống kê gióng cột ■ 47 Tóm tắt ■ 48 Đọc thêm ■ 49 Tìm kiếm trình tự tương tự sở liệu ■ 51 Các yêu cầu riêng biệt tìm kiếm sở liệu ■ 51 Tìm kiếm sở liệu phương pháp heuristic ■ 52 Basic local alignment search tools (BLAST) ■ 52 FASTA ■ 57 So sánh FASTA với BLAST ■ 60 Tìm kiếm sở liệu phương pháp Smith-Waterman ■ 61 v 15:7 P1: JZP 0521840988pre vi CB1022/Xiong 521 84098 MỤC LỤC Tóm tắt ■ 61 Đọc thêm ■ 62 Sắp gióng cột nhiều trình tự ■ 63 Hàm cho điểm ■ 63 Thuật giải vét cạn ■ 64 Thuật giải heuristic ■ 65 Các vấn đề thực tiễn ■ 71 Tóm tắt ■ 73 Đọc thêm ■ 74 Profile mô hình Markov ẩn ■ 75 Ma trận cho điểm tùy thuộc vị trí ■ 75 Profile ■ 77 Mô hình Markov mô hình Markov ẩn ■ 79 Tóm tắt ■ 84 Đọc thêm ■ 84 Dự đoán motif miền protein ■ 85 Xác định motif miền protein MSA ■ 86 Cơ sở liệu motif miền dùng biểu diễn thông thường ■ 86 Cơ sở liệu motif miền dùng mô hình xác suất ■ 87 Cơ sở liệu họ protein ■ 90 Tìm kiếm motif trình tự không gióng cột ■ 91 Logo trình tự ■ 92 Tóm tắt ■ 93 Đọc thêm ■ 94 PHẦN III DỰ ĐOÁN GENE VÀ PROMOTER Dự đoán gene ■ 97 Phân loại chương trình dự đoán gene ■ 97 Dự đoán gene prokaryote ■ 98 Dự đoán gene Eukaryote ■ 103 Tóm tắt ■ 111 Đọc thêm ■ 111 Dự đoán trình tự promoter điều hòa ■ 113 Promoter yếu tố điều hòa Prokaryote ■ 113 Promoter yếu tố điều hòa Eukaryote ■ 114 Thuật toán dự đoán ■ 115 Tóm tắt ■ 123 Đọc thêm ■ 124 PHẦN IV PHÁT SINH LOẠI HỌC PHÂN TỬ 10 Phát sinh loại học sở ■ 127 Tiến hóa phân tử phát sinh loại học phân tử ■ 127 Thuật ngữ ■ 128 Phát sinh loại học gene vs phát sinh loại học loài ■ 130 January 10, 2006 15:7 P1: JZP 0521840988pre CB1022/Xiong 521 84098 January 10, 2006 MỤC LỤC vii Các dạng phát sinh loại ■ 131 Tại khó tìm phát sinh loại ■ 132 Quy trình ■ 133 Tóm tắt ■ 140 Đọc thêm ■ 141 11 Chương trình phương pháp xây dựng phát sinh loại Các phương pháp dựa khoảng cách ■ 142 Các phươn pháp dựa đặc điểm gióng cột ■ 150 Đánh giá phát sinh loại ■ 163 Chương trình xây dựng ■ 167 Tóm tắt ■ 168 Đọc thêm ■ 169 PHẦN V TIN SINH HỌC CẤU TRÚC 12 Cơ sở cấu trúc protein ■ 173 Amino acid ■ 173 Hình thành peptide ■ 174 Dihedral Angles ■ 175 Bậc cấu trúc ■ 176 Cấu trúc bậc hai ■ 178 Cấu trúc bậc ba ■ 180 Xác định cấu trúc bậc ba protein ■ 181 Cơ sở liệu cấu trúc protein ■ 182 Tóm tắt ■ 185 Đọc thêm ■ 186 13 Hiển thị cấu trúc protein, so sánh Phân loại ■ 187 Hiển thị cấu trúc protein ■ 187 So sánh cấu trúc protein ■ 190 Phân loại cấu trúc protein ■ 195 Tóm tắt ■ 199 Đọc thêm ■ 199 14 Dự đoán cấu trúc bậc hai protein ■ 200 Dự đoán cấu trúc bậc hai cho protein cầu ■ 201 Dự doán cấu trúc bậc hai cho protein xuyên màng ■ 208 Dự đoán xoắn xoắn ■ 211 Tóm tắt ■ 212 Đọc thêm ■ 213 15 Dự đoán cấu trúc bậc ba protein ■ 214 Phương pháp ■ 215 Mô hình hóa tương đồng ■ 215 Phương pháp nhận diện dạng gập cuộn ■ 223 Dự đoán Ab initio ■ 227 CASP ■ 228 Tóm tắt ■ 229 Đọc thêm ■ 230 ■ 142 15:7 P1: JZP 0521840988pre viii CB1022/Xiong 521 84098 MỤC LỤC 16 Dự đoán cấu trúc RNA ■ 231 Giới thiệu ■ 231 Các dạng cấu trúc RNA ■ 233 Các phương pháp dự đoán cấu trúc RNA ■ 234 Phương pháp ab initio ■ 234 Phương pháp so sánh ■ 237 Đánh giá dự đoán ■ 239 Tóm tắt ■ 239 Đọc thêm ■ 240 PHẦN GENOME HỌC VÀ PROTEOME HỌC 17 Lập đồ, nối ráp hoàn chỉnh so sánh genome ■ 243 Lập đồ genome ■ 243 Giải trình tự genome ■ 245 Nối ráp hoàn chỉnh genome ■ 246 Chú thích genome ■ 250 So sánh genome ■ 255 Tóm tắt ■ 259 Đọc thêm ■ 259 18 Genome học chức ■ 261 Các phương pháp dựa trình tự ■ 261 Các phương pháp dựa microarray ■ 267 So sánh Microarray SAGE microarray DNA ■ 278 Tóm tắt ■ 279 Đọc thêm ■ 280 19 Proteome học ■ 281 Công nghệ phân tích biểu protein ■ 281 Biến đổi hậu dịch mã ■ 287 Phân loại protein ■ 289 Tương tác protein-protein ■ 291 Tóm tắt ■ 296 Đọc thêm ■ 296 PHỤC LỤC Phục lục Bài tập thực hành ■ 301 Phụ lục Danh mục thuật ngữ ■ 318 Bảng dẫn ■ 331 January 10, 2006 15:7 P1: JZP 0521840988c03 48 CB1022/Xiong 521 84098 January 10, 2006 SẮP GIÓNG CỘT HAI TRÌNH TỰ trình tự ngẫu nhiên tạo có nhiều điểm tính toán Tập hợp điểm gióng cột cặp trình tự xáo trộn dùng để tính thông số cho phân bố cực trị Điểm gióng cột ban đầu sau đem so sánh với phân bố điểm gióng cột ngẫu nhiên để xác định liệu điểm số có lớn xác suất ngẫu nhiên hay không Nếu điểm số nằm vùng cực trị cao phân bố, điều có nghĩa gióng cột hai trình tự khó có khả ngẫu nhiên, xem có ý nghĩa Và ta cho giá trị P để xác suất có gióng cột ban đầu ngẫu nhiên Giá trị P từ kiểm nghiệm thống kê cho báo đáng tin cậy tính tương đồng so với dùng tỉ lệ đồng Vì việc hiểu giá trị P quan trọng Người ta chứng minh P nhỏ 10-100 ám hai trình tự gióng cột giống hệt Nếu P nằm khoảng từ 10-50 đến 10-100 hai trình tự xem gần giống hệt Nếu P nằm khoảng 10-5 đến 10-50 hai trình tự xem có mối quan hệ tương đồng rõ ràng Nếu P nằm khoảng từ 10-1 đến 10-5 có khả hai trình tự có mối quan hệ tiến hóa xa Nếu P lớn 10-1 hai trình tự có khả có mối quan hệ ngẫu nhiên (không phải họ hàng) Tuy nhiên bẫy số trình tự thực có quan hệ lại ý nghĩa mặt thống kê mức độ trình tự tốc độ tiến hóa nhanh Trong trường hợp mối quan hệ tiến hóa chúng bộc lộ mức độ cấu trúc bậc ba (xem Chương 15) Các thống kê suy từ gióng cột địa phương khoảng trống Người ta liệu phân bố Gumbel có hiệu không áp dụng cho gióng cột có khoảng trống Tuy nhiên thực tế, giả định điểm gióng cột có khoảng trống có phân bố Một phần mềm thường dùng để đánh giá ý nghĩa thống kê gióng cột hai trình tự PRSS PRSS (http://www.ch.embnet.org/software/PRSS_form.html) chương trình trực tuyến cho phép đánh giá ý nghĩa thống kê gióng cột trình tự (DNA/protein) Trước tiên gióng cột hai trình tự thuật giải Smith-Waterman tính điểm gióng cột Sau nguyên trình tự xáo trộn ngẫu nhiên amino acid trình tự Trình tự bị xáo trộn gióng cột với trình tự không bị xáo trộn điểm gióng cột ghi lại Lặp lại bước nhiều lần (~1000 lần) để tạo liệu phù hợp với phân bố Gumble So sánh điểm gióng cột ban đầu với phân bố điểm gióng cột để tính P Tính phần mềm cho phép xáo trộn phần Ví dụ xáo trộn giới hạn cửa sổ 25-40 amino acid, lúc amino acid nằm giữ nguyên TÓM TẮT Sắp gióng cột hai trình tự thành phần nhiều ứng dụng tin sinh học Nó có ích việc phân tích cấu trúc, chức tiến hóa trình tự Sắp 15:18 P1: JZP 0521840988c03 CB1022/Xiong 521 84098 January 10, 2006 ĐỌC THÊM gióng cột hai trình tự cho phép ta suy mối quan hệ hai trình tự Các trình tự có độ tương tự cao thường trình tự tương đồng Tuy nhiên cần phân biệt tương đồng vs tương tự Tương đồng suy từ so sánh giống trình tự tương tự kết quan sát trực tiếp sau gióng cột Đối với trình tự protein dùng tỉ lệ đồng (giống hệt vị trí gióng cột) để suy tính tương đồng, cách làm không xác Có hai cách gióng cột hai trình tự, địa phương toàn cục, ba thuật toán để gióng cột địa phương lẫn toàn cục Đó thuật toán ma trận điểm, quy hoạch động word Phương pháp ma trận điểm có ích việc cho thấy mắt vùng tương tự, thiếu tinh xảo hai phương pháp sau Quy hoạch động phương pháp định lương có tính vét cạn để tìm gióng cột tối ưu Phương pháp gồm ba bước Bước thứ lập ma trận trình tự so sánh với trình tự Bước thứ hai tính điểm tích lũy tất ô ma trận Bước cuối truy ngược (track back) qua ma trận theo chiều ngược lại để xác định đường có điểm số cao Cách cho điểm dùng ma trận cho điểm điểm phạt khoảng trống Ma trận cho điểm mô tả xác suất thống kê amino acid bị thay amino acid khác PAM BLOSUM hai seri ma trận dùng nhiều để gióng cột trình tự protein Ma trận PAM dùng mô hình tiến hóa từ xác suất từ gióng cột trình tự homolog gần gũi suy xác suất trình tự gióng cột họ hàng xa Ngược lại ma trận BLOSUM lập từ gióng cột thực Các số seri PAM BLOSUM có ý nghĩa trái ngược nhau, PAM cao dùng để gióng cột trình tự có khoảng cách tiến hóa xa PAM thấp dùng để gióng cột trình tự gần gũi Trong thực tế ta không nên dùng ma trận thay nên kiểm tra vài ma trận để tìm ma trận cho kết gióng cột tốt Ý nghĩa thống kê cặp trình tự gióng cột kiểm nghiệm kiểm nghiệm ngẫu nhiên điểm gióng cột phân bố theo kiểu phân bố giá trị cực trị ĐỌC THÊM Batzoglou, S 2005 The many faces of sequence alignment Brief Bioinformatics 6:6–22 Brenner, S E., Chothia, C., and Hubbard, T J 1998 Assessing sequence comparison methods with reliable structurally identified distant evolutionary relationships Proc Natl Acad Sci U S A 95:6073–8 Chao, K.-M., Pearson, W R., and Miller, W 1992 Aligning two sequences within a specified diagonal band Comput Appl Biosci 8:481–7 Henikoff, S., and Henikoff, J G 1992 Amino acid substitution matrices from protein blocks Proc Natl Acad Sci U S A 89:10915–19 Huang, X 1994 On global sequence alignment Comput Appl Biosci 10:227–35 Pagni, M., and Jongeneel, V 2001 Making sense of score statistics for sequence alignments Brief Bioinformatics 2:51–67 Pearson, W R 1996 Effective protein sequence comparison Methods Enzymol 266:227–58 49 15:18 P1: JZP 0521840988c03 50 CB1022/Xiong 521 84098 January 10, 2006 SẮP GIÓNG CỘT HAI TRÌNH TỰ Rost, B 1999 Twilight zone of protein sequence alignments Protein Eng 12:85–94 States, D J., Gish, W., and Altschul, S F 1991 Improved sensitivity of nucleic acid database searches using application-specific scoring matrices Methods 3:66–70 Valdar, W S 2002 Scoring residue conservation Proteins 48:227–41 Vingron, M., and Waterman, M S 1994 Sequence alignment and penalty scores J Mol Biol 235:1–12 15:18 P1: JZP 0521840988c04 CB1022/Xiong 521 84098 January 10, 2006 CHƯƠNG BỐN Tìm kiếm trình tự tương tự CSDL Một ứng dụng gióng cột hai trình tự tìm kiếm trình tự sinh học CSDL dựa độ tương tự Quy trình bao gồm gửi lên trình tự truy vấn thực gióng cột hai trình tự trình tự truy vấn với tất trình tự có sẵn CSDL Vì tìm kiếm trình tự tương tự thực gióng cột quy mô lớn Dạng tìm kiếm cách hiệu để gán chức giả định cho trình tự tìm thấy Tuy nhiên thuật giải quy hoạt động Chương chậm không khả thi để dùng phần lớn trường hợp Cần có phương pháp tìm kiếm đặc biệt để đẩy nhanh tốc độ tính toán so sánh trình tự Chương thảo luận lý thuyết thực hành phương pháp tìm kiếm trình tự tương tự CSDL NHỮNG YÊU CẦU RIÊNG CỦA TÌM KIẾM TRÌNH TỰ Có yêu cầu đặc biệt thuật giải tìm kiếm trình tự tương tự CDSL Tiêu chí tính nhạy, nói đến khả tìm kiếm nhiều kết tốt Nó đo số trình tự tìm thấy thuộc họ Những kết xem "dương tính thật" toán tìm kiếm CSDL Tiêu chí thứ hai tính đặc hiệu, tức nói đến khả loại trừ kết tìm sai Những kết tìm sai trình tự quan hệ tìm thấy nhầm CSDL xem "dương tính giả" Tiêu chí thứ ba tốc độ, tức thời gian cần để có kết tìm kiếm từ CSDL Tùy thuộc vào CSDL, tốc độ vấn đề quan tâm Lý tưởng mà nói, ta muốn có độ nhạy, độ đặc hiệu tốc độ tốt tìm kiếm Tuy nhiên thỏa mãn tất yêu cầu thực tế khó Thực tế tăng độ nhạy làm giảm độ đặc hiệu Nếu ta muốn tìm kiếm thật đầy đủ kết thường chứa dương tính giả Tương tự, cải thiện tốc độ tìm kiếm phải trả giá độ nhạy độ đặc hiệu giảm Thường cần phải có dung hòa ba tiêu chí Trong tìm kiếm CSDL nhiều lĩnh vực Tin sinh học, có hai thuật giải Một vét cạn, dùng thuật giải chặt chẽ để tìm đáp án tốt xác cho toán cách xem xét tất tổ hợp toán Quy hoạch động thuật giải vét cạn tính toán nhiều Một loại kháng heuristic, phương pháp tính toán tìm giải pháp thực tiễn gần cách sử dụng nguyên tắc dựa kinh 51 15:4 P1: JZP 0521840988c04 52 CB1022/Xiong 521 84098 January 10, 2006 TÌM KIẾM TRÌNH TỰ TƯƠNG TỰ TRÊN CSDL nghiệm Về bản, kiểu thuật giải đường tắt để giảm không gian tìm kiếm dựa số tiêu chí Tuy nhiên đường tắt không đảm bảo tìm thấy giải pháp tốt xác Nó thường dùng nhu cầu tìm kiếm khoảng thời gian thực tế mà không ảnh hưởng nhiều đến độ xác kết tìm kiếm PHƯƠNG PHÁP TÌM KIẾM CSDL HEURISTIC Tìm kiếm CSDL lớn dùng thuật giải quy hoạch động Smith-Waterman, xác đáng tin cậy, chậm không khả thi bị hạn chế phần mềm phần cứng Theo ước lượng thực cách 20 năm cho thấy tìm kiếm CSDL 300.000 trình tự trình tự truy vấn dài 100 chữ 2-3 để hoàn thành Vì tốc độ tìm kiếm trở thành vấn đề quan trọng Để tăng tốc độ so sánh, phải dùng đến thuật giải heuristic Thuật giải heuristic tìm kiếm nhanh xem xét phần nhỏ tất gióng cột có mà thuật giải quy hoạch động xem xét Hiện có hai thuật giải heuristic dùng để tìm kiếm CSDL: BLAST FASTA Các phương pháp không đảm bảo tìm thấy gióng cột tối ưu hay homolog thực, nhanh gấp 50-100 lần so với thuật giải quy hoạch động Tăng tốc độ tính toán dẫn tới giá phải trả giảm đáng kể độ nhạy độ đặc hiệu tìm kiếm Điều điều chấp nhận nhà sinh học phân tử Cả hai chương trình tìm kiếm kết hợp lý tìm kiếm trình tự tương tự cách xác định đoạn trình tự tương tự Cả BLAST lẫn FASTA dùng phương pháp heuristic word để gióng cột nhanh hai trình tự Đây phương pháp thứ ba gióng cột hai trình tự Nguyên lý tìm kiếm word giống hệt gần giống hai trình tự Những chuỗi chữ gọi word, giống với cửa sổ dùng ma trận điểm (xem Chương 3) Nó dựa giả định hai trình tự họ hàng phải có word giống Bằng cách tìm word giống nhau, thu gióng cột dài cách mở rộng vùng tương tự hai bên word Một tìm thấy vùng có độ tương tự cao, nối vùng nằm cạnh để có gióng cột đầy đủ BASIC LOCAL ALIGNMENT SEARCH TOOL (BLAST) Chương trình BLAST Stephen Atschul NCBI phát triển vào năm 1990 từ đến trở thành chương trình ưa chuộng để phân tích trình tự BLAST dùng thuật giải heuristic để gióng cột trình tự truy vấn với tất trình tự CSDL Mục đích tìm đoạn gióng cột không khoảng trống có điểm gióng cột cao trình tự họ hàng Sự tồn đoạn trình tự ngưỡng cho thấy cặp trình tự giống ngẫu nhiên, giúp phân biệt trình tự họ hàng với trình tự không họ hàng CSDL 15:4 P1: JZP 0521840988c04 CB1022/Xiong 521 84098 January 10, 2006 BASIC LOCAL ALIGNMENT SEARCH TOOLS (BLASTS) Hình 4.1: Minh họa quy trình BLAST dùng trình tự truy vấn giả định tương tự với trình tự CSDL giả định Điểm gióng cột dựa ma trận BLOSUM62 (xem Chương 3) Ví dụ word tương tự đóng khung ô vuông BLAST tiến hành gióng cột trình tự theo bước sau Bước tạo danh sách word từ trình tự truy vấn Mỗi word thường ba a.a cho trình tự protein mười Nu cho trình tự DNA Danh sách bao gồm tất word có từ trình tự truy vấn Bước gọi seeding (tìm hạt giống) Bước thứ hai tìm kiếm CSDL xem word xuất đâu Bước để tìm trình tự CSDL chứa word tương tự Các word tương thích trình tự truy vấn trình tự CSDL cho điểm theo ma trận thay cho trước Một word xem tương thích với word tìm kiếm điểm gióng cột ngưỡng chọn trước Bước thứ tư mở rộng từ word tìm thấy hai phía đồng thời tính điểm gióng cột dùng ma trận thay Việc mở rộng tiếp tục điểm gióng cột giảm xuống ngưỡng có nhiều amino acid/Nu không tương thích gióng cột (ngưỡng giảm hai mươi hai cho trình tự protein hai mươi cho DNA) Vùng trình tự gióng cột không đứt đoạn, không khoảng trống hai trình tự gọi cặp vùng trình tự có điểm gióng cột cao (HSP; xem ví dụ mẫu Hình 4.1) Ở phiên BLAST gốc, HSP điểm cao trình bày báo cáo sau Chúng gọi cặp có điểm gióng cột tốt Một cải tiến gần chương trình BLAST khả cho gióng cột có khoảng trống Trong BLAST có khoảng trống, HSP chọn mở rộng hai phía theo phương pháp quy hoạch động, chèn khoảng trống vào Việc mở rộng tiếp tục điểm gióng cột cao ngưỡng định; ngược lại bị 53 15:4 P1: JZP 0521840988c04 54 CB1022/Xiong 521 84098 January 10, 2006 TÌM KIẾM TRÌNH TỰ TƯƠNG TỰ TRÊN CSDL dừng Tuy nhiên điểm gióng cột tổng cộng phép giảm ngưỡng giảm tạm thời tăng lại để đạt giá trị ngưỡng Gióng cột gọt tỉa vùng hai đầu trình tự trước phần mềm trả lại báo cáo gióng cột sau Các biến thể BLAST BLAST họ gồm chương trình BLASTN, BLASTP, BLASTX, TBLASTN TBLASTX BLASTN truy vấn trình tự Nu CSDL Nu BLASTP dùng trình tự protein truy vấn CSDL trình tự protein BLASTX dùng trình tự nucleotide dịch mã thành sáu khung đọc để tạo trình tự protein sau dùng chúng để truy vấn CSDL trình tự protein TBLASTN truy vấn trình tự protein với CSDL nucleotide tất trình tự dịch mã theo sáu khung đọc TBLASTX dùng trình tự nucleotide, dịch mã tất sáu khung đọc để tìm kiếm CSDL nucleotide có tất trình tự dịch mã sáu khung đọc Ngoài có chương trình bl2seq cho phép gióng cột địa phương hai trình tự mà người dùng nhập vào Kết đồ họa bao gồm ngang đường cheo biểu đồ hai chiều cho thấy mức độ gióng cột tổng cộng hai trình tự Server BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi) thiết kế để người dùng dễ chọn chương trình phù hợp Các chương trình xếp tùy thuộc loại trình tự dùng truy vấn, protein hay nucleotide hay nucleotide dịch mã Ngoài chương trình dành cho mục đích đặc biệt nhóm vào nhóm; ví dụ bl2seq, immunoglobin BLAST, VecScreen, chương trình giúp loại bỏ trình tự vector khỏi kết giải trình tự Chương trình BLAST thiết kế cho việc tìm kiếm CSDL genome liệt kê vào nhóm riêng Việc chọn loại trình tự truy vấn ảnh hưởng độ nhạy tìm kiếm Nhìn chung lợi dùng trình tự protein để kiểm tra tính tương đồng Đó trình tự DNA có bốn Nu, trái lại protein có hai mươi a.a Điều có nghĩa độ phức tạp thống kê tăng năm lần trình tự protein Điều quan trọng ma trận thay a.a tính đến sai khác tinh tế tính chất hóa lý a.a, có nghĩa trình tự protein giàu thông tin nhạy để tìm kiếm trình tự tương đồng Đó lý tìm kiếm trình tự protein cho nhiều kết có ý nghĩa dùng trình tự DNA Vì trình tự nhập vào trình tự DNA mã hóa protein, ta nên dùng BLASTX, giúp dịch mã trình tự truy vấn sáu khung đọc trước thực so sánh Nếu ta muốn tìm kiếm protein tương đồng mã hóa genome giải trình tự, dùng TBLASTN, giúp dịch mã trình tự nucleotide tất sáu khung đọc Điều giúp xác định gene mã hóa protein chưa thích Nếu dùng DNA làm trình tự truy vấn, so sánh trình tự mức protein TBLASTX Tuy nhiên hai chương trình đòi hỏi máy tính tính toán nhiều thời gian tìm kiếm lâu 15:4 P1: JZP 0521840988c04 CB1022/Xiong 521 84098 January 10, 2006 BASIC LOCAL ALIGNMENT SEARCH TOOLS (BLASTS) 55 Ý NGHĨA THỐNG KÊ Kết BLAST cung cấp danh sách cặp trình tự tương tự xếp theo thứ tự cao đến thấp ý nghĩa thống kê Điểm ý nghĩa thống kê giúp phân biệt trình tự họ hàng với trình tự không họ hàng Thường có kết cao ngưỡng đặt trước hiển thị Việc tính giá trị thống kê khác chút so với tính cho gióng cột hai trình tự; CSDL lớn có nhiều gióng cột trình tự không liên quan Điều đòi hỏi thông số để phản ánh tổng số gióng cột thực Con số lại phụ thuộc vào kích thước CSDL Trong tìm kiếm BLAST, báo thống kê gọi giá trị E (E-value - giá trị kỳ vọng), phản ánh xác suất kết gióng cột có từ tìm kiếm CSDL ngẫu nhiên Giá trị E liên quan đến giá trị P dùng để đánh giá ý nghĩa gióng cột hai trình tự (xem Chương 3) BLAST so sánh trình tự tư vấn với tất trình tự CSDL, giá trị E xác định công thức sau: E =m× n× P (Phương trình 4.1) m tổng số a.a/Nu CSDL, n số a.a/Nu trình tự truy vấn, P xác suất HSP gióng cột ngẫu nhiên Ví dụ gióng cột trình tự truy vấn 100 a.a/Nu với CSDL có tổng số 1012 a.a/Nu cho giá trị P cho vùng HSP khoảng trống trình tự tương tự CSDL 1x10-20 Giá trị E, tích ba giá trị 100x1012x10-20 =10-6 Nó biểu diễn dạng 1e - kết BLAST Điều nói lên xác suất trình tự CSDL tương tự với trình tự truy vấn ngẫu nhiên 10-6 Giá trị E cho thông tin khả gióng cột có hoàn toàn ngẫu nhiên Giá trị E thấp, có khả trình tự CSDL tìm thấy gióng cột với trình tự truy vấn ngẫu nhiên, tức kết có ý nghĩa thống kê Cách giải thích thực nghiệm giá trị E sau: E < 1e - 50 (tức 1x10-50) tin cậy để khẳng định gióng cột tìm thấy quan hệ tương đồng Nếu E nằm khoảng 0,01 đến 1e-50, gióng cột tìm thấy xem tương đồng Nếu E nằm khoản g0.01 đến 10, gióng cột tìm thấy xem ý nghĩa, gợi ý quan hệ tương đồng xa tạm thời Cần có thêm thông tin để xác định mối quan hệ Nếu E >10 trình tự gióng cột tìm thấy quan hệ cả, có quan hệ xa nên phát phương pháp Vì giá trị E bị ảnh hưởng theo tỉ lệ với kích thước CSDL, vấn đề dễ thấy CSDL lớn, giá trị E cho gióng cột tìm thấy tăng Vì mối quan hệ tiến hóa thực trình tự không đổi, việc giảm độ tin cậy kết tìm thấy CSDL tăng lên có nghĩa ta "mất" trình tự tương đồng trước tìm thấy Vì cần có cách tính E khác 15:4 P1: JZP 0521840988c04 56 CB1022/Xiong 521 84098 January 10, 2006 TÌM KIẾM TRÌNH TỰ TƯƠNG TỰ TRÊN CSDL Bit score (điểm bit) báo thống kê quan trọng khác dùng bên cạnh giá trị E kết BLAST Bit score đo độ tương tự trình tự mà không dùng đến chiều dài trình tự truy vấn kích thước CSDL, chuẩn hóa dựa điểm gióng cột thô Bit score (S') xác định công thức sau: S = (λ × S − lnK )/ ln2 (Phương trình 4.2) λ số phân bố Gumbel, S điểm gióng cột thô, K số liên quan đến ma trận thay dùng Rõ ràng bit score (S') tỉ lệ thuận với điểm gióng cột thô (S) Vì bit score cao, ý nghĩa gióng cột lớn Bit score cho ta báo thống kê không đổi tìm kiếm CSDL khác có kích thước khác hay tìm kiếm CSDL thời điểm khác tăng dần kích thước Vùng có độ phức tạp thấp Đối với trình tự protein lẫn DNA, có vùng có nhiều a.a/Nu lặp lại, ví dụ đoạn lặp ngắn, hay đoạn có vài a.a/Nu chiếm tỉ lệ lớn Những vùng trình tự gọi vùng có độ phức tạp thấp (Low Complexity Region -LCR) LCR hay gặp trình tự CSDL Ước lượng cho thấy LCR chiếm khoảng 15% tổng số trình tự protein CSDL miễn phí Các yếu tố có mặt trình tự truy vấn dẫn đến kết dương tính giả gióng cột có điểm số cao giả tạo trình tự không họ hàng Để tránh vấn đề điểm gióng cột tìm thấy cao tương ứng LCR, làm ảnh hưởng đến tương tự thực sự, cần phải lọc vùng khỏi trình tự truy vấn lẫn trình tự CSDL để làm tăng tỉ lệ tín hiệu - nhiễu, quy trình gọi masking (che đậy) Có hai kiểu masking: cứng mềm Masking cứng bao gồm thay trình tự LCR chữ tùy tiện N cho Nu X cho a.a Các chữ sau BLAST bỏ qua, tránh không dùng đến, tránh kết dương tính giả Tuy nhiên nhược điểm điểm gióng cột tìm thấy với trình tự tương đồng thấp gióng cột bị ngắn lại Masking mềm bao gồm biến trình tự rắc rối thành chữ thường, bị BLAST bỏ qua lập danh mục word, dùng đến mở rộng gióng cột từ word tối ưu hóa gióng cột SEG chương trình cho phép phát che đậy yếu tố lặp trước tiến hành tìm kiếm CSDL Nó xác định LCR cách so sánh tần số a.a/Nu vùng với tần số trung bình a.a/Nu CSDL Nếu tần số a.a/Nu vùng cao hẳn so với giá trị trung bình CSDL, vùng xem LCR SEG tích hợp vào BLAST Có hộp lựa chọn lọc trình tự độ phức tạp thấp để che dấu LCR (cứng mềm) RepeatMasker (http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker) chương trình độc lập cho phép phát yếu tố lặp cách so sánh trình tự truy 15:4 P1: JZP 0521840988c04 CB1022/Xiong 521 84098 January 10, 2006 FASTA truy vấn với thư viện yếu tố lặp tích hợp chương trình thuật giải Smith-Waterman Nếu điểm gióng cột vùng trình tự cao ngưỡng cho trước, vùng xem LCR Sau a.a/Nu vùng bị che dấu X N Định dạng kết BLAST Kết BLAST thường gồm hộp tóm tắt đồ họa, danh sách gióng cột tìm thấy phần chữ mô tả gióng cột (Hình 4.2) Hộp tóm tắt đồ họa có ngang màu cho phép tính nhanh số trình tự tìm thấy CSDL mức độ tương tự trình tự truy vấn trình tự tìm thấy Mã màu ngang tương ứng với xếp loại độ tương tự trình tự tìm thấy (đỏ: họ hàng gần nhất; xanh lục xanh lam: họ hàng xa; đen: không họ hàng) Chiều dài ngang đại diện cho phần trình tự gióng cộng so với chiều dài trình tự truy vấn Mỗi ngang có đường link đến gióng cột hai trình tự thực phần chữ Dưới phần tóm tắt đồ họa danh sách trình tự tìm thấy xếp theo giá trị E từ xuống Mỗi kết thường gồm mã số truy cập, tên trình tự (thường không đầy đủ), bit score giá trị E Tiếp sau danh sách phần mô tả, chia thành ba phần: tiêu đề, thống kê gióng cột Phần tiêu đề chứa mã số truy cập trình tự CSDL tìm thấy dòng mô tả trình tự Sau phần tóm tắt thống kê kết tìm kiếm, bao gồm bit score, giá trị E, tỉ lệ phần trăm đồng nhất, tương tự ("Dương") khoảng trống Ở phần gióng cột, trình tự truy vấn nằm phía trình tự CSDL nằm với tên gọi Subject Giữa hai trình tự, vị trí gióng cột giống hệt viết tương ứng với vị trí chúng, trái lại vị trí tương tự gióng cột đánh dấu "+" Bất kỳ a.a/Nu xem LCR trình tự truy vấn che đậy X N để gióng cột vùng FASTA FASTA (FAST ALL, http://www.ebi.ac.uk/Tools/sss/fasta/) thực công cụ tìm kiếm trình tự tương tự CSDL đầu tiên, trước BLAST FASTA dùng phương pháp "băm" (hashing) để tìm đoạn trình tự tương tự với đoạn trình tự ngắn có chiều dài k Chuỗi trình tự ngắn gọi ktuple hay ktup, tương đương với word BLAST, thường ngắn word Thông thường ktup chứa hai a.a trình tự protein sáu Nu trình tự DNA Bước gióng cột FASTA xác định ktup hai trình tự phương pháp hàm băm Trong phương pháp người ta lập bảng tra cho biết vị trí ktup cho hai trình tự xem xét Sự sai khác vị trí cho ktup hai trình tự tính cách lấy vị trí trình tự thứ hai trừ vị trí trình tự thứ biểu diễn hiệu số bù trừ Các ktup có giá trị bù trừ nối với thấy vùng trình tự tương tự tương ứng với đường chéo ma 57 15:4 P1: JZP 0521840988c04 58 CB1022/Xiong 521 84098 January 10, 2006 TÌM KIẾM TRÌNH TỰ TƯƠNG TỰ TRÊN CSDL Hình 4.2 Một ví dụ kết BLAST cho thấy ba phần: hộp tóm tắt đồ họa, danh sách cách trình tự tìm thấy phần chữ chứa tiêu đề, thống kê gióng cột 15:4 P1: JZP 0521840988c04 CB1022/Xiong 521 84098 January 10, 2006 FASTA Hình 4.3 Quy trình tìm ktup phương pháp băm phần mềm FASTA Các giá trị bù trừ a.a hai trình tự cho phép tạo ktup trận hai chiều (Hình 4.3) Bước thứ hai thu hẹp vùng tìm kiếm vùng tương tự hai trình tự Thường xác định nhiều đường chéo hai trình tự bước hàm băm Mười vùng có mật độ đường chéo cao xác định vùng có độ tương tự cao Các đường chéo vùng cho điểm ma trận thay Các đoạn có gióng cột điểm cao đường chéo chọn để nối với để tạo thành gióng cột Bước cho phép chèn khoảng trống vào đường chéo áp dụng điểm phạt Điểm gióng cột có khoảng trống sau tính lại Ở bước 3, gióng cột có khoảng trống gọt giũa thêm thuật giải Smith-Waterman để tạo gióng cột cuối (Hình 4.4) Bước cuối tiến hành đánh giá ý nghĩa thống kê gióng cột cuối cùng, giống BLAST, cho giá trị E Giống với BLAST, FASTA có số biến thể Chương trình FASTA trực tuyến European Bioinformatics Institute cung cấp cho phép dùng trình tự protein DNA để truy vấn CSDL protein DNA Một số biến thể FASTX, dịch mã trình tự DNA dùng trình tự protein dịch để truy vấn CSDL protein, TFASTX so sánh trình tự protein truy vấn với CSDL DNA dịch mã 59 15:4 P1: JZP 0521840988c04 60 CB1022/Xiong 521 84098 January 10, 2006 TÌM KIẾM TRÌNH TỰ TƯƠNG TỰ TRÊN CSDL Hình 4.4 Các bước gióng cột FASTA Ở bước (trái), tất gióng cột không khoảng trống hai trình tự tìm phương pháp băm Ở bước (giữa), gióng cột cho điểm theo ma trận thay Chỉ mười gióng cột tốt chọn Ở bước (phải), gióng cột đường chéo chọn nối lại để tạo gióng cột có khoảng trống nhất, sau tối ưu thuật giải quy hoạch động Ý nghĩa thống kê FASTA dùng giá trị E bit score Việc tính hai thông số FASTA giống với BLAST Tuy nhiên FASTA có thêm thông số thống kê nữa, Zscore Giá trị mô tả số độ lệch chuẩn từ giá trị trung bình tìm kiếm Vì hầu hết gióng cột tìm thấy trình tự không liên quan với trình tự truy vấn, Z-score cao cho trình tự tìm thấy điểm số gióng cột xa điểm gióng cột trung bình, gióng cột có ý nghĩa Với Z- score >15, gióng cột xem có ý nghĩa, chắn có mối quan hệ tương đồng Nếu Z khoảng đến 15, cặp trình tự gióng cột xem tương đồng cao Nếu Z < mối quan hệ xem chưa chắn SO SÁNH FASTA VÀ BLAST BLAST FASTA chứng minh có khả tìm kiếm CSDL tốt Tuy nhiên có số khác biệt đáng ý hai phương pháp Sự khác biệt bước seeding; BLAST dùng ma trận thay để tìm word tương tự, FASTA xác định word tương tự thuật giải hàm băm Mặc định FASTA quét cửa sổ nhỏ hơn, cho kết nhạy BLAST, với khả bỏ sót trình tự tương đồng Tuy nhiên thường chậm BLAST Việc sử dụng thủ thuật che dấu LCR BLAST có nghĩa có độ đặc hiệu cao FASTA dương tính giả bị giảm Đôi BLAST cho nhiều gióng cột cặp trình tự FASTA cho gióng cột cuối 15:4 P1: JZP 0521840988c04 CB1022/Xiong 521 84098 January 10, 2006 TÓM TẮT TÌM KIẾM CƠ SỞ DỮ LIỆU BẰNG THUẬT GIẢI SMITH-WATERMAN Như đề cập, thuật giải quy hoạch động chặt chẽ thường không dùng tìm kiếm CSDL chậm tốn nhớ Các phương pháp heuristic BLAST FASTA xây dựng để tìm kiếm nhanh Tuy nhiên phương pháp heuristic bị hạn chế độ nhạy không đảm bảo tìm thấy gióng cột tối ưu Chúng thường tìm thấy trình tự có họ hàng xa Người ta ước lượng số họ protein, BLAST bỏ sót 30% kết tìm kiếm thực có ý nghĩa Sự phát triển công nghệ máy tính gần siêu máy tính xử lý song song khiến cho thuật giải động trở nên khả thi để tìm kiếm CSDL Để dùng thuật giải tìm kiếm CSDL, mã cho thuật giải NeedlemanWunsch Smith-Waterman phải sửa đổi để chạy môi trường xử lý song song để tìm kiếm giới hạn khoảng thời gian hợp lý Hiện tốc độ tìm kiếm thấp chương trình heuristic nên không dùng tìm kiếm thường quy Tuy nhiên việc có tìm kiếm quy hoạch động cho phép đạt độ nhạy cao tìm kiếm trình tự tương đồng mức trình tự Thực vậy, kiểm nghiệm thực nghiệm chứng minh phương pháp vét cạn cho kết tốt phương pháp heuristic Dưới số danh sách server cho tìm kiếm CSDL web ScanPS (scan protein sequence, http://www.compbio.dundee.ac.uk/www-scanps) chương trình mạng sử dụng biến thể thuật giải Smith-Waterman để dùng xử lý song song Đặc điểm chương trình cho phép tìm kiếm lặp lại giống PSI-BLAST (xem Chương 5), sau vòng tìm kiếm, phần mềm lại xây dựng ma trận trọng số dùng để tìm kiếm CSDL vòng tìm kiếm Tìm kiếm thực thuật giải quy hoạch động đầy đủ để tăng độ nhạy ParAlign (http://www.sencel.com/products/download.html) chương trình dùng xử lý lõi kép để tiến hành so sánh trình tự kiểu vét cạn dùng phiên song song Smith-Waterman chương trình heuristic để tăng tốc độ Chương trình heuristic trước tiên tìm gióng cột không khoảng trống xác dùng làm chỗ neo để mở rộng gióng cột hai phía, kết hợp điểm nhiều đường chéo ma trận gióng cột Tốc độc tìm kiếm kiếm ParAlign tương đương BLAST nhạy TÓM TẮT Tìm kiếm CSDL bước quan trọng việc mô tả chức mộ trình tự protein gene Vấn đề quan trọng tìm kiếm CSDL gồm độ nhạy, độ đặc hiệu tốc độ Tốc độ quan trọng tìm kiếm CSDL lớn Vì phương pháp heuristic xây dựng để tìm kiếm trình tự tương tự CSDL Các thuật giải tìm kiếm CSDL kiểu heuristic gồm BLAST FASTA Cả hai sử dụng phương pháp word để gióng cột hai trình tự BLAST tìm kiếm HSP 61 15:4 P1: JZP 0521840988c04 62 CB1022/Xiong 521 84098 January 10, 2006 TÌM KIẾM TRÌNH TỰ TƯƠNG TỰ TRÊN CSDL CSDL FASTA dùng phương pháp hàm băm để xác định word Số đo ý nghĩa thống kê cho trình tự tìm thấy CSDL giá trị E bit score Một lưu ý tìm kiếm trình tự CSDL lọc LCR phần mềm che dấu Một lưu ý nên dùng trình tự protein để truy vấn chúng cho kết tìm kiếm nhạy Ngoài cần nhớ BLAST lẫn FASTA phần mềm heuristic không đảm bảo tìm thấy tất trình tự tương đồng Đối với tìm kiếm có ý nghĩa thông kê phần mềm tự động tìm thấy, nên kiểm tra lại kết phần mềm gióng cột chặt chẽ Tiến ngành máy tính giúp việc sử dụng thuật giải quy hoạch động đầy đủ trở nên khả thi tìm kiếm CSDL với độ nhạy độ đặc hiệu cao ĐỌC THÊM Altschul, S F., Boguski, M S., Gish, W., and Wootton, J C 1994 Issues in searching molecular sequences databases Nat Genet 6:119–29 Altschul, S F., Madden, T L., Schaffer, A A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D J 1997 Gapped BLAST and PSI-BLAST: A new generation of protein database search programs Nucleic Acids Res 25:3389–402 Chen, Z 2003 Assessing sequence comparison methods with the average precision criterion Bioinformatics 19:2456–60 Karlin, S., and Altschul, S F 1993 Applications and statistics for multiple high-scoring segments in molecular sequences Proc Natl Acad Sci U S A 90:5873–7 Mullan, L J., and Williams, G W 2002 BLAST and go? Brief Bioinform 3:200–2 Sansom, C 2000 Database searching with DNA and protein sequences: An introduction Brief Bioinform 1:22–32 Spang, R., and Vingron, M 1998 Statistics of large-scale sequence searching Bioinformatics 14:279–84 15:4 ... thông tin Sinh học phân tử Các lĩnh vực kết hợp với tạo lĩnh vực định hướng thông tin sinh học ngày biết đến Tin sinh học TIN SINH HỌC LÀ GÌ? Tin sinh học lĩnh vực nghiên cứu đa ngành nằm vùng giao. .. thấy sức mạnh tin sinh học, cần nhận hạn chế tránh phụ thuộc nhiều hay kỳ vọng nhiều vào kết tin sinh học Thực tế tin sinh hoc có nhiều hạn chế nội Có thể hình dung vai trò tin sinh học vai trò... giải thích chi tiết tin sinh học phần sau Tin sinh học, định nghĩa rõ đây, ngành học phân tích định lượng thông tin đại phân tử sinh học với trợ giúp máy tính Sự phát triển tin sinh học thành ngành