Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học. Với những phát hiện và nghiên cứu càng ngày càng nhiều, chúng ta sẽ càng đạt ra nhiều câu hỏi trong qua ́ trıǹ h nghiên cứu?
Tiểu Luận: BLAST GVHD: TS Nguyễn Đứ c Bách Nhóm sinh viên thự c hiện: nhóm Nhóm sinh viên thực hiện 7/12/2014 Nhoעm 4_k55cnsha ĐẶT VÂN ĐỀ ́ NỘI DUNG 7/12/2014 Nhoעm 4_k55cnsha NỘI DUNG -Khá i niê ̣m, lich sử ̣ - Thuâ ̣t toá n Phầ n I - Mu ̣c đı́ch - Cá c da ̣ng, biế n thể , ý nghı̃a Phầ n II 7/12/2014 -Ưng du ̣ng ́ -Thao tá c vớ i blast - Vı́ du ̣ cu ̣ thể Nhoעm 4_k55cnsha Đặt vấn đề Thế kỷ XX ghi nhận phát triển vũ bão khoa học công nghệ, tạo sở lý luận, vật chất liên kết hỗ trợ lẫn nhau, tác động thúc đẩy phát triển lĩnh vực đời sống xã hội, đặc biệt lĩnh vực tin học, công nghệ internet công nghệ sinh học Vớ i nhữ ng phát hiện nghiên cứ u cà ng ngà y cà ng nhiề u, chúng ta sẽ cà ng đạt nhiề u câu hỏi quá trı̀nh nghiên cứ u? 7/12/2014 Nhoעm 4_k55cnsha Đặt vấn đề Chủng loại vi khuẩn có protein có liên hệ giống lồi với loại protein khác mà có chuỗi amino-acid mà ta biết khơng? Có gen khác dùng để mã hóa protein có cấu trúc hay dáng dấp gần với mà ta vừa xác định không? Chuỗi DNA mà ta vừa xếp có nguồn gốc từ đâu? ??? 7/12/2014 Nhoעm 4_k55cnsha I Phần I Khái niệm, lịch sử Khá i niê ̣m BLAST (Basic Local Alignment Search Tool ) giải thuật để so sánh chuỗi sinh học, chuỗi amino-acid protein hay chuỗi DNA khác Chúng ta dùng blast câu hỏi đặt “liệu có trình tự ngân hàng liệu giống gần giống với trình tự bạn khơng”? 7/12/2014 Nhoעm 4_k55cnsha I Phần I Khái niệm, lịch sử Lich sử ̣ 1970: Thuật toán của Needleman-Wunsch cho việc trình tự (alignment) được công bố 1981: Thuật toán Smith-Waterman để trı̀nh tự đã đượ c công bố IMB giớ i thiệu máy tı ́nh cá nhân thi ̣ trườ ng 1988: NCBI đượ c thà nh lập ở viện nghiên cứ u ung thư quốc gia Thuật toán FASTA dù ng để so sánh trı̀nh tự đượ c công bố bở i Pearson và Lupman Des Higgins và Paul Sharpe công bố phát triển chương trı̀nh CLUSTAL 7/12/2014 Nhoעm 4_k55cnsha I Phần I Khái niệm, lịch sử Lich sử ̣ 1990: Chương trı̀nh BLAST đờ i (Altschul, et al.) Dù xác Smith-Waterman lại cho tốc độ nhanh gấp 50 lần Tốc độ xác tương đối BLAST cải tiến kĩ thuật quan trọng chương trình BLAST điều cho thấy lí cơng cụ lại cơng cụ tìm kiếm phổ biến tin sinh học 7/12/2014 Nhoעm 4_k55cnsha I Phần I Thu thập lựa chọn trình tự (protein hay DNA, RNA) Thuật toán Blast Phân tích kết blast Thuật tốn BLAST có phần, phần tìm kiếm phần đánh giá thống kê dựa kết tìm 7/12/2014 Nhoעm 4_k55cnsha 10 Phần II Thao tác vớ i blast Bước 2: nhập liệu Chương trình xử lý trực tuyến Blast cho phép nhập liệu chuỗi phân tích trực tiếp dạng kí tự qua bàn phím hay nhập liệu viết theo ngôn ngữ “FASTA sequence format”, “Identifiers”, “Bare sequence” Bước 3: đặt vùng phân tích “set subsequence” Cung cấp thơng tin vị trí đoạn chuỗi cần phân tích giá trị số vị trí giới hạn đầu-cuối đoạn chuỗi (from 1, to length) 7/12/2014 Nhoעm 4_k55cnsha 29 Phần II Thao tác vớ i blast Bước 4: lựa chọn ngân hàng liệu •Cơ sở liệu protein bao gồm: Nr, Month, Swissprot, Patents, Yeast, E.coli, Pdb, Kabat, alu •Cơ sở liệu nucleotide bao gồm: Nr, Month, Dbest, mouse-ests, human-ests, other-ests, yeas, E.coli, Pdb, kabat, patents, vector, mito, Alu, Gss, Htgs 7/12/2014 Nhoעm 4_k55cnsha 30 Phần II Thao tác vớ i blast Nhập mã truy mật trình tự cần so sánh Hoặc tải trình tự có sẵn máy tính Chọn sở liệu 7/12/2014 Nhoעm 4_k55cnsha 31 Phần II Thao tác vớ i blast Bước 5: gửi yêu cầu xử lý Sau khai báo xong, người phân tích nhấn nút BLAST để gửi tin Về cấu trúc tệp tin kết gồm phần là: Phần đầu hiển thị kết sơ dạng đồ họa hình ảnh màu sắc chuỗi tương đồng cao Hiển thị kết dạng kí tự tóm tắt kết Hiển thị kết cụ thể so sánh Tóm tắt thơng tin chế độ chạy yêu cầu cho BLAST 7/12/2014 Nhoעm 4_k55cnsha 32 Phần II Thao tác vớ i blast đồ họa hình ảnh 7/12/2014 Nhoעm 4_k55cnsha 33 Phần II Thao tác vớ i blast dạng kí tự tóm tắt kết 7/12/2014 Nhoעm 4_k55cnsha 34 Phần II Thao tác vớ i blast kết cụ thể so sánh 7/12/2014 Nhoעm 4_k55cnsha 35 Phần II Ví dụ Giả sử chúng ta có một trình tự gen sau và muốn xác định là đoạn gen của loài nào? hoặc giống gen sinh vật nào AATTTTTGGAGTGGAAGTTTGAGAAGCATATATATATATATATGTGTGTGT GTGTGTGTGTGTGTGTGTGTGTGTGTGTGTATATACGTATATATGTGTGTG TGTGTGTATATATATATAGAGAGAGAGAGATATAGATATATCTATCTATAT ATATATATATATATATATGATTTCCCATCGTCTGTATCGTAACCCAACTGTA GCCCAATAAAGCTCAGAGGAATT 7/12/2014 Nhoעm 4_k55cnsha 36 Phần II Ví dụ blastn Nhập trı̀nh tự nucleotide 7/12/2014 Nhoעm 4_k55cnsha 37 Phần II 7/12/2014 Ví dụ Nhoעm 4_k55cnsha 38 Phần II 7/12/2014 Ví dụ Nhoעm 4_k55cnsha 39 Phần II 7/12/2014 Ví dụ Nhoעm 4_k55cnsha 40 Phần II Ví dụ >emb|AJ223768.1| Pinus sylvestris microsatellite DNA, clone SPAC11.5 Length=228 Score = 412 bits (456) Expect = 6e-112 Identities = 228/228 (100%) Gaps = 0/228 (0%) Strand=Plus/Plus Query Vậy ta có thể tin là đoạn gen đó là của sinh vật có tên là Pinus 7/12/2014 Nhoעm 4_k55cnsha 41 Kết luận Tin sinh học có nhiều ứng dụng, sở liệu cơng nghệ sinh học không dừng lại tập hợp kết nghiên cứu thực nghiệm đơn nhà khoa học khắp giới, mà cịn bao gồm khả khái qt hóa, mơ hóa thành “đối tượng số” giới sinh học sống động Trong nhiều chương trình ứng dụng tin sinh học, Chương trình phân tích cấu trúc tương đồng Blast ứng dụng vô quan trọng, cho biết xác tương đồng Nucleotic, chuỗi AND hay protein 7/12/2014 Nhoעm 4_k55cnsha 42 7/12/2014 Nhoעm 4_k55cnsha 43 ... cụ tìm kiếm phổ biến tin sinh học 7/12/2014 Nhoעm 4_k55cnsha I Phần I Thu thập lựa chọn trình tự (protein hay DNA, RNA) Thuật toán Blast Phân tích kết blast Thuật tốn BLAST có phần, phần... nghĩa BLAST thực họ chương trình Nucleotide-nucleotide BLAST (blastn): Chương trình này, đưa vào DNA truy vấn, trả chuỗi DNA gần giống từ sở liệu DNA mà người dùng định Protein-protein BLAST (blastp):... lệnh, "megablast" nhanh nhiều so với chạy BLAST nhiều lần 7/12/2014 Nhoעm 4_k55cnsha 21 I Phần I Các dạng, ý nghĩa Position-Specific Iterative BLAST (PSI -BLAST) : Một chương trình BLAST nhất,