Tin Sinh Học: Lắp ráp, Dự đoán, Chú giải và Phân tích Hệ gen

49 410 4
Tin Sinh Học: Lắp ráp, Dự đoán, Chú giải và Phân tích Hệ gen

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

5/7/2015 Khóa học: Tin Sinh Học: Lắp ráp, Dự đoán, Chú giải Phân tích Hệ gen Giảng viên: TS Nguyễn Cường TS Dương Quốc Chính Trợ giảng: Nguyễn Văn Lâm Phạm Quang Huy Nguyễn Quốc Đại Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org Chú giải phân tích hệ gen 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org Đặt vấn đề Có chuỗi trình tự DNA protein, làm để biết chuỗi trình tự mang chức sinh học gì? Có 50000 chuỗi trình tự tay, có cách khai phá từ khối liệu khổng lồ này? Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org Nội dung • Lý thuyết: chế tìm kiếm trong: • BLAST • InterProScan • BLAST2GO • Thực hành: • BLAST • InterProScan • BLAST2GO 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org Quy trình giải chức Trình tự DNA (hoặc protein) Phần mềm BLAST NCBI-nr InterPro Trình tự giải BLAST Phần mềm InterProScan Trình tự giải InterProScan Gene Ontology Enzyme Phần mềm BLAST2GO KEGG Trình tự giải chức Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org Quy trình giải chức Trình tự DNA (hoặc protein) Phần mềm BLAST NCBI-nr InterPro Trình tự giải BLAST Phần mềm InterProScan Trình tự giải InterProScan Gene Ontology Enzyme Phần mềm BLAST2GO KEGG Trình tự giải chức 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org Sequence alignment gì? Alignment (Gióng hàng): So sánh (pairwise) nhiều (multiple) trình tự với để tìm vùng trình tự giống tương đồng chúng MVNLTSDEKTAVLALWNKVDVEDCGGE || || ||||| ||| || || || MVHLTPEEKTAVNALWGKVNVDAVGGE Kết alignment: mismatches 18 matches Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org Global vs Local alignment • Global alignment – Sắp gióng cột toàn chiều dài (bao gồm hai đầu trình tự) • Local alignment – đưa Global alignment: Áp dụng cho so sánh trình tự ortholog với (tiến hóa) Local alignment: Xác định vùng chức protein vùng tương đồng trình tự 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org Local alignment thích hợp với giải chức kết alignment, ý nghĩa khác Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 10 BLAST • Basic Local Alignment Search Tool • Altschul cs 1990,1994,1997 • Là công cụ tìm kiếm tương đồng phổ biến, dựa thuật toán Smith Waterman • Có thể tìm đoạn local alignment tốt phục vụ giải chức • Được phát triển web standalone 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 11 Cơ chế tìm kiếm BLAST Cơ sở liệu NCBI Trình tự query MEAAVKEEISVEDEAVDKNI MEA EAA AAV AVK VKE KEE EEI EIS ISV Cắt nhỏ trình tự query thành words có kích thước Cắt nhỏ trình tự sở liệu thành word có kích thước Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 12 Cơ chế tìm kiếm BLAST Danh sách word cắt nhỏ trình tự query: MEA EAA AAV AVK VKL KEE EEI EIS ISV Dánh sách word cắt nhỏ sở liệu ? … RTT SDG SRW QEL VKI DKI LFC AAV PFR AAQ KSS LLN RWY GKG NIS WDV KVR DEI … So sánh word với 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 13 Cơ chế tìm kiếm BLAST Trình tự query MEA EAA AAV AVK KLV KEE EEI EIS ISV Cơ sở liệu NCBI ELEPRRPRYRVPDVLVADPPIARLSVSGRDENSVELTMEAT TDVRWMSETGIIDVFLLLGPSISDVFRQYASLTGTQALPPLFSLGYHQSRWNY IWLDIEEIHADGKRYFTWDPSRFPQPRTMLERLASKRRV KLVAIVDPH Tìm vị trí word giống trình tự sở liệu Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 14 Cơ chế tìm kiếm BLAST Trình tự sở liệu Mở rộng tìm kiếm trình tự sở liệu Trình tự query Word Độ dài mở rộng tối đa = kết BLAST Word tìm thấy trình tự sở liệu mở rộng bên để tiếp tục tìm kiếm tương đồng 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org Kết BLAST 15 Thanh có ô màu khác đơn vị đo điểm số alignment (Score) Thanh đơn vị (Query) thể độ dài bp toàn trình tự input Các kết trình tự tìm thấy sở liệu, kèm màu sắc thể điểm số alignment vùng alignment (HSP) tương ứng với vị trí trình tự query Đường thẳng nhỏ (dấu *) thể có vùng alignment trình tự kết Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 16 Danh sách BLAST “hit”: Max score: Điểm số (score) alignment cao vùng alignment (HSP) trình tự query trình tự sở liệu Total score: Tổng điểm số (score) alignment tất vùng alignment (HSP) cộng lại Total score khác với max score xảy trường hợp nhiều vùng alignment (HSP) đến từ trình tự sở liệu (dấu *) Query coverage: Phần trăm độ dài vùng alignment (HSP) độ dài query E-value: Độ tin cậy kết quả, e-value thấp kết tin tưởng 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 17 Kết chi tiết BLAST Bit-score: dạng log score Identity: số base giống hệt E-value Similarity (Positive): Số base tương đồng Số lượng đoạn trống (GAP) alignment Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 18 Kết luận • Gợi ý tham số BLAST: E-value Sequence identity Nucleotide ≤ 1e-6 ≥ 70% Protein ≥ 1e-3 ≥ 25% Các tham số mang ý nghĩa tham khảo, kết luận xác kết BLAST đánh giá alignment kết (Nguồn: Chapter 11 – Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins) 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 19 Bài tập 1: thực hành BLAST I Download toàn protein chủng E.coli DH10B NCBI Vào trang NCBI BioProject download: http://www.ncbi.nlm.nih.gov/bioproject/20079 Nhấn vào số “4126” mục Protein Sequence (đây tổng số protein tìm thấy chủng E.coli DH10B) Nhấn vào nút “Send” góc bên phải Chọn “Destination” -> “File”-> “Format: FASTA” -> “Creat file” Sau download file máy, đổi tên thành “DH10B.fasta” Sử dụng FileZilla để upload file DH10B.fasta lên máy chủ cất thư mục bạn (ví dụ: /home/hocvien1) Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 20 Bài tập 1: thực hành BLAST II Chuẩn bị sở liệu: Để giúp BLAST hiểu bạn muốn tìm kiếm trình tự file DH10B.fasta, bạn phải chuyển file fasta thành sở liệu dựa vào script “makeblastdb” có sẵn phần mềm BLAST+ : makeblastdb –in DH10B.fasta –out DH10B –dbtype prot Trong đó: -in file chọn để làm sở liệu BLAST -out tên sở liệu -dbtype dạng sở liệu protein (nếu nucleotide để nucl) 10 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 69 BLAST Địa email BLAST (thông thường blastx) BLAST database (nr,…) E-Value Số lượng HITs (thường =< 20) Khuyến cáo nên sử dụng XML Hiển thị thông tin theo thuật toán BDA (Best description annotator) Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 70 Các tham số khác BLAST word size Sử dụng server riêng Minimum HSP length Filter by description 35 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 71 Kết thực hành 4: BLAST Màu đỏ Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 72 Kết thực hành 4: BLAST Đánh giá độ tương đồng (similarity) e-value kết BLAST 36 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 73 Kết thực hành 4: BLAST Giao diện kết BLAST trình tự Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 74 Bài 4: Blast InterPro I Chú giải trình tự mRNA-evidence.fasta Blast InterProScan trực tiếp BLAST2GO: InterProScan: Một điểm bất tiện www.ebi.ac.uk/interpro/ không cho phép phân tích nhiều trình tự lúc, nhiên BLAST2GO cho phép tìm kiếm nhiều trình tự lúc InterPro online với tốc độ nhanh Cách làm: theo hình vẽ phía sau 37 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 75 Bài 4: Blast InterPro Chạy công cụ InterProScan máy chủ EBI trực tiếp thông qua Blast2GO Một giải xong sở liệu Interpro, mã GO Interpro thêm vào kết GO chung Kết lưu dạng file XML Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 76 Bài 4: Blast InterPro Kết InterproScan 38 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 77 Bài 5: Mapping annotation I Bước phân tích “mapping” “annotation” BLAST2GO cho phép chạy online máy chủ đặt Tây Ban Nha, nhiên tốc độ chậm II Ngoài cách chạy online, bước “mapping” “annotation” chạy local máy chủ Lobi Genome nhiên lại phức tạp, buổi học thực hành hôm hướng dẫn học viên cách chạy online phần mapping annotation (học viên thực nhà phần này) đưa kết đầu để tiếp tục phân tích Input: transcript.xml (kết Blast InterPro) Output: transcript.dat (dạng file project) Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 78 Bài 5: Mapping annotation Xanh Statistics -> Mapping Statistics -> Evidence Code distribution Statistics -> Mapping Statistics -> DB-resource of mapping 39 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 79 Bài 5: Mapping annotation BLAST based annotation Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 79 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 80 Bài 5: Mapping annotation Ngưỡng giá trị cho Annotation Score (AS) Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 80 40 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 81 Bài 5: Mapping annotation Xanh biển Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 81 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 82 Kết thực hành Statistics -> Data Distribution Statistics -> Annotation Statistics -> Annotation Distribution Statistics -> Annotation Statistics -> GO annotation level distribution 41 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 83 Bài 6: Phân loại chức Gene Ontology Các mục phân loại Tinh gọn đồ thị theo số lượng trình tự Dạng liệu hiển thị Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 84 Bài 6: Phân loại chức Gene Ontology 42 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 85 Bài 6: Phân loại chức Gene Ontology Lưu dạng ảnh txt Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 86 Bài 6: Phân loại chức Gene Ontology 43 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 87 Bài 6: Phân loại chức Gene Ontology • Sequence Distribution/GO as Bar-Chart • Sequence Distribution/GO as Level-Pie (level selection) • Sequence Distribution/GO as Multilevel-Pie (#score or #seq cutoff) Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 88 Bài 7: Phân loại enzyme pathway EC KEGG Bài tập: Thống kê toàn trình tự liên quan đến trình tổng hợp axit béo (fatty acid biosynthesis) 44 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 89 Bài tập giải hệ gen vi tảo PQ6 Sau kết thúc phần thực hành giải hệ gen học viên cần làm tập sau: Thống kê phân bố độ dài trình tự hệ gen vi tảo PQ6 (transcript.fasta) Thống kê có trình tự: non-blast, blast, mapping, annotation, mang mã EC (thống kê có mã EC), đưa vào KEGG pathway (transcript.dat) Phân loại chức hệ gen theo Gene Ontology level (transcript.dat) Thống kê chi tiết trình tự tham gia vào chu trình tổng hợp axit béo KEGG (fatty acid biosynthesis) Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 90 Một vài chức khác BLAST2GO 45 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 91 Trích xuất kết Lưu kết dạng file project để lưu trữ Trích xuất kết giải định dạng khác Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 92 Định dạng trích xuất annot C04018C10 C04018C10 C04018A12 C04018A12 GO:0004707 EC:2.7.11.24 GO:0016798 GO:0000272 mitogen-activated protein kinase class iv chitinase GeneSpring Format C04013E10 response to water deprivation; regulation ofnucleus; transcription; multicellular organismal transcription development; factor activity; response to abscisic acid stimulus; C04013A12 translation; ribosome; plastid; structural constituent of ribosome; C04013C12 galactose metabolic process; plastid; aldose 1-epimerase activity; carbohydrate binding; GoStat C04018C10 C04018A12 C04018C12 4707,9409,6979,10200,5524,169 16798,272,44248 4869,12505,8233 By Seq C04018A02 glyoxalase i C04018C02 metallothionein-like protein C04018G02 protein phosphatase GO:0004462 F:lactoylglutathione lyase activity GO:0046872 F:metal ion binding GO:0008287 C:protein serine/threonine phosphatase complex 46 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 93 Các định dạng trích xuất khác Export Sequence Table Seq Name C04018C12 C04018E12 C04018G12 C04018A02 C04018C02 C04018E02 C04018G02 C04018C04 C04018E04 C04018G04 C04018A06 Seq Description Seq Length #Hits eValuemean Similarity#GOs GOs Enzyme Codes InterProScan cysteine proteinase inhibitor 663 20 25 80.00% F:GO:0004869; C:GO:0012505; F:GO:0008233 IPR000010; IPR018073; noIPR protein phosphatase 2c 663 20 77 85.00% N:GO:0015071; F:GO:0003824 IPR001932; IPR014045; IPR015655; noIPR alpha beta fold family protein 578 20 84 79.00% F:GO:0016787; C:GO:0005739; C:GO:0009507; noIPR P:GO:0006725 glyoxalase i 600 20 64 74.00% P:GO:0005975; F:GO:0004462 EC:4.4.1.5 IPR004360; noIPR metallothionein-like protein 625 18 14 74.00% F:GO:0046872 IPR000347 haemolysin-iii related familyexpressed 612 20 32 72.00% C:GO:0016020 noIPR protein phosphataseexpressed 645 20 97 81.00% C:GO:0008287; N:GO:0015071; P:GO:0006470; no IPS match C:GO:0009536; C:GO:0005739 phosphoglycerate bisphosphoglycerate780 mutase20 family protein 63 66.00% P:GO:0008152; F:GO:0003824 IPR001345; IPR013078; noIPR polyubiquitin 707 20 115 99.00% P:GO:0006464; C:GO:0005622 IPR000626; IPR019954; IPR019955; IPR019956; noIPR meiotic recombination 11 575 20 45 89.00% 21 C:GO:0019013; P:GO:0007126; F:GO:0004519; IPR003701; IPR004843; F:GO:0005509; noIPR F:GO:0004871; C:GO:0005739; F:G late embryogenesis-abundant protein 648 20 43 68.00% P:GO:0009737; P:GO:0009409 no IPS match Export BestHit Data Sequence name C04018C10 C04018E10 C04018G10 C04018A12 C04018C12 C04018E12 C04018G12 C04018A02 C04018C02 Sequence desc Sequence lengthHit desc Hit ACC E-Value Similarity Score Alignment lengthPositives mitogen-activated protein kinase 717 gi|122894104|gb|ABM67698.1|mitogen-activated ABM67698 1.35E-123 protein kinase 99[Citrus 445.28 sinensis] 222 221 -NA 706 gi|157356307|emb|CAO62459.1|unnamed CAO62459 2.69E-036 protein product [Vitis 83vinifera] 155.22 119 99 protein 620 gi|114153154|gb|ABI52743.1|10 ABI52743 kDa putative 7.47E-015 secreted protein63 [Argas 83.57 monolakensis] 90 57 class iv chitinase 715 gi|3608477|gb|AAC35981.1|chitinase AAC35981CHI11.45E-061 [Citrus sinensis] 78 239.2 171 134 cysteine proteinase inhibitor 663 gi|8099682|gb|AAF72202.1|AF265551_1cysteine AAF72202 9.33E-025 protease inhibitor 83 116.7 [Manihot esculenta] 99 83 protein phosphatase 2c 663 gi|46277128|gb|AAS86762.1|protein AAS86762 phosphatase 2.76E-077 2C [Lycopersicon 91 291.2 esculentum] 180 164 alpha beta fold family protein 578 gi|147865769|emb|CAN83251.1|hypothetical CAN83251 1.67E-084 protein [Vitis vinifera] 94 314.69 >gi|157339464|emb|CAO44005.1| 179 169 unnamed protein product [Vitis vinifera] glyoxalase i 600 gi|2213425|emb|CAB09799.1|hypothetical CAB09799 2.16E-064 protein [Citrus x paradisi] 81 248.05 114 93 metallothionein-like protein 625 gi|3308980|dbj|BAA31561.1|metallothionein-like BAA31561 2.23E-014 protein [Citrus 100unshiu] 82.03 40 40 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 94 Sequence Selection Sequence Selection giúp lựa chọn sequence mong muốn 47 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 95 Sequence Selection By Name/Description By Function Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 96 View Menu Chức cho phép chọn trình tự muốn thị dựa chức giải 48 5/7/2015 Tin sinh học: Lắp ráp, dự đoán, giải phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 97 Mục lục thực hành Tên thực hành Slide số Bài 1: Thực hành BLAST máy chủ với liệu E.coli 19-24 Bài 2: Thực hành InterProScan web với liệu E.coli 33-34 Bài 3: Thống kê phân bố độ dài trình tự BLAST2GO 67-68 Bài 4: BLAST InterProScan BLAST2GO 69-77 Bài 5: Mapping annotation (thực nhà) 78-83 Bài 6: Phân loại chức Gene Ontology 84-88 Bài 7: Phân loại enzyme pathway EC KEGG 89 49

Ngày đăng: 20/10/2016, 06:52

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan