Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,74 MB
Nội dung
Giới thiệu tin sinh học Hồ Tú Bảo Viện Công nghệ Thông tin, TTKHTN&CNQG Viện Khoa học Công nghệ Tiên tiến Nhật (JAIST) “The “The two two technologies technologies that that will will shape shape the the next next century century are are biotechnology biotechnology and and information information technology” technology” Bill Bill Gates Gates “The “The two two technologies technologies that that will will have have the the greatest greatest impact impact on on each each other other in in the the new new millennium millennium are are biotechnology biotechnology and and information information technology technology”” Martina Martina McGloughlin McGloughlin Outline Khái niệm sinh học (http://www.ebi.ac.uk/microarray/biology_intro.html#Genomes) Phân tử sống Gene gene học Tin sinh học gì? Về vài toán tin sinh học “Sống”, Tạ Quang Bửu (1948) “…Một đêm tháng 10 năm 1910, tế bào haploid (cùng gamète với 24 chromosome) cha gặp tế bào (cùng gamète với 24 chromosome) mẹ Hai tế bào phối hợp với thành tế bào trứng với hai lần 24 chromosome Tế bào chẻ đôi sinh hai tế bào nữa, hai sinh bốn, bốn sinh tám, v,v… thành khối tế bào Khối tế bào Chín tháng sau đời với đặc điểm này: da đen, mắt hoe, chân ngắn ông nội tôi; mồm rộng, vai ngang, tai nhỏ bà ngoại Ngoài thân thể có chỗ giống ông ngoại, có chỗ giống bà nội Còn tính lười đặc biệt xem gia phả đến bậc ông cố nội ngoại không thấy tông tích Có lẽ phải lên xa Ba năm sau, theo loạt biến cố trên, em đời Em mồm rộng, da trắng, mắt hoe, chân dài Những đặc điểm đặc điểm hai gia đình chúng tôi, phân phối lại cách khác.” Basic genetics Gene học sở Phần lớn 100 tỷ tế bào (cell) thể người có chép toàn hệ gene (human genome), toàn thông tin di truyền cần thiết để tạo thể sống Hạt nhân tế bào (cell nucleus) chứa DNA gói cặp nhiễm sắc thể (chromosomes) DNA chứa gene, mã thể điều khiển khía cạnh phát triển kế thừa tế bào Protein, tạo từ amino acids, thành phần thiết yếu quan (organs) hoạt động hóa học Sinh vật tế bào (1/2) Mọi sinh vật gồm tế bào (cells) Mỗi tế bào hệ thống phức tạp gồm nhiều khối tạo dựng (building blocks) khác bọc màng (membrane) Có khoảng 6x1013 tế bào thể người, với khoảng 320 kiểu khác nhau, tế bào da, bắp, não (neurons), etc Tế bào có kích thước khác nhau: hồng cầu có đường kính chừng 0.005 mm neuron dài chừng mét Hai kiểu sinh vật tương ứng hai kiểu tế bào, kết đường tiến hóa khác Nhân chuẩn (Eukaryotes): cỏ, hoa, lúa mì, giun, ruồi, chuột, chó, mèo, người, nấm, men bia, etc Nhân sơ (Prokaryotes): bacteria Sinh vật tế bào (2/2) Mỗi tế bào nhân chuẩn gồm nucleus (nhân), tách khỏi phần lại tế bào màng ngăn Một đặc tính tế bào sống khả phát triển (to grow) môi trường thích hợp trải qua phân chia tế bào (cell division) Sự phân chia tế bào biệt lập tế bào cần kiểm soát Khi tế bào phát triển không kiểm soát tạo thành u (tumours) ung thư Molecules of life Phân tử sống Small molecules Proteins DNA Biological macromolecules RNA Small molecules Tiểu phân tử Có thể có vai trò độc lập khối tạo dựng đại phân tử (macromolecules) Thí dụ phân tử nước, đường, acids béo (fatty), amino acids đơn phân tử (nucleotides) Có 20 loại amino acids khác nhau, khối tạo dựng proteins, loại ký hiệu chữ Latin Proteins Protein đại phân tử tạo thành từ hay nhiều dãy amono acids theo thứ tự đặc biệt; thứ tự xác định dãy sở (bazơ) nucleotides gene mã hóa cho protein Các proteins cần thiết cho cấu trúc, chức điều chỉnh tế bào, mô tổ chức, protein có vai trò đặc biệt Vài thí dụ proteins là: Protein cấu trúc (Structural proteins), coi khối tạo dựng sở sinh vật Enzymes, thực (xúc tác) số lớn phản ứng sinh hóa học (biochemical reactions) Cùng với phản ứng đường chuyển hóa (pathway) chúng tạo trao đổi chất (metabolism) Protein màng (transmembrane proteins): chìa khóa trì môi trường tế bào (cellular environment), điều hòa dung tích tế bào, etc Hormones, antibodies, etc 10 Protein structures Cấu trúc protein Cấu trúc bậc (primary structure): Các dãy 20 loại amino acids khác nhau, nối với theo thứ tự tuyến tính (poly-peptide chains) Độ dài phân tử protein thay đổi từ vài đến nhiều ngàn amino-acids Cấu trúc bậc hai (secondary structure): Là xoắn gấp (folding) dãy amino acids Có hai loại cấu trúc thường thấy dãy xoắn gấp: alpha-helices (xoắn α) beta-strands (dải β) Chúng hợp với cách đặc trưng cấu trúc thông thường (loops, vòng) 11 Protein structures Cấu trúc protein Cấu trúc bậc ba (tertiary structure): Do xoắn gấp, nhiều phần dãy phân tử protein có tiếp xúc (contact) với nhau, tạo nhiều lực hút lực đẩy chúng, tạo cho phân tử có cấu trúc 3D tương đối bền vững cố định Cấu trúc bậc bốn (quaternary structure): Một protein tạo từ nhiều dãy amino-acids, gọi có cấu trúc bậc bốn Thí dụ haemoglobin tạo từ bốn dãy dãy có khả bó lại (binding) phân tử iron 12 Proteins The images below shows the structure of triosephosphate isomerase visualised by RasMol software package, a 3D viewer for MSD structures Kích thước protein từ đến 10 nanometers (nm), i.e., đến 10 x tỷ mét (10-9 m), tìm cấu trúc chúng toán khó tốn (cần khoảng €50,000 - €200,000 để tìm cấu trúc mới) 13 DNA (Deoxyribonucleic acid) DNA phân tử mang thông tin chủ yếu tế bào DNA xoắn đơn (single) hay xoắn kép (double) Phân tử DNA xoắn đơn dãy đơn phân tử (nucleotides), gọi đa đơn phân tử (polynucleotide) Bốn đơn phân tử khác chia thành hai nhóm, gọi bazơ (bases): nhóm purines gồm adenosine (A) guanine (G); nhóm pyrimidines gồm cytosine (C) thymine (T) Các đơn phân tử khác nối với theo thứ tự dạng đa đơn phân tử, A-G-T-C-C-A-A-G-C-T-T 14 DNA (Deoxyribonucleic acid) Các cặp đơn phân tử đặc biệt tạo nên liên kết yếu (weak bonds) chúng: A liên kết với T, C liên kết với G Các cặp A-T G-C gọi cặp sở (base-pairs, bp) Khi hai dãy đa đơn phân tử liên kết với nhau, chúng thường dính vào nhau, gọi DNA xoắn kép (double helix) Hai dải gọi liên kết với (complementary), dải thu từ dải cách thay tương hỗ A với T, C với G, đổi hướng phân tử theo chiều ngược lại T-T-G-A-C-T-A-T-C-C-A-G-A-T-C A-A-C-T-G-A-T-A-G-G-T-C-T-A-G 15 DNA This structure was first figured out in 1953 in Cambridge by Watson and Crick 16 RNA (ribonucleic acid) RNA tạo thành từ đơn phân tử DNA Tuy nhiên, RNA dùng U (uracil) thay T (pyrimidine thymine) thành phần DNA (chỉ có dải đơn) RNA có nhiều chức tế bào, mRNA tRNA kiếu chức khác RNA, cần thiết tổng hợp protein RNA liên kết với dải đơn phân tử DNA, cách thay T U, phân tử kiểu có vai trò quan trọng trình sống công nghệ sinh học C-G-A-T-T-G-C-A-A-C-G-A-T-G-C DNA | | | | | | | | | | || | | | G-C-U-A-A-C-G-U-U-G-C-U-A-C-G RNA 17 Genes and genomes (Gene hệ gene) Chromosomes, genomes and sequencing (Nhiễm sắc thể, hệ gene, dãy) Genes and protein synthesis (gene tổng hợp protein) Gene prediction (đoán nhận gene) Genome similarity and SNPs (sự giống hệ gene SNP) 18 Chromosomes, genomes and sequencing Nhiễm sắc thể, hệ gene, dãy Nhiễm sắc thể (chromosome): Một hay vài phân tử DNA xoắn kép dài có tổ chức Con người có 24 cặp nhiễm sắc thể Chromasomal mitochondrial DNA tạo nên hệ gene (genome) sinh vật Mọi sinh vật có hệ gene, người ta tin hệ gene mã hóa hầu hết thông tin di truyền sinh vật Mọi tế bào sinh vật chứa hệ gene (identical genomes), với ngoại lệ, kết cuả tái tạo DNA (DNA replication) tế bào phân chia 19 Chromosomes, genomes and sequencing Nhiễm sắc thể, hệ gene, dãy Xác định dãy bốn chữ phân tử DNA cho trước gọi dãy DNA (DNA sequencing) Bộ gene vi khuẩn (a bacterium) dãy toàn năm 1995 Bộ gene (yeast) gđược dãy năm 1997, giun (worm) năm 1999, ruồi (fly) năm 2000, cỏ dại (weed) năm 2001 Việc dãy toàn hệ gene người hoàn thành năm 2003, biết hệ gene người (human genome) Các hệ gene chứa gene, phần lớn chúng mã hóa proteins 20 What is bioinformatics? Tin sinh học gì? Bio: Sinh học phân tử (Molecular Biology) Informatics: Khoa học tính toán Bioinformatics: Giải toán sinh học việc sử dụng phương pháp khoa học tính toán Synonyms: Computational biology, Computational molecular biology, Biocomputing 33 Thay đổi sinh học Paradigm shift in biology Một Mộtkiểu kiểuthức thứcmới mớiđang đangxuất xuấthiện hiệnlàlàtất tấtcả cảcác các‘genes’ ‘genes’sẽ sẽsớm sớmđược biết hết (theo nghĩa có sở liệu điện tử), nghĩa biết hết (theo nghĩa có sở liệu điện tử), nghĩalàlà điểm điểmbắt bắtđầu đầucủa củamột mộtkhảo khảosát sátsinh sinhhọc họcsẽ sẽlàlàlýlýthuyết thuyết.Mỗi Mỗinhà nhàkhoa khoa học khởi đầu ước đoán lý thuyết, chuyển học khởi đầu ước đoán lý thuyết, chuyểnqua qua làm thí nghiệm để theo kiểm tra giả thuyết làm thí nghiệm để theo kiểm tra giả thuyết Để Đểdùng dùngdòng dòngchảy chảytri trithức thứctrên trêncác cácmạng mạngtoàn toàncầu, cầu,các cácnhà nhàsinh sinhhọc học phải biết dùng máy tính, mà phải thay đổi cách phải biết dùng máy tính, mà phải thay đổi cách tiếp tiếpcận cậncủa củamình mìnhđối đốivới vớibài bàitoán toánhiểu hiểusự sựsống sống The new paradigm, now emerging, is that all the ‘genes’ will be known (in the sense of being resident in databases available electronically), The new paradigm, now emerging, is that all the ‘genes’ will be known (in the sense of being resident in databases available electronically), and that the starting point of a biological investigation will be theoretical An individual scientist will begin with a theoretical conjecture, and that the starting point of a biological investigation will be theoretical An individual scientist will begin with a theoretical conjecture, only then turning to experiment to follow or test that hypothesis only then turning to experiment to follow or test that hypothesis To use [the] flood of knowledge, which will pour across the computer networks of the world, biologists not only must become computer To use [the] flood of knowledge, which will pour across the computer networks of the world, biologists not only must become computer literate, but also change their approach to the problem of understanding life literate, but also change their approach to the problem of understanding life Walter WalterGilbert Gilbert 1991 1991 Towards Towardsaaparadigm paradigmshift shiftininbiology biology Nature, Nature,349:99 349:99 34 Base Pairs in GenBank 10,267,507,282 bases in 9,092,760 records 35 Public databases 36 Mở rộng khái niệm Tin sinh học Xác định đặc trưng chức genes Gene học (genomics) Gene học chức Gene học cấu trúc Protein học (Proteomics): Phân tích proteins sinh vật nhiều mức (large scale) Gene dược học (Pharmacogenomics): Phát triển thuốc nhằm đến bệnh đặc biệt Microarray (genome chip): DNA chip, protein chip Nghiên cứu thể gene mức protein đồng đặt trưng proteins có mẫu sinh học Dùng thông tin gene để dự đoán an toàn, độc tính và/hoặc hiệu thuốc với người bệnh nhóm người bệnh Một công nghệ nhằm đưa toàn hệ gene chip cho nghiên cứu viên có tranh tốt tương tác đồng thời hàng ngàn genes 37 Problems in Bioinformatics Phân tích cấu trúc So sánh cấu trúc protein Dự đoán cấu trúc protein Mô hình hóa cấu trúc RNA Phân tích đường chuyển hóa Đường trao đổi chất (metabolic pathway) Mạng điều tiết (regulatory networks) Phân tích dãy Sắp dãy (sequence alignment) Dự đoán chức cấu trúc Tìm gene (Gene finding) 2.0 1.5 1.0 0.5 -0.0 2.0 1.5 1.0 0.5 -0.0 2.0 1.5 1.0 0.5 -0.0 1,000 2,000 3,000 4,000 1,000 2,000 3,000 4,000 768 TT TGTGTGCATTTAAGGGTGATAGTGTATTTGCTCTTTAAGAGCTG || || || | | ||| | |||| ||||| ||| ||| 87 TTGACAGGTACCCAACTGTGTGTGCTGATGTA.TTGCTGGCCAAGGACTG 814 AGTGTTTGAGCCTCTGTTTGTGTGTAATTGAGTGTGCATGTGTGGGAGTG | | | | |||||| | |||| | || | | 136 AAGGATC TCAGTAATTAATCATGCACCTATGTGGCGG 864 AAATTGTGGAATGTGTATGCTCATAGCACTGAGTGAAAATAAAAGATTGT ||| | ||| || || ||| | ||||||||| || |||||| | 173 AAA.TATGGGATATGCATGTCGA CACTGAGTG AAGGCAAGATTAT 813 135 863 172 913 216 Phân tích thể Phân tích thể gene Phân nhóm gene 38 Pathway analysis Mỗi phản ứng hóa học hoán chuyển (interconverts) thành phần hóa học Một enzyme protein có chức thúc đẩy phản ứng hóa học Một đường chuyển hóa (pathway) tập phản ứng hóa học nối với 39 Sequencing project management Nucleotide sequence analysis Sequence entry Sequence database browsing Manual sequence entry An overview of sequence analysis Nucleotide sequence file Search for protein coding regions Search databases for similar sequences Design further experiments zRestriction mapping zPCR planning coding non-coding Search databases for similar sequences Sequence comparison Search for known motifs Translate into protein RNA structure prediction Protein sequence analysis Protein sequence file Search for known motifs Predict secondary structure Sequence comparison Multiple sequence analysis Create a multiple sequence alignment Predict tertiary structure Edit the alignment Format the alignment for publication Molecular phylogeny Protein family analysis 40 Primary public domain bioinformatics servers Public Domain Bioinformatics Facilities National Center For Biotechnology Information (NCBI) United States Databases Analysis Tools European Bioinformatics Institute (EBI) United Kingdom Databases Analysis Tools Genome Net (KEGG & DDBJ) Japan Databases Analysis Tools 41 Analysis Tools Công cụ phân tích EBI lo versions để tìm sở liệu lĩnh vực công cộng chủ yếu công cụ phân tích FASTA, CLUSTALW, BLAST, cài đặt Smith & Waterman 42 Challenges in Bioinformatics Tin sinh học đòi hỏi: Truy nhập vào nhiều nguồn phân tán (Access to multiple distributed resources) Cần thông tin cập nhật (Needs information to be up-to-date) Dư thừa liệu tối thiểu (Minimal data redundancy) Các ứng dụng ổn định (Robust applications) Các ứng dụng mở rộng (Extendable applications) Monolithic App vs Components Các phần mềm chuyển tải (Portable software) 43 Challenges in Bioinformatics Bùng nổ thông tin Cần phân tích nhanh, tự động để xử lý lượng thông tin lớn Cần tích hợp nhiều kiểu thông tin khác (sequences, literature, annotations, protein levels, RNA levels etc…) Cần phần mềm “thông minh hơn” để nhận biết quan hệ quan trọng tập liệu lớn Thiếu “nhà tin sinh học” (“bioinformaticians”) Phần mềm cần dễ truy nhập, dễ dùng dễ hiểu Nhà sinh học cần học phần mềm, thấy hạn chế chúng, cách giải thích kết chúng 44 Outline Khái niệm sinh học Sinh tin học gì? Về vài toán sinh tin học 45 Bài toán đoán nhận cấu trúc protein Có khoảng 15,000 cấu trúc protein sở liệu công cộng, số nhiều cấu trúc giống Con người biết chừng 1,500 cấu trúc protein khác Dự đoán cấu trúc protein từ dãy amino-acid toán quan trọng tin sinh học, người cách lời giải xa 46 Đối sánh dãy (string matching) (Approximate) String Matching Input: Text T , Pattern P Question(s): Applications: PP xuất xuất hiện trong T? T? Tìm Tìm một xuất xuất hiện của PP trong T T Tìm Tìm mọi xuất xuất hiện của PP trong T T Tính Tính số số xuất xuất hiện của PP trong T T Tìm Tìm dãy dãy con dài dài nhất của PP trong T T Tìm Tìm dãy dãy con gần gần nhất của PP trong T T Xác Xác định định các lặp lặp trực trực tiếp tiếp của PP trong T T Liệu Liệu PP đã có có trong cơ sở sở dữ liệu liệu T? T? Xác Xác định định vị vị trí trí của PP trong T T Liệu Liệu có thể dùng dùng PP như một nguyên nguyên tố tố của T? T? PP có có tương tương đồng đồng với với gì đó trong T? T? PP có có bị bị hỏng hỏng bởi T? T? Liệu suffix(T)? Liệu prefix(P) prefix(P) == suffix(T)? Xác Xác định định các lặp lặp sau sau trước trước (tandem) (tandem) của PP trong T T nhiều biến dạng khác 47 Đối sánh dãy String matching Input: Text T; Pattern P Output: Mọi xuất P T Chiến lược trượt window: Khởi tạo window từ đầu T; While (window T) Scan: if (window = P) then report it; Shift: dịch window bên phải (một vị trí) endwhile; 48 Đối sánh dãy String matching ATAQAANANASPVANAGVERANANESISITALVDANANANANAS ANANAS ANANAS ANANAS ANANAS ANANAS ANANAS ANANAS ANANAS ANANAS ANANAS ANANAS ANANAS 49 Sắp thẳng dãy cặp Pairwise Sequence Alignment Input Bài toán tin sinh học Hai dãy chữ Một cách cho điểm Output Cách thẳng dãy tối ưu ATTGCGC C ATTGCGC Các dãy thẳng ⇒ có dùng cấu trúc chức Cho nhiều gợi ý cấu trúc chức dãy thẳng biết Æ ATTGCGC Æ ATCCGC ATTGCGC Æ AT-CCGC ATTGCGC Æ ATC-CGC ATTGCGC Æ ATCCG-C 50 HMM in sequence alignment HMM toán dãy Các trạng thái HMM chia thành loại: đối sánh (match), thêm vào (insert) xóa (delete) Bảng chữ M bao gồm hai mươi amino acids với ký hiệu câm δ (dummy symbol) biểu diễn cho “delete” Trạng thái xóa cho δ (output δ) Mỗi trạng thái “đối sánh” “thêm vào”có phân bố riêng 20 amino acids, ký tự δ không tryuền Các dãy dãy dùng liệu huấn luyện, để học tham số mô hình Với dãy, thuật toán Viterbi dùng để xác định đường (path) để tạo dãy 51 HMM in sequence alignment HMM toán dãy Xét dãy CAEFDDH CDAEFPDDH Giả sử mô hình có độ dài 10 đường (likely) mô hình m0m1m2m3m4d5d6m7m8m9m10 m0m1i1m2m3m4d5m6m7m8m9m10 Phép hàng tìm vị trí vốn sinh mởi trạng thái đối sánh Kết qủa pháp dãy sau C–AEF –DDH CDAEFPDDH 52 Sắp dãy cặp dãy bội Pairwise vs Multiple Sequences Các cặp dãy cách tiêu biểu dùng thuật toán vét cạn quy hoạch động Độ phức tạp phương pháp vét cạn O(2n mn) n = số dãy Sắp dãy bội xử dụng phương pháp heuristic #Rat #Mouse #Rabbit #Human #Oppossum #Chicken #Frog ATGGTGCACCTGACTGATGCTGAGAAGGCTGCTGT ATGGTGCACCTGACTGATGCTGAGAAGGCTGCTGT ATGGTGCATCTGTCCAGT -GAGGAGAAGTCTGC ATGGTGCACCTGACTCCT -GAGGAGAAGTCTGC ATGGTGCACTTGACTTTT -GAGGAGAAGAACTG ATGGTGCACTGGACTGCT -GAGGAGAAGCAGCT -ATGGGTTTGACAGCACATGATCGT -CAGCT 53 Sequence comparison: Gene sequences can be aligned to see similarities between gene from different sources 54 Đoán nhận gene Gene prediction Là toán quan trọng tin sinh học có nhiều thuật toán cho đoán nhận gene dựa gene biết liệu huấn luyện Một kỹ thuật toán nhận gene phổ biến Hidden Markov Models (HMMs) (given the genomic DNA sequence, can we tell where the genes are?) 55 Gene clustering and some discovered patterns Pattern ACGCG ACGCGT CCTCGACTAA GACGCG TTTCGAAACTTACAAAAAT TTCTTGTCAAAAAGC ACATACTATTGTTAAT GATGAGATG TGTTTATATTGATGGA GATGGATTTCTTGTCAAAA TATAAATAGAGC GATTTCTTGTCAAA GATGGATTTCTTG GGTGGCAA TTCTTGTCAAAAAGCA Probability 6.41E-39 5.23E-38 5.43E-38 7.89E-31 2.08E-29 2.08E-29 3.81E-28 5.60E-28 1.90E-27 5.04E-27 1.51E-26 3.40E-26 3.40E-26 4.18E-26 5.10E-26 Cluster 96 94 27 86 26 26 22 68 24 18 27 20 20 40 29 No 75 52 18 40 14 14 13 24 13 12 13 12 12 20 13 Total 1088 387 23 284 18 18 18 83 18 18 18 18 18 96 18 56 The "GGTGGCAA" Cluster ORF YBL041W YBR170C YDL126C YDL100C YDL097C YDR313C YDR330W YDR394W YDR427W YDR510W YER012W YFR004W YFR033C YFR050C YFR052W YGL048C YGL036W YGL011C YGR048W YGR135W YGR253C YIL075C YJL102W YJL053W YJL036W YJL001W YJR117W YKL145W YKL117W YLR387C YMR314W YOL038W YOR117W YOR157C YOR176W YOR259C YOR317W YOR362C YPR103W YPR108W Gene PRE7 NPL4 CDC48 RPN6 PIB RPT3 RPN9 SMT3 PRE1 RPN11 QCR6 PRE4 RPN12 RPT6 MTC2 SCL1 UFD1 PRE9 PUP2 RPN2 MEF2 PEP8 PRE3 STE24 RPT1 SBA1 PRE5 PRE6 RPT5 PUP1 HEM15 RPT4 FAA1 PRE10 PRE2 RPN7 Description 20S proteasome subunit(beta6) nuclear protein localization factor and ER translocation component microsomal protein of CDC48/PAS1/SEC18 family of ATPases similarity to E.coli arsenical pump-driving ATPase subunit of the regulatory particle of the proteasome phosphatidylinositol(3)-phosphate binding protein similarity to hypothetical S pombe protein 26S proteasome regulatory subunit subunit of the regulatory particle of the proteasome ubiquitin-like protein 20S proteasome subunit C11(beta4) 26S proteasome regulatory subunit ubiquinol cytochrome-c reductase 17K protein 20S proteasome subunit(beta7) 26S proteasome regulatory subunit 26S proteasome regulatory subunit Mtf1 Two hybrid Clone 20S proteasome subunit YC7ALPHA/Y8 (alpha1) ubiquitin fusion degradation protein 20S proteasome subunit Y13 (alpha3) 20S proteasome subunit(alpha5) 26S proteasome regulatory subunit translation elongation factor, mitochondrial vacuolar protein sorting/targeting protein weak similarity to Mvp1p 20S proteasome subunit (beta1) zinc metallo-protease 26S proteasome regulatory subunit Hsp90 (Ninety) Associated Co-chaperone similarity to YBR267w 20S proteasome subunit(alpha6) 20S proteasome subunit (alpha4) 26S proteasome regulatory subunit 20S proteasome subunit (beta2) ferrochelatase precursor 26S proteasome regulatory subunit long-chain-fatty-acid CoA ligase 20S proteasome subunit C1 (alpha7) 20S proteasome subunit (beta5) subunit of the regulatory particle of the proteasome 57 Gene discovery: Computer program can be used to recognise the protein coding regions in DNA 1,000 2,000 3,000 4,000 1,000 2,000 3,000 4,000 2.0 1.5 1.0 0.5 -0.0 2.0 1.5 1.0 0.5 -0.0 2.0 1.5 1.0 0.5 -0.0 Plot created using codon preference (GCG) 58 A C G U A G A U G C U A RNA structure prediction C Structural features of RNA can be predicted U A A C A C G G GU C G U GA A U U C U A G U C G G G G C U CG U G U C A A C G C A G U C C A U C G C G U A G U G CG C C A 59 Protein structure prediction: Particular structural features can be recognised in protein sequ ences sequences 50 100 50 100 5.0 KD Hydrophobicity -5.0 10 Surface Prob 0.0 1.2 Flexibility 0.8 1.7 Antigenic Index -1.7 CF Turns CF Alpha Helices CF Beta Sheets GOR Turns GOR Alpha Helices GOR Beta Sheets Glycosylation Sites 60 Machine learning tools for bioinformatics Neural Networks Sequence Encoding and Output Interpretation Prediction of Protein Secondary Structure Prediction of Signal Peptides and Their Cleavage Sites Applications for DNA and RNA Nucleotide Sequences Hidden Markov Models Protein Applications DNA and RNA Applications Probabilistic Graph Models Probabilistic Models of Evolution Stochastic Grammars and Linguistics (Bioinformatics: the machine learning approach, Pierre Baldi, Soren Brunak, MIT Press) 61 Summary Đề cập số khái niệm sinh học tin sinh học, toán tin sinh học Tin sinh học lĩnh vực quan trọng, đầy thách thức Tin sinh học liên quan chặt với data mining and machine learning Ta cần đường nào? Darwin: It’s not the strongest, nor the most intelligent, but the species most adaptable to change has the best chance of survival 62 [...]... (Bioinformatics: the machine learning approach, Pierre Baldi, Soren Brunak, MIT Press) 61 Summary Đề cập một số khái niệm cơ bản trong sinh học và tin sinh học, và những bài toán chính của tin sinh học Tin sinh học là một lĩnh vực quan trọng, đầy thách thức Tin sinh học liên quan chặt với data mining and machine learning Ta cần đi con đường nào? Darwin: It’s not the strongest, nor the most intelligent,... Thiếu các “nhà tin sinh học (“bioinformaticians”) Phần mềm cần dễ truy nhập, dễ dùng và dễ hiểu hơn Nhà sinh học cần học phần mềm, thấy hạn chế của chúng, và cách giải thích kết quả của chúng 44 Outline Khái niệm cơ bản của sinh học Sinh tin học là gì? Về một vài bài toán trong sinh tin học 45 Bài toán đoán nhận cấu trúc protein Có khoảng 15,000 cấu trúc protein trong các cơ sở dữ liệu công... sequenced human genome 32 What is bioinformatics? Tin sinh học là gì? Bio: Sinh học phân tử (Molecular Biology) Informatics: Khoa học tính toán Bioinformatics: Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học tính toán Synonyms: Computational biology, Computational molecular biology, Biocomputing 33 Thay đổi trong sinh học Paradigm shift in biology Một Mộtkiểu kiểuthức... về hệ gene và các nỗ lực về dãy để trả lời câu hỏi các genes nào được thể hiện trong một kiểu tế bào đặc biệt của một sinh vật, ở một thời điểm đặc biệt, trong những điều kiện đặc biệt 27 Outline Khái niệm cơ bản của sinh học Sinh tin học là gì? Về một vài bài toán trong sinh tin học Bioinformatics: the machine learning approach, Pierre Baldi, Soren Brunak, MIT Press 2001 Bioinformatics basics:... paradigmshift shiftininbiology biology Nature, Nature,349:99 349:99 34 Base Pairs in GenBank 10,267,507,282 bases in 9,092,760 records 35 Public databases 36 Mở rộng các khái niệm của Tin sinh học Xác định và đặc trưng chức năng của genes Gene học (genomics) Gene học chức năng Gene học cấu trúc Protein học (Proteomics): Phân tích proteins của một sinh vật ở nhiều mức (large scale) Gene dược học (Pharmacogenomics):... sátsinh sinhhọc họcsẽ sẽlàlàlýlýthuyết thuyết.Mỗi Mỗinhà nhàkhoa khoa học sẽ khởi đầu bằng một ước đoán lý thuyết, rồi mới chuyển học sẽ khởi đầu bằng một ước đoán lý thuyết, rồi mới chuyểnqua qua làm thí nghiệm để theo hoặc kiểm tra giả thuyết làm thí nghiệm để theo hoặc kiểm tra giả thuyết Để Đểdùng dùngdòng dòngchảy chảytri trithức thứctrên trêncác cácmạng mạngtoàn toàncầu, cầu,các cácnhà nh sinh sinhhọc... có các chữ cái khác nhau tại các vị trí này 24 Functional genomics (Gene học chức năng) Gene học chức năng (functional genomics) có thể được định nghĩa nôm na như việc dùng tri thức tiêu biểu về hệ gene để tìm hiểu về genes, về các chức năng sản xuất và sự tương tác của chúng, và quan trọng hơn là vì sao điều này làm cho các sinh vật hoạt động Gene functions (Chức năng gene) Protein abundance in... Challenges in Bioinformatics Bùng nổ thông tin Cần phân tích được nhanh, tự động để xử lý được lượng thông tin lớn Cần tích hợp được nhiều kiểu thông tin khác nhau (sequences, literature, annotations, protein levels, RNA levels etc…) Cần các phần mềm “thông minh hơn” để nhận biết được các quan hệ quan trọng trong các tập dữ liệu rất lớn Thiếu các “nhà tin sinh học (“bioinformaticians”) Phần mềm... hiện gene ở mọi mức của protein bởi đồng nhất và đặt trưng proteins có trong các mẫu sinh học Dùng thông tin về gene để dự đoán sự an toàn, độc tính và/hoặc hiệu quả của thuốc với người bệnh hoặc nhóm người bệnh Một công nghệ mới nhằm đưa toàn bộ hệ gene trên một chip sao cho các nghiên cứu viên có một bức tranh tốt hơn về tương tác đồng thời của hàng ngàn genes 37 Problems in Bioinformatics Phân tích... đó thông tin mã hóa trong một gene được truyền vào cấu trúc đang có trong tế bào và điều khiển tế bào (hoặc proteins hoặc RNAs) Một câu hỏi quan trọng và lý thú khác trong sinh học là sự thể hiện gene được “bật” và “tắt” thế nào, tức là các genes được điều chỉnh thế nào 26 Microarrays and gene expression databases Công nghệ microarray sử dụng nguồn tạo bởi các đề tài về hệ gene và các nỗ lực về dãy để