Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
189,43 KB
Nội dung
Tin Sinh Học Bioinformatics Tin sinh học (bioinformatics) lĩnh vực khoa học sử dụng công nghệ ngành toán học ứng dụng, tin học, thống kê khoa học máy tính để giải vấn đề sinh học Các nghiên cứu ngành sinh học tính toán (computational biology) thường trùng lặp với sinh học hệ thống (systems biology) Những lĩnh vực nghiên cứu bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein(protein structural alignment), dự đoán cấu trúc protein (protein structure prediction), dự đoán biểu gene (gene expression) tương tác protein - protein (protein-protein interactions), mô hình hóa trình tiến hoá Thuật ngữ tin sinh học sinh học tính toán thường dùng hoán đổi cho nhau, trước, nói cách nghiêm túc, tập sau Những mối quan tâm dự án tin sinh học sinh học tính toán việc sử dụng công cụ toán học để trích rút thông tin hữu ích từ liệu hỗn độn thu nhận từ kĩ thuật sinh học với lưu lượng mức độ lớn (Lĩnh vực khai phá liệu (data mining) trùng lắp với sinh học tính toán phương diện này.) Những toán đặc trưng sinh học tính toán bao gồm việc lắp ráp (assembly) trình tự DNA chất lượng cao từ đoạn ngắn DNA thu nhận từ kỹ thuật xác định trình tự DNA, việc dự đoán qui luật điều hòa gene (gene regulation) với liệu từ mRNA, microarray hay khối phổ(mass spectrometry) Lý giải thông tin thu từ nguồn sở liệu khổng lồ DNA nhiều toán mà nhà tin sinh học phải giải Các lĩnh vực nghiên cứu Genomics - Hệ gene học Phân tích trình tự Bài chính: Bắt cặp trình tự, CSDL trình tự Kể từ Phage Φ-X174 xác định trình tự (1977) nay, trình tự DNA nhiều loài sinh vật lưu trữ ngân hàng sở liệu gene Những liệu phân tích để tìm gene cấu trúc (gene mã hoá cho protein đó), tìm qui luật trình tự tương đồng protein) Việc so sánh gene loài hay loài khác cho thấy tương đồng chức protein, hay mối quan hệ phát sinh chủng loài loài (thể phát sinh chủng loài (phylogenetic tree)) Với tăng trưởng khổng lồ liệu loại này, việc phân tích trình tự DNA cách thủ công trở nên thực Ngày nay, chương trình máy tính sử dụng để giúp tìm trình tự tương đồng đồ gen (genome) hàng loạt sinh vật, với số lượng nucleotide trình tự lên đến hàng tỉ Những chương trình tìm kiếm trình tự DNA không giống hoàn toàn đột biến nucleotide (thay thế, hay thêm gốc base) Những giải thuật bắt cặp trình tự(sequence alignment) áp dụng trình xác định trình tự DNA, kỹ thuật xác định trình tự đoạn nhỏ(shotgun sequencing) (Kỹ thuật công ty Celera Genomics sử dụng để xác định trình tự genome vi khuẩnHaemophilus influenza.) Kỹ thuật xác định trình tự tiến hành với đoạn trình tự DNA lớn (cỡ vài chục nghìn nucleotide trở lên) nên người ta sử dụng xác định trình tự nhỏ để giải mã hàng nghìn đoạn trình tự với kích thước khoảng 600 - 800 nucleotide Sau đó, đoạn trình tự nhỏ xếp thứ tự nối lại với (thông qua việc bắt cặp trình tựở đầu gối lên (overlap)) tạo thành trình tự genome hoàn chỉnh Kỹ thuật xác định trình tự đoạn nhỏ tạo chuỗi liệu cách nhanh chóng, nhiệm vụ xếp lại mảnh DNA phức tạp cho genome lớn Trong trường hợp dự án đồ gen người (Human Genome Project), nhà tin sinh học phải hàng tháng đồng thời sử dụng hàng loạt siêu máy tính (các máy DEC Alpha đời năm 2000) để xếp trình tự ngắn lại Xác định trình tự đoạn nhỏ kỹ thuật ưu tiên sử dụng hầu hết dự án giải mã genome vàgiải thuật lắp ráp genome (genome assembly algorithms) lĩnh vực nóng tin sinh học Một khía cạnh khác tin sinh học việc phân tích trình tự việc tìm kiếm tự động gen trình tự điều khiển bên genome Không phải tất nucleotides bên genome gene Phần lớn DNA bên genome sinh vật bậc cao đoạn DNA không phục vụ cho nhiệm vụ cụ thể (hoặc khoa học chưa nhận ra) gọi đoạn DNA rác (junk DNA) Tin sinh học giúp kết nối liệu dự án genomics vàproteomics, ví dụ việc sử dụng trình tự DNA để nhận dạng protein Xem thêm: phân tích trình tự, công cụ định danh chuỗi (sequence profiling tool), trình tự motif Chỉ định Genome Bài chính: Tìm kiếm gene Về phía lĩnh vực gen chuyên nghiên cứu đồ gen (genomics), annotation trình đánh dấu gen đặc tính sinh học (biological features) khác chuỗi DNA Hệ thống phần mềm làm nhiệm vụ "genome annotation" thiết kế vào năm 1995 Owen White, anh thuộc nhóm đảm nhiệm việc xếp trình tự phân tích đồ gen sinh vật tự ('free-living organism) để giải mã, khuẩn Haemophilus influenzae Dr White xây dựng hệ thống phần mềm để tìm kiếm gen (nằm chuỗi DNA nhằm nhiệm vụ mã hóa proteine), RNA chuyển vận (transfer RNA), chức khác, để tạo chức cho gen Hầu hết hệ thống genome annotation hoạt động tương tự, chương trình nhằm để phân tích lãnh vực nghiên cứu đồ gen DNA (genomic DNA) thường xuyên thay đổi cải tiến Hệ thống Ensembl hệ thống genome annotation pipeline cho đồ gen người phát triển Ewan Birney viện Sanger (The Sanger Institute) gần Cambridge, England[1] Dò tìm đột biến SNP Rất nhiều nghiên cứu xác định trình tự (sequencing) nhằm tìm đột biến điểm (point mutation) xảy gene khác ung thư Tập sơ khởi (sheer volume) liệu tạo đòi hỏi hệ thống tự động đọc liệu kiểu chuỗi (sequence data), so sánh trình tự kết với trình tự biết genome người, bao gồm điểm đa hình tế bào dòng tinh (germline) biết Những hệ thống oligonucleotide microarray, bao gồm hệ thống dùng để phát điểm đa hình đơn nucleotide (single nucleotide polymorphism) khảo sát tính dị biệt so sánh genome (comparative genomic hybridization), với khả cho phép nghiên cứu đồng thời hàng trăm ngàn vị trí toàn đồ gen sử dụng để xác định đột biến thêm đoạn nhiễm sắc thể trình hình thành ung thư Mô hình chuỗi Markov ẩn (Hidden Markov Model) phương phápphân tích điểm thay đổi (change-point analysis) phát triển để suy số lượng thực thay đổi từ liệu hỗn độn (noisy data) Các phương pháp tiếp cận thông tin phát triển để phát thương tổn DNA trùng hợp xảy nhiều dạng ung thư Sinh học tiến hoá Phân loại học phân tử Sinh học tiến hoá (Evolutionary biology) ngành học nghiên cứu tổ tiên, hậu duệ trình phát triển chủng loài theo thời gian Những phát triển gần lĩnh vực xác định trình tự gen phổ biến máy tính tốc độ cao cho phép nhà nghiên cứu theo dõi tiến hoá loài dựa thay đổi trình tự DNA Tiến hóa học máy tính(Computational Evolutionary Biology, CEB) đời trước kỷ nguyên hệ gene học (genomics) nghiên cứu xây dựng mô hình tính toán quần thể biến thiên chúng theo thời gian Tiếp cận vấn đề theo chiều hướng ngược lại với CEB - thay sử dụng chương trình máy tính để điều tra trình tiến hoá, lĩnh vực giải thuật di truyền (genetic algorithm) tìm cách tối ưu hóa chương trình máy tính thông qua nguyên lí tiến hoá (evolutionary principles) Bảo tồn đa dạng sinh học Tin sinh học thường áp dụng lĩnh vực bảo tồn đa dạng sinh học (biodiversity) Thông tin quan trọng thu thập tên, miêu tả, phân bố, trạng thái kích thước dân số chủng loài (species), nhu cầu thói quen (habitat) cách mà tổ chức tương tác với chủng loài khác Thông tin lưu trữ vào sở liệu máy tính, truy xuất chương trình phần mềm để tìm kiếm, hiển thị, phân tích thông tin cách tự động, quan trọng nhất, để giao tiếp với người, đặc biệt qua internet Các chuỗi DNA loài tuyệt chủng bảo quản, tên miêu tả loài bị giam giữ lưu lại phép truy xuất tối đa đến thông tin cần cho việc bảo tồn đa dạng sinh học Một ví dụ ứng dụng dự án Species 2000 [2] Nó dự án nghiên cứu toàn cầu dựa vào internet để giúp cung cấp thông tin chủng loài biết đến cây, động vật, nấm (fungus), vi khuẩn (microbe) tồn để làm tảng cho việc nghiên cứu đa dạng sinh học toàn cầu Bất giới tìm thấy lượng lớn thông tin chủng loài từ sở liệu cung cấp Phân tích chức gene Mức độ biểu gene Nhà sinh học phân tử đánh giá mức độ biểu gene cách xác định lượng mRNA tạo từ gene thông qua kỹ thuật microarray, EST (expressed sequence tag), SAGE (*****l Analysis of Gene Expression), MPSS(massively parallel signature sequencing), hay khối phổ (định lượng protein) Tất kĩ thuật tạo liệu chứa thông tin nhiễu (noise-prone) làm việc tính toán, phân tích trở nên phức tạp Yêu cầu thực tế cho đời lĩnh vực sinh học tính toán phát triển công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu nhữngnghiên cứu biểu gene đa lượng (high-throughput gene expression) Các nghiên cứu thường dùng để xác định geneliên quan đến bệnh lý định, người ta so sánh liệu microarray từ tế bào bị ung thư với tế bào bình thường để xác định protein tăng cường hay giảm thiểu ung thư Dữ liệu biểu gene dùng để nghiên cứu điều hòa gen, người ta so sánh liệu microarray sinh vật trạng thái sinh lý khác từ kết luận vài trò gen tham gia vào trạng thái Đối với sinh vật đơn bào, ta so sánh giai đoạn khác chu kỳ tế bào (cell cycle), hay phản ứng thể điều kiện stress(stress sốc nhiệt, stress đói dinh dưỡng, v.v.) Người ta áp dụng giải thuật phân nhóm (clustering algorithms) liệu biểu để xác định nhóm gene đồng biểu hiện, hay đơn vị điều hòa (regulon) Những phân tích triển khai theo nhiều hướng, ví dụ phân tích trình tự promoter nhóm gene để xác định nhân tố điều hòachung sử dụng công cụ máy tính để dự đoán promoter liên quan đến chế điều hòa nhóm gene (tham khảo [3]) Nhận diện protein Bài chính: Nhận diện chuỗi polypeptide Protein microarray hệ thống khối phổ cao (high throughput mass spectrometry) cung cấp hình ảnh (snapshot) tổng thể protein có mẫu sinh học (biological sample) Các ứng dụng tin sinh học có liên quan nhiều đến việc lý giải liệu thu từ hệ thống Đối với protein microarray, nhà tin sinh học cần chuyển kiểm tra liệu mRNA gắn array Trong đó, vấn đề tin sinh học liên quan đến việc so trùng (matching) liệu khối phổ với sở liệu trình tự protein Dự đoán cấu trúc protein Bài chính: Dự đoán cấu trúc protein Dự đoán cấu trúc ứng dụng quan trọng tin sinh học Có thể dễ dàng xác định trình tự axit amin hay gọi làcấu trúc bậc protein từ trình tự gene mã hóa cho Nhưng, protein có chức vốn có cuộn gấp thành hình dạng xác (nếu điều xảy ta có cấu trúc bậc hai, cấu trúc bậc ba cấu trúc bậc bốn) Tuy nhiên, vô khó khăn dự đoán cấu trúc gấp nếp từ trình tự axit amin Một số phương pháp dự đoán cấu trúc máy tính phát triển Một ý tưởng quan trọng nghiên cứu tin sinh học quan điểm tương đồng Trong nhánh genomic tin sinh học, tính tương đồng sử dụng để dự đoán cấu trúc gene: biết trình tự chức gene A trình tự tương đồng với trình tự gene B chưa biết chức kết luận A B có chức Trong nhánh cấu trúc tin sinh học, tính tương đồng dùng để xác định hợp phần quan trọng cấu trúc protein tương tác với protein khác Với kỹ thuật mô tính tương đồng (homology modelling), thông tin dùng để dự đoán cấu trúc protein biết cấu trúc protein khác tương đồng với Hiện cách dự đoán cấu trúc protein đáng tin cậy Một ví dụ hemoglobin người hemoglobin họ đậu (leghemoglobin) tương đồng với Cả hai có vai trò vận chuyển ôxy Mặc dù trình tự axit amin hoàn toàn khác nhau, cấu trúc chúng thực tế lại đồng cho thấy chúng có chức Các kỹ thuật dự đoán cấu trúc protein khác protein threading de novo (from scratch) physics-based modeling Xem thêm: motif cấu trúc Các hệ thống sinh học kiểu mẫu Bài chính: sinh học hệ thống Sinh học hệ thống bao gồm việc sử dụng khả mô máy tính (computer simulation) hệ quan tế bàocellular (như mạng ****bolites enzyme, chúng bao gồm ****bolism, signal transduction pathways gene regulatory networks) để phân tích hiển thị hoá (visualize) việc kết nối phức tạp trình tế bào Sự sống nhân tạo (Artificial life) hay tiến hoá ảo nổ lực nhằm tìm hiểu trình tiến hoá thông qua việc mô máy tính dạng sống (nhân tạo) đơn giản Phân tích hình ảnh mức độ cao Các kĩ thuật tính toán dùng để tăng tốc độ giúp tự động hoàn toàn trình xử lí, định lượng phân tích lượng lớn hình ảnh sinh học có chứa-thông-tin-cao Các hệ thống xử lí ảnh đại tăng cường khả quan sát để giúp cho việc tính toán từ tập lớn phức tạp hình ảnh, cách cải tiến độ xác, tính khách quan, hay tốc độ Một hệ thống phân tích phát triển hoàn thiện hoàn toàn thay người quan sát Trong hệ thống không phục vụ cho ảnh liên quan đến sinh học, ứng dụng chúng vấn đề sinh học tiếp tục tìm giải pháp thách thức, nhằm đưa nhiều ứng dụng xử lí ảnh thuộc lĩnh vực tin sinh học Những hệ thống dần trở thành quan trọng chẩn đoán nghiên cứu Một vài ví dụ là: Định lượng với tốc độ cao, độ tin cậy cao xác định vị trí tế-bào-con (hiển thị hình ảnh giàu nội dung (high-content screening), cytohistopathology) Động học hình thái (Morphometrics) dùng để phân tích hình ảnh trình phát triển phôi nhằm theo dõi dự đoán số phận cụm tế bào (cell cluster) suốt trình phát sinh hình thái (morphogenesis) Phân tích hiển thị hình ảnh hình ảnh lâm sàng Xác định mẫu dòng khí phổi sinh vật sống thời gian thực Định lượng mức độ lưu giữ hình ảnh thời gian thực từ phát triển hồi phục suốt thời gian tổn thương động mạch (arterial injury) Đưa quan sát xử từ đoạn phim thu lại động vật thí nghiệm Đo đạc tia hồng ngoại để xác định hoạt động trao đổi chất Công cụ phần mềm Một công cụ dùng sinh học tính toán (computational biology) tiếng BLAST, giải thuật để tìm kiếm trình tự nucleic acid protein tương đồng lưu trữ sở liệu Ba nguồn sở liệu công cộng lớn trình tự DNA protein (thường gọi ngân hàng gene (ngân hàng sở liệu gene) NCBI, EMBL DDBJ Các ngôn ngữ lập trình máy tính Perl Python thường dùng để giao tiếp (interface) ly trích (parse) liệu từ ngân hàng sở liệu sinh học (biological database) thông qua chương trình tin sinh học (bioinformatics program) Cộng đồng lập trình viên tin sinh học triển khai nhiều dự án phần mềm mã nguồn mở (free/open source) nhưEMBOSS, Bioconductor, BioPerl, BioPyth on, BioRuby BioJava Điều giúp cho việc chia xẻ, phát triển phổ biến công cụ lập trình tài nguyên lập trình (programming objects) nhà tin sinh học [...]... hình ảnh (snapshot) tổng thể của các protein hiện có trong một mẫu sinh học (biological sample) Các ứng dụng tin sinh học có liên quan rất nhiều đến việc lý giải các dữ liệu thu được từ những hệ thống này Đối với protein microarray, những nhà tin sinh học cần chuyển kiểm tra dữ liệu mRNA gắn trên array Trong khi đó, những vấn đề tin sinh học liên quan đến việc so trùng (matching) dữ liệu khối phổ với... tưởng quan trọng trong nghiên cứu tin sinh học là quan điểm tương đồng Trong một nhánh genomic của tin sinh học, tính tương đồng được sử dụng để dự đoán cấu trúc của gene: nếu biết trình tự và chức năng của gene A và trình tự này tương đồng với trình tự của gene B chưa biết chức năng thì có thể kết luận là A và B có cùng chức năng Trong nhánh cấu trúc của tin sinh học, tính tương đồng được dùng để... của máy tính như Perl và Python thường được dùng để giao tiếp (interface) và ly trích (parse) dữ liệu từ các ngân hàng cơ sở dữ liệu sinh học (biological database) thông qua những chương trình tin sinh học (bioinformatics program) Cộng đồng những lập trình viên tin sinh học đã triển khai nhiều dự án phần mềm mã nguồn mở (free/open source) nhưEMBOSS, Bioconductor, BioPerl, BioPyth on, BioRuby và BioJava... đề sinh học vẫn tiếp tục tìm các giải pháp và là một thách thức, nhằm đưa nhiều ứng dụng xử lí ảnh về cùng thuộc lĩnh vực tin sinh học Những hệ thống này đang dần trở thành quan trọng đối với cả chẩn đoán và nghiên cứu Một vài ví dụ là: Định lượng với tốc độ cao, độ tin cậy cao và xác định vị trí các tế-bào-con (hiển thị hình ảnh giàu nội dung (high-content screening), cytohistopathology) Động học. .. như có cùng một chức năng Các kỹ thuật dự đoán cấu trúc protein khác là protein threading và de novo (from scratch) physics-based modeling Xem thêm: motif cấu trúc Các hệ thống sinh học kiểu mẫu Bài chính: sinh học hệ thống Sinh học hệ thống bao gồm việc sử dụng khả năng mô phỏng bằng máy tính (computer simulation) các hệ cơ quan tế bàocellular (như mạng các ****bolites và enzyme, chúng bao gồm các ****bolism,... ảnh sinh học có chứa-thông -tin- cao Các hệ thống xử lí ảnh hiện đại tăng cường khả năng quan sát để giúp cho việc tính toán từ một tập lớn và phức tạp các hình ảnh, bằng cách cải tiến độ chính xác, tính khách quan, hay tốc độ Một hệ thống phân tích được phát triển hoàn thiện có thể hoàn toàn thay thế người quan sát Trong khi những hệ thống này không chỉ duy nhất phục vụ cho các ảnh liên quan đến sinh học, ... đến việc so trùng (matching) dữ liệu khối phổ với cơ sở dữ liệu về trình tự protein Dự đoán cấu trúc protein Bài chính: Dự đoán cấu trúc protein Dự đoán cấu trúc là một ứng dụng quan trọng nữa của tin sinh học Có thể dễ dàng xác định trình tự axit amin hay còn gọi làcấu trúc bậc một của protein từ trình tự gene mã hóa cho nó Nhưng, protein chỉ có chức năng vốn có khi nó cuộn gấp thành hình dạng chính... nhưEMBOSS, Bioconductor, BioPerl, BioPyth on, BioRuby và BioJava Điều này giúp cho việc chia xẻ, phát triển và phổ biến các công cụ lập trình và tài nguyên lập trình (programming objects) giữa các nhà tin sinh học ... các quan sát về sự xử sự từ các đoạn phim được thu lại của các động vật thí nghiệm Đo đạc bằng tia hồng ngoại để xác định các hoạt động trao đổi chất Công cụ phần mềm Một trong các công cụ dùng trong sinh học tính toán (computational biology) nổi tiếng nhất là BLAST, một giải thuật để tìm kiếm những trình tự nucleic acid hoặc protein tương đồng lưu trữ trên các cơ sở dữ liệu Ba nguồn cơ sở dữ liệu công... protein cũng như tương tác của nó với các protein khác Với kỹ thuật mô phỏng tính tương đồng (homology modelling), thông tin này được dùng để dự đoán cấu trúc của một protein khi đã biết cấu trúc của một protein khác tương đồng với nó Hiện tại đây là cách dự đoán cấu trúc protein đáng tin cậy nhất Một ví dụ là hemoglobin ở người và hemoglobin của các cây họ đậu (leghemoglobin) khá tương đồng với nhau ... tiến hoá (evolutionary principles) Bảo tồn đa dạng sinh học Tin sinh học thường áp dụng lĩnh vực bảo tồn đa dạng sinh học (biodiversity) Thông tin quan trọng thu thập tên, miêu tả, phân bố, trạng... thể protein có mẫu sinh học (biological sample) Các ứng dụng tin sinh học có liên quan nhiều đến việc lý giải liệu thu từ hệ thống Đối với protein microarray, nhà tin sinh học cần chuyển kiểm... (parse) liệu từ ngân hàng sở liệu sinh học (biological database) thông qua chương trình tin sinh học (bioinformatics program) Cộng đồng lập trình viên tin sinh học triển khai nhiều dự án phần mềm