thực hành tinh sinh học ứng dụng. bài 1. khoa công nghệ sinh học, trường học viện nông nghiệp việt Nam, trâu quỳ, gia lâm , hà nội aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Trang 1Bài giảng TIN SINH HỌC ỨNG DỤNG PHẦN 1 GIỚI THIỆU CHUNG
CHƯƠNG 1 GIỚI THIỆU VỀ BIOINFORMATICS 1.1 Khái niệm
Tin sinh học là một ngành khoa học ứng dụng toán học (thống kê) và khoa học máy tính vào lĩnh vực sinh học (sinh học phân tử và y học) Thuật ngữ tin sinh học lần đầu tiên được Paulien Hogeweg giới thiệu năm 1979 dùng để mô tả những nghiên cứu về các quá trình trong các hệ thống sinh học Vào cuối những năm 1980, thuật ngữ này được đưa vào lĩnh vực di truyền học (genetics)
và nghiên cứu genome (genomics) liên quan đến việc xác định trình tự, quản lý, phân tích và khai thác các CSDL sinh học Tin sinh học hiện liên quan đến xây dựng và phát triển các cơ sở dữ liệu, các thuật toán, thống kê và các kỹ thuật máy tính để giải quyết các vấn đề liên quan đến lý thuyết và thực nghiệm trong việc quản lý và phân tích các dữ liệu sinh học Mô phỏng và dự đoán sự tương tác giữa các phân tử và các quá trình sinh học là một hướng của tin sinh học đang ngày càng được tập trung nghiên cứu và ứng dụng rộng rãi
Bioinformatics
Computer science Biology
Mathematics
Bioinformatics
Computer science Biology
Mathematics
Hình 1: Tin sinh học và mối liên hệ giữa các lĩnh vực
1.2 Nền tảng sinh học cho sự ra đời và phát triển của bioinformatics
Một trong những nền tảng quan trọng trong sinh học là việc phát hiện ra bên trong mỗi tế bào chứa vật chất di truyền là DNA Phân tử DNA mã hóa cho mRNA và các loại RNA khác Protein được dịch mã từ phân tử mRNA sẽ thực hiện vô vàn chức năng sinh học kể trong đó bao gồm cả việc điều hòa hoạt động của các gene và các protein cũng như các quá trình sinh học Lấy người làm ví dụ minh họa, cơ thể chúng ta được tạo nên bởi khoảng 1012 tế bào, trong đó, mỗi tế bào chứa 23 cặp NST Đến nay có khoảng 23.000 gene (1) được phát hiện ở người Kết quả xác định trình tự cho thấy kích thước genome người khoảng 3,2.109 cặp nucleotide Đến nay chúng ta hiểu một cách cơ bản là trình tự các gene mã hóa cho các RNA và protein (thông qua quá trình dịch mã) nhưng chúng
1 International Human Genome Sequencing Consortium (2004) "Finishing the euchromatic sequence of the
human genome." Nature 431 (7011): 931–45 Bibcode
Trang 2ta thiếu rất nhiều thông tin cần thiết để hiểu thấu đáo được vai trò của DNA trong những bệnh nhất định hoặc chức năng của hàng ngàn protein do các gene tạo ra.
Các phương pháp hiện nay đang được dùng bao gồm thu thập, lưu trữ, cho phép truy cập tìm kiếm, phân tích và nghiên cứu các mối liên quan giữa các dữ liệu trong các cơ sở dữ liệu khổng lồ và phức tạp được nhóm lại vào trong một lĩnh vực nghiên cứu được gọi là tin sinh học Như vậy, mục tiêu của tin sinh học là cung cấp cho các nhà khoa học các phương tiện và công cụ để giải thích:
• Các quá trình sinh học phổ biến hiện nay
• Các rối loạn chức năng của những quá trình này dẫn đến các bệnh tật
• Các hướng tiếp cận để cải thiện hoặc tìm ra các thuốc điều trị mới
Việc sử dụng các kỹ thuật này đã tăng lên rất nhanh chóng thể hiện ở số lượng các nguồn CSDL, các công cụ phân tích, các dịch vụ cũng như nhu cầu và quy mô sử dụng tin sinh học Quá trình này
sẽ dẫn đến đòi hỏi các nhà tin sinh học, khoa học máy tính cần phải phát triển để nâng cao độ chính xác và giảm thời gian cho các nhà nghiên cứu sinh học
Tin sinh học là một lĩnh vực nghiên cứu đa ngành, ở mức độ nhất định, nó được đặt trên nền tảng của sinh học phân tử (nguồn cung cấp CSDL cần phân tích), khoa học máy tính (cung cấp các phần cứng cho việc phân tích và mạng lưới máy tính để so sánh, đối chiếu các kết quả phân tích), các thuật toán để phân tích dữ liệu Ba yếu tố này có vai trò sống còn đối với tin sinh học Ngay sinh học phân tử, bản thân nó cũng là một lĩnh vực tương đối mới được dựa trên nền tảng của nhiều môn khoa học cơ bản mà quan trọng nhất là di truyền học, hóa sinh học, vi sinh học, tế bào học… Dưới đây là một vài điểm mốc lịch sử quan trọng cho sự phát triển của sinh học phân tử và tin sinh học:
1930 Tiselius đưa ra kỹ thuật điện di để phân tách protein trong dung dịch
1951 Pauling và Corey đề xuất cấu trúc xoắn alpha và phiến gấp nếp beta
1953 Watson và Crick đề xuất mô hình chuỗi xoắn kép DNA dựa trên dữ liệu thu được tử kết quả
phân tích nhiễu xạ tia X của Franklin and Wilkins
1954 Nhóm nghiên cứu của Perutz đã phát triển phương pháp dùng nguyên tử nặng (heavy atom)
để giải quyết khó khăn trong việc kết tinh protein
1955 Trình tự của protein đầu tiên được phân tích là insulin ở bò bởi F Sanger
1970 Thuật toán của Needleman-Wunsch cho việc căn trình tự (alignment) được công bố
1972 Phân tử DNA tái tổ hợp được tạo ra bởi Paul Berg và nhóm nghiên cứu của mình
1973 Cơ sở dữ liệu Protein được công bố bởi Brookhaven
1974 Vint Cerf và Robert Kahn phát triển phương thức giao tiếp máy tính TCP làm nền tảng cho
internet
1975 Điện di 2 chiều được phát triển bởi P H O'Farrell (J Biol Chem., 250: 4007-4021, 1975).
Phương pháp Southern blot được mô tả và công bố bởi E M Southern (J Mol Biol., 98:
503-517, 1975).
1977 Cở dữ liệu protein, PDB, chính thức ra đời (http://www.pdb.bnl.gov) is published (Bernstein, F.C.;
Koetzle, T.F.; Williams, G.J.B.; Meyer, E.F.; Brice, M.D.; Rodgers, J.R.; Kennard, O.; Shimanouchi, T.; Tasumi, M.J.; J Mol Biol., 1977, 112:, 535).
Maxam và Walter Gilbert (Harvard) và Frederick Sanger (U.K Medical Research Council)
công bố phương pháp xác định trình tự DNA
1980 Trình tự genome hoàn chỉnh của một sinh vật (FX174) được công bố Genome chứa 5,386
cặp base mã hóa cho 9 protein
Phương pháp NMR đa chiều (multi-dimensional NMR) đã được sử dụng để xác định cấu
trúc protein
1981 Thuật toán Smith-Waterman để căn trình tự đã được công bố
1982 Genetics Computer Group (GCG) đã tạo ra nhiều công cụ phân tích trong sinh học phân tử
tại trung tâm Công nghệ sinh học Wisconsin thuộc trường đại học Wisconsin
1985 Thuật toán FASTP được công bố
Phản ứng PCR được mô tả bởi Kary Mullis và cộng sự
1986 Thuật ngữ “Genomics" xuất hiện lần đầu tiên để mô tả lĩnh vực khoa học liên quan đến việc
Trang 3lập bản đồ, xác định trình tự và phân tích các gene Thuật ngữ được đưa ra bởi Thomas Roderick, sau này là tên của một tạp chí nổi tiếng: Genomes.
CSDL SWISS-PROT được tạo ra bởi phòng sinh hóa y học (Department of Medical
Biochemistry) của trường đại học Geneva và ngân hàng CSDL châu Âu EMBL ra đời (European Molecular Biology Laboratory)
1987 NST nhân tạo của nấm men (YAC) được giới thiệu (David T Burke, et al., Science, 236: 806-812).
Bản đồ vật lý của E.coli được công bố (Y Kohara, et al., Cell 51: 319-337).
Ngôn ngữ lập trình Perl (Practical Extraction Report Language) được phát triển bởi Larry
Wall
1988 NCBI (National Center for Biotechnology Information) được thành lập ở viện nghiên cứu
ung thư quốc gia (National Cancer Institute)
Dự án xác định genome người được khởi động (Commission on Life Sciences, National
Research Council Mapping and Sequencing the Human Genome, National Academy Press: Washington, D.C.), 1988
Thuật toán FASTA dùng để so sánh trình tự được công bố bởi Pearson và Lupman
Des Higgins và Paul Sharpe công bố phát triển chương trình CLUSTAL
1990 Chương trình BLAST ra đời (Altschul, et al.)
Molecular Applications Group được thành lập ở California bởi Michael Levitt và Chris Lee
Sản phẩm của công ty là Look and SegMod được dùng để thiết kế các mô hình phân
tử và protein
InforMax được thành lập ở Bethesda, MD Sản phẩm của công ty hướng tới là các phần
mềm, chương trình phân tích trình tự, quản lý và phân tích CSDL, tìm kiếm, hiện thị
dữ liệu bằn đồ họa, thiết kế dòng (clone construction), mapping và thiết kế mồi
1991 Viện nghiên cứu ở Geneva (Research institute in Geneva/ CERN) công bố tạo ra phương
thức make-up cho World Wide Web
1997 Genome của E.coli (4.7 Mbp) được công bố
1998 Genom của Caenorhabditis elegans và nấm men bánh mì được công bố.
Swiss Institute of Bioinformatics được thành lập dưới dạng hiệp hội nghiên cứu phi lợi
nhận
2000 Genome của Pseudomonas aeruginosa (6.3 Mbp) được công bố
Genome của Arabidopsis thaliana (100 Mb) được xác định trình tự Genome Drosophila melanogaster (180Mb) được xác định trình tự
2001 Genome người có kích thước 3,000 Mbp được công bố
2004 Bản nháp genome của chuột, Rattus norvegicus, đã được công bố
2004 Thế hệ xác định trình tự mới chính thức ra đời khởi đầu với kỹ thuật 454 sequencing
2008 Các dự án xác định trình tự genome 1000 loài
http://www.1000genomes.org/
1.3 Vai trò của bioinformatics trong nghiên cứu sinh học (2 tiết)
Trong một vài thập kỉ gần đây, sự phát triển nhanh chóng các lĩnh vực genomic và công nghệ sinh học phân tử đã tạo ra một khối lượng thông tin rất lớn Sự ra đời của tin sinh học cùng với
sự phát triển các thuật toán kết hợp với khoa học máy tính sẽ làm sáng tỏ bản chất của các quá trình sinh học Vai trò của tin sinh học có thể tóm tắt một cách ngắn gọn như sau:
(i) Thu thập, tổ chức và quản lý các dữ liệu sinh học (database);
(ii) Phát triển các công cụ tìm kiếm dữ liệu (search tools, data mining)
(iii) Phân tích trình tự (sequence analysis), mô tả genome (genome annotation), so sánh genome
(genomic comparison);
(iv) Mô phỏng cấu trúc, mô phỏng tương tác phân tử (molecular interaction modelling), dự đoán cấu
trúc protein (prediction of protein structure);
Trang 4(v) Phân tích chức năng protein (protein function analysis), tương tác protein và các con đường chuyển
hóa (protein interactions and metabolism pathways), mô hình hóa các hệ thống sinh học (modeling biological systems), phân tích mô hình biểu hiện gene (analysis of gene expression profile),
(vi) Phân tích trình tự genome để phát hiện các đột biến, ung thư, xác định được vai trò của các gene và
hướng tới các liệu pháp điều trị (genome analysis and treatment);
(vii) Phân tính mối quan hiện tiến hóa, di truyền quần thể dựa trên các phần mềm và công cụ máy tính;
(viii) Phân tích hình ảnh quy mô lớn (high-throughput image analysis),
(ix) Phát triển các thuật toán, phần mềm để giải quyết nhu cầu của các nhà khoa học trong lĩnh vực sinh
học
Phân tích trình tự (sequence analysis)
Phân tích trình tự là quá trình bao gồm nhiều thao tác liên quan đến việc tìm kiếm các dữ liệu trình tự, so sánh các trình tự với nhau và kết hợp với các công cụ khác để tìm ra những thông tin cần thiết nằm trong chuỗi trình tự cần phân tích Những thông tin này bao gồm: sự tương đồng, các vùng hoạt động chức năng (domain), các vùng đặc trưng (motif), sự định vị của các gene trong genome (gene finding), các yếu tố điều hòa hoạt động gene (promoter, intron, exon, vùng cấu trúc điều hòa phiên mã)
Năm 1977, trình tự genome đầu tiên được xác định là của phage Φ-X174, từ đó đến nay genome của hàng nghìn sinh vật đã được xác định trình tự và lưu giữ trong các ngân hàng gene Các công cụ tin sinh học đã được dùng phổ biến trong phân tích trình tự chẳng hạn như: BLAST, FASTA và các biến thể của chúng, các chương trình so sánh trình tự (sequence alignment), ngoài ra còn rất nhiều các công cụ hỗ trợ khác (các công cụ của Expasy để phân tích các trình tự amino acid)
Mô tả genome (genome annotation)
Về khía cạnh nghiên cứu genome, mô tả genome là quá trình đánh dấu các trình tự DNA (gene) và gắn các đặc điểm sinh học vào những trình tự DNA đó Hệ thống phần mềm cho phép mô
tả genome đầu tiên được Dr Owen White xây dựng vào năm 1995.Đối tượng đầu tiên là vi khuẩn
Haemophilus influenzae Ông đã xây dựng hệ thống này với mục tiêu ban đầu là để tìm ra các gene,
các tRNA trong genome và các đặc điểm khác sau đó gắn những chức năng sinh học đã biết vào các yếu tố này Đến nay có nhiều hệ thống mô tả genome, về căn bản là như nhau nhưng có sự khác nhau về thuật toán và chương trình máy tính
So sánh genome
Trọng tâm của so sánh genome là thiết lập sự tương ứng hoặc mối liên hệ giữa các gene
(orthology analysis) hoặc các đặc điểm genome ở các sinh vật khác nhau Đó là những bản đồ
tương tác giữa các genome cho phép phát hiện được các quá trình tiến hóa dẫn đến sự khác nhau hoặc biến đổi giữa hai genome
Các sự kiện tiến hóa phức tạp xảy ra ở nhiều mức độ khác nhau dẫn đến tiến hóa về mặt genome Ở mức độ thấp nhất, các đột biến điểm làm thay đổi genome ở những nucleotide đơn lẻ Ở mức độ cao hơn, sự lặp đoạn, đảo đoạn, mất đoạn, thay đổi vị trí các trình tự DNA trong NST (gene nhảy, transposable elements) làm thay đổi về mặt tổ chức vật lý của genome Cuối cùng toàn bộ genome tham gia vào những quá trình lai, lưỡng bội hóa và tương tác cộng sinh nội bào dẫn đến sự phân loài nhanh chóng Tính phức tạp của tiến hóa genome dẫn đến sự khó khăn trong việc phát triển các thuật toán cũng nhưng mô hình toán học để mô phỏng chính xác Vì vậy cho đến nay các
thuật toán chỉ mang tính hợp lý nhất (heuristic) chứ không phải là chính xác nhất (precise) Các
thuật toán và mô hình đang dùng phổ biến hiện nay bao gồm: heuristics, approximation algorithms, parsimony models, Markov Chain Monte Carloalgorithms, Bayesian analysis, probabilistic models
Xây dựng và mô phỏng cấu trúc
Dự đoán cấu trúc phân tử protein là một trong những ứng dụng quan trọng của bioinformatics Trình tự amino acid của một phân tử protein (cấu trúc sơ cấp), có thể suy diễn từ
Trang 5trình tự nucleotide của gene mã hóa tương ứng Để mô phỏng cấu trúc người ta cần những thông tin
cụ thể về protein, tốt nhất là cấu trúc kết tinh của phân tử protein Trong những trường hợp khó kết tinh hoặc chỉ có trình tự amino acid người ta có thể so sánh trình tự amino acid của một protein hoặc polypeptide với những protein khác đã biết trong CSDL sử dụng các thuật toán để tìm ra sự tương đồng, từ đó đưa ra cấu trúc mô phỏng tương đối của các protein chưa biết Tuy nhiên, có nhiều trường hợp cấu trúc giống nhau nhưng trình tự amino acid lại rất khác nhau Vì thế cho đến nay chưa có thuật toán hoặc chương trình máy tính nào giải quyết được vấn đề này Sự mô phỏng chỉ mang tính tương đối và có tính chất tham khảo
Một ví dụ về sự tương đồng (homology) giữa haemoglobin của người và của các cây họ đậu (leghemoglobin) Cả hai đều được dùng để vận chuyển oxy trong cơ thể Mặc dù vậy hai protein này có trình tự amino acid hoàn toàn khác nhau nhưng cấu trúc của chúng là giống nhau một cách đặc biệt, điều đó cũng phản ánh mối quan hệ giữa cấu trúc và hoạt động chức năng
Mô phỏng tương tác phân tử
Mô phỏng tương tác phân tử là việc đưa ra các mô hình để mô tả bản chất của sự tương tác khi hai hay nhiều phân tử tiếp xúc với nhau trong đó bao gồm vị trí, nhóm tương tác và cơ chế hình thành những tương tác liên quan đến những thay đổi về nhiệt động học, thay đổi trạng thái phân tử (thay đổi điện tích, trao đổi các điện tử, chuyển dịch các nhóm liên kết), thay đổi cấu hình và trạng thái hình học không gian của phân tử Các tương tác phân tử bao gồm: protein-protein/peptide,
enzyme-cơ chất, ligand-chất tương tác (thuốc) Thuật ngữ thường sử dụng hiện nay là docking và thuật toán tương ứng của nó là docking algorithms.
Các kỹ thuật được dùng để hỗ trợ bao gồm: phân tích nhiễu xạ tia X (X-ray crystallography), phân tích cộng hưởng từ hạt nhân protein (protein nuclear magnetic resonance spectroscopy protein NMR) Một trong những câu hỏi quan trọng là liệu chỉ cần phân tích cấu trúc phân tử (3D) để dự đoán sự tương tác phân tử hay cần phải làm thực nghiệm cụ thể cho tương protein-protein (protein– protein interaction experiments) hoặc protein–protein docking?
Dự đoán cấu trúc protein (prediction of protein structure)
Dự đoán cấu trúc protein dựa vào những thông tin sau: trình tự amino acid, kết quả khối phổ (MS), kết tinh và phân tích nhiễu xạ tia X, các đặc điểm sinh học tương đồng (chẳng hạn dựa vào sự giống nhau trên cơ sở cùng thực hiện chức năng sinh học, hoặccác enzyme xúc tác một kiểu phản ứng, loại hoặc nhóm cơ chất…)
Các thuật toán phát triển dựa vào việc tính toán các liên kết hóa học, khả năng hình thành các liên kết, tương tác giữa các phân tử, phân tích nhiệt động học, năng lượng tự do, năng lượng liên kết để xây dựng lên các mô hình cấu trúc không gian Tuy nhiên, hiện nay việc phân tích mối liên hệ và so sánh giữa các cấu trúc và chức năng đã biết vẫn được coi là nền tảng để dự đoán cấu trúc các protein Chính vì vậy, những protein mới
Phân tích biểu hiện gene (analysis of gene expression)
Các CSDL về mRNA, cDNA, EST giúp phát hiện sự biểu hiện hoặc mức độ biểu hiện của các gene Các cơ sở dữ liệu về protein microarray và khối phổ (MS) hỗ trợ rất nhiều cho việc phân tích hoặc phát hiện sự có mặt của một protein nào đó ở một mẫu sinh học Việc so sánh và đối chiếu các CSDL này cho phép rút ngắn thời gian Tuy nhiên quá trình này đòi hỏi thuật toán phức tạp khi
xử lý khối lượng mẫu lớn (high through put analysis), sự nhiễu số liệu do các sai số gặp phải trong thực nghiệm
Từ phân tích trình tự genome đến việc điều trị (from genome to therapy)
Một trong những nguyên nhân chính dẫn đến ung thư là việc tích lũy các đột biến Phân tích lượng lớn các trình tự có thể xác định được những đột biến tiềm ẩn ở các gene khác nhau có liên quan đến ung thư Bioinfomatics phát triển các hệ thống phân tích tự động để quản lý, lưu giữ các thông tin từ đó cho phép các thao tác tìm kiếm, so sánh và đối chiếu giữa các gene, genome để phát
Trang 6hiện sự đa hình (chẳng hạn các cơ sở dữ liệu dbVar, dbSNP, CancerChromosome) Kết quả những phân tích này giúp cho việc điều trị và chẩn đoán dễ dàng hơn Một ví dụ điển hình là sự khác nhau trong việc đáp ứng hoặc phản ứng với các thuốc điều trị ở mỗi người.
Các kỹ thuật mới đang được áp dụng như so sánh các oligonuclotide (oligonucleotide analysis), so sánh sự khác biệt ở mức độ nucleotide để tìm ra các đột biến điểm (single-nucleotide polymorphism arrays) Phương pháp này cho phép phân tích đồng thời hàng trăm nghìn vị trí khác nhau trong genome Đối với những genome lớn việc phân tích hàng tỉ ký tự tạo ra các dự liệu lên tới hàng tỉ byte (tetrabytes), việc phát triển các thuật toán để đáp ứng yêu cầu này là một trong những
nội dung đặt ra cho bioinformatics Thuật toán đang dùng hiện nay là Hidden Markov model, change-point analysis methods.
Nghiên cứu sinh học tiến hóa (Computational evolutionary biology)
Sinh học tiến hóa nghiên cứu nguồn gốc và hậu duệ của của các loài cũng như những thay đổi theo thời gian Công nghệ thông tin và tin sinh học hỗ trợ các nhà nghiên cứu sinh học ở nhiều khía cạnh, bao gồm:
- Phát hiện được sự tiến hóa ở nhiều sinh vật nhờ vào việc so sánh, tìm ra sự thay đổi DNA của chúng hơn là kiểm tra các đặc điểm sinh lý hoặc phân loại dựa vào mô tả hình thái
- So sánh toàn bộ genome cho phép nghiên cứu sự phức tạp lớn hơn trong các sự kiện tiến hóa, chẳng hạn như: lặp đoạn, trao đổi vật chất di truyền hoặc lấy một phần vật chất di truyền của một loài (nhưng không phải là hậu duệ của loài đó horizontal gene transfer hoặc lateral gene transfer: biến nạp, cộng sinh, tái tổ hợp genome, chuyển gene) (phân biệt với vertical gene transfer)
- Xây dựng các mô hình máy tính để dự đoán đầu ra (hệ quả) của các quần thể theo thời gian
- Theo dõi và chia sẻ thông tin của một số lượng lớn các loài và cá thể
- Xây dựng bức tranh tổng thể về cây phát sinh chủng loại
Phân tích hình ảnh quy mô lớn
Công nghệ máy tính hiện nay cùng với các thí nghiệm phân tích tự động quy mô lớn tạo ra một số lượng hình ảnh cũng như dung lượng vô cùng lớn Ngoài như những hình ảnh phân tích chứa đựng nhiều thông tin như: ảnh phân tích các mẫu, mô bệnh, ảnh chụp trong y học, lâm sàng Những hình ảnh này cần được lưu giữ, đối chiếu và so sánh để chắt lọc thông tin phục vụ cho chân đoán và điều trị Các thuật toán được xây dựng nhằm giải quyết những đòi hỏi trên trong một thời gian ngắn là không thể thiếu Một số ví dụ:
- Các hình ảnh mang tính định lượng với độ tin cậy cao, vị trí các bào quan, các mô bệnh…
- Phân tích định lượng các đặc điểm bên trong hình ảnh (bào quan, kích thước, hình dạng, vị trí phân bố…)
- Hiện thị các hình ảnh phân tích lâm sàng
- Xác định các mô hình, hình mẫu real-time của dòng khí vận chuyển trong phổi động vật, sự vận chuyển của các chất qua màng tế bào, mô (drug delivery)
- Dự đoán kích thước của các hạt, vón cục xảy ra trong quá trình phẫu thuật (real-time imaginery) và quá trình hồi phục sau bị thương ở các động mạch
- Quan sát tập tính của các động vật trong phòng thí nghiệm
- Phân tích các hình ảnh hồng ngoại để xác định hoạt động trao đổi chất
- Phân biệt các hiện tượng clone overlapping của các đoạn DNA trong khi so sánh các clone với nhau
- Phân tích các hình ảnh huỳnh quang (các kỹ thuật xác định trình tự thế hệ mới)
Phân tích chức năng protein
Các CSDL MS, trình tự, cấu trúc, tương tác protein-protein, protein docking là nền tảng để phân tích chức năng protein Việc so sánh trình tự, căn trình tự hỗ trợ rất đắc lực để phát hiện các motif, domain, (mô hình) pattern để phát hiện và phân tích chức năng các protein Các họ protein hoặc các protein cùng thực hiện chức năng cũng được phát hiện dựa trên những cơ sở so sánh này
Trang 7Tương tác protein và các con đường chuyển hóa
Tương tác giữa các protein (enzyme) liên quan đến rất nhiều quá trình sinh học (xúc tác, điều hòa, ức chế) Các con đường chuyển hóa đòi hỏi có sự tương tác rất chặt chẽ và phức tạp của các protein Hiện nay, nghiên cứu xây dựng mô hình tương tác giữa các protein cũng gắn liên với việc phân tích các mô hình biểu hiện gene Khi những mối quan hệ này được làm sang tỏ chúng ta
sẽ biết được vai trò của các gene, protein và các cơ chế điều hòa sự biểu hiện của các gene tham gia trong các mạng lưới Sự rối loạn hoặc thay đổi các mối quan hệ tương tác sẽ dẫn đến những bệnh tật Việc điều trị các bệnh dựa trên cơ sở hiểu biết mối liên hệ nhiều yếu tố sẽ có hiệu quả rất lớn Hiên nay, đây cũng là hướng được các nhà sinh học, tin sinh học đang tập trung nghiên cứu
Mô hình hóa các hệ thống sinh học (Modeling biological systems)
Đòi hỏi sự kết hợp giữa sinh học hệ thống (system biology) và toán sinh học (mathematical biology) Ví dụ như các hệ thống dưới tế bào (cellular subsystems) bao gồm các chất trao đổi và các enzymes tham gia hình thành các con đường trao đổi chất, các con đường dẫn truyền tín hiệu, điều hòa hoạt động gene Tất cả những quá trình này cần được phân tích và hiện thị trong phức hợp của các thành phân bên trong tế bào (bào quan) Ngoài ra với sự hỗ trợ của bioinformatics và computational biology, sự sống nhân tạo, ảo liên quan đến quá trình tiến hóa có thể được mô phỏng
Thuật toán và các thách thức trong khoa học máy tính
Phát triển thuật toán mới nhằm: Rút ngắn thời gian phân tích (giảm thiểu sử dụng tài nguyên máy tính) và nâng cao độ tin cậy của các phân tích, mô phỏng
Phát triển các phần mềm và công cụ phân tích (Software and tools)
Các phần mềm và công cụ phân tích tập trung vào các nhóm chính sau đây:
- Các công cụ tìm kiếm trình tự tương đồng và tương tự (homology and similarity tools)
Trình tự tương đồng (homology): giữa các trình tự DNA hoặc các tính trạng phân tích có cùng nguồn gốc, quan hệ tiến hóa từ một tổ tiên chung Mức độ giống nhau (similarity) giữa hai (các) trình tự có thể được xác định liệu sự tương đồng là thực sự hay là ngẫu nhiên
- Các công cụ thuộc nhóm này nhằm xác định sự giống nhau giữa một trình tự mới đưa vào (novel query sequence) với cấu trúc và chức năng chưa biết với toàn bộ CSDL đã được
biết.Nhóm này bao gồm các công cụ chính: FASTA, BLAST và các biến thể của chúng (xem các chương sau).
- Phân tích chức năng protein
Phân tích chức năng bao gồm: Xác định chức năng và lập bản đồ của các thành phần chức năng (phần mã hóa và không mã hóa của gene tương ứng) trong genome Nhóm này bao gồm các chương trình cho phép so sánh trình tự protein (query) với các CSDL protein thứ cấp chứa thông tin về các motif, domain Những kết quả tìm kiếm có mức độ giống lớn nhất cho phép dự đoán chức năng hóa sinh học của protein chưa biết
- Phân tích cấu trúc
Các nhóm công cụ cho phép so sánh các cấu trúc chưa biết (query) với các CSDL cấu trúc
đã biết Chức năng của một protein có thể xác định chính xác hơn khi so sánh cấu trúc của
nó hơn là chỉ trình tự amino acid Vì cấu trúc tương tự nhau thường gắn liền với sự tương ứng về chức năng hoạt động (homologs) Việc xác định cấu trúc protein dạng 2D/3D có ý nghĩa vô cùng quan trọng để nghiên cứu chức năng của nó Công việc này đi kèm với việc tinh sạch và kết tinh protein, kết hợp với các phương pháp phân tích tinh thể
- Phân tích trình tự
Các công cụ thuộc nhóm này cho phép thực hiện các phân tích sâu hơn về trình tự chưa biết (query) bao gồm: phân tích tiến hóa, xác định đột biến, các vùng ưa nước (hydropathy regions), CpG islands, và xu hướng sử dụng các thành phần base trong các mã di truyền (compositional biases) Những kết quả phân tích này sẽ hỗ trợ cho các nghiên cứu làm sáng
tỏ chức năng của trình tự chưa biết
Trang 81.4 Nhiệm vụ và các hướng nghiên cứu của Bioinformatic
Vào giai đoạn đầu của cuộc cách mạng genomics, tin sinh học tập trung vào việc tập hợp và lưu giữ các thông tin, cơ sở dữ liệu sinh học để hình thành các ngân hàng cơ sở dữ liệu (chủ yếu là trình tự amino acid, nucleotide) Quá trình này liên quan đến việc thiết kế mạng lưới CSDL liên kết
và phát triển các giao diện webnhờ đó các nhà nghiên cứu vừa có thể truy cập vào các cơ sở dữ liệu vừa có thể đăng ký thêm các trình tự, dữ liệu mới hoặc các dữ liệu đã được chỉnh sửa, bổ sung Xuất phát từ nhu cầu của các nhà khoa học về việc tìm kiếm và phân tích dữ liệu (data mining) đã dẫn đến việc phát triển các công cụ tìm kiếm kết hợp với việc so sánh các dữ liệu Việc sử dụng các
chương trình FASTA, BLAST, căn trình tự (sequence alignment); lắp ráp các trình tự (genome assembly);tìm kiếm gene trong genome (gene finding), phân tích các domain trong phân tử protein
và xác định cấu trúc của chúng đã trở thành những thao tác thông thường hàng ngày của các nhà nghiên cứu Những ứng dụng ở mức cao hơn và phức tạp hơn như: xác định được vị trí và vai trò
của gene trên các nhiễm sắc thể (position cloning);so sánh cấu trúc ba chiều của các protein,dự đoán cấu trúc protein và các tương tác protein-protein;nhận dạng mô hình (pattern recognition);dự đoán
mô hình biểu hiện gene (gene expression profile prediction)đang trở nên phổ biến ở những phòng
nghiên cứu mạnh
Từ kết quả của các nghiên cứu về xác định vai trò các gene và tương tác gene, nhà khoa học
có thể so sánh các hoạt động của những tế bào bình thường và những tế bào bị bệnh Để làm được điều nàycần thiết phải có sự kết hợp và đối chiếu giữa cáccơ sở dữ liệu sinh học để tạo thành một bức tranh tổng thể và diễn đạt được các mối liên hệ của các hoạt động qua đó sẽ nghiên cứu được
các con đường chuyển hóa (metabolomics) Đây cũng là một trong những thách thức rất lớn của các
nhà tin sinh học
Hình 2 Mối liên hệ giữa transcriptomics, proteomics và các con đường chuyển hóa (metabolomics)
(Goodacre (2005) J Exp Bot 56: 245)
Hướng phát triển cao hơn nữa là xây dựng được các mô hình và sự tương tác giữa các mô hình chuyển hóa trên cơ sở này sẽ làm sáng tỏ được các mô hình biểu hiện gene, sự tương tác giữa các gene và nhóm các gene Những kết quả này sẽ góp phần trong việc điều khiển sự hoạt động của gene và phát triển các liệu pháp điều trị hiệu quả
Trang 9Hình 3 Mạng lưới các gene liên quan đến các bệnh ở người
(The human disease network PNAS vol 104, no 21, 8685–8690) Nghiên cứu để phát triển thuật toán, phần mềm và các công cụ phân tích mới (software and tools) chẳng hạn: hỗ trợ trong việc xác định sự có mặt và vị trí của các gene trong một trình tự DNA
hay trên NST, dự đoán cấu trúc protein và chức năng của chúng hoặc phân tích, sắp xếp các nhóm trình tự protein thành một họ gồm các trình tự có liên quan
Các công cụ chính của Bioinformatics (Bioinformatics tools)
BLAST
BLAST là chữ viết tắt của (Basic Local Alignment Search Tool) Đây là nhóm công cụ cho phép so sánh các trình tự DNA và protein với các trình tự khác có trong CSDL Hiện nay có một số biến thể của BLAST như: PSI-BLAST, PHI-BLAST Ngoài ra còn có một số công cụ BLAST đặc biệt áp dụng cho các genome người, vi sinh vật, ký sinh trùng sốt rét và các genome khác Các công
cụ hỗ trợ để phát hiện các trình tự có lẫn với trình tự của vector (đặc biệt khi đăng ký vào ngân hàng gene), các trình tự globulin miễn dịch, và các trình tự concensus (concensus sequence) ở người
FASTA
Là một công cụ tìm kiếm CSDL được sử dụng để so sánh trình tự nucleotide hoặc amino acid với một CSDL trình tự Chương trình này dựa vào thuật toán tìm kiếm trình tự nhanh bởi Lipman và Pearson Đây cũng là thuật toán đầu tiên được dùng để tìm kiếm các trình tự giống nhau trong CSDL
Trang 10sánh trình tự nucleotide để phát hiện các pattern, phân tích tần suất sử dụng bộ mã (codon bias analysis)…
Một danh sách các ứng dụng có thể tìm ở địa chỉ:
http://www.hgmp.mrc.ac.uk/Software/EMBOSS/Apps/
Clustalw
ClustalW là chương trình dung để so sánh các trình tự DNA và protein Mục đích là để tìm
ra các vùng trình tự giống nhau và khác nhau Trên cơ sở đó hỗ trợ cho nhiều ứng dụng khác như: phân tích domain, motif, pattern, xây dựng mối quan hệ tiến hóa
RasMol
Đây là công cụ nghiên cứu rất hiệu quả để hiện thị cấu trúc DNA, protein và các phân tử nhỏ Protein Explorer là một dạng biến thể dễ sử dụng của RasMol
Chương trình ứng dụng chuyên ngành bioinformatics
- JAVA: Do bản chất Java là chương trình độc lập vì vậy nó là một thành phần quan trọng của bioinformatics (BioJava)
- Perl: Sử dung để xử lý các dữ liệu sinh học ( BioPerl)
- BioXML: Là một phần của dự án BioPerl, là nguồn để tập hợp các tài liệu dạng XML và DTD
Xây dựng các CSDL tài liệu, tạp chí phục vụ nghiên cứu
Các CSDL như:
- Bài báo, tạp chí (pubmed);
- Hệ thống phân loại, khóa phân loại (taxon);
- Sách (book);
- Bài báo, tạp chí, tài liệu lien quan đến các phản ứng sinh hóa (pubchembioassay);
- Các tài liệu liên quan đến các hợp chất hóa học (Pubchem compounds);
- Các tài liệu về các chất hóa học (pubchem substances);
- Các cơ sở dữ liệu: genomics, proteomics, metabolomics, microarray gene expression và phylogenetics
Thông tin chứa đựng bên trong các CSDL sinh học bao gồm: tên gene, trình tự gene, vị trí của gene trên NST hoặc genome (locus tag), cấu trúc và chức năng của các gene, hậu quả của các đột biến gene đó, các gene liên quan (họ gene) và cấu trúc của chúng (nếu là protein, RNA )
Dữ liệu bao gồm: Các trình tự gene, các mô tả về đặc điểm của gene (gene mã hóa cho mRNA, tRNA, rRNA…), thuật ngữ phân loại (nguồn gốc của gene, sinh vật chứa gene đó), các trích dẫn (bài báo liên quan đến gene, protein…) và các bảng số liệu (nếu có)
Kiểu định dạng CSDL
Các dạng định dạng của dữ liệu sinh học gồm nhiều loại: chữ, dữ liệu trình tự, cấu trúc protein và các liên kết (link), ví dụ:
- Dạng chữ: PubMed và OMIM
- Dạng trình tự: GenBank (DNA) và UniProt (protein)
- Dạng cấu trúc: PDB, SCOP, và CATH
Những vấn đề liên quan đến CSDL protein
Việc phát triển CSDL cấu trúc protein thường rất khó khăn và chậm (so với trình tự DNA) vì cấu trúc 3 chiều (three dimension/3D) của protein rất khó xác định Để xác định cấu trúc 3 chiều của một phân tử protein người ta phải tách riêng hay tinh sạch protein đó, tiếp đó là tìm các điều kiện phù hợp để cho protein kết tinh sau đó sử dụng các kỹ thuật xác định cấu trúc, chẳng hạn như dung tia X (X-ray crystallography), cộng hưởng từ hạt nhân (NMR spectroscopy Mặc dù vậy, các
dữ liệu có thể được truy cập thông qua các thành viên của wwPDB (PDBe, PDBj và RCSB PDB, SCOP (structural classification of Protein)) và CATH
Trang 11Các CSDL đặc thù loài
Một số CSDL đặc thù loài đã được công bố, chủ yếu dùng cho nghiên cứu Chẳng hạn:
Colibase (CSDL cho E.coli) Các CSDL khác như Flybase cho Drosophila và WormBase cho các bọn giun tròn (Caenorhabditis elegans và Caenorhabditis briggsae) Ngoài ra còn có các CSDL khác cho lúa (Oryza sativa), Arabidopsis…
1.5 Xu hướng phát triển của bioinformatics
Xu hướng của bioinformatics tập trung vào các hướng sau:
- Phát triển các thuật toán và máy tính(Algorithms and computational challenges)
- Phân tích chức năng protein (Protein function)
- Tương tác protein và các con đường chuyển hóa(Protein interactions and pathways)
- Áp dụng trong lâm sàng và nghiên cứu (Clinical and research applications): tìm thuốc mới,
dự đoán rủi ro, nguy cơ
Các xu hướng hiện nay của Bioinformatics
- Phân tích trình tự (motif, domain), so sánh trình tự : 25%
- Mô phỏng cấu trúc protein: 19%
- Mô hình cấu trúc và điều hòa hoạt động gene: 12%
- Phân tích trình tự liên quan đến tiến hóa: 12%
- Mô phỏng và xây dựng mạng lưới trao đổi chất (metabolome): 6%
Kỹ năng và yếu tố con người để phát triển bioinformatics:
- Cả hai lĩnh vực: sinh học và tin học
- Cần sử dụng chung 1 ngôn ngữ
- Biết được những vấn đề cần quan tâm ở cả 2 lĩnh vực
- Hội tụ được khoa học máy tính và phần mềm: đặt vấn đề và phát triển thuật toán
Bioinformatics: thú vị, hấp dẫn, mới, thách thức, có thể truy cập được, lĩnh vực có thể mở rộng
nghiên cứu, có sự ảnh hưởng nhiều, cơ hội cho người làm máy tính
Những chủ đề cần khám phá:
- Các kỹ thuật CSDL cho dữ liệu Bioinformatics
- Di truyền phân tử (nền tảng chủ yếu thuộc về lĩnh vực sinh học)
- So sánh trình tự, mô hình mẫu (patterns), profiles
- Phát hiện các pattern
- Gene expression arrays
- Xây dựng cấu trúc protein (nền tảng chủ yếu thuộc về lĩnh vực sinh học)
Trang 12- Xây dựng hình học không gian (lập thể) của protein (kỹ thuật máy tính và các công cụ)
- Dự đoán cấu trúc protein
- Xây dựng mạng lưới hóa sinh học, metabolome (nền tảng chủ yếu thuộc về lĩnh vực sinh học)
- Xây dựng các con đường trao đổi chất, các con đường điều hòa và tín hiệu điều hòa gene: CSDL, kỹ thuật máy tính và các công cụ
Tóm tắt chương 1
Tin sinh học là một lĩnh vực khoa học mới có sự kết hợp chặt chẽ của sinh học mà chủ yếu
là di truyền học, sinh học phân tử với các công cụ thống kê, toán học và khoa học máy tính Chương
1 giới thiệu khái niệm, vai trò của tin sinh học cũng như các công cụ phục vụ cho những vấn đề nghiên cứu của sinh học phân tử hiện đại chẳng hạn như tìm kiếm các trình tự sinh học tương đồng hoặc giống nhau trong các ngân hàng cơ sở dữ liệu, mô phỏng và dự đoán sự tương tác giữa các phân tử, phát hiện các mô hình biểu hiện gene và các mối liên hệ giữa các gene…Các nội dung chính của tin sinh học cũng như xu hướng phát triển của lĩnh vực này cũng được đề cập qua đó giúp sinh viên có một cái nhìn bao quát về một lĩnh vực khoa học mang tính ứng dụng, hỗ trợ đắc lực cho các nhà nghiên cứu trong các lĩnh vực di truyền phân tử, sinh học phân tử, y học…
Câu hỏi ôn tập chương 1
1 Trình bày khái niệm tin sinh học
2 Hãy nêu tóm tắt vai trò của tin sinh học trong nghiên cứu sinh học
3 Trình tự sinh học là gì? Hãy nêu một vài ví dụ về việc phân tích trình tự sinh học
4 Thế nào so sánh trình tự? Mục đích của việc so sánh trình tự để làm gì?
5 Tại sao phải nghiên cứu cấu trúc các đại phân tử ? tin sinh học hỗ trợ như thế nào trong việc
dự đoán cấu trúc phân tử
6 Những hiểu biết về vai trò của các gene, mối liên hệ giữa các gene có vai trò như thế nào trong y học hiện đại?
7 Thế nào là mối quan hệ tiến hóa giữa các sinh vật? Tin sinh học sẽ hỗ trợ gì trong nghiên cứu tiến hóa
8 Hãy nêu nhiệm vụ và các hướng nghiên cứu của tin sinh học hiện nay
9 Hãy nêu những chủ đề đang được các nhà tin sinh học tập trung nghiên cứu
10 Để trở thành những nhà nghiên cứu trong lĩnh vực tin sinh học chúng ta cần phải có những tiêu chuẩn gì?
Trang 13CHƯƠNG 2NỀN TẢNG SINH HỌC CỦA TIN SINH HỌC
2.1 Axit nucleic và protein
Axit nucleic và protein là hai đại phân tử sinh học đóng vai trò quan trọng trong thế giới sống Axit deoxyribonuleotide nucleic (DNA) mang thông tin di truyền và axit ribonucleic (RNA) liên quan đến quá trình sinh tổng hợp protein và tham gia vào điều hòa hoạt động sống của tế bào Đơn vị cấu tạo nên axit nucleic là các nucleotide và protein là các amino acid
2.2 Cấu trúc của axit nucleic
DNA và RNA (ribonucleic acid) được cấu tạo bởi các đơn phân là nucleotide và ribonucleotide Trong phân tử DNA, mỗi nucleotide được cấu tạo bởi gốc axit phosphoric, một phân
tử đường pentose và một base Các nucleotide nối với nhau bởi liên kết phosphodiester giữa nhóm 5’PO4 của phân tử đường pentose của một nucleotide và nhóm 3’OH của phân tử đường pentose một nucleotide tiếp theo Vì vậy phân tử axit nucleic bao giờ cũng tồn tại đầu 5’PO4 và 3’OH Theo quy ước đối với một axit nucleic bao giờ cũng viết theo hướng 5‘ đến 3‘ theo chiều từ trái sang phải
Hình 4 Cấu trúc DNA
(Applied Bioinformatics)
Trang 14Axit nucleic được cấu tạo bởi 5 loại base khác nhau: cytosine (C), uracil (U), thymine (T), adenine (A) và guanine (G) Tuy nhiên, U chỉ có mặt trong phân tử RNA và C chỉ có mặt trong DNA Phân tử DNA và RNA không chỉ khác nhau về thành phần base mà còn khác nhau về phân tử đường RNA có đường ribose trong khi đó DNA chứa đường 2-deoxyribose Phân tử DNA gồm 2 chuỗi polynucleotide xoắn với nhau theo hướng đối song Phân tử DNA có thể tồn tại dưới dạng sợi đơn (ssDNA) và dạng sợi kép (dsDNA) Trong phân tử DNA, hai sợi được gắn với nhau qua liên kết hydro giữa các base Hai liên kết hydro giữa A và T và 3 liên kết hydro giữa C và G Hai sợi DNA bổ sung với nhau do đó nếu biết trình tự của một sợi sẽ suy ra trình tự của sợi còn lại
Lưu trữ thông tin di truyền
Trình tự các base mang thông tin mã hóa cho các protein Phân tử protein được cấu tạo bởi
20 amino acid và mỗi amino acid được mã hóa bởi 1 bộ ba gồm 3 nucleotide tương ứng trên phân
tử DNA Mỗi bộ ba như vậy được gọi là một bộ mã (codon) Mỗi sinh vật có xu hướng sử dụng các
bộ mã khác nhau Chẳng hạn ở prokaryote một số loài dùng bộ mã khác với các sinh vật eukaryote
Mã di truyền của genome ti thể cũng có một số khác biệt so với mã di truyền của genome trong nhân
Hình 4 Mã di truyềnMối quan hệ giữa DNA, RNA và protein được mô tả trong luận thuyết trung tâm (Crick 1970)
Trang 15Hình 5 Luận thuyết trung tâmDòng thông tin được chuyển một chiều từ genome đến proteome Ngoại trừ số quá trình phiên mã ngược từ RNA sang DNA ở một số RNA virus Toàn bộ thông tin di truyền chứa trong nhân hoặc kiểu nhân của một sinh vật được gọi là genome Ngoại trừ các retrovirus, thông tin di truyền được chứa đựng trong các trình tự base của phân tử DNA Thông tin này được chuyển từ DNA sang mRNA nhờ quá trình phiên mã Toàn bộ các bản phiên mã mRNA của một sinh vật được gọi là transcriptome Quá trình tổng hợp protein từ mRNA được gọi là dịch mã (translation) Toàn bộ protein có thể được dịch mã từ transcriptome được gọi là proteome Như vậy trình tự amino acid trong phân tử protein được quyết định bởi trình tự DNA và dòng thông tin được chuyển
từ DNA đến protein thông qua mRNA
Genome của eukaryote và prokaryote có nhiều điểm khác biệt Ở prokaryote thông tin di truyền được mã hóa trên một đoạn DNA liên tục, trong khi đó ở eukaryote, các trình tự mã hóa (exon) được ngăn cách bởi các trình tự không mã hóa (intron) Ngoài ra, ở eukaryote, sự phiên mã
từ DNA thành mRNA trưởng thành cũng phức tạp hơn nhiều chẳng hạn các intron được loại bỏ trong quá trình phân cắt mRNA (mRNA splicing) Cũng chính vì quá trình này từ một gene ban đầu
có thể hình thành nên nhiều mRNA và hệ quả sẽ tạo ra nhiều protein tương ứng Điều này giải thích tại sao genome ở sinh vật bậc cao chứa một số lượng gene nhất định, chẳng hạn ở người có khoảng 25.000 gene, tuy nhiên số lượng protein thực tế được tạo ra lớn hơn nhiều, khoảng 1 triệu protein (Claverie 2001, Venter et al 2001)
Trang 16Hình 6 Cấu trúc vùng gene của prokaryote và eukaryote
Cấu trúc phân tử protein
Cấu trúc sơ cấp
Các phân tử protein là các đại phân tử sinh học được cấu thành từ khoảng 20 loại amino acid Trong điều kiện nhất định phân tử protein sẽ cuộn gấp lại hình thành cấu trúc 3 chiều mang đầy đủ các đặc điểm và chức năng sinh học Các gốc amino acid trong chuỗi polypeptide sẽ quyết định những đặc điểm hóa học như tính kị nước, phân cực, acid, base của phân tử protein Cấu trúc sơ cấp của phân tử protein hay còn gọi là cấu trúc bậc 1 là trật tự sắp xếp của amino acid trong chuỗi polypeptide Cấu trúc bậc 1 sẽ quyết định các cấu trúc không gian của phân tử protein
Trong phân tử protein, amino acid nối với nhau tạo thành chuỗi polypeptide Các amino acid được nối với nhau thông qua liên kết amide của nhóm α carboxyl với nhóm α amino của amino acid tiếp theo Chính vì vậy chuỗi polypeptide có 2 đầu N và C tận cùng Theo quy ước về chiều, đầu N
ở bên tay trái và đầu C ở bên phải
Trang 17Hình 7 Các amino acid trong phân tử protein
và nằm trên một mặt phẳng
Thành phần tiếp theo trong cấu trúc bậc 2 là xoắn alpha, phiến beta và các vòng xoắn Cấu trúc xoắn alpha và phiến beta được giữ ổn định nhờ liên kết hydro Phiến beta có thể có 2 dạng song song và đối song (hình )
Trang 18Hình 8 Cấu trúc bậc 2 của một phân tử protein Xoắn alpha và phiến beta Cầu disulfide làm ổn định cấu trúc bậc 3 và các vùng liên quan đến hoạt tính xúc tác (màu vàng).
Cấu trúc bậc 3 và bậc 4
Cấu trúc bậc 3 được hình thành từ việc sắp xếp và gấp nếp tiếp theo từ các thành phần cấu trúc bậc
2 Những polypeptide có chiều dài lớn hơn 200 amino acid thường tự gấp nếp với nhau thành một
số đơn vị được gọi là domain Cấu trúc bậc 4 là dạng cấu trúc tiếp theo từ cấu trúc bậc 3 và các protein có cấu trúc bậc 4 thường được hình thành từ nhiều chuỗi polypeptide (subunit)
Trong cấu trúc bậc 4 sự tương tác giữa các amino acid bao gồm liên kết hydro giữa các chuỗi peptide, cầu disulfide giữa các gốc cystein, các liên kết ion giữa các nhóm tích điện của các gốc (chuỗi bên) và tương tác kị nước
2.3 Genome và nghiên cứu genome (genomics)
2.3.1 Genome
Theo sinh học phân tử và di truyền phân tử hiện đại (Ridley, M 2006), genome là toàn bộ thông tin di truyền của một sinh vật Các thông tin di truyền được mã hóa trong DNA hoặc RNA (đối nhiều loại virus) Lấy genome người làm một ví dụ, về mặt giải phẫu, nếu coi genome là một cuốn sách thì cuốn sách này được chia thành 23 chương (tương ứng với 23 cặp NST) Mỗi chương chứa 48 đến 250 triệu chữ tiên tục (A,C,G,T) Toàn bộ cuốn sách có hơn 3,2 tỉ chữ và được đặt trong nhân của tế bào
Dự án xác định trình tự genome đầu tiên hoàn tất năm 1977 bởi Fred Sanger Ông và cộng
sự đã xác định trình tự phage Φ-X174, chứa 5386 base Genome của vi khuẩn đầu tiên được xác
định trình tự là Haemophilus influenzae vào năm 1995 Vài tháng sau genome của eukaryote đầu tiên được xác định trình tự là của nấm men Saccharomyces cerevisiae (gồm 16 NST) sau gần 10
năm thực hiện Sự phát triển của công nghệ đã làm tăng nhanh chóng số lượng genome của các loài được xác định trình tự
2.3.2 Nghiên cứu genome (genomic research)
Các nghiên cứu liên quan đến genome không đơn thuần chỉ là việc tổng kết các genome đã được xác định trình tự hay các chỉ ra các gene có trong một genome cũng như các tính trạng liên quan Nghiên cứu genome bao gồm cả việc so sánh kích thước genome, số lượng NST (karyotype), trật tự các gene, tần suất sử dụng codon, thành phần GC, và các cơ chế dẫn đến sự đa dạng về
Trang 19genome ngày nay Gần đây nghiên cứu genome cũng bao gồm cả việc so sánh nhiều genome để phát hiện ra các vùng bảo thủ trong genome Các kết quả này thường được biểu diễn dưới dạng đồ họa thông qua các trình duyệt genome hay genome browser.
Genome học (genomics) là một môn học gắn liền với di truyền học Genomics liên quan đến
việc nghiên cứu genome của các sinh vật bao gồm xác định trình tự DNA của toàn bộ genome và lập bản đồ di truyền có mức phân giải cao (khoảng cách giữa các marker rất gần nhau) Ngoài ra, việc nghiên cứu các hiện tượng xảy ra bên trong genome chẳng hạn như: hiện tượng ưu thế lai
(heterosis), sự tác động lấn át của các gene (epistasis), sự ảnh hưởng của một gene lên nhiều gene (pleiotropy) và sự tương tác giữa các locus và các allele bên trong genome Khác với việc nghiên
cứu vai trò và chức năng của những gene đơn lẻ trong sinh học phân tử và di truyền phân tử cũng như y, sinh học hiện đại, genomics nghiên cứu mối quan hệ tổng thể của các thành phần trong genome Trừ khi những nghiên cứu từng gene đơn lẻ có vai trò quan trọng trong việc làm sáng tỏ các đặc tính di truyền, các con đường và phân tích thông tin gắn liền với chức năng được coi là một phần trong nghiên cứu genome
Việc lặp genome (genome duplication) đóng vai trò chủ yếu trong việc hình thành các
genome khác nhau Việc lặp geneome có thể dao động từ phạm vi hẹp (những đoạn lặp lại ngắn, short tandem repeat) hoặc lặp lại cả gene hoặc cả cụm gene, lặp cả NST và thậm chí toàn bộ genome Những sự kiện này có thể là nền tảng để tạo ra đặc tính di truyền mới, làm cơ sở của tiến
hóa Trao đổi gene theo chiều ngang (horizontal gene transfer) có vai trò quan trọng trong việc giải
thích sự giống nhau lạ kì giữa các phần nhỏ trong các genome của hai sinh vật không có mối liên quan.Việc trao đổi gene này cũng tương đối phổ biến giữa các vi sinh vật trong đó hiện tượng kháng kháng sinh ở các vi sinh vật là một ví dụ điển hình Vật chất di truyền được chuyển từ genome ti thể và lục lạp vào NST ở các tế bào eukaryote cũng là một ví dụ cho hiện tượng này
Genome người (human genome)
Năm 2001, bản nháp đầu tiên của genome người được công bố Vào năm 2007, dự án xác định trình tự genome người hoàn tất với tỉ lệ lỗi rất nhỏ (khoảng 1/20.000 base) Có thể truy cập các phiên bản lắp ráp trình tự genome người bằng cách dùng UCSC Genome Browser, Ensembl
Nghiên cứu genome bacterophage (bacteriophage genomics)
Bacteriophages đóng vai trò quan trọng trong nghiên cứu di truyền vi khuẩn và sinh học phân tử Về mặt lịch sử, chúng được sử dụng để xác định cấu trúc gene và nghiên cứu cơ chế cũng như mô hình điều hòa hoạt động gene Do genome có kích thước nhỏ và không chứa ỉntron nên bacteriophase được lựa chọn để xác định trình tự đầu tiên Tuy nhiên, nghiên cứu về bacteriophage không mở ra sự cách mạng về genome (cuộc cách mạng về genome bắt đầu từ việc xác định trình tự các vi khuẩn) Trình tự genome của các bacteriophage thường được xác định thông bằng việc đọc trình tự trực tiếp Phân tích genome vi khuẩn cho thấy một phần đáng kể DNA vi khuẩn chứa các trình tự tiền phage (prophage) và dạng giống như prophage (prophage-like) Như vậy, việc khai thác thông tin trong CSDL của bacteriophage góp phần giải thích được vai trò của prophage trong việc hình thành dạng genome của vi khuẩn
Nghiên cứu genome vi khuẩn lam (Cyanobacteria genomics)
Hiện tại có 24 vi khuẩn lam được xác dịnh trình tự 15 trong số chúng được phân lập từ biển Có 6 chủng thuộc chi Prochlorococcus, 7 chủng thuộc chi nước mặn Synechococcus, Trichodesmium erythraeum IMS101 và Crocosphaera watsonii WH8501 Một số nghiên cứu đã cho thấy các trình tự này có thể được sử dụng rất hữu ích trong việc suy diễn các đặc tính sinh lý và sinh thái của vi khuẩn lam ở biển Tuy nhiên, có rất nhiều dự án xác định trình tự genome đang được thực hiện trong số đó có các dạng phân lập thuộc chi Prochlorococcus và Synechococcus (ở biển), Acaryochloris và Prochloron, một dạng khuẩn lam dạng sợi có khả năng cố định nitrogen
Nodularia spumigena, Lyngbya aestuarii và Lyngbya majuscul cũng như tác động của
bacteriophage lên vi khuẩn lam ở biển Như vậy, việc nghiên cứu genome đóng vai trò quan trọng
Trang 20trong việc giải thích nguồn gốc tiến hóa của các sinh vật và các quá trình sinh học chẳng hạn như quang hợp.
Mối quan hệ giữa C-value và số lượng gene:
Giá trị C (C-value) là hàm lượng DNA của một sinh vật Giá trị này có sự biến động rất lớn
ở các loài Không có mối liên hệ rõ ràng nào giữa C-value và số lượng gene của sinh vật Ở các genome phức tạp, tỉ lệ các trình tự DNA không mã hóa (non-coding DNA) không mang thông tin di truyền để mã hóa RNA càng lớn Ở người, DNA không mã hóa chiếm tới gần 75% genome Nghịch
lý giá trị C (C-value paradox) để chỉ mối quan hệ không tỉ lệ giữa kích thước genome và số lượng gene
Trang 212.3 Phát hiện gene và xác định chức năng gene trong genome
Hình 10 Tổ chức genome người
Sau khi các dự án xác định trình tự genome kết thúc, kết quả thu được là các chuỗi trình tự được sắp xếp trong các nhiễm sắc thể Vấn đề tiếp theo là phải “giải mã“ thông tin chứa đựng trong các chuỗi trình tự đó Việc giải mã thông tin thực chất là để trả lời những câu hỏi như: (i) genome của sinh vật có bao nhiêu gene, (ii) các gene đó phân bố ở đâu trên các nhiễm sắc thể, (iii) chức năng của các gene đó là gì, (iv) cơ chế điều hòa động của các gene đó như thế nào
Để trả lời những câu hỏi này đòi hỏi rất nhiều thời gian, công sức và trong một số trường hợp chưa thể tìm ra đáp án cho những câu hỏi đó Có nhiều hướng tiếp cận để „giải mã“ genome, trong đó các công cụ tin sinh học có vai trò rất lớn Chẳng hạn để xác định số lượng gene người ta phải dựa vào các đặc điểm của gene bao gồm: trình tự mã hóa (coding sequence) hay các khung đọc
mở (open reading frame), trình tự promoter, các trình tự nối giữa exon và intron cũng như các trình
tự điều khiển hoạt động của gene (các vùng 5‘ UTR, 3’UTR) So sánh genome, so sánh trình tự DNA là những thao tác quan trọng đầu tiên để phát hiện cũng như dự đoán chức năng của gene
Việc lập bản đồ vật lý dựa trên cơ sở trật tự các gene và thông tin đã biết của các gene Thông tin này sẽ được hiển thị dưới dạng đồ họa ở các genome browser Xác định chức năng của gene được coi là một trong những thách thức với các nhà nghiên cứu genome Mặc dù thông tin về trình tự, cấu trúc và chức năng sinh học của các gene, các trình tự sinh học được công bố ngày càng nhiều nhưng việc dự đoán chức năng của các gene thường rất phức tạp Có nhiều hướng tiếp cận cho bài toán này trong đó có thể tiếp cận từ genome hoặc từ sản phẩm gene (protein) hoặc kiểu hình Giả sử người ta muốn biết tính trạng chiều cao cây, khả năng kháng sâu bệnh, màu sắc hoa hay hàm lượng protein trong sữa do gene nào mã hóa Nếu tính trạng cần nghiên cứu là đơn gene thì
sẽ tương đối đơn giản Tuy nhiên nếu tính trạng đó do nhiều gene quy định (tính trạng số lượng) thì công việc này sẽ trở lên cô cùng phức tạp Vấn đề là làm thế nào để chỉ rõ được gene (các gene) nào, phân bố ở đâu trong genome (trên NST) trực tiếp mã hóa hoặc tham gia vào quá trình hình thành nên tính trạng đó Ngoài ra, mô hình hoạt động hoặc cơ chế, điều kiện biểu hiện của các gene
đó như thế nào?
Trang 22Trên thực tế cho dù sử phương pháp nào hay hướng tiếp cận nào thì cuối cùng vẫn phải xác nhận lại có đúng gene đó tham gia vào việc hình thành tính trạng đó không Việc kiểm chứng này thực sự là một câu hỏi vô cùng nan giải đặc biệt ở những tính trạng di truyền số lượng ở các đối tượng sinh vật bậc cao bởi vì các kỹ thuật knock out, knock down, ức chế sự biểu hiện gene bằng RNAi không phải lúc nào cũng có thể áp dụng Một hướng tiếp cận khác để xác định chức năng của gene như kỹ thuật microarray nhằm phát hiện sự xuất hiện hoặc thay đổi mức độ biểu hiện của các mRNA trong những điều kiện nhất định cũng góp phần vào việc nhận diện và nghiên cứu chức năng gene Những nghiên cứu so sánh genome, so sánh trình tự, so sánh cấu trúc (data mining and analysis) cũng là một xu hướng và là thao tác đầu tiên khi các cơ sở dữ liệu chứa thông tin về các trình tự sinh học ngày càng nhiều Tuy nhiên mức độ chính xác và tin cậy của các thông tin đưa ra phụ thuộc rất nhiều vào các thuật toán và mức độ phong phú của thông tin trong các cơ sở dữ liệu.
Số lượng gene của các sinh vật
Ở người, lúc ban đầu người dự đoán genome chứa khoảng từ 50.000 đến 100.000 gene Gần đây số lượng gene được phát hiện vào khoảng 20.000 Chuột và ruồi cũng có số lượng gene tương
tự Giun tròn có khoảng 13 000 và lúa có hơn 46.000 Những trình tự mã hóa protein chiếm khoảng 1–2% genome người Một lượng lớn còn lại cũng được phiên mã bao gồm các introns, retrotransposons và các RNA không mã hóa (noncoding RNA) Tổng số protein ước tính trên toàn sinh giới (Earth's proteome) khoảng 5 triệu trình tự
Cấu trúc gene
Hình 11 Sơ đồ cấu trúc một gene ở prokaryote
Ở prokaryote, về mặt quy ước đầu 5’ của gene được đặt ở bên trái, đầu 3’ ở bên phải Cấu trúc một gene điển hình được minh họa dưới đây
Hình 12 Sơ đồ cấu trúc vùng trình tự promoter của prokaryote
Trang 23Hình 13 Cấu trúc gene của eukaryote (trên) và vùng promoter (dưới)
2.4 Hoạt động chức năng của gene và điều hòa hoạt động của gene
Hoạt động chức năng của gene là một quá trình phức tạp, có sự tham gia của rất nhiều thành phần của tế bào Ở prokaryote, hoạt động chức năng và điều hòa hoạt động của gene tương đối đơn giản Tuy nhiên ở eukaryote điều hòa hoạt động của gene vô cùng phức tạp liên quan đến nhiều quá trình từ cấu trúc nhiễm sắc thể liên quan đến các cơ chế epigenetics (methyl hóa, acetyl hóa, phosphoril hóa), khởi đầu phiên mã, phiên mã, cải biến sau phiên mã, dịch mã, cải biến sau dịch mã
và vận chuyển hướng đích Nghiên cứu hoạt động của một gene đã phức tạp thì điều hòa hoạt động của một con đường chuyển hóa (metabolomic pathway) còn phức tạp hơn nhiều, có sự tham gia của rất nhiều gene và tương tác của nhiều protein, enzyme khác trong tế bào Chính vì vậy nghiên cứu hoạt động chức năng của gene cần có sự so sánh và đối chiếu với nhiều cơ sở dữ liệu và nhiều genome khác nhau
Trang 24Hình 14 Các quá trình điều hòa hoạt động gene ở eukaryote
2.5 Proteome và lĩnh vực nghiên cứu protein (proteomics)
Proteome được coi là toàn bộ các protein được biểu hiện bởi một genome, tế bào, mô hoặc các sinh vật ở một thời điểm hoặc điều kiện nhất định Xét về mức độ đang dạng, proteome lớn hơn nhiều so với genome, đặc biệt ở sinh vật nhân chuẩn Nói cách khác số lượng protein lớn hơn nhiều
so với số lượng các gene có trong genome Nguyên nhân là do các hiện tượng phân cắt, sửa chữa tiền mRNA (pre-mRNA) của các gene và quá trình cải biến sau dịch mã chẳng hạn như phosphoryl hóa, glycosyl hóa Nếu so với dữ liệu về genome chủ yếu là trình tự DNA, RNA thì dữ liệu về proteome phức tạp hơn bởi vì ngoài trình tự amino acid còn có các dữ liệu cấu trúc, chức năng và
sự tương tác giữa các protein
Lĩnh vực nghiên cứu proteome (proteomics) liên quan đến nhiều kỹ thuật phức tạp như tách chiết, tinh sạch protein, phân tích protein bằng điện di 2 chiều, các kỹ thuật phân tích khối phổ, so sánh sự đồng dạng giữa các mảnh peptide, so sánh trình tự amino acid Proteomics bao gồm nội dung quan trọng là nghiên cứu cấu trúc và nghiên cứu chức năng Những thông tin về trình tự amino acid, cấu trúc và chức năng giúp các nhà nghiên cứu giải thích được bản chất của các quá trình sinh học, cơ chế của các quá trình rối loạn, bệnh tật và nhận dạng và dự đoán chức năng của những protein mới
2.6 Tiến hóa và bản chất phân tử của quá trình tiến hóa ở các sinh vật
2.6.1 Đột biến và tích lũy đột biến
Đột biến được coi như là vật liệu ban đầu của tiến hóa, mặc dù cơ chế và nguyên nhân của tiến hóa đến nay vẫn còn nhiều tranh cãi Xét trên quan điểm đột biến, đây là con đường dẫn đến việc hình thành allele mới hoặc các vùng có chức năng điều hòa bị thay đổi hoặc tạo mới Các đột biến thường gây ra những hậu quả nghiêm trọng nhưng cũng có đột biết thuộc dạng trung tính hoặc không ảnh hưởng đến kiểu hình (đột biến trong các vùng DNA không mã hóa/ non-coding DNA)
Trang 25Hầu hết các đột biến trong cấu trúc gene đều tác động đến sản phẩm protein (hoặc dẫn đến
sự đa dạng về sản phẩm protein do quá trình phân cắt, ghép nối exon của mRNA Những thay đổi
về mặt tiến hóa liên quan đến hàng loạt thay đổi cấu trúc và chức năng Ở đây, câu hỏi đặt ra là tại sao những thay đổi nhỏ trong các gene do đột biến, đặc biệt là đột biến điểm, lại dẫn đến sự phân biệt loài này với loài khác Để trả lời câu hỏi này cần phải xem xét ở cả hai khía cạnh không gian và thời gian Không gian ở đây là những áp lực chọn lọc đặt lên những cá thể bị đột biến Thời gian là
hệ quả của một quá trình chọn lọc tự nhiên lâu dài Không gian và thời gian có mối quan hệ chặt chẽ với nhau nếu áp lực chọn lọc quá mạnh thì trong một thời gian ngắn đã có thể hình thành những loài mới hoặc dẫn đến tuyệt chủng
2.6.2 Sự lặp gene và genome (gene/genome duplication)
Các đột biến có thể gây nguy hiểm trong một cặp base của các gene có thể không ảnh hưởng
gì nếu như các gene này trước đó đã được lặp (tạo ra 1 hoặc một số bản copy) Sự lặp gene trong một cơ thể lưỡng bội tạo ra thêm một cặp gene cùng tồn tại vì thế một cặp vẫn hoạt động chức năng bình thường, cặp còn lại bị đột biến hoặc hình thành các dạng tổ hợp khác nhau
Vậy lợi ích của quá trình này là gì? Theo thời gian, một bản copy có thể hình thành nên một chức năng mới, làm nền tảng cho việc thích nghi trong quá trình tiến hóa Ngay cả khi 2 bản copy
của gene đó tồn tại theo kiểu paralogous, tức là có trình tự và chức năng tương tự nhau, sự tồn tại
của các bản copy tạo ra sự dư thừa Điều này giải thích tại sao trong một số trường hợp chuột hoặc
nấm men bị knock out thường có ảnh hưởng không quá nặng nề (mild effect) lên kiểu hình Chức năng của các gene bị knock out có thể bị trung hòa bởi một dạng paralog tương ứng của nó.
Sau khi gene được lặp, sự mất ngẫu nhiên của những gene này ở một khoảng thời gian sau
đó trong một nhóm con cháu khác nhau từ sự mất trong một nhóm khác có thể tạo ra một rào cản
(post-zygotic isolating mechanism)trong quá trình giao phối, sinh sản giữa chúng Những rào cản
này có thể dần dần gây ra sự phân loài: sự tiến hóa thành 2 loài khác nhau từ một một tổ tiên ban đầu
Bằng chứng:
- Các gene paralogous Các gene trong một loài có thể tăng lên bởi sự lặp gene của một gene tổ
tiên Chẳng hạn gene mã hóa cho các thụ thể khứu giác
- Lặp toàn bộ genome, ví dụ: hiện tượng đa bội ở thực vật hạt kín, bằng chứng về sự tiến hóa của động vật có xương sống liên quan đến ít nhất 2 bản copy của toàn bộ genome Ví dụ ở cả 2 loài
động vật không xương sống Drosophila, và ngành dây sống Amphioxus chứa 1 cụm gene đơn
HOX trong khi chuột và người có 4 cụm
2.6.3 Các đột biến trong vùng điều hòa
Mặc dù về mặt số lượng gene có thể nói là như nhau ở tất cả các tế bào, tuy nhiên không phải tất cả các gene đều được biểu hiện như nhau ở tất cả các tế bào Chỉ có một (một số) gene được biểu hiện, sự khác biệt này phụ thuộc vào sự tương tác của các tín hiệu ngoại bào, các yếu tố phiên
mã, và một số gene nhất định
Có nhiều bằng chứng cho rằng các đột biến trong vùng điều khiển đóng vai trò quan trọng trong tiến hóa Chẳng hạn: Người có một gene (LCT) mã hóa cho lactase, enzyme này đóng vai trò phân giải lactose Hầu hết mọi người trên thế giới gene này đều hoạt hóa ở trẻ nhỏ nhưng sẽ không hoạt động ở người lớn Tuy nhiên, những người bắc âu và 3 bộ tộc châu Phi gene này vẫn hoạt động
vì trong khẩu phần ăn của họ vẫn dùng sữa Nguyên nhân là do có một đột biến trong vùng điều khiển gene lactose cho phép nó vẫn được biểu hiện Những dạng đột biến trong 4 trường hợp ở trên
là những ví dụ của đột biến hội tụ (convergent mutation)
Gene Prx1 mã hóa cho một yếu tố phiên mã quyết định cho sự hình thành chân trước ở động vật có vú Khi chuột có vùng enhancer của gene Prx1 bị thay thế bởi vùng enhancer tương ứng của dơi (chân trước sẽ là đôi cánh), khi đó các chân trước dài hơn 6% so với bình thường Như vậy, một
sự thay đổi về hình thái không được điều khiển bởi sự thay đổi protein Prx1 nhưng lại do sự thay đổi về mức độ biểu hiện của gene này
Trang 262.7 Phân tích mối quan hệ tiến hóa của các sinh vật
2.7.1 Analogous
Hiểu một cách đơn giản analogous là những đặc điểm giống nhau được quan sát thấy ở hai
hay nhiều loài mà bản thân chúng không có sự liên hệ về mặt tổ tiên Các đặc điểm sinh học giống
nhau (biological analogies) như thế này thường là kết quả của quá trình tiến hóa hội tụ (convergent evolution) Tiến hóa hội tụ là kiểu tiến hóa mà ở đó sự thay đổi một số đặc điểm trong quá trình tiến
hóa chỉ mang tính thích nghi với điều kiện nhất định Ví dụ đôi cánh của chim và dơi có cấu trúc dạng tương tự nhau và phù hợp cho việc bay lượn nhưng về bản chất là khác nhau
2.7.2 Homologous
Các tính trạng tương đồng (homologous) là do cùng được chia sẻ từ một nguồn gốc chung Những
tính trạng như vậy thường có nguồn gốc phôi tương tự nhau và sự phát triển cũng giống nhau Trái
với các tính trạng analogous, sự tương đồng hoặc giống nhau không có mặt ở tổ tiên chung cuối cùng của một nhóm phân loại (taxa) và chúng được xem như tiến hóa riêng rẽ (không có mối liên hệ) Các tính trạng analogous có thể hoặc không có sự giống nhau về mặt phôi học, chẳng hạn như
cánh của chim và loài dơi Chúng có sự tiến hóa riêng rẽ nhưng cùng xuất phát từ chân trước
(forelimbs) và do đó chúng có sự giống như về mặt phôi học Một tính trạng tương đồng có thể là:
- Homoplasious: quá trình tiến hóa xảy ra riêng rẽ, nhưng có cùng tổ tiên chung
- Plesiomorphic: có cùng tổ tiên chung, nhưng trong quá trình tiến hóa dẫn đến sự mất đi một
nhau, similar) với nhau bởi vì chúng có nguồn gốc là những hậu duệ trực tiếp của một gene đơn lẻ của tổ tiên gần nhất Thuật ngữ “ortholog” được đưa ra bởi Walter Fitch vào năm 1970
Chẳng hạn protein điều hòa Flu có mặt ở cả Arabidopsis (thực vật đa bào bậc cao) và Chlamydomonas (tạo lục đơn bào) Ở Chlamydomonas, protein này phức tạp hơn ở chỗ nó xuyên
màng 2 lần thay vì một lần ở Arabidopsis, vì thế nó có nhiều domain và trải qua quá trình xử lý
mRNA sau phiên mã(alternative splicing) Khi chuyển gene này từ tảo lục sang genome thực vật bằng kỹ nghệ di truyền thì sự giống nhau (similarity) đáng kể về trình tự và cùng chia sẻ các vùng domain chức năng chứng tỏ rằng 2 gene này là orthologous, cùng di truyền từ 1 tổ tiên chung.
Bằng chứng rõ ràng nhất cho thấy 2 gene tương tự nhau là orthologous hay không là kết quả phân tích (phylogenetic analysis) về dòng giống của gene đó Các gene nằm trong một nhánh (clade) là ortholog và bao gồm một nhóm orthologous của các gene là con cháu (hậu duệ) của một
tổ tiên chung Các gene orthologs thường có cùng chức năng (nhưng không phải là luôn luôn).
Các trình tự orthologous cung cấp thông tin hữu ích về sự phân loại taxon (taxonomic classification) và các nghiên cứu phylogenetic của các sinh vật Sự biến dị di truyền có thể được
dùng đề kiểm tra sự liên hệ giữa các sinh vật Hai sinh vật có mối quan hệ gần gũi thường cho trình
tự DNA rất giống nhau giữa 2 gene ortholog Ngược lại, một sinh vật có mối liên hệ tiến hóa xa với sinh vật khác thường thể hiện sự biến dị lớn về trình tự của các gene ortholog.
2.7.4 Paralogous
Trang 27Hai gene hoặc các cụm gene ở các vị trí khác nhau trên NST của một sinh vật có sự tương đồng về mặt cấu trúc cho thấy chùng cùng xuất phát từ một tổ tiên chung và sự phân ly (biến đổi) từ
bản copy ban đầu bởi đột biến và sự lựa chọn hoặc trôi dạt (drift).
Các trình tự tương đồng (homologous) được gọi là paralogous khi chúng được phân tách bởi
một sự kiện lặp gene: nếu một gene trong một sinh vật bị lặp lại và chiếm 2 vị trí khác nhau trong
cùng một genome, khi đó 2 bản copy đó được gọi là paralogous (para nghĩa là song song) và có thể cùng thực hiện chức năng giống nhau.Một nhóm các trình tự paralogous thì được gọi là paralog với nhau Paralog thường có cùng chứng năng hoặc chức năng tương tự nhau, nhưng không phải là
luôn luôn Nguyên nhân là do thiếu áp lực lựa chọn, tức là áp lực lựa chọn chỉ đặt lên 1 bản copy của gene bị lặp, bản copy kia được tự do đột biến, thay đổi và hình thành chức năng mới
Các trình tự paralogous cung cấp nhiều thông tin hữu ích bên trong các genome Các gene
mã hóa cho myoglobin và haemoglobin được xem như là dạng paralogs cổ xưa nhất tương tự 4 nhóm haemoglobin (A, A2, B, F) là paralog của nhau Trong khi mỗi protein đều thực hiện chức năng giống nhau là vận chuyển oxy thì một dạng biến đổi nhỏ ở haemoglobin F dẫn đến có ái lực rất cao với oxy so với các haemoglobin ở người trưởng thành Chức năng hoạt động cũng không nhất thiết phải giữ vững Chẳng hạn, trong trường hợp của angiogenin của người biến đổi từ
ribonuclease, có 2 paralog vẫn giữ cấu trúc bậc 3, chức năng của chúng trong tế bào khá khác
nhau.Các gene paralogous thường thuộc về cùng một loài, nhưng không phải lúc nào cũng như vậy
Chẳng hạn gene haemoglobin của người và myoglobin của khỉ đầu chó là paralog Đây là một vấn
đề hay gặp phải trong tin sinh học: khi các genome của các loài khác nhau được xác định trình tự và
các gene homologous đã được phát hiện, một ai đó có thể kết luận ngay là những gene này là một và
có chức năng như nhau, khi mà chúng có thể là paralog và chức năng của chúng đã biến đổi.
2.7.5 Ohnology
Các gene ohnologous là các gene paralogous mà có nguồn gốc từ một quá trình lặp lại toàn
bộ genome Thuật ngữ này được Ken Wolfe sử dụng để vinh danh Susumu Ohno Ohnolog là một trong những hiện tượng lý thú trong phân tích tiến hóa bởi vì chúng được biến đổi trong cùng một
độ dài thời gian từ nguồn gốc tổ tiên chung của chúng (do lặp lại toàn bộ genome)
Trang 282 Thông tin di truyền được lưu trữ trong phân tử DNA, RNA được biểu hiện thông qua các quá trình phiên mã, dịch mã và cải biến (sau phiên mã và dịch mã) Đây cũng là nội dung của luận thuyết trung tâm trong sinh học phân tử.
3 Với sự phát triển nhanh chóng của các kỹ thuật, việc xác định trình tự gene và genome đã trở thành một công việc thường ngày ở các phòng thí nghiệm Sau khi xác định trình tự genome, việc mô tả và gắn các thông tin sinh học vào các trình tự DNA là một nhiệm vụ của
cả các nhà nghiên cứu sinh học và tin sinh học Các kết quả nghiên cứu sinh học về thành phần, cấu trúc gene của sinh vật prokaryote và eukaryote làm cơ sở cho việc xây dựng các thuật toán và mô hình mô phỏng máy tính
4 Những nghiên cứu về mối liên hệ giữa trình tự và cấu trúc phân tử axit nucleic, protein và mối liên hệ giữa cấu trúc và chức năng sinh học sẽ làm nền tảng để mô phỏng và dự đoán và
so sánh các cấu trúc, dự đoán chức năng dựa vào việc so sánh trình tự
5 Đột biến và những thay đổi trình tự, cấu trúc gene, genome trong quá trình tiến hóa đã tạo
cơ sở để nghiên cứu các mối quan hệ loài, sự phát sinh loài và nghiên cứu chức năng của gene, genome giữa các loài sinh vật Trên cơ sở phân tích và so sánh trình tự sinh học có thể xác định được các mối quan hệ di truyền, nguồn gốc tiến hóa và xu hướng tiến hóa ở các mức độ từng gene, họ gene, họ protein và ở mức độ loài
Câu hỏi ôn tập chương 2
1 Trình bày thành phần cấu tạo và cấu trúc của axit nucleic
2 Thế nào là mã di truyền, đặc điểm của mã di truyền
3 Trình bày nội dung của luận thuyết trung tâm
4 Trình bày mối liên hệ giữa cấu trúc và chức năng của các protein
5 Genome là gì? Ý nghĩa của việc nghiên cứu genome?
6 Hãy mô tả cấu trúc gene của sinh vật prokaryote và eukaryote
7 Điều hòa hoạt động gene là gì?
8 Tại sao phải nghiên cứu mối quan hệ tiến hóa của các sinh vật
Chương 3 TÌM KIẾM VÀ QUẢN LÝ TÀI LIỆU NGHIÊN CỨU
3.1 Phương pháp tìm kiếm thông tin
Sự phát triển nhanh chóng của mạng lưới Internet và số lượng trang Web đã tạo ra một lượng thông tin khổng lồ và tăng lên từng ngày Để tìm được thông tin cần thiết trong kho dữ liệu khổng lồ này cần phải sử dụng các công cụ tìm kiếm kết hợp với phương pháp phù hợp Chương 3
sẽ giới thiệu một số công cụ và phương pháp tìm thông tin chung trên Internet phục vụ học tập và nghiên cứu
Khi cần tìm kiếm các trang web chứa những từ đặc thù hoặc cụm từ các công cụ tìm kiếm chẳng hạn như Google sẽ rất hiệu quả, cho ra kết quả nhanh, hiệu quả Tuy nhiên, việc tìm kiếm này đôi khi đưa ra rất nhiều kết quả không liên quan trực tiếp đến chủ đề hoặc phạm vi tìm kiếm dẫn đến mất nhiều thời gian Khi tìm kiếm có định hướng trong một lĩnh vực cụ thể hoặc một chủ đề cụ thể có thể sử dụng các nhóm thư mục (subject directories) chẳng hạn Word Wide Web Vitual Library (http://vlib.org/) để thu hẹp phạm vi lĩnh vực của người tìm kiếm Tuy nhiên một thực tế là lượng thông tin mà các công cụ tìm kiếm cung cấp chỉ khoảng 1/3 số lượng thông tin thực tế có Nguyên nhân là do các công cụ này không thể truy cập được nguồn thông tin đó Việc không truy cập được chủ yếu liên quan đến an ninh mạng và các hàng rào chặn Các công cụ tìm kiếm không được phép vượt qua các rào chặn này
Trang 29Có hai kiểu tìm kiếm thông tin, tìm kiếm sử dụng các công cụ tìm kiếm chung (chẳng hạn như Google) và tìm kiếm các dữ liệu đặc thù theo mục đích nghiên cứu hoặc lĩnh vực nghiên cứu Cho dù sử dụng công cụ tìm kiếm nào thì việc tìm kiếm thông tin cũng cần có các quá trình bao gồm: (i) xác định công cụ tìm tin hoặc các trang web hỗ trợ tìm tin, (ii) xác định nội dung thông tin cần tìm, (iii) xây dựng từ khóa đại diện cho nội dung tìm kiếm (nên sử dụng từ khóa dưới dạng cụm
từ thay vì những từ đơn, đối với tiếng Anh không nên dùng mạo từ, nên dùng danh từ), (iv) sử dụng các toán tử logic để kết hợp chẳng hạn như các hàm boolean như: and, or, not, hoặc +, -, dấu ngoặc kép “”, dấu *, để lọc và thu hẹp kết quả nghiên cứu
3.3 Cách tìm tài liệu phục vụ nghiên cứu
Hiện nay Google được xem như một công cụ tìm kiếm nhanh và hữu hiệu nhất được đa số mọi người sử dụng Xét về phương diện tìm kiếm thông tin chung hoặc kể cả tìm kiếm theo thư mục chủ đề (directory) thì Google vẫn là công cụ chiếm ưu thế Trong một số trường hợp Google có thể thâm nhập vào một số trang web có bảo mật để hiển thị thông tin tìm kiếm, tuy nhiên việc truy xuất vào các nguồn thông tin này sẽ bị chặn lại vì lí do an ninh mạng Mặc dù vậy, có thể nói để tìm thông tin một cách bao quát Google được xem như là công cụ tìm kiếm đầu tiên được lựa chọn
Việc tìm kiếm được bắt đầu bằng việc xác định thông tin cần tìm kiếm, tiếp sau đó là việc xây dựng từ khóa Đối với các nhà nghiên cứu sinh học, đặc biệt trong lĩnh vực sinh học phân tử, thông tin chủ yếu được lấy từ các tài liệu nước ngoài vì vậy việc thành thạo tiếng Anh là điều gần như bắt buộc Việc xây dựng từ khóa dựa vào việc kết hợp các từ, chủ yếu là danh từ để hình thành các cụm từ khóa Thông thường các kết quả trả về của Google thường rất lớn vì vậy người sử dụng phải lọc kết quả tìm kiếm bằng cách sử dụng các phương pháp như tăng độ dài từ khóa, nhóm từ khóa thành các cụm từ và kết hợp với các toán tử logic (hàm boolean) hoặc sử dụng các chức năng tìm kiếm nâng cao Tuy nhiên, việc sử dụng Google chỉ giải quyết được bài toán tìm thông tin chung và khái quát vì để tìm được thông tin đặc thù cho mục đích nghiên cứu đòi hỏi quá trình tìm kiếm lại trong kết quả vừa tìm được dẫn đến mất rất nhiều thời gian và công sức
Trong lĩnh vực sinh học, một phần lớn tài liệu phục vụ nghiên cứu và học tập là các bài báo khoa học được đăng trên các tạp chí chuyên ngành Việc sử dụng thông tin từ các bài báo đảm bảo được tính chính xác và đặc thù của thông tin Pubmed là một trong những cơ sở dữ liệu MEDLINE của NCBI cho phép người sử dụng có thể tìm kiếm rất nhiều kết quả nghiên cứu liên quan đến lĩnh vực sinh, y học dưới dạng các bài báo khoa học toàn văn (full text) hoặc tóm tắt (abstract) Gần đây, nhiều tạp chí khác nhau đã đăng ký vào trong danh mục của Pubmed vì vậy phạm vi tìm kiếm các kết quả công bố dưới dạng bài báo khoa học của Pubmed không chỉ dừng lại ở phạm vi y sinh học
mà còn liên quan đến nhiều lĩnh vực khác như hóa học, vật lý, công nghệ vật liệu, công nghệ thông tin Các bài báo dạng toàn văn có thể download miễn phí có thể tìm trong CSDL PMC của NCBI
Các dữ liệu tìm kiếm trong Pubmed được thể hiện dưới dạng các bài báo và thông tin liên quan Hình xxx giới thiệu một kết quả tìm kiếm điển hình của Pubmed Về mặt định dạng, thông tin tìm kiếm bằng Pubmed sẽ được cung cấp bao gồm tiêu đề bài báo, tác giả hoặc nhóm tác giả thực hiện, tên tạp chí được đăng, số xuất bản và số trạng của bài báo Ngoài ra, Pubmed cung cấp đường kết nối (link) tới nguồn của bài báo cho phép người đọc có thể truy cập miễn phí hoặc được
sự cho phép của trang cung cấp chứa bài báo đó
Trang 30Hình 15 Tìm kiếm tài liệu nghiên cứu từ CSDL Pubmed
3.4 Làm quen với Pubmed
PubMed là một nguồn mở được phát triển và duy trì bởi NCBI, thuộc NIH PubMed chứa hơn 20 triệu trích dẫn cho các vấn đề liên quan đến sinh y học từ MEDLINE, các tạp chí khoa học
sự sống và các sách online PubMed là một CSDL lớn tập hợp các bài báo, tóm tắt, các trích dẫn và các đường link liên kết với các CSDL khác Ban đầu CSDL MEDLINE chứa các tạp chí, tóm tắt liên quan đến khoa học sự sống và các chủ đề y sinh học United States National Library of Medicine (NLM) ở NIH duy trì CSDL này như một phần của hệ thống quản lý và lưu trữ thông tin PubMed được đưa ra bắt đầu từ tháng giêng năm 1996
Tính đến 19/6/2013, PubMed đã chứa hơn 22,7 triệu bài báo tính từ năm 1966 và thậm chí có những bài từ năm 1809 Hàng năm có khoảng 0,5 triệu bài báo mới được bổ sung Trong số các dữ liệu trong Pubmed có khoảng 13,1 triệu được viết dưới dạng tóm tắt và 14,2 triệu dưới dạng đường liên kết với các bài báo toàn và trong số này có 3,8 triệu bài báo cho phép người dùng download miễn phí
PubMed cũng trang bị các toán tử logic trong quá trình thực hiện tìm kiếm, tuy nhiên quá trình này là tự động Từ khóa đưa vào sẽ được dịch ra thành các dạng biến thể của từng từ và các từ thường được sử dụng liên quan với các từ khóa đó kết hợp với các toán tử logic
Trang 31Hình 16 Kết quả tìm kiếm CSDL Pubmed 3.5 Cách quản lý tài liệu nghiên cứu
Việc tìm được tài liệu phù hợp với mục đích nghiên cứu là một quá trình đỏi hỏi mất nhiều thời gian và công sức Tuy nhiên, ngay cả khi đã tìm được những bài báo liên quan đến chủ đề nghiên cứu thì việc quản lý thông tin này một cách hiệu quả cho việc đọc, tra cứu và trích dẫn cũng đòi hỏi nhà nghiên cứu sắp xếp và tổ chức nguồn thông tin này một các hiệu quả
Có nhiều cách quản lý các thông tin và dữ liệu bài báo, trong đó Endnote là một công cụ khá hiệu quả cho phép nhà nghiên cứu truy cập và trích dẫn nguồn tài liệu theo nhiều mục đích khác nhau Một trong những ưu điểm là Endnote nhận định dạng kết quả tìm kiếm của một số công cụ, điển hình nhất là định dạng MEDLINE của NCBI Ngoài ra Pubmed cho phép tìm kiếm khả năng tìm kiếm thông tin và trích dẫn trong các bài báo khoa học, luận văn và luận án một cách tự động dựa trên cơ sở dữ liệu được tạo ra Dưới đây là một hình ảnh minh họa của chương trình Endnote Cách sử dụng Endnote được giới thiệu cụ thể trong các bài thực hành đi kèm với bài giảng này