SỬ DỤNG CÔNG CỤ TIN SINH TRONG NGHIÊN CỨU METAGENEOMICS – HƯỚNG NGHIÊN CỨU VÀ ỨNG DỤNG MỚI TRONG SINH HỌC NGUYỄN MINH GIANG*, ĐỖ THỊ HUYỀN**, TRƯƠNG NAM HẢI*** TÓM TẮT Metagenomics là ngành khoa học n[.]
Nguyễn Minh Giang tgk TẠP CHÍ KHOA HỌC ĐHSP TPHCM _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ SỬ DỤNG CÔNG CỤ TIN SINH TRONG NGHIÊN CỨU METAGENEOMICS – HƯỚNG NGHIÊN CỨU VÀ ỨNG DỤNG MỚI TRONG SINH HỌC NGUYỄN MINH GIANG*, ĐỖ THỊ HUYỀN**, TRƯƠNG NAM HẢI*** TÓM TẮT Metagenomics ngành khoa học nghiên cứu đa hệ gene – nguyên liệu thu hồi trực tiếp từ mẫu môi trường Kĩ thuật cho phép khai thác tối đa gene hệ thống vi sinh vật không nuôi cấy hệ sinh thái Số liệu metagenome khai thác hiệu có hỗ trợ cơng cụ tin sinh học Đây thực bước đột phá nghiên cứu ứng dụng công nghệ sinh học Từ khóa: kĩ thuật nghiên cứu đa hệ gen, đa hệ gen, tin sinh học ABSTRACT Using bioinformatic technology in studying metagenomics – A new research approach and application in biology Metagenomics is the study of metagenome, the genetic material recovered directly from environment samples The technique allows maximum exploitation of the enormous genes of uncultured microorganism in biota Metagenome statistics can only be effectively exploited with the aid of bioinformatic technology, which is really a breakthrough in researching and applying biological technology Từ khóa: Metagenomics, metagenome, bioinformatics Tổng quan metagenomics 1.1 Khái niệm Thuật ngữ “metagenomics” lần sử dụng Jo Handelsman, Jon Clardy, Robert M Goodman tác giả khác xuất vào năm 1998 Metagenomics ngành khoa học nghiên cứu đa hệ gen (metagenome) – nguyên liệu di truyền thu hồi trực tiếp từ mẫu mơi trường Metagenome cịn biết đến “hệ gen cộng đồng” (community genomics) hay “hệ gen môi trường” (enviromental genomics) Metagenomics kĩ thuật cho phép khai thác tối đa gen vi sinh vật không nuôi cấy quần thể sinh vật Tùy vào loại mẫu môi trường số lượng vi sinh vật không nuôi cấy dao động từ 99,0 đến 99,7% Nếu tất gen vi sinh vật mẫu môi trường tập hợp lại nguồn nguyên liệu vô phong phú cho việc khai thác gen, tìm hiểu chế tác động vi sinh vật đảm bảo ổn định, phát triển chung hệ sinh thái * NCS, Trường Đại học Sư phạm TPHCM TS, Phòng Kĩ thuật Di truyền, Viện Công nghệ Sinh học – Viện Hàn lâm Khoa học quốc gia *** GS TS, Phòng Kĩ thuật Di truyền, Viện Công nghệ Sinh học – Viện Hàn lâm Khoa học quốc gia ** 1.2 Cách tiếp cận nghiên cứu metagenomics [1] Metagenomics nghiên cứu metagenome quần xã sinh vật thông qua ba bước gồm: 1) tách chiết nucleic acid mẫu thu thập; 2) thiết lập thư viện metagenome giải trình tự DNA metagenome; 3) sàng lọc gen dựa vào ngân hàng gene phân lập gen dựa vào số liệu giải trình tự gene Việc phân lập gen từ metagenome thực tương tự nghiên cứu phân lập gen hệ gen (genome) [9] Hiện sau tách chiết nucleic acid người ta tiến hành lập thư viện gen mà tiến hành giải trình tự Sau dựa số liệu giải trình tự kết hợp với cơng cụ tin sinh để tìm kiếm, khai thác gen hay vùng gen mã hóa cho protein quan tâm trước đưa vào thực nghiệm 1.3 Một số mục tiêu cụ thể metagenomics Mục đích metagenomics để tìm hiểu thành phần hoạt động tập đoàn vi sinh vật phức tạp mẫu mơi trường thơng qua phân tích trình tự ADN chúng [4] Mặt khác, có số liệu đa hệ gen, thực hàng loạt dự án phân lập gen tùy theo mục đích nghiên cứu Ví dụ người ta khơng phân lập gen phân hủy sinh khối thực vật từ metagenome hệ vi sinh vật mẫu ủ phân hữu mà cịn phân lập gen tham gia vào chuyển hóa hợp chất béo, protein, vitamin… từ hệ vi sinh vật Kĩ thuật metagenomics tạo liệu khổng lồ DNA dẫn đến việc phân tích thao tác thủ cơng khó mang lại hiệu cao Do đó, hàng loạt cơng cụ tin sinh học đời giúp nhà nghiên cứu tiết kiệm thời gian mang lại hiệu cao xử lí số liệu metagenome Tin sinh học xử lí liệu metagenome bước đầu tập trung vào ba nhiệm vụ phân tích phân loại, phân tích chức phân tích so sánh Một số mục tiêu metagenomics là: Xác định tính đa dạng phân lồi sử dụng 16S rRNA, mẫu gene đa dạng phân loài vi sinh vật [7, 9] Số liệu sử dụng để theo dõi dự đốn biến đổi mơi trường; xác định gen hay operon mã hóa cho enzyme cần thiết, có đặc tính (như cellulases, chitinases, lipases, thuốc kháng sinh, sản phẩm tự nhiên khác…) Những enzyme ứng dụng công nghiệp dược phẩm [6, 8]; xác định biến thể đa dạng gen cho enzyme quan trọng thiết kế tối ưu điều kiện xúc tác enzyme; xác định chế điều hịa truyền tín hiệu gen quan tâm; xác định vi khuẩn trình tự plasmid, đánh giá ảnh hưởng chúng đến cấu trúc đa dạng cộng đồng vi sinh vật [5] Xác định kiện chuyển gen tiềm [3] hay gene/operons cho việc thu nhận dinh dưỡng, trung tâm trao đổi chất trung gian… Từ đó, cung cấp hiểu biết tương tác sinh vật chuỗi lưới thức ăn, khám phá tảng thành công vi sinh vật môi trường chúng; xác định đường trao đổi chất để thiết kế mơi trường ni cấy tăng trưởng cho loài vi sinh vật chưa thể nuôi cấy (Aylward FO & CS, 2012) 1.4 Một số thành tựu Metagenomics 1.4.1 Trên giới Thành công metagomics phụ thuộc lớn vào phần mềm tin sinh học nguồn liệu thu thập Trong khu vực châu Á, nước Trung Quốc, Hàn Quốc, Nhật Bản có đột phá lĩnh vực huy động nguồn nhân lực hoạt động lĩnh vực sinh học, toán học, vật lí, hóa học, tin học… để tham gia nghiên cứu dự án lớn tin sinh học Nhật Bản công bố ngân hàng liệu DNA khổng lồ DDBJ (DNA Data Bank of Japan: http://www.ddgj.nig.ac.jp) Ở nước châu Âu Mĩ cho đời ngân hàng liệu tiếng như: NCBI - Trung tâm Quốc gia Thông tin Công nghệ Sinh học (National Center for Biotechnology Information: http://www.ncbi.nlm.nih.gov) Mĩ; EMBL-Phịng Thí nghiệm Sinh học phân tử European Molecular Biology Laboratory: http://www.embl.org) châu Âu phần EBI - Viện Sinh tin học châu Âu đặt Anh (European Bioinformatics Institute: http://www.ebi.ac.uk/); Đồng thời với đời ngân hàng liệu hàng loạt phần mềm giúp xử lí trình tự sinh học DNA protein đời như: Align (so sánh cặp trình tự DNA protein); CENSOR (sàng lọc trình tự lặp đoạn DNA tương đồng); ClustalW2, Kalign, T-coffee, MAFFT, MUSCLE (so sánh đồng thời nhiều đoạn trình tự DNA protein); BLAST (tìm sở liệu ngân hàng gen trình tự DNA/protein tương đồng với trình tự cần phân tích); CpG Plot/CpGreport (dị tìm đảo CpG); Dna Block Aligner Form (phân tích promoter); GeneWise (so sánh protein với DNA); PromoterWise (so sánh hai trình tự DNA (thường promoter) có tính đến trường hợp đảo đoạn hay chuyển đoạn); Transeq, ChromasPro (dịch mã trình tự DNA sang protein); WebPRANK (so sánh nhiều trình tự DNA với nghiên cứu đoạn, thêm đoạn để tìm thơng tin tiến hóa phát sinh lồi) Hầu hết phần mềm tin sinh học cung cấp miễn phí trang web xuất xứ từ Bắc Mĩ châu Âu [1, 9] Sự kết hợp công cụ tin sinh, ngân hàng liệu giúp metagenomics thành công giới 20 năm qua ứng dụng nhiều lĩnh vực: khoa học Trái Đất, khoa học sống, khoa học y sinh, lượng, xử lí mơi trường, cơng nghệ sinh học, nông nghiệp bảo vệ sinh học… [4, 9] Trong số năm trở lại với khả giải trình tự ngày nhanh chóng chi phí giảm dần kĩ thuật metagenomics làm bùng nổ cách mạng số liệu di truyền dựa việc phân tích trình tự gen Dữ liệu siêu liệu metagenomics không dừng lại việc mơ tả phát sinh lồi hay số đặc điểm gen thông qua hệ thống di truyền 16S Dựa số liệu metagenome cộng đồng vi sinh vật toàn chức gen, mối quan hệ gen nhóm sinh vật nhóm sinh vật làm sáng tỏ cách rõ ràng Các thí nghiệm tập trung vào việc xác định vai trò gen vi sinh vật việc thành lập cộng đồng vi sinh vật động [9] Mặt khác, liệu ứng dụng thực tế để nâng cao kiến thức nhiều lĩnh vực giải thách thức y học, kĩ thuật, nông nghiệp, phát triển bền vững hệ sinh thái… [2, 12] Ví dụ nhà khoa học Bộ Nông nghiệp Mĩ sử dụng công cụ metagenomics để xác định nguyên nhân dẫn đến giảm trọng lượng, gây tử vong gà chúng nhiễm virus dẫn đến hội chứng hoại tử đường ruột, suy nhược còi cọc Bên cạnh virus thường gặp gia cầm astrovirus, reovirus rotavirus virus RNA thuộc nhóm Picornaviridae, họ phát virus hoàn toàn mà trước chưa biết đến như: Picobirnavirus - loại virus liên quan đến bệnh đường ruột vật nuôi khác; calicivirus - loại virus có liên quan tới bệnh đường ruột người [11] Bằng cách sử dụng kĩ thuật metagenomics, Laszlo Zsak - người chủ trì nghiên cứu đơn vị Nghiên cứu bệnh virus đặc thù gia cầm Phịng Thí nghiệm nghiên cứu gia cầm khu vực Đông Nam (Athens), phát loại virus có khả ứng dụng sản xuất loại kháng sinh tương lai Zsak nhà vi sinh vật học Michael Day tìm thấy chuỗi ngắn DNA virus phát xây dựng kĩ thuật để lập trình tự tồn hệ gen Virus gọi "phiCA82" - loại virus giết chết vi khuẩn cách tự nhiên nằm nhóm "tiểu thực bào" thể thực khuẩn Đây giải pháp thay việc sử dụng thuốc kháng sinh, đồng thời công cụ để chống lại tác nhân đa kháng thuốc Trong khoa học sống: Số liệu metagenome cung cấp hiểu biết lịch sử tiến hóa khả cộng đồng vi sinh vật chuyên sống môi trường Các câu hỏi “vi sinh vật đó?”, “vi sinh vật làm gì?” “vi sinh vật hoạt động nào?” giải đáp [2, 9] Trong 20 năm qua, nhà khoa học nhiều lần khoan sâu lớp nền, trầm tích đáy đại dương họ khám phá giới vi sinh vật vô phong phú Những quần xã đa dạng loài tế bào nhân sơ (prokaryote) phát tận sâu 1km đất đá đáy biển Phần lớn vi sinh vật nuôi cấy có quan hệ với giới sinh vật bên bề mặt Người ta biết có mặt chúng thơng qua trình tự DNA đặc trưng cách sử dụng kĩ thuật metagenomics Wei Xie CS (2014) tìm hiểu nguồn lượng trì sống hệ sinh thái bị trôn vùi Việc giải trình tự metagenome có ý nghĩa lớn nghiên cứu quần xã virus, virus khơng có marker để phân loại (như 16S RNA vi khuẩn vi khuẩn cổ, 18S RNA cho sinh vật nhân chuẩn) nên cách để nghiên cứu đa dạng di truyền tiến hóa virus thơng qua metagenomics [7, 9] Trong y học: Cộng đồng vi khuẩn đóng vai trị quan trọng việc bảo vệ sức khỏe người Tuy nhiên, thành phần chế hoạt động chúng nhiều bí ẩn Dự án “Human Microbiom” bước đầu sử dụng trình tự metagenome cộng đồng vi khuẩn 15-18 vị trí khác thể 250 người để đánh giá thay đổi mối quan hệ chúng với sức khỏe người Một nghiên cứu y tế khác dự án MetaHit (Metagenomics of the Human Intestinal Tract) tiến hành 124 cá nhân từ Đan Mạch Tây Ban Nha mắc bệnh đường ruột, thừa cân cáu kỉnh công bố thông tin đa dạng phát sinh lồi vi khuẩn tiêu hóa Nghiên cứu chứng minh hai ngành vi khuẩn Bacteroidetes Firmicutes chiếm 90% loài biết đến thống trị vi khuẩn đường ruột Sử dụng tần số gen liên quan tìm thấy ruột xác định 1244 cụm gen metagenome quan trọng cho sức khỏe đường ruột Bệnh nhân bị hội chứng ruột kích thích có 75% gen tính đa dạng vi khuẩn thấp so với cá nhân khơng bị hội chứng ruột kích thích Nghiên cứu thay đổi đa dạng quần xã vi sinh vật bệnh nhân liên quan với bệnh đường ruột béo phì Trên sở nghiên cứu metagenome hệ vi sinh vật hoạt động thể người để phát triển công cụ công nghệ sinh học hỗ trợ mục tiêu y học Một số nghiên cứu khác metagenomics cho phép phát virus - nguyên nhân gây số bệnh ung thư người [Erika Cosset &cs, 2013] Trong sản xuất nhiên liệu sinh học: Ở quy mô công nghiệp sản xuất nhiên liệu sinh học đòi hỏi enzym có suất cao chi phí thấp Phương pháp tiếp cận metagenomics phân tích cộng đồng vi sinh vật tự nhiên phức tạp, cho phép sàng lọc enzym có hiệu để đưa vào ứng dụng sản xuất nhiên liệu theo hình thức công nghiệp Trong thực tế nhiều kết cơng bố phân tích so sánh metagenome hệ thống vi sinh vật hệ thống lên men khí sinh học, đường tiêu hóa động vật ăn cỏ côn trùng, nấm, thú ăn cỏ Thế giới công bố khoảng 75 hệ gen có sẵn loại vi sinh vật giữ vai trị định q trình sản xuất lượng sinh học Trong có 21 gen vi khuẩn cổ sản xuất methan, 24 gen vi khuẩn sản xuất hyđro điện 30 gen cyanobacteria vốn sinh vật sản xuất diesel sinh học tiềm Ít nửa gen vi khuẩn hồn thiện có liên quan đến lượng sinh học tạo năm qua, 80 gen liên quan đến lượng sinh học thiết lập trình tự [11] Quỹ thơng tin hệ gen ngày phát triển, cung cấp nhiều mục tiêu phân tử hỗ trợ nghiên cứu tiền di truyền hậu di truyền, mang lại thông tin thiết yếu loại vi sinh vật có mặt cộng đồng, phản ứng trao đổi chất mà chúng thực Hệ gen với ngành khoa học xếp trình tự ADN nghiên cứu protein, làm tăng hiểu biết vi sinh vật sản xuất lượng sinh học Trong xử lí mơi trường: Các số liệu metagenome cộng đồng vi sinh vật sử dụng kĩ thuật metagenomics cải thiện chiến lược để theo dõi tác động chất gây ô nhiễm hệ sinh thái làm môi trường bị ô nhiễm [4] Tăng hiểu biết cách mà cộng đồng vi sinh vật đối phó với nhiễm, cải thiện đánh giá tiềm phục hồi hệ thống bị nhiễm bẩn làm tăng khả thử nghiệm ứng dụng kích thích ức chế sinh học Trong công nghệ sinh học: Cộng đồng vi khuẩn sản xuất loạt hóa chất có hoạt tính sinh học sử dụng cạnh tranh truyền thông Ngày nhiều loại thuốc sử dụng ban đầu phát vi khuẩn Thành tựu khai thác tài nguyên di truyền phong phú vi khuẩn nuôi cấy phát gen, enzyme sản phẩm tự nhiên Việc áp dụng metagenomics cho phép phát triển sản phẩm hóa chất nguyên chất, hóa chất nông nghiệp dược phẩm Trong nông nghiệp: Các cộng đồng vi sinh vật sống đất phức tạp, cao gấp 10 lần so với vùng biển mà khoa học chưa khám phá hết Sự hiểu biết cấu trúc, đa dạng, chức ổn định cộng đồng vi sinh vật điều cần thiết khám phá tiến hóa, hình thành phát triển bền vững sống Trái Đất [5] Tuy nhiên, việc thu thập thông tin khó khăn, 99% vi sinh vật khơng ni cấy điều kiện phịng thí nghiệm Trong thực tế nhiều dự án phân tích mẫu đất khác thành công nhờ sử dụng metagenomics Người ta thực dự án khám phá chất mối quan hệ yếu tố vật lí, hóa học sinh học loại đất toàn cầu 1.4.2 Ở Việt Nam Việt Nam có số nghiên cứu lĩnh vực phân tích gen, xác định trình tự DNA số loài quan trọng để đánh giá mặt di truyền, biến dị, xác định hệ số di truyền tìm họ hàng thân thích, đánh giá mức độ biến đổi tính di truyền, nghiên cứu đa dạng sinh học, xây dựng ngân hàng gen (gen bank) số viện nghiên cứu, trường đại học lớn Khoa Công nghệ Sinh học, Trường Đại học Khoa học Tự nhiên TP Hồ Chí Minh; Viện Công nghệ Sinh học, Viện Khoa học Công nghệ Việt Nam; Trường Đại học Y Dược TP Hồ Chí Minh Phân viện Công nghệ thông tin TP Hồ Chí Minh, năm qua hợp tác với số nhà nghiên cứu Viện Công nghệ Sinh học; NCBI/NLM/NIH NIAID/NIH, xây dựng hướng nghiên cứu với hai mục tiêu chính: Xây dựng Website ngân hàng liệu cung cấp thông tin di truyền phục vụ công tác huấn luyện nghiên cứu công nghệ sinh học xây dựng phần mềm để xử lí phân tích trình tự sinh học, bước đầu tạo sản phẩm phần mềm mang thương hiệu Việt Nam lĩnh vực tin sinh học [11] Đáng ý sản phẩm phần mềm tin sinh học Trần Văn Lăng (Phân viện Công nghệ thông tin TP Hồ Chí Minh) chủ trì tạo sản phẩm phần mềm HiBio riêng với số tính cần thiết cho việc tìm hiểu sinh học phân tử Bên cạnh phần mềm nguồn mở ClustalX, RasTop, Blastn tích hợp vào hệ thống hoạt động Ngồi ra, nhóm xây dựng trang Website IOIT-HCMC Bioinformatics địa chỉ: http://www.ioit-hcm.ac.vn/index.htm Trang website bao gồm phần mềm nhóm thực xây dựng phần mềm khác nhóm thu thập Internet nhằm phổ biến kiến thức sinh học phân tử Chúng ta có lợi nguồn thơng tin to lớn, hữu ích, việc sử dụng chưa đủ để phát triển ngành tin sinh học mạnh cho Việt Nam Nguồn liệu miễn phí thường cho số liệu hạn chế, cần tạo ngân hàng liệu đặc trưng cho riêng nước ta Các ngân hàng khai thác từ cơng nghệ sinh học sẵn có nước nhiều lĩnh vực khác nơng nghiệp, chăn ni, hải sản, phịng chống bệnh, vacxin, kit chẩn đoán, y dược phẩm Việc đào tạo đội ngũ chuyên gia tin sinh học điều định cho thành công phát triển tin sinh học Đội ngũ phải có trình độ tư tốn học xuất sắc mà cịn phải thơng hiểu vấn đề sinh học Với hạn chế định phát triển tin sinh học đến thời điểm chưa có nhiều cơng bố phân tích metagenome cộng đồng vi sinh vật Các nghiên cứu metagenome Việt Nam chủ yếu sử dụng theo phương pháp lập ngân hàng gen để chọn lọc nên khả thành công thấp Cơ sở đầu việc áp dụng kĩ thuật giải toàn trình tự metagenome kết hợp với xử lí số liệu cơng cụ tin sinh Phịng Kĩ thuật Di truyền, Viện Công nghệ Sinh học, Viện Hàn lâm khoa học quốc gia Tại có cơng bố nước quốc tế metagenome vi sinh vật cộng sinh ruột mối [10] Khai thác metagenome 2.1 Phân lập gen dựa vào việc thiết lập thư viện metagenome Tương tự việc thiết lập thư viện genome để phân lập gen, toàn DNA metagenome phân cắt enzym hạn chế thành đoạn có kích thước định, cho chúng chứa trọn vẹn gen Sau đó, đoạn DNA gắn vào vector thích hợp chuyển vào chủng vi sinh vật chủ Với số lượng dòng đủ lớn, thư viện chứa tồn gen metagenome Các dòng biểu protein ngoại lai sau sàng lọc hoạt tính (ví dụ sản xuất vitamin, tính kháng kháng sinh, enzyme ) mơi trường có chất đặc hiệu Nhiều enzym, chất kháng sinh chế đề kháng phát nhờ phương pháp Tuy nhiên, việc phân lập gen dựa việc sàng lọc thư viện metagenome mơi trường có chất thường tốn nhiều thời gian công sức, phải sàng lọc số lượng lớn dòng thư viện Hơn nữa, cách tiếp cận yêu cầu số lượng dòng thư viện phải lớn chất lượng thư viện phải cao Mặt khác gen nguyên vẹn thư viện biểu hoạt tính (được phát hiện) hay không lại phụ thuộc nhiều vào tương thích vị trí với promoter vector dùng để tạo thư viện Để xác định xác trình tự DNA sau sang lọc hoạt tính sử dụng thêm phương pháp đọc trình tự 2.2 Sử dụng cơng cụ tin sinh khai thác metagenome Việc chuẩn bị mẫu metageneome để đọc trình tự quan trọng, mẫu khơng đủ gây nhiễu đưa vào máy đọc tự động gây sai lệch kết Quy trình chung xử lí số liệu metagenome (Ghi chú: dấu ngoặc: liệu; số 1- 8: số phần mềm tin sinh học) Soap denovo, Soap aligner MetaVelvet, Genovo, MetaORFA, MetaIDBA, IDBA-UD MetaGeneAnnotator, FragGeneScan, Glimmer-MG, GeneMark HMMer3, RPSBlast, BLAST, RAST, RAPsearch MEGAN, CARMA, Sort-ITEMS, Sphinx MinPath, Pathway Tools, KEGG mapper RAST, MG-RAST, Model SEED Pathway Tools, COBRA, Model SEED Tồn DNA tách chiết từ mẫu mơi trường đủ tiêu chuẩn đưa vào máy đọc trình tự tự động Sau đọc, máy xác lập số lượng lớn trình tự đọc ngắn (short – reads) Công việc dãy (assembly) short - reads để thu gien hồn chỉnh Tuy nhiên, q trình xác lập trình tự ADN kĩ thuật có khả sinh lỗi cho nucleotide với tỉ lệ khoảng từ 1% đến 2% chiều dài short - reads Các nucleotide lỗi phải sửa chữa để phục vụ cho việc dãy lại thành gien hoàn chỉnh Ở bước này, số phần mềm SOAPdenovo sử dụng để lắp ráp lại gen từ short - reads (hay “reads”) thu trình giải trình tự gen Phần mềm gồm có module dùng để 1) sửa chữa lỗi đọc trình tự; sau 2) xây dựng đồ thị de Bruijn để 3) lắp ghép contig, 4) kiểm tra lại kết lắp ráp cách so sánh contig với trình tự đọc dùng để tạo nó; tiếp đến 5) tối ưu độ bao phủ chiều dài contig để 6) thu nhỏ vùng gen khơng đọc trình tự Bằng cơng cụ SOAPaligner trình tự sau đem so sánh lại (map) với contig để tìm trình tự sử dụng để tạo contig PE (pair-end reads) trình tự mà hai đầu tương đồng với contig mối quan hệ hai đầu xác, cho độ tin cậy cao Các trình tự mà có đầu tương đồng với contig mối quan hệ hai đầu khơng xác gọi SE (single-end reads) Sau có contig từ metageneome, cặp mồi thiết kế để phân lập gen mong muốn Phương pháp áp dụng để phân tích quần xã vi sinh vật nhiều môi trường đại dương, đất, dải san hô, xác cá voi, suối nước nóng quần xã vi sinh vật liên kết với nhiều thể sống khác người, mối, rệp, giun [6] Tùy theo mục đích nghiên cứu lựa chọn phần mềm phù hợp Sau sử dụng phần mềm dự đoán gen như: MetaGene Annotator (MGA), FragGeneScan, Glimmer-MG, GeneMark… sử dụng để dự đoán tất khung đọc mở (ORF – open reading frame) từ contig Dựa ORF xác định, tiếp tục dự đoán cách so sánh ORF với hàng loạt liệu khác như: Dữ liệu NCBI NR, MetaHIT, Silva, GreenGene để phân tích độ đa dạng lồi; liệu KEGG, MetaCys để phân loại gen vào đường chuyển hóa khác nhau; liệu eggNOG, Pfam, Prk, COG, FIGfam để xếp gen vào nhóm chức Nếu nghiên cứu tập trung vào DNA protein metagenome công cụ BLASTall (Basic Local Alignment Search Tool: http://blast.ncbi.nlm.nih.gov/Blasti) sử dụng rộng rãi tin sinh học BLAST sử dụng thuật tốn tìm kiếm cục heuristic phát mối liên hệ trình tự có tương đồng riêng biệt Có nhiều loại tìm kiếm khác BLAST phục vụ cho mục đích khác nhau: 1) BLASTp tìm kiếm tất trình tự protein tương đồng với trình tự protein cần phân tích sở liệu protein; 2) BLASTn tìm kiếm tất trình tự nucleotide tương đồng với trình tự DNA cần phân tích sở liệu DNA; 3) TBLASTn tìm trình tự protein tương đồng sở liệu DNA cách dịch trình tự DNA tất khung đọc mở; 4) BLASTx tìm trình tự nucleotide tương đồng sở liệu protein cách dịch trình tự nucleotide cần phân tích sang tất khung đọc mở Sau có khung đọc mở cần quan tâm, sử dụng cơng cụ tìm kiếm trình tự amino acid tương đồng BLASTp; 5) Công cụ Blastpby sử dụng so sánh ORF với sở liệu NR để tiến hành phân loài Cấp độ phân loài ORF xác định thuật toán dựa sở LCA (Least Common Ancestors) sử dụng phần mềm MEGAN (MEtaGenomic ANalyser) Thuật toán LCA xếp trình tự vào nhóm phân loại mà cấp độ phân loại nhóm phân loại phản ánh mức độ bảo thủ trình tự gen Căn vào ORF đối chiếu với chức đường chuyển hóa để lựa chọn gen hay nhóm quan tâm Trình tự axit amin dịch từ ORF sử dụng để dự đốn cụ thể cấu trúc đặc tính protein (trung tâm hoạt động, chế xúc tác enzyme, khả chịu nhiệt, khả chịu kiềm…),… phần mềm Phyre (http://www.sbg.bio.ic.ac.uk/phyre2), Expasy (http://www.expasy.org)… Hoặc xây dựng mơ hình chuyển hóa chất sinh vật môi trường công cụ Pathway Tools, COBRA, Model SEED… Kết luận Metagenomics tạo liệu khổng lồ metageneome mở nhiều hướng khai thác nghiên cứu nghiên cứu ứng dụng Các liệu metageneome phân tích hiệu sử dụng công cụ tin sinh học TÀI LIỆU THAM KHẢO Carlotta De Filippo, Matteo Ramazzotti, Paolo Fontana and Duccio Cavalieri (2012), Bioinformatic approaches for functional annotation and pathway inference in metagenomics data Briefings in bioiformatic, Vol 13 No 696-710 doi:10.1093/bib/bbs070 Edited by Diana Marco (2010), Metagenomics: Theory, methods and applications, Caister Academic press, Norfolk, UK ISBN 978-1-904455-54-7 Frans J de Bruijn (2011), Handbook of Molecular Microbial Ecology II: Metagenomics in Different Habitats, ISBN 978-0-47064719-6 George I et al (2010), Application of Metagenomics to Bioremediation Metagenomics: Theory, Methods and Applications Caister Academic Press, ISBN 978-1-904455-54-7 Jones BV; Sun F; Marchesi JR (2010), Comparative metagenomic analysis of plasmid encoded functions in the human gut microbiome BMC Genomics; 11: 46 Kennedy J1, O'Leary ND, Kiran GS, Morrissey JP, O'Gara F, Selvin J, Dobson AD (2011), Functional metagenomic strategies for the discovery of novel enzymes and biosurfactants with biotechnological applications from marine ecosystems, J Appl Microbiol 2011 Oct;111(4):787-99 doi: 10.1111/j.1365-2672.2011.05106 Shrikant Sharma1, Shashank Rana1, Raghvendar Singh (2012), A SHORT NOTEMETAGENOMICS IJBR 3[04], pp.181‐186 (Xem tiếp trang 184) SỬ DỤNG CÔNG CỤ TIN SINH… (Tiếp theo trang 176) 10 11 12 The New Science of Metagenomics (2007), Revealing the Secrets of Our Microbial Planet Committee on Metagenomics: Challenges and Functional Applications, National Research Council, ISBN: 0-309-10677-X, 170 p, x Thi Huyen Do,Thi Thao Nguyen, Thanh Ngoc Nguyen, Quynh Giang Le, Cuong Nguyen, Keitarou Kimura, and Nam Hai Truong (2014), Mining biomass-degrading genes through Illumina-basedde novosequencing and metagenomic analysis of freeliving bacteria in the gut of the lower termite Coptotermes gestroi harvested in Vietnam, J Biosci Bioeng 2014 Dec;118(6):665-71 doi: 10.1016/j.jbiosc.2014.05.010, Epub 2014 Jun 11 Torsten, Thomas, Jack Gilbert and Folker Meyer (2012), Metagenomics - a guide from sampling to data analysis Microbial Informatics and Experimentation 2012, 2:3 doi:10.1186/2042-5783-2-3 http://vi.wikipedia.org/wiki/Metagenomics http://tinsinhhoc.org/72-tong-quan-ve-tin-sinh-hoc (Ngày Tòa soạn nhận bài: 26-12-2014; ngày phản biện đánh giá: 09-02-2015; ngày chấp nhận đăng: 12-02-2015) ... thành công giới 20 năm qua ứng dụng nhiều lĩnh vực: khoa học Trái Đất, khoa học sống, khoa học y sinh, lượng, xử lí mơi trường, công nghệ sinh học, nông nghiệp bảo vệ sinh học? ?? [4, 9] Trong số... truyền, nghiên cứu đa dạng sinh học, xây dựng ngân hàng gen (gen bank) số viện nghiên cứu, trường đại học lớn Khoa Công nghệ Sinh học, Trường Đại học Khoa học Tự nhiên TP Hồ Chí Minh; Viện Công. .. vực huy động nguồn nhân lực hoạt động lĩnh vực sinh học, toán học, vật lí, hóa học, tin học? ?? để tham gia nghiên cứu dự án lớn tin sinh học Nhật Bản công bố ngân hàng liệu DNA khổng lồ DDBJ (DNA