Toàn bộ dữ liệu thô (raw data) thu được sau giải trình tự có kích thước 5.618,21 Mb (megabase, bằng 1 triệu bp). Hơn 54 triệu đoạn trình tự đã được giải với chiều dài trung bình của các trình tự (read) là 170 bp. Quy trình xử lý dữ liệu được thực hiện như sau (Hình 3.8):
Bộ dữ liệu thô được xử lý để loại bỏ các trình tự có chất lượng đọc không tốt và trình tự các adapter đã được sử dụng trong quá trình giải trình tự để thu được bộ dữ liệu sạch (clean data). Bộ dữ liệu sạch tiếp tục được sàng lọc để loại bỏ các trình tự của genome mối (những trình tự tương đồng hơn 90% với gen của mối) để thu được bộ dữ liệu hữu ích (useful data) với chất lượng tốt hơn, có kích thước 5.431,60 Mb. Dữ liệu hữu ích thu được chiếm 96,68% dữ liệu thô (Bảng 3.1). DNA genome của mối lẫn trong mẫu không lớn, chỉ chiếm 1,59%.
Bảng 3.1: Chất lƣợng trình tự DNA metagenome hệ vi khuẩn ruột mối:
Dữ liệu thô (Mb) Dữ liệu hữu ích (Mb) Tỷ lệ trình tự chất lƣợng thấp và adapter (%) Tỷ lệ trình tự DNA genome của mối (%) Tỷ lệ dữ liệu hữu ích (%) 5.618,21 5.431,60 1,73 1,59 96,68
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Bằng phần mềm SOAPdenovo, các đoạn trình tự được cắt ngắn ra thành các đoạn trình tự ngắn (short read hay k-mer) có chiều dài k bp. Các k-mer này sau đó được sắp xếp lại bằng cách gối lên nhau tại các đoạn trùng lặp (align), qua đó dựng đồ thị de
Bruijn để nối ghép các k-mer này vào thành các trình tự liên tục, được gọi là contig. Cách thức lắp ráp các đoạn trình tự ngắn để tạo ra được các contig được minh họa như trong Hình 3.9.
Đối với dữ liệu trình tự DNA metagenome vi sinh vật ruột mối thu được, kết quả lắp ráp tối ưu nhất đạt được khi k = 41 (Bảng 3.2). Số lượng các contig thu được là 79.262 với tổng kích thước 90.150.894 bp. Đa số các contig có chiều dài dưới 2 kb, trong số đó gần 25.000 contig (chiếm khoảng 32% tổng các contig thu được) có chiều dài khoảng 500 bp (chiều dài tối thiểu). Chỉ có một lượng nhỏ (gần 9%) số contig có chiều dài hơn 2 kb. Contig dài nhất có kích thước gần 184 kb. Chiều dài các contig được phân bố như trong Hình 3.10.
Bảng 3.2: Kết quả lắp ráp tạo contig theo các thông số k-mer khác nhau:
k-mer Số contig Tổng chiều dài các contig (bp)
Contig dài nhất (bp)
Contig ngắn nhất (bp) Hình 3.9: Cách sắp xếp lại các đoạn trình tự ngắn để tạo thành các contig (sắp xếp gióng cột). Các trình tự đọc được sắp xếp lại dựa trên nguyên lý gối nhau tại các đoạn trùng lặp.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ K41 79.262 90.150,894 183.853 500 K43 74.707 85.478,458 142.502 500 K45 70.272 80.908,174 142.504 500 K47 66.146 76.398,401 142.506 500 K49 61.708 71.740,590 183.995 500
Bằng công cụ SOAPaligner các trình tự sau đó được đem so sánh lại (map) với các contig của chính nó để tìm ra bao nhiêu trình tự được sử dụng để tạo contig. PE (pair-end read) là các trình tự mà cả hai đầu của nó đều tương đồng với contig và mối quan hệ hai đầu này là chính xác, cho độ tin cậy cao. Các trình tự mà chỉ có một đầu của nó tương đồng với contig hoặc mối quan hệ hai đầu không chính xác thì được gọi là SE (single-end read). Dựa vào phân tích thống kê với các thông số k-mer khác nhau, 18.709.714 trình tự PE (nhiều nhất có thể) và 3.063.638 trình tự SE trên tổng số 54.316.028 trình tự (k = 41) đã được phân loại, nghĩa là 21.773.352 trình tự (chiếm 40.09%) đã được sử dụng trong quá trình lắp ráp tạo contig (Bảng 3.3).
Bảng 3.3: Số liệu các trình tự đƣợc dùng để lắp ráp contig khi sử dụng các tham số k-mer khác nhau:
k-mer So sánh với contig của chính nó
PE SE Tổng trình tự Tỉ lệ (%)
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ K41 18,709,714 3,063,638 54,316,028 40.09 K43 18,657,620 3,093,130 54,316,028 40.04 K45 18,614,692 3,133,613 54,316,028 40.04 K47 18,444,742 3,030,261 54,316,028 39.54 K49 18,252,980 3,039,030 54,316,028 39.20
Các trình tự trong dữ liệu metagenome hệ vi khuẩn ruột mối tiếp tục được đem so sánh với dữ liệu genome của vi khuẩn của NCBI (National Center for Biotechnology Information) và dữ liệu genome của nấm. Kết quả cho thấy, 34,07% số trình tự tương đồng với genome của vi khuẩn; chỉ có 0,032% số trình tự tương đồng với genome của nấm (bảng 3.4). So sánh một cách tương đối, trong số 21.773.352 trình tự được dùng để tạo contig, có tới 18.503.689 trình tự (chiếm 85%) tương đồng với genome vi khuẩn. Điều đó chứng tỏ, phần lớn các trình tự thu được từ giải trình tự metagenome vi khuẩn ruột mối có nguồn gốc từ vi khuẩn.
Bảng 3.4: Kết quả so sánh trình tự DNA metagenome hệ vi khuẩn ruột mối C.
gestroi với các ngân hàng dữ liệu genome:
Tổng số trình tự đọc của dữ liệu hữu ích 54,316,028 Dữ liệu genome so sánh Trình tự Số lƣợng trình tự Vi khuẩn PE 15,361,146 SE 3,142,443 Tỷ lệ (%) 34,07 Nấm PE 9,503 SE 7,722 Tỷ lệ (%) 0,032
Với các contig thu được, bằng phần mềm MGA (MetaGeneAnnotator), 125.431 khung đọc mở (ORF) đã được khai thác với tổng chiều dài lên tới 78.271,365 bp. Kích thước trung bình mỗi ORF là 624,02 bp. Trong số đó, số lượng các ORF hoàn chỉnh là 37.545 (chiếm 29.9%); còn số ORF mất một hoặc hai đầu 3’ hoặc/và 5’ là 87.886
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
(chiếm 70,1%). Độ bao phủ gen đạt 95,87%. Bằng công cụ BLASTall, các ORF này được so sánh với:
1) dữ liệu NR (Non-Redundance Database) [63] để phân tích độ đa dạng loài;
2) dữ liệu eggNOG (evolutionary genealogy of genes: Non-supervised Orthologous Groups) [62] để sắp xếp gen vào các nhóm chức năng;
3) dữ liệu KEGG (Kyoto Encyclopedia of Genes and Genomes) [39] để phân loại gen vào các con đường chuyển hóa khác nhau.
Kết quả tổng hợp của chú giải gen (gene annotation) từ dữ liệu metagenome hệ vi khuẩn ruột mối thu được được tóm tắt trong Bảng 3.5. Việc chú giải loài (trên thư viện NR) được tính ở mức độ ngành (phylum), trong đó “chƣa biết”có nghĩa là ORF không tương đồng với trình tự trong thư viện loài; “chƣa phân loại” có nghĩa là ORF có tương đồng với trình tự trong thư viện loài, tuy nhiên mới chỉ có phân loại giới (kingdom), còn chưa có phân loại ngành cho trình tự này; còn “đã phân loại” chỉ những ORF tương đồng với các trình tự đã được phân loại ngành và dưới ngành trong thư viện loài. Các kết quả chú giải gen (đa dạng và chức năng) được sử dụng để khai thác độ đa dạng loài cũng như các gen chức năng liên quan tới quá trình chuyển hóa lignocellulose trong mẫu ruột mối thu thập.
Bảng 3.5: Bảng chú giải gen từ dữ liệu metagenome hệ vi khuẩn ruột mối C.
gestroi:
Tổng các ORF 125.431
Dữ liệu so sánh Mô tả Tỷ lệ
NR
Chưa biết 18,12%
Chưa phân loại 4,67%
Đã phân loại 77,22%
eggNOG Chưa mô tả 31,8%
Đã mô tả 68,12% KEGG Orthology Chưa mô tả 40,37% Đã mô tả 59,63% KEGG Pathway Chưa mô tả 44,49% Đã mô tả 55,51%
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/