Đối với nhà sinh học,bài toán này là cơ sở để họ có thể xác định những nhóm vi sinh vật nàotồn tại trong mẫu thực nghiệm và phát hiện những nhóm vi sinh vật mới.Hơn nữa, từ kết quả phân
Bài toán phân loại trình tự metagenomic
Mẫu thực nghiệm sau khi được thu thập từ môi trường thực tế, được đưa trực tiếp vào giai đoạn xác định trình tự Do đó, dữ liệu trình tự metagenmic thường không chứa trình tự của từng loài vi sinh vật riêng biệt, mà bao gồm trình tự của rất nhiều loài khác nhau (có khi hơn 10.000 loài trong một mẫu
[35] Vì vậy, đối với nhà sinh học, một trong những vấn đề cần giải quyết là thực hiện phân loại trình tự metagenomic Bài toán này được phát biểu như sau (theo Thomas và cộng sự [30]):
"Phân loại trình tự metagenomic là quá trình sắp xếp trình tự DNA vào các nhóm bao gồm các trình tự thuộc cùng hệ gien của một cá thể hoặc hệ gien của các vi sinh vật có quan hệ gần nhau".
Kết quả của bài toán này là cơ sở để nhà sinh học có thể xác định những nhóm vi sinh vật nào tồn tại trong mẫu thực nghiệm, giúp họ thực hiện nghiên cứu trên trình tự của từng nhóm, và tìm ra những nhóm vi sinh vật mới Ngoài ra, nó là mắt xích quan trọng trong chuỗi các công việc phân tích dữ liệu metagenomic Điều này được thể hiện trong quy trình xử lý dữ liệu metagenomic.
Quy trình xử lý dữ liệu metagenomic
Thu thập mẫu thực nghiệm
Đầu tiên là giai đoạn thu thập mẫu thực nghiệm từ môi trường chứa vi sinh vật và thực hiện một số bước xử lý ban đầu như: cắt ngắn mẫu thực nghiệm, trích lọc mẫu DNA DNA (Deoxyribonucleic acid) là phân tử có cấu trúc ba chiều, bao gồm hai chuỗi đơn xoắn ốc, cuộn xung quanh một trục chung, tạo thành một chuỗi xoắn kép Chuỗi DNA được hình thành bởi các loại phân tử nhỏ hơn, gọi là nucleotide Có bốn loại nucleotide được ký hiệu là: A, C, G và T (tương ứng với Adenine, Cytosine, Guanine và Thymine) [14].
Hình 1.1: Quy trình xử lý của một dự án trong lĩnh vực metagenomics (Tham khảo [30])
Xác định trình tự
Tiếp theo, mẫu DNA được đưa vào quá trình xác định trình tự Xác định trình tự là quá trình xác định dãy các nucleotide trong trình tự đó Phương pháp Sanger [25], hay còn gọi là phương pháp dideoxy sequencing haychain termination, là công nghệ được sử dụng từ những năm 1970 đến nay Phương pháp này cho phép xác định trình tự (read) có độ dài trong khoảng từ 500
- 1000 bp Nhược điểm của phương pháp này là chi phí cao và hiệu suất xử lý thấp, không đáp ứng được yêu cầu của những dự án lớn.
Một nhóm các công nghệ xác định trình tự mới ra đời, thay thế cho phương pháp Sanger, như: 454 pyrosequencing, Illumina Genome Analyzer,
AB SOLiD [26] Chúng được gọi chung là công nghệ xác định trình tự thế hệ tiếp theo (Next-generation sequencing [16]) Ưu điểm của các phương pháp này là hiệu suất cao hơn so với phương pháp Sanger Chúng cho phép xác định một khối lượng lớn trình tự trong một đơn vị thời gian Tuy nhiên,hạn chế của chúng là độ dài của các trình tự được xác định có kích thước ngắn Chẳng hạn, trình tự được xác định bởi Illumina có độ dài trung bình khoảng 75 - 100 bp [26].
Phân tích dữ liệu
Ở giai đoạn này, dữ liệu trình tự DNA được phân tích bởi nhà sinh học dựa trên sự hỗ trợ của máy tính Nhiều bài toán khác nhau cần giải quyết đã được đặt ra như: ráp nối trình tự (assembly), phân loại trình tự (taxnomic binning), chú thích trên trình tự (annotation), v.v Trong đó, dữ liệu đầu ra của bài toán này có thể là dữ liệu đầu vào của bài toán khác và ngược lại. Chẳng hạn, kết quả của bài toán phân loại trình tự có thể được sử dụng cho bài toán chú thích trên trình tự (annotation) nhằm xác định vị trí gien hay vị trí mang mã di truyền trên trình tự Bài toán phân loại và ráp nối trình tự có thể được sử dụng hỗ trợ cho nhau trong việc phân tích và xử lý dữ liệu metagenomic Bài toán phân loại có thể được sử dụng như là bước tiền xử lý cho bài toán ráp nối trình tự nói chung áp dụng cho dữ liệu metagenomic [7] (Bao hàm cả bài toán genome assembly, và bài toán metagenome assembly). Ngược lại, bài toán phân loại còn có thể được áp dụng sau khi trình tự sinh học đã được ráp nối Khi đó, việc phân loại cho trình tự dài hơn giúp mang lại độ chính xác cao hơn Tuy nhiên, bài toán ráp nối trình tự metagenomic (metagenome assembly) là một vấn đề khó và nhiều thách thức lớn Hiện tại, cũng chỉ có một vài giải pháp được đề xuất cho vấn đề này [30].
Bài toán phân loại trình tự metagenomic có thể được chia thành hai bài toán khác nhau dựa trên cách tiếp cận Khi giải quyết bài toán này theo hướng không sử dụng hệ gien tham khảo, bài toán này có thể được hiểu là một bài toán gom cụm Đây là vấn đề cần giải quyết trong đề tài này.
Định nghĩa bài toán
Vấn đề gom cụm có thể được phát biểu theo khía cạnh một bài toán phân hoạch như sau:
Cho tập dữ liệu trình tự metagenomic X = {x 1 , x 2 , , x n }, tìm một cách phân hoạch tập X thành các tập con C 1 , C 2 , , C k , với k ≤ n, sao cho thỏa điều kiện:
Và thỏa mãn một tập các điều kiện ràng buộc để mỗi phần tử x i (1 ≤ i ≤ n) thuộc về một tậpC j (1 ≤ j ≤ k) nào đó Điều kiện ràng buộc thường được xây dựng dựa trên dấu hiệu hệ gien (genome signatures) và tính chất quan sát được của trình tự sinh học, gọi chung là đặc trưng gom cụm (charateristic).
Các giải pháp gom cụm
Các giải pháp gom cụm hiện nay có thể được chia thành ba nhóm chính như sau: Phương pháp dựa trên k-means và tựa k-means, phương pháp dựa trên mô hình, và phương pháp dựa trên đồ thị.
2.2.1 Phương pháp sử dụng giải thuật k-means
Nhóm giải pháp sử dụng thuật toán k-means hay tựa k-means (k-mediods, k-medians) Các thuật toán này sử dụng kỹ thuật tìm kiếm nhằm tìm được giá trị nghiệm tối ưu cục bộ dựa trên hàm mục tiêu cụ thể Tuy không phải là kỹ thuật tìm chính xác, nhưng chúng có ưu điểm là thực thi nhanh. Ngoài ra, đây là phương pháp được chấp nhận và sử dụng rộng rãi Các thuật toán này chỉ khác nhau ở việc lựa chọn phần tử trung tâm của cụm dữ liệu MetaCluster 1.0 và 2.0 ([37], [38]) sử dụng giải thuật k-means để phân loại dựa trên sự khác biệt trong tần số xuất hiện các l-mer của trình tự Trong khi MetaCluster 1.0 sử dụng độ đo Chebychev để xác định khoảng cách giữa hai trình tự, MetaCluster 2.0 sử dụng độ đo Spearman Footrule.Khi sử dụng tính hợp thành, khoảng cách giữa hai trình tự khác loài chỉ được thể hiện rõ khi độ dài trình tự đủ lớn Vì vậy, các giải pháp này chỉ cho phép phân loại trình tự lớn hơn 500bp.
Một số giải pháp lai, trong đó giải thuật k-means hay tựa k-means được sử dụng trong một giai đoạn của quá trình xử lý như: MetaCluster 3.0, 4.0, 5.0 ([13], [32], [33]), MetaBinning [19] Các giải pháp này được trình bày là có khả năng phân loại cho trình tự ngắn nhờ quá trình tiền xử lý Trong đó, trình tự được gom thành từng cụm nhỏ Đặc trưng hợp thành được rút trích trong từng cụm thay vì trong từng trình tự Thuật toán dạng k-means được sử dụng để gom các cụm này thành cụm lớn hơn dựa trên khoảng cách dựa các cụm.
2.2.2 Phương pháp dựa trên mô hình
Giải pháp theo hướng tiếp cận này thường sử dụng giả định đoạn trình tự nucleotide (gọi là k-mer) hay trình tự (read) tuân theo một mô hình nào đó Chẳng hạn, giải pháp AbundanceBin [36], giải pháp của Olga và cộng sự [29] và giải pháp của Shruthi và cộng sự [21] giả định phân phối xác suất các k-mers trong một hệ gien tuân theo phân phối Poisson Giải thuật cực đại hóa kỳ vọng (Expectation Maximization) thường được sử dụng nhằm ước lượng tham số của mô hình AbundanceBin [36] và giải pháp của Olga là hai giải pháp gần đây nhất cho phép thực hiện gom cụm chỉ dựa trên sự phong phú So sánh với AbundanceBin, giải pháp của Olga cải tiến việc đếm số lần xuất hiện l-mers bằng cách sử dụng thêm ý tưởng từ bài toánBalls and Bins để giảm nhiễu do lỗi xác định trình tự Hai giải pháp này cũng có thể được sử dụng như là bước tiền xử lý cho các giải pháp dựa trên tính hợp thành nhằm tăng độ chính xác cho việc gom cụm [28], [36]
Trong khi đó, LikelyBin [11] giả định tập trình tự của một hệ gien là một quá trình ngẫu nhiên (stochastic process) Tập hợp nhiều hệ gien là nhiều quá trình ngẫu nhiên Mỗi quá trình ngẫu nhiên tương ứng với một phân phối xác suất riêng biệt Phương pháp Markov Chain Monte Carlo được dùng để ước lượng tham số cực đại cho mô hình xác suất Một phương pháp khác, Scimm [10] dựa trên giả định rằng xác suất xuất hiện của một nucleotide trong một trình tự phụ thuộc vào các nucleotide đứng trước nó Qua đó, giải pháp này sử dụng mô hình Markov hồi quy (Interpolated Markov Models - IMM) để dự đoán mối liên hệ giữa các trình tự Một dạng của giải thuật k-means, giải thuật Classification Expectation Maximization (CEM) được sử dụng Trong đó, k cụm tương ứng với k mô hình IMM Trong số các giải pháp này, AbundanceBin và giải pháp của Shruthi và cộng sự được trình bày là có thể phân loại cho trình tự ngắn Trong khi đó, các giải pháp còn lại chỉ phù hợp cho phân loại trình tự dài (≥ 800bp).
2.2.3 Phương pháp dựa trên đồ thị
Một hướng tiếp cận khác là chuyển bài toán gom cụm trình tự thành bài toán phân hoạch trên đồ thị TOSS [28] là giải pháp sử dụng kỹ thuật này.Giải pháp thực hiện phân loại theo hai pha Pha một, gom cụm trình tự dựa trên việc gom cụm các unique l-mer (các l-mer chỉ xuất hiện một lần duy nhất trong các hệ gien) Vấn đề gom cụm các unique k-mer được chuyển thành bài toán phân hoạch đồ thị Trong đó, mỗi unique k-mer là một đỉnh.
Hai đỉnh nối với nhau bởi một cạnh nếu tồn tại trình tự chứa cả hai k-mers đó Trong pha hai của giải pháp, các tác giả cũng sử dụng phương pháp gom cụm trên đồ thị gọi là MCL (Markov Cluster algorithm) để tiếp tục gom cụm cho các nhóm trình tự ở pha một Giải pháp được trình bày có thể phân loại cho trình tự ngắn với độ chính xác cao Tuy nhiên, do việc lưu trữ thông tin đồ thị trên bộ nhớ chính, giải pháp này đòi hỏi dung lượng RAM của hệ thống lớn (>64GB).
Đặc trưng sử dụng cho bài toán gom cụm trình tự
Sự giống nhau giữa các cá thể sinh vật trong cùng loài, cũng như sự khác nhau giữa các cá thể khác loài dựa trên trình tự DNA của chúng là một trong những vấn đề được quan tâm lớn của cộng đồng khoa học Nhiều công trình nghiên cứu trước đây đã đề xuất các phương pháp cũng như đặc trưng để nhận biết một cá thể cùng loài hay khác loài Phần này trình bày những đặc trưng thường được sử dụng cho vấn đề phân loại trình tự metagenomic hiện nay.
Dấu hiệu hệ gien (gọi tắt là dấu hiệu) là những đặc tính theo từng loài sinh vật có thể biết được dựa trên trình tự sinh học Dấu hiệu hệ gien của trình tự sinh học cùng loài giống nhau nhiều hơn so với trình tự sinh học của hai loài khác nhau Và, hai loài gần nhau có dấu hiệu hệ gien của trình tự sinh học giống nhau nhiều hơn so với hai loài xa nhau [1] Vì tính chất đó mà dấu hiệu hệ gien có thể được sử dụng cho vấn đề phân loại trình tự.
Dấu hiệu này thể hiện tỉ lệ các base guanine + cytosine (G+C) trong một trình tự DNA Chẳng hạn, tỉ lệ này tính theo công thức sau [15]:
Trong đó n A , n T , n G và n C lần lượt là số lượng các nucleotides adenine (A), thymine (T), cytosine (C) và guanine (G) Nhiều nghiên cứu đã chỉ ra rằng GC-content trong trình tự sinh học của mỗi loài vi sinh vật là khác nhau.
Tỉ lệ này nằm trong khoảng 25% − 72% ([17], [27]).
2.3.1.2 Dấu hiệu dựa trên tần số xuất hiện các oligonucleotide
Dấu hiệu này thể hiện tần số xuất hiện của những đoạn nucleotide ngắn có kích thước thường là từ 2 - 4 nucleotides trong trình tự DNA Được gọi là tần số xuất hiện của cặp nucleotide (dinucleotide frequencies), bộ ba nu- cleotide (trinucleotide frequencies), hay bộ bốn nucleotide (tetranucleotide frequencies) Có nhiều dấu hiệu khác nhau được xây dựng dựa trên giá trị tần số này Một số dấu hiệu sử dụng trong phân tích dữ liệu metagenomic được Gori và cộng sự trình bày trong [6].
Một ví dụ về dấu hiệu hệ gien dạng này được đề xuất bởi Karlin và cộng sự [9], gọi là tỉ lệ lẻ của các cặp nucleotide (Odd-ratios of dinucleotide) như sau: Gọi f A (.) là tần số xuất hiện của nucleotide X, Y hay cặp nucleotide
XY trong trình tự A Trong đó X và Y là các nucleotide như: adenine (A), guanine (G), cytosine (C), thymine (T) Dấu hiệu của trình tự A được tìm ra dựa trên việc tính các tỉ lệ: ρ = f A (XY )/f A (X)f A (Y ) Để xác định sự khác nhau hay giống nhau giữa hai trình tự, một số phương pháp đo lường được sử dụng Chẳng hạn, khoảng cách độ phong phú của cặp nucleotide (dinucleotide relative abundance distance): δ ∗ (A, B) = 1
Trong đó, A và B là hai trình tự sinh học cần xác định khoảng cách với nhau.
Nhiều nghiên cứu cho thấy hai trình tự cùng loài có khoảng cách δ ∗ nhỏ hơn khoảng cách này giữa hai trình tự khác loài ([1], [9]) Có thể thấy điều này trong kết quả thử nghiệm của Ozkan [18] (Hình 2.1) Karlin cũng đã thử nghiệm cho các oligonucleotide khác như: tri-, tetra-nucleotide đối với nhiều hệ gien khác nhau.
2.3.1.3 Dấu hiệu Chaos Game Representation
Năm 1990, Jeffrey đề xuất một phương pháp gọi là Chaos Game Repre- sentation (CGR) [8] để trực quan hóa trình tự sinh học của hệ gien Theo cách này, một nhóm trình tự hay toàn bộ trình tự của một hệ gien có thể được biểu diễn bởi một hình ảnh Tiến hành tính khoảng cách giữa các hình ảnh có thể cho chúng ta biết mối quan hệ giữa các loài Deschavanne và cộng
Hình 2.1: Tỉ lệ lẻ các cặp nucleotide của 20 trình tự ngẫu nhiên độ dài 50 kbp từ hệ gien của hai loài: Neisseriameningitidis và aquifexaeolicus [18] sự [4] sử dụng CGR như một dấu hiện dấu hiệu để phân loại các nhóm sinh vật (Hình 2.2) Wang và cộng sự [34] kết luận rằng dấu hiệu CGR tương đương với dấu hiệu tần số oligonucleotide (oligonucleotide frequenies) Tuy nhiên, chưa có nghiên cứu nào sử dụng dấu hiệu này cho phân loại trình tự sinh học.
2.3.1.4 Dấu hiệu oligonucleotide frequency derived error gradient
Dấu hiệu oligonucleotide frequency derived error gradient (OFDEG) được đề xuất bởi Isaam và cộng sự [23] Nó được xây dựng dựa trên suy luận như sau: Tồn tại một độ sai sót (error) của giá trị tần số các oligonucleotide(oligonucleotide frequency - OF) trong phạm vi một trình tự ngắn so với giá trị tần số các oligonucleotide trong phạm vi toàn bộ hệ gien Nói theo một cách khác, có sự khác biệt về giá trị tần số các olignucleotide giữa trình tự dài và trình tự con của nó Khi độ dài trình tự con tăng dần đến độ dài của
Hình 2.2: Hình ảnh 3 chiều và 2 chiều của tần số 7 nucleotides của 4 loài Độ dài trình tự là 100 kb [4] trình tự cha thì độ sai sót càng giảm dần về 0.
Những thử nghiệm của Isaam [23] và Ozkan [18] cho thấy mức độ sai sót (error gradient) này tuân theo một mô hình hồi quy tuyến tính (linear regression model), và mỗi loài có độ dốc của đường hồi quy (slope or gradient of the regression line) khác nhau (Hình 2.3) Đây được gọi là dấu hiệu OFDEG Mặc dù chưa chứng minh được bản chất sinh học của dấu hiệu này, nhưng thử nghiệm cho thấy có thể sử dụng nó trong bài toán gom cụm trình tự sinh học metagenomic.
2.3.1.5 Dấu hiệu dựa trên mô hình chuỗi Markov
Nhóm các dấu hiệu này dựa trên giả định trình tự DNA là một quá trình ngẫu nhiên (random process) Trong đó, xác suất xuất hiện của một base
Hình 2.3: Mức độ sai sót của giá trị tần số các oligonucleotide trong các loài U.urealyticum, C.kroppenstedtil, B.pumilus,và Xautoptropicus [18] trong trình tự DNA phụ thuộc vào k base trước đó Việc áp dụng mô hình chuỗi Markov được cho rằng có thể xây dựng dấu hiệu hệ gien có những tính chất theo loài không được thể hiện bởi các dấu hiệu hệ gien như GC-content hay tần số các oligonucleotide ([3], [2]) Các mô hình chuỗi Markov khác nhau đã được nghiên cứu áp dụng trong các bài toán phân loại sinh vật.
Trong trường hợp sử dụngmô hình chuỗi Markov bậc k (k th order Markov chain model), tham số của mô hình có thể được ước lượng như sau: p(x i |x i−1 x i−2 x 1 ) = p(x i |x i−1 x i−2 x i−k )
Với x i là các base (A, C, G, T) Mô hình chuỗi Markov bậc k cho mỗi base có 4 k trường hợp Tổng cộng có 4 k+1 cho tất cả các base Tập các tham số của phân bố xác suất của các base này được xem là dấu hiệu của trình tựDNA.
Trong trường hợp sử dụng mô hình chuỗi Markov bậc 0 (Zero order Markov chain model), tần số xuất hiện (frequency) của một oligonucleotide được xác định bởi tần số xuất hiện của mỗi base Chẳng hạn, dấu hiệu hệ gien của trình tự A rút ra từ việc tính các tỉ lệ ρ (cho đoạn trình tự độ dài
Với X, Y, Z là các base: A, C, G hoặc T.
Một số nghiên cứu sử dụng mô hình chuỗi Markov bậc thay đổi (Variable- order Markov chain model) ([3], [10]) Trong đó, bậc của mô hình thay đổi tùy theo tình trạng dữ liệu.
Giới thiệu
Mức độ phong phú của một hệ gien (abundance level of a genome) là số lần xuất hiện của hệ gien đó trong một tập dữ liệu Chẳng hạn, một tập dữ liệu chứa trình tự sinh học (reads) của 8 hệ gien được nhân bản từ hai hệ gien A và B Trong đó, số hệ gien loại A là 2, của loại B là 6 Ta nói, mức độ phong phú của hệ gien A là 2, và của B là 6 trong tập dữ liệu này Bài toán gom cụm trình tự sinh học metagenomic dựa trên sự phong phú là nhằm phân chia các trình tự thuộc các hệ gien có mức độ phong phú khác nhau vào các cụm khác nhau.
Hình 3.1: Sự phong phú của hệ gien trong tập dữ liệu metagenomic
Các giải pháp dựa trên dấu hiệu hệ gien để phân chia trình tự metage- nomic thường cho độ chính xác thấp đối với tập dữ liệu mà trong đó các hệ gien (hay loài) có mức độ phong phú khác xa nhau Giải pháp gom cụm dựa trên sự phong phú được sử dụng nhằm làm tăng độ chính xác cho các giải pháp này Chẳng hạn, TOSS [28], giải pháp của Shruthi và cộng sự [21] sử dụng ứng dụng gom cụm dựa trên sự phong phú AbundanBin [36] cho giai đoạn tiền xử lý để phân trình tự thuộc các hệ gien có cùng mức độ phong phú vào một nhóm Một trường hợp khác, MetaCluster 5.0 [33] thực hiện việc phân chia các trình tự theo 3 mức độ phong phú: cao (high-abundance level), thấp (low-abundance level), và rất thấp (extremely low-abundance level) và áp dụng phương pháp xử lý khác nhau cho từng nhóm để gom cụm các trình tự theo loài Ngoài ra, bài toán gom cụm trình tự dựa trên sự phong phú này còn có thể áp dụng nhằm tăng độ chính xác và thời gian xử lý cho bài toán ráp nối trình tự (the problem of metagenomic assembly) [36].
Hình 3.2: Gom cụm trình tự dựa trên sự phong phú của hệ gien
Ứng dụng gom cụm trình tự metagenomic dựa trên sự phong phú của hệ gien
dựa trên sự phong phú của hệ gien Ý tưởng chính được sử dụng trong hầu hết các giải pháp hiện nay là sử dụng mức độ phong phú của các l-mer trong tập dữ liệu để gom cụm trình tự Ý tưởng này xuất phát từ quan sát: Tần số xuất hiện của các l-mer trong các trình tự của một hệ gien tỉ lệ thuận với mức độ phong phúc của hệ gien đó([33], [36]) Đề tài này sử dụng ý tưởng này và cài đặt giải pháp tương tự với giải pháp AbundanceBin [36] Tuy nhiên, trong khi AbundanceBin chỉ sử dụng cho dạng dữ liệu single-reads, giải pháp được phát triển trong đề tài này có thể sử dụng cho hai dạng dữ liệu single-end reads và paired-end reads Giải pháp bao gồm 3 bước:
Bước này thực hiện đếm số lần xuất hiện của các l-mer trong tập dữ liệu. Nhằm giảm chi phí tìm kiếm, cấu trúc dữ liệu bảng băm được sử dụng để lưu trữ các l-mers Kích thước bảng băm có thể được thay đổi cho phù hợp với khả năng lưu trữ của bộ nhớ máy tính sử dụng.
3.2.2 Bước 2: Gom cụm các l-mer
Trong bước này, thuật toán cực đại hóa kỳ vọng EM (Expectation Maxi- mization) được sử dụng tính xấp xỉ mức độ phong phú và kích thước của các hệ gien trong tập dữ liệu Qua đó, phân chia các l-mer dựa trên số lần xuất hiện của chúng Theo Waterman [12], trình tự từ các hệ gien có thể được giả định tuân theo phân phối Poisson Đặtg j là một hệ gien, với chiều dài |g j | (1 ≤ j ≤ k, k là số hệ gien hay số cụm) Đặt l i (với độ dài là l) là một l-mer được lấy ra từ hệ gien này (1 ≤ i ≤ q, q là số l-mer thuộc hệ gien này) Đặt |r| là độ dài của trình tự Nếu sự phong phú của hệ gien g j là n j , số lần xuất hiện của l-mer l i , đặt là cl i , cũng tuân theo phân phối Poisson với tham số λ j = n j (|r| − l + 1)/|g j | − |r| + 1) [36] Dựa trên giả định này, vấn đề gom cụm các l-mers được nhìn theo khía cạnh một bài toán tối ưu với hàm mục tiêu cần đạt: θ ˆ M L = arg max θ {log p(X|θ)} (3.1)
Thuật toán EM được sử dụng là một phương pháp lặp nhằm tìm một ước lượng khả năng cực đại (Maximum likelihood estimate - MLE) của tham số θ (θ ˆ M L ) Sau khi khởi tạo tham số θ Hai công việc sau được lặp lại cho đến khi giải thuật hội tụ hoặc số vòng lặp vượt ngưỡng quy định:
Công việc 1: Tính xác suất các l-mer thuộc về một cụm với c i và θ đã có.
Công việc 2: Cập nhật tham số θ cho vòng lặp tiếp theo với các xác suất đã tính ở công việc 1 và c i đã có. g j = q
3.2.3 Bước 3: Gán trình tự vào các cụm
Trong bước này, trình tự được gán vào các cụm dựa trên kết quả gom cụm các l-mer của chúng Một trình tự được gán vào một cụm nếu tích xác suất thuộc về cụm đó củal-mer của nó lớn nhất so với các cụm còn lại Một trình tự không được gán vào bất cứ cụm nào nếu tích xác suất này lớn nhất nhỏ hơn 50%.
Ngoài ra, trong trường hợp áp dụng cho trình tự có lỗi, hai ngưỡng count min và count max được sử dụng nhằm hạn chế số lần lặp lạil-mer không mong đợi Một giá trị lăp lại của l-mer có thể được sử dụng trong bước 2 nếu thỏa mãn điều kiện: count min ≤ l-mer count≤ count max Khi có hơn 90% l-mers của một trình tự bị loại bỏ bởi điều kiện này thì trình tự đó không được gán vào bất cứ cụm nào (vì có nhiều nucleotide lỗi).
Kết quả thực nghiệm
Để tạo dữ liệu thử nghiệm, hệ gien của các vi sinh vật được tải về từ ngân hàng dữ liệu NCBI (the National Center for Biotechnology Information). Phần mềm MetaSim [22] được sử dụng để tạo tập dữ liệu thử nghiệm Dữ liệu được tạo trong cả hai trường hợp có lỗi và không có lỗi xác định trình tự Trình tự có lỗi được tạo theo công nghệ Roche 454 Độ dài trình tự trong khoảng từ 75 - 400bp Hiệu năng của giải pháp trong từng trường hợp được đánh giá dựa trên hai tiêu chí: Độ chính xác (accuracy) [20].
Bảng 3.1 thể hiện kết quả thực thi của ứng dụng Nhìn chung, độ dài trình tự càng tăng, độ chính xác của giải pháp càng tăng Trong trường hợp trình tự không có lỗi, giá trịl được chọn càng lớn, mức độ chính xác của giải pháp càng tăng lên (thử nghiệm T1, T2, và T5) Tuy nhiên, trong trường hợp trình tự có lỗi, việc lựa chọn l lớn càng làm giảm độ chính xác của giải pháp (trong thử nghiệm T3 và T6).
Bảng 3.1: Hiệu năng của giải pháp
ID Mức độ Độ dài l Kết quả phong phú trình tự (bp) Sen (Prec.)
Trường hợp T3* và T6* là thử nghiệm cho trình tự có lỗi Ký tự "-" thể hiện giải pháp không thể phân chia trình tự thành các cụm Hai độ đo được sử dụng là độ nhạy (Sen.) và độ chính xác (Prec.).
Một số phương pháp dựa trên tính hợp thành (composition-based meth- ods) (ví dụ MetaCluster 2.0) sử dụng đặc trưng theo loài để gom cụm trình tự vào các nhóm thuộc các loài vi sinh vật khác nhau Tuy nhiên, hiệu năng của các giải pháp này thấp khi mức độ phong phú của hệ gien trong tập dữ liệu khác xa nhau [38] Giải pháp dựa trên sự phong phú có thể được sử dụng trong bước tiền xử lý nhằm làm tăng hiệu năng của giải pháp gom cụm dựa trên tính hợp thành Trong phần này, giải pháp cài đặt được áp dụng kết hợp với MetaCluster 2.0 trong việc gom cụm trình tự Kết quả thử nghiệm cho thấy, sử dụng kết hợp giải pháp cài đặt với MetaCluster2.0 giúp làm tăng độ chính xác một cách đáng kể trong trường hợp các hệ gien trong tập dữ liệu khác xa nhau về mức độ phong phú (thử nghiệm S1,S2, S4, và S6) Tuy nhiên, trong trường hợp, mức độ phong phú của các hệ gien tương đối giống nhau (thử nghiệm S3, S5), việc sử dụng kết hợp không mang lại kết quả tốt hơn.
Bảng 3.2: Kết hợp giải pháp cài đặt với MetaCluster 2.0
ID Số Mức độ MC 2.0 MC 2.0 + hệ gien phong phú Giải pháp cài đặt
Ký tự "-" thể hiện giải pháp không thể phân chia trình tự thành các cụm Hai độ đo được sử dụng là độ nhạy (Sen.) và độ chính xác (Prec.).
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Sự phức tạp của công đồng vi sinh vật đòi hỏi những công cụ hiệu quả để phân tích mẫu dữ liệu được thu thập Trong quy trình phân tích dữ liệu metagenomic, bài toán gom cụm là một vấn đề quan trọng Đề tài này đã hoàn thành các công việc dự định ban đầu, bao gồm:
+ Tổng quan các giải pháp gom cụm trình tự metagenomic, đánh giá ưu điểm, nhược điểm của từng nhóm giải pháp Tổng quan các đặc trưng được sử dụng trong các giải pháp gọm hiện nay.
+ Xây dựng ứng dụng gom cụm trình tự metagenomic nhằm mục đích phân chia trình tự dựa trên mức độ phong phú của hệ gien (hay loài) Giải pháp cài đặt sử dụng phương pháp tương tự giải pháp AbundanceBin Khác với AbundanceBin, giải pháp cài đặt cho phép xử lý trên trình tự dạng paired- end. Đề tài này chỉ dừng lại ở mức nghiên cứu ban đầu Nhiều vấn đề còn tồn tại cần giải quyết bao gồm:
+ Đối với bài toán gom cụm dựa trên sự phong phú của hệ gien nói riêng, việc lựa chọn độ dài l ảnh hưởng nhiều đến hiệu năng của giải pháp Đề xuất phương pháp đếm l-mers phù hợp có thể giúp cải tiến chất lượng của các giải pháp này.
+ Đối với vấn đề gom cụm trình tự theo loài nói chung, hầu hết các giải pháp hiện nay kém hiệu quả khi xử lý cho trình tự ngắn Vấn đề này đặt ra nhiều thách thức cho công đồng nghiên cứu.
+ Gien (gene): Gien là toàn bộ trình tự nucleotide mà cần thiết cho việc tổng hợp một sản phẩm của gien (chuỗi polypeptide hoặc RNA) [14]. + Hệ gien (genome): Hệ gien bao gồm tất cả trình tự DNA trong tập hợp các nhiễm sắc thể của một cá thể Hậu tố "ome" theo tiếng Hi Lạp có nghĩa là "tất cả" [7].
+ bp (base pair): Gọi là cặp base Hai nucleotide bổ sung với nhau bởi liên kết cầu hydrogen (A-T, G-C trong DNA) Khi viết tắt “bp” có nghĩa là đơn vị chiều dài ngắn nhất của phân tử DNA kép.
+ l-mer: Một đoạn trình tự nucleotide ngắn, có độ dài l bp.
+oligonucleotide: Một đoạn nucleotide ngắn, thường để chỉ đoạn nucleotide ngắn hơn 15 bp Các tên gọi liên quan: đơn nucleotide (mononucleotide),cặp nucleotide (dinucleotides), bộ ba nucleotide (trinucleotides), hay bộ bốn nucleotide (tetranucleotides).
[1] Jon Bohlin Genomic signatures in microbes - properties and applica- tions The Scientific World Journal, 11, 2011.
[2] Jon Bohlin, Eystein Skjerve, and David W Ussery Reliability and applications of statistical methods based on oligonucleotide frequencies in bacterial and archaeal genomes BMC Genomics, 9(104), 2008.
[3] D Dalevi, D Dubhashi, and M Hermansson Bayesian classifiers for detecting hgt using fixed and variable order markov models of genomic signatures Bioinformatics, 2006.
[4] Patrick J Deschavanne, Alain Giron, Joseph Vilain, Guillaume Fagot, and Bernard Fertil Genomic signature: Characterization and classifi- cation of species assessed by chaos game representation of sequences. Mol Biol Evol, 16(10):1391 – 1999, March 1999.
[5] W Fiers, R Contreras, and M Ysebaert Complete nucleotide sequence of bacteriophage ms2 rna: primary and secondary structure of the repli- case gene Nature, 250, 1976.
[6] Fabio Gori, Dimitrios Mavroedis, Mike S M Jetten, and Elena Mar- chiori Genomic signatures for metagenomic data analysis: Exploiting the reverse complementarity of tetranucleotides In 2011 IEEE Inter- national Conference on Systems Biology (ISB).
[7] J Handelsman The new science of metagenomics - revealing the secrets of our microbial planet Technical report, National Academy of Sciences, USA, 2007.
[8] H Joel Jeffrey Chaos game representation of gene structure Nucleic Acids Research, 18(8), 1990.
[9] Samuel Karlin and Istvan Ladunga Comparisons of eukaryotic genomic sequences Proc Natl Acad Sci USA, 91, 1994.
[10] David R Kelley and Steven L Salzberg Clustering metagenomic sequences with interpolated markov models BMC Bioinformatics, 11(544), 2010.
[11] Andrey Kislyuk, Srijak Bhatnagar, Jonathan Dushoff, and Joshua S Weitz Unsupervised statistical clustering of environmental shotgun sequences BMC Bioinformatics, 10(316), 2009.
[12] Eric S Lander and Michael S Waterman Genomic mapping by finger- printing random clones: a mathematic alanalysis Genomic, 1988.
[13] H C Leung, F M Yiu, B Yang, Y Peng, Y Wang, Z Liu, and
F Y Chin A robust and accurate binning algorithm for metage- nomic sequences with arbitrary species abundance ratio Bioinformat- ics, 27(11):1489 – 1495, June 2011.
[14] Harvey Lodish, Arnold Berk, S Lawrence Zipursky, Paul Matsudaira, David Baltimore, and James Darnell Molecular cell biology W H. Freeman.
[15] M Mesbah, U Premachandran, and W B Whitman Precise measure- ment of the g+c content of deoxyribonucleic acid by high-performance liquid chromatography International Journal of Systematic Bacteriol- ogy, 39(2):159 – 167, April 2011.
[16] M L Metzker Sequencing technologies – the next generation Nature Review, 11(1):31 – 46, December 2010.
[17] Akira Muto and Syozo Osawa The guanine and cytosine content of genomic dna and bacterial evolution Proc Natl Acad Sci USA, 84, 1987.
[18] Ozkan U Nalbantoglu Computational genomic signatures and metage- nomics PhD thesis, University of Nebraska-Lincoln, 1400 R St, Lincoln,