Luận văn thạc sĩ Khoa học máy tính: Phân loại trình tự Metagenomics trên cơ sở phân lớp và gom cụm

Dựa trên việc vận dụng các kỹ thuật phân lớp và gom cụm, kếthợp khai thác tính chất của dữ liệu, luận án đã có những đóng góp chính như sau.Một là, luận án đề xuất các phương pháp nhằm n

GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT DỰA TRÊN SỰ PHONG PHÚ CỦA HỆ GIEN

Giới thiệu

Phân loại không giám sát dựa trên sự phong phú của hệ gien là nhằm gom trình tự DNA vào từng cụm, sao cho trình tự trong mỗi cụm thuộc về các hệ gien có sự phong phú tương tự nhau Như đã trình bày trong chương 2, các giải pháp thuộc hướng tiếp cận này như AbundanceBin [37], giải pháp của Olga và cộng sự [42], hay MarkovBin [66] có thể xử lý cho trình tự ngắn Tuy nhiên, khi phải xử lý cho dữ liệu có số lượng trình tự lớn, chi phí tính toán vẫn là một thách thức lớn cần giải quyết Bên cạnh đó, khi số cụm trong tập dữ liệu không được biết trước, chất lượng phân loại của các giải pháp cũng bị ảnh hưởng trong trường hợp phương pháp ước lượng số cụm không hiệu quả.

Luận án này đề xuất một phương pháp mới, được gọi là MetaAB (Abundance-based binning ofmetagenomic sequences), có khả năng phân loại trình tự một cách hiệu quả dựa trên thông tin sự phong phú của hệ gien trong tập trình tự cần phân tích Phương pháp đề xuất sử dụng mô hình thu giảm để tìm ước lượng khả năng cực đại (MLE - maximum likelihood estimates) của tham số trong mô hình thống kê, nhằm giảm chi phí tính toán so với các giải pháp tương tự Ngoài ra, khác với việc sử dụng phương pháp tối ưu cục bộ (phương pháp top-down) trong AbundanceBin và giải pháp của Ogla và cộng sự để phân loại và ước lượng số cụm, MetaAB vận dụng một kỹ thuật lựa chọn mô hình nhằm phân loại và ước lượng số cụm dữ liệu toàn cục một cách hiệu quả Bên cạnh đó, một phương pháp đếm tần số xuất hiệnl-mer có độ dài thay đổi [69] cũng được đề xuất trong nghiên cứu này nhằm làm tăng

26 sự chính xác trong việc phân loại.

Phương pháp

Giải pháp đề xuất trong phần này sử dụng phương pháp gom cụm dựa trên mô hình, dựa trên đặc trưng sự phong phú của hệ gien trong tập dữ liệu (được trình bày trong chương 2) Dựa trên nghiên cứu của Lander and Waterman [70], một giả định được sử dụng trong nghiên cứu này là số lần xuất hiện của l-mer trong một tập trình tự thuộc cùng một hệ gien tuân theo phân phối Poisson Như vậy, tập tất cả số lần xuất l-mer trong một tập trình tự metagenomics được xem như một hỗn hợp các phân bố Poisson Giải pháp đề xuất trước tiên tìm ước lượng khả năng cực đại của các tham số cho mô hình này Việc tìm ra tham số phù hợp cho mô hình đồng nghĩa với việc chúng ta biết được xác suất các l-mer thuộc về các thành phần của mô hình Tập trình tự sau đó được phân loại theo cách gán vào các thành phần dựa trên xác suất mà cácl-mer của chúng thuộc về từng thành phần.

3.2.1 Mô hình hỗn hợp của tần số xuất hiện các l-mer

Cho một tập trình tự metagenomics bao gồmntrình tựR={r 1 ,r 2 , ,rn} Đặtw 1 , ,wq là một tập các l-mer trong tập trình tự, và c(w i ),1≤i≤q, là số lần xuất hiện củal-merwi trong tập dữ liệu Vì mỗil-mer được hình thành từ 4 nucleotide (A, C, G, T), ta có:q≤4 l Như vậy, ta có một tập dữ liệu X={c(w 1 ), ,c(w q )} bao gồm qquan sát của biến ngẫu nhiên x=c(w i ),1≤i≤q.

Từ giả định đựa nêu ở phần trên, phân bố của cácl-mer trong một hệ giengm bị chi phối bởi phân bố Poisson với tham sốλm Hàm xác suất số lần xuất hiện củal-merwi đến từ hệ gieng m là: pm(c(w i )|λm) = λm c(w i ) e −λ m c(w i )! (3.1)

Giả định rằng tập trình tự chứak loài với mức độ phong phú khác nhau, và biến ngẫu nhiên xlà phân bố đồng nhất, độc lập (Independent and identically distributed - iid) Ta có một mô hình hợp hữu hạnkthành phần với hàm khối xác suất (probabilistic mass function) như sau [71]: p(c(w i )|Θ) k

Trong đó,Θ={α 1 , ,αk,θ1, ,θk}là một tập các tham số của mô hình hợp này.α1, ,αk là các thành phần hợp và thỏa mãn điều kiện∑ k m=1 αm=1,αm≥0 Ngoài ra,θm,1≤m≤k, là tập tham số của thành phần thứ m của mô hình Trong ngữ cảnh này, với mô hình hợp Poisson, ta có: θm ≡λm Hàm log-likelihood tương ứng với mô hình hợpk thành phần này như sau: logL(Θ|X) =logp(X|Θ)

Giải pháp đề xuất nhằm tìm ước lượng khả năng cực đại (MLE) của tham sốΘ, vốn thể hiện khả năng cao nhất mà cácl-mer thuộc về các hệ gien trong tập dữ liệu. Θ ∗ =arg max Θ logL(Θ|X) (3.4)

Mô hình này cũng đã được áp dụng trong các nghiên cứu khác cho việc phân loại trình tự dựa trên độ phong phú của hệ gien [37], hay ước lượng cấu trúc các đoạn lặp và độ dài trình tự DNA [72].

Chi phí tính toán cho biểu thức 3.3 trong thức tế là rất đáng kể Hơn nữa, hàm log- likelihood thường phải được tính toán lại nhiều lần nhằm ước lượng tham số trong mô hình.

Do đó, nhằm giảm chi phí tính toán của việc ước lượng tham số trong mô hình, nghiên cứu này đề xuất một mô hình thu giảm của nó, dựa trên bổ đề sau:

Bổ đề 1: Cho hai l-merw i ,w j Xét một thành phầnm bất kỳ với tham số λm Nếuc(w i ) c(w j ), ta có pm(c(w i )|λm) = pm(c(w j )|λm).

Chứng minh Dựa trên biểu thức 3.1, ta có pm(c(wi)|λm)−pm(c(wj)|λm) = λm c(w i ) e −λ m c(w i )! −λm c(w j ) e −λ m c(w j )!

Cho một tập tất cảl-merw 1 , ,w q trong tập trình tựR Sắp xếp cácl-mer vàob,b∈N, nhóm không rỗng sao cho tất cảl-merw i ,w j ,i6= j, trong cùng một nhómt,t ∈ {1, ,b}, có cùng số lần xuất hiện và bằngct (có nghĩa làc(w i ) =c(w j ) =ct), và∀t,r∈ {1, ,b},ct 6 cr Gọist,t ∈ {1, ,b}, là số lượngl-mer trong nhómt Ta có: q b t=1 ∑ s t (3.6)

Có thể thấy rằng, vìst ≥1(các nhóm không rỗng), ta luôn có b≤q Ví dụ, ta có 11 4-mer (q) trong tập trình tự như bảng 3.1 Tập các4-mer này có thể được chia thành 3nhóm (b=3) theo quy tắc trên như sau:

Bảng 3.1: Ví dụ về số lần xuất hiện của 4-mer trong tập dữ liệu

4-mer Số lần xuất hiện

Dựa trên bổ đề 1, hail-mer có cùng số lần xuất hiện luôn có cùng xác suất thuộc về các thành phần trong mô hình Vì vậy, hàm log-likelihood tương ứng với mô hình hợp kthành phần, được phát biểu trong biểu thức 3.3, có thể được xây dựng như sau: logL(Θ|X) b t=1 ∑ stlog k m=1 ∑ αmpm(ct|λm)

Trong thực tế, một tỉ lệ lớn các l-mer xuất phát từ cùng hệ gien và thường có cùng số lần xuất hiện trong tập trình tự metagenomics (tức là: s t 1) Dựa trên biểu thức 3.6 ta thấy, cho trước số lượng l-merq, giá trị s t càng lớn, giá trịbcàng nhỏ Vì vậy, khi sử dụng biểu thức 3.7, chi phí để tìm ước lượng khả năng cực đại của tham sốΘgiảm đi đáng kể so với mô hình gốc trong 3.3.

3.2.3 Ước lượng tham số trong mô hình đề xuất Để ước lượng khả năng cực đại của tham số trong mô hình đề xuất, nghiên cứu này sử dụng giải thuật cực đại hóa kỳ vọng (EM - Expectation Maximization [73]) Đây là một giải thuật lặp, được sử dụng phổ biến trong nhiều lĩnh vực, cho phép tìm được giá trị tối ưu cục bộ của tham số trong một mô hình thống kê Dữ liệu quan sát đượcXđược xem như dữ liệu không đầy đủ, và dữ liệu còn thiếu là một tập bnhãnZ={z 1 , ,zb} Mỗi vectơ nhị phân zt = (z t1 , ,z tk ) T ,t ∈ {1, ,b}, cho biết thành phần (các hệ gien) nào tạo ra cácl-mer mà số lần xuất hiện của chúng bằngc t Ở đây,z tm =1,m∈ {1, ,k}, nếu cácl-mer mà số lần xuất hiện của chúng bằng c t có nguồn gốc từ thành phần thứ m, và z tm =0khi ngược lại.

Hàm log-likelihood của dữ liệu đầy đủ(X,Z)là: logL(Θ|X,Z) =logp(X,Z|Θ)

!s t b t=1 ∑ stlog k m=1 ∑ ztmαmpm(c t |λm) b t=1 ∑ st k m=1 ∑ ztmlogαmpm(c t |λm).

Mục tiêu của quá trình ước lượng tham số cho mô hình là tìm giá trị của tập tham sốΘ nhằm tối ưu hàm mục tiêu p(X|Θ) Tuy nhiên, đây là vấn đề khó vì thông tin về mô hình không đầy đủ Do vậy, thay vì thực hiện tối ưu hóa trực tiếp hàm p(X|Θ) để tìmΘ, thuật toán EM thực hiện việc này dựa trên hàm log-likelihood của dữ liệu đầy đủ như sau:

Một tập các tham số chưa biết Θ={α 1 , ,αk,λ1, ,λk} được khởi tạo ngẫu nhiên.

Kết quả thực nghiệm

Trong phần này, hai phiên bản của MetaAB (MetaAB và MetaAB-adv) được so sánh với AbundanceBin [37] (phiên bản 1.01, tháng 2/2013) trên tập dữ liệu có và không có lỗi giải mã trình tự AbundanceBin đã được chứng minh là đạt hiệu năng tốt nhất với l-mer có độ dài 20 Vì vậy,l được chọn cho thực nghiệm này cho cả hai giải pháp Riêng đối với giải pháp đề xuất, dựa trên quan sát thực nghiệm, tham số num min được gán là 1000 trong các thực nghiệm bên dưới Số cụm tối thiểukminđược gán là 2, số cụm tối đakmax được gán bằngcountmin(được tính ra từnummin) Các độ đo độ chính xác, độ nhạy và F-measure theo định nghĩa trong chương 2 (mục 2.1.4) được sử dụng để đánh giá các giải pháp Máy tính sử dụng cho thực nghiệm là máy Intel Xeon RAM 20G, CPU 4 cores 2.3 GHz.

3.3.1 Dữ liệu thực nghiệm Để tạo ra bộ dữ liệu thực nghiệm, công cụ MetaSim [75] được sử dụng Công cụ này cho phép lựa chọn mô hình giải mã trình tự, cũng như điều khiển các tham số tác động đến dữ liệu như: độ dài trình tự, độ phủ hệ gien, mức độ lỗi giải mã Các bộ dữ liệu giả lập được tạo dựa trên hệ gien vi khuẩn, được tải về từ ngân hàng dữ liệu NCBI (National Center for Biotechnology Information) Có hai nhóm dữ liệu được tạo Nhóm thứ nhất, được ký hiệu là từ S1 đến S7, chứa trình tự single-end không có lỗi giải mã Nhóm thứ hai, được ký hiệu là từ T1 đến T7, chứa trình tự paired-end có lỗi giải mã Trình tự không có lỗi giải mã (có độ dài khoảng 150bp) được tạo bởi bộ giả lập chính xác (exact simulator) của MetaSim Trong khi đó, trình tự có lỗi giải mã (có độ dài khoảng 80bp) tuân theo công nghệ Illumina, với mức độ lỗi khoảng 1% Tập dữ liệu ở hai nhóm có cùng số loài, số nhóm độ phong phú, độ phong phú, và được xây dựng từ cùng các loài (species) hay chủng (strain) Các tập dữ liệu này được mô tả chi tiết trong bảng 1 ở phần Phụ Lục.

3.3.2 Kết quả trên tập dữ liệu không có lỗi giải mã

MetaAB và MetaAB-adv được so sánh với AbundanceBin trên tập dữ liệu từ S1 đến S7 Trong thực nghiệm này, độ dài các phần củal-mer sử dụng trong MetaAB-adv như sau: l p ,l m ,l s Bảng 3.2 thể hiện độ chính xác và độ nhạy của ba giải pháp Có thể thấy rằng, giải pháp đề xuất có thể ước lượng một cách đúng đắn số cụm cho hầu hết bộ dữ liệu (6 trên 7 trường hợp đối với MetaAB, 7 trên 7 trường hợp đối với MetaAB-adv).

Trong khi đó, AbundanceBin chỉ ước lượng chính xác cho 4 trên 7 trường hợp Ngoài ra, MetaAB và MetaAB-adv có khả năng đạt độ chính xác và độ nhạy tốt hơn AbundanceBin cho hầu hết các trường hợp Có thể thấy rằng, nhờ sử dụng phương pháp đếm l-mer có độ dài thay đổi, MetaAB-adv đạt chất lượng phân loại tốt hơn MetaAB trên tất cả tập dữ liệu

40 thử nghiệm này Điều này được thể hiện rõ hơn ở biểu đồ trên hình 3.4 (biểu đồ bên trái).

Cũng từ biểu đồ này ta thấy, hai phiên bản của giải pháp đề xuất đạt giá trị F-measure bằng hoặc cao hơn AbundanceBin cho 5 trên 7 trường hợp thực nghiệm.

Về khía cạnh tốc độ tính toán (thể hiện trong bảng 3.2), MetaAB-adv đòi hỏi nhiều chi phí tính toán hơn hai giải pháp còn lại trong 6 trên 7 trường hợp Trong khi đó, MetaAB cần ít thời gian xử lý hơn khi so sánh riêng với từng giải pháp MetaAB-adv và AbundanceBin cho phần lớn các trường hợp Điều này phù hợp với ước lượng số phép tính toán của MetaAB và MetaAB-adv ở mục 3.2.7.

Bảng 3.2: Độ chính xác và độ nhạy của AbundanceBin, MetaAB và MetaAB-adv trên tập dữ liệu từ S1 đến S7.

Tập # Số cụm AbundanceBin MetaAB MetaAB-adv dữ liệu thực Số Độ chính Độ Thời Số Độ chính Độ Thời Số Độ chính Độ Thời tế cụm xác nhạy gian (s) cụm xác nhạy gian (s) cụm xác nhạy gian (s)

Bảng 3.3: Độ chính xác và độ nhạy của AbundanceBin, MetaAB, và MetaAB-adv trên tập dữ liệu từ T1 đến T7.

Tập # Số cụm AbundanceBin MetaAB MetaAB-adv dữ liệu thực Số Độ chính Độ Thời Số Độ chính Độ Thời Số Độ chính Độ Thời tế cụm xác nhạy gian (s) cụm xác nhạy gian (s) cụm xác nhạy gian (s)

Hình 3.4: F-measure của AbundanceBin, MetaAB, và MetaAB-adv cho tập dữ liệu thử nghiệm Biểu đồ bên trái thể hiện cho tập trình tự từ S1 đến S7 Biểu đồ bên phải thể hiện cho tập trình tự từ T1 đến T7.

3.3.3 Kết quả trên tập dữ liệu có lỗi giải mã trình tự

Trong trường hợp thực nghiệm trên tập trình tự có lỗi giải mã, nhằm giảm đi sự ảnh hưởng của lỗi giải mã này, tham số đầu vào của ba giải pháp được gán sao cho có thể loại bỏ những l-mer có tần số xuất hiện rất thấp (vốn được xem là những l-mer không tin cậy).

Cụ thể, tham số exclude của AbundanceBin được gán là 1 Tham sốcountmin của MetaAB và MetaAB-adv được gán là 2 Việc gán các giá trị này cho các tham số đều giúp loại bỏ những l-mer có tần số xuất hiện bằng 1 trong cả ba giải pháp Tham số exclude max của AbundanceBin được gán là 200 theo như nghiên cứu của giải pháp này trong [37] cho trường hợp trình tự có lỗi giải mã Đối với MetaAB-adv, độ dài các phần của l-mer sử dụng như sau:lp =1,lm ,ls=1.

Bảng 3.3 so sánh mức độ chính xác và thời gian tính toán của ba giải pháp Rõ ràng, hai phiên bản của giải pháp đề xuất có khả năng phân tích tốt trình tự có lỗi giải mã, và tốt hơn AbundanceBin cho hầu hết các trường hợp MetaAB và MetaAB-adv đều có thể ước lượng số cụm trong tập dữ liệu một cách đúng đắn cho 5 trên 7 trường hợp Trong khi đó, AbundanceBin chỉ ước lượng đúng cho một trường hợp (bộ dữ liệu T1) AbundanceBin có xu hướng dự đoán số cụm ít hơn số cụm thực tế Việc này giúp giải pháp này đạt độ nhạy cao cho một số trường hợp Tuy nhiên, MetaAB và MetaAB-adv đạt độ chính xác cao hơn so với AbundanceBin cho tất cả các bộ dữ liệu Hai phiên bản của giải pháp đề xuất cũng

44 đạt F-measure cao hơn AbundanceBin cho 6 trên 7 trường hợp thực nghiệm (hình 3.4, biểu đồ bên phải) Do sự ảnh hưởng của lỗi giải mã trình tự, MetaAB-adv không thể hiện được sự ưu thế so với MetaAB cho những bộ dữ liệu này. Ở khía cạnh chi phí tính toán, MetaAB và MetaAB-adv tốn ít thời gian thực thi hơn đáng kể so với AbundanceBin So với trường hợp thực nghiệm trên các bộ dữ liệu từ S1 đến S7, sự khác biệt về tốc độ xử lý ở trường hợp này rõ ràng hơn vì MetaAB và MetaAB-adv sử dụng thông tin paired-end của trình tự, giúp giảm bớt thêm chi phí tính toán.

3.3.4 Sự ảnh hưởng của các tham số

Phần này đánh giá sự ảnh hưởng của các tham sốnummin,countmin, và độ dàil-mer lên chất lượng phân loại của MetaAB và MetaAB-adv Hình 3.5 thể hiện F-measure trung bình của MetaAB trên tập dữ liệu từ S1 đến S5, theo giá trị nummin khác nhau Có thể thấy ở đồ thị trên hình này là việc sử dụng ngưỡng nummin giúp làm tăng đáng kể hiệu năng của MetaAB Cụ thể, với nummin nằm trong khoảng từ 1000 đến 9000 có F-measure trung bình cao hơn khoảng 6% so với trường hợpnum min =0 F-measure trung bình của MetaAB giảm nhẹ khinum min >9000.

Hình 3.5: F-measure trung bình của MetaAB trên tập dữ liệu từ S1 đến S5, với giá trịnummin khác nhau. Đối với tập dữ liệu có lỗi giải mã trình tự, tham số countmin được sử dụng nhằm loại bỏ những l-mer có tần số xuất hiện rất thấp, vốn được xem là những l-mer không tin cậy.

Kết luận

Chương này trình bày các phương pháp nhằm nâng cao chất lượng cho giải pháp phân loại trình tự dựa trên thông tin sự phong phú của hệ gien trong tập dữ liệu Giải pháp đề xuất MetaAB, được công bố ở công trình CT5 (Mục Danh mục các công trình đã công bố), thực thi nhanh nhờ phương pháp sử dụng mô hình thu giảm để ước lượng tham số trong mô hình xác suất cácl-mer, cũng như tăng chất lượng phân loại thông qua việc sử dụng phương pháp ước lượng số cụm hiệu quả Hơn nữa, phương pháp đếml-mer có độ dài thay đổi được đề xuất trong nghiên cứu này (công bố ở CT3, mục Danh mục các công trình đã công bố) giúp cải tiến chất lượng phân loại cho trường hợp trình tự không có lỗi giải mã.

Bởi vì, MetaAB chỉ dựa trên thông tin sự phong phú của hệ gien để phân loại trình tự,nên giải pháp này chỉ hiệu quả khi sự phong phú của hệ gien trong tập dữ liệu khác biệt nhau Trong trường hợp tập dữ liệu chứa trình tự của hai loài có độ phong phú tương tự nhau, trình tự của hai loài này có xu hướng được phân loại vào cùng một nhóm Các chương tiếp theo của luận án trình bày các giải pháp phân loại có thể xử lý cho cả trường hợp độ phong phú của hệ gien tương tự nhau.

CHỌN ĐẠI DIỆN CỦA MỘT TẬP TRÌNH TỰ DỰA TRÊN TÍNH CHẤT GỐI ĐẦU

Giới thiệu

Chọn đại diện cho một tập dữ liệu là vấn đề được thực hiện trong nhiều bài toán xử lý dữ liệu lớn Mục tiêu của công việc này là chọn ra một tập dữ liệu sao cho tập này có kích thước nhỏ hơn tập dữ liệu gốc, nhưng vẫn bảo toàn tính chất đặc trưng ban đầu của tập gốc [76] Khi đó, tập đại diện sẽ được sử dụng thay cho toàn bộ tập dữ liệu nhằm giúp giảm chi phí tính toán của giải pháp sử dụng chúng Hơn thế nữa, trong một số trường hợp, việc lựa chọn tập đại diện còn giúp giảm nhiễu, qua đó làm tăng chất lượng của giải pháp [77].

Một số giải pháp sử dụng đại diện nhằm giảm kích thước dữ liệu cần xử lý, giúp làm tăng tốc độ tính toán, đồng thời vẫn giữ được mức độ chính xác như khi xử lý trên toàn bộ tập dữ liệu Nhóm giải pháp này đã được áp dụng hiệu quả cho các bài toán như: bài toán khai phá dữ liệu lớn [78, 79], bài toán phân tích mạng xã hội [80].

Một số giải pháp khác tìm đại diện của tập dữ liệu nhằm mục đích giảm nhiễu, hướng đến mục tiêu tăng mức độ chính xác Chẳng hạn, nghiên cứu của Wang và cộng sự [81] lựa chọn điểm đại diện trong một nhóm các điểm tương đồng trong hình ảnh hay video giúp làm tăng chất lượng của giải pháp phân loại các đối tượng này Giải pháp của Dou và cộng sự [82], hay của Lan và cộng sự [83] thực hiện giảm nhiễu cho vấn đề phân loại hay khai phá dữ liệu trên web dựa trên việc tìm đại diện cho nội dung của trang web.

Ngoài ra, một số giải pháp hướng đến cùng lúc hai mục tiêu là vừa tăng tốc độ tính toán, vừa tăng mức độ chính xác thông qua việc tìm đại diện của tập dữ liệu Trong số đó, nghiên

48 cứu của Antonin và Miroslav [84], cũng như nghiên cứu của Keung và cộng sự [77] đã đề xuất giải pháp hiệu quả để tìm tập đại diện giúp làm tăng chất lượng và giảm chi phí cho bài toán phân loại dữ liệu nói chung.

Luận án này đề xuất ý tưởng chọn đại diện cho một tập trình tự DNA dựa trên tính gối đầu giữa các trình tự Việc lựa chọn tập đại diện là nhằm giảm chi phí tính toán, đồng thời giảm nhiễu trong dữ liệu do độ phủ của tập dữ liệu không đồng nhất để đạt được hiệu quả phân loại trình tự tốt hơn Phần tiếp theo là định nghĩa bài toán, và phân tích sự bảo tồn đặc tính tương đồng và tính hợp thành trong tập đại diện Đây là hai đặc trưng quan trọng được sử dụng cho việc phân loại trình tự metagenomics.

Định nghĩa bài toán

4.2.1 Một số ký hiệu và khái niệm

Phần này trình bày một số ký hiệu và làm rõ những khái niệm được sử dụng để phát biểu bài toán, và trình bày các giải pháp phân loại trong phần còn lại của luận án này.

• Cho hai trình tự DNA rvà s Nếu rvà sđược lấy mẫu từ cùng hệ gien, ta ký hiệu là r./s.

• Cho hai hệ gieng 1 ,g 2 , ví dụ: g 1 =“CCTAAGAACGGTT”, g 2 =“AAGTGTGCTTTAT”.

Giả sử có 4 trình tự sau được rút trích từ hệ gieng 1 : r g 1 1 =“CCTAA”(bắt đầu từ vị trí 1 trongg 1 ), r g 2 1 =“AAGAA”(bắt đầu từ vị trí 4 trongg 1 ), r g 3 1 =“AACGG”(bắt đầu từ vị trí 7 trongg 1 ), r g 4 1 =“CGGTT”(bắt đầu từ vị trí 9 trongg 1 ), và một trình tự từ hệ gieng 2 : r g 1 2 =“AAGTG”(bắt đầu từ vị trí 1 trongg 2 ).

Xét các chuỗi DNA trên: i) Bởi vìr 1 g 1 /r g 2 1 và hai trình tự này chia sẻ một vùng chung củag 1 , ta nóir g 1 1 gối đầu thực sự (gọi tắt làgối đầu)r 2 g 1 , ký hiệu làr 1 g 1 ur g 2 1 ii) Ta cũng phát biểu là r 1 g 1 không gối đầu r 3 g 1 , r 4 g 1 , và r g 1 2 , ký hiệu là r g 1 1 6 ur g 3 1 , r g 1 1 6 ur g 4 1 , vàr g 1 1 6 ur g 1 2 Mặc dùr 1 g 1 vàr g 3 1 chia sẻ một chuỗi con “AA”ở phần bên trái của chuỗi thứ nhất và phần bên phải của chuỗi thứ hai, nhưng chúng không được xem là gối đầu trong phạm vi luận án này vì chúng được rút trích từ hai vùng khác nhau của cùng hệ gieng 1 Tương tự,r 1 g 1 vàr g 1 2 được nói là không gối đầu với nhau vì chúng xuất phát từ các hệ gien khác nhau.

4.2.2 Tính chất của tập đại diện

Như đã trình bày trong chương 2, phần lớn công nghệ giải mã trình tự hiện nay sử dụng kỹ thuật giải mã trình tự đoạn ngắn Cụ thể, mẫu DNA cần được nhân bản và cắt nhỏ trước khi được đưa vào máy giải mã Giả sử, mỗi mẫu DNA ban đầu được nhân bản c lần Giá trị này còn được gọi độ sâu trong giải mã trình tự (sequencing depth) Khi đó, tập trình tự thuộc cùng hệ gien (thông tin của mẫu DNA này) được tạo ra sẽ có độ phủ trung bình làc.

Ngoài ra, bởi vì vị trí cắt trên mẫu DNA là ngẫu nhiên nên các trình tự trong tập này có khả năng gối đầu nhau, với trung bình ctrình tự chứa cùng một nucleotide ở một vị trí.

Cho một tập trình tựG, sao cho ∀r,s∈G,r./s Sử dụng thông tin gối đầu của các trình tự, ta định nghĩa một tập đại diện củaG, được ký hiệu làS(G), là tập được xây dựng sao cho thỏa tính chất sau: i) S(G)⊆G ii) ∀r,s∈S(G),r6 us

Một ví dụ được thể hiện ở hình 4.1 Một nhóm gồm 17 trình tự (các đoạn thẳng) thuộc cùng một hệ gien Một đại diện có thể được xây dựng thỏa tính chất trên gồm 6 trình tự không gối đầu nhau.

4.2.3 Định nghĩa bài toán tìm tập đại diện

Cho một đồ thị không có trọng sốD= (V,E) Trong đó,V là một tập gồm|V|đỉnh thể hiện cho các trình tự trong tậpG, vàE là một tập các cạnh Mỗi cạnh(r,s),r,s∈V, thể hiện

Hình 4.1: Một nhóm bao gồm 17 trình tự thuộc cùng một hệ gien Một đại diện của nhóm gồm 6 trình tự không gối đầu. mối quan hệrus Hình 4.2 mô phỏng một tập trình tự DNA thực, với một tập đại diện của nó (đỉnh màu đen đậm).

Một điều có thể thấy rằng, tập đại diện S(D) của D tương đương với một tập độc lập (independent set)haytập ổn định (stable set)của một đồ thị mà trong đó không có đỉnh nào kề nhau [85] Bài toán tìm tập đại diện của một tập trình tự là bài toán tìm tập độc lập lớn nhất (maximum independent set) của một đồ thị, được định nghĩa như sau: Đặt xr=1nếu r∈S(D) Ngược lại,xr=0 nếur∈/ S(D) Mục tiêu của bài toán là tìm tập S(D)⊂Dnhằm: maximize f(x) |V | r=1 ∑ xr, (4.1) sao cho thỏa mãn các ràng buộc sau: x r +x s ≤1,∀(r,s)∈E (4.2) xr∈ {0,1},∀r∈V (4.3)

Sự bảo toàn đặc trưng của nhóm trình tự

Một vấn đề chính cần được quan tâm là khả năng bảo toàn đặc trưng của đại diện của tập dữ liệu Cụ thể, hai đặc trưng chính được sử dụng trong nghiên cứu này là tính tương đồng và tính hợp thành dựa trên tần số xuất hiệnl-mer.

Hình 4.2: Đồ thị mô phỏng tập trình tự DNA thuộc cùng hệ gien thực Tập đỉnh đại diện (màu đen đậm) bao gồm các đỉnh không kề nhau.

Tính tương đồng thể hiện mức độ giống nhau giữa hai trình tự Mức độ tương đồng của tập trình tự của một hệ gien với tập trình tự của hệ gien khác chính là mức độ tương đồng của vùng phủ trên hệ gien gốc của chúng với nhau Chẳng hạn, ở hình 4.1, tập dữ liệu này phủ từ vị tríxđến vị tríytrên hệ gien gốc Như vậy, tính tương đồng của tập dữ liệu sẽ được bảo toàn trong tập đại diện nếu tập đại diện có khả năng phủ hết các vị trí trên hệ gien gốc mà tập dữ liệu đó phủ Nhờ sử dụng tính chất không gối đầu, các trình tự trong tập đại diện có xu hướng phủ hầu hết các vị trí trên hệ gien gốc, qua đó có thể bảo toàn phần lớn tính tương đồng của tập dữ liệu ban đầu.

4.3.2 Tính hợp thành dựa trên tần số xuất hiện l-mer

Tần số xuất hiệnl-mer được xác định là một đặc trưng hợp thành của mỗi trình tự DNA hay hệ gien Các nghiên cứu trong [33, 86, 87] cho thấy rằng dấu hiệu hệ gien này được thể hiện trong các trình tự dài hay toàn bộ hệ gien Tuy nhiên, hầu hết công nghệ giải mã trình tự được sử dụng cho các dự án metagenomics hiện tại không thể tạo ra trình tự dài Vì vậy, đặc trưng này không thể áp dụng trực tiếp cho việc phân loại trình tự một cách hiệu quả.

Nghiên cứu của Yi và cộng sự [34] cho thấy có thể dùng tần số xuất hiệnl-mer của tập trình tự cùng hệ gien với vai trò là một đặc trưng cho việc phân loại trình tự metagenomics.

Thay vì quan sát trên đoạn trình tự dài hay trên một tập trình tự cùng hệ gien bất kỳ, nghiên cứu này phân tích phân bố tần sốl-mer trên nhóm các trình tự cùng hệ gien và không gối đầu Nghiên cứu này quan tâm đến sự khác biệt giữa phân bố tần số xuất hiệnl-mer của các nhóm thuộc cùng hệ gien cũng như khác hệ gien Đây là cơ sở để xem xét khả năng bảo toàn tính hợp thành trên tần số xuất hiệnl-mer của đại diện của tập trình tự.

4.3.2.1 Phương pháp tính tần số xuất hiện l-mer

Một phân bố tần số xuất hiệnl-mer của một nhóm các trình tự được tính như sau ĐặtG là một nhóm gồmntrình tự:G={r j ,j =1, ,n}, và|r j |là độ dài củarj Mỗi trình tự rj gồm|r j | −l+1l-mer Vì vậy, tổng sốl-mer trong nhómGlà|G|=∑ n j=1 (|r j | −l+1).

Bởi vìl-mer được hình thành từ 4 loại nucleotide (Adenine (A), Cytosine (C), Guanine (G), and Thymine (T)), nên có nhiều nhất 4 l loại l-mer Đặt h G i ,i∈[1, ,4 l ] là tần số của l-meri trong nhóm G Để tínhh G i , một cửa sổ trượt có độ dài l được sử dụng để trượt dọc theo tất cả trình tự DNA trong mỗi nhóm Trong thực tế, bởi vì các nhóm có thể chứa số lượng trình tự không giống nhau, và độ dài của mỗi trình tự cũng không hoàn toàn đồng nhất, nên nghiên cứu này sử dụng tần số chuẩn hóa dựa trên tổng sốl-mer trong mỗi nhóm.

Cụ thể, tần số này được tính như sau: f i G = h G i

Trong đó, f i G là tần số chuẩn hóa củal-meritrong nhómG Vectơ đặc trưng của nhómGsẽ là:f G = [f 1 G , f 2 G , ,f G

Ngoài ra, khi tính trên chuỗi đôi của trình tự DNA trong mỗi nhóm, bởi vìl-mer vàl-mer bổ sung đối nghịch của nó có cùng tần số xuất hiện, nên một kỹ thuật tương tự như trong

[33, 86] được sử dụng để giảm kích thước của vectơ như sau Nếu l là lẻ, thì kích thước của vectơ đặc trưng này sẽ là4 l /2 Ví dụ, vớil =1, các cặpl-mer sau có số lần xuất hiện giống nhau: A/T, G/C, và kích thước vectơ là 2 Nếul là chẵn, thì kích thước sẽ là(4 l +4 l/2 )/2 Ví dụ, vớil =2, các cặp sau có số lần xuất hiện giống nhau: AA/TT, AC/GT, AG/CT, TG/CA, TC/GA, CC/GG, AT/AT, GC/GC, CG/CG, TA/TA, và kích thước vectơ là 10 Nghiên cứu trong [87, 86] đã thực hiện khảo sát trên các hệ gien sinh vật và thể hiện rằng l =4 là lựa chọn tốt nhất để rút trích đặc trưng hợp thành từ trình tự DNA Vì vậy,l=4được chọn trong nghiên cứu này Do đó, mỗi vectơ đặc trưng của mỗi nhóm trình tự có kích thước là 136.

4.3.2.2 Rút trích đặc trưng hợp thành

Một thực nghiệm được tiến hành để rút trích đặc trưng hợp thành từ một nhóm trình tự không gối đầu bằng cách sử dụng phương pháp tính tần số l-mer chuẩn hóa ở trên Theo nghiên cứu của Patrick và cộng sự [10], dấu hiệu hệ gien thể hiện rõ nét trong trình tự có độ dài ≥1000 bp Do vậy, thực nghiệm này thiết lập các tham số như sau Mỗi nhóm bao gồm 60 trình tự ngắn không có lỗi giải mã, với độ dài 150 bp Do đó, kích thước của mỗi nhóm (tổng độ dài các trình tự trong nhóm) là khoảng 9000 bp Ngoài ra, tất cả trình tựrvà strong cùng nhóm được lấy mẫu sao chor./s, vàr6 us Có tổng cộng 150 cặp nhóm trình tự được sử dụng trong thực nghiệm này Trong số chúng, có 50 cặp là thuộc cùng hệ gien, 50 cặp là từ hệ gien cùng chi (genus) nhưng khác loài (species), và 50 cặp là từ hệ gien cùng bộ (order) nhưng khác họ (family).

Sau khi tính vectơ tần sốl-mer của từng nhóm, nghiên cứu này thực hiện tính khoảng cách Euclide giữa các vectơ này Sở dĩ khoảng cách Euclide được sử dụng vì đây là độ đo khoảng cách thường được sử dụng và cho thấy sự hiệu quả trong rút trích dấu hiệu hệ gien theo tần sốl-mer [86] Chi tiết về kết quả tính toán được trình bày trong phần phụ lục (Bảng 2, 3, 4, và hình 1) của luận án Đặtuvàvlà hai loài khác nhau Ta ký hiệuG u vàG v là nhóm chứa trình tự thuộc về các loàiuvàv Từ thực nghiệm này, ta thấy rằng:

• Khoảng cách Euclide giữa các vectơ đặc trưngf G 1 vàf G 2 , được ký hiệu là||f G 1 −f G 2 ||, là nhỏ nếu hai nhómG 1 vàG 2 được lấy mẫu từ cùng loài (trung bình khoảng 7.7× 10 −4 ).

• ||f G u −f G v || là lớn hơn nếu khoảng cách sinh loài (phylogenetic distance) giữa u và vlớn hơn (trung bình khoảng 1.4×10 −3 , và 2.1×10 −3 tương ứng cho khoảng cách

54 sinh loài mức loài và họ).

Ngoài ra, hình 4.3 thể hiện một cách trực quan phân bố tần số xuất hiện 4-mer của 4 nhóm các trình tự không gối đầu thuộc hai hệ gien của hai loài: Bacillus thuringiensis và

Alicycliphilus denitrificans Rõ ràng, các nhóm thuộc cùng hệ gien có phân bố tần số xuất hiện 4-mer giống nhau, trong khi tần số xuất hiện 4-mer của các nhóm khác loài rất khác nhau.

Quan sát này cho thấy rằng, dấu hiệu hệ gien dựa trên tần số xuất hiện của 4-mer cũng được thể hiện trong nhóm các trình tự ngắn không gối đầu như trong các trình tự dài Vì vậy,nó có thể được sử dụng như một đặc trưng cho vấn đề phân loại trình tự Điều này cho thấy,đại diện của nhóm trình tự có thể được sử dụng thay thế cho tập trình tự gốc trong các giải pháp phân loại có dựa trên tính hợp thành theo tần số xuất hiệnl-mer của trình tự.

Kết luận

Chương này đề xuất ý tưởng tìm đại diện của một tập trình tự thuộc cùng hệ gien dựa trên thông tin gối đầu giữa các trình tự Thông qua việc phân tích tính tương đồng và khảo sát bằng thực nghiệm tính hợp thành dựa trên tần số xuất hiệnl-mer, tập đại diện cho thấy có khả năng bảo toàn các đặc trưng này Do đó, trong trường hợp có thể gom trình tự thuộc cùng hệ gien vào một nhóm, ý tưởng tìm đại diện của nhóm có thể được vận dụng nhằm giảm chi phí tính toán cũng như làm tăng chất lượng của giải pháp phân loại trình tự metagenomics.

BT-group1 BT-group2 AD-group1 AD-group2 0.1

Hình 4.3: Tần số xuất hiện 4-mer của 4 nhóm chứa các trình tự không gối đầu nhau được lấy mẫu từ 2 hệ gien của hai loài:Bacillus thuringiensis

(BT-group1, BT-group2) andAlicycliphilus denitrificans(AD-group1, AD-group2).

GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT SỬ DỤNG DẤU HIỆU HỆ GIEN

Giới thiệu

Việc thiếu dữ liệu tham khảo trong thực tế là một thách thức cho vấn đề phân loại trình tự Ngoài ra, giải pháp phân loại không giám sát chỉ dựa trên sự phong phú của hệ gien như đề xuất ở chương 3 không xử lý tốt trong trường hợp các loài trong cùng tập dữ liệu có độ phong phú tương đồng nhau Trong khi đó, dấu hiệu hệ gien là đặc trưng cho phép phân loại trình tự mà không phụ thuộc vào sự phong phú của hệ gien trong tập dữ liệu Do đó, chương này đề xuất một giải pháp mới sử dụng kỹ thuật gom cụm, được gọi là BiMeta (A Binning algorithm for Metagenomic reads), dựa trên dấu hiệu hệ gien được rút trích từ nhóm trình tự không gối đầu (non-overlapping reads) Giải pháp BiMeta vận dụng ý tưởng sử dụng tập đại diện của tập trình tự thuộc cùng hệ gien được trình bày ở chương 4 nhằm làm tăng chất lượng phân loại, cũng như giảm chi phí tính toán BiMeta ban đầu thực hiện bước tiền xử lý nhằm gom trình tự vào các nhóm dựa trên thông tin gối đầu giữa chúng Việc này giúp tạo ra các nhóm trình tự thuộc cùng hệ gien Sau đó, các nhóm được phân loại dựa trên đặc trưng tần số xuất hiện l-mer được rút trích từ từng nhóm Điểm khác biệt của giải pháp đề xuất so với những giải pháp hiện nay là việc sử dụng tập đại diện của từng nhóm cho việc phân loại, thay vì sử dụng toàn bộ trình tự trong nhóm Phần tiếp theo trình bày chi tiết về nền tảng của phương pháp đề xuất Các ký hiệu và khái niệm được trình bày ở chương 4 được sử dụng cho chương này.

Phương pháp

5.2.1 Nền tảng của phương pháp đề xuất

Giải pháp đề xuất gồm hai pha như sau (hình 5.1): ĐặtRlà một tậpntrình tự metagenomic Trong pha 1, trình tự được gom vào các nhóm Gi,i∈ {1, ,p}và p≤n, dựa trên thông tin gối đầu trình tự Nói một cách khác, hai trình tự r,s∈R có thể được gom vào cùng nhóm nếu chúng được kết luận là rus Điều này có nghĩa là các trình tựr,s∈Rở trong cùng nhóm được xem như thuộc cùng hệ gien (r./s). Để trộn các nhóm vào các cụm mà có thể thể hiện hệ gien của các sinh vật có quan hệ sinh loài gần nhau, phương pháp đề xuất tính vectơ tần sốfcho mỗi nhómGi(định nghĩa ở chương 4) Sự gối đầu giữa các trình tự trong mỗi nhóm có thể dẫn đến một thực tế là vectơ f không thể hiện đúng đắn dấu hiệu hệ gien của các hệ gien bởi sự không cân bằng trong độ phủ (coverage) của các trình tự Ý tưởng sử dụng tập đại diện của mỗi nhómGi được áp dụng nhằm giảm thiểu sự không cân bằng này, cũng như giảm chi phí rút trích thông tin từ các nhóm Phương pháp đề xuất không cần tính vectơ tần sốftrên tất cả các trình tự của nó, vốn gối đầu với nhau Thay vào đó, một tập con đại diện củaG i , được ký hiệu làS(G i ), thỏa mãn điều kiện: ∀r,s∈S(G i ), r không gối đầu với s, được chọn ra từ Gi Tập đại diện này được gọi là một seed củaGi Ví dụ trong hình 5.1, một nhóm thuộc về hệ gien 1 bao gồm 5 trình tự (thể hiện bởi 5 đoạn thẳng) Một seed của nhóm này bao gồm 2 trình tự (thể hiện bởi 2 đường thẳng màu đen nhạt) không gối đầu với nhau Tiếp theo đó, vectơ f S(G i ) của mỗi tập con S(G i )được tính toán Một điều được mong đợi là∀r,s∈S(G i ),r./svà r6us, vectơf S(G i ) cũng lưu trữ dấu hiệu hệ gien và có thể giúp phân loại vi sinh vật, như quan sát ở chương trước của luận án Vì vậy, f S(G i ) được sử dụng với vai trò là một đại diện của Gi trong quá trình phân loại Trong pha 2, phương pháp đề xuất nhằm mục tiêu trộn các nhóm G i ,i∈ {1, ,p}, vàokcụm (k≤ p) sử dụng vectơf S(G i )

Xác định các trình tự gối đầu và không gối đầu

Một vấn đề cần giải quyết trong pha 1 của giải pháp đề xuất là làm sao để xác định hai trình tự r,s∈R là gối đầu hay không gối đầu Nhiều nghiên cứu trước đây quan tâm đến việc xác định sự gối đầu giữa các trình tự Một trong những phương pháp hiệu quả là đếm sốl-mer được chia sẻ giữa các trình tự [36, 34, 88] Các phương pháp này dựa trên đặc trưng

4- me rs fre que nc ies

Tetranucleotides (4-mers I D from 1 to 136) BT-group1

BT-group2 AD-group1 AD-group2

4 - m e rs f re q ue nc ie s

Tetranucleotides (4-mers ID from 1 to 136) BT-group1

Các cm Seed Tn s 4-mer ca các seed

H gien 2

Thuật toán BiMeta

Để thực hiện quá trình phân loại, một đồ thị không có trọng số H = (V,E) được xây dựng Trong đóV là một tập các đỉnh thể hiện cho các trình tự, vàE là một tập các cạnh.

Cho trướcm,q∈N, mỗi cạnh (r,s),r,s∈V, thể hiện mối quan hệrus Với mỗi nhóm, ký hiệu là Gi, ta gọiNS(G i ) =Gi\S(G i ) Ta có,Gi ={S(G i ),NS(G i )} và Gi ⊆V Phần tiếp theo mô tả chi tiết khía cạnh giải thuật của giải pháp đề xuất.

5.2.2.1 Pha 1 - Gom nhóm các đỉnh và xây dựng seed

Giải thuật được trình bày bằng mã giả trong Algorithm 2 Việc gom nhóm các đỉnh trong pha này tương đương với việc giải bài toán phân hoạch đồ thị Trong nghiên cứu này, một phương pháp tham lam được sử dụng như sau. ĐặtVtemp =V Trước tiên, một nhóm rỗng Gi,i ≥1, được xây dựng Sau đó, một đỉnh v∈Vtempđược chọn ngẫu nhiên, loại khỏiVtempvà được gán vàoGi Ta ký hiệu Neighbor(Gi) là một tập các đỉnh x ∈V temp sao cho ∃w ∈ G i ,(w,x)∈ E Tiếp đó, các đỉnh u, với u∈ Neighbor(Gi), được tiếp tục chọn, loại khỏiVtemp, và được gán vào nhóm này.

Việc xây dựng các seed được thực hiện đồng thời với việc xây dựng các nhóm BiMeta sử dụng một thuật toán tham lam nhằm tìm được nghiệm khả thi của bài toán tìm tập đại diện (hay seed) (định nghĩa ở chương 4, mục 4.2.3) một cách nhanh chóng Trước hết, đỉnh đầu tiên v∈Vtemp được gán vào nhóm Gi sẽ được lưu trữ trong S(G i ) Sau đó, một đỉnh u∈Vtemp được gán vàoGi chỉ được lưu trữ trong seed của nóS(G i )nếu ukhông kề với bất cứ đỉnh nào trong S(Gi) Ngược lại, usẽ được lưu trữ trong NS(Gi) Cuối cùng, khi tất cả các nhóm đã được xây dựng, vectơ đặc trưngf S(G i ) ,∀i∈ {1, ,p}, sẽ được tính toán.

Lỗi trình tự cũng như sự tồn tại của cácl-mer được chia sẻ giữa các hệ gien (thậm chí với tỉ lệ rất nhỏ) cũng có thể dẫn đến việc gom nhóm sai Để giảm xác suất lỗi này, kích thước của các nhóm được giới hạn bởi một ngưỡng Smax Quá trình xây dựng nhómGi sẽ dừng lại khi kích thước của seedS(G i ), ký hiệu là|S(G i )|, vượt quá ngưỡng cho trướcS max Chú ý rằng|S(G i )|=∑ r∈S(G i ) |r|.

Trong pha này, giải thuật gom cụmk-means [89] được sử dụng để trộn các nhóm Gi,i∈

{1, ,p}, vốn được tạo trong pha 1, thành các cụm, sử dụng vectơ đặc trưng f S(G i ) Đặt

C 1 ,C 2 , ,C k là tập các cụm được trả về Ta cóCj ⊆ {G 1 , Gp} Hàm mục tiêu của giải thuật trong pha này như sau: minimize k

Trong đó,¯fC j là trung bình của cụmCj, được tính như sau: ¯fC j = ∑G w ∈C j f S(G w )

Algorithm 2Gom nhóm đỉnh và xây dựng seed.

Input: Đồ thịH = (V,E); kích thước tối đa của seedSmax.

Output: Tập các nhómGi và các vectơ đặc trưng của chúngf S(G i ) ,i∈ {1, ,p}.

17: until|S(G i )|>Smax hoặc Neighbor(Gi)= /0.

Trong đó,|C j |là số nhóm trong cụmC j Pha này được trình bày bằng mã giả trong Algorithm 3 Trước hết, điểm trung tâm của các cụm¯f new C j được chọn ngẫu nhiên từ các vectơf S(G i ) Sau đó, hai bước sau được thực hiện lặp lại:

• Bước gán (Assignment step): Tính khoảng cách của mỗif S(G i ) và các trung tâm của các cụm ¯f C new j , và gán Gi cho cụmCz có khoảng cách từ điểm trung tâm đến nó gần nhất.

• Bước cập nhật (Update step): Lưu trữ điểm trung tâm hiện tại vào ¯f old C j và tính lại các điểm trung tâm của các cụm đã tạo¯f new C j

Quá trình trên dừng khi thuật toán hội tụ (khi không có sự thay đổi giá trị điểm trung tâm của các cụm), hay vượt quá số vòng lặp xác định trước.

Input: Danh sách các nhómGi; danh sách các vectơ đặc trưngf S(G i ) ,1≤i≤ p; số cụmk.

1: ∀j ∈ {1, ,k}, chọn ngẫu nhiên¯f C new j từf S(G i )

11: ∀j∈ {1, ,k}, Tính¯f C new j sử dụng công thức (5.2).

12: until ¯f C old j =¯f new C j ,∀j∈ {1, ,k}hay vượt quá số vòng lặp quy định.

Độ phức tạp của giải thuật

Gọi |r| là độ dài của trình tự r, ta có số phép tính toán của pha 1 của BiMeta là ≈ n 2 s max +n.s 2 max +136.p.s max |r|, vớin,smax,plần lượt là số trình tự, kích thước tối đa của nhóm trình tự, và số nhóm được xây dựng ở bước này Số phép tính toán của pha 2 củaBiMeta là≈272.k.p.c, vớik,clần lượt là số cụm dữ liệu, và số vòng lặp thực thi của thuật toánk-means Trong đó, kích thước vectơ đặc trưng được tính là 136 Như vậy, độ phức tạp tính toán của BiMeta làO(n 2 ).

Hiệu năng của BiMeta được đánh giá trên tập dữ liệu giả lập và dữ liệu thực Số loài trong các tập dữ liệu được giả định là biết trước BiMeta được so sánh với các giải pháp phân loại không có giám sát mới gần đây cho trình tự có độ dài khác nhau và tạo bởi công nghệ giải mã khác nhau Đối với trình tự Illumina (độ dài 80bp, paired-end), giải pháp đề xuất được so sánh với MetaCluster 5.0 [34], AbundanceBin [37] (phiên bản 1.01, tháng 2/2013), và MetaAB (trình bày ở chương 3) MetaCluster 3.0 [64] và MetaCluster 2.0 [33] là hai giải pháp phân loại cho trình tự dài gần đây (≥700bp) Bởi vì MetaCluster 3.0 không hỗ trợ gán số cụm cho trước Vì vậy, để so sánh một cách công bằng, nghiên cứu này chỉ so sánh BiMeta với MetaCluster 2.0 cho trình tự Roche 454 (độ dài 700bp, single-end) Mã nguồn của các giải pháp được tải về từ các trang công bố của các nhóm nghiên cứu Ba độ đo độ chính xác, độ nhạy và F-measure (định nghĩa trong chương 2, mục 2.1.4) được sử dụng cho việc đánh giá hiệu năng của các giải pháp Máy tính được sử dụng cho các thực nghiệm là mày Intel Xeon có cấu hình 20GB RAM, 2.3 GHz.

Như đã trình bày ở chương 2, mục 2.1.3.3, khil ≥ 30, hầu hết l-mer không được chia sẻ bởi các hệ gien Vì vậy, các thực nghiệm trong phần này chọnl 0 Ngoài ra, mức độ chính xác của việc gom nhóm trình tự và xây dựng seed của BiMeta phụ thuộc vào khả năng phát hiện ra sự gối đầu giữa các trình tự Khi sử dụng giá trị m(số l-mer được chia sẻ giữa các trình tự) lớn hơn có thể tăng xác suất tìm được các vùng gối đầu, cũng như làm tăng độ chính xác của pha này Tuy nhiên, điều này không đảm bảo rằng giải pháp phân loại đạt chất lượng phân loại tốt hơn Dựa trên thực nghiệm, m =5 được chọn cho trường hợp trình tự dạng Illumina (có độ dài 80bp), và mEcho trường hợp trình tự dạng Roche 454 (có độ dài 700bp) Ngoài ra, dựa trên thực nghiệm về rút trích đặc trưng hợp thành từ nhóm trình tự, kích thước của mỗi nhóm được hạn chế bởi giá trị S max 00 Thuật toán gom cụm được chứng minh là ổn định khi xử lý cho dữ liệu lớn [90, 91] Vì vậy, trong thực nghiệm này, mỗi giải pháp chỉ được chạy một lần cho một tập trình tự.

5.3.1.1 Tập dữ liệu giả lập

Có tất cả 25 tập dữ liệu giả lập được tạo và sử dụng Trong số đó, 9 tập dữ liệu chứa trình tự tuân theo mô hình giải mã trình tự Roche 454 với độ dài 700bp (dạng single-end) và tỉ lệ lỗi giải mã khoảng1% (chúng được ký hiệu từ R1 đến R9, thể hiện trong bảng 5.1) Những tập này được tạo dựa trên mô tả trong các nghiên cứu [35] và [67] Ngoài ra, 16 tập dữ liệu chứa trình tự độ dài khoảng 80bp (dạng paired-end) được tạo theo mô hình Illumina với tỉ lệ lỗi khoảng1%(chúng được ký hiệu từ S1 đến S10, và từ L1 đến L6, thể hiện trong bảng 5.2).

Bảng 5.1: Tập dữ liệu chứa trình tự dạng Roche 454.

Tập dữ Số Khoảng cách Tỉ lệ Số trình liệu loài sinh loài tự

Bảng 5.2: Tập dữ liệu chứa trình tự dạng Illumina.

Tập dữ Số Khoảng cách Tỉ lệ Số trình liệu loài sinh loài tự

Order, Order S9 15 các khoảng cách khác nhau 1:1:1:1:1 2234168

2:2:2:2:2 3:3:3:3:3 S10 30 các khoảng cách khác nhau 4:4:4:4:4: 4990632

BiMeta được đánh giá trên tập dữ liệu thật được tải về từ ngân hàng dữ liệu NCBI, vốn được thu thập từ mỏ acid (Acid Mine Drainage - AMD) [6] Tập dữ liệu này bao gồm trình tự được giải mã theo công nghệ Sanger và được khám phá là thuộc về 5 loài chính: Lep- tospirillum sp Group III, Ferroplasma acidarmanus Type I, Thermoplasmatales archaeon Gpl,Ferroplasma sp Type II, vàLeptospirillum sp Group II Các scaffold (các trình tự dài, có thể bằng hệ gien của cá thể) của 5 loài này cũng được tải về từ NCBI để sử dụng cho việc đánh giá hiệu năng của giải pháp phân loại.

5.3.2 Kết quả thực nghiệm trên dữ liệu giả lập

5.3.2.1 Kết quả trên trình tự Illumina

Hiệu năng của BiMeta được so sánh với MetaCluster 5.0 và AbundanceBin trên tập dữ liệu chứa trình tự Illumina, với số loài và khoảng cách sinh loài khác nhau Bảng 5.3 thể hiện giá trị F-measure của các giải pháp cho tập dữ liệu từ S1 đến S10 BiMeta có thể đạt được độ chính xác cao hơn MetaCluster 5.0 và AbundanceBin trong hầu hết các trường hợp (8 trên 10 trường hợp) Khi số loài trong tập dữ liệu tăng, hiệu năng của ba giải pháp giảm.

Mặc dù vậy, có thể thấy kết quả trên tập dữ liệu S9 và S10, vốn chứa số lượng lớn các loài, BiMeta vẫn đạt F-measure tốt hơn so với MetaCluster 5.0 và AbundanceBin.

Ngoài ra, nghiên cứu này cũng quan tâm đến độ chính xác và độ nhạy của các giải pháp trên các tập dữ liệu này Hình 5.2 cho thấy trong hầu hết các trường hợp, giải pháp đề xuất đạt độ chính xác và độ nhạy cao hơn so với MetaCluster 5.0 và AbundanceBin Một điểm đáng lưu ý là MetaCluster 5.0 cố gắng đạt được độ chính xác cao bằng việc sử dụng kỹ thuật loại bỏ trình tự có độ phủ rất thấp và tạo ra nhiều cụm hơn nếu cần thiết Tuy nhiên, BiMeta vẫn đạt được độ chính xác cao hơn rõ rệt so với MetaCluster 5.0 trong 6 trên 10 trường hợp.

Bảng 5.3: F-measure của MetaCluster 5.0, AbundanceBin và BiMeta trên tập dữ liệu từ S1 đến S10.

Tập dữ liệu MetaCluster 5.0 AbundanceBin BiMeta

Ký hiệu "-" thể hiện rằng các giải pháp không thể phân loại trình tự BiMeta đạt giá trị F-measure cao hơn khi so sánh với MetaCluster 5.0 và AbundanceBin cho 8 trong số 10 tập dữ liệu Trong khi đó MetaCluster 5.0 đạt kết quả cao nhất cho tập dữ liệu S2 và S7 so với hai giải pháp còn lại.

Hình 5.2: Hiệu năng của MetaCluster 5.0, AbundanceBin và BiMeta trên các tập dữ liệu từ S1 đến S10. Độ phong phú của hệ gien là một trong những yếu tố quan trọng ảnh hưởng đến chất lượng của các giải pháp phân loại hiện nay Để đánh giá sự ảnh hưởng của yếu tố này đến

BiMeta, một thực nghiệm được thực hiện trên tập dữ liệu từ L1 đến L6, và so sánh giải pháp đề xuất với MetaCluster 5.0, AbundanceBin và MetaAB Các tập dữ liệu này được tạo ra từ hệ gien thuộc hai loài Eubacterium eligensvà Lactobacillus amylovorus, nhưng khác nhau về tỉ lệ độ phong phú.

Hình 5.3: Hiệu năng của MetaCluster 5.0, BiMeta, AbundanceBin và MetaAB trên các tập dữ liệu từ L1 đến L6.

Hình 5.3 cho thấy giá trị F-measure đạt được bởi các giải thuật này Kết quả đã cho thấy rằng chất lượng phân loại của BiMeta là ổn định ngay cả khi tỉ lệ phong phú của hệ gien trong các tập dữ liệu khác nhau, và trả về kết quả tốt hơn so với ba giải pháp còn lại Cụ thể hơn, BiMeta có thể đạt giá trị F-measure lớn hơn 97.5%, và cao hơn từ 4% - 38% so với MetaCluster 5.0 cho tất cả trường hợp Ngoài ra, BiMeta tốt hơn AbudanceBin và MetaAB (với giá trị F-measure tốt hơn từ 0.2% đến 28%) khi chúng thực thi trên tập dữ liệu có tỉ lệ độ phong phú thấp (1:1, 1:2, và 1:3, các tập dữ liệu L1, L2, và L3), và vẫn đạt được kết quả cao như AbundanceBin và MetaAB (≥97.28%) cho các tập dữ liệu có tỉ lệ độ phong phú cao (1:4, 1:5, và 1:6, tập dữ liệu L4, L5 và L6) Điều này cho thấy rằng, việc sử dụng seed là tập đại diện cho các nhóm giúp BiMeta không bị ảnh hưởng bởi mức độ khác biệt ở sự phong phú của các hệ gien trong tập dữ liệu Hơn thế nữa, ở khía cạnh chi phí tính toán, BiMeta cần ít thời gian tính toán hơn so với ba giải pháp còn lại khi thực thi trên các bộ dữ

68 liệu này (được thể hiện ở bảng 5.4)

Bảng 5.4: Thời gian tính toán của MetaCluster 5.0, AbundanceBin, MetaAB, và BiMeta trên các tập dữ liệu từ L1 đến L6.

Tập dữ liệu MetaCluster 5.0 AbundanceBin MetaAB BiMeta

5.3.2.2 Kết quả trên trình tự Roche 454

BiMeta và MetaCluster 2.0 được thực thi trên tập dữ liệu trình tự Roche 454 từ R1 đếnR9 Bảng 5.5 cho thấy rằng BiMeta đạt giá trị F-measure cao hơn rõ rệt so với MetaCluster2.0 cho tất cả trường hợp Với tập dữ liệu R9, trong khi BiMeta đạt F-measure cao, Meta-Cluster 2.0 không thể thực thi thành công vì số trình tự quá lớn Hơn thế nữa, giải pháp đề xuất có thể đạt độ chính xác cao hơn từ 0.5% - 20% cho 6 trên 8 trường hợp có thể so sánh được, và độ nhạy cao hơn từ 3% - 36% so với MetaCluster 2.0 (hình 5.4) Trong thực nghiệm cho tập dữ liệu R7, R8, và R9, mặc dù các tập dữ liệu này chứa trình tự từ các hệ gien có độ phong phú khác xa nhau, BiMeta vẫn đạt được độ chính xác cao (F-measure từ 86.42% đến97.92%).

Bảng 5.5: Giá trị F-measure của MetaCluster 2.0 và BiMeta trên các tập dữ liệu từ R1 đến

Tập dữ liệu MetaCluster 2.0 BiMeta

Tp trình t Tp trình t chính xác nh y

Hình 5.4: Hiệu năng của MetaCluster 2.0 và BiMeta trên các tập dữ liệu từ R1 đến R9.

5.3.3 Kết quả thực nghiệm trên dữ liệu thực tế

BiMeta và MetaCluster 2.0 được thực nghiệm trên tập dữ liệu AMD Để đánh giá kết quả của hai giải pháp, công cụ BLAST được sử dụng để tính xem có bao nhiêu trình tự trong mỗi cụm trả về tương đồng với các scaffold của 5 loài chiếm ưu thế trong tập dữ liệu này.

Trong thực nghiệm này, chỉ 69% trình tự trong tập dữ liệu AMD có thể gióng hàng được với các scaffold bởi BLAST Số lượng trình tự có thể gióng hàng cho phép ta ước lượng một

70 cách tương đối mức độ chính xác của các giải pháp Kết quả cho thấy, mặc dù MetaCluster 2.0 đạt giá trị độ chính xác cao hơn so với BiMeta (57.15% so với 55.8%), nhưng BiMeta trả về kết quả có độ nhạy tốt hơn nhiều so với MetaCluster 2.0 (88.09% so với 70.93%) Nhìn một cách tổng thể, giá trị F-measure của BiMeta cao hơn so với MetaCluster 2.0 (68.32% so với 63.3%).

5.3.4 Sự ảnh hưởng của các tham số

Kết luận

Chương này trình bày giải pháp phân loại trình tự metagenomics dựa trên dấu hiệu hệ gien và tính gối đầu trình tự, không sử dụng hệ gien tham khảo Nhờ vận dụng phương pháp tìm đại diện của nhóm trình tự, giải pháp đề xuất cho thấy có thể đạt hiệu năng cao hơn các giải pháp mới nhất hiện nay trên cả tập trình tự giả lập và tập trình tự thực tế Một điểm mạnh khác của giải pháp đề xuất là có thể xử lý tốt cho trình tự có độ dài khác nhau Ngoài ra, bởi vì pha hai của giải pháp chỉ thực hiện trên tập con (seed) của các nhóm, thay vì trên cả nhóm, giải pháp đề xuất chạy nhanh và sử dụng ít bộ nhớ Giải pháp này, được gọi là BiMeta, được công bố ở công trình CT2 (Mục Danh mục các công trình đã công bố).

Giải pháp phân loại không có giám sát có điểm mạnh là xử lý nhanh, và hiệu quả cho trường hợp thiếu cơ sở dữ liệu tham khảo Tuy nhiên, các giải pháp này không giúp gán nhãn sinh học cho trình tự, một trong những nhu cầu cần thiết trong một dự án metagenomics.

Trong chương tiếp theo của luận án, một giải pháp phân loại bán giám sát vốn cho phép gán nhãn sinh học cho trình tự được đề xuất.

GIẢI PHÁP PHÂN LOẠI BÁN GIÁM SÁT SỬ DỤNG ĐẶC TRƯNG KẾT HỢP

Giới thiệu

Các giải pháp phân loại có sử dụng cơ sở dữ liệu tham khảo hiện nay phần lớn sử dụng tính tương đồng hoặc đặc trưng kết hợp dựa trên tính tương đồng, bởi vì giải pháp chỉ dựa trên tính hợp thành không hiệu quả cho xử lý trình tự ngắn Tuy nhiên, những giải pháp dựa trên tính tương đồng thường đòi hỏi thời gian tính toán lớn vì công việc so sánh tương đồng tốn nhiều chi phí Bên cạnh đó, sự thiếu thông tin tương đồng giữa trình tự cần phân tích với trình tự tham khảo bởi độ dài trình tự ngắn cũng làm giảm đáng kể chất lượng của các giải pháp.

Nghiên cứu này trình bày một giải pháp phân loại trình tự metagenomic mới, sử dụng phương pháp phân lớp bán giám sát, được gọi là SeMeta (Asemi-unsupervised taxonomic assignment ofmetagenomic reads) Ý tưởng tìm tập đại diện của tập trình tự cũng được áp dụng nhằm giúp giải pháp này đạt được tốc độ xử lý nhanh, trong khi vẫn bảo toàn chất lượng phân loại như trường hợp sử dụng toàn bộ tập trình tự SeMeta ban đầu gom trình tự vào từng cụm dựa trên đặc trưng hợp thành của chúng Sau đó, đại diện của từng cụm được so sánh tương đồng với dữ liệu tham khảo, và được gán nhãn với sự hỗ trợ của một kỹ thuật lọc hiệu quả Kết quả gán nhãn cho đại diện của cụm được xem là kết quả gán nhãn cho trình tự trong cụm đó.

Phương pháp

6.2.1 Nền tảng của phương pháp đề xuất

Nghiên cứu này đề xuất giải pháp bán giám sát cho phân loại trình tự metagenomic, có thể được phân loại vào nhóm phương pháp gom cụm và gán nhãn (cluster-and-label) [38]. Điều mong đợi khi vận dụng phương pháp này vào bài toán phân loại trình tự là nó có thể giúp nhiều trình tự được gán nhãn và việc phân loại đạt độ chính xác cao hơn so với học có giám sát nhờ sự hỗ trợ của quá trình học không giám sát Một giả định được sử dụng là trình tự sinh học có xu hướng được chia thành các cụm, và trình tự trong mỗi cụm có nhiều khả năng thuộc cùng một đơn vị phân loại (taxon).

Cho một tậpRgồmntrình tự metagenomic Sử dụng giả định ở trên, bước đầu tiên của SeMeta là nhằm phân chia n trình tự vào k tậpC 1 ,C 2 , ,C k ,k ≤n Ở bước thứ hai, mỗi cụmCi,1≤i≤k, được gán nhãn dựa trên việc so sánh tương đồng giữa trình tự trong cụm với trình tự tham khảo Một trong những ý tưởng được áp dụng trong nghiên cứu này là việc sử dụng tập đại diện của cụm như được trình bày ở chương 4 Thay vì tìm kiếm tương đồng cho tất cả trình tự trong các cụmC i ,1≤i≤k, SeMeta chỉ thực hiện trên đại diệnS(C i )của chúng Một thực nghiệm đã được thực hiện và trình bày trong phần Kết quả thực nghiệm của chương này cho thấy rằng việc sử dụng đại diên của cụm rất ít ảnh hưởng chất lượng phân loại, trong khi đó có thể giảm rất nhiều chi phí tính toán Ngoài ra, có thể nhận thấy rằng, các đại diện của các cụm tương tự như các contig đã được ráp nối từ trình tự trong cụm Quy trình của SeMeta cho phép tránh phải thực hiện việc ráp nối trình tự, vốn đòi hỏi chi phí tính toán lớn [92], trong khi vẫn giữ được chất lượng phân loại. Để xác định liệu hai trình tự r 1 ,r 2 ∈R có gối đầu nhau hay không, SeMeta sử dụng phương pháp đã được trình bày trong chương 5 (mục 5.2.1), tức là dựa trên sốl-mer chia sẻ giữa hai trình tự.

Trong bước gán nhãn cho cụm, một kỹ thuật lọc hai mức (two-level filtering) được đề xuất nhằm loại bỏ những BLAST hit (tên hệ gien tham khảo được trả về bởi công cụ so sánh tương đồng BLAST) Mức một (mức trình tự) lọc những BLAST hit có giá trị bit-score thấp cho từng trình tự bằng việc sử dụng hai ngưỡng min-score (loại bỏ những hit có bit-score thấp) và top-percent (lựa chọn và giữ lại những hit có bit-score cao hơn phần còn lại), tương tự như một số nghiên cứu trước đây [52, 53, 51] Sự lặp lại của các đoạn trình tự ngắn giữa

76 các sinh vật khác nhau là một trong những nguyên nhân dẫn đến trình tự cần phân tích được gióng hàng với trình tự tham khảo thuộc nhiều sinh vật với bit-score cao, đặc biệt đối với trường hợp trình tự ngắn Vì vậy, để phân biệt được những hit nào là tin cậy bằng việc chỉ sử dụng bước lọc mức trình tự này là một việc khó khăn. Để giải quyết vấn đề trên, SeMeta tận dụng sự hỗ trợ của giai đoạn gom cụm nhằm thực hiện thêm một bước lọc nữa ở mức cụm (cluster level) Bởi vì trình tự trong từng cụm có nhiều khả năng thuộc cùng một đơn vị phân loại, nên thông tin BLAST hit của trình tự trong từng cụm được sử dụng kết hợp để gán nhãn cho cụm SeMeta chỉ chọn những hit mà được gióng hàng với phần lớn trình tự trong đại diện của cụm thông qua việc sử dụng ngưỡng tên là max-occur Ví dụ, ta có 6 trình tự thuộc đại diện của một cụm (từr 1 đếnr 6 như trong hình 6.1) Các trình tựr 1 ,r 2 ,r 3 ,r 5 ,r 6 được gióng hàng với các trình tự tham khảoG 1 ,G 2 ,G 3 ,G 4 với bit-score cao Trình tự r 4 không tương đồng hoặc tương đồng với bit-score rất thấp với trình tự tham khảo Áp dụng việc lọc ở mức trình tự, ta có 6 danh sách hit tương ứng với các trình tự này (danh sách hit cho trình tựr j được ký hiệu làh j ,1≤ j≤6) Trong đó, danh sáchh 4 là rỗng vì trình tựr 4 không tương đồng với bất trình tự nào trong cơ sở dữ liệu hoặc tương đồng với bit-score thấp và đã bị loại bỏ sau bước lọc mức 1. h 1 ={G 1 ,G 2 ,G 3 }, h 2 ={G 2 }, h 3 ={G 1 ,G 4 }, h 4 = /0, h 5 ={G 2 ,G 3 }, h 6 ={G 2 ,G 4 }. r 5 x H gien y

Hình 6.1: Ví dụ về kết quả gióng hàng trình tự trong đại diện của cụm với cơ sở dữ liệu tham khảo.

Trong đó,G 1 ,G 2 ,G 3 ,G 4 là tên của các hệ gien (BLAST hit) Nếu chúng ta chọn ngưỡng max-occur là 60%, có nghĩa là những hit được gióng hàng bởi ít nhất 0.6×6= 3.6 (làm tròn là 4) trình tự trong đại diện của cụm sẽ được chọn Do vậy, hit G 2 được giữ lại Trong khi đó, các hit còn lại bị loại bỏ.

Phần này trình bày chi tiết khía cạnh giải thuật của giải pháp đề xuất Hình 6.3 thể hiện quá trình thực hiện của phương pháp này, bao gồm hai bước chính: Gom cụm (Clustering), và Gán nhãn sinh học (Taxonomic Assignment).

Trong bước này, trình tự được phân loại vào các cụm chứa sinh vật có mối quan hệ sinh loài gần nhau, sử dụng phiên bản cải tiến của giải pháp BiMeta được đề xuất ở chương 5.

Tương tự với BiMeta, giải pháp SeMeta ban đầu gom nhóm trình tự dựa trên thông tin gối đầu giữa chúng Thuật toán k-means được sử dụng để trộn các nhóm vào các cụm dựa trên tần số xuất hiệnl-mer của các nhóm Tuy nhiên, có hai điểm khác biệt trong SeMeta so với BiMeta như sau:

Thứ nhất, bởi vì tần sốl-mer được rút trích từ những nhóm có kích thước rất nhỏ thường không tin cậy bởi vì thiếu thông tin của đặc trưng hợp thành, nên SeMeta loại bỏ những nhóm này nhằm nâng cao độ chính xác của giai đoạn gom cụm Chẳng hạn, một thực nghiệm cho BiMeta trên bộ dữ liệu S8 trong bảng 5.2 (Chương 2) để đánh giá khả năng nâng cao độ chính xác khi loại bỏ những nhóm nhỏ với kích thước khác nhau Kết quả ở hình 6.2 cho thấy, việc loại bỏ các nhóm nhỏ đều làm tăng độ chính xác của giải pháp này Mặc dù vậy, kích thước nhóm bị loại không nên quá lớn, vì khi đó độ nhạy của BiMeta càng giảm do quá nhiều nhóm bị loại bỏ.

Thứ hai, trong khi BiMeta cần biết trước số cụm trong dữ liệu, SeMeta có khả năng phát hiện tự động giá trị này bằng việc sử dụng hàm ước lượng f(k) từ nghiên cứu của Pham [93] Đây là phương pháp đã được cho thấy là hiệu quả cho các thuật toán dựa trên giải thuật k-means Cho tập dữ liệu là các nhóm G i ,i∈ {1, ,p}, được đại diện bởi các vectơ đặc trưng f S(G i ) (được định nghĩa ở chương 4), hàm ước lượng f(k) được định nghĩa như sau [93]:

0 2 4 6 8 10 12 q chính xác nhy chính xác hay nhy

Hình 6.2: Chất lượng phân loại của BiMeta trong các trường hợp loại bỏ những nhóm nhỏ với kích thướcqkhác nhau. f(k) 

Trong đó, d là số thuộc tính của dữ liệu (trong trường hợp này được gán là 136 - số chiều của vectơ đặc trưng f), và αk là một yếu tố trọng số (weight factor).S k chính là giá trị của hàm mục tiêu của k-means cho trường hợp số cụm là k, được định nghĩa ở biểu thức 5.1.

SeMeta tính giá trị f(k)cho các trường hợpkkhác nhau, và chọn trường hợp có giá trị f(k) nhỏ nhất.

Xây dựng đại diện của cụm

Sau khi trình tự được chia vào k cụmC 1 , ,C k , đại diện của các cụm được xây dựng dựa trên thông tin gối đầu giữa các trình tự Để tìm đại diện S(C i ),1≤ i≤k, của cụmCi,một phương pháp tham lam tương tự như cách tìm seed ở chương 5 (mục 5.2.2.1) được áp dụng.

Trình t không c gom cm n v phân loi A

Trình t không c gán nhãn n v phân loi B

Bc 1: Gom cm Bc 2: Gán nhãn sinh hc

Hình 6.3: Quá trình thực hiện của SeMeta.

Trong thực tế, tập dữ liệu có thể chứa trình tự thuộc hệ gien có độ phong phú rất thấp.

Những trình tự này nhiều khả năng bị phân chia vào những nhóm có kích thước rất nhỏ bởi vì ít trình tự gối đầu với chúng Điều này dẫn đến chúng sẽ bị loại bỏ khỏi giai đoạn gom cụm Nhằm cố gắng gán nhãn cho những trình tự này, SeMeta xem các trình tự này như những cụm và đưa vào bước gán nhãn sinh học cho các cụm Trong trường hợp này Ci≡S(Ci).

6.2.2.2 Bước 2: Gán nhãn sinh học

Bước này bao gồm ba công việc chính:

- Công việc 1 - Tìm kiếm tương đồng: Tất cả trình tự trong đại diện các cụm được tạo ở bước 1 được so sánh tương đồng với cơ sở dữ liệu tham khảo bằng công cụ BLAST.

Như ký hiệu ở phần trên,hj,j ∈N, là danh sách các hit không bị lặp lại được trả về bởi quá trình so sánh tương đồng cho trình tựrj Mỗi hitt∈hjcó một giá trị bit-score, được ký hiệu làbs(t).

SeMeta được so sánh với hai giải pháp phân loại dựa trên tính tương đồng phổ biến hiện nay trên cơ sở dữ liệu RefSeq là: MEGAN (phiên bản 5.8.6, ngày 13 tháng 1 năm 2015), và SOrt-ITEMS [53] (được tải về ngày 29 tháng 11 năm 2014) Hai tham số chung min-score

86 và top-percent được gán giống nhau cho ba giải pháp với giá trị lần lượt là 35 và 10% Các tham số còn lại của MEGAN và SOrt-ITEMS được gán mặc định Tham số max-occuro max của SeMeta được gán là 50% Dựa trên thực nghiệm trình bày ở hình 6.2, những cụm có kích thước nhỏ hơn 5 sẽ bị loại bỏ khỏi quá trình gom cụm ở bước 1 của SeMeta Để thực hiện so sánh tương đồng, công cụ BLASTx (version 2.2.30) được tải về từ website NCBI.

Công cụ này chạy ở chế độ chạy nhanh (tham số -task là blastx-fast), và các tham số còn lại được gán mặc định.

Ba bộ dữ liệu giả lập được mô tả trong bảng 7, 8, 9 của phần Phụ lục, được đặt tên là ds1,ds2, vàds3 Các bộ dữ liệu này được tạo từ các hệ gien vi khuẩn bởi công cụ MetaSim [75] theo mô hình giải mã trình tự Illumina, với độ dài là 80bp (chods1,ds2), và 100bp (cho ds3) Độ lỗi giải mã là 1% Số hệ gien trong tập dữ liệu tương ứng là 5, 10, và 15 Tập dữ liệuds1vàds3chứa các hệ gien được mô tả tương ứng trong [49] và [53].

SeMeta cũng được sử dụng để phân tích hai tập dữ liệu thực Tập dữ liệu thứ nhất là tập Acid Mine Drainage (AMD) [6], chứa 180,713 trình tự, được tải về từ NCBI Bộ thứ hai là mẫu MH0051 chứa dữ liệu đường ruột người (human gut metagenomic - HGM) [8] Tập này bao gồm 20,309,712 trình tự Illumina dạng paired-end với độ dài khoảng 75bp.

6.3.2 Kết quả thực nghiệm trên dữ liệu giả lập

SeMeta được so sánh với MEGAN và SOrt-ITEMS trên ba tập dữ liệu ds1,ds2và ds3 cho cả hai kịch bản cơ sở dữ liệu tham khảo: loài đã biết và loài chưa biết Đối với trường hợp thứ nhất, ta có thể thấy từ bảng 6.1 rằng SeMeta trả về kết quả tốt hơn so với MEGAN và SOrt-ITEMS ở mức độ loài Trong khi SOrt-ITEMS không thể phát hiện ra loài sinh vật nào, SeMeta đạt từ 10.12% đến 29.46% độ nhạy (A) cao hơn so với MEGAN, và từ 0.04% to 27.54% độ chính xác (A) cao hơn so với giải pháp này cho ba tập dữ liệu Ở các bậc phân loại cao hơn từ chi đến lớp, SeMeta và MEGAN đạt kết quả tốt hơn nhiều so với SOrtITEMS ở cả hai khía cạnh độ nhạy (A) và độ chính xác (A) Mặc dù MEGAN đạt độ chính xác (A) cao hơn SeMeta ở các bậc phân loại này cho tập dữ liệuds1vàds2, giải pháp đề xuất trả về độ nhạy (A) tốt hơn so với MEGAN cho tất cả các trường hợp.

Bảng 6.1: Hiệu năng của MEGAN, SOrt-ITEMS và SeMeta trên các tập dữ liệu giả lập ở các bậc phân loại - Trường hợp Loài đã biết.

Phương pháp Mức Mức Mức Mức Mức loài chi họ bộ lớp

N/A= Not Available (không tồn tại) Giá trị được tô đậm thể hiện kết quả trả về tốt nhất bởi một trong số các giải pháp theo khía cạnh độ chính xác (A) và độ nhạy (A).

Hình 6.5 thể hiện giá trị F-measure của ba giải pháp Ở mức độ loài, SeMeta đạt 5.5%,24.77%, và 25.77% F-measure (A) cao hơn so với MEGAN tương ứng cho tập dữ liệu ds1,ds2 và ds3 Ở các mức độ phân loại còn lại, MEGAN đạt F-measures (A) cao hơn so với SeMeta cho tập dữ liệu ds1 Ngược lại, SeMeta trả về F-measure (A) tốt hơn so vớiMEGAN cho tập dữ liệu ds2, vàds3 F-measures (A) của SOrt-ITEMS trên các bộ dữ liệu này thấp hơn đáng kể so với hai giải pháp còn lại.

Mc phân loi F-measure (A) F-measure (A) F-measure (A)

Hình 6.5: F-measure của MEGAN, SOrt-ITEMS, và SeMeta trên các tập dữ liệu giả lập cho trường hợp Loài đã biết Lược đồ trên cùng là cho tập dữ liệuds1, lược đồ ở giữa là cho tập dữ liệuds2, lược đồ dưới cùng là cho tập dữ liệuds3.

Bảng 6.2: Hiệu năng của MEGAN, SOrt-ITEMS và SeMeta trên các tập dữ liệu giải lập ở các bậc phân loại - Trường hợp Loài chưa biết.

Phương pháp Mức Mức Mức Mức chi họ bộ lớp

Giá trị được tô đậm thể hiện kết quả trả về tốt nhất bởi một trong số các giải pháp theo khía cạnh độ chính xác (A) và độ nhạy (A).

Bảng 6.2 thể hiện kết quả thực nghiệm của ba giải pháp cho trường hợp Loài chưa biết.

Bởi vì tất cả trình tự thuộc loài có trong mỗi tập dữ liệu được loại bỏ khỏi cơ sở dữ liệu tham khảo (cơ sở dữ liệu RefSeq), nên thực nghiệm này chỉ đánh giá giải pháp ở mực độ chi (genus) trở lên SeMeta đạt độ chính xác (A) và độ nhạy (A) tốt hơn so với MEGAN và SOrt-ITEMS ở mức độ chi (genus) cho cả ba tập dữ liệu SeMeta đạt từ 5.24% đến 46.91% độ nhạy (A), và từ 2.82% đến 47.57% độ chính xác (A) cao hơn hai giải pháp còn lại. Đối với các bậc phân loại cao hơn, khác với trường hợp cơ sở dữ liệu tham khảo chứa trình tự của sinh vật trong tập dữ liệu, SeMeta đạt kết quả tốt hơn hai giải pháp còn lại cho tất cả trường hợp Giải pháp đề xuất đạt độ chính xác (A) và độ nhạy (A) cao hơn MEGAN và SOrt-ITEMS cho hầu hết trường hợp (7 trên 9 trường hợp) Điều này dẫn đến là giá trị F-measure (A) của SeMeta cao hơn nhiều so với hai giải pháp còn lại cho tất cả trường hợp (được thể hiện ở hình 6.6).

Xét khả năng gán nhãn trình tự đúng và chính xác tại bậc phân loại thực tế của sinh vật trong tập dữ liệu, SeMeta và SOrt-ITEMS đạt độ nhạy (B) và độ chính xác (B) cao hơn so với MEGAN cho cả ba tập dữ liệu (hình 6.7) Ngoài ra, trong khi SOrt-ITEMS đạt kết quả cao hơn so với SeMeta cho tập dữ liệuds2, giải pháp đề xuất có kết quả tốt hơn SOrt-ITEMS cho tập dữ liệuds1vàds3.

F-measur eHoA) F-measur eHoA) F-measur eHoA)

Hình 6.6: F-measure của MEGAN, SOrt-ITEMS, và SeMeta trên các tập dữ liệu giả lập cho trường hợp Loài chưa biết Lược đồ trên cùng là cho tập dữ liệu ds1, lược đồ ở giữa là cho tập dữ liệuds2, lược đồ dưới cùng là cho tập dữ liệuds3.

Quan tâm đến khía cạnh chi phí tính toán, luận án này tính thời gian chạy các bước của SeMeta trên tập dữ liệu ds2 và so sánh với các giai đoạn tương ứng của MEGAN và

SOrt-ITEMS SeMeta nh y (B ) chính xác (B )

Hình 6.7: Độ nhạy và độ chính xác của MEGAN, SOrt-ITEMS, và SeMeta ở khía cạnh gán nhãn đúng và chính xác tại bậc phân loại thấp nhất được thể hiện trên các tập dữ liệu giả lập.

SOrt-ITEMS Thực nghiệm này được thực hiện trên máy tính ảo có cấu hình phần cứng là CPU 4 cores 2.4 GHz, 132GB RAM Có thể thấy từ bảng 6.3 rằng SeMeta cần thời gian chạy khoảng 5.6 lần ít hơn so với MEGAN và SOrt-ITMES (187 giờ so với 1052.57 giờ, và 1061 giờ) Mặc dù SeMeta cần thời gian cho bước gom cụm, trong khi hai giải pháp còn lại không phải thực hiện bước này, nhưng giải pháp đề xuất đòi hỏi thời gian chạy ít hơn nhiều so với MEGAN và SOrt-ITEMS ở bước so sánh tương đồng và bước gán nhãn.

Bảng 6.3: Thời gian chạy của MEGAN, SOrt-ITEMS, và SeMeta trên tập dữ liệuds2.

Giải pháp Gom cụm So sánh tương Gán nhãn Tổng thời gian

(giờ) đồng (giờ) (giờ) chạy (giờ)

N/A= Not Available (Không tồn tại).

Bước so sánh tương đồng trình tự với cơ sở dữ liệu tham khảo (RefSeq) sử dụng BLAST tốn nhiều thời gian xử lý, và phần lớn chi phí tính toán của ba giải pháp là dùng cho công việc này Chẳng hạn, cần khoảng 1052 giờ CPU để thực thi so sánh tương đồng cho 428674 truy vấn (query) của tập dữ liệuds2, và công việc này chiếm 99.9% tổng thời gian tính toán

Thảo luận

Từ thực nghiệm trên, giải pháp đề xuất cho kết quả tốt hơn MEGAN và SOrt-ITEMS một cách rõ rệt ở các bậc phân loại thấp (mức loài cho ngữ cảnh Loài đã biết, và mức chi cho ngữ cảnh Loài chưa biết) Điều này rất có ý nghĩa bởi vì ở bậc phân loại càng thấp, việc xử lý chính xác càng khó hơn Có được điều này là vì sau khi trình tự được phân loại vào

106 các cụm, kỹ thuật lọc sử dụng tham số max-occur o max ở mức độ cụm giúp loại bỏ thành công các đơn vị phân loại tham khảo (các hit) không rõ ràng Vì vậy, điều đó giúp nhiều cụm được gán nhãn ở mức phân loại thấp một cách đúng đắn Kỹ thuật này cũng hiệu quả cho trường hợp cơ sở dữ liệu không chứa trình tự của các loài trong tập dữ liệu Bởi vì tất cả trình tự của các loài trong tập dữ liệu đã bị loại bỏ khỏi cơ sở dữ liệu tham khảo, trình tự trong tập dữ liệu thực nghiệm có xu hướng gióng hàng với trình tự tham khảo với bit-score thấp, và dẫn đến tạo ra nhiều hit không rõ ràng Kỹ thuật lọc này giúp SeMeta lựa chọn đơn vị phân loại tin cậy một cách thành công, và giúp phân loại trình tự tốt hơn các giải pháp khác. Ở bước gom cụm trình tự của giải pháp đề xuất, trường hợp mong đợi là số cụm được ước lượng lớn hơn hoặc bằng số loài trong tập dữ liệu Khi trình tự thuộc cùng loài bị chia vào các cụm khác nhau, chúng nhiều khả năng sẽ được gán nhãn cùng một đơn vị phân loại ở bước thứ hai của giải pháp Trong trường hợp trình tự được chia vào số cụm nhỏ hơn số cụm mong đợi, một số cụm mà chứa trình tự thuộc loài khác nhau có thể được gán nhãn đơn vị phân loại ở mức cao (chẳng hạn, mức chi, họ, hay cao hơn).

Khả năng dự đoán đúng đơn vị phân loại cho trình tự thuôc loài chưa biết chính xác tại bậc phân loại thực tế, vốn giúp khám phá sinh vật mới một cách trực tiếp, vẫn là một thách thức hiện nay Ở khía cạnh này, độ nhạy và độ chính xác của các giải pháp được thử nghiệm trong nghiên cứu này đều thấp hơn 38% Một điểm đáng lưu ý là, kết quả thực nghiệm này phản ánh tương tự như trong những thực nghiệm trước đây được trình bày trong [53, 61], với số trình tự được gán nhãn đúng là không cao cho các bậc phân loại thấp Vì vậy, đây cũng là một thách thức cần được nghiên cứu trong tương lai nhằm cải tiến chất lượng phân loại của giải pháp đề xuất.

Kết luận

Chương này trình bày giải pháp phân lớp bán giám sát SeMeta (công bố ở CT1, mụcDanh mục các công trình đã công bố) nhằm giải quyết vấn đề phân loại trình tự metagenomics, đặc biệt hiệu quả cho trình tự ngắn với mức độ gối đầu trình tự phù hợp Với sự hỗ trợ của quá trình học không giám sát cho việc gán nhãn và kỹ thuật lọc hiệu quả ở mức cụm,giải pháp đề xuất có khả năng đạt độ chính xác cao hơn hai phương pháp dựa trên tính tương đồng phổ biến hiện nay, đặc biệt khi xét ở bậc phân loại thấp Ngoài ra, việc so sánh tương đồng trình tự trong đại diện của cụm, thay vì cả cụm giúp giảm rõ rệt chi phí tính toán Với sự đòi hỏi xử lý một lượng khổng lồ trình tự từ cộng đồng vi sinh vật, giải pháp đề xuất hứa hẹn là một công cụ hiệu quả cho phân tích trình tự metagenomics.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂNKẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Lĩnh vực nghiên cứu metagenomics mở ra cơ hội lớn giúp con người hiểu hơn về cộng đồng vi sinh vật, và có thể mang đến nhiều lợi ích thiết thực cho cuộc sống Mặc dù vậy, vấn đề phân tích dữ liệu metagenomics có nhiều thách thức lớn bởi sự phức tạp và đa dạng sinh học của môi trường vi sinh vật Ba yếu tố chính làm cho việc phân tích trình tự trở nên khó khăn, bao gồm: phần lớn vi sinh vật chưa được khám phá; sự hạn chế của công nghệ giải mã trình tự, dẫn đến trình tự được tạo ra có kích thước ngắn; và dữ liệu cần phân tích lớn Điều này đòi hỏi những công cụ phân tích dữ liệu hiệu quả góp phần thành công cho các dự án metagenomics.

Luận án này đã đề xuất các giải pháp phân loại trình tự metagenomics trên cơ sở sử dụng các kỹ thuật phân lớp và gom cụm, kết hợp với việc khám phá tính chất của dữ liệu để hướng đến giải quyết những thách thức hiện nay của bài toán Trong đó, cả hai khía cạnh chất lượng phân loại và chi phí tính toán đều được quan tâm Cụ thể, giải pháp phân loại không giám sát dựa trên sự phong phú của hệ gien - MetaAB - sử dụng mô hình thu giảm vốn đòi hỏi ít chi phí tính toán mà không ảnh hưởng đến chất lượng phân loại Ngoài ra, việc sử dụng kỹ thuật lặp nhằm phát hiện số cụm trong tập dữ liệu dựa trên kỹ thuật lựa chọn mô hình thống kê và một phương pháp đếml-mer có độ dài thay đổi giúp làm tăng chất lượng phân loại của giải pháp đề xuất Giải pháp BiMeta cũng là giải pháp phân loại không giám sát nhưng sử dụng đặc trưng tần số xuất hiệnl-mer, và thông tin gối đầu giữa các trình tự Việc áp dụng ý tưởng sử dụng tập đại diện của tập trình tự giúp BiMeta có khả năng gom cụm với độ chính xác cao mà không đòi hỏi chi phí và tài nguyên tính toán lớn SeMeta là giải pháp phân loại cho phép gán nhãn trình tự dựa trên kỹ thuật bán giám sát Kỹ thuật này cho phép sử dụng kết hợp tính hợp thành và tính tương đồng của trình tự nhằm làm tăng chất lượng phân loại. Ý tưởng thực hiện so sánh tương đồng cho đại diện của cụm thay vì tất cả trình tự trong cụm trong bước gãn nhãn giúp giảm đáng kể chi phí tính toán so với các giải pháp dựa trên tính tương đồng khác nhưng vẫn giữ được chất lượng phân loại tốt.

Kết quả thực nghiệm cho thấy sự hiệu quả của các giải pháp đề xuất ở cả hai khía cạnh chất lượng phân loại và chi phí tính toán so với giải pháp cùng loại trên dữ liệu giả lập và dữ liệu thực Trong đó, xử lý cho trình tự ngắn là thế mạnh của các giải pháp đề xuất trong luận án này Các giải pháp đề xuất còn cho phép thực thi trên cả hai kiểu dữ liệu trình tự dạng single-end và paired-end, và hứa hẹn là những công cụ hữu ích phục vụ cho các dự án metagenomics nhằm khám phá cộng đồng vi sinh vật Mã nguồn của các giải pháp và dữ liệu thực nghiệm trong luận án có thể được tải về từ trang web http:

//it.hcmute.edu.vn/bioinfo/metapro/index.html.

Trong tương lai, một số khía cạnh có thể được khai thác và cải tiến nhằm nâng cao hiệu quả phân loại của các giải pháp đề xuất Kết quả thực nghiệm cho thấy rằng khi số lượng của loài trong tập dữ liệu hay kích thước tập dữ liệu càng lớn, chất lượng phân loại của các giải pháp đề xuất giảm đi, đồng thời chi phí tính toán tăng lên một cách đáng kể Vì vậy, việc nghiên cứu và vận dụng đặc trưng phân loại phù hợp cần tiếp tục được nghiên cứu cho trường hợp dữ liệu lớn Bên cạnh đó, một số độ đo khoảng cách khác có thể được nghiên cứu thay thế cho độ đo Euclide được sử dụng trong hai giải pháp BiMeta và SeMeta nhằm làm tăng chất lượng phân loại Ngoài ra, công nghệ tính toán hiệu năng cao có thể được áp dụng giúp giảm thời gian tính toán cũng như nâng cao chất lượng nghiệm của bài toán. Đối với vấn đề gán nhãn trình tự, khả năng gán nhãn trình tự vào một vị trí thực tế trên cây sinh loài của giải pháp SeMeta mặc dù tốt hơn so với các giải pháp được thực nghiệm trong luận án này, nhưng vẫn còn thấp bởi sự nghiêm ngặt của độ đo này Một trong những hướng tiềm năng là quan tâm đến mức độ tương đồng khác nhau (được thể hiện bởi BLAST bit-scores) của các BLAST hit tin cậy Đồng thời, thông tin này có thể kết hợp với việc khảo sát và ước lượng ngưỡng giá trị thể hiện mức độ tương đồng của các trình tự theo từng bậc phân loại để đạt được khả năng dự đoán tốt hơn.

Ngoài ra, luận án này chưa phân tích mức độ ảnh hưởng của lỗi giải mã trình tự đối với hiệu năng của các giải pháp phân loại Mặc dù vậy, thực nghiệm ở chương 3 cho thấy có sự khác biệt về kết quả phân loại giữa trường hợp trình tự có lỗi giải mã và không có lỗi giải mã Vì vậy, vấn đề này cần được nghiên cứu trong tương lai Qua đó, phương pháp sửa lỗi trình tự cũng có thể được áp dụng nhằm làm tăng chất lượng phân loại của các giải pháp.

Tiêu đề	Phân loại trình tự Metagenomics trên cơ sở phân lớp và gom cụm
Tác giả	Lê Văn Vinh
Người hướng dẫn	PGS. TS. Trần Văn Lăng, PGS. TS. Trần Văn Hoài
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận án Tiến sĩ Kỹ thuật
Năm xuất bản	2017
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	161
Dung lượng	2,14 MB