Cụ thể, ba hướng giải quyết chính được đặt ra trong luận án, bao gồm: Thứ nhất, thực hiện phân loại trình tự metagenomics dựa trên sự phong phú của hệ gientrong trường hợp không tồn tại
Trang 1MỤC LỤC
DANH MỤC CÁC HÌNH ẢNH xiii
DANH MỤC BẢNG BIỂU xviii
DANH MỤC CÁC TỪ VIẾT TẮT, THUẬT NGỮ VÀ KÝ HIỆU xix
CHƯƠNG 1 GIỚI THIỆU 1
1.1 Metagenomics và bài toán phân loại trình tự 1
1.2 Vấn đề tồn tại cần giải quyết 4
1.2.1 Độ chính xác 4
1.2.2 Chi phí tính toán 4
1.3 Mục tiêu của luận án 5
1.4 Phương pháp và nội dung nghiên cứu 6
1.5 Đóng góp của luận án 6
1.5.1 Về mặt khoa học 6
1.5.2 Về mặt thực tiễn 6
1.6 Nội dung luận án 7
CHƯƠNG 2 NỀN TẢNG KIẾN THỨC VÀ TÌNH HÌNH NGHIÊN CỨU 8
2.1 Nền tảng kiến thức 8
2.1.1 DNA và hệ gien 8
2.1.2 Công nghệ giải mã trình tự DNA 9
2.1.3 Đặc trưng sử dụng cho phân loại trình tự 10
2.1.4 Phân lớp và gom cụm dữ liệu 14
2.1.5 Độ đo hiệu năng giải pháp phân loại 16
Trang 22.2 Tình hình nghiên cứu 17
2.2.1 Phương pháp có giám sát 18
2.2.2 Phương pháp không có giám sát 20
2.2.3 Phương pháp bán giám sát 23
CHƯƠNG 3 GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT DỰA TRÊN SỰ PHONG PHÚ CỦA HỆ GIEN 25
3.1 Giới thiệu 25
3.2 Phương pháp 26
3.2.1 Mô hình hỗn hợp của tần số xuất hiện các l-mer 26
3.2.2 Mô hình thu giảm 27
3.2.3 Ước lượng tham số trong mô hình đề xuất 29
3.2.4 Ước lượng số cụm sử dụng BIC 32
3.2.5 Thuật toán MetaAB 33
3.2.6 Phương pháp đếm l-mer với độ dài thay đổi 36
3.2.7 Độ phức tạp của giải thuật 38
3.3 Kết quả thực nghiệm 38
3.3.1 Dữ liệu thực nghiệm 39
3.3.2 Kết quả trên tập dữ liệu không có lỗi giải mã 39
3.3.3 Kết quả trên tập dữ liệu có lỗi giải mã trình tự 43
3.3.4 Sự ảnh hưởng của các tham số 44
3.4 Kết luận 46
CHƯƠNG 4 CHỌN ĐẠI DIỆN CỦA MỘT TẬP TRÌNH TỰ DỰA TRÊN TÍNH CHẤT GỐI ĐẦU 47
4.1 Giới thiệu 47
4.2 Định nghĩa bài toán 48
4.2.1 Một số ký hiệu và khái niệm 48
4.2.2 Tính chất của tập đại diện 49
4.2.3 Định nghĩa bài toán tìm tập đại diện 49
4.3 Sự bảo toàn đặc trưng của nhóm trình tự 50
4.3.1 Tính tương đồng 51
4.3.2 Tính hợp thành dựa trên tần số xuất hiện l-mer 52
Trang 34.4 Kết luận 54
CHƯƠNG 5 GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT SỬ DỤNG DẤU HIỆU HỆ GIEN 56
5.1 Giới thiệu 56
5.2 Phương pháp 57
5.2.1 Nền tảng của phương pháp đề xuất 57
5.2.2 Thuật toán BiMeta 58
5.2.3 Độ phức tạp của giải thuật 62
5.3 Kết quả thực nghiệm 62
5.3.1 Dữ liệu thực nghiệm 63
5.3.2 Kết quả thực nghiệm trên dữ liệu giả lập 65
5.3.3 Kết quả thực nghiệm trên dữ liệu thực tế 69
5.3.4 Sự ảnh hưởng của các tham số 70
5.3.5 Sự ảnh hưởng của phương pháp tìm seed 71
5.4 Kết luận 73
CHƯƠNG 6 GIẢI PHÁP PHÂN LOẠI BÁN GIÁM SÁT SỬ DỤNG ĐẶC TRƯNG KẾT HỢP 74
6.1 Giới thiệu 74
6.2 Phương pháp 75
6.2.1 Nền tảng của phương pháp đề xuất 75
6.2.2 Thuật toán SeMeta 77
6.2.3 Độ phức tạp của giải thuật 83
6.2.4 Cơ sở dữ liệu tham khảo 84
6.2.5 Phương pháp đánh giá chất lượng phân loại 84
6.3 Kết quả thực nghiệm 85
6.3.1 Dữ liệu thực nghiệm 86
6.3.2 Kết quả thực nghiệm trên dữ liệu giả lập 86
6.3.3 Kết quả thực nghiệm trên dữ liệu thực tế 94
6.3.4 Sự ảnh hưởng của các tham số 97
6.3.5 Sự ảnh hưởng của việc sử dụng đại diện của cụm 104
Trang 46.4 Thảo luận 105
6.5 Kết luận 106
CHƯƠNG 7 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 108
7.1 Kết luận 108
7.2 Hướng phát triển 109
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 111
TÀI LIỆU THAM KHẢO 121
PHỤ LỤC 122
Trang 5DANH MỤC CÁC HÌNH ẢNH
1.1 Quy trình xử lý của một dự án trong lĩnh vực metagenomics 2
1.2 Minh họa mục tiêu của bài toán phân loại trình tự metageonmic 3
2.1 Ví dụ về phân tử DNA (Nguồn: The U.S National Library of Medicine) 9
2.2 Kỹ thuật giải mã trình tự đoạn ngắn Đoạn gạch dưới thể hiện thông tin gối đầu giữa các trình tự 10
2.3 Tỉ lệ trung bình các l được chia sẻ bởi các hệ gien 13
2.4 Ví dụ về sự phong phú của hệ gien 14
2.5 Các hướng tiếp cận chính của bài toán phân loại trình tự metagenomics 21
3.1 Phân bố l-mer và việc sử dụng các ngưỡng countmin, numminđể loại bỏ l-mer không tin cậy 35
3.2 Ví dụ về sự lặp lại các l-mer có độ dài khác nhau trong tập dữ liệu metagenomics.37 3.3 Sử dụng l-mer có độ dài thay đổi để đếm số lần xuất hiện của chúng trong tập dữ liệu metagenomics 39
3.4 F-measure của AbundanceBin, MetaAB, và MetaAB-adv cho tập dữ liệu thử nghiệm Biểu đồ bên trái thể hiện cho tập trình tự từ S1 đến S7 Biểu đồ bên phải thể hiện cho tập trình tự từ T1 đến T7 43
3.5 F-measure trung bình của MetaAB trên tập dữ liệu từ S1 đến S5, với giá trị nummin khác nhau 44
3.6 F-measure trung bình của MetaAB trên tập dữ liệu từ T1 đến T5, với giá trị countminkhác nhau 45
3.7 F-measure trung bình của MetaAB và MetaAB-adv trên tâp dữ liệu từ S1 đến S5 theo giá trị độ dài l-mer khác nhau 46
Trang 64.1 Một nhóm bao gồm 17 trình tự thuộc cùng một hệ gien Một đại diện của
nhóm gồm 6 trình tự không gối đầu 50
được lấy mẫu từ 2 hệ gien của hai loài: Bacillus thuringiensis (BT-group1,
BT-group2) and Alicycliphilus denitrificans (AD-group1, AD-group2) 55
liệu từ S1 đến S10 66
các tập dữ liệu từ L1 đến L6 67
hiện kết quả trên tập trình tự từ S1 đến S5 Đồ thị bên phải thể hiện kết quả
trên tập trình tự R1 đến R5 71
liệu tham khảo 76
lập cho trường hợp Loài đã biết Lược đồ trên cùng là cho tập dữ liệu ds1,
lược đồ ở giữa là cho tập dữ liệu ds2, lược đồ dưới cùng là cho tập dữ liệu ds3 89
Trang 76.6 F-measure của MEGAN, SOrt-ITEMS, và SeMeta trên các tập dữ liệu giả
lập cho trường hợp Loài chưa biết Lược đồ trên cùng là cho tập dữ liệu ds1,
lược đồ ở giữa là cho tập dữ liệu ds2, lược đồ dưới cùng là cho tập dữ liệu ds3 92
cạnh gán nhãn đúng và chính xác tại bậc phân loại thấp nhất được thể hiện
trên các tập dữ liệu giả lập 93
tập dữ liệu giả lập 94
nhau cho trường hợp Loài chưa biết, trên tập dữ liệu ds2 99
khác nhau cho trường hợp Loài đã biết, trên tập dữ liệu ds2 99
khác nhau cho trường hợp Loài chưa biết, trên tập dữ liệu ds2 100
khác nhau cho trường hợp Loài đã biết, trên tập dữ liệu ds2 100
khác nhau cho trường hợp Loài chưa biết, trên tập dữ liệu ds2 1006.16 Độ nhạy (B) và độ chính xác (B) của SeMeta với giá trị khác nhau của
6.17 Độ nhạy (B) và độ chính xác (B) của SeMeta với giá trị khác nhau của
6.18 Độ nhạy (B) và độ chính xác (B) của SeMeta với giá trị khác nhau của
6.19 Sự ảnh hưởng của độ dài l-mer lên hiệu năng của SeMeta, trường hợp Loài
đã biết 1036.20 Sự ảnh hưởng của độ dài l-mer lên hiệu năng của SeMeta, trường hợp Loài
chưa biết 1036.21 Sự ảnh hưởng của số cụm được dự đoán lên chất lượng của SeMeta 104
Trang 86.22 Độ nhạy (A) và độ chính xác (A) của SeMeta và phiên bản không sử dụng
đại diện của cụm trên tập dữ liệu ds2, cho trường hợp Loài đã biết 1056.23 Hiệu năng của SeMeta và phiên bản không sử dụng đại diện của cụm trên
tập dữ liệu ds2, cho trường hợp Loài chưa biết 105
trong nhóm 132
Trang 9DANH MỤC BẢNG BIỂU
tập dữ liệu từ S1 đến S7 41
tập dữ liệu từ T1 đến T7 42
lập ở các bậc phân loại - Trường hợp Loài đã biết 87
lập ở các bậc phân loại - Trường hợp Loài chưa biết 90
được phát hiện bởi SeMeta 96
HGM được phát hiện bởi SeMeta 97
Trang 101 Tập dữ liệu thực nghiệm cho MetaAB 122
2 Khoảng cách Euclide trong cặp hệ gien - mức chi (genus) 123
3 Khoảng cách Euclide trong cặp hệ gien - mức họ (family) 127
4 Khoảng cách Euclide trong cặp hệ gien - mức loài (species) 130
5 Tập dữ liệu thực nghiệm cho BiMeta - Tập trình tự dài 133
6 Tập dữ liệu thực nghiệm cho BiMeta - tập trình tự ngắn 133
7 Tập dữ liệu ds1 137
8 Tập dữ liệu ds2 138
9 Tập dữ liệu ds3 139
Trang 11DANH MỤC CÁC TỪ VIẾT TẮT, THUẬT NGỮ VÀ KÝ
HIỆU
DANH MỤC CÁC TỪ VIẾT TẮT:
DNA: Deoxyribonucleic acid
LCA: Lowest common ancestor
EM: Expectation Maximization
bp: base pair (Đơn vị độ dài của trình tự DNA)
MLE: Maximum Likelihood Estimates
BIC: Bayesian Information Criterion
iid: Independent and identically distributed
DANH MỤC THUẬT NGỮ:
l-mer: Đoạn trình tự ngắn có độ dài là l
Hệ gien: Là tổng thể tất cả các phân tử DNA trong tế bào
single-end/paired-end: Hai loại trình tự khác nhau Trình tự dạng single-end chỉ chứa một
đoạn các nucleotide ở một vùng trên hệ gien Trình tự dạng paired-end chứa hai đoạn cácnucleotide ở hai vùng khác nhau trên hệ gien
contig: Đoạn trình tự dài hay một nhóm các trình tự ngắn ở vị trí liên tiếp nhau trên hệ gien Đơn vị phân loại (taxon): Là một nhóm sinh vật có mối quan hệ sinh loài với nhau Đơn vị
phân loại: Cá (ở bậc phân loại loài (specie)), động vật lưỡng cư (ở bậc phân loại lớp (class))
Bậc phân loại (taxonomic level/rank): Mức độ quan hệ của các nhóm sinh vật (taxon)
trong hệ thống cấp bậc phân loại Ví dụ các bậc phân loại như: loài, chi, họ, bộ, lớp, ngành,giới, vực, sự sống
BẢNG KÝ HIỆU:
Trang 12CHƯƠNG 1
GIỚI THIỆU
Đóng vai trò là những sinh vật chiếm đa số trong sự đa dạng sinh học của sự sống, vi sinhvật (như vi khuẩn (bacteria), vi rút (virus), hay vi khuẩn cổ (archaea)) ảnh hưởng trực tiếpđến cuộc sống của con người [1] Vì vậy, sự hiểu biết về cộng đồng vi sinh vật mang đếnlợi ích trong nhiều lĩnh vực như: y học, nông nghiệp, công nghệ sinh học, nghiên cứu nănglượng thay thế, môi trường [2]
Một số nghiên cứu đầu tiên về vi sinh vật là vào khoảng những năm 1970, khi hệ gien củamột số vi sinh vật được giải mã [3] Trong phương pháp nghiên cứu vi sinh vật truyền thống,mẫu thực nghiệm sau khi được thu thập từ môi trường thực tế sẽ được nuôi cấy (culture) vàphân tách (isolate) theo từng loài vi sinh vật trước được đưa vào giai đoạn giải mã trình tựDNA Trình tự của từng loài vi sinh vật sau đó được đưa vào quá trình phân tích dữ liệu Tuynhiên, một trở ngại lớn đối với phương pháp này là hầu hết vi sinh vật (hơn 99%) không thểnuôi cấy và phân tách được trong phòng thí nghiệm [4]
Bởi vì những hạn chế của phương pháp truyền thống, một hướng tiếp cận khác trongnghiên cứu vi sinh vật ra đời và dần trở thành phương pháp được sử dụng phổ biến, được gọi
là metagenomics Theo hướng này, mẫu thực nghiệm sau khi được thu thập từ môi trường,
không cần trải qua giai đoạn nuôi cấy và phân tách trong phòng thí nghiệm, mà được đưatrực tiếp vào quá trình giải mã Những vấn đề trong lĩnh vực metagenomics bắt đầu được tậptrung nghiên cứu từ khoảng năm 2007 với sự ra đời của dự án nghiên cứu vi sinh vật trong
Trang 13cơ thể con người [5] Hàng trăm dự án nghiên cứu vi sinh vật khác tiếp sau đó ra đời nhằmnghiên cứu các môi trường khác nhau như: nước thải axit từ khu mỏ (acid mine drainage[6]), nước biển (seawater [7]), và đường ruột cơ thể người (human gut [8]) Đồng thời, nhiềubài toán được đặt ra cho những người nghiên cứu trong lĩnh vực tin sinh học nhằm hỗ trợcho quá trình phân tích dữ liệu trình tự metagenomics.
Hình 1.1: Quy trình xử lý của một dự án trong lĩnh vực metagenomics
Trong một dự án metagenomics, mẫu thực nghiệm được đưa trực tiếp vào giai đoạn giải
mã trình tự sau khi được thu thập từ môi trường thực tế (hình 1.1) Do đó, dữ liệu nomics thường không chứa trình tự của từng sinh vật riêng biệt, mà bao gồm trình tự củanhiều loài khác nhau (có khi hơn 10.000 loài trong một mẫu [2]) Vì vậy, một trong nhữngvấn đề quan trọng cần giải quyết là phân loại trình tự metagenomics (taxonomic binning).Bài toán này được phát biểu như sau (theo Thomas và cộng sự [9]):
metage-"Phân loại trình tự metagenomics là quá trình sắp xếp trình tự DNA vào các nhóm bao gồm
các trình tự thuộc cùng hệ gien của một cá thể hoặc hệ gien của các vi sinh vật có quan hệ gần nhau"
Trang 14Có thể định nghĩa bài toán phân loại trình tự metagenomics một cách tổng quát như sau.Cho một tập gồm n trình tự metagenomics R = {r1, r2, , rn} Giả sử, tập trình tự này thuộc
về k, (k ≤ n), nhóm sinh vật Mục tiêu của bài toán phân loại trình tự là nhằm chia tập Rthành k tập con C1,C2, ,Ck sao cho:
đã biết)
Hình 1.2: Minh họa mục tiêu của bài toán phân loại trình tự metageonmic
Bài toán này có ý nghĩa quan trọng đối với nhà nghiên cứu về sinh học nhằm xác địnhnhững nhóm vi sinh vật nào tồn tại trong mẫu thực nghiệm, tỉ lệ xuất hiện của chúng trongmôi trường ra sao, và giúp họ có thể thực hiện nghiên cứu trên trình tự của từng nhóm riêngbiệt Ngoài ra, trong quy trình thông thường của một dự án metagenomics (hình 1.1), kết quảtrả về của bài toán phân loại có thể được sử dụng cho bài toán chú giải hệ gien (annotation)nhằm xác định vị trí mang mã di truyền trên trình tự Bên cạnh đó, bài toán phân loại có
Trang 15thể được sử dụng với vai trò là bước tiền xử lý cho bài toán ráp nối trình tự nhằm tăng độchính xác và giảm chi phí tính toán cho quá trình tái xây dựng hệ gien [1] Về mặt lý thuyết,nếu trình tự DNA được ráp nối thành chuỗi dài hơn (thành các scaffold hay hệ gien) thì giảipháp phân loại áp dụng cho trình tự dài có thể đạt chất lượng cao hơn Tuy nhiên, bài toánráp nối trình tự metagenomics (metagenome assembly) là một vấn đề khó và có nhiều tháchthức lớn vẫn chưa được giải quyết một cách hiệu quả [9], và nó không nằm trong nội dungnghiên cứu của luận án này.
1.2 Vấn đề tồn tại cần giải quyết
1.2.1 Độ chính xác
Độ chính xác là một trong những khía cạnh quan trọng nhất cần được quan tâm của bàitoán Một số các yếu tố chính ảnh hưởng đến độ chính xác của các giải pháp hiện tại, cầnđược quan tâm giải quyết như:
+ Độ dài trình tự: Độ dài trình tự càng ngắn đồng nghĩa với việc thông tin chứa đựng
trong trình tự càng ít, dẫn đến độ chính xác khi phân loại giảm đi [10] Mặc dù vậy,hầu hết các công nghệ giải mã trình tự hiện nay chỉ cho phép giải mã trình tự có độdài ngắn hoặc rất ngắn (nhỏ hơn 700 bp) Từ kết quả thử nghiệm được công bố củanhững nghiên cứu trước đây, có thể thấy rõ sự ảnh hưởng này Chẳng hạn, RAIphy vàPhymm đạt độ chính xác khoảng 32% – 36% cho trình tự dài 100 bp, trong khi đốivới trình tự dài 1000 bp là 65% – 80% [11]
+ Thiếu cơ sở dữ liệu tham khảo: Nhiều giải pháp phân loại hiện nay thực hiện tham
khảo trên cơ sở dữ liệu chứa hệ gien hay trình tự của sinh vật đã biết Tuy nhiên, phầnlớn vi sinh vật trên trái đất vẫn chưa được phát hiện [12] dẫn đến sự thiếu hiệu quảcủa nhóm giải pháp này
1.2.2 Chi phí tính toán
Chi phí tính toán là khía cạnh quan trọng khác cần được quan tâm bởi vì một dự ánmetagenomics thông thường cần phải phân tích một khối lượng dữ liệu rất lớn (có khi hàngtrăm gigabase trình tự [8]), vốn đòi hỏi nhiều thời gian xử lý
Trang 16Phần lớn giải pháp phân loại trình tự có giám sát hiện nay thực hiện so sánh tương đồnggiữa trình tự cần phân tích với trình tự hay hệ gien đã biết Mặc dù hướng tiếp cận này có
ưu điểm là có thể đạt độ chính xác cao hơn so với các nhóm giải pháp khác, nhưng đòi hỏinhiều thời gian xử lý, đặc biệt khi cơ sở dữ liệu tham khảo lớn Ví dụ, MEGAN, sử dụngngân hàng dữ liệu NCBI-NR, cần 34 ngày để thực thi cho bộ dữ liệu khoảng 70.000 trình tự[13]
Nhóm giải pháp không có giám sát thì gặp trở ngại vì số lượng nghiệm bùng nổ ngay
cả khi dữ liệu không quá lớn Bài toán này là một dạng của bài toán phân hoạch, đã đượcchứng minh không thể xét toàn bộ không gian nghiệm trong thời gian chấp nhận được bởi
hệ thống máy tính hiện nay (theo Brian và cộng sự [14], tham khảo từ sách của Liu [15])
Vì lý do này, hầu hết các giải pháp phân loại không giám sát hiện nay (được tìm thấy bởi đềtài nghiên cứu này) đều sử dụng phương pháp heuristic hay tìm kiếm cục bộ (local search)
để tìm nghiệm của bài toán trong thời gian chấp nhận được Việc mở rộng không gian tìmkiếm có thể giúp cải thiện chất lượng nghiệm nhưng thường làm chi phí tính toán tăng cao
Mục tiêu của luận án là nhằm đề xuất giải pháp phân loại cho dữ liệu metagenomics, cókhả năng xử lý tốt cho trình tự ngắn, và giải quyết hiệu quả cho trường hợp cơ sở dữ liệutham khảo không đầy đủ
Cụ thể, ba hướng giải quyết chính được đặt ra trong luận án, bao gồm:
Thứ nhất, thực hiện phân loại trình tự metagenomics dựa trên sự phong phú của hệ gientrong trường hợp không tồn tại cơ sở dữ liệu tham khảo Giải pháp phân loại cho phép phânchia trình tự vào các nhóm sao cho mỗi nhóm chứa trình tự thuộc hệ gien có độ phong phútương tự nhau
Thứ hai, thực hiện phân loại trình tự metagenomics trường hợp không tồn tại cơ sở dữliệu tham khảo sao cho trình tự trong mỗi nhóm thuộc cùng loài hoặc có quan hệ sinh loàigần nhau
Thứ ba, phân loại trình tự metagenomics trong trường hợp tồn tại cơ sở dữ liệu thamkhảo Giải pháp phân loại này vừa giúp phân chia trình tự vào các nhóm, vừa xác định trình
tự thuộc về nhóm vi sinh vật nào đã biết
Trang 171.4 Phương pháp và nội dung nghiên cứu
Luận án này tập trung vào việc nghiên cứu sử dụng tính chất của dữ liệu (thông tin gốiđầu trình tự, đặc trưng tần số xuất hiện l-mer, tính tương đồng của trình tự) nhằm đề xuấtphương pháp phân loại mới Đồng thời, luận án vận dụng các kỹ thuật nền tảng về phân lớp
và gom cụm đã có (thuật toán Expectation Maximization, thuật toán k-means, thuật toánLowest Common Ancestor) để phát triển các giải pháp phân loại
• Đề xuất phương pháp dự đoán số cụm trong tập dữ liệu sử dụng phương pháp lựa chọn
mô hình cho vấn đề phân loại dựa trên sự phong phú của hệ gien
• Cũng nhằm làm tăng chất lượng của giải pháp phân loại trình tự dựa trên sự phongphú của hệ gien, luận án đề xuất một phương pháp đếm l-mer với độ dài thay đổi giúpước lượng mức độ phong phú của hệ gien hiệu quả hơn
• Đề xuất ý tưởng chọn đại diện của tập trình tự thuộc cùng hệ gien dựa trên thông tingối đầu trình tự Tập này cho thấy có khả năng bảo toàn đặc trưng hợp thành và tươngđồng chứa đựng trong tập dữ liệu gốc Ý tưởng này có khả năng làm tăng chất lượngphân loại hay giảm chi phí tính toán cho các bài toán phân loại trình tự metagenomics
1.5.2 Về mặt thực tiễn
Luận án đã đề xuất ba giải pháp phân loại trình tự metagenomics, bao gồm:
• Đề xuất giải pháp MetaAB và MetaAB-adv cho phép phân loại trình tự metagenomicsdựa trên sự phong phú của hệ gien trong tập dữ liệu
Trang 18• Đề xuất giải pháp BiMeta cho phép phân loại trình tự metagenomics dựa trên đặctrưng hợp thành, không sử dụng cơ sở dữ liệu tham khảo.
• Đề xuất giải pháp SeMeta cho phép phân loại trình tự metagenomics có sử dụng cơ
sở dữ liệu tham khảo
Cấu trúc của luận án bao gồm 7 chương Chương 1 giới thiệu bài toán, trình bày nhữngđóng góp và mục tiêu của luận án Chương 2 trình bày nền tảng kiến thức cần thiết cho luận
án và tình hình nghiên cứu hiện nay Những phương pháp đóng góp cho vấn đề phân loạitrình tự metagenomics dựa trên sự phong phú của hệ gien được trình bày trong chương 3.Chương 4 trình bày ý tưởng chọn tập đại diện của một tập trình tự dựa trên thông tin gối đầu
sẽ được vận dụng ở hai chương tiếp theo của luận án Chương 5 trình bày giải pháp phân loạikhông giám sát sử dụng đặc trưng dấu hiệu hệ gien và thông tin gối đầu giữa trình tự Giảipháp phân loại bán giám sát SeMeta được trình bày trong chương 6 của luận án Chương 7
là kết luận và hướng phát triển Phần phụ lục trình bày một số thông tin về dữ liệu được sửdụng trong các thực nghiệm được trình bày trong luận án, và một số kết quả thực nghiệmchi tiết
Trang 19cơ này để phân biệt các loại nucleotide, và được ký hiệu tương ứng là: A, C, G và T Trongmỗi chuỗi đơn, các nucleotide liên kết cộng hóa trị với nhau theo nguyên tắc gốc đường củanucleotide này liên kết với gốc phosphate của nucleotide tiếp theo (cấu trúc sugar-phosphatebackbone) Hai chuỗi đơn của một phân tử DNA liên kết với nhau bằng liên kết hidro giữacác nucleotide thuộc về từng chuỗi theo nguyên tắc: A liên kết với T; G liên kết với C Độdài của một phân tử DNA được đo bằng số cặp nucleotide liên kết giữa hai chuỗi đơn haycòn gọi là cặp base (base-pair, viết tắt là bp).
Tổng thể tất cả các phân tử DNA trong một tế bào sống cấu thành hệ gien (genome) của
một sinh vật Thông thường, trong vi khuẩn, hệ gien là một nhiễm sắc thể đơn chứa mộtchuỗi DNA
Trang 20Hình 2.1: Ví dụ về phân tử DNA (Nguồn: The U.S National Library of Medicine).
Giải mã trình tự DNA là quá trình xác định dãy các nucleotide trong trình tự đó Phương
pháp Sanger [17], hay còn được gọi là phương pháp dideoxy sequencing, là công nghệ được
sử dụng từ những năm 1970 đến nay Trình tự được tạo ra bởi phương pháp Sanger thường
có độ dài khoảng 500 - 1000 bp Nhược điểm của phương pháp này là chi phí cao và hiệusuất xử lý thấp, không đáp ứng được yêu cầu của những dự án lớn
Khoảng từ năm 2005, một nhóm các công nghệ trình tự giải mã mới ra đời, dần thaythế cho phương pháp Sanger như: 454 pyrosequencing, Illumina Genome Analyzer, ABSOLiD [18, 19] Chúng được gọi chung là công nghệ giải mã trình tự thế hệ tiếp theo (Next-generation sequencing [20]) Ưu điểm của những phương pháp này là hiệu suất cao hơn sovới phương pháp Sanger, cho phép giải mã một khối lượng lớn trình tự trong một đơn vị thờigian Tuy nhiên, hạn chế của những công nghệ này là độ dài của các trình tự được giải mãthường có kích thước ngắn hoặc rất ngắn (nhỏ hơn 700 bp [21]) Chẳng hạn, trình tự đượcgiải mã bởi công nghệ Illumina có độ dài trung bình khoảng 36-300 bp [22] (trình tự dạngsingle-end hoặc paired-end)
Mẫu DNA cần được giải mã trong thực tế thường rất dài, có khi là toàn bộ hệ gien Chẳnghạn, hệ gien của một vi khuẩn E coli là khoảng 5 Mbp (bằng 5.000.000 bp) Trong khi đó,
Trang 21máy giải mã trong các công nghệ trên chỉ cho phép giải mã cho trình tự có kích thước ngắn.
Vì vậy, kỹ thuật nền tảng được sử dụng cho các công nghệ này là kỹ thuật giải mã trình tựđoạn ngắn (shotgun sequencing) Kỹ thuật này thực hiện nhân bản và cắt ngẫu nhiên mẫuDNA thành những mảnh nhỏ (fragment) có độ dài phù hợp cho từng công nghệ giải mã(hình 2.2) Máy giải mã trình tự xử lý cho từng mảnh DNA nhỏ và thông tin được lưu trữtrên máy tính được gọi là trình tự (read/sequence) Mục đích của việc nhân bản các mẫuDNA và cắt ngẫu nhiên là nhằm tạo ra tập trình tự gối đầu nhau Thông tin gối đầu này làthông tin quan trọng cho phép ráp nối trình tự nhằm khôi phục nội dung của trình tự dài banđầu Riêng trong lĩnh vực metagenomics, thông tin này có thể được sử dụng cho việc gomnhóm trình tự thuộc cùng hệ gien
GATTTCATAT TATTAATGTC AATTGTCGG TTACTTTGA TAAGAAAAT AATACTCTATC
CTCTATC CTATC GATTTCATATTATT AATGTCAAAT TGTCGGTTAC TTTGATAAG AAAATAATA
ACTCTATC
GATTT CATATTATTA ATGTCAAA TTGTCGGTTA CTTTGATAAGA AAATAATACT
GATTTCATATTATT AATGTCAAA TTGTCGGTTA CTTTGATAA GAAAATAAT
2.1.3 Đặc trưng sử dụng cho phân loại trình tự
Mức độ giống và khác nhau giữa các sinh vật được thể hiện như thế nào dựa trên trình tựDNA của chúng là một trong những vấn đề được sự quan tâm lớn của cộng đồng khoa học
Trang 22Phần này trình bày những tính chất được rút trích từ trình tự hoặc tập trình tự metagenomics
và thường được sử dụng là đặc trưng để phân biệt các sinh vật chứa chúng
có quan hệ sinh loài xa nhau [23] Giải pháp xác định mức độ tương đồng giữa các trình tựthường được dùng như BLAST [24], BLAT [25]
2.1.3.2 Dấu hiệu hệ gien
Dấu hiệu hệ gien (genomic signature) là cấu trúc toán học đặc trưng theo loài mà có thểxây dựng từ một trình tự sinh học [26] Dấu hiệu hệ gien của trình tự cùng loài giống nhaunhiều hơn so với của trình tự thuộc hai loài khác nhau, và hai loài gần nhau có dấu hiệu hệgien của trình tự giống nhau nhiều hơn so với giữa hai loài xa nhau [27] Nhờ tính chất này
mà dấu hiệu hệ gien có thể được sử dụng cho việc phân loại trình tự Nhiều dấu hiệu hệ gien
đã được nghiên cứu như: GC-content [28], dấu hiệu dựa trên tần số xuất hiện l-mer (đoạntrình tự ngắn có độ dài là l, thường được gọi là oligonucleotide) [29], dấu hiệu dựa trên môhình Markov [30, 31] Phần này chỉ trình bày nhóm dấu hiệu dựa trên tần số xuất hiện l-mer,vốn được vận dụng trong giải pháp được đề xuất trong nghiên cứu này
Dấu hiệu dựa trên tần số xuất hiện l-mer
Dấu hiệu này thể hiện tần số xuất hiện của những đoạn nucleotide ngắn có kích thướcthường là từ 2 - 4 nucleotide trong trình tự DNA, được gọi là tần số xuất hiện của cặpnucleotide (dinucleotide frequencies), bộ ba nucleotide (trinucleotide frequencies), hay bộbốn nucleotide (tetranucleotide frequencies) Có nhiều dấu hiệu hệ gien khác nhau được xâydựng dựa trên các tần số xuất hiện này Một số dấu hiệu sử dụng trong phân tích dữ liệumetagenomics được Gori và cộng sự trình bày trong [29] Phần này trình bày dấu hiệu phổbiến thường được dùng là dấu hiệu symmetrized signature (đặt tên theo cách trình bày trong
Trang 23[29]) như sau.
Mỗi trình tự được đại diện bởi một vectơ tần số f = { f1, f2, , f4l} Trong đó, fi, i ∈{1, , 4l}, là tần số xuất hiện (được chuẩn hóa) của l-mer i trong trình tự, được tính nhưsau [32, 33]:
• Tính duy nhất của đoạn trình tự l-mer trong tập dữ liệu: Hầu hết các l-mer không
được chia sẻ bởi các hệ gien khác nhau khi l đủ lớn [34]
Tính chất này được sử dụng trong một số giải pháp phân loại như TOSS [35], Cluster 4.0 [36], MetaCluster 5.0 [34], và AbundanceBin [37] Một thực nghiệm đượcthực hiện trong nghiên cứu này nhằm quan sát tỉ lệ l-mer bị chia sẻ bởi các hệ gien
Meta-vi khuẩn Tập dữ liệu được quan sát gồm 100 cặp hệ gien với khoảng cách di truyềnkhác nhau Tỉ lệ số l-mer được chia sẻ bởi các hệ gien trong mỗi cặp được tính theocác giá trị l khác nhau như sau:
Trong đó, nc là số lượng l-mer được chia sẻ bởi hai hệ gien, nd1là số l-mer riêng biệttrong hệ gien thứ nhất, và nd2 là số lượng l-mer riêng biệt trong hệ gien thứ hai Hình2.3 thể hiện tỉ lệ trung bình các l-mer được chia sẻ bởi hệ gien với giá trị khác nhaucủa l Có thể thấy rằng tỉ lệ trung bình các l-mer được chia sẻ bởi các hệ gien là rấtnhỏ khi l đủ lớn (nhỏ hơn 1.02% khi l ≥ 30)
• Sự phong phú của hệ gien trong tập dữ liệu: Trong một tập trình tự metagenomics,
tần số xuất hiện của l-mer thuộc cùng một hệ gien tỉ lệ thuận với sự phong phú của
Trang 25Hình 2.4: Ví dụ về sự phong phú của hệ gien.
Sự phong phú của một loài là số lượng cá thể của loài đó trong một khu vực hay cộngđồng sinh vật cụ thể Trong một mẫu thực nghiệm được thu thập từ môi trường vi sinhvật, sự phong phú của hệ gien phản ánh sự phong phú của loài trong môi trường đó.Thông thường, một mẫu thực nghiệm có thể chứa nhiều hệ gien của các loài với mức
độ phong phú khác nhau Ví dụ ở hình 2.4 thể hiện sự tỉ lệ thuận giữa sự phong phúcủa hệ gien và tần số xuất hiện l-mer thuộc hệ gien đó Một số trình tự trong tập dữ
4-mer thuộc hệ gien g2 Chẳng hạn như 4-mer u (thuộc hệ gien g1) và v (thuộc hệ gien
các cụm có độ phong phú khác nhau Từ đó, trình tự chứa các l-mer này cũng có thểđược phân loại dựa trên kết quả của việc phân loại l-mer
2.1.4.1 Phân lớp dữ liệu
Phân lớp dữ liệu (classification) là quá trình nhằm sắp xếp các đối tượng dữ liệu vàocác lớp (classes) đã biết Nhóm phương pháp này cho phép gán nhãn dữ liệu dựa trên thôngtin từ tập dữ liệu tham khảo Những phương pháp chỉ sử dụng thông tin từ tập dữ liệu thamkhảo cho việc gán nhãn dữ liệu còn được gọi là phương pháp học có giám sát (supervisedlearning) Một số phương pháp được gọi là học bán giám sát (semi-supervised learning)
Trang 26cũng cho phép gán nhãn nhưng sử dụng kết hợp thông tin rút trích từ tập trình tự đang đượcphân tích và tập dữ liệu tham khảo.
Học bán giám sát là phương pháp hiệu quả trong nhiều lĩnh vực, đặc biệt là những lĩnhvực đòi hỏi gán nhãn cho một lượng dữ liệu lớn Một số phương pháp phân loại bán giámsát khác nhau đã được đề xuất bởi cộng đồng nghiên cứu [38], chẳng hạn như: mô hìnhtổng quát (Generative models), self-training, và co-training Phương pháp gom cụm và gánnhãn (cluster-and-label) - một trường hợp của phương pháp generative models - được vậndụng trong luận án này Phương pháp này thực thi hai bước riêng biệt Bước một sử dụnggiải thuật gom cụm để gom dữ liệu vào từng cụm Bước hai thực hiện gán nhãn cho từngcụm Một giả định cần được sử dụng cho phương pháp gom cụm và gán nhãn là: nếu các đốitượng dữ liệu thuộc cùng một cụm, chúng có xu hướng thuộc cùng một lớp dữ liệu [39]
2.1.4.2 Gom cụm dữ liệu
Gom cụm dữ liệu là một hình thức của phương pháp học không có giám sát, nhằmphân chia các đối tượng dữ liệu vào các cụm, sao cho các đối tượng có đặc tính giốngnhau thuộc cùng một cụm và các đối tượng có đặc tính khác nhau thuộc về các cụm khácnhau [40] Nhiều phương pháp gom cụm đã được đề xuất, và có thể phân chia các phươngpháp này thành các nhóm như (theo [40]): gom cụm bằng phân hoạch (partition clustering),gom cụm bằng phân cấp (hierarchical clustering), gọm cụm dựa trên mật độ (density-basedclustering), gom cụm dựa trên mô hình (model-based clustering), hay gom cụm dựa trên đồthị (graph-theoretic clustering) Phần này trình bày hai nhóm phương pháp được vận dụngtrong luận án là gom cụm bằng phân hoạch, và gom cụm dựa trên mô hình
Gom cụm bằng phân hoạch
Phương pháp này thực hiện phân chia dữ liệu dựa trên sự khác biệt (dissimilarity) giữa cácđối tượng dữ liệu [40] Ý tưởng chung của phương pháp này như sau Ban đầu, chọn ngẫunhiên k phần tử làm phần tử đại diện của k cụm (giá trị k cho trước) Các phần tử này đượcgọi là điểm trung tâm của cụm Hai bước sau được thực hiện lặp lại cho đến khi giải thuậthội tụ hoặc thỏa điều kiện ràng buộc cho trước Bước một phân nhóm các phần tử còn lạidựa trên việc tính khoảng cách với các điểm trung tâm bằng một độ đo khoảng cách (chẳnghạn độ đo Euclide) Bước hai xác định lại giá trị trung tâm của từng cụm Có hai cách xácđịnh điểm trung tâm của cụm, tương ứng với hai nhóm giải thuật chính: giải thuật dạng
Trang 27centroid và dạng medoid Giải thuật dạng centroid chọn điểm trung bình là vectơ trung bình(mean vector) của các phần tử trong cụm Trong khi đó, giải thuật dạng medoid chọn mộtphần tử gần nhất với vectơ trung bình của các phần tử trong cụm làm điểm trung tâm Giảithuật dạng medoid phổ biến nhất là k-means, được sử dụng cho giải pháp phân loại được đềxuất trong luận án này.
Gom cụm dựa trên mô hình
Phương pháp gom cụm dựa trên mô hình sử dụng giả định rằng các đối tượng dữ liệu tuântheo một mô hình nào đó, thường là một phân phối thống kê hợp (mixture distribution)[40, 41] Quá trình gom cụm là nhằm ước lượng tham số của mô hình thống kê sao cho
mô hình phù hợp nhất với dữ liệu được quan sát Tham số của mô hình là thông tin chobiết khả năng thuộc về cùng một thành phần (hay cụm) của các đối tượng dữ liệu Phươngpháp ước lượng tham số trong mô hình thống kê phổ biến là ước lượng khả năng cực đại(Maximum Likelihood Estimation - MLE), với giải thuật thường được dùng là cực đại hóa
kỳ vọng (Expectation Maximization - EM) Thuật toán EM ban đầu gán khởi tạo các tham
số cho mô hình Tiếp đó, hai bước sau được thực hiện cho đến khi thuật toán hội tụ hoặcthỏa điều kiện ràng buộc cho trước Bước một, được gọi là bước kỳ vọng hóa (E-step), gáncác đối tượng dữ liệu vào các cụm dựa trên tham số của mô hình Bước hai, được gọi làbước cực đại hóa (M-step), tìm tham số mới của mô hình mà cực đại hóa hàm kỳ vọng củalog-likelihood của dữ liệu Phương pháp gom cụm dựa trên mô hình thường được sử dụngtrong các giải pháp phân loại trình tự metagenomics dựa trên độ phong phú của hệ gien[37, 42] Trong đó, tần số xuất hiện các l-mer hiếm (tức là với độ dài l đủ lớn) trong tập dữliệu metagenomics được giả định tuân theo phân phối hợp Poisson Khi đó, quá trình ướclượng tham số trong mô hình cho phép gom cụm các l-mer Từ đó, trình tự được gom cụmdựa trên thông tin gom cụm các l-mer thuộc về chúng
2.1.5 Độ đo hiệu năng giải pháp phân loại
Phần này trình bày các độ đo được sử dụng đánh giá chất lượng của các giải pháp phân
loại Ba độ đo độ chính xác (precision), độ nhạy (recall hay sensitivity), và F-measure được
sử dụng chung cho việc đánh giá Tuy nhiên, mặc dù cùng tên gọi nhưng cách tính của các
độ đo độ chính xác và độ nhạy là khác nhau đối với từng nhóm giải pháp khác nhau (có
giám sát hay không có giám sát)
Trang 28• Phân loại không giám sát (gom cụm): Đặt m là số loài trong một tập trình tự
trình tự thuộc loài j được gán vào cụm i Độ chính xác và độ nhạy được định nghĩa
như sau [34]
Độ chính xác = ∑
k i=1maxjAi j
∑ki=1∑mj=1Ai j
m j=1maxiAi j
∑ki=1∑mj=1Ai j+ Số trình tự không được phân loại. (2.4)
Trong đó, độ nhạy thể hiện tỉ lệ các trình tự từ cùng loài mà được gán vào cùng một cụm, độ chính xác thể hiện tỉ lệ các trình tự được gán vào cùng một cụm mà thực tế
thuộc về cùng một loài
• Phân loại có giám sát (phân lớp): Độ chính xác và độ nhạy của một giải pháp phân
loại có giám sát có thể được tính như sau (theo [43, 44]):
Độ chính xác = Số trình tự được phân loại đúng
Độ nhạy = Số trình tự được phân loại đúng
Hai độ đo độ chính xác và độ nhạy cần được xem xét cùng nhau Chỉ sử dụng một trong
hai độ đo không thể thể hiện đầy đủ hiệu năng của giải pháp phân loại Vì vậy, nghiên cứu
này cũng sử dụng độ đo F-measure, vốn thể hiện cả hai khía cạnh độ chính xác và độ nhạy
Trang 29meth-loại dựa trên cơ sở dữ liệu tham khảo, vừa sử dụng thông tin được rút trích từ tập dữ liệuđang được phân tích (hình 2.5).
Theo hướng tiếp cận này, trình tự DNA được phân loại dựa trên mức độ tương đồng trình
tự hay mức độ giống nhau giữa dấu hiệu hệ gien của chúng với hệ gien hay trình tự của sinhvật đã biết trong cơ sở dữ liệu tham khảo Có thể chia các giải pháp có giám sát thành banhóm như sau
2.2.1.1 Phương pháp dựa trên tính tương đồng
Trình tự metagenomics được phân loại dựa trên việc so sánh để tìm ra mức độ tương đồngvới trình tự trong ngân hàng gien hoặc protein Trong các giải pháp theo hướng này, côngviệc so sánh tương đồng thường được thực hiện bởi các công cụ đã có sẵn như BLAST [24]hay BLAT [25] MEGAN [46, 47] là phương pháp dựa trên tính tương đồng sử dụng thuậttoán LCA (lowest common ancestor) để tìm tổ tiên chung thấp nhất cho trình tự dựa trênđiểm bit (bit-score) trả về bởi giải thuật BLAST Một trong những hạn chế của thuật toánLCA là nếu BLAST trả về nhiều kết quả chứa các bit-score không rõ ràng (thường là giá trịbit-score thấp) có thể dẫn đến việc trình tự được gán nhãn tại mức phân loại cao MEGANgiải quyết hạn chế này bằng cách sử dụng các ngưỡng để lọc các bit-score không rõ ràngnày Một số giải pháp dựa trên BLAST khác, SOrt-ITEMS [48], và CARMA3 [49], cũnggiải quyết hạn chế trên bằng việc sử dụng bước tìm kiếm tương hỗ (reciprocal search) đểxác định các bit-score quan trọng
Phương pháp dựa trên tính tương đồng có khả năng phân loại cho trình tự ngắn với độchính xác cao hơn so với các hướng tiếp cận khác Tuy nhiên, nhược điểm của phương phápnày đến từ thực tế là một phần lớn trình tự không thể được phân loại bởi vì chúng khôngtương đồng hay tương đồng với bit-score rất thấp với trình tự trong cơ sở dữ liệu tham khảo.Ngoài ra, phương pháp này thường rất chậm bởi vì quá trình tìm kiếm tương đồng đòi hỏichi phí tính toán cao, đặc biệt với cơ sở dữ liệu tham khảo có kích thước lớn
Trang 302.2.1.2 Phương pháp dựa trên tính hợp thành
Phương pháp này sử dụng dấu hiệu hệ gien (genomic signature) được rút trích từ hệ gienhay trình tự tham khảo để phân loại Một số dấu hiệu hệ gien thường được sử dụng như:GC-content, tần số xuất hiện l-mer Hầu hết các giải pháp thuộc nhóm này như TACOA[50], TAC-ELM [51], AKE [52] chỉ phù hợp cho xử lý trình tự dài Trong đó, TACOA [50]
sử dụng phương pháp k-NN (k-nearest neighbor), có khả năng phân loại trình tự độ dài lớnhơn 800 bp Một nghiên cứu khác, TAC-ELM [51] áp dụng phương pháp học máy ExtremeLearning Machine, vận dụng kết hợp hai đặc trưng GC-content và tần số xuất hiện l-mer.Một số nghiên cứu gần đây như MetaCV [53], MetaID [54] hướng đến việc xử lý cho trình
tự ngắn
Ưu điểm của phương pháp dựa trên tính hợp thành (composition feature) là thời gian
xử lý nhanh, đạt hiệu quả cao khi xử lý trình tự dài Tuy nhiên, hầu hết các giải pháp đượcđánh giá là thiếu hiệu quả khi phân loại trình tự ngắn Chẳng hạn, TACOA chỉ đạt độ nhạy(sensitivity) từ 3% đến 17% cho trình tự có độ dài 800 bp tại mức bộ (order) và chi (genus).Điều này có thể được giải thích rằng độ dài trình tự ngắn dẫn đến đặc trưng hợp thành đượcrút trích từ trình tự không phản ánh đúng đặc trưng vốn có chứa đựng trong hệ gien chứachúng
2.2.1.3 Phương pháp lai
Sử dụng điểm mạnh từ sự kết hợp tính tương đồng và tính hợp thành là mục đích chínhcủa các giải pháp lai Chẳng hạn, nhằm giảm chi phí tính toán, nhưng vẫn đạt được độ chínhxác như các giải pháp chỉ dựa trên tính tương đồng, SPHINX [55] trước hết gom cụm trình
tự trong cơ sở dữ liệu tham khảo, và tính khoảng cách giữa từng trình tự với phần tử trungtâm (centriod) của các cụm Giải pháp này sau đó chỉ cần thực hiện tìm kiếm tương đồng(bởi giải thuật BLAST) giữa trình tự cần phân loại với trình tự trong mỗi cụm, mà khôngcần thực hiện trên toàn bộ trình tự trong cơ sở dữ liệu tham khảo MetaCluster-TA [56] vàPhymmBL [57] là hai giải pháp lai khác cho trình tự metagenomics Tuy nhiên, mục tiêu củahai giải pháp này là nhằm cải tiến độ chính xác trong phân loại, mặc dù sự kết hợp hai đặctrưng này có thể dẫn đến thực tế là chúng tốn nhiều chi phí tính toán hơn PhymmBL, mộtgiải pháp mở rộng của Phymm [57], sử dụng giải thuật BLAST để tìm kiếm tương đồng chotất cả trình tự nhằm cung cấp thêm thông tin hỗ trợ cho quá trình phân loại trong Phymm
Trang 31Bên cạnh đó, MetaCluster-TA là sự kết hợp của ba giải pháp đã có, bao gồm: IDBA-UD [58]nhằm ráp nối trình tự để tạo các trình tự dài hơn (được gọi là contig), MetaCluster 5.0 [34]
để gom cụm các contig và trình tự chưa được ráp nối, và MEGAN [47] để gán nhãn trình tự
Theo hướng tiếp cận này, việc phân loại chỉ dựa trên thông tin được rút trích từ chính tập
dữ liệu đang được phân tích, mà không sử dụng thông tin từ bên ngoài Bài toán này còn
được gọi là bài toán gom cụm trình tự metagenomics (clustering of metagenomic reads).
Giải pháp theo hướng tiếp cận này được nhận định là có điểm mạnh trong trường hợp dữliệu metagenomics được thu thập từ môi trường chứa nhiều sinh vật lạ chưa được biết đến.Các giải pháp đã được đề xuất có thể được phân chia thành hai nhóm: giải pháp dựa trêntính hợp thành và giải pháp dựa trên sự phong phú của hệ gien
Trang 32Hình 2.5: Các hướng tiếp cận chính của bài toán phân loại trình tự metagenomics.
Trang 332.2.2.1 Phương pháp dựa trên tính hợp thành
Nhóm giải pháp theo hướng tiếp cận này phân loại trình tự dựa trên dấu hiệu hệ gienđược rút trích từ trình tự đang được xử lý LikelyBin [31] là một trong số giải pháp nhằmphân loại cho trình tự dài, sử dụng phương pháp Markov Chain Monte Carlo Giải phápnày mô hình một tập các trình tự từ nhiều hệ gien như các quá trình ngẫu nhiên (stochas-tic processes) Không sử dụng chuỗi Markov bậc cố định (fixed-order Markov chain) nhưLikelyBin, Scimm [30] sử dụng mô hình Markov hồi quy, còn được gọi là chuỗi Markovbậc thay đổi (variable-order markov chains), để gom cụm trình tự MetaCluster 2.0 [33],MetaCluster 3.0 [59] là những giải pháp gần đây nhằm phân loại cho trình tự dài, trong đótần số xuất hiện l-mer được sử dụng là một đặc trưng phân loại
Gom cụm cho trình tự ngắn là một thách thức thu hút nhiều sự quan tâm của cộng đồngnghiên cứu TOSS [35] là một giải pháp dựa trên đồ thị Giải pháp này thực hiện phânloại theo hai pha Pha một gom nhóm trình tự dựa trên việc gom nhóm các l-mer duy nhất(unique l-mer - các l-mer chỉ xuất hiện một lần duy nhất trong một hệ gien, và không lặplại trong các hệ gien khác loài) Vấn đề gom nhóm các unique l-mer được chuyển thành bàitoán phân hoạch đồ thị Trong đó, mỗi unique l-mer là một đỉnh Hai đỉnh nối với nhau bởimột cạnh nếu tồn tại trình tự chứa cả hai l-mer đó Trong pha hai của giải pháp, các tác giảcũng sử dụng phương pháp trên đồ thị gọi là MCL (Markov Cluster algorithm) để gom cụmcho các nhóm trình tự được hình thành từ pha một
MetaCluster 5.0 [34] và MCluster [60] cũng là hai giải pháp hướng đến việc phân loạitrình tự ngắn mà không sử dụng cơ sở dữ liệu tham khảo MetaCluster 5.0, vốn là phiên bản
mở rộng của MetaCluster 4.0 [36], thực hiện hai vòng phân loại Vòng một phân loại trình
tự có độ phong phú cao Vòng hai phân loại trình tự có độ phong phú thấp Ở mỗi vòng,trình tự được gom nhóm thành từng contig ảo (một contig là một nhóm các trình tự nằm liêntiếp nhau và gối đầu nhau) Sau đó, các contig được gom cụm dựa trên vectơ tần số xuấthiện l-mer được tính từ các trình tự trong mỗi contig Trong khi đó, MCluster là giải phápdựa trên một thuật toán cải tiến của phương pháp k-means, được gọi là SKWIC Trong mỗibước lặp của k-means, giải pháp này áp dụng phương pháp gán giá trị trọng số khác nhaucho mỗi cụm dựa trên tần số l-mer của các trình tự trong cụm đó
Trang 342.2.2.2 Phương pháp dựa trên sự phong phú hệ gien
Một số giải pháp không có giám sát được đề xuất gần đây có thể phân loại trình tự ngắn
sử dụng đặc trưng sự phong phú của hệ gien trong tập trình tự metagenomics Trong số cácgiải pháp này, AbundanceBin [37] giả định phân phối xác suất các l-mer trong một hệ gientuân theo phân phối Poisson Hai hệ gien có độ phong phú khác nhau tuân theo hai phânphối Poisson có tham số khác nhau Hợp tất cả l-mer trong một tập trình tự metagenomics(chứa nhiều hệ gien khác nhau) tuân theo một phân phối hợp Poisson (mixed Poisson distri-butions) Giải thuật EM (Expectation maximization) được sử dụng nhằm ước lượng tham sốcủa mô hình xác suất này và gom nhóm l-mer Trình tự được phân loại dựa trên kết quả gomnhóm l-mer của chúng So sánh với AbundanceBin, giải pháp của Olga và cộng sự [42] mởrộng mô hình xác suất các l-mer, trong đó có quan tâm đến trường hợp xuất hiện của lỗi giải
mã trình tự Một giải pháp dựa trên sự phong phú của hệ gien khác, MarkovBin [61], môhình trình tự nucleotide như một chuỗi Markov có bậc cố định Thuật toán EM cũng được
sử dụng để ước lượng tham số của mô hình
Nhóm giải pháp này cho thấy sự hiệu quả khi phân loại tâp trình tự metagenomics củasinh vật có mức độ phong phú khác xa nhau Tuy nhiên, trong thực tế, nhiều sinh vật trongmột tập trình tự metagenomics có thể có sự phong phú tương tự nhau, và sẽ được phân loạivào cùng một cụm Chính vì vậy, các giải pháp này có thể được sử dụng là bước tiền xử
lý nhằm phân loại trình tự theo sự phong phú của hệ gien, trước khi áp dụng phương phápphân loại khác cho từng cụm, vốn chứa trình tự thuộc hệ gien có mức độ phong phú tương tựnhau Điều này có thể giúp làm tăng chất lượng phân loại, như được trình bày trong nghiêncứu của Olga [35]
Phương pháp bán giám sát là một dạng phối hợp giữa kỹ thuật có giám sát và không giámsát nhằm đạt được chất lượng phân loại tốt hơn Những nghiên cứu gần đây theo hướng tiếpcận này như RAIphy [11], CompostBin [62], giải pháp của Steven và cộng sự [63] Trong
đó, CompostBin sử dụng thông tin tham khảo từ 31 marker để định hướng cho quá trìnhgom cụm trình tự Giải pháp của Steven và cộng sự phân loại trình tự gồm hai giai đoạnchính riêng biệt nhau Giai đoạn một thực hiện rút trích đặc trưng từ trình tự có sẵn dựa trênphương pháp học có giám sát Na¨ıve Bayes Classifier Giai đoạn hai sử dụng kỹ thuật gom
Trang 35cụm k-means hoặc ART (Adaptive Resonance Theory) dựa trên đặc trưng được rút trích từgiai đoạn một Khác với hai giải pháp trên, RAIphy sử dụng giai đoạn phân loại trình tự dựatrên cơ sở dữ liệu tham khảo là bước khởi tạo cho thuật toán gom cụm trình tự (tương tựseeded k-means) được áp dụng sau đó.
Một điểm chung của các giải pháp trên là việc sử dụng giai đoạn học có giám sát để hỗtrợ cho quá trình gom cụm trình tự tốt hơn Tức là chúng không hướng đến mục tiêu gánnhãn trình tự, mà chỉ dừng lại ở việc phân chia trình tự vào các cụm MetaCluster-TA [56]như đã trình bày ở mục 2.2.1.3 cũng có thể được xếp vào nhóm phương pháp bán giám sát.Tuy nhiên, giải pháp này hướng đến việc sử dụng giai đoạn học không giám sát để hỗ trợcho quá trình học có giám sát nhằm gán nhãn trình tự hiệu quả hơn
Trang 36CHƯƠNG 3
GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT DỰA TRÊN
SỰ PHONG PHÚ CỦA HỆ GIEN
Luận án này đề xuất một phương pháp mới, được gọi là MetaAB (Abundance-based binning of metagenomic sequences) [64], có khả năng phân loại trình tự một cách hiệu quả
dựa trên thông tin sự phong phú của hệ gien trong tập trình tự cần phân tích Phương pháp
đề xuất sử dụng mô hình thu giảm để tìm ước lượng khả năng cực đại (MLE - maximumlikelihood estimates) của tham số trong mô hình thống kê, nhằm giảm chi phí tính toán sovới các giải pháp tương tự Ngoài ra, khác với việc sử dụng phương pháp tối ưu cục bộ(phương pháp top-down) trong AbundanceBin và giải pháp của Ogla và cộng sự để phânloại và ước lượng số cụm, MetaAB vận dụng một kỹ thuật lựa chọn mô hình nhằm phân loại
và ước lượng số cụm dữ liệu toàn cục một cách hiệu quả Bên cạnh đó, một phương phápđếm tần số xuất hiện l-mer có độ dài thay đổi [65] cũng được đề xuất trong nghiên cứu này
Trang 37nhằm làm tăng sự chính xác trong việc phân loại.
Giải pháp đề xuất trong phần này sử dụng phương pháp gom cụm dựa trên mô hình,dựa trên đặc trưng sự phong phú của hệ gien trong tập dữ liệu (được trình bày trong chương2) Dựa trên nghiên cứu của Lander and Waterman [66], một giả định được sử dụng trongnghiên cứu này là số lần xuất hiện của l-mer trong một tập trình tự thuộc cùng một hệ gientuân theo phân phối Poisson Như vậy, tập tất cả số lần xuất l-mer trong một tập trình tựmetagenomics được xem như một hỗn hợp các phân bố Poisson Giải pháp đề xuất trướctiên tìm ước lượng khả năng cực đại của các tham số cho mô hình này Việc tìm ra tham sốphù hợp cho mô hình đồng nghĩa với việc chúng ta biết được xác suất các l-mer thuộc vềcác thành phần của mô hình Tập trình tự sau đó được phân loại theo cách gán vào các thànhphần dựa trên xác suất mà các l-mer của chúng thuộc về từng thành phần
3.2.1 Mô hình hỗn hợp của tần số xuất hiện các l-mer
Cho một tập trình tự metagenomics bao gồm n trình tự R = {r1, r2, , rn} Đặt w1, , wq
là một tập các l-mer trong tập trình tự, và c(wi), 1 ≤ i ≤ q, là số lần xuất hiện của l-mer wi
trong tập dữ liệu Vì mỗi l-mer được hình thành từ 4 nucleotide (A, C, G, T), ta có: q ≤ 4l.Như vậy, ta có một tập dữ liệu X = {c(w1), , c(wq)} bao gồm q quan sát của biến ngẫunhiên x = c(wi), 1 ≤ i ≤ q
Giả định rằng tập trình tự chứa k loài với mức độ phong phú khác nhau, và biến ngẫu
nhiên x là phân bố đồng nhất, độc lập (Independent and identically distributed - iid) Ta có
một mô hình hợp hữu hạn k thành phần với hàm khối xác suất (probabilistic mass function)như sau [67]:
Trang 38Trong đó, Θ = {α1, , αk, θ1, , θk} là một tập các tham số của mô hình hợp này α1, , αk
là các thành phần hợp và thỏa mãn điều kiện ∑km=1αm= 1, αm≥ 0 Ngoài ra, θm, 1 ≤ m ≤ k,
là tập tham số của thành phần thứ m của mô hình Trong ngữ cảnh này, với mô hình hợp
Chi phí tính toán cho biểu thức 3.3 trong thức tế là rất đáng kể Hơn nữa, hàm likelihood thường phải được tính toán lại nhiều lần nhằm ước lượng tham số trong mô hình
log-Do đó, nhằm giảm chi phí tính toán của việc ước lượng tham số trong mô hình, nghiên cứunày đề xuất một mô hình thu giảm của nó, dựa trên bổ đề sau:
Bổ đề 1: Cho hai l-mer wi, wj Xét một thành phần m bất kỳ với tham số λm Nếu c(wi) =c(wj), ta có pm(c(wi)|λm) = pm(c(wj)|λm)
Chứng minh. Dựa trên biểu thức 3.1, ta có
Trang 39Cho một tập tất cả l-mer w1, , wq trong tập trình tự R Sắp xếp các l-mer vào b, b ∈N,nhóm không rỗng sao cho tất cả l-mer wi, wj, i 6= j, trong cùng một nhóm t,t ∈ {1, , b}, cócùng số lần xuất hiện và bằng ct (có nghĩa là c(wi) = c(wj) = ct), và ∀t, r ∈ {1, , b}, ct 6=
cr Gọi st,t ∈ {1, , b}, là số lượng l-mer trong nhóm t Ta có:
(q = 11) trong tập trình tự như bảng 3.1 Tập các 4-mer này có thể được chia thành 3 nhóm(b = 3) theo quy tắc trên như sau:
+ Nhóm 1: c1= 1, s1= 5
+ Nhóm 2: c2= 2, s2= 4
+ Nhóm 3: c3= 4, s3= 2
Bảng 3.1: Ví dụ về số lần xuất hiện của 4-mer trong tập dữ liệu
Trang 40phần, được phát biểu trong biểu thức 3.3, có thể được xây dựng như sau:
Trong thực tế, một tỉ lệ lớn các l-mer xuất phát từ cùng hệ gien và thường có cùng số lần
cho trước số lượng l-mer q, giá trị st càng lớn, giá trị b càng nhỏ Vì vậy, khi sử dụng biểuthức 3.7, chi phí để tìm ước lượng khả năng cực đại của tham số Θ giảm đi đáng kể so với
mô hình gốc trong 3.3
Để ước lượng khả năng cực đại của tham số trong mô hình đề xuất, nghiên cứu này sửdụng giải thuật cực đại hóa kỳ vọng (EM - Expectation Maximization [69]) Đây là một giảithuật lặp, được sử dụng phổ biến trong nhiều lĩnh vực, cho phép tìm được giá trị tối ưu cục
bộ của tham số trong một mô hình thống kê Dữ liệu quan sát được X được xem như dữ liệukhông đầy đủ, và dữ liệu còn thiếu là một tập b nhãn Z = {z1, , zb} Mỗi vectơ nhị phân
zt = (zt1, , ztk)T,t ∈ {1, , b}, cho biết thành phần (các hệ gien) nào tạo ra các l-mer mà
số lần xuất hiện của chúng bằng ct Ở đây, ztm = 1, m ∈ {1, , k}, nếu các l-mer mà số lần
Hàm log-likelihood của dữ liệu đầy đủ (X, Z) là: