Hai yeu to chính ánh h óngư đen chat l ongư phânloai cúa các giái pháp hi¾n nay là đ® dài trình tn ngan làm thieu thôngtin phân loai và vi¾c thieu cơ só du li¾u tham kháo làm giám đ® chí
Trang 1ĐAI H6C QU6C GIA TP H6 CHÍ MINH
TRƯèNG ĐAI HOC BÁCH KHOA
LÊ VĂN VINH
PHÂN LOAI TRÌNH TU METAGENOMICS TRÊN CƠ Se PHÂN
Trang 2TP HO CHÍ MINH NĂM 2016
Trang 3Công trình đ ocư hoàn thành tai Tr òngư Đai hoc Bách Khoa - ĐHQG-HCM
Ng òiư h óngư dan khoa hoc 1: PGS TS Tran Văn Lăng
Ng òiư h óngư dan khoa hoc 2: PGS TS Tran Văn Hoài
Lu¾n án se đ ocư báo v¾ tr ócư H®i đong cham lu¾n án hop
tai vào lúc giò ngày tháng năm
Có the tìm hieu lu¾n án tai thư vi¾n:
- Thư vi¾n Khoa hoc Tong hop Tp HCM
- Thư vi¾n Tr òngư Đai hoc Bách Khoa – ĐHQG-HCM
Trang 4DANH MUC CÔNG TRÌNH ĐÃ CÔNG BO
Tap chí:
[1].L V Vinh, T V Lang, and T V Hoai, "A novel semi-supervised
algorithm for the taxonomic assignment of metagenomic reads," BMC
Bioinformatics, vol.17, no.22, ISSN: 1471-2105, 2016 (SCIE index,
IF=2.435).
[2].L V Vinh, T V Lang, L T Binh, and T V Hoai, "A two-phase
binning algorithm using l-mer frequency on groups of overlapping reads," Algorithms for Molecular Biology, vol 10, no.1,
non-ISSN: 1748- 7188, 2015 (SCIE index, IF=1.439).
[3].L V Vinh, T V Lang, and T V Hoai, "A novel l-mer countingmethod for abundance based binning of metagenomic reads."
Journal of Computer Science and Cybernetics, vol 10, no.3, ISSN
1813-9663, pp 267-277, 2014
[4].L V Vinh, T V Lang, and T V Hoai, "Hi¾u năng cúa các giái pháp
gom cnm trình tn metagenomic," Tap chí Khoa hoc và Công ngh¾,
Vi¾n Hàn Lâm Khoa hoc và Công ngh¾ Vi¾t Nam, vol 52, no.1B,
ISSN: 0866- 708X, pp.28-36, 2014
H®i ngh%:
[1].L V Vinh, T V Lang, and T V Hoai, "MetaAB-A Novel
Abundance-Based Binning Approach for Metagenomic Sequences," In Nature of
Computation and Communication, pp 132-141, HCM city, Vietnam:
Springer International Publishing, 2014
[2].L V Vinh, D H Nhut, T V Lang, and T V Hoai, "A tion of genomic signatures for the binning of metagenomic
Trang 5combina-sequences," Proceedings of The 2nd International Conference on
Green Technology
Trang 6and Sustainable Development, HCM City Oct 30-31, ISBN
978-604-732-817-8, pp 662-668, 2014
[3].L V Vinh, T V Lang, and T V Hoai, "An abundance-based ing approach for metagenomics read using a fuzzy k-medoids
bin-methods," Proceeding of The 7th National Conference on
Fundamental and Ap- plied IT Research - FAIR’7, Thai Nguyen,
ISBN: 978-604-913-300-8, Natural Science and TechnologyPublishing House, 2014
ii
Trang 7CHƯƠNG 1
GIéI THIfiU
1.1 Metagenomics và bài toán phân loai trình tN
Metagenomics là lĩnh vnc nghiên cúu c®ng đong vi sinh v¾t Khác vói
phươ pháp truyen thong, lĩnh vnc này thnc hi¾n phân tích trnc tiep trênngmau thnc nghi¾m đ ocư thu th¾p tù môi tr òngư mà không can trái qua giaiđoan nuôi cay và phân tách trong phòng thí nghi¾m Lĩnh vncmetagenomics mang đen nhieu loi ích trong y hoc, nông nghi¾p, côngngh¾ sinh hoc, nghiên cúu năng l ongư thay the, hay môi tr òngư [1]
Du li¾u metagenomics th òngư không chúa trình tn cúa tùng sinh v¾triêng bi¾t Chúng chúa trình tn thu®c nhieu loài khác nhau (có khi h nơ10.000 loài trong m®t mau [1]) Vì v¾y, m®t trong nhung van đe quantrong can giái quyet là phân chia trình tn theo tùng nhóm vi sinh v¾t, đ ocưgoi là bài toán phân loai trình tn metagenomics (taxonomic binning) Bàitoán này đ ocư phát bieu như sau (theo Thomas và c®ng sn [2]):
"Phân loai trình tn metagenomics là quá trình sap xep trình tn DNA vào các
nhóm bao gom các trình tn thu®c cùng h¾ gien cúa m®t cá the ho¾c h¾ gien cúa các vi sinh v¾t có quan h¾ gan nhau".
Chang han, như minh hoa ó hình 1.2 T¾p du li¾u bao gom 16 trình tnDNA Giái pháp phân loai giúp phân chia t¾p trình tn này vào 3 t¾p, moi t¾pchúa trình tn cúa m®t nhóm vi sinh v¾t
7
Trang 8Hình 1.2: Minh hoa mnc tiêu cúa bài toán phân loai trình tn metageonmic.
1.2 Van đe ton tai can giái quyet
1.2.1 Đ® chính xác
Đ® chính xác là m®t trong nhung khía canh quan trong nhat can đ ocưquan tâm cúa bài toán Hai yeu to chính ánh h óngư đen chat l ongư phânloai cúa các giái pháp hi¾n nay là đ® dài trình tn ngan (làm thieu thôngtin phân loai) và vi¾c thieu cơ só du li¾u tham kháo (làm giám đ® chínhxác cúa các giái pháp phn thu®c cơ só du li¾u tham kháo)
1.3 Mnc tiêu cúa lu¾n án
Mnc tiêu cúa lu¾n án là nham đe xuat giái pháp phân loai cho du li¾umetage- nomics, có khá năng xú lý tot cho trình tn ngan, và giái quyet hi¾uquá cho tr òngư hop cơ só du li¾u tham kháo không đay đú
Trang 91.4 Đóng góp cúa lu¾n án
Nhung đóng góp chính cúa lu¾n án bao gom:
1.4.1 Ve m¾t khoa hoc
• Đe xuat mô hình thu giám đe tìm ócư l ongư khá năng cnc đai cúa
tham so cho mô hình thong kê ve tan so xuat hi¾n l-mer, giúp giám
chi phí tính toán cho giái pháp phân loai dna trên sn phong phú cúah¾ gien
• Đe xuat phươ pháp dn đoán so cnm trong t¾p du li¾u sú dnngng
phươ pháp lna chon mô hình cho van đe phân loai dna trên snngphong phú cúa h¾ gien
• Cũng nham làm tăng chat l ongư cúa giái pháp phân loai trình tn dnatrên sn phong phú cúa h¾ gien, lu¾n án đe xuat m®t phươ phápng
đem l-mer vói đ® dài thay đoi giúp ócư l ongư múc đ® phong phúcúa h¾ gien hi¾u quá h n.ơ
• Đe xuat ý t óngư chon đai di¾n cúa t¾p trình tn thu®c cùng h¾ giendna trên thông tin goi đau trình tn T¾p này cho thay có khá năngbáo toàn đ¾c tr ngư hop thành và tươ đong chúa đnng trong t¾png
du li¾u goc Ý t óngư này có khá năng làm tăng chat l ongư phân loaihay giám chi phí tính toán cho các bài toán phân loai trình tnmetagenomics
1.4.2 Ve m¾t thNc tien
Lu¾n án đã đe xuat ba giái pháp phân loai trình tn metagenomics, bao gom:
• Đe xuat giái pháp MetaAB và MetaAB-adv cho phép phân loai trình
tn metagenomics dna trên sn phong phú cúa h¾ gien trong t¾p duli¾u
• Đe xuat giái pháp BiMeta cho phép phân loai trình tn metagenomics
dna trên đ¾c tr ngư hop thành, không sú dnng cơ só du li¾u tham kháo
Trang 10• Đe xuat giái pháp SeMeta cho phép phân loai trình tn metagenomics
có sú dnng cơ só du li¾u tham kháo
Trang 111.5 N®i dung lu¾n án
Cau trúc cúa lu¾n án bao gom 7 chương Chươ 1 giói thi¾u bài toán,ngtrình bày nhung đóng góp và mnc tiêu cúa lu¾n án Chươ 2 trình bàyngnen táng kien thúc can thiet cho lu¾n án và tình hình nghiên cúu hi¾nnay Nhung phươ pháp đóng góp cho van đe phân loai trình tnngmetagenomics dna trên sn phong phú cúa h¾ gien đ ocư trình bày trong
chươ 3 Chng ươ 4 trình bày ý t óngng ư chon t¾p đai di¾n cúa m®t t¾ptrình tn dna trên thông tin goi đau se đ ocư v¾n dnng ó hai chươ tiepngtheo cúa lu¾n án Chươ 5 trình bày giái pháp phân loai không giám sátng
sú dnng đ¾c tr ngư dau hi¾u h¾ gien và thông tin goi đau giua trình tn.Giái pháp phân loai bán giám sát SeMeta đ ocư trình bày trong chươ 6ngcúa lu¾n án Chươ 7 là ket lu¾n và h óngng ư pháp trien Phan phn lnctrình bày m®t so thông tin ve du li¾u đ ocư sú dnng trong các thncnghi¾m đ ocư trình bày trong lu¾n án, và m®t so ket quá thnc nghi¾m chitiet
CHƯƠNG 2
NEN TÃNG KIEN THÚC VÀ TÌNH HÌNH NGHIÊN CÚU
2.1 Nen táng kien thNc
2.1.1 DNA và h¾ gien
DNA (Deoxyribonucleic acid) là phân tú có cau trúc ba chieu, bao gom
hai chuoi đ nơ xoan oc, cu®n xung quanh m®t trnc chung, tao thành m®tchuoi xoan kép
2.1.2 Công ngh¾ giái mã trình tN DNA
Giái mã trình tn DNA là quá trình xác đ%nh dãy các nucleotide trongtrình tn đó Các công ngh¾ giái mã đ ocư sú dnng pho bien hi¾n nay nh :ư
454 pyrose- quencing, Illumina Genome Analyzer, AB SOLiD, đ ocư goi
Trang 12chung là công ngh¾ giái mã trình tn the h¾ tiep theo (Next-generationsequencing) Vì mau DNA can đ ocư giái mã trong thnc te th òngư rat dài,trong khi các máy giái mã
Trang 13chí cho phép giái mã cho trình tn có kích th ócư ngan Vì v¾y, ky thu¾t nentáng đ ocư sú dnng cho các công ngh¾ này là ky thu¾t giái mã trình tnđoan ngan (shotgun sequencing) Ky thu¾t này thnc hi¾n nhân bán và catngau nhiên mau DNA thành nhung mánh nhó (fragment) có đ® dài phù hopcho tùng công ngh¾ giái mã Máy giái mã trình tn xú lý cho tùng mánh DNAnhó và thông tin đ ocư l uư tru trên máy tính đ ocư goi là trình tn(read/sequence).
2.1.3 Đ¾c trưng sN dnng cho phân loai trình tN
M®t giái pháp phân loai trình tn can m®t phép đo múc đ® giong nhauhay khoáng cách giua các trình tn Phép đo đó có the đ ocư thnc hi¾n nhò
sú dnng m®t so đ¾c tr ngư sau
2.1.3.1 Tính tương đong giÑa các trình tN
Múc đ® tươ đong (homology) giua hai trình tn đ ocng ư tính dna trên vi¾c
so sánh sn giong nhau tươ úng giua các nucleotide trên hai trình tn Haing
cá the sinh v¾t chúa trình tn có múc đ® tươ đong cao the hi¾n chúngng
có quan h¾ sinh loài (phylogenetic relationship) gan nhau và có cùng totiên Ng ocư lai, múc đ® tươ đong thap the hi¾n chúng có quan h¾ sinhngloài xa nhau [4]
2.1.3.2 Dau hi¾u h¾ gien
Dau hi¾u h¾ gien (genomic signature) là cau trúc toán hoc đ¾c tr ngưtheo loài mà có the xây dnng tù m®t trình tn sinh hoc Dau hi¾u h¾ giencúa trình tn cùng loài giong nhau nhieu h nơ so vói cúa trình tn thu®c hailoài khác nhau, và hai loài gan nhau có dau hi¾u h¾ gien cúa trình tngiong nhau nhieu h nơ so vói giua hai loài xa nhau [5] Nhò tính chat này
mà dau hi¾u h¾ gien có the đ ocư sú dnng cho vi¾c phân loai trình tn.Nhieu dau hi¾u h¾ gien đã đ ocư nghiên cúu nh :ư GC-content, dau hi¾u
dna trên tan so xuat hi¾n l-mer (đoan trình tn ngan có đ® dài là l, th òngư
đ ocư goi là oligonucleotide), dau hi¾u dna trên mô hình Markov
Trang 142.1.3.3 M®t so đ¾c trưng khác
M®t so đ¾c tr ngư khác đ ocư rút trích ra tù sn quan sát du li¾u
metagenomics và áp dnng cho bài toán phân loai như sau:
• Tính duy nhat cúa đoan trình t? l-mer trong t¾p dY
li¾u: Hau het các l-mer (đoan trình tn ngan, có đ® dài là l) không
đ oc ư chia sé bói các h¾ gien khác nhau khi l đú lón [6].
• S? phong phú cúa h¾ gien trong t¾p dY li¾u: Trong
m®t t¾p trình tn metagenomics, tan so xuat hi¾n cúa l-mer thu®c cùng m®t h¾ gien tí l¾ thu¾n vói sn phong phú cúa h¾ gien đó [7].
2.1.4 Phân lép và gom cnm dÑ li¾u
2.1.4.1 Phân lép dÑ li¾u
Phân lóp du li¾u (classification) là quá trình nham sap xep các đoi
t ongư du li¾u vào các lóp (classes) đã biet Các giái pháp phân lóp du li¾u
th òngư dna trên hai phươ pháp hoc chính: hoc có giám sát (supervisednglearning) và hoc bán giám sát (semi-supervised learning) Trong khi
phươ pháp hoc có giám sát chí sú dnng thông tin tù t¾p du li¾u thamngkháo cho vi¾c gán nhãn du li¾u, thì phươ pháp hoc bán giám sát chongphép sú dnng ket hop thông tin rút trích tù t¾p trình tn đang đ ocư phântích và t¾p du li¾u tham kháo Trong lu¾n án này, phươ pháp bánnggiám sát gom cnm và gán nhãn (cluster-and-label) đ ocư nghiên cúu và súdnng
2.1.4.2 Gom cnm dÑ li¾u
Gom cnm du li¾u là m®t hình thúc cúa phươ pháp hoc không cónggiám sát, nham phân chia các đoi t ongư du li¾u vào các cnm, sao cho cácđoi t ongư có đ¾c tính giong nhau thu®c cùng m®t cnm và các đoi t ongư có
Trang 15đ¾c tính khác nhau thu®c ve các cnm khác nhau Lu¾n án này sú dnng hai
phương pháp
Trang 16gom cnm là k-means và phươ pháp dna trên mô hình (dùng thu¾t toán ng
EM - Expectation Maximization)
2.1.5 Đ® đo hi¾u năng giái pháp phân loai
Phan này trình bày các đ® đo đ ocư sú dnng đánh giá chat l ongư cúa
các giái pháp phân loai Ba đ® đo đ® chính xác (precision), đ® nhay (recall hay sensitivity), và F-measure đ ocư sú dnng chung cho vi¾c đánh giá
2.2 Tình hình nghiên cNu
Nhung h óngư tiep c¾n chính cúa bài toán như sau
2.2.1 Phương pháp có giám sát
Theo h óngư tiep c¾n này, trình tn DNA đ ocư phân loai dna trên múc đ®
tươ đong trình tn hay múc đ® giong nhau giua dau hi¾u h¾ gien cúangchúng vói h¾ gien hay trình tn cúa sinh v¾t đã biet trong cơ só du li¾utham kháo Có the chia các giái pháp có giám sát thành ba nhóm như sau
2.2.1.1 Phương pháp dNa trên tính tương đong
Trình tn metagenomics đ ocư phân loai dna trên vi¾c so sánh đe tìm ramúc đ® tươ đong vói trình tn trong ngân hàng gien ho¾c protein.ngTrong các giái pháp theo h óngư này, công vi¾c so sánh tươ đong th òngng ư
đ ocư thnc hi¾n bói các công cn đã có san như BLAST hay BLAT M®t sogiái pháp thu®c nhóm này nh :ư MEGAN, SOrt-ITEMS, và CARMA3
2.2.1.2 Phương pháp dNa trên tính hep thành
Phươ pháp này sú dnng dau hi¾u h¾ gien (genomic signature) đ ocng ưrút trích tù h¾ gien hay trình tn tham kháo đe phân loai M®t so dau hi¾uh¾ gien th òngư đ ocư sú dnng nh :ư GC-content, tan so xuat hi¾n l-mer.
Hau het các giái pháp thu®c nhóm này như TACOA, TAC-ELM, AKE chíphù hop cho xú lý trình tn dài M®t so nghiên cúu gan đây như MetaCV,MetaID h óngư đen vi¾c xú lý cho trình tn ngan
Trang 172.2.2 Phương pháp không có giám sát
Theo h óngư tiep c¾n này, vi¾c phân loai chí dna trên thông tin đ ocư rúttrích tù chính t¾p du li¾u đang đ ocư phân tích, mà không sú dnng thôngtin tù bên ngoài Các giái pháp đã đ ocư đe xuat có the đ ocư phân chiathành hai nhóm: giái pháp dna trên tính hop thành (composition feature)
và giái pháp dna trên sn phong phú cúa h¾ gien (genome abundance-basedfeature)
2.2.2.1 Phương pháp dNa trên tính hep thành
Nhóm giái pháp theo h óngư tiep c¾n này phân loai trình tn dna trêndau hi¾u h¾ gien đ ocư rút trích tù trình tn đang đ ocư xú lý M®t so giáipháp chí có khá năng phân loai tot cho trình tn dài nh :ư LikelyBin, Scimm,MetaCluster 2.0, MetaCluster 3.0 M®t so khác có khá năng xú lý tot h nơcho trình tn ngan nh :ư TOSS, MetaCluster 5.0 và MCluster
2.2.2.2 Phương pháp dNa trên sN phong phú h¾ gien
M®t so giái pháp không có giám sát đ ocư đe xuat gan đây có the phânloai trình tn ngan sú dnng đ¾c tr ngư sn phong phú cúa h¾ gien trong t¾ptrình tn metagenomics Trong so các giái pháp này, AbundanceBin phânloai dna trên vi¾c sú dnng giái pháp EM (expectation-maximization) nhamóc
ư l ongư tham so cúa mô hình xác suat cúa l-mer trong trình tn.
2.2.3 Phương pháp bán giám sát
Phươ pháp bán giám sát là m®t dang phoi hop giua ky thu¾t cónggiám sát và không giám sát nham đat đ ocư chat l ongư phân loai tot h n.ơNhung nghiên
Trang 18cúu gan đây theo h óngư tiep c¾n này như RAIphy, CompostBin
MetaCluster- TA cũng có the đ ocư xep vào nhóm phươ pháp này.ng
CHƯƠNG 3
GIÃI PHÁP PHÂN LOAI KHÔNG GIÁM SÁT DUA TRÊN
SU PHONG PHÚ CUA Hfi GIEN
3.1 Giéi thi¾u
Lu¾n án này đe xuat m®t phươ pháp gom cnm dna trên mô hình, đ ocng ưgoi là MetaAB, có khá năng phân loai trình tn m®t cách hi¾u quá dna trênthông tin sn phong phú cúa h¾ gien trong t¾p trình tn can phân tích
Phươ pháp đe xuat sú dnng mô hình thu giám đe tìm ócng ư l ongư khánăng cnc đai (MLE
- maximum likelihood estimates) cúa tham so trong mô hình xác suat, nhamgiám chi phí tính toán so vói các giái pháp tươ tn Ngoài ra, MetaAB v¾nngdnng m®t ky thu¾t lna chon mô hình xác suat nham phân loai và ócư
l ongư so cnm du li¾u toàn cnc m®t cách hi¾u quá Bên canh đó, m®t
phươ pháp đem tan so xuat hi¾n l-mer có đ® dài thay đoi cũng đ ocng ư đexuat trong nghiên cúu này nham làm tăng sn chính xác trong vi¾c phânloai
3.2 Phương pháp
3.2.1 Mô hình hon hep cúa tan so xuat hi¾n các l-mer
Cho m®t t¾p trình tn metagenomics bao gom n trình tn R = {r1, r2, , r n } Đ¾t w1, , w q là m®t t¾p các l-mer trong t¾p trình tn, và c(w i ), 1
≤ i ≤ q, là so lan xuat hi¾n cúa l-mer w i trong t¾p du li¾u Vì moi
l-mer đ ocư hình thành tù 4 nucleotide (A, C, G, T), ta có: q ≤ 4 l Như v¾y, ta
có m®t t¾p du li¾u X = {c(w1), , c(w q )} bao gom q quan sát cúa
Trang 19bien ngau nhiên x = c(w i ), 1 ≤ i ≤ q Hàm log-likelihood tươ úng vóing
mô hình hop k thành phan cúa du li¾u
Trang 20mô hìnhhop này
α1, , α k là các thành phan hop và thóa mãn đieu ki¾n ∑k
phan thú m
cúa
mô hình.Trong ngucánh này, vói
mô hình hopPoisson, ta có:
θ m ≡ λ m Giáipháp đe xuatnham tìm ócư
l ongư khánăng cnc đai
m=1
Trang 21mô hình thu giám
cúa nó Bói vì, hai
l-mer có cùng so lanxuat hi¾n luôn cócùng xác suatthu®c ve các thànhphan trong môhình Vì v¾y, hàmlog-likelihood
tươ úng vói mông
hình hop k thành
phan trên, đ ocưphát bieu trongbieu thúc 3.1, có the
đ ocư xây dnng lainhư sau:
b
log
L
(X
b là
so nhó
m
l-mer
mà
có cùn
g so lan xuathi¾
n, s t
là solan xuathi¾
n cúa
lmertron
-g nhó
m®t tí l¾ lón
các l-mer xuat
phát tù cùngh¾ gien và
th òngư có cùng
so lan xuathi¾n trong t¾p
metagenomics
(túc là s t 1) Vìv¾y, khi súdnng bieu thúc
3.3, chi phí đetìm ócư l ongưkhá năng cncđai cúa tham so
Θ giám đi đáng
ke so vói môhình goc trong
3.1
Trang 223.2.3 Ưéc lưeng tham so trong mô hình đe xuat
Đe ócư l ongư khá năng cnc đai cúa tham so trong mô hình đe xuat,nghiên cúu này sú dnng giái thu¾t cnc đai hóa kỳ vong (EM - ExpectationMaximiza- tion [8]) Đây là m®t giái thu¾t l¾p, cho phép tìm đ ocư giá tr%toi uư cnc b® cúa tham so trong mô hình xác suat Moi vòng l¾p thnc thihai b ócư sau (phan d óiư đây the hi¾n cho vòng l¾p thú s + 1):
+ Bưéc kỳ vong hóa (E-step): Tính xác suat cúa các l-mer mà so lan xuat
nào tao ra các l-mer Khi các tham so trong mô hình hop này đã đ ocư ócư
l ong,ư moi trình tn r j đ ocư gán vào các thành phan (hay cnm) dna trên xác
suat các l-mer cúa chúng thu®c ve các thành phan.
3.2.4 Ưéc lưeng so cnm sN dnng BIC
Lu¾n án này v¾n dnng phươ pháp lna chon mô hình (modelngselection) BIC (Bayesian Information Criterion) nham tìm so thành phancúa m®t mô hình hon hop Đieu này đong nghĩa vói vi¾c có the ócư l ongư
đ ocư so cnm trong t¾p du li¾u Cn the, giá tr% BIC cúa mô hình m thành
phan như sau:
d
(s
)