Phân loại trình tự metagenomics trên cơ sở phân lớp và gom cụm

44 203 0
Phân loại trình tự metagenomics trên cơ sở phân lớp và gom cụm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐAI H6C QU6C GIA TP H6 CHÍ MINH TRƯèNG ĐAI HOC BÁCH KHOA LÊ VĂN VINH PHÂN LOAI TRÌNH TU METAGENOMICS TRÊN CƠ Se PHÂN LéP VÀ GOM CUM Chuyên ngành: Khoa hoc Máy tính Mã so chuyên ngành: 62.48.01.01 TĨM TAT LU¾N ÁN TIEN SĨ KY THU¾T TP HO CHÍ MINH NĂM 2016 Cơng trình đưoc hồn thành tai Trưòng Đai hoc Bách Khoa - ĐHQG-HCM Ngưòi hưóng dan khoa hoc 1: PGS TS Tran Văn Lăng Ngưòi hưóng dan khoa hoc 2: PGS TS Tran Văn Hoài Phán biắn đc lắp 1: Phỏn biắn đc lắp 2: Phỏn bi¾n 1: Phán bi¾n 2: Phán bi¾n 3: Lu¾n án se oc bỏo vắ trúc Hđi ong cham luắn ỏn hop tai vào lúc giò ngày tháng năm Có the tìm hieu lu¾n án tai thư vi¾n: - Thư vi¾n Khoa hoc Tong hop Tp HCM - Thư vi¾n Trưòng Đai hoc Bách Khoa – ĐHQG-HCM DANH MUC CƠNG TRÌNH Đà CƠNG BO Tap chí: [1].L V Vinh, T V Lang, and T V Hoai, "A novel semi-supervised algorithm for the taxonomic assignment of metagenomic reads," BMC Bioinformatics, vol.17, no.22, ISSN: 1471-2105, 2016 (SCIE index, IF=2.435) [2].L V Vinh, T V Lang, L T Binh, and T V Hoai, "A two-phase binning algorithm using l-mer frequency on groups of nonoverlapping reads," Algorithms for Molecular Biology, vol 10, no.1, ISSN: 1748- 7188, 2015 (SCIE index, IF=1.439) [3].L V Vinh, T V Lang, and T V Hoai, "A novel l-mer counting method for abundance based binning of metagenomic reads." Journal of Computer Science and Cybernetics, vol 10, no.3, ISSN 1813-9663, pp 267-277, 2014 [4].L V Vinh, T V Lang, and T V Hoai, "Hi¾u cúa giái pháp gom cnm trình tn metagenomic," Tap chí Khoa hoc Cơng ngh¾, Vi¾n Hàn Lâm Khoa hoc Cơng ngh¾ Vi¾t Nam, vol 52, no.1B, ISSN: 0866- 708X, pp.28-36, 2014 H®i ngh%: [1].L V Vinh, T V Lang, and T V Hoai, "MetaAB-A Novel AbundanceBased Binning Approach for Metagenomic Sequences," In Nature of Computation and Communication, pp 132-141, HCM city, Vietnam: Springer International Publishing, 2014 [2].L V Vinh, D H Nhut, T V Lang, and T V Hoai, "A combination of genomic signatures for the binning of metagenomic sequences," Proceedings of The 2nd International Conference on Green Technology and Sustainable Development, HCM City Oct 30-31, ISBN 978-604732-817-8, pp 662-668, 2014 [3].L V Vinh, T V Lang, and T V Hoai, "An abundance-based bining approach for metagenomics read using a fuzzy k-medoids methods," Proceeding of The 7th National Conference on Fundamental and Ap- plied IT Research - FAIR’7, Thai Nguyen, ISBN: 978-604-913-300-8, Natural Science and Technology Publishing House, 2014 ii CHƯƠNG GIéI THIfiU 1.1 Metagenomics tốn phân loai trình tN Metagenomics l lnh vnc nghiờn cỳu cđng ong vi sinh vắt Khác vói phương pháp truyen thong, lĩnh vnc thnc hi¾n phân tích trnc tiep mau thnc nghi¾m đưoc thu th¾p tù mơi trưòng mà khơng can trái qua giai đoan ni cay phân tách phòng thí nghi¾m Lĩnh vnc metagenomics mang đen nhieu loi ích y hoc, nơng nghi¾p, cơng ngh¾ sinh hoc, nghiên cúu lưong thay the, hay mơi trưòng [1] Du li¾u metagenomics thưòng khơng chúa trình tn cúa tùng sinh v¾t riờng biắt Chỳng chỳa trỡnh tn thuđc nhieu loi khỏc (có 10.000 lồi m®t mau [1]) Vỡ vắy, mđt nhung van e quan can giái quyet phân chia trình tn theo tùng nhóm vi sinh v¾t, đưoc goi tốn phân loai trình tn metagenomics (taxonomic binning) Bài tốn đưoc phát bieu sau (theo Thomas c®ng sn [2]): "Phân loai trình tn metagenomics trình sap xep trình tn DNA vào nhóm bao gom trình tn thuđc cựng hắ gien cỳa mđt cỏ the hoắc hắ gien cúa vi sinh v¾t có quan h¾ gan nhau" Chang han, minh hoa ó hình 1.2 T¾p du li¾u bao gom 16 trình tn DNA Giái pháp phân loai giúp phân chia t¾p trình tn vào tắp, moi chỳa trỡnh tn cỳa mđt nhúm vi sinh v¾t Hình 1.2: Minh hoa mnc tiêu cúa tốn phân loai trình tn metageonmic 1.2 Van đe ton tai can giái quyet 1.2.1 Đ® xác Đ® xác m®t nhung khía canh quan nhat can đưoc quan tâm cúa toán Hai yeu to ánh hưóng đen chat lưong phân loai cỳa cỏc giỏi phỏp hiắn l đ di trỡnh tn ngan (làm thieu thơng tin phân loai) vi¾c thieu c sú du liắu tham khỏo (lm giỏm đ xác cúa giái pháp phn thu®c só du li¾u tham kháo) 1.2.2 Chi phí tính tốn Chi phí tính tốn khía canh quan khác can đưoc quan tâm bói m®t dn án metagenomics thơng thũng can phỏi phõn tớch mđt khoi long du liắu rat lón (có hàng trăm gigabase trình tn [3]), von đòi hói nhieu thòi gian xú lý 1.3 Mnc tiêu cúa lu¾n án Mnc tiêu cúa lu¾n án nham đe xuat giái pháp phân loai cho du li¾u metage- nomics, có xú lý tot cho trình tn ngan, giái quyet hi¾u q cho trưòng hop só du li¾u tham kháo khơng đay đú 1.4 Đóng góp cúa lu¾n án Nhung đóng góp cúa lu¾n án bao gom: 1.4.1 Ve m¾t khoa hoc • Đe xuat mơ hình thu giám đe tìm ưóc lưong cnc đai cúa tham so cho mô hình thong kê ve tan so xuat hi¾n l-mer, giúp giám chi phí tính tốn cho giái pháp phân loai dna trờn sn phong phỳ cỳa hắ gien e xuat phương pháp dn đốn so cnm t¾p du li¾u sú dnng phương pháp lna chon mơ hình cho van đe phân loai dna sn phong phú cúa hắ gien Cng nham lm tng chat long cỳa giái pháp phân loai trình tn dna sn phong phỳ cỳa hắ gien, luắn ỏn e xuat mđt phng pháp đem l-mer vói đ® dài thay đoi giúp ưóc long mỳc đ phong phỳ cỳa hắ gien hiắu quỏ hn e xuat ý túng chon diắn cỳa trỡnh tn thuđc cựng hắ gien dna trờn thụng tin goi đau trình tn T¾p cho thay có báo tồn đ¾c trưng hop thành tương đong chúa đnng t¾p du li¾u goc Ý tưóng có làm tăng chat lưong phân loai hay giám chi phí tính tốn cho tốn phân loai trình tn metagenomics 1.4.2 Ve m¾t thNc tien Lu¾n án đe xuat ba giái pháp phân loai trình tn metagenomics, bao gom: • Đe xuat giái pháp MetaAB MetaAB-adv cho phép phân loai trình tn metagenomics dna sn phong phú cúa h¾ gien t¾p du liắu e xuat giỏi phỏp BiMeta cho phộp phân loai trình tn metagenomics dna đ¾c trưng hop thành, khơng sú dnng só du li¾u tham kháo • Đe xuat giái pháp SeMeta cho phép phân loai trình tn metagenomics có sú dnng só du li¾u tham kháo {1, , p} p ≤ n, dna thông tin goi đau trình tn Nói m®t cách khác, hai trình tn r, s ∈ R có the đưoc gom vào nhóm neu chúng đưoc ket lu¾n r H s Đieu có nghĩa trình tn r, s ∈ R ó nhóm đưoc xem thu®c hắ gien (r ịa s) e trđn cỏc nhúm ny vào cnm mà có the the hi¾n h¾ gien cúa sinh v¾t có quan h¾ sinh lồi gan nhau, phương pháp đe xuat tính vectơ tan so l-mer f cho moi nhóm Gi Lu¾n án sú dnng t¾p đai di¾n cúa moi nhóm Gi thay Gi nham giám thieu sn mat cân bang đ® phú cúa t¾p trình tn, giám chi phí rút trích thơng tin tù nhóm T¾p đai di¾n chí bao gom trình tn khơng goi đau (như đưoc trình bày ó chương 4), đưoc goi m®t seed cúa Gi Trong pha 2, phương pháp đe xuat nham mnc tiêu tr®n nhóm Gi, i ∈ {1, , p}, vào k cnm (k ≤ p) sú dnng vectơ f cúa đai di¾n cúa nhóm Hệ gien Trình tự Seed Tần số 4-mer seed Các cụm Các nhóm Pha Pha Trình tự Hệ gien Hình 5.1: Quá trình phân loai cúa BiMeta Xác đ%nh trình tN goi đau khơng goi đau Cho trưóc m, q ∈ N, neu r s chia sé nhat m q-mer, chúng đưoc xem goi đau Ngưoc lai, chúng khơng goi đau 5.2.2 Thu¾t tốn BiMeta 5.2.2.1 Pha - Gom nhóm đính xây dNng seed Pha thnc hi¾n cơng vi¾c: + Xây dnng nhóm xây dnng seed cúa chỳng sỳ dnng mđt thuắt toỏn tham lam + Tớnh vectơ tan so cúa đai di¾n cúa nhóm 5.2.2.2 Pha - Tr®n nhóm Trong pha này, giái thuắt gom cnm k-means oc sỳ dnng e trđn cỏc nhóm von đưoc tao pha 1, thành cnm 5.3 Ket thNc nghi¾m 0.95 0.9 0.85 Fm ea su re 0.8 0.75 0.7 0.65 MetaCluster 5.0 BiMeta AbundanceBin MetaAB 0.6 0.55 L1 L2 L3 L4 L5 L6 Tập liệu Hình 5.3: Hi¾u cúa MetaCluster 5.0, BiMeta, AbundanceBin MetaAB t¾p du li¾u tù L1 đen L6 BiMeta đưoc so sánh vói giái pháp MetaCluster 5.0, AbundanceBin, MetaCluster 2.0 MetaAB Ket thnc nghi¾m cho thay BiMeta đat chat lưong phân loai tot so vói giái pháp lai hau het trưòng hop thnc nghi¾m (chang han ket q ó hình 5.3), ton chi phí t¾p du li¾u đưoc kháo sát BiMeta cho thay có the phân tích tot cho trình tn có đ di khỏc nhau, v trờn cỏc bđ du liắu có múc đ® phong phú khác Ngồi ra, BiMeta đat giá tr% F-measure cao so vói MetaCluster 2.0 xỳ lý trờn bđ du liắu thnc AMD (Acid Mine Drainage) CHƯƠNG GIÃI PHÁP PHÂN LOAI BÁN GIÁM SÁT SU DUNG Đ¾C TRƯNG KET HeP 6.1 Giội thiắu Chng ny trỡnh by mđt giỏi phỏp phõn loai trình tn metagenomics mói, sú dnng phương pháp phân lóp bán giám sát, đưoc goi SeMeta Ý tưóng tìm t¾p đai di¾n cúa t¾p trình tn đưoc áp dnng nham giúp giái pháp đat đưoc toc đ® xú lý nhanh, van báo tồn chat lưong phân loai trưòng hop sú dnng tồn b® t¾p trình tn 6.2 Phương pháp 6.2.1 Nen táng cúa phng phỏp e xuat Cho mđt R gom n trình tn metagenomics Bưóc đau tiên cúa giái pháp đe xuat nham phân chia n trình tn vào k t¾p C1 ,C2 , ,Ck , k ≤ n bưóc thú hai, moi cnm Ci, ≤ i ≤ k, đưoc gán nhãn dna vi¾c so sánh tương đong giua trình tn cnm vói trình tn tham kháo M®t nhung ý tưóng đưoc áp dnng nghiên cúu vi¾c sú dnng t¾p đai di¾n cúa cnm đưoc trình bày ó chương Thay tìm kiem tương đong cho tat cá trình tn cnm Ci, ≤ i ≤ k, giái pháp chí thnc hi¾n đai di¾n S(Ci) cúa chúng Trong bưóc gán nhãn cho cnm, mđt ky thuắt loc hai mỳc (two-level filter- ing) oc đe xuat nham loai bó nhung BLAST hit (tên h¾ gien tham kháo đưoc trá ve bói cơng cn so sánh tương đong BLAST) Múc m®t (múc trình tn) loc nhung BLAST hit có giá tr% bit-score thap cho tùng trình tn bang vi¾c sú dnng hai ngưõng min-score (loai bó nhung hit có bit-score thap) toppercent (lna chon giu lai nhung hit có bit-score cao phan lai) Múc hai (múc cnm) tiep tnc loai bó nhung hit khơng tin c¾y nhò thơng tin tương đong ket hop cúa trình tn tùng cnm 6.2.2 Thu¾t tốn SeMeta Hình 6.3 the hi¾n q trình thnc hi¾n cúa phương pháp này, bao gom hai bưóc chính: Gom cnm (Clustering), Gán nhãn sinh hoc (Taxonomic Assign- ment) 6.2.2.1 Bưéc 1: Gom cnm Trong bưóc này, trình tn đưoc phân loai vào cnm chúa sinh v¾t có moi quan h¾ sinh lồi gan nhau, sú dnng phiên bán tien cúa giái pháp BiMeta đưoc đe xuat ó chương Điem khác bi¾t cúa SeMeta BiMeta bưóc gom cnm là: (1) SeMeta loai bó nhung nhóm có kích thưóc nhó nham nâng cao đ chớnh xỏc; (2) SeMeta cú khỏ nng phỏt hiắn tn đng so cnm du liắu Xõy dNng diắn cúa cnm Sau trình tn đưoc chia vào k cnm C1 , ,Ck , đai di¾n cúa cnm đưoc xây dnng dna thông tin goi đau giua trình tn Nham co gang gán nhãn cho nhung trình tn b% loai bó khói q trình gom cnm ó bưóc 1, SeMeta xem trình tn nhung cnm đưa vào bưóc gán nhãn sinh hoc cho cnm 6.2.2.2 Bưéc 2: Gán nhãn sinh hoc Bưóc bao gom ba cơng vi¾c chính: - Cơng vi¾c - Tìm kiem tương đong: Thnc hi¾n so sánh tương đong cúa trình tn đai di¾n cúa cnm vói só du li¾u tham kháo - Cơng vi¾c - Gán nhón cho cnm: SeMeta thnc thi mđt ky thuắt loc ó hai múc sau: Trình tự Cụm Đơn vị phân loại A So sánh tương đồng CSDL tham khảo Đơn vị phân loại B Trình tựkhơng gom cụm Bước 1: Gom cụm Trình tựkhơng gán nhãn Bước 2: Gán nhãn sinh học Hình 6.3: Q trình thnc hi¾n cúa SeMeta + Múc trình tn: Sú dnng hai tham so min-score smin top-percent ptop + Múc cnm: Múc sú dnng ngưõng max-occur omax đe loai bó thêm nhung hit khơng tin c¾y Cuoi cùng, giái thu¾t LCA (Lowest Common Ancestor) đưoc sú dnng đe tìm đơn v% phân loai chung thap nhat cúa nhung hit lai sau giai đoan loc - Cơng vi¾c - H¾u xỳ lý: Giai oan ny thnc hiắn trđn cỏc cnm mà đưoc gán đơn v% phân loai vào m®t cnm, xác đ%nh nhung trình tn khơng đưoc gán nhãn 6.3 Ket thNc nghi¾m SeMeta đưoc so sánh vói hai giái pháp dna tính tương đong thưòng đưoc sú dnng hi¾n MEGAN SOrtITEMS Thnc nghi¾m đánh giá ó cá hai khía canh sau: (1) Khá gán nhãn vào m®t nhóm (clade) sinh loài; (2) Khá gán nhãn xác vào m®t v% trí sinh lồi Hai k%ch bán só du li¾u đưoc tao là: (1) Lồi biet (vi sinh v¾t du li¾u can phân tích có só du li¾u tham kháo); (2) Lồi chưa biet (vi sinh v¾t só du li¾u can phân tích khơng có só du li¾u tham kháo) Ket q thnc nghi¾m cho thay, SeMeta đat chat lưong phân loai tot hai giái pháp lai phan lón trưòng hop thnc nghi¾m, đ¾c bi¾t xét ó b¾c phân loai thap (múc lồi, múc chi), ó k%ch bán só du li¾u lồi chưa biet Điem noi b¾t cúa SeMeta can chi phí tính tốn nhieu (chang han, 5.6 lan cho b® du li¾u ds2) so vói MEGAN SOrtITEMS Ngồi ra, SeMeta có xú lý tot cho hai b® du li¾u thnc AMD (Acid Mine Drainage) HGM (Human Gut Metagenome) CHƯƠNG KET LU¾N VÀ HƯéNG PHÁT TRIEN 7.1 Ket lu¾n Lĩnh vnc nghiên cúu metagenomics mó h®i lón giúp ngưòi hieu ve c®ng đong vi sinh v¾t, có the mang đen nhieu loi ớch thiet thnc cho cuđc song Mắc dự vắy, van đe phân tích du li¾u metagenomics có nhieu thách thúc lón bói sn phúc tap đa dang sinh hoc cúa mơi trưòng vi sinh v¾t Ba yeu to làm cho vi¾c phân tích trình tn tró nên khó khăn, bao gom: phan lón vi sinh v¾t chưa đưoc khám phá; sn han che cúa cơng ngh¾ giái mã trình tn, dan đen trình tn đưoc tao có kích thưóc ngan; du li¾u can phân tích lón Đieu đòi hói nhung cơng cn phân tích du li¾u hi¾u q góp phan thành cơng cho dn án metagenomics Lu¾n án đe xuat giái pháp phân loai trình tn metagenomics só sú dnng ky thu¾t phân lóp gom cnm, ket hop vói vi¾c khám phá tính chat cúa du li¾u đe hưóng đen giái quyet nhung thách thúc hi¾n cúa tốn Trong đó, cá hai khía canh chat lưong phân loai chi phí tính tốn đeu đưoc quan tâm Cn the, giái pháp phân loai không giám sát dna sn phong phú cúa h¾ gien - MetaAB - sú dnng mơ hình thu giám von đòi hói chi phí tính tốn mà khơng ánh hưóng đen chat lưong phân loai Ngồi ra, vi¾c sú dnng ky thu¾t l¾p nham phát hi¾n so cnm t¾p du li¾u dna ky thu¾t lna chon mơ hình thong kê m®t phương pháp đem l-mer có đ® dài thay đoi giúp làm tăng chat lưong phân loai cúa giái pháp đe xuat Giái pháp BiMeta giái pháp phân loai không giám sát sú dnng đ¾c trưng tan so xuat hi¾n l-mer, thơng tin goi đau giua trình tn Vi¾c áp dnng ý tưóng sú dnng t¾p đai di¾n cúa t¾p trình tn giúp BiMeta có gom cnm vói đ® xác cao mà khơng đòi hói chi phí tài ngun tính tốn lón SeMeta giái pháp phân loai cho phép gán nhãn trình tn dna ky thu¾t bán giám sát Ky thu¾t cho phép sú dnng ket hop tính hop thành tính tương đong cúa trình tn nham làm tăng chat lưong phân loai Ý tưóng thnc hi¾n so sánh tương đong cho đai di¾n cúa cnm thay tat cá trình tn cnm bưóc gãn nhãn giúp giám đáng ke chi phí tính tốn so vói giái pháp dna tính tương đong khác van giu đưoc chat lưong phân loai tot Ket thnc nghi¾m cho thay sn hi¾u q cúa giái pháp đe xuat ó cá hai khía canh chat lưong phân loai chi phí tính tốn so vói giái pháp loai du li¾u giá l¾p du li¾u thnc Trong đó, xú lý cho trình tn ngan the manh cúa giái pháp đe xuat lu¾n án Các giái pháp đe xuat cho phép thnc thi cá hai kieu du li¾u trình tn dang single-end paired-end, húa hen nhung cơng cn huu ích phnc cho dn án metagenomics nham khám phá c®ng đong vi sinh v¾t Mã nguon cúa giái pháp du li¾u thnc nghi¾m lu¾n án có the đưoc tái ve tù http://it.hcmute.edu.vn/bioinfo/metapro/index.html trang web 7.2 Hưéng phát trien Trong tương lai, m®t so khía canh có the đưoc khai thác tien nham nâng cao hi¾u phân loai cúa giái pháp đe xuat Ket thnc nghi¾m cho thay rang so lưong cúa lồi t¾p du li¾u hay kích thưóc t¾p du li¾u lón, chat lưong phân loai cúa giái pháp đe xuat giám đi, đong thòi chi phí tính toỏn tng lờn mđt cỏch ỏng ke Vỡ vắy, viắc nghiên cúu v¾n dnng đ¾c trưng phân loai phù hop can tiep tnc đưoc nghiên cúu cho trưòng hop du liắu lún Bờn canh ú, mđt so đ o khống cách khác có the đưoc nghiên cúu thay the cho đ® đo Euclide đưoc sú dnng hai giái pháp BiMeta SeMeta nham làm tăng chat lưong phân loai Ngồi ra, cơng ngh¾ tính tốn hi¾u cao có the đưoc áp dnng giúp giám thòi gian tính tốn nâng cao chat lưong nghi¾m cúa tốn Đoi vói van đe gán nhãn trình tn, gán nhãn trình tn vào m®t v % trí thnc te sinh loài cúa giái pháp SeMeta m¾c dù tot so vói giái pháp đưoc thnc nghi¾m lu¾n án này, van thap búi sn nghiờm ngắt cỳa đ o ny Mđt nhung hưóng tiem quan tâm đen múc đ® tương đong khác (đưoc the hi¾n bói BLAST bitscores) cúa BLAST hit tin c¾y Đong thòi, thơng tin có the ket hop vói vi¾c kháo sát úc long ngừng giỏ tr% the hiắn mỳc đ tng đong cúa trình tn theo tùng b¾c phân loai đe đat đưoc dn đốn tot Ngồi ra, luắn ỏn ny cha phõn tớch mỳc đ ỏnh hưóng cúa loi giái mã trình tn đoi vói hi¾u cúa giái pháp phân loai M¾c dù v¾y, thnc nghi¾m ó chương cho thay có sn khác bi¾t ve ket q phân loai giua trưòng hop trình tn có loi giái mã khơng có loi giái mã Vì v¾y, van đe can đưoc nghiên cúu tương lai Qua đó, phương pháp súa loi trình tn có the đưoc áp dnng nham làm tăng chat lưong phân loai cúa giái pháp TÀI LIfiU THAM KHÃO [1] J C Wooley, A Godzik, and I Friedberg, “A primer on metagenomics,” PLoS Comput Biol, vol 6, no 2, p e1000667, 2010 [2] T Thomas, J Gilbert, and F Meyer, “Metagenomics-a guide from sampling to data analysis,” Microb Inform Exp, vol 2, no 3, pp 1–12, 2012 [3] J Qin, R Li, J Raes, M Arumugam, K S Burgdorf, C Manichanh, T Nielsen, N Pons, F Levenez, T Yamada, et al., “A human gut microbial gene catalogue established by metagenomic sequencing,” nature, vol 464, no 7285, pp 59–65, 2010 [4] J G Black, Microbiology: Principles and Explorations (Chapter 9) US: Wiley, 8th ed., January 2012 [5] J Bohlin, “Genomic signatures in microbes - properties and applications,” The Scientific World Journal, vol 11, 2011 [6] Y Wang, H C Leung, S M Yiu, and F Y Chin, “Metacluster 5.0: a tworound binning approach for metagenomic data for low-abundance species in a noisy sample,” Bioinformatics, vol 28, pp i356 – i362, September 2012 [7] Y W Wu and Y Ye, “A novel abundance-based algorithm for binning metagenomic sequences using l-tuples,” Journal of Computational Biol- ogy, vol 18, no 3, pp 523 – 534, 2011 [8] A P Dempster, N M Laird, and D B Rubin, “Maximum likelihood from incomplete data via the em algorithm,” Journal of the Royal Statistical Society.SeriesB (Methodological), vol 39, no 1, pp – 38, 1977 ... goi tốn phân loai trình tn metagenomics (taxonomic binning) Bài tốn đưoc phát bieu sau (theo Thomas c®ng sn [2]): "Phân loai trình tn metagenomics trình sap xep trình tn DNA vào nhóm bao gom trỡnh... du li¾u bao gom 16 trình tn DNA Giái pháp phân loai giúp phân chia t¾p trình tn vào t¾p, moi t¾p chúa trình tn cúa mđt nhúm vi sinh vắt Hỡnh 1.2: Minh hoa mnc tiêu cúa tốn phân loai trình tn metageonmic... p}, vào k cnm (k ≤ p) sú dnng vectơ f cúa đai di¾n cúa nhóm Hệ gien Trình tự Seed Tần số 4-mer seed Các cụm Các nhóm Pha Pha Trình tự Hệ gien Hình 5.1: Quá trình phân loai cúa BiMeta Xác đ%nh trình

Ngày đăng: 20/01/2018, 22:27

Từ khóa liên quan

Mục lục

  • TRƯèNG ĐAI HOC BÁCH KHOA

  • PHÂN LOAI TRÌNH TU METAGENOMICS TRÊN CƠ Se PHÂN LéP VÀ GOM CUM

    • TP. HO CHÍ MINH NĂM 2016

    • Tap chí:

    • H®i ngh%:

    • CHƯƠNG 1

    • 1.2. Van đe ton tai can giái quyet

      • 1.2.1. Đ® chính xác

      • 1.2.2. Chi phí tính toán

      • 1.3. Mnc tiêu cúa lu¾n án

      • 1.4. Đóng góp cúa lu¾n án

        • 1.4.1. Ve m¾t khoa hoc

        • 1.4.2. Ve m¾t thNc tien

        • 1.5. N®i dung lu¾n án

          • CHƯƠNG 2

          • 2.1.2. Công ngh¾ giái mã trình tN DNA

          • 2.1.3. Đ¾c trưng sN dnng cho phân loai trình tN

            • 2.1.3.1. Tính tương đong giÑa các trình tN

            • 2.1.3.2. Dau hi¾u h¾ gien

            • 2.1.3.3. M®t so đ¾c trưng khác

            • 2.1.4. Phân lép và gom cnm dÑ li¾u

              • 2.1.4.1. Phân lép dÑ li¾u

              • 2.1.4.2. Gom cnm dÑ li¾u

              • 2.1.5. Đ® đo hi¾u năng giái pháp phân loai

              • 2.2. Tình hình nghiên cNu

                • 2.2.1. Phương pháp có giám sát

                  • 2.2.1.1. Phương pháp dNa trên tính tương đong

                  • 2.2.1.2. Phương pháp dNa trên tính hep thành

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan