Approche métagénomique pour le binning taxonomique du microbiome intestinal humain = khai phá cấu trúc phân loài của hệ vi sinh vật ruột người từ dữ liệu di truyền học môi trường
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
1,88 MB
Nội dung
UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DƯƠNG TIẾN HẬU APPROCHEMÉTAGÉNOMIQUEPOURLEBINNINGTAXONOMIQUEDUMICROBIOME INTESTIAL HUMAINKHAIPHÁCẤUTRÚCPHÂNLOÀICỦAHỆVISINHVẬTRUỘTNGƯỜITỪDỮLIỆUDITRUYỀNHỌCMÔITRƯỜNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2017 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DƯƠNG TIẾN HẬU APPROCHEMÉTAGÉNOMIQUEPOURLEBINNINGTAXONOMIQUEDUMICROBIOME INTESTIAL HUMAINKHAIPHÁCẤUTRÚCPHÂNLOÀICỦAHỆVISINHVẬTRUỘTNGƯỜITỪDỮLIỆUDITRUYỀNHỌCMÔITRƯỜNG Spécialité: Systèmes Intelligents & Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de : Dr Jean-Daniel Zucker, Dr Ho Bich Hai HANOI – 2017 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce m´emoire a ´et´e r´ealis´e par moi-mˆeme et que les donn´ees et les r´esultats qui y sont pr´esent´es sont exacts et n’ont jamais ´et´e publi´es ailleurs La source des informations cit´ees dans ce m´emoire a ´et´e bien pr´ecis´ee LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’´etudiant Dương Tiến Hậu Table des mati` eres INTRODUCTION Chapitre : Contexte 1.1 M´etag´enomique 1.2 Diversit´e taxonomique 1.3 Diversit´e fonctionnelle 1.4 M´etag´enomique comparative 1.5 Donn´ees de NGS 1.5.1 Les plateformes de s´equen¸cage 1.5.2 Des notions de base 1.5.3 Format de donn´ees 3 8 8 Chapitre : Probl´ ematique ´ 2.1 Etat de l’art ´ 2.2 Enonc´ e du probl`eme 11 11 12 Chapitre : M´ ethodes propos´ ees 3.1 Prototype de pipeline 3.1.1 Tableau de donn´ees 3.1.2 Configuration 3.1.3 Outils 3.1.4 G´en´erateur de commande 3.2 La distance phylog´en´etique des s´equences 3.2.1 La mesure de distance 3.2.2 S´election de mod`ele 3.3 Analyse de donn´ees METAHIT 14 14 15 16 16 16 17 18 19 20 21 21 21 22 26 26 29 29 30 32 32 33 d’ADN Chapitre : Exp´ eriment 4.1 Pipelines de binning 4.1.1 Assemblage 4.1.2 Estimation d’abondance des s´equences (Counting) 4.1.3 Segmentation 4.1.4 Inter-clustering 4.2 Segmentation 4.2.1 Conception de l’objet de segment 4.2.2 S´election du mod`ele 4.3 Analyse de donn´ees METAHIT 4.3.1 Donn´ees : METAHIT 4.3.2 Assemblage i 4.3.3 4.3.4 4.3.5 Calculation d’abondance (counting) Segmentation Inter-clustering 34 34 35 CONCLUSION 36 ´ ERENCES ´ REF 38 ii Table des figures 10 11 12 13 14 15 16 17 18 19 20 Trois questions principales de la m´etag´enomique [15] Neuf r´egions hypervariables de 16S rRNA du Escherichia coli [16] Un exemple de m´ethode d’analyse quantitative [26] Les s´equences sont group´es en basant sur le profil d’abondance Explication des notions de base [12] 10 Binning Pipeline de MetaBAT [35] Binningtaxonomique bas´e deux caract´eristiques : l’abondance de la s´equence et la composition de l’ADN 11 Le sch´ema global de binningtaxonomique Rectangles bleus : developp´es par nous Rectangles jaunes : d´evelopp´es par l’´equipe de ICAN (dans l’avenir) 13 Prototype de pipeline Le g´en´erateur lit les configuration et les m´etadonn´ees pour g´en´erer et appeler les commandes 15 La distance entre deux segments est mesur´ee par la distance phylog´en´etique entre deux ensemble des anotations 18 Distance entre deux annotations est calcul´ee par ses distance sur l’arbre de phylog´en´etique Distance entre x et y est ´egale `a 3, [45] 19 Pipeline d’assemblage 21 Pipeline de counting 23 Pipeline de segmentation 27 Comment segmenter les s´equences Le mod`ele de segmentation essaie de trouver des points de coupures pour s´eparer des segments de deux types : partag´e et non partag´e 27 Le profil d’abondance est estim´e par l’abondance respective d’une s´equence dans chaque ´echantillon 27 Faire l’alignement d’une s´equence aux s´equences de chaque ´echantillon pour extraire d’abondance a` travers ´echantillons 28 Pearson correlation [44] 29 Les distances ne suivent pas la loi normale L’histogramme de distribution est “skew” 30 La plupart des s´equences sont bonnes (la qualit´e de 30 a` 39) 33 Nombre de contig par ´echantillons 34 Nombre de s´equence par ´echantillon 35 Liste des tableaux Des technique de s´equen¸cage [31] R´esum´e des pipelines de binning taxonomiques dans les travaux pr´ec´edents La performance de deux versions de counting iii 12 26 R´esum´e deux ´etapes de pr´etraitement R´esum´e sur le r´esultat de clustering iv 33 35 R´ esum´ e : On a estim´e que les microbes dans nos corps sont environ 100 trillions de cellules, dix fois le nombre de cellules humaines et a sugg´er´e qu’ils codent 100 fois plus de g`enes uniques que notre propre g´enome [1] Une des communaut´es importantes est la communaut´e des microbes dans l’intestin humain, car ils ont donc une profonde influence sur la physiologie humaine et la nutrition, autrement dit ils sont cruciaux pour la vie humaine Comprendre la composition et fonction de cette communaut´e est importante pour am´eliorer la sant´e humaine Des nouveaux progr`es de s´equen¸cage de haut d´ebit (NGS) permet d’´etudier en profonde les microbes dans l’environnement complexe M´etag´enomique est un ensemble de m´ethode pour traiter et analyser ce nouveau type de donn´ees Au point de vue d’informatique, la m´etag´enomique entraˆıne des probl`emes de computation, car les donn´ees de m´etag´enome sont normalement grandes et complexes Un projet (rMGS) du laboratoire (INSERM/ICAN) travaille sur des donn´ees de m´etagn´enome qui vise `a d’analyser la composition des microbes dans l’intestin humainPour r´esoudre cette question, une nouvelle m´ethode de binningtaxonomique a ´et´e propos´e par notre ´equipe Dans le cadre du projet, trois travaux sont : (1) proposer un prototype de pipeline pour analyser des probl`emes m´etag´enomiques, (2) proposer d’une mesure de similarit´e des segments d’ADN bas´e sur l’annotation phylog´en´etique (distance phylog´en´etique), (3) analyser la donn´ees r´eelle METAHIT [2] (124 ´echantillons par MetaHIT consortium, Commission europ´eenne 7th FP) en utilisant nos pipelines Ma contribution est donc repr´esent´ee en trois aspects : (1) Le prototype est utilis´e comme un standard pour tous les pipelines de notre ´equipe Il est facile a` lancer pour les experts du domaine (m´etag´enomique) et facile `a maintenir, a` modifier pour les informaticiens Les r´esultats sont coh´erents, donc il est facile a` suivre et `a d´eboguer (2) La distance phylog´en´etique est utilis´ee non seulement dans le projet, mais encore elle est utile dans d’autres probl`emes par exemple la s´election du mod`ele, la validation des clusters taxonomiques (esp`ece m´etag´enomique – rMGS) Elle contribue une autre fa¸con pour mesurer la similarit´e a` cˆot´e de la m´ethode classique bas´e sur les nucl´eotides.(3) Les r´esultats de binningtaxonomique sur la donn´ees r´eelle METAHIT sert `a comparer avec les travaux pr´ec´edents en termes de performance de pipeline ainsi que les informations biologiques Mots cl´ es : M´etag´enomique, composition microbienne, binning taxonomique, NGS INTRODUCTION Ce stage, d’une dur´ee de cinq mois, a consist´e `a mettre en place des pipelines d’analyse des donn´ees m´etag´enomique afin d’´etudier la communaut´e de microbes dans l’intestin humain Ce rapport pr´esente le travail que j’ai effectu´e lors de mon stage au sein de laboratoire UMI UMMISCO, IRD France Nord et UMI UMMISCO-VN Il est d´eroul´e du f´evrier 2016 au 30 juin 2016 Pendant le stage, je me suis familiaris´e avec la m´etag´enomique et le traitement des donn´ees de nouvelle g´en´eration de s´equen¸cage (NGS) En effet, ce stage est intediscipline, je suis comme un interface entre la biologie et l’informatique, donc, au d´ebout du stage, je faisais des efforts pour comprendre des termes et des concepts biologiques De plus en plus, j’ai conscience des applications protentielles de m´etag´enomique J’ai d´ecider d’orienter ma carri`ere vers la bio-informatique Le projet r´ealis´e ´etait tr`es int´eressant et tr`es enrichissant pour mon exp´erience professionelle En effet, les microbes joue un rˆole primordial pour notre sant´e, pourtant nous avons insuffisament connaissance sur cette communaut´e car la plupart de celles ne peuvent pas mettre en culture dans les laboratoires Grˆace au d´eveloppement de technique de s´equen¸cage (NGS), nous pouvons maintenant ´etudier en profond cette communaut´e Je vous expose dans ce rapport en premier lieu la contexte du projet dans le chapitre Qu’est-ce que la m´etag´enomique ? quelles sont leur application ? quels sont leur d´efis ? J’explique ensuite trois questions principales a` r´esoudre de m´etag´enomique Les types de donn´ees et les techniques de s´equen¸cage sont aussi pr´esent´e dans ce chapitre Dans le chapitre 2, je vais expliquer en d´etail le probl`eme a` r´esoudre dans mon stage En effet, ce stage est dans le contexe d’un grand projet de ICAN-INCERN, nous essayons de regrouper des s´equences dans des clusters intitul´e rMGS, chaque cluster repr´esente une esp`ece m´etag´enomique En fonction de stagiaire, je dois impl´ementer des pipelines pour analyser automatiquement des donn´ees m´etag´enomiques Des travaux pr´ec´edents et des techniques populaires sont abord´es et compar´e Pourle chapitre 3, je vais aborder nos m´ethodes propos´ees, y compris : un prototype de pipeline comme un standard de tous les pipelines, flux de travail de quatre pipelines dans notre projet, une proposition une nouvelle mesure de distance entre des segments d’ADN, l’analyse une donn´ees r´eelle avec nos pipelines Dans la dernier chapitre (chapitre 4), je fais une r´esum´e sur les r´esultat obtenu Chapitre : Contexte 1.1 M´ etag´ enomique Les microbes pr´esentent dans presque tous les environnements de la Terre, jouent un rˆole crucial dans les cycles biog´eochimiques et repr´esentent une grande partie de la diversit´e de la vie Ces microbes peuvent interagir avec son hˆote pour influencer la physiologie et contribuer `a la sant´e, a` la croissance ou `a la forme physique On s’int´eresse aux communaut´es des microbes dans l’intestin humain, l’eau et le sol etc Exemple, l’analyse des communaut´es de microbe a des applications en sant´e : la nutrition [3, 4, 6] et les maladies [7, 8, 9], en agriculture : la corr´elation entre les microbes et les ph´enotypes du plant [10, 11, 13] L’analyse ces types de l’environnement est compliqu´e comme les microbes vivent dans un environnement complexe o` u elles interagissent entre eux De plus, des techniques traditionnelles de s´equen¸cage sont coˆ uteuses, prennent de temps, sont incapables a` traiter une grande quantit´e de g´enome La nouvelle g´en´eration de s´equen¸cage (NGS) qui a ´et´e mise en march´e au milieu des ann´ees 2000, est des plateformes de haut d´ebit de s´equen¸cage Le coˆ ut de s´equen¸cage fait tomber 50,000-fois par rapport le coˆ ut de s´equen¸cage au d´ebut de projet de g´enome humain [14] Le temps de s´equen¸cage est aussi rapide, nous pouvons prendre une jour pour obtenir la g´enome compl`ete de l’homme au lieu d’une d´ecennie comme avant Grˆace a` cette technologie, les chercheurs sont capables d’analyser une massive quantit´e de g´enome mat´eriel Cela permet d’explorer des nouvelles g´enomes et des microbes qui ne sont pas mises en culture Elle est une approche compl´ementaire pour l’identification des microbes La technique NGS cause des difficult´es : — Les donn´ees sont grandes : environ 20- 30 millions reads (10 Gb) par ´echantillon — Complexe : contient des s´equences d’ADN de hˆote, faible couverture rend des erreurs de l’assemblage — Les s´equences sont courtes : 75-300 paires de bases (bp) de Illumina (reads) par rapport plus de 500 bp de Sanger Plus les reads sont courtes, plus la complexit´e de computation augmente Pourtant, l’int´egr´e de cette technique est grande Donc, on essaie de d´evelopper des autres m´ethodes pour r´esoudre ces d´efis La m´etag´enomique, apparu vers 2005, est un ensemble de m´ethodes pour traiter les donn´ees de NGS Les analyses de m´etag´enomique essaie de r´epondre trois questions biologiques, voyez le figure : — La diversit´e taxonomique (qui est l`a ?) : L’identification des esp`eces dans la communaut´e, l’abondance des esp`eces — Diversit´e fonctionnelle (que font-ils) : Les fonctions de communaut´e en des ´echelles diff´erentes : des g`enes, prot´eines, esp`eces, pathway etc — Comparaison m´etag´enomique : (1) la combinaison entre les communaut´es selon la diversit´e taxonomique et fonctionnelle, (2) l’interaction entre les organismes, l’interaction entre les organismes et leur hˆote, (3) l’analyse longitudinale, suivre un ´echantillon Figure 12 – Pipeline de segmentation Figure 13 – Comment segmenter les s´equences Le mod`ele de segmentation essaie de trouver des points de coupures pour s´eparer des segments de deux types : partag´e et non partag´e vecteur d’abondance `a travers ´echantillons Neilsen et al [26], Li et al [37] calculent le profil d’abondance par le m´elange des s´equences dans une piscine (pool) Plus ils font l’alignement entre des reads de chaque ´echantillon avec les s´equences pour estimer l’abondance Le m´elange des reads cause la perte d’information de strain des microbes (strain est sous-unit´e de l’esp`ece Exemple la bact´erie E.coli a plus de 1000 strains) Nous proposons une nouvelle m´ethode pour calculer le profil d’abondance, voyez la figure Figure 14 – Le profil d’abondance est estim´e par l’abondance respective d’une s´equence dans chaque ´echantillon 15 Au lieu de m´elanger des s´equences, nous calculons ind´ependamment l’abondance des s´equences dans chaque ´echantillon Cette m´ethode demande des ressources de computation, 27 car nous devons faire l’alignement (blast) Pourtant, elle permet de conserver l’information de strain des microbes Alignement multiple Pour construire le profil d’abondance d’une, nous devons connaˆıtre l’abondance de cette s´equence dans chaque ´echantillon Consid´erons une s´equence quelconque (scaffold1 de l’´echantillon par exemple), nous connaissons que l’abondance du scaffold dans ´echantillon est X (pipeline 1) Pourtant, nous ne connaissons pas l’abondance du scaffold1 dans d’autres ´echantillons car nous ne m´elangeons pas des s´equences dans une piscine (pool) comme Neilsen [26], Li [37] Nous proposons une m´ethode bas´ee sur blast qui vise `a trouver l’abondance du scaffold dans tous les ´echantillons L’algorithme : — Faire l’alignement (blast) une s´equence a` toutes les ´echantillons Nous choisissons un meilleur alignement de chaque ´echantion — Ces alignement sont filtr´e par des crit`eres : (1) la longueur et l’identit´e d’alignement, (2) la longueur d’alignement par rapport la longueur de la s´equence — Extraire l’abondance des s´equences satisfaites pour construire le profil d’abondance Figure 15 – Faire l’alignement d’une s´equence aux s´equences de chaque ´echantillon pour extraire d’abondance a` travers ´echantillons Chaque s´equence est repr´esent´e par une vecteur de n dimension(n est le nombre d’´echantillon) abnP rof ile = (abnsample1, abnsample2, , abnsampleN ) Crit` eres de filtrage : — la longueur d’alignment :>= 100 — l’identit´e : >= 90% — la longueur de l’alignement/longueur de la s´equence >= 20% Filtrage de profil d’abondance : Il existe des s´equences qui alignent avec tr`es peu de s´equences dans d’autres ´echantillons C ¸ a veut dire que nous ne trouvons pas cette s´equence 28 dans d’autres ´echantillons, l’abondance de cette s´equence dans ces ´echantillons est ´egale a` z´ero Le profil d’abondance des s´equences inclut des z´eros Des fois, la proportion de z´ero est sup´erieuse `a 90 pourcent Ces profils sont des basses qualit´es Ils influencent la qualit´e de cluster dans l’´etape de binning Nous devons les enlever Dans notre situation, nous enlevons les vecteurs dont le taux de z´ero est sup´erieur `a 90 pourcent Clustering Dans le contexte de m´etag´enomiques, nous devons traiter g´en´eralement des grandes donn´ees Si nous utilisons kmean pour faire clustering, il va prendre des temps et nous devons d´efinir aussi le nombre de cluster Cependant, nous ne connaissons pas le nombre d’esp`eces dans notre communaut´e Donc, nous choisissons Canopy clustering impl´ement´e par Neilsen [26] Dans cet outil, les auteurs utilisent la mesure Pearson Correlation pour calculer la distance entre deux vecteurs Figure 16 – Pearson correlation [44] 4.2 Segmentation Nous abordons d’abord la conception de l’objet pour stocker les informations d’un segment dans la section 4.2.1 Au lieu de sauvegrader les segments sous forme FASTA, nous consevons une structure sur R pour faciliter l’oganization, la modification et l’acc`es des informations du segment Ensuite, dans la section 4.2.2, nous parlons des tests statistiques sur des ensembles de param`etre pour la s´election du mod`ele 4.2.1 Conception de l’objet de segment Les segments sont utilis´es dans plusieurs tˆaches suivantes (inter-clustering et intra-clustering etc) Les informations du segment doivent ˆetre faciles `a mettre a` jour et `a acc´eder Nous d´ecidons que les segments sont stock´es sous forme d’objet avec des propri´et´es d´efinies au lieu de forme textuelle La conception est d´ecrite dans le listing 11 Listing 11 – La conception de la classe Segment Proprietes : 29 −sample : l e nom du e c h a n t i l l o n − s c a f f o l d : l ’ i d e n t i f i c a t i o n du s c a f f o l d − l a b e l : l ’ e t i q u e t t e a n n o t e e par l a s e g m e n t a t i o n − s t a r t : l a p r e m i e r e p r o s i t i o n du segment s u r l e s c a f f o l d −end : l a d e r n i e r e p r o s i t i o n du segment s u r l e s c a f f o l d −abn : l ’ abondance moyenne du segment −s e q : l a s e q u e n c e d ’ADN −kmer : l a c o m p o s i t i o n de 4−mers −a l i g n m e n t s : l e s a l i g n e m e n t s dans l ’ e t a p e d ’ a l i g n e m e n t m u l t i p l e Les sept premi`eres propri´et´es sont initialis´ees au d´ebut La propri´et´e kmer est ajout´ee dans l’´etape d’intra-clustering, pareillement la propri´et´e alignments est ins´er´ee dans l’´etape d’inter-clustering Pour faciliter la modification de l’objet Nous cr´eons quelque m´ethodes pour manipuler la classe origine — add property() : cr´eer une nouvelle classe en ajoutant une propri´et´e dans la classe initiale — get property() : acc´eder la valeur d’un propri´et´e de l’objet — init object() : initialiser un objet 4.2.2 S´ election du mod` ele Nous avons test´e le mod`ele de segmentation avec 16 ensembles (reg, win ∈ [0.5, 1, 1.5, 2]) de param`etre sur 30 ´echantillons La distance ne suit pas la loi normale, voyez la figure 17 Donc, le t-test ne fonctionne pas avec ce type de donn´ees En effet, nous devons transformer les distances avec la fonction log10 Nous choisissons un ensemble de param`etre qui satifait : — Il y a une diff´erence significative de distance entre lui et d’autres ensembles — La distance moyenne des ´etiquette est faible Figure 17 – Les distances ne suivent pas la loi normale L’histogramme de distribution est “skew” Anova test 30 Listing 12 – Anova test Le r´esultat montre que : (1) la diff´erence de distance entre des ensembles de param`etres est significative, (2) il n’a pas d’interaction entre Reg et Win >mix1 p r i n t ( summary ( mix1 ) ) ## E r r o r : Sample ## Df Sum Sq Mean Sq F v a l u e Pr(>F) ## R e s i d u a l s 29 1.482 ## ## E r r o r : Within ## Df Sum Sq Mean Sq F v a l u e Pr(>F) ## Reg 0.940 0.31319 8