1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích biến thể cấu trúc của bộ gen cây trồng bằng cách sử dụng bản đồ quang học

46 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 1,74 MB

Nội dung

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT DE LA FRANCOPHONIE POUR L’INNOVATION (Renommé de l’Institut Francophone International, IFI) GINEL DORLEON ANALYSE DES VARIATIONS STRUCTURALES DES GENOMES DE PLANTES A L'AIDE DE CARTES OPTIQUES PHÂN TÍCH BIẾN THỂ CẤU TRÚC CỦA BỘ GEN CÂY TRỒNG BẰNG CÁCH SỬ DỤNG BẢN ĐỒ QUANG HỌC MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI 2018 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT DE LA FRANCOPHONIE POUR L’INNOVATION (Renommé de l’Institut Francophone International, IFI) GINEL DORLEON ANALYSE DES VARIATIONS STRUCTURALES DES GENOMES DE PLANTES A L'AIDE DE CARTES OPTIQUES PHÂN TÍCH BIẾN THỂ CẤU TRÚC CỦA BỘ GEN CÂY TRỒNG BẰNG CÁCH SỬ DỤNG BẢN ĐỒ QUANG HỌC Spécialité: Systèmes Intelligents & Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de : Dr William Marande, Stéphane Cauet HANOI 2018 ATTESTATION SUR L'HONNEUR J'atteste sur l'honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n'ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée GIẤY CHỨNG NHẬN DANH DỰ Tôi làm chứng danh dự hồi ký tự thực liệu kết trình bày xác chưa xuất nơi khác Nguồn thơng tin trích dẫn ghi nhớ xác định rõ Contexte et Résumé du stage Le Centre National de Ressources Génomiques Végétales (CNRGV), une unité INRA basée sur le campus INRA d’Auzeville, a pour mission de fournir des ressources et des solutions technologiques innovantes pour accompagner divers programmes de recherche en génomique Dans le domaine végétal, la génomique permet de répondre aux grands objectifs de la recherche agronomique En effet, caractériser et préserver les ressources génétiques, optimiser les pratiques culturales, concevoir des produits nouveaux, protéger l'environnement, améliorer les espèces supposent une compréhension approfondie du vivant, de son organisation et de son fonctionnement Le niveau des connaissances génomiques et la mtrise des biotechnologies s'accroissent régulièrement et ouvrent la voie une compréhension plus globale du vivant Afin de toujours se positionner la pointe des technologies pour l’analyse des génomes des végétaux, le CNRGV doit s’adapter aux nouvelles technologies en émergence et proposer des solutions adaptées une recherche de pointe et de qualité Dans ce cadre, le CNRGV s’est doté d’une technologie permettant de produire des cartes optiques partir d’ADN de haut poids moléculaire (>150 kb) (Irys System – Bionano Genomic) Ces cartes optiques permettent d’améliorer les assemblages de génomes issus des séquenceurs de troisième génération telle que Pacific Biosciences La combinaison de ces approches permet d’obtenir un génome de référence de très haute qualité Les cartes optiques permettent également d’avoir une vue d’ensemble du génome En comparant les cartes optiques de plusieurs génotypes, il est ainsi possible d’observer des variations structurales entre les différents génotypes, telles que des inversions de région, des insertions ou des délétions de séquences, des régions répétées, etc Dans ce contexte, le CNRGV a proposé ce stage afin d’utiliser cette nouvelle technologie pour l’analyse des variations structurales du génome végétal Deux grands objectifs sont attendus pour ce stage et sont traités tout au long de ce rapport Ce rapport est divisé en chapitres Dans le premier chapitre nous réalisons une présentation du Laboratoire Le deuxième chapitre est une introduction générale au sujet de stage ainsi que son contexte Le troisième chapitre présente l’état de l’art et l’étude bibliographique Dans le quatrième chapitre du rapport nous présentons le travail sur le premier objectif du stage Il s’agit d’une analyse des spécificités de la technologie Bionano utilisée par le laboratoire pour produire les cartes optiques tout en soulignant les raisons des limites de certains assemblages et en caractérisant les problèmes rencontrés À la suite de cette étape, nous présentons le pipeline développé permettant d'automatiser et d'améliorer le processus de traitement et d’assemblages de données au laboratoire Dans le cinquième chapitre du rapport est présenté le deuxième objectif qui est l’analyse et la comparaison des cartes optiques afin d'identifier les variations entre les différents génotypes, et ensuite la visualisation des cartes de différents génomes Le dernier chapitre, la conclusion et aussi la contribution apportée et les perspectives liées au contexte du sujet de stage Table des Matières Contexte et Résumé du stage CHAPITRE - I 1- Présentation du Laboratoire 1.1- Mission 10 1.2- Services 10 1.3 - Collaborations 10 Glossaire des terminologies 11 CHAPITRE - II 12 1- INTRODUCTION GÉNÉRALE 13 1.1 Problématique - Généralité 13 1.2 - Objectif et Résultats attendus 15 CHAPITRE - III - ÉTAT DE L’ART 16 HISTORIQUE ET GENETIQUE 17 ÉVOLUTION VERS LA GENOMIQUE 18 SEQUENÇAGE DE GENOME 19 3.1 Stratộgies pour le sộquenỗage du gộnome des plantes 20 3.2 - Objectif du sộquenỗage de gộnome 21 - ASSEMBLAGE DE GENOME 21 4.2 - Difficultés et enjeux 22 4.3- Assemblage de Génome – Les Algorithmes 22 4.3.1 - Théorie des Graphes – Chemin Eulérien 22 4.3.2 - Approche Heuristique – Algorithme Glouton 23 COMPARAISON DE GÉNOMES 24 5.1 - Formulation du problème 24 5.2 - Profits tirés de la comparaison des génomes 25 - VARIATIONS STRUCTURALES 26 Introduction 26 6.2 Impact des variations structurales dans les génomes 26 6.2.1 Impact Négatif des SV 27 6.2.2 Impact Positif des SV 27 7- CARTE OPTIQUE 28 7.1 Carte Optique, définition et généralité 29 7.2 Carte Optique, son rôle 29 CHAPITRE - IV - TRAVAIL PRATIQUE - EXPÉRIMENTATION 30 - Travail Pratique I – Premier Objectif du Stage 31 1.1 - Évaluation de la Technologie Bionano dans le contexte du laboratoire 31 1.2 - Problématique 31 1.3- Processus de traitement 31 1.4 - Avantages du système Irys Bionano 32 1.5 - Inconvénients du système Irys dans son utilisation au laboratoire 33 Solution - Travail pratique I 33 1.1 - Langages Utilisés - 33 1.2 - Outils ET Environnement de développement 34 1.3 - Les Outils Développés – Résultats 34 1.4 - Le pipeline développé - BGrun 34 1.6 - Avantages de la solution en ligne de commande 36 1.7 - Inconvénients de la solution en ligne de commande 36 1.8 - Comparaison avec IrysView 36 CHAPITRE -V - Travail Pratique II - 37 Comparaison de génome via les cartes optiques 38 2.1 - Objectif - Problématique 38 2.2 - Jeu De Données 38 2.3 - Les différentes étapes 38 2.4 - Comparaison des résultats 39 2.5 - Visualisation des cartes avec IrysView………………………………………………39 CHAPITRE -VI - CONCLUSION ET PERSPECTIVES 41 Conclusion 42 Contribution 42 Discussion et Perspectives 43 RÉFÉRENCES BIBLIOGRAPHIQUES 44 Table des Figures Figure - Processus de sộquenỗage, schộma tirộ de Futura science 19 Figure - Les générations de sộquenỗage (source: https://bioinfo-fr.net/le-sequencage) 20 Figure - Reprộsentation de Carte optique avec les SV – Source Bionano Genomics 28 Figure - Workflow d'obtention d'une carte optique - source Bionano 29 Figure - Bionano Workflow 31 Figure - Workflow d'analyse du Laboratoire 32 Figure - Schéma de la Solution Proposée 33 Figure - Schéma de l'outil développé 34 Figure - Tableau de Comparaison de l'outil développé avec IrysView 36 Figure 10- (Comparaison de génome) Solution obtenue -1 39 Figure 11- (Comparaison de génome) Solution obtenue -2 40 CHAPITRE -I 1- Présentation du Laboratoire L’exploration des génomes représente un enjeu majeur pour la connaissance appliquée au règne animal et végétal La génomique se définit comme l’étude exhaustive des gènes : localisation au sein du gộnome, sộquenỗage, identification de fonction biologique, variabilité au sein d’individus d’une même espèce Les nombreux programmes de génomique développés depuis quelques années, ont entrné la création et la prolifộration de ressources gộnomiques Le Ministốre Franỗais de la Recherche a reconnu l’importance stratégique de l’existence de centres de ressources biologiques (CRB) dans la recherche génomique C’est dans ce contexte que l’INRA, mandaté par le ministère a créé le Centre National de Ressources Génomiques Végétales (CNRGV), une structure nationale destinée gérer les ressources génomiques végétales Créé en 2004 par l’INRA et localisé sur le centre de Toulouse, le Centre National de Ressources Génomiques Végétales (CNRGV) est spécialisé dans l’acquisition, la conservation, la validation, l’étude et la distribution de ressources génomiques, et des données informatiques afférentes ce matériel biologique Son rôle est non seulement de centraliser des ressources génomiques végétales, mais aussi de valoriser ce travail en facilitant l’accès du matériel biologique et des technologies de pointe pour la recherche scientifique académique et privée Détenir des ressources biologiques validées avec des garanties d’assurance qualité et de traỗabilitộ est indispensable pour la recherche scientifique et pour le développement des biotechnologies, surtout dans le domaine du génome Ces ressources génomiques constituent un enjeu stratégique pour l’identification de gènes d’intérêt La conservation de ces ressources génomiques dans ces centres qualifiés permet d’assurer :  La qualité des collections génomiques  La protection des données sensibles  La gestion des transactions entre les différents acteurs L’enjeu scientifique est d’assurer aux équipes de recherche publiques et privées, l’accès des matériels de référence, avec des garanties de qualité technique et dộvolution technologique continue Pour la communautộ scientifique franỗaise, il sagit aussi de préserver les acquis des efforts réalisés pour constituer des collections de haute valeur et d’en assurer la meilleure valorisation scientifique et économique Conformément aux termes de la charte concernant les centres de ressources biologiques, le CNRGV est ouvert l’ensemble de la communauté scientifique publique et industrielle au niveau international Il est piloté par un responsable scientifique et doté d’un conseil scientifique comportant des utilisateurs et des experts extérieurs Dès le départ, le CNRGV a mis en œuvre un système de management de qualité suivant la norme ISO 9001: 2000, pour laquelle il est certifié depuis 2005 1.1- Mission En tant que prestataire de service et centre de référence pour la conservation de collections génomiques végétales, les grandes missions confiées au CNRGV sont les suivantes :  Collecter, valider, entretenir les collections génomiques des espèces végétales modèles et cultivées, et les enrichir dans le cadre de relations internationales  Diffuser les échantillons biologiques  Produire et diffuser des outils gộnomiques faỗon Diffuser l'information biologique relative ces échantillons  Être la pointe des technologies liées l’analyse des génomes  Proposer des formations et accueillir des équipes 1.2- Services Dans le cadre de ses différentes missions, le CNRGV :  Construit et gère différentes collections génomiques de plantes modèles et cultivées (Blé, Colza, Maïs, Medicago, Melon, Orge, Piment, Pois, Radis, Seigle, Tabac, Tomate, Tournesol, Vigne)  Génération de carte optique 1.3 - Collaborations De nombreuses collaborations sur divers projets avec des partenaires internationaux sont en cours, par exemple :  Le CNRGV a été identifié comme centre de référence pour les ressources génomiques du blé (International Wheat Genome Sequencing Consortium), de l’orge et les ressources du Medicago  Le CNRGV est partenaire d’un projet européen visant la caractérisation des génomes de blé coordonné par Catherine Feuillet (INRA – Clermont Ferrand)  Le CNRGV est également membre du comité de coordination international pour le projet de sộquenỗage du gộnome du blộ IWGSC (International Wheat Genome Sequencing Consortium)  Le CNRGV est le partenaire privilégié pour la gestion des ressources génomiques de la tomate et l’apport de technologies innovantes pour le criblage des banques d’ADN de grands fragments  Le CNRGV est impliqué dans le consortium international visant la caractérisation du génome de la canne sucre  Le CNRGV est impliqué dans le consortium international visant au sộquenỗage du gộnome du tournesol au sein d’un consortium international impliquant la France, le Canada et les États-Unis  Plus de 250 laboratoires répartis dans le monde ont déjà fait appel aux ressources et outils génomiques du CNRGV Ses principaux partenaires sont l'Union Européenne, le Ministère Franỗais de la Recherche, Les Rộgions MIDI PYRẫNẫS, Ministốre de l'Éducation Nationale de l'Enseignement Supérieur et de Recherche Informer davantage en visitant le site internet du laboratoire: https://cnrgv.toulouse.inra.fr/ 10 Alors, le robot (Irys instrument) lui il génère des fichiers de donnộes brutes sur le serveur de donnộes de faỗon systộmatique, l'utilisateur par le biais de l'interface graphique du PC IrysView, a la possibilité de récupérer les données, les manipuler pour ensuite lancer des traitements depuis le cluster IrysSolve Le processus est répété chaque fois que l'utilisateur a besoin de lancer une analyse particulière et il intervient chaque fois pour voir si le processus est achevé ou pas ou spécifier d'autres paramètres pour le processus en cours Dans la figure ci-dessous, nous présentons le schéma du processus de traitement global lancé par l'utilisateur lors de chaque analyse A la fin de chaque étape dans le processus, l'utilisateur intervient soit pour faire un contrôle de qualité, soit pour définir de nouveaux paramètres de traitement pour le jeu de données A la fin du processus, le système donne la possibilité par l'intermédiaire d'un composant graphique de visualiser toute la structure du génome via la carte optique, de pouvoir les comparer et observer les variations structurales Dans le cadre d’analyse de plusieurs jeux de données, si l’utilisateur veut obtenir un fichier de résultat global, il doit combiner les résultats de chaque étape afin d'avoir son fichier final résumant le processus Figure - Workflow d'analyse du Laboratoire 1.4 - Avantages du système Irys Bionano Le système Irys permet d'acquérir et de visualiser des images de haute résolution et effectuer des analyses moléculaires simples de longues molécules d'ADN l'aide de l'ensemble d'instrument automatisé Irys Le système offre: - Un interface tactile intuitive - Exportation automatique d'image 32 1.5 - Inconvénients du système Irys dans son utilisation au laboratoire Nous avons aussi souligné quelques inconvénients liés l'utilisation du système Bionano au laboratoire Le premier inconvénient l’utilisation du système Irys est qu'on ne peut pas lancer les assemblages en parallèles Ensuite, le processus n’est pas automatisé pour un workflow de données, ce qui fait appel un utilisateur intervenant chaque fois avant, pendant et après chaque étape, cela devient fastidieux Un autre problème constaté aussi avec le processus pour l'utilisation du système Irys au laboratoire est que c'est l'utilisateur de créer des fichiers de synthèse et de statistique pour les données traitées - donc une absence de statistique finale pour un workflow Solution - Travail pratique I Compte tenu des inconvénients et des limites relevées dans l'utilisation du système Irys au laboratoire, nous avons opté pour une solution en ligne de commande pour automatiser et améliorer le processus de traitement et d'assemblage du laboratoire L’objectif est alors de développer un pipeline par des outils de parsing, des scripts pouvant lancer un workflow automatique d'assemblage et de traitement de données Bionano Cet outil devra permettre de générer des fichiers de synthèse tabulộs exploitables par une application (traỗabilitộ des rộsultats dans une base de données, de manipuler les données brutes, de manipuler le workspace de Bionano et enfin, définir un workflow d’assemblage automatique des cartes optiques Alors, l’outil développé doit partir récupérer les données brutes c'est-à-dire les fichiers de formats BNX, Fasta, etc Depuis le serveur de données, ensuite pour les traiter, faire des analyses Bionano, faire des tests de qualité, faire des assemblages et au final parser les données pour avoir des fichiers de synthèses et de statistique finale interprétable par l'utilisateur Le schéma ci-dessous résume notre démarche Figure 7- Schéma de la Solution Proposée 33 1.1 - Langages Utilisés - 1.2 - Outils ET Environnement de développement Gedit Eclipse IDE, version OXYGEN 1A – Ubuntu 16.04.3 LTS (Xenial Xerus) 1.3 - Les Outils Développés – Résultats Comme résultats de ce travail pour le premier objectif, on a procédé au développement d’un ensemble d’outils regroupés en un pipeline interprétant les librairies RefAligner/Assembler de Bionano afin de faire le traitement et l’analyse de données et l’assemblage des cartes optiques Le pipeline est accompagné d’un manuel utilisateur servant de guide pour lancer les analyses 1.4 - Le pipeline développé - BGrun Le pipeline développé fourni exactement 11 fonctionnalités et permet de lancer plusieurs analyses telles que des analyses de filtrage des valeurs fixées, de fusionner des données brutes, de faire les statistiques, de lancer des analyses de qualités sur un ensemble de données, de faire des assemblages et tant d’autres Développé en Perl, Bash et Python en utilisant les librairies RefAligner et Assembler de Bionano, cet outil permet d’automatiser le traitement de données génomiques sur un cluster Linux tout en améliorant les qualités par ajustement des paramètres d’entrées Au lancement du pipeline, un menu simplifié permet l’utilisateur de faire son choix afin de lancer l’opération désirée L’un des avantages de cet outil c’est qu’il permet l’utilisateur de faire beaucoup de traitement automatique et recevoir la fin un fichier contenant toutes les statistiques de ses analyses Un autre avantage c’est que, ce pipeline permet de lancer un workflow d’analyse, contrairement au matériel Irys, sur un dossier contenant un ensemble de données et crée des fichiers de synthèse pour chaque fichier de données la fin du processus Lorsque les traitements sont lancés depuis le serveur, un mail est envoyé au début et la fin de chaque processus indiquant l’utilisateur l’état de son job Figure - Schéma de l'outil développé 34 1.5 - Présentations des différentes fonctionnalités développées Option – Filtrage100kb Cette option permet de lancer une opération de filtrage sur les données brutes avant de lancer d’autres analyses Ceci est important surtout quand on a des données brutes et que l’on cherche des critères de qualité sur la longueur de nos molécules Un filtrage 100kb permet d’avoir des molécules avec une longueur minimale de 100kb Option – Filtrage150kb Même explication que pour la première option avec de préférences des molécules filtrées sur une longueur de 150kb Option – CmapStat Cette option permet de faire une statistique sur un fichier cmap – elle prend en entrée un ou des fichiers cmap et renvoie des statistiques comme longueur minimale/maximale etc L’importance de cette option est de permettre l’utilisateur de conntre le contenu de son fichier Option – MergeBNX Cette option permet de fusionner plusieurs fichiers de données brutes en un seul et conservant leur version Option – BnxStat Cette option permet d’obtenir les informations statistiques sur un fichier de données brutes comme le nombre de molécules, leur longueur minimale et maximale etc Option – FastaStat Cette option permet d’avoir des informations statistiques sur un fichier fasta comme le nombre de séquences dans le fichier, la longueur totale de la séquence, et le nombre de nucléotide pour chaque base Option – MQR (Molecule Quality Report) Cette option est parmi les options de base les plus utilisées en matière d’analyse de données brutes Cette option est une analyse sur la qualité des molécules Ceci est important pour savoir si les données brutes sont de bonnes qualités avant de continuer avec les opérations d’assemblages de génomes Option – DeNovo Cette option est utilisée pour lancer les assemblages de novo sur des génomes choisis Elle sera utile pour le deuxième objectif du stage pour lancer un workflow et améliorer les assemblages 35 Option – GCompare : Cette option permet de comparer deux cartes (génomes) Cette option nous sera très utile dans pour le deuxième objectif du stage Option 10 – Align Cette option permet d’aligner une molécule, une région d’intérêts sur un génome afin de déterminer où il y a correspondance entre le génome de référence et la région d’intérêts Option 11 – SV (Structural Variation) Cette option permet de détecter les variations structurales entre deux génomes assemblés, elle sera utile pour le deuxième objectif du stage Option 12 – Quitter Cette option permet de sortir de l’invite de commande de l’outil BGrun 1.6 - Avantages de la solution en ligne de commande      Plus flexible et pas de chargement des données Permet de lancer plusieurs opérations en ligne de commande, traitement parallèle Synthèse et Statistique des résultats Simplifie le travail des utilisateurs Enchnement des différentes étapes de traitement du processus 1.7 - Inconvénients de la solution en ligne de commande    Pas de Visualisation Tourne uniquement sur une plateforme Linux Pas d'arrêt provisoire - tout arrêt en cours de route entrne l'arrêt définitif du processus 1.8 - Comparaison avec IrysView Option BGrun IrysView Système d’Exploitation Linux Windows/Linux Job Scheduler Supporte tout SGE, besoin de configuration pour les autres Paramétrage Simple Relativement complexe Traitement en parallèle Oui Non Visualisation Non Oui Traitement automatique Oui, workflow possible Non, traitement isolé Modification du code Très simple N/A Statistique des données brutes Oui oui Figure - Tableau de Comparaison de l'outil développé avec IrysView 36 CHAPITRE -V 37 Travail Pratique II Comparaison de génome via les cartes optiques 2.1 - Objectif - Problématique En effet, cette analyse fait intervenir deux génomes G1 et G2 de tournesol, un de ces deux génomes est résistant un parasite et l’autre sensible ce parasite Ensuite, cette analyse fait aussi intervenir une région d’intérêts RI qui est responsable de cette résistance au parasite Le problème est tel que, pour ces deux cartes optiques représentant les deux génomes de tournesol connus et une séquence de référence représentant une région d’intérêts, on cherche alors comparer ces deux cartes entre elles et aligner notre séquence de région d’intérêts sur chacune de ces cartes afin de trouver la position de cette séquence au sein de ces génomes et de pouvoir visualiser les différences par la position des variations structurales Identifier cette région d’intérêts est importante pour déterminer pourquoi l’un de ces génomes de tournesol est résistant au parasite et l’autre sensible 2.2 - Jeu De Données Pour cette partie, nous avons utilisé un jeu de données contenant deux génomes de tournesol Ces deux génomes, les cartes optiques, ont été assemblés avec le logiciel Access de Bionano 2.3 - Les différentes étapes Assemblage des cartes optiques Pour cette étude de comparaison de génome (cartes optiques), l’assemblage des cartes a été réalisé sur le système Access par une autre partie du laboratoire Comparaison des cartes optiques Pour comparer les cartes, nous avions procédé en utilisant la librairie de RefAligner Ainsi, dans le premier outil développé, l’option GCompare nous a permis de comparer les deux cartes optiques étudiées Cette option prend en entrée deux cartes optiques au format cmap Une carte sert de référence avec laquelle on va comparer l’autre carte qui est considérée comme la carte requête Comme résultats, nous avions obtenu en sortie le fichier xmap nous indiquant les régions mappées entre les cartes ainsi que les variations structurales qui en existent Détection des variations structurales Pour détecter les variations structurales, nous avons utilisé l’option SV de l’outil développé afin de lancer une analyse de détection des SV sur les deux génomes considérés En effet, la comparaison 38 de génomes est un moyen efficace pour détecter les variations structurales dans ces génomes Comme variations structurales détectées, nous avons pu identifier uniquement des délétions par rapport la région d’intérêts On aura la possibilité de les identifier graphiquement lors de la visualisation des résultats Identification de la région d’intérêts Pour identifier et vérifier que la région d’intérêts considérée est située dans l’un ou nos deux génomes, le processus est d’aligner la séquence de notre région d’intérêts sur nos deux génomes En utilisant la 11eme option, Align, de l’outil développé, on peut aligner notre région d’intérêt sur nos deux génomes Dans ce cas, la région d’intérêts est considérée comme la requête par rapport au génome de référence Les résultats de notre analyse nous indiquent que notre région d’intérêts se trouve dans le premier génome et non pas dans le deuxième 2.4 - Comparaison des résultats Afin de s’assurer que le résultat obtenu avec l’outil vaut le coup, nous avons réalisé la même analyse avec le logiciel IrysView et nous avons obtenu exactement le même résultat que pour l’outil développé Ce qui permet de valider le résultat de notre outil par rapport au logiciel type d’IrysView 2.5 - Visualisation des cartes avec IrysView Pour la visualisation des résultats, l’inconvénient majeur de l’outil développé, nous avons recouru au logiciel IrysView Ainsi, en important nos fichiers résultats dans IrysView et choisissant les options appropriées, nous avons la possibilité de visualiser notre génome par rapport la région d’intérêts et vice versa Ce qui nous donne aussi la possibilité de visualiser les variations structurales entre notre région d’intérêts et le génome de référence Résultat 1La figure suivante présente le génome de référence, la région d’intérêts, les régions correspondantes et les variations structurales détectées L’alignement de la région d’intérêts sur le génome de référence produit uniquement des délétions Voir figure ci-dessous L’image ci-dessous affiche la détection de la région d’intérêt dans le génome G1 sur le contig 2674 Pour la première expérimentation, nous avons utilisé la région d’intérêts connue et la comparer avec le génome G1 afin de trouver la position dans le génome G1 correspondant cette région d’intérêt En voici le résultat ci-dessous G1 Ri Figure 10 - (Comparaison de génome) Solution obtenue -1 39 Résultat 2Dans la deuxième expérimentation, nous avions aligné le deuxième génome sur la région d’intérêt Comme on peut le voir dans l’image ci-dessous, on a trouvé la position de cette région d’intérêt dans le génome On peut aussi visualiser les variations structurales, des délétions ici, identifiées En vert, le génome, et en bleu la région d’intérêts G2 Ri Figure 11 - (Comparaison de génome) Solution obtenue -2 En conclusion, nous pouvons constater que nous arrivons détecter la position de cette région d’intérêt dans nos génomes Ce qui est important pour les biologistes afin de répandre cette région d’intérêt au sein d’autres génomes de tournesol afin de rendre cette plante résistible au changement de température, ce qui pourra maximiser le profit et la portée économique de cette plante 40 CHAPITRE -VI CONCLUSION ET PERSPECTIVES 41 Conclusion La technologie des cartes optiques est une technique importante qui fournit beaucoup informations sur le génome, ce qui a considérablement amélioré les assemblages de plusieurs génomes végétaux Cependant, beaucoup d’espèces contiennent des régions génomiques qui ne sont pas facilement accessible par les mộthodes de sộquenỗage et d’assemblages actuelles Ceci rend difficile parfois l’obtention d’une carte optique qui couvre tout le génome et qui permet de visualiser toutes les SV présentent L’analyse des variations structurales est une étape importante dans l’étude de l’évolution des génomes En comparant plusieurs génomes, il est possible d’identifier les SV entre ces génomes Dans cette étude, nous avons vu que les cartes optiques constituent principalement l’un des moyens les plus efficaces pour la détection et la visualisation des variations structurales dans les génomes Les variations structurales sont responsables de diverses maladies d'ordre génétique chez les différentes espèces, l'humain et le végétal en particulier ce qui rend importantes les études visant détecter les variations dans les génomes Chez les espèces végétales comme le maïs ou le riz par exemple, identifier les régions des variations structurales permet d'identifier et d'étudier les régions qui participent dans la croissance, la résistance aux maladies, la résistance la sécheresse et la qualité nutritive du grain Au cours de ce stage, nous avions acquis de nombreuses connaissances majeures dans le domaine de la bio-informatique et la génomique en particulier Ce qui nous est favorable pour continuer une étude avancée dans ce domaine Contribution Notre contribution suivant les objectifs fixés pour le stage se résument par les grands points suivants:  Un pipeline avec 11 fonctionnalités L’un des objectifs du stage était tout d’abord une analyse détaillée de la technologie Bionano utilisée au laboratoire afin de caractériser ces limites Suite cette analyse, nous avons proposé un prototype de pipeline incluant 11 fonctionnalités pour les analyses et les traitements des données génomiques au laboratoire Ce pipeline est un ensemble de scripts écrits en perl, bash et python basés sur l’outil RefAligner de Bionano L’outil développé offre 11 fonctionnalités Pour les experts du domaine et les utilisateurs directs, le pipeline est simple et facile utiliser Pour les informaticiens, c’est facile d’y ajouter d’autres fonctionnalités pour assurer d’autres traitements l'avenir si besoin  Workflow d’assemblage automatique de carte optique L’outil développé offre la possibilité de lancer un workflow d’assemblage automatique de carte optique  Traitement de grandes masses de données Le pipeline développé permet de lancer des analyses sur des grandes masses de données disponibles Par le fait que l’outil développé ne fait pas le chargement de données, les grandes masses de données sont traitées sans contraintes vues que l’outil ne les passe qu’en lecture D’autres en plus, l’outil offre aussi la possibilité de lancer des traitements en parallèle  Identification des variations structurales Notre étude nous a permis d’identifier et visualiser les variations structurales entre les deux génomes considérés pour la dernière expérimentation  Comparaison des génomes 42 L’une des fonctionnalités de l’outil développé offre la possibilité de faire la comparaison de génome Ainsi, nous avons comparé nos deux génomes avec la région d’intérêts afin d’identifier les positions de la région d’intérêts dans les deux génomes considérés Cette fonctionnalité est, cependant, très gourmande en matière de ressources informatiques Discussion et Perspectives L’outil développé permet de réaliser des traitements spécifiques aux données génomiques au laboratoire Notre outil ne fournit pas la possibilité de visualiser les génomes ce qui constitue un grand inconvénient pour observer graphiquement les variations structurales entre des génomes Certaines fonctionnalités de l’outil développé requièrent beaucoup de ressources en matière de mémoire et de cpu en raison du choix des structures de données et des algorithmes utilisés Des inconvénients qui peuvent être améliorés voire corriger dans un prochain travail de mise jour de cet outil 43 RÉFÉRENCES BIBLIOGRAPHIQUES [1] E L van Dijk, H Auger, Y Jaszczyszyn, and C Thermes, “Ten years of next-generation sequencing technology,” Trends Genet., vol 30, no 9, Aug 2014 [2] M Delseny, Le sộquenỗage des gộnomes de plantes: vers une nouvelle révolution en biologie végétale,” vol 18, pp 468–473, 2009 [3] Z Jiang, D S Rokhsar, and R M Harland, “Old can be new again: HAPPY whole genome sequencing, mapping and assembly.,” Int J Biol Sci., vol 5, no 4, pp 298–303, Jan 2009 [4] R K Saxena, D Edwards, and R K Varshney, “Structural variations in plant genomes,” Brief Funct Genomics, 2014 [5] H Tang, E Lyons, and C D Town, “Optical mapping in plant comparative genomics,” Gigascience, vol 4, no 1, p 3, 2015 https://en.wikipedia.org/wiki/Friedrich_Miescher http://www.societechimiquedefrance.fr/adn.html [6] [7] [8] [9] Kiefer, M et al BrassiBase: introduction to a novel knowledge database on Brassicaceae evolution Plant and Cell Physiology, pct158 (2013) A Practical Guide to the Analysis of Genes and Proteins, 3rd Edition” [Baxevanis & Ouellette, 2005] [10] Edwards, D & Batley, J Plant genome sequencing applications for crop improvement Plant biotechnology journal 8, 2–9 (2010) [11] [15] Varshney, R K & May, G D Next-generation sequencing technologies: opportunities and obligations in plant genomics - 2012 https://www.khanacademy.org/science/biology/biotech-dna-technology/dnaSequencing-pcr-electrophoresis/a/dna-sequencing https://www.futura-sciences.com/sante/actualites/genetique-sequencage-adn-nulsDNA sequencing at 40: past, present and future Jay Shendure, Shankar Balasubramanian, George M Church - Nature 550, October 2017 W J Ansorg e, Next-generation DNA sequencing techniques, New Biotechnol 25 [16] E.S Lander, et al., Initial sequencing and analysis of the human genome, Nature 409 [17] Messing J, Llaca V.Importance of anchor genomes for any plant genome project Proc Natl Acad U.S.A 2017 [18] Edwards D, Batley J.Plant genome sequencing applications for crop improvement Plant Biotechnol J.2010; [19] Jackson SA, Iwata A, Lee SH, Schmutz J, Shoemaker R Sequencing crop genomes: approaches and applications New Phytol.2011 [12] [13] [14] 44 [20] Hou H, Atlihan N, Lu ZX New biotechnology enhances the application of cisgenesis in breeding Front Plant Sci 2014 [21] Shendure, J, Aiden, EL.The expanding scope of DNA sequencing Nature Biotechnol.2012 [22] Mardis ER.A decade’s perspective on DNA sequencing technology Nature 2011 [23] Anton BP, Mongodin EF et al Complete genome sequence of ER2796, a DNA methyltransferase deficient strain of Escherichia coli K-12 PLoS One 2015 [24] Loman NJ, Quick J, Simpson JT A complete bacterial genome assembled de novo using only nanopore sequencing data Nat Methods 2015 [25] Plant and animal whole genome sequencing [Internet] 2015 [26] https://fr.wikipedia.org/wiki/Assemblage_ (bio-informatique) [27] Wheeler DA, Srinivasan M, Egholm M, et al The complete genome of an individual by massively parallel DNA sequencing, Nature, 2008, vol 452 Pop M, Salzberg SL Bioinformatics challenges of new sequencing technology, Trends Genet, 2008, vol 24 Jeck WR, Reinhardt JA, Baltrus DA, et al Extending assembly of short DNA sequences to handle error, Bioinformatics, 2007, vol 23 https://fr.wikipedia.org/wiki/S%C3%A9quen%C3%A7age [28] [29] [30] [31] [32] [33] [34] [35] [36] Medvedev P, Georgiou K, Myers EW, et al ‘Computability and Equivalence of Models for Sequence Assembly’, Workshop on Algorithms in Bioinformatics (WABI 2007 Nagarajan N, Read TD, Pop M Scaffolding and validation of bacterial genome assemblies using optical restriction maps, Bioinformatics, 2008, vol 24 Overlap Layout Consensus assembly Ben Langmead – Jonhs Hopkins Whiting Schoof of Engineering – 2013 Stankiewicz P, Lupski JR Structural variation in the human genome and its role in disease.Annu Rev Med 2010; 61:437–55 Alkan C, Coe BP, Eichler EE Genome structural variation discovery and genotyping Nat Rev Genet 2011; 12(5):363–76 Tattini L, D’Aurizio R, Magi A Detection of genomic structural variants from nextgeneration sequencing data Front Bioeng Biotechnol 2015; 3:92 [37] Perry, G.H., Misra, R., et al (2007) Diet and the evolution of human amylase gene copy number variation Nat Genet 39, 1256–1260 [38 Pirooznia, M., Goes, F.S., and Zandi, P.P (2015) Whole-genome CNV analysis: advances in computational approaches Front Genet [39] Gonzalez, E., M.P., Bamshad, M.J., et al (2005) The influence of CCL3L1 gene-containing segmental duplications on HIV-1/AIDS susceptibility 45 [40] [41] [43] [44] [45] Newcomb, R.D., Gleeson, (2005) Multiple mutations and gene duplications conferring organophosphorus insecticide resistance https://en.wikipedia.org/wiki/Robertsonian_translocation [42] Ye, K., Schulz, M.H., Long, Q., Apweiler, R., and Ning, Z (2009) Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired- end short reads Multiple sequence alignment using partial order graphs Lee C1, Grasso C, Sharlow MF Chaisson, M.J.P.et al (2015) Resolving the complexity of the human genome using single-molecule sequencing Nature 517, 608–611 Feuk L, Marshall CR, Wintle RF, et al Structural variants: changing the landscape of chromosomes and design of disease studies Hum Mol Genet 2006 [46] [47] Raphael BJ Structural variation and medical genomics PLoS Comput Biol 2012 Michael TP, Jackson S The first 50 plant genomes Plant Genome 2013 [48] Belo A, Beatty MK, Hondred D, et al Allelic genome structural variations in maize detected by arraycomparative genome hybridization Theor Appl Genet 2010 [49] Xu X, Liu X, Ge S, et al Resequencing 50 accessions of cultivated and wild rice yields markers for identifying agronomically important genes Nat Biotechnol 2011 Zheng LY, Guo XS, He B, et al Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) Genome Biol 2011 [50] [51] McHale LK, Haun WJ, Xu WW, et al Structural variants in the soybean genome localize to clusters of biotic stress-response genes Plant Physiol 2012 [60] Nishida H, Yoshida T, Kawakami K, et al Structural variation in the 5′ upstream region of photoperiod-insensitive alleles Mol Breed 2013 Samad A, Huff EF, Cai W, et al Optical mapping: a novel, single-molecule approach to genomic analysis, Genome Res , 1995, vol Chen, Duan Wei, Guo WeiCong, Wen Xiang Wang, Computational methods for optical molecular imaging, 2015 [61] [62] [63] Clouse, J W Adhikary, D Page, J T The Amaranth Genome: Genome, Transcriptome, and Physical Map Assembly, 2016 [64] Teague B, Waterman MS, Goldstein S, Potamousis K High-resolution human genome structure by single-molecule analysis Proc Natl Acad Sci U S A 2010 https://bionanogenomics.com/ [65] 46 ... STRUCTURALES DES GENOMES DE PLANTES A L'AIDE DE CARTES OPTIQUES PHÂN TÍCH BIẾN THỂ CẤU TRÚC CỦA BỘ GEN CÂY TRỒNG BẰNG CÁCH SỬ DỤNG BẢN ĐỒ QUANG HỌC Spécialité: Systèmes Intelligents & Multimédia... analysis of the human genome, Nature 409 [17] Messing J, Llaca V.Importance of anchor genomes for any plant genome project Proc Natl Acad U.S.A 2017 [18] Edwards D, Batley J.Plant genome sequencing... variation in the human genome and its role in disease.Annu Rev Med 2010; 61:437–55 Alkan C, Coe BP, Eichler EE Genome structural variation discovery and genotyping Nat Rev Genet 2011; 12(5):363–76

Ngày đăng: 17/03/2021, 19:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] E. L. van Dijk, H. Auger, Y. Jaszczyszyn, and C. Thermes, “Ten years of next-generation sequencing technology,” Trends Genet., vol. 30, no. 9, Aug. 2014 Sách, tạp chí
Tiêu đề: Ten years of next-generation sequencing technology,” "Trends Genet
[2] M. Delseny, “Le sộquenỗage des gộnomes de plantes: vers une nouvelle rộvolution en biologie végétale,” vol. 18, pp. 468–473, 2009 Sách, tạp chí
Tiêu đề: Le sộquenỗage des gộnomes de plantes: vers une nouvelle rộvolution en biologie végétale
[3] Z. Jiang, D. S. Rokhsar, and R. M. Harland, “Old can be new again: HAPPY whole genome sequencing, mapping and assembly.,” Int. J. Biol. Sci., vol. 5, no. 4, pp. 298–303, Jan. 2009 Sách, tạp chí
Tiêu đề: Old can be new again: HAPPY whole genome sequencing, mapping and assembly.,” "Int. J. Biol. Sci
[4] R. K. Saxena, D. Edwards, and R. K. Varshney, “Structural variations in plant genomes,” Brief. Funct. Genomics, 2014 Sách, tạp chí
Tiêu đề: Structural variations in plant genomes,” "Brief. Funct. Genomics
[5] H. Tang, E. Lyons, and C. D. Town, “Optical mapping in plant comparative genomics,” Gigascience, vol. 4, no. 1, p. 3, 2015 Sách, tạp chí
Tiêu đề: Optical mapping in plant comparative genomics,” "Gigascience
[8] Kiefer, M. et al. BrassiBase: introduction to a novel knowledge database on Brassicaceae evolution. Plant and Cell Physiology, pct158 (2013) Khác
[9] A Practical Guide to the Analysis of Genes and Proteins, 3rd Edition” [Baxevanis & Ouellette, 2005] Khác
[10] Edwards, D. & Batley, J. Plant genome sequencing applications for crop improvement Khác
[11] Varshney, R. K. & May, G. D. Next-generation sequencing technologies: opportunities and obligations in plant genomics - 2012 Khác
[15] W. J. Ansorg e, Next-generation DNA sequencing techniques, New Biotechnol. 25 [16] E.S. Lander, et al., Initial sequencing and analysis of the human genome, Nature 409 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w