1. Trang chủ
  2. » Luận Văn - Báo Cáo

Micro synténia trong bộ gien của cây cọ

90 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 90
Dung lượng 14,13 MB

Nội dung

UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ INSTITUT FRANCOPHONE INTERNATIONAL OUBDA Raphặl Nicolas Wendyam Microsynténie de génomes de palmiers MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Mme Stéphanie Bocs ep Sidibé ( CIRAD - UMR AGAP) Mme Fabienne Morcillo ( CIRAD - UMR DIADE) HANOÏ - 2019 UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ INSTITUT FRANCOPHONE INTERNATIONAL OUBDA Raphặl Nicolas Wendyam Microsynténie de génomes de palmiers Spécialité : Systèmes Intelligents et Multimédia Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Mme Stéphanie Bocs ep Sidibé ( CIRAD - UMR AGAP) Mme Fabienne Morcillo ( CIRAD - UMR DIADE) HANOÏ - 2019 Attestation sur l’honneur J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a bien été précisée Signature de l’étudiant Raphaël Nicolas Wendyam OUBDA Remerciements Ce travail de mémoire de Master recherche est le résultat de l’engagement de plusieurs personnes qui ont décidé de m’accompagner résolument dans cet exaltant parcours Je remercie Dieu le tout Puissant, très Miséricordieux, qui m’a donné la force, le courage et la persévérance durant ces deux années C’est avec une certaine émotion et une grande reconnaissance que je remercie l’Université Nationale du Vietnam travers l’Institut Francophone International et toute son équipe pédagogique Je remercie les professeurs pour les valeurs et méthodes inculquées durant le cursus : la curiosité, le goût du travail, de l’effort, le sens de la persévérance, etc Autant de trésors qui me seront, sans nul doute, utiles Je tiens adresser mes profonds remerciements aux encadrants, Mme Stéphanie Bocs ep Sidibé pour les conseils, les explications, la relecture de mon mémoire, les différentes pistes de réflexion et son coaching qui m’ont permis de cibler et de m’orienter tout au long de ce stage, Mme Fabienne Morcillo pour la correction de mon mémoire et les explications des concepts biologiques et Mr Jean-Francois Dufayard pour les explications et les différentes orientations lors de l’implémentation de l’outil MicroGeco Un merci également Mr Gaetan Droc pour l’aide lors du développement de MicoSynton et surtout lors de l’intégration des données A toute l’équipe ID du CIRAD Montpellier France, je vous remercie de m’avoir accepter au sein de votre équipe Je vous remercie aussi de m’avoir permis de participer au symposium sur la bioinformatique Paris ainsi qu’aux différents séminaires Un grand merci mes parents Sylvestre OUBDA et Rachelle OUBDA , mes frères et soeurs pour leur amour, leurs conseils ainsi que pour leur soutien inconditionnel Je voudrais profiter de cet espace pour leur exprimer toute ma gratitude et ma reconnaissance Grâce vous, j’aborde une nouvelle étape de ma vie avec confiance et dynamisme Raphaël Nicolas Wendyam OUBDA Résumé Ce projet de Master vise développer des outils de visualisation pour les biologistes permettant de décrire la conservation de l’ordre des gènes homologues entre différentes espèces végétales D’abord, les notions de biologie associées ce projet ainsi qu’un état de l’art des différentes outils de visualisation en lien avec la thématique (blocs de synténie ; contexte génomique) sont abordés Puis, une présentation détaillée des outils informatiques développés sont présentés En effet, ce projet a donné naissance deux outils : MicroSynton pour la visualisation des relations au sein d’une paire de blocs synténiques et MicroGeco pour la visualisation du contexte génomique d’une famille de gènes MicroGeco a été intégré avec l’outil de visualisation des arbres de gènes InTreeGreat tandis que MicroSynton sera intégré avec le navigateur de génomes JBrowse permettant de représenter entre autre des blocs de synténie A l’issue de ce projet vingt-sept (27) nouveaux génomes de plantes dont trois (3) espèces de palmiers ont été ajoutées la base de données de Genomicus, un navigateur de contextes génomiques dont j’ai participé au déploiement au sein de la plateforme de bioinformatique South Green L’enrichissement de cette base de données, sur laquelle s’addosse aussi MicroGeco, devrait permettre aux biologistes de mieux comprendre l’organisation des génomes et des processus biologiques complexes qui accompagnent leur évolution en particulier dans la famille vaste des palmiers Mots clés : Séquences biologiques, Génomique comparative, Familles de gènes, Contexte génomique, Blocs de synténie, Arbre phylogénétique, Navigateur de génomes, Interface de visualisation, bioinformatique Abstract This Master’s project aims to develop visualization tools for biologists to describe the conservation of the order of homologous genes between different plant species First, the biology concepts associated with this project as well as a state of the art of the various visualization tools related to the theme (protein blocks ; genomic context) are discussed Then, a detailed presentation of the IT tools developed is presented Indeed, this project has given rise to two tools : MicroSynton for visualizing relationships within a pair of protein blocks and MicroGeco for visualizing the genomic context of a gene family MicroGeco has been integrated with the InTreeGreat gene tree visualization tool while MicroSynton will be integrated with the JBrowse genome browser to represent protein blocks, among other things At the end of this project, twenty-seven (27) new plant genomes, including three (3) palm species, were added to the Genomicus database, a genomic context browser that I participated in the deployment within the South Green bioinformatics platform The enrichment of this database, on which MicroGeco is also based, should enable biologists to better understand the organization of genomes and the complex biological processes that accompany their evolution, particularly in the vast family of palm trees Keywords : Biological sequences, Comparative genomics, Gene families, Genomic context, Syntene blocks, Phylogenetic tree, Genome browser, Visualization interface, Bioinformatics Table des matières Table des figures vii Liste des tableaux i Introduction, contexte et problématique 1.1 Introduction générale 1.2 Contexte 1.2.1 Définition de concepts 1.2.1.1 La famille des palmacées ou Arecaceae et leurs génomes 1.2.1.2 Acide désoxyribonucléique 1.2.1.3 Gène 1.2.1.4 Gènes homologues, orthologues et paralogues 1.2.1.5 Famille de gènes 1.2.1.6 Arbre phylogénétique de gènes 1.2.1.7 Génomique comparative 1.2.1.8 Blocs de synténie 1.2.2 Problématique du projet de Master État de l’art des outils de visualisation 2.1 Format des données 2.1.1 Le format de données FASTA 2.1.2 Le BED et le GFF3 2.1.3 Le format Newick 2.1.4 Entrepôts publiques de données génomiques 2.2 Calcul et visualisation des blocs de synténie 2.2.1 Calcul de blocs de synténie 2.2.2 Outils existants pour la visualisation des blocs de synténie 2.2.2.1 La plateforme Magnifying Genomes (MaGe) 2.2.2.2 L’outil InTreeGreat 2.2.2.3 La base de données pour la duplication des génomes des plantes ou Plant Genome Duplication Database (PGDD) ii 1 2 4 5 7 8 11 11 12 12 13 13 14 15 TABLE DES MATIÈRES 2.2.2.4 Le navigateur génomique JBrowse 2.2.3 Bilan récapitulatif des outils de visualisation des blocs de synténie 2.3 Visualisation du contexte génomique (GeCo) 2.3.1 Calcul des arbres de gènes pour la visualisation 2.3.2 Outils de visualisation du contexte génomique 2.3.2.1 Genomicus 2.3.2.2 Genome Contexte Viewer (GCV) 2.3.2.3 L’outil Aequatus 2.3.3 Bilan des outils de visualisation du GeCo 2.4 Objectifs attendus du projet de Master 16 17 18 18 21 21 23 24 25 26 Intégration des données et développement des outils de visualisation 3.1 Intégration des données dans la base de données (BD) de Genomicus 3.1.1 Intégration version 3.1.2 Intégration version 3.1.3 Intégration version 3.1.4 Intégration Version 3.2 Implémentation d’un outil de visualisation du GeCo 3.2.1 Maquette de MicroGeco et contraintes d’affichage 3.2.2 Présentation des données utilisées par MicroGeco 3.2.3 Architecture et langage de programmation 3.2.3.1 Architecture de MicroGeco 3.2.3.2 Langage de programmation et outils 3.2.4 Structuration des données dans l’API 3.2.4.1 Visualisation de la partie neighborsRef du fichier JSON la sortie de l’API 3.2.4.2 Visualisation de la partie gene du fichier JSON la sortie de l’API 3.2.5 Visualisation coté client de MicroGeco et intégration dans InTreeGreat 3.2.5.1 Visualisation des données avec la librairie D3JS côté client 3.2.5.2 Intégration de MicroGeco dans InTreeGreat 3.2.6 Test et évaluation de MicroGeco 3.2.6.1 Test de MicroGeco sans intégration 3.2.6.2 Test de MicroGeco avec l’intégration dans InTreeGreat 3.2.7 Evaluation de MicroGeco 3.3 Développement d’un outil de visualisation de microsynténie 3.3.1 Maquette et contrainte de MicroSynton 3.3.2 Présentation des données 3.3.3 Architecture et langage de programmation 3.3.3.1 Architecture de la solution 3.3.3.2 Langage de programmation et environnement de travail 3.3.4 Implémentation de MicroSynton 27 27 28 28 30 30 30 30 31 32 32 32 33 iii 35 36 40 40 41 42 42 43 44 45 45 46 46 46 47 47 18/11/2019 BFF 2018 DB populate4Report - Genomicus - Redmine Wiki » BFF 2018 DB populate4Report BFF 2018 DB populate4Report Next [SSB TODO] A) Introduction Les ressources Les données La VM La doc Environnement Python Création de l'environnement virtuel Passage en environnement Virtuel B) Préparation des fichiers de données génomiques en entrée 1) Les fichiers d'assemblage de pseudomolécules au format fasta 2) Les fichiers d'annotation au format gff3 C) Transformation ou récupération des résultats (itération / OrthoFinder 2.3.3) 1a) Transformation des génomes additionels (fichiers chromosome, genes, descr & names) Pas de problème pour les deux génomes provenant de phytozome et trois génomes maison Pour les trois génomes RefSeq et pour COCNU2 1b) Pour les données de la version Genomicus 19 génomes 1c) Description pour les génomes d'espèces de référence ARATH, ELAGV, PHAEQ, PHODC, SACHY 1d) Test de cohérence des données 1e) Transformation des genomicus_trees 1f) Récupération des anciennes données de la version Genomicus 19 génomes (old) 1g) Retour sur les derniers problèmes rencontrés avec les 19 génomes Pourquoi certains gènes sont absents Pourquoi les chromosomes de POPTR ne s'affichent pas ? Next [SSB TODO] Reste problème MAIZE ZEAMA 2OO tree genes not in genome WHEAT semble ne jamais avoir de contexte phyldiag_handle.pl => phyldiag_handle.pl Chez nous URL de la requête :http://dev.genomicus.southgreen.fr/genomicus-27.01/cgi-bin/phyldiag.pl? species_id2=11&width=1200&numChroms=23&square=0&truncation=1&species_id1=8&truncationMax=10&mmg=1&filter=InBothGenomes&distanceMetric=CD&imcs=1&tande Méthode de la requête :GET Adresse distante :195.221.173.169:80 Code d’état : 500 Chez eux URL de la requête :http://www.genomicus.biologie.ens.fr/genomicus-97.01/cgi-bin/phyldiag.pl?width=1200&chroms=14:12&gapMax=2&minChrLen=2&speci Méthode de la requête :GET Adresse distante :129.199.30.111:80 Code d’état : 200 A) Introduction Les ressources Les données Le gènes ADH1 SORBI https://grass-genome-hub.southgreen.fr/mRNA/Sobic.001G097600.1 Le gène Transducine SORBI https://grass-genome-hub.southgreen.fr/mRNA/Sobic.001G010300.1 https://docs.google.com/spreadsheets/d/1mlVTR41WcDsqm5Qq5_ENrqV1ZNzFYNDD7625jeION-Q/ La VM Télécharger Genomicus-CIRAD2019-mysqllocal.ova (9.2 GB) https://cloud.biologie.ens.fr/index.php/s/cciKzRLBi63p7h1 La virtual Machine Genomicus-CIRAD2018-mysqllocal_1.ova (Données BFF2018 avec la version genomicus 9601 renvoyé par A Louis en 2019) et Genomicus-CIRAD2018mysqllocal.ova (Données BFF2018 avec la version genomicus 8902 lors de la dernière visite de J F Dufayard en 2018) user (sudo) login:dyogen mdp:genomicus Mysql (MariaDB) user:genomicus mdp:abc La doc Ancienne version de BFF_2018_DB_populate Le readme d'A Louis lors de la visite de J F Dufayard en 2018 est sur la VM et copié ci-dessous et aussi sur cc2 cette endroit : /homedir/sidibebocs/genomicus_readme.txt Document modifié de la VM Genomicus-CIRAD2018-mysqllocal_1.ova dans ~/CIRAD_2018_JFD/ https://redmine.southgreen.fr/projects/genomicus/wiki/BFF_2018_DB_populate4Report 1/8 18/11/2019 BFF 2018 DB populate4Report - Genomicus - Redmine Tandis que la conf du virtualHosts se trouve /etc/apache2/sites-available/genomicus.conf Mail Genomicus au CIRAD Pour ce qui est de Genomicus, si vous voulez bénéficier les modules de type MatrixView et KaryoView, il va être nécessaire de crée la table Ortholog Il me semble que dans la dernière version de la virtual machine que je vous avait envoyée il y a la procédure Cette procédure créait la table la volée mais j'ai développé un script qui crée les fichier charger directement dans la base en attaché le script, il est nécessaire de configurer les paramètres de connexion la base de données ligne 12,13,14,15 Pour le lancer: nohup python /createOrthologs_tofile.py & -> va créer le fichier Orthologs_new.txt qu'il faudra charger dans la table Ortholos_new qui est normalement déjà créée /home/dyogen/CIRAD_2018_JFD/VirtualEnv.txt Suivi de stage N Oubda PGD https://docs.google.com/document/d/1nlbzC_K3HCZUNdAY0ylz6lszRS3l78E43dv1w76Omf0 https://docs.google.com/spreadsheets/d/1mlVTR41WcDsqm5Qq5_ENrqV1ZNzFYNDD7625jeION-Q Environnement Python A partir de la VM cd /home/dyogen/CIRAD_2018_JFD/VirtEnv scp -r LibsDyogen sidibebocs@alberes.cirad.fr:~/ scp -r ScriptsGenomicus sidibebocs@alberes.cirad.fr:~/ Création de l'environnement virtuel Sur cc2 Pour des problèmes mémoire finalement on se met sur cc2 cd /usr/local/bioinfo/ sudo mkdir genomicus cd genomicus/ sudo mkdir 20180514 sudo chown sidibebocs:users 20180514 cd 20180514/ module load system/python/2.7.9 virtualenv venv New python executable in /gs7k1/binaries/genomicus/20180514/venv/bin/python Installing setuptools, pip, wheel done cd venv/ mv ~/LibsDyogen mv ~/ScriptsGenomicus cd bin nano activate: export PYTHONPATH=/usr/local/bioinfo/genomicus/20180514/VirtEnv/LibsDyogen/ module unload system/python/2.7.9 source /usr/local/bioinfo/genomicus/20180514/venv/bin/activate pip install enum DEPRECATION: Python 2.7 will reach the end of its life on January 1st, 2020 Please upgrade your Python as Python 2.7 won't be maintained after that Collecting enum Downloading https://files.pythonhosted.org/packages/02/a0/32e1d5a21b703f600183e205aafc6773577e16429af5ad3c3f9b956b07ca/enum-0.4.7.tar.gz Requirement already satisfied: setuptools in /gs7k1/binaries/genomicus/20180514/venv/lib/python2.7/site-packages (from enum) (41.0.1) Building wheels for collected packages: enum Building wheel for enum (setup.py) done Stored in directory: /homedir/sidibebocs/.cache/pip/wheels/be/ba/eb/7c6273cf8a17300ccda1e504dbbd7e563670736e887f389459 Successfully built enum Installing collected packages: enum Successfully installed enum-0.4.7 (venv) Passage en environnement Virtuel source /usr/local/bioinfo/genomicus/20180514/VirtEnv/bin/activate echo $PYTHONPATH /usr/bioinfo/genomicus/20180514/VirtEnv/LibsDyogen/ -> on est maintenant en Python 2.7 et les librairies Libsdyogen configurées autre lib installer dans l’environnement pour faire fonctionner les scripts: pip install enum DEPRECATION: Python 2.7 will reach the end of its life on January 1st, 2020 Please upgrade your Python as Python 2.7 won't be maintained after that Collecting enum Downloading https://files.pythonhosted.org/packages/02/a0/32e1d5a21b703f600183e205aafc6773577e16429af5ad3c3f9b956b07ca/enum-0.4.7.tar.gz Requirement already satisfied: setuptools in /VirtEnv/lib/python2.7/site-packages (from enum) (41.0.1) Building wheels for collected packages: enum Building wheel for enum (setup.py) done Stored in directory: /home/sidibebocs/.cache/pip/wheels/be/ba/eb/7c6273cf8a17300ccda1e504dbbd7e563670736e887f389459 Successfully built enum Installing collected packages: enum Successfully installed enum-0.4.7 Install dans /usr/local/bioinfo/genomicus/20180514/VirtEnv/lib/python2.7/site-packages https://redmine.southgreen.fr/projects/genomicus/wiki/BFF_2018_DB_populate4Report 2/8 18/11/2019 BFF 2018 DB populate4Report - Genomicus - Redmine B) Préparation des fichiers de données génomiques en entrée 1) Les fichiers d'assemblage de pseudomolécules au format fasta Les 19 génomes ln ln ln ln ln ln ln -s -s -s -s -s -s -s /bank/phytozome/PhytozomeV13/Athaliana/Araport11/annotation/Athaliana_167_10.assembly.fna ARATH.fa /bank/phytozome/PhytozomeV13/Bdistachyonpangenome/v1.pangenome.1/Bdistachyonpangenome_335_v1.fa BRAPG.fa /bank/phytozome/PhytozomeV13/Egrandis/v2.0/assembly/Egrandis_297_v2.0.fa EUCGR.fa /bank/phytozome/PhytozomeV13/Graimondii/v2.1/assembly/Graimondii_221_v2.0.fa GOSRA.fa /bank/phytozome/PhytozomeV12/early_release/Msinensis_497_v7.1/assembly/Msinensis_497_v7.0.fa MISSI.fa /bank/phytozome/PhytozomeV13/Othomaeum/v1.0/assembly/Othomaeum_386_v1.0.fa OROTH.fa /bank/gramene/all/ftp.gramene.org/pub/gramene/CURRENT_RELEASE/fasta/oryza_brachyantha/dna/Oryza_brachyantha.Oryza_brachyantha.v1.4b.dna Les génomes Pour cocnu voir le modop de mise en forme pour la v2 on est encore en mode chromosome unknown random il faudra corriger ca pour la prochaine version ln -s /bank/phytozome/PhytozomeV13/Acomosus/v3/assembly/Acomosus_321_v3.fa ANACO.fa ln -s /gs7k1/projects/DDSE/coconut/COCNU-C3B01/oldies_V3.7_chromosome_U0/COCNU-C3B01_chromosome_U0.fna COCNU.fa ln -s /bank/phytozome/PhytozomeV13/Dalata/v1.1/assembly/Dalata_504_v1.0.fa DIOAL.fa 2) Les fichiers d'annotation au format gff3 Les 19 génomes ln -s ln -s /bank/phytozome/PhytozomeV13/Athaliana/Araport11/annotation/Athaliana_447_Araport11.gene_exons.gff3 ARATH.gff3 /bank/phytozome/PhytozomeV13/Bdistachyonpangenome/v1.pangenome.1/annotation/Bdistachyonpangenome_335_v1.pangenome.1.gene_exons.gff3 BRA Les génomes ln -s /bank/phytozome/PhytozomeV13/Acomosus/v3/annotation/Acomosus_321_v3.gene_exons.gff3 ANACO.gff3 ln -s /bank/genfam/genome_data_v8/COCNU2/COCNU-C3B02-sequence_feature-locus_tag-genfam_cor2.gff3 COCNU.gff3 C) Transformation ou récupération des résultats (itération / OrthoFinder 2.3.3) 1a) Transformation des génomes additionels (fichiers chromosome, genes, descr & names) Pas de problème pour les deux génomes provenant de phytozome et trois génomes maison cd /gs7k1/projects/BFF/Genomicus27 mkdir genes qsub -b y -q normal.q -N ANACO ~/Genome/cc2-login/converter/phytozome2gff3.pl -gff /gs7k1/projects/BFF/Genomicus27/gff3/ANACO.gff3 -assembly assembl qsub -b y -q normal.q -N DIOAL ~/Genome/cc2-login/converter/phytozome2gff3.pl -gff /gs7k1/projects/BFF/Genomicus27/gff3/DIOAL.gff3 -assembly assembl qsub -b y -q normal.q -N MUSAC ~/Genome/cc2-login/converter/phytozome2gff3.pl -gff /gs7k1/projects/BFF/Genomicus27/gff3/MUSAC.gff3 -assembly assembl Pour les trois génomes RefSeq et pour COCNU2 voir redmine genfam v9 for for for for for for i i i i i i in in in in in in /bank/genfam/genome_data_v9/MUSBA_001RO01/genes/*.list; ln -s $i; done /bank/genfam/genome_data_v9/ELAGV_AVROS001RR102/genes/*.list; ln -s $i; done /bank/genfam/genome_data_v9/PHAEQ_001RR100/genes/*.list; ln -s $i; done /bank/genfam/genome_data_v9/PHODC_Khalas002RR102/genes/*.list; ln -s $i; done /bank/genfam/genome_data_v9/SACHY_R570001RO01/genes/*.list; ln -s $i; done /bank/genfam/genome_data_v9/COCNU_HT001RO02/genes/*.list; ln -s $i; done Correction des derniers problèmes Pas de species_code dans les fichiers genes COCNU_HT001RO01_U03 276306604 276306769 COCNU_HT001RO02_U03PF18580.1_COCNU Effectivement _COCNU se trouve dans l'attribut locus_tag du champ du fichier gff3, on corrige et on relance cd /bank/genfam/genome_data_v9/COCNU_HT001RO02 qsub -b y -q normal.q -N Cn ~/Genome/cc2-login/converter/phytozome2gff3.pl -gff COCNU-C3B02-sequence_feature-locus_tag-genfam_cor2.gff3 -assem 1b) Pour les données de la version Genomicus 19 génomes On refait tout tourné avec les bug des longest corrigé (voir ci-dessous) qsub -b y -q normal.q -N ANACO ~/Genome/cc2-login/converter/phytozome2gff3.pl -gff /gs7k1/projects/BFF/Genomicus27/gff3/ANACO.gff3 -assembly assembl qsub -b y -q normal.q -N ARATH ~/Genome/cc2-login/converter/phytozome2gff3.pl -gff /gs7k1/projects/BFF/Genomicus27/gff3/ARATH.gff3 -assembly assembl Puis on gère les cas particulier des génomes refseq rm -f *ELAGV.list *PHODC.list *PHAEQ.list [sidibebocs@cc2-login genes]$ ln -s /bank/genfam/genome_data_v9/ELAGV_AVROS001RR102/genes/descr.ELAGV.list [sidibebocs@cc2-login genes]$ ln -s /bank/genfam/genome_data_v9/ELAGV_AVROS001RR102/genes/names.ELAGV.list rm *COCNU.list ln -s /bank/genfam/genome_data_v9/COCNU_HT001RO02/genes/descr.COCNU.list [sidibebocs@cc2-login genes]$ ln -s /bank/genfam/genome_data_v9/COCNU_HT001RO02/genes/genes.COCNU.list [sidibebocs@cc2-login genes]$ ln -s /bank/genfam/genome_data_v9/COCNU_HT001RO02/genes/names.COCNU.list 1c) Description pour les génomes d'espèces de référence ARATH, ELAGV, PHAEQ, PHODC, SACHY https://redmine.southgreen.fr/projects/genomicus/wiki/BFF_2018_DB_populate4Report 3/8 18/11/2019 BFF 2018 DB populate4Report - Genomicus - Redmine On update le fichier descr avec les gene symbols pour ARATH qsub -b y -q normal.q -N ARATH ~/Genome/cc2-login/converter/phytozome2gff3.pl -gff gff3/ARATH.gff3 -assembly assembly/ARATH.fa species ARATH gen OK pour les fichiers refseq Mais rien récupérer pour ORYSJ ! 1d) Test de cohérence des données C'est celui qui a permis de détecter qu'il y avait un problème entre les primary transcrit des familles et les identifiant des transcrits alternatifs les plus longs dans le fichiers genes) qsub -cwd -V -b y -q normal.q -N chF1 /gs7k1/projects/BFF/Genomicus27/check_id.sh Your job 4972373 ("chF1") has been submitted => check ok 1e) Transformation des genomicus_trees Concaténation des arbres /gs7k1/projects/BFF/Genomicus27 qsub -cwd -V -b y -q normal.q -N kat cat_colored.tree2.sh contient for i in genomicus_tree/*; cat $i >> AllTrees.nhx ; done La commande ci-dessous ne marche pas (peut être cause des underscores dans les noms allTrees_20191014_diamon_inflat1.5_trimauto.nhx ou cause du manque de simples cotes voir commande nhxGeneTrees2phylTreeGeneTrees.py ci-dessous), j'ai donc appliqué solution plus simple du script bash cat_colored.tree2.sh qsub -cwd -V -b y -q normal.q -N cat for i in /homedir/sidibebocs/work/Genomicus/blastp_all_vs_all_20191014/genomicus_tree/*_colored.tree; cat $i Changement de format "New Hampshire X" (.nhx) en format maison Genomicus (.phy) source /usr/local/bioinfo/genomicus/20180514/venv/bin/activate qsub -q bigmem.q -terse -b yes -V -cwd -l mem_free=48G -N AllTre -o tree_log.txt -e tree_error.txt '/usr/local/bioinfo/genomicus/20180514/venv/Scrip Ajout de underscore "_" dans oryza sativa car certains scripts de traitement des arbres d'espèces de Genomicus semblent ne pas accepter les espaces (((((((SETVI,SETIT,PANVG,PANHL)Setaria,(ZEAMA,SACHY,MISSI,SORBI)Andropogoneae)Panicoideae,((ORYBR,OROTH,(ORYSI,ORYSJ)Oryza_sativa)Oryza,(WHEAT,BRAPG sed "s/BOP clade/BOP_clade/g" AllTrees.phy > toto sed "s/Oryza sativa/Oryza_sativa/g" toto > tete mv tete AllTrees.phy /usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/preprocessing/newickSpeciesTree2phylTreeSpeciesTree.py 27_species_tree_colored.nwk | Key | Values | | phylTree.conf | 27_species_tree_colored.nwk | | fromNewick | True | - > 27 Attention ne pas oublier On editera ensuite la main SpeciesTree.conf pour que les noms d'especes soit cohérents avec ceux dans les arbres de gănes et les datations des especes ancstrales (par défaut le script les met à 0, si elle ne sont pas connu mettre un autre chiffre que car genomicus considere que en temps de divergence est une espece moderne!), du coup, on met tout à 10 pour le moment sed -i 's/0/10/' 27_species_tree_colored.conf Ce script de reformatage est la base pour editer les arbres en fonction du seuil de confiance des noeuds de duplication - dans notre cas, le seuil est par défaut (à 0) donc aucun arbre ne sera modifié, si ce n'est en "format" (honnetement j'ai pas cherché à savoir quel legere différence il y a qui fait que la suite passe ou pas) source /usr/local/bioinfo/genomicus/20180514/venv/bin/activate qsub -q bigmem.q -b yes -V -cwd -l mem_free=48G -N prot '/usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/ENSEMBL.buildProteinTrees.py bzcat AllTrees.diamon.bz2| grep -c "'tree_name': 'FAM" 4330 => c'est que se situe le problème File "/usr/local/bioinfo/genomicus/20180514/venv/LibsDyogen/utils/myTools.py", line 177, in call self.cache[args] = self.func(*args) RuntimeError: maximum recursion depth exceeded https://github.com/python/typing/issues/523 https://stackoverflow.com/questions/14222416/recursion-in-python-runtimeerror-maximum-recursion-depth-exceeded-while-callin Augmenter la limite dans /usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/ENSEMBL.buildProteinTrees.py import sys sys.setrecursionlimit(100000) bzcat AllTrees.diamon.bz2| grep -c "'tree_name': 'FAM" 34493 https://redmine.southgreen.fr/projects/genomicus/wiki/BFF_2018_DB_populate4Report 4/8 18/11/2019 BFF 2018 DB populate4Report - Genomicus - Redmine old qsub -q bigmem.q -b yes -V -cwd -l mem_free=48G -N prot '/usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/ENSEMBL.buildProteinTrees.py On s'apercoit que dans les arbres sont notés les noms de protéines avec extension p_ESPECE On enleve cela pour etre cohérent avec les fichier bed: bzcat AllTrees.diamon.bz2| sed -r "s/\.p_[A-Z]{5}',/',/g" | sed -r "s/_[A-Z]{5}',/',/g" | bzip2 > AllTrees.diamon2.bz2 bzcat AllTrees.diamon2.bz2| grep -c "'tree_name': 'FAM" 34493 old bzcat AllTrees.diamon.bz2 | sed -r "s/_.{5}',/',/g" | sed -r "s/\.p'/'/g" | bzip2 > AllTrees.diamon2.bz2 sed 's/>//' | sed -r 's/_.{5}$//g' | sed -r 's/\.p$//g' bzcat Alltrees.1.bz2 | sed "s/\.p_[A-Z]*'/'/g" | sed "s/_[A-Z]*'/'/g" | bzip2 > Alltrees.2.bz2 extraction des ancGenes - cree les repertoires ancGenes/all et un fichier par especes modernes et ancestrales + arbres de genes avec noms des ancGenes associes (tree.4F.bz2): source /usr/local/bioinfo/genomicus/20180514/venv/bin/activate qsub -q bigmem.q -b yes -V -cwd -l mem_free=48G -N ancGenes '/usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/ALL.extractGeneFamilies.p bzcat tree.4F.bz2 | grep -c "'tree_name': 'FAM" 34493 qsub -q bigmem.q -b yes -V -cwd -l mem_free=48G -N fakediag '/usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/makeDiagsFromAncGenes.py -| Key | Values | -| phylTree.conf | 27_species_tree_colored.conf | | target | Viridiplantae | | IN.ancGenesFiles | ancGenes/all/ancGenes.%s.list.bz2 | | OUT.diagsFiles | fakediags/fakediags.%s.list | -Loading genome of ancGenes/all/ancGenes.Rosids.list.bz2 (ancestral genes) OK Loading genome of ancGenes/all/ancGenes.Poaceae.list.bz2 (ancestral genes) OK Loading genome of ancGenes/all/ancGenes.Monocotyledons.list.bz2 (ancestral genes) OK Ecriture des diags de Rosids Loading genome of ancGenes/all/ancGenes.Rosids.list.bz2 (ancestral genes) OK Ecriture des diags de Poaceae Loading genome of ancGenes/all/ancGenes.Poaceae.list.bz2 (ancestral genes) OK Ecriture des diags de Monocotyledons Loading genome of ancGenes/all/ancGenes.Monocotyledons.list.bz2 (ancestral genes) OK for i in genes/genes.*.list; echo `basename ${i/.list/}` | sed "s/genes.//" | awk '{OFS="\t";print "1","1",$1,"Unknown","1","Unknown","1","1","1" more genome.txt 1 ANACO Unknown Unknown 1 1 ARATH Unknown Unknown 1 1 BRAPG Unknown Unknown 1 1 COCNU Unknown Unknown 1 mkdir dump /usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.Species.py 27_species_tree_colored.conf genome.txt > dump/Specie -| Key | Values | -| phylTree.conf | 27_species_tree_colored.conf | | genome_db.txt | genome.txt | -0 SACHY Unknown/Unknown [] GOSRA Unknown/Unknown [] ZEAMA Unknown/Unknown On cree la table de relation pere-fils de l'arbre des especes: /usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.SpeciesTree.py 27_species_tree_colored.conf >dump/SpeciesTree.tx -| Key | Values | -| phylTree.conf | 27_species_tree_colored.conf | On cree la table de statistique sur les genomes modernes et ancestraux (fake): qsub -q bigmem.q -b yes -V -cwd -l mem_free=48G -N blockSt '/usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.Blo -| Key | Values | -| phylTree.conf | 27_species_tree_colored.conf | | modernGenomes | genes/genes.%s.list | | ancGenesFiles | ancGenes/all/ancGenes.%s.list.bz2 | | diags | fakediags/fakediags.%s.list | | withSingletons | False | -Loading genome of genes/genes.PHODC.list (Ensembl) OK OK Loading genome of genes/genes.ORYBR.list (Ensembl) OK OK Loading genome of genes/genes.MUSBA.list (Ensembl) OK OK On cree les tables Tree et Orthologs (qui gerent les relations pere-fils entre les genes et les relation orthologie parwise entre genes), et genere egalement un dictionnaire https://redmine.southgreen.fr/projects/genomicus/wiki/BFF_2018_DB_populate4Report 5/8 18/11/2019 BFF 2018 DB populate4Report - Genomicus - Redmine dicGeneID.txt qui va etre utilisé pour faire la table suivante mais ne sera pas chargé dans la BDD source /usr/local/bioinfo/genomicus/20180514/venv/bin/activate qsub -q bigmem.q -b yes -V -cwd -l mem_free=48G -N treeOrth '/usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.Tr | Key | Values | | phylTree.conf | 27_species_tree_colored.conf | | proteinTree | tree.4F.bz2 | | genesFiles | genes/genes.%s.list | | ancGenesFiles | ancGenes/all/ancGenes.%s.list.bz2 | | outputFile | dump/%s.txt | Loading genome of ancGenes/all/ancGenes.Rosids.list.bz2 (ancestral genes) OK Loading genome of ancGenes/all/ancGenes.Poaceae.list.bz2 (ancestral genes) OK Loading genome of ancGenes/all/ancGenes.Monocotyledons.list.bz2 (ancestral genes) OK Loading the forest of gene trees tree.4F.bz2 On créée les tables: Il ne faut pas remplir au préalable Chromosome.txt mais il faut le créer touch dump/Chromosome.txt qsub -q bigmem.q -b yes -V -cwd -l mem_free=48G -N geneS '/usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.GeneLoading names & descr PHODC XP_008791435.1 XP_008791435.1 Traceback (most recent call last): File "/usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.Gene-Search.py", line 170, in storeModernGenome(esp) File "/usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.Gene-Search.py", line 91, in storeModernGenome assert t[0] not in dicNames AssertionError Problème pour lister plusieurs synonymes, ce n'est pas de cette manière XP_008791435.1 XP_008791435.1 XP_008802713.1 XP_008802713.1 XP_008780886.1 XP_008780886.1 XM_008793213.3 LOC103705662 XM_008804491.3 LOC103713754 XM_008782664.2 LOC103721690 il doit supprimer du dico la première fois qu'il le trouve du coup la seconde fois il ne le trouve pas Il reste des gènes non trouvés source /usr/local/bioinfo/genomicus/20180514/venv/bin/activate /usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.Gene-Search.py | Key | Values | | phylTree.conf | 27_species_tree_colored.conf | | dicGeneID | dump/dicGeneID.txt | | genesFiles | genes/genes.%s.list | | ancGenesFiles | ancGenes/all/ancGenes.%s.list.bz2 | | diags | fakediags/fakediags.%s.list | | namesFiles | genes/names.%s.list | | descrFiles | genes/descr.%s.list | | output | dump/%s.txt | | ancBlockName | block_%s | | chromSize | dump/Chromosome.txt | | strict | False | Loading gene_id dictionary OK Loading chromosome size OK Loading genome of ancGenes/all/ancGenes.Viridiplantae.list.bz2 (ancestral genes) OK Loading genome of fakediags/fakediags.Viridiplantae.list (ancestral genome: diags) OK Inserting ancestral genome Viridiplantae OK Loading genome of ancGenes/all/ancGenes.Setaria.list.bz2 (ancestral genes) OK Inserting modern genome EUCGR OK 27_species_tree_colored.conf dump/dicGeneID.txt Par exemple /gs7k1/projects/BFF/Genomicus27/blastp_all_vs_all_20191014/DiamondBank grep '>' MUSAC.faa |sed 's/>//'|sed 's/_MUSAC//' > grep '>' ORYSI.faa |sed 's/>//'|sed 's/_ORYSI//' > /gs7k1/projects/BFF/Genomicus27/ORYSI.txt grep '>' ZEAMA.faa |sed 's/>//'|sed 's/_ZEAMA//' > /gs7k1/projects/BFF/Genomicus27/ZEAMA.txt $ grep '>' SORBI.faa |sed 's/>//'|sed 's/.p_SORBI//' > /gs7k1/projects/BFF/Genomicus27/SORBI.txt /gs7k1/projects/BFF/Genomicus27 cat MUSAC.txt | while read i; echo $i ;grep $i genes/genes.MUSAC.list; done|more Ma00_t00010.1 chrUn_random 5983 13698 Ma00_t00010.1 Ma00_t00020.1 chrUn_random 21772 26770 Ma00_t00020.1 Ma00_t00030.1 chrUn_random 28995 30810 -1 Ma00_t00030.1 Ma00_t00040.1 chrUn_random 33450 52408 Ma00_t00040.1 => il y a génomes corriger MUSAC, ORYSI, ZEAMA, SORBI /gs7k1/projects/BFF/Genomicus27/blastp_all_vs_all_20191014/DiamondBank grep '>' MUSAC.faa |sed 's/>//'|sed 's/_MUSAC//' |sort > /gs7k1/projects/BFF/Genomicus27/MUSAC.txt https://redmine.southgreen.fr/projects/genomicus/wiki/BFF_2018_DB_populate4Report 6/8 18/11/2019 BFF 2018 DB populate4Report - Genomicus - Redmine grep '>' ORYSI.faa |sed 's/>//'|sed 's/_ORYSI//' > /gs7k1/projects/BFF/Genomicus27/ORYSI.txt grep '>' ZEAMA.faa |sed 's/>//'|sed 's/_ZEAMA//' > /gs7k1/projects/BFF/Genomicus27/ZEAMA.txt grep '>' SORBI.faa |sed 's/>//'|sed 's/_SORBI//' > /gs7k1/projects/BFF/Genomicus27/SORBI.txt /gs7k1/projects/BFF/Genomicus27 qsub -b y -q normal.q -N MUSAC ~/Genome/cc2-login/converter/phytozome2gff3.pl -gff /gs7k1/projects/BFF/Genomicus27/gff3/MUSAC.gff3 -assembly assembl qsub -b y -q normal.q -N ORYSI ~/Genome/cc2-login/converter/phytozome2gff3.pl -gff /gs7k1/projects/BFF/Genomicus27/gff3/ORYSI.gff3 -assembly assembl Tentative de correction du problème de genes not in genome corrigé /gs7k1/projects/BFF/Genomicus27/genes_OK grep Ma00_t00110 genes.MUSAC.list chrUn_random 122390 127376 Ma00_t00110.2 /usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.Gene-Search.py Inserting modern genome SORBI OK (3880 genes in trees, but not in genome) Loading genome of genes/genes.ZEAMA.list (Ensembl) OK Loading names & descr ZEAMA OK Inserting modern genome ZEAMA OK (2383 genes in trees, but not in genome) Loading names & descr ORYSI OK Inserting modern genome ORYSI OK (8247 genes in trees, but not in genome) 27_species_tree_colored.conf dump/dicGeneID.txt Problème avec lien symbolique ? => non cp /bank/genfam/genome_data_v9/PHODC_Khalas002RR102/genes/descr.PHODC.list Creation de la table Synteny (normalement pour représneter les "Blocks ancestraux"): /usr/local/bioinfo/genomicus/20180514/venv/ScriptsGenomicus/GenomicusDB/createTable.Synteny.py 27_species_tree_colored.conf dump/Gene.txt -ancGenes Importation du schéma dans la base mysql -u genomicus_user -h marquenterre.cirad.fr -p genomicus_27.1 < /usr/local/bioinfo/genomicus/20180514/CreateDB/CREATE-TABLE.mysql Ajout de la table CNE_items via l'interface phpMyAdmin champs -> exécuter avec le champs species_id -> SAUVEGARDER -> sinon erreur dans l'interface web genomicus et aussi créer le répertoire ancGenes sur alberes avec lien symbolique (fakediag) ? Si problème après chargement des données -> supprimer carrément la base (vider les tables ou supprimer les tables ne semblent pas suffire car problème lors du rechargement) DROP DATABASE `genomicus_27.1` ; ne pas oublier mv dump/dicGeneID.txt sinon mysqlimport: Error: 1146, Table 'genomicus_27.1.dicGeneID' doesn't exist, when using table: dicGeneID mysqlimport -u genomicus_user -h marquenterre.cirad.fr -p genomicus_27.1 local dump/*.txt verbose Enter password: Connecting to marquenterre.cirad.fr Selecting database genomicus_27.1 Loading data from LOCAL file: /gs7k1/projects/BFF/Genomicus27/dump/BlocksStats.txt into BlocksStats genomicus_27.1.BlocksStats: Records: 44 Deleted: Skipped: Warnings: 17 Loading data from LOCAL file: /gs7k1/projects/BFF/Genomicus27/dump/Chromosome.txt into Chromosome Disconnecting from marquenterre.cirad.fr Editer createOrthologs.py host = "marquenterre.cirad.fr" user = "genomicus_user" pwd = "test" db = "genomicus_27.1" marquenterre.cirad.fr:3306 - Base de données: genomicus_27.1 python /usr/local/bioinfo/genomicus/20180514/CreateDB/createOrthologs.py Create table tmp_Orthologs /usr/local/bioinfo/genomicus/20180514/CreateDB/createOrthologs.py:24: Warning: Unknown table 'genomicus_27.1.tmp_Orthologs' cursor.execute("DROP TABLE IF EXISTS tmp_Orthologs") Insert 44 vs 46 Insert 45 vs 46 OK Time elapsed: 147.985455036 Maintenant c'est ok 55 millions d'enregistrements Table Croissant Action Enregistrements Type Interclassement Taille Perte BlocksStats Afficher Structure Rechercher Insérer Vider Supprimer 44 MyISAM latin1_swedish_ci 2,8 Kio Chromosome Afficher Structure Rechercher Insérer Vider Supprimer 69 605 MyISAM latin1_swedish_ci 3,3 Mio CNE_items Afficher Structure Rechercher Insérer Vider Supprimer InnoDB latin1_swedish_ci 16,0 Kio dnds_protein Afficher Structure Rechercher Insérer Vider Supprimer MyISAM latin1_swedish_ci 1,0 Kio Gene Afficher Structure Rechercher Insérer Vider Supprimer 788 823 MyISAM latin1_swedish_ci 209,9 Mio meta Afficher Structure Rechercher Insérer Vider Supprimer MyISAM latin1_swedish_ci 1,0 Kio Orthologs Afficher Structure Rechercher Insérer Vider Supprimer 22 019 235 MyISAM latin1_swedish_ci 773, 15 table(s) Somme 55 011 730 InnoDB latin1_swedish_ci 2,2 Gio o https://redmine.southgreen.fr/projects/genomicus/wiki/BFF_2018_DB_populate4Report 7/8 18/11/2019 BFF 2018 DB populate4Report - Genomicus - Redmine A cause du problème de récursion dans les arbres il y avait très peu de relations d'orthologie Orthologs Orthologs_new Afficher Afficher Structure Structure Rechercher Rechercher Insérer Insérer Vider Vider Supprimer Supprimer 081 424 MyISAM latin1_swedish_ci 107, MyISAM latin1_swedish_ci 1,0 Kio Orthologs Afficher Structure Rechercher Insérer Vider Supprimer 081 424 MyISAM latin1_swedish_ci 107,8 Orthologs_new Afficher Structure Rechercher Insérer Vider Supprimer 380 465 MyISAM latin1_swedish_ci tmp_Orthologs Afficher Structure Rechercher Insérer Vider Supprimer 667 878 MyISAM latin1_swedish_ci Pas besoin de lancer le script createOrthologs_tofile.py après coup pour genomicus_27.1 on a lancé directement createOrthologs.py Genomicus au CIRAD 1f) Récupération des anciennes données de la version Genomicus 19 génomes (old) for i in /gs7k1/projects/BFF/Genomicus/chromosome_*.txt; ln -s $i; done Vérifier SACHY for i ln -s ln -s ln -s in /gs7k1/projects/BFF/Genomicus/genes/*.list; echo "ln -s $i"; done /gs7k1/projects/BFF/Genomicus/genes/descr.ARATH.list /gs7k1/projects/BFF/Genomicus/genes/descr.BRAPG.list /gs7k1/projects/BFF/Genomicus/genes/descr.EUCGR.list NON pour ln -s /gs7k1/projects/BFF/Genomicus/genes/genes.SACHY.list ln -s /gs7k1/projects/BFF/Genomicus/genes/names.SACHY.list ln -s /gs7k1/projects/BFF/Genomicus/genes/descr.SACHY.list Au final on avait 81 fichiers soit 27 * -rw-rw-r droc lrwxrwxrwx sidibebocs lrwxrwxrwx sidibebocs lrwxrwxrwx sidibebocs -rw-rw-r droc BFF BFF BFF BFF BFF 52 52 66 Sep Oct Oct Oct Sep 26 28 28 28 26 08:37 23:35 23:35 16:56 08:37 descr.ANACO.list descr.ARATH.list -> /gs7k1/projects/BFF/Genomicus/genes/descr.ARATH.list descr.BRAPG.list -> /gs7k1/projects/BFF/Genomicus/genes/descr.BRAPG.list descr.COCNU.list -> /bank/genfam/genome_data_v9/COCNU_HT001RO02/genes/descr.COCNU.list descr.DIOAL.list 1g) Retour sur les derniers problèmes rencontrés avec les 19 génomes Pourquoi certains gènes sont absents Dans mes familles primary_transcript (longest=1) on a Misin04G230800.1 Misin04G216000.1 genes/genes.MISSI.list:Chr04 Misin04G230800.1 Misin06G152600.1 genes/genes.MISSI.list:Chr06 78634727 78637516 -1 53228861 53231551 Misin04G216000.1 Misin06G152600.1 Alors que le script phytozome2gff3.pl prend pour les fichier genes grep Misin04G230800 genes.MISSI.list Chr04 82350570 82353403 Misin04G230800.2 Pour l'instant changer le script pour qu'il prenne les longest si le flag existe sinon en amélioration faire la somme des longueurs des exons et pas la taille du mRNA Dans le gff3 Chr04 Chr04 Chr04 Chr04 phytozomev12 phytozomev12 phytozomev12 phytozomev12 gene 82350570 mRNA 82350570 exon 82350570 five_prime_UTR 82353403 82353345 82351116 82350570 + + + 82350696 ID=Misin04G230800.v7.1;Name=Misin04G230800 ID=Misin04G230800.1.v7.1;Name=Misin04G230800.1;pacid=40508632;longest=1;Pare ID=Misin04G230800.1.v7.1.exon.1;Parent=Misin04G230800.1.v7.1;pacid=40508632 + ID=Misin04G230800.1.v7.1.five_prime_UTR.1;Parent=Misin04G230800.1 Pourquoi les chromosomes de POPTR ne s'affichent pas ? Je ne comprends pas car première vue OK more chromosome_POPTR.txt Chr01 50495391 4890 Chr02 25263035 2748 Chr03 21816808 2339 Chr04 24267051 2434 Chr05 25890704 2712 scaffold_1012 13660 scaffold_1014 13931 cd assembly/ more POPTR.fa >Chr01 ACCCAAACCCCAACCCCAAACCCCAAACCCCAAACCCCAAACCCTAAACCCTAACCCTAACCCTAACCCCTACCCCTAAA https://redmine.southgreen.fr/projects/genomicus/wiki/BFF_2018_DB_populate4Report 8/8 Annexe C Quelques visualisations de contextes génomiques C.1 Visualisation du GeCo d’un gène du palmier huile : gène XP_010926746.1 (FATA 1) C.1.1 Visualisation avec InTreeGreat et MicroGeco Nombre de voisins : 68 ANNEXE C QUELQUES VISUALISATIONS DE CONTEXTES GÉNOMIQUES F IGURE C.1 – Annexe- Visualisation du GeCo du XP_010926746.1 avec 15 voisins 69 ANNEXE C QUELQUES VISUALISATIONS DE CONTEXTES GÉNOMIQUES C.1.2 Visualisation avec Genomicus F IGURE C.2 – Annexe- Visualisation du GeCo du XP_010926746.1 (palmier huile) avec Genomicus 70 ANNEXE C QUELQUES VISUALISATIONS DE CONTEXTES GÉNOMIQUES C.2 Visualisation du GeCo d’un gène du palmier huile : gène XP_029121821.1 (FATA 2) C.2.1 Visualisation avec InTreeGreat et MicroGeco Nombre de voisins : F IGURE C.3 – Annexe- Visualisation du GeC du XP_029121821.1 avec 15 voisins 71 ANNEXE C QUELQUES VISUALISATIONS DE CONTEXTES GÉNOMIQUES C.2.2 Visualisation avec Genomicus F IGURE C.4 – Annexe- Visualisation du GeCo du XP_029121821.1 (palmier huile) avec Genomicus 72 ANNEXE C QUELQUES VISUALISATIONS DE CONTEXTES GÉNOMIQUES C.3 Visualisation d’une famille deux feuilles : le gène XP_010928807.1 du palmier huile C.3.1 Visualisation avec MicroGeco et InTreeGreat F IGURE C.5 – Annexe- Visualisation de XP_010928807.1 (famille deux feuilles) avec MicroGeco et InTreeGreat C.3.2 Visualisation avec Genomicus F IGURE C.6 – Annexe- Visualisation de XP_010928807.1 (famille deux feuilles) avec Genomicus 73 ANNEXE C QUELQUES VISUALISATIONS DE CONTEXTES GÉNOMIQUES 74 ... évaluation de MicroGeco 3.2.6.1 Test de MicroGeco sans intégration 3.2.6.2 Test de MicroGeco avec l’intégration dans InTreeGreat 3.2.7 Evaluation de MicroGeco... given rise to two tools : MicroSynton for visualizing relationships within a pair of protein blocks and MicroGeco for visualizing the genomic context of a gene family MicroGeco has been integrated... deux outils : MicroSynton pour la visualisation des relations au sein d’une paire de blocs synténiques et MicroGeco pour la visualisation du contexte génomique d’une famille de gènes MicroGeco a

Ngày đăng: 17/03/2021, 19:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w