L'unité MIG et l'unité MIAJ ont fusionné au 1er janvier 2015. Elles constituent dorénavant la nouvelle unité MaIAGE dont le site internet est accessible via l'URL suivante : http://maiage.jouy.inra.fr.

Génome et évolution

Cette page propose une description succinte des principales activités du groupe thématique Génome et Evolution. La liste des personnes impliquées est consultable sur l'organigramme de l'unité.

  • Intégration de données
  • Annotation de génomes
    La plate-forme d’annotation AGMIAL a été développée pour répondre aux besoins d’un groupe de microbiologistes de l’INRA réunis, en 2000, au sein d’un projet éponyme (Bryson et al., 2006). De nombreux génomes complets ont été annotés avec cet outil depuis tels que ceux de Lactobacillus sakei, Lactobacillus bulgaricus et Flavobacterium psychrophilum (Chaillou et al., 2005; Van de Guchte et al., 2006;Duchaud et al., 2007). Nous avons en parallèle développé une méthode de prédiction de gènes codants pour des protéines chez les bactéries dont une des caractéristiques est de ne pas reposer sur un jeu d'apprentissage (SHOW). Ce programme est utilisé par la chaîne d'annotation AGMIAL et a notamment servi pour une recherche systématique des petits gènes chez les streptocoques (Ibrahim et al., 2007) se poursuivant aujourd'hui par des études expérimentales. Nous nous intéressons maintenant à l'utilisation de nouvelles technologies de transcritomique tels que les puces haute-densité (Basysbio) et le séquençage haut-débit (projet ExEco) comme source d'information complémentaire pour l'annotation. C'est dans ce contexte que nous avons par exemple récemment proposé un nouvel algorithme de traitement des données de tiling arrays pour localiser les promoteurs et les terminateurs (Nicolas et al., 2009).
  • Métagénomique
    Dans la continuité des activités d'annotation de génomes et avec l'essor des technologies de séquençage haut-débit l'unité s'est fortement impliquée dans les projets de métagénomique. Nous prenons en charge une partie de la bioinformatique du projet MicroObes visant à caracteriser la flore intestinale humaine, notamment en relation avec l'obésité. Nous participons également au projet ComBiME dont le but est de proposer de nouvelles méthodes pour l'analyse des données métagénomiques.
  • Génomique comparative
    Cet aspect de notre activité vise à mettre en oeuvre les approches de génomique comparative pour répondre à des questions biologiques d'intérêt. Ainsi la base de données MOSAIC met a disposition de la communauté des alignements de génomes complets bactériens (Chiapello et al., 2008). La décomposition des génomes en régions conservées et non-conservées a notamment servi dans des recherche de motifs (Halpern et al., 2007). Dans une autre étude, nous avons étudié les incongruances topologiques entre les arbres reconstruits pour différents gènes dans le genre Lactobacillus et ainsi mis en évidence un niveau inattendu de recombinaison entre espèces qui pourraient avoir eu lieu dans le tube digestif (Nicolas et al., 2007). Nous nous intéressons également à l'analyse de la structure de populations bactériennes à partir de données de Multi-Locus Sequence Typing (Nicolas et al., 2008).
    Concernant les génomes fongiques, nous avons développé des outils pour rechercher les meilleurs gènes pour réaliser des phylogénies chez les champignons à partir des orthologues présents dans l'ensemble des génomes fongiques complets publiés, (Aguileta et al. 2008, Marthey et al., 2008). Nous avons aussi identifié des marqueurs polymorphes (microsatellites) et des gènes soumis à sélection diversifiante à partir de banques EST des complexes fongiques phytopathogènes (Microbotryum violaceum et Botrytis). Le but est d'identifier des gènes impliqués dans la relation hôte-pathogène, (Giraud et al. 2008, Yockteng et al. 2007).
    D'autres projets de génomique comparative sont en cours tels que le projet GenYeasTrait (levure oenologique), le projet FlavoPhyloGenomics (bactérie flavobacterium) 100 loci x 100 Flavobacterium.
  • Modèles d'évolution
    Le but est ici de proposer de nouveaux modèles et de nouvelles méthodes d'inférence. On peut distinguer deux aspects des modèles d'évolution : la modélisation de
    la généalogie, et la modélisation de l'évolution des séquences le long de la généalogie. Nous sommes interessés par ces deux aspects des modèles d'évolution. Concernant les approches d'inférence nous avons
    une expertise particulière du développement d'approches bayésiennes reposant sur des algorithmes MCMC avec ou sans vraisemblance (Nicolas et al., 2007; Grelaud et al., 2009).
  • Analyses statistiques des séquences
    Nous développons diverses méthodes d'analyse statistique des occurrences de motifs le long de séquences biologiques à des fins soit prédictives (détermination de motifs fonctionnels) soit descriptives. Nous avons ainsi mis au point des scores permettant de juger de la significativité (calcul de p-values) de la fréquence d'un mot (éventuellement d'un ensemble de mots) dans une séquence, mais aussi du biais de brin (skew) d'un mot. Nous avons également construit deux tests statistiques qui permettent de savoir si l'exceptionnalité de la
    fréquence d'un mot est significativement plus importante dans une séquence (ou région) que dans une autre. Le calcul de ces scores et p-values est implémenté dans le logiciel R'MES que nous développons. R'MES a permis par exemple d'identifier plusieurs motifs d'ADN fonctionnels dans des génomes bactériens : le site KOPS d'E. coli (Bigot et al. 2005), les sites Chi chez Staphylococcus aureus et plusieurs steptocoques (Halpern et al., 2007) et le site matS d'E. coli (Mercier et al. 2008). Quelques résultats statistiques ont été obtenus pour des motifs dits "structurés" c'est-à-dire composés de plusieurs mots séparés par une distance contrainte. Nous travaillons aussi sur une modélisation de la répartition des occurrences d'un motif le long d'une séquence, voire de la corrélation entre les occurrences de plusieurs motifs. Cela permet d'identifier des distances favorisées ou au contraire évitées entre occurrences.
  • Relations séquences-structure 3D-fonction des protéines
    L'analyse de ces relations s'articule autour de trois domaines connexes mais distincts :
    La comparaison des structures 3D. Nous avons procédé à une refonte totale de l'algorithme de VAST (logiciel de comparaison de structures 3D de protéines) afin d'optimiser ses performances. Nous avons utilisé VAST pour établir une classification automatique des structures 3D de protéines et la comparer avec les classifications manuelles produites par des experts (Sam et al. 2006 et 2008). Ceci nous a conduit à proposer une nouvelle méthode pour partitionner les structures 3D en domaines structuraux basée sur la récurrence de motifs dans les structures.
    La modélisation de la structure 3D des protéines à partir de la séquence.
    -- modelisation par homologie. Nous avons développé un logiciel et un site Web permettant de modéliser automatiquement les récepteurs olfactifs (récepteurs couplés aux protéines G)
    -- méthodes de reconnaissance de repliements. Dans le cadre du projet PROTEUS nous avons étendu les possibilités de notre logiciel de reconnaissance de repliement FROST en implémentant de nouveaux types d'alignement: les alignements semi-globaux et locaux (Collet et al. 2009), en développant de nouvelles fonctions de score et en étudiant la significativité des scores obtenus.
    -- méthodes de novo. Dans un premier temps nous nous sommes intéressés à la prédiction des structures secondaires à partir de la séquence (Martin et al. 2006) afin d'avoir des informations sur la structure locale de la chaîne polypeptidique. Nous sommes en train de développer une méthode de novo basée sur un modèle simplifié de la chaîne polypeptidique en coordonnées internes (les angles de rotation autour des liaisons chimiques).
    Les simulations numériques. Nous avons étudié par dynamique moléculaire la stabilité de différents modèles obtenus par les techniques de reconnaissance de repliements. Le but de ces simulations était de tester s'il était possible de discriminer les bons modèles des mauvais modèles en ayant une description plus détaillée de la chaîne polypeptidique (Taly et al. 2008)