L'unité MIG et l'unité MIAJ ont fusionné au 1er janvier 2015. Elles constituent dorénavant la nouvelle unité MaIAGE dont le site internet est accessible via l'URL suivante : http://maiage.jouy.inra.fr.

AGMIAL

Annotation de Génomes Microbiens d'Intérêt Agro aLimentaire

Les approches de biologie intégrative occupent désormais une place centrale dans la recherche en biologie. Pour les espèces microbiennes, elles se fondent plus particulièrement sur l'analyse du génome des organismes d'intérêt (génomique, transcriptomique, protéomique, comparaison des génomes, etc.)
Conscientes de ce développement de la biologie, un certain nombre d'unités de microbiologie de l'INRA se sont associées dans le projet AGMIAL pour mener à bien le séquençage et l'annotation de génomes de divers organismes (Lactobacillus sakei, Lactobacillus bulgaricus, Oenococcus oeni, Lactobacillus casei, Propionibacterium freudenreichii, Yarrowia lipolytica, Escherichia coli pathogènes, Flavobacterium psycrophilum). L'unité MIG en assure la partie bioinformatique par le développement d'une plate-forme d'annotation, ainsi que le soutien correspondant aux unités concernées.

Ce projet réalise la synthèse de toutes les activités de l'unité. Il incorpore à la fois des méthodes développées dans l'unité comme FROST ou SHOW ainsi que les bases de données relationnelles que nous avons créées (MICADO, PROSE, PDB, SPID). Il nous permet également d'apporter notre expertise dans les domaines que nous étudions, comme l'analyse des séquences protéiques, en incluant dans le système une stratégie efficace permettant d'extraire le maximum d'information des données brutes.

Les composantes principales du système d'annotation sont les suivantes :

  • une base de données qui gère les données initiales, les contigs ainsi que les résultats produits par les méthodes d'analyses : les gènes, les différents signaux associés, les protéines codées par les gènes et les résultats des diverses analyses effectuées sur ces protéines,
  • une chaîne de programmes d'analyse. Cette chaîne est constituée de 2 parties, l'une consacrée à l'analyse des séquences nucléiques, l'autre à l'analyse des séquences protéiques,
  • des interfaces (Artémis qui est un logiciel développé au centre Sanger à Cambridge et G-Web) permettant aux biologistes de consulter les données, éventuellement de les modifier et d'annoter les gènes.

Le système est conçu comme un système multi-agents (l'intérêt des systèmes multi-agents est présenté dans la référence. Pour définir d'une phrase un système multi-agents, on pourrait dire que c'est une collection de programmes autonomes, chacun capable d'exécuter une tâche élémentaire, et qui communiquent entre eux pour mener à bien une fonction complexe intégrant ces tâches élémentaires. Ce concept a été proposé et mis en oeuvre effectivement par K. Bryson lors de son post-doc dans l'unité. Nous avons adopté la technologie des services Web comme logique d'intégration informatique. Cela nous permet d'inter-connecter l'ensemble des composants logiciels en une architecture modulaire, répartie et standardisée. Cette approche a permis une réalisation rapide de la plate-forme et rend le système naturellement ouvert aux extensions.

La plate-forme d'annotation est opérationnelle depuis l'automne 2002. Elle a été utilisée pour annoter les séquences de Lactobacillus sakei, Lactobacillus bulgaricus et Streptomyces ambofaciens. Elle est désormais disponible en routine pour les bactéries ou les archées. Tous les utilisateurs de la plate-forme d'annotation expriment leur satisfaction pour la facilité d'usage des interfaces et pour la puissance et la précision des analyses effectuées. Ainsi, il faut noter que plusieurs équipes INRA préfèrent ré-annoter certains génomes déjà disponibles à l'aide de cet outil plutôt que d'utiliser les données publiques, par exemple, Streptococcus thermophilus, Lactococcus lactis et Enterococcus faecalis. Les résultats des analyses pour les deux derniers génomes sont consultables ici.