L'unité MIG et l'unité MIAJ ont fusionné au 1er janvier 2015. Elles constituent dorénavant la nouvelle unité MaIAGE dont le site internet est accessible via l'URL suivante : http://maiage.jouy.inra.fr.

Logiciels

La diffusion des méthodes issues des recherches de l'unité MIG auprès de la communauté des biologistes, bioanalystes ou bioinformaticiens se fait en grande partie grâce aux logiciels qui mettent en oeuvre ces méthodes. De par la puissance de calcul qu'elles nécessitent et/ou les volumes de données qu'elles traitent, ces applications ne se destinent pas forcément à un déploiement sur les postes de travail des utilisateurs. De plus, plusieurs initiatives de mise en place de Web Services sont en développement dans l'unité, la plus aboutie formant l'ossature de AGMIAL.

Vous trouverez ci-dessous nos principaux logiciels :

  • Agmial est une chaîne d'annotation de génomes bactériens qui s'appuie sur un certain nombre d'outils développés au laboratoire(SHOW, Prose,Pareo,...). Agmial est actuellement utilisé pour l'annotation ou la réannotation de plus d'une dizaine de génomes. Le logiciel est distribué sous licence GPL.
  • AlvisAE (Alvis Annotation Editor) est un éditeur d'annotation en ligne. Il permet de visualiser et d'annoter les entités et les relations d'un texte. Il inclut des fonctions de gestion de campagne d'annotation. Il permet d'annoter les entités par les concepts d'une ontologie et de réviser l'ontologie en parallèle. Il est intégré à AlvisNLP. Ce travail a été partiellement financé par le projet Quaero..Voir LAW VI paper pour plus de détails.
  • Alvis NLP/ML est une chaîne de traitement pour l'annotation sémantique de documents textuels, intégrant des outils de traitement automatique des langues naturelles pour la segmentation en mots/phrases, la reconnaissance d'entités nommées, l'analyse de termes, le typage sémantique et l'extraction de relations. Ces outils exploitent des ressources externes, comme des terminologies ou des ontologies. AlvisNLP/ML propose plusieurs outils pour l'acquisition (semi)-automatique de ces ressources, fondées sur des techniques d'apprentissage automatique. La chaîne est facilement configurable et extensible par ajout de nouveaux composants. Ce travail a été partiellement financé par le projet européen Alvis et le projet Quaero. Voir Nédellec et al., Handbook on Ontology, 2009
  • AlvisIR (Alvis Information Retrieval) est un moteur de recherche sémantique générique accessible par un navigateur. Une instance dans un domaine donnée peut être déployée en quelques heures pour une collection de documents et une ontologie. Une requêtete utilisateur qui porte sur un concept général de l'ontologie retrouve tous les documents traitant de ce concept, qu'ils soient sous la forme de synonymes ou de termes plus spécifiques. Le moteur traite également la recherche de relations.
    Voir par exemple l'instance développée pour la recherche sur les biotopes bactériens.
    Il intégré avec AlvisNLP et et AlvisAE. Ce travail a été partiellement financé par le projet européen Alvis et le projet Quaero.
  • AnovArray est un ensemble de macros SAS pour l'analyse de données expressionnelles de type microarray et macroarray. Il permet la quantification des variations biologiques et technologiques et la détection de gènes différentiels entre plusieurs conditions. Les méthodes statistiques utilisées sont l'analyse de variance (ANOVA) et la méthode FDR (False Discovery Rate) pour le calcul de probabilités ajustées dans le cadre de test d'hypothèses multiples.
  • BasyLiCA Environnement (interface et base de données) dédié à la gestion et au traitement de données d'expression des gènes acquises en temps réel de type Live Cell Array (LCA).
  • Beluga La démarche centrale est basée sur l'analyse d'un corpus (archive) de documents semi-structurés provenant d'une base de données bibliographique. L'objectif est de décrire la dynamique des connaissances notamment en vue de comprendre l'émergence de crises sanitaires en agronomie (OGM, Vache Folle, Mycotoxine,...) dans le discours scientifique. Les techniques computationnelles utilisées émanent de l'apprentissage automatique (classification) et du traitement automatique des langues (extraction terminologique) mais aussi d'une méthode sociologique appelée GST (Graphe SocioTechnique). In fine BELUGA propose des indices d'évolution de l'innovation à partir de listes d'items issus de types textuels (références, termes, mots-clés, auteurs, pays) et d'une grille d'intervalles temporels lié à la publication des documents. BELUGA a été développé en coopération avec le departement SAD (sciences sociales) de l'INRA. Il est distribué librement ici.
  • BioYaTeA est une extension du logiciel YaTeA d'extraction terminologique. Il extrait des termes dans des textes en français et en anglais. Il inclut le traitement des adjectifs verbaux et des groupes prépositionnels en at et to. Il inclut des fichiers de filtrage de termes spécifiques à la biologie. Il est intégré dans AlvisNLP. Il est publiquement distribué sous forme de module CPAN. Ce travail a été partiellement financée par le projet européenAlvis et le projet Quaero. Voir l'article (Golik et al., CiCLING'2013) pour plus de détails
  • Class2G permet de classer les gènes en deux groupes en utilisant un modèle de mélange. Les principales caractéristiques sont d'une part l'affectation des gènes est associée à une probabilité, et d'autre part l'analyse d'un macroarray est indépendante d'une référence. Class2G est intégrée au système BASE (BioArray Software Environment) par l'intermédiaire d'un plug-in perl, et est développé dans l'environnement statistique R. BASE permet d'accéder à une interface web conviviale, d'utiliser un seul environnement pour le stockage et l'analyse de données. Class2G a été utilisé pour la détection de gènes présents et absents de E. faecalis dans le cadre de l'analyse d'une trentaine de macroarray (P.Serror - INRA Jouy-en-Josas - UBLO). Il est distribué ici.
  • Dynamocell permet la visualisation des voies métaboliques d'un organisme et leurs régulations (génétiques et enzymatiques) et intègre également les principaux outils d'analyse des réseaux métabolique disponible dans la littérature. Il permet notamment d'évaluer l'impact de différentes contraintes sur la répartition globales des flux métaboliques (délétion de gènes, saturation de flux ...).
  • EasyQB permet de générer de façon simple et rapide une interface de recherche complète sur la plupart des bases de données. Pour cela il suffit de décrire dans des tables spécifiques le modèle de la base et les objets que l'on souhaite pouvoir requêter, EasyQB se charge ensuite de générer l'interface de recherche, puis les requêtes SQL correspondantes.Ce programme est utilisé par Agmial et d'autres bases de données du laboratoire, il est disponible sous licence GPL.
  • ESAP est un programme de prédiction de la conformation de boucles dans les protéines. Il est basé sur une technique de Monte-Carlo dans l'espace des angles dièdres. Il est disponible ici.
  • FADO est un programme qui permet de détecter des distances évitées ou privilégiées entre deux motifs le long d'une séquence. Il est pour l'instant accessible sur demande mais sera bientôt téléchargeable sur Internet.
  • GOR IV est un programme de prédiction de la structure secondaire des protéines. 3 états sont pris en considération : l'hélice alpha (H), les brins bêta (b) et les structures apériodiques (C). Ce programme est basé sur des considérations statistiques issues de la théorie de l'information. Il n'utilise pas d'alignement multiple. Il fournit un résultat Q3 de 65%.
  • GOR V est un programme de prédiction des structures secondaires des protéines dérivé du GOR IV par addition du contenu d’information des alignements multiples des séquences d’acides aminés par le programme PSI-BLAST (Altschul et al. Nucl. Acids Res. 25, 3389, 1997). Sa précision de prédiction, Q3, est de 73,5%.
  • hmmtiling Ce programme implémente l'approche présenté dans notre article "Transcriptional landscape estimation from tiling array data using a model of signal shift and drift" (Nicolas et al., Bioinformatics, 2009). Il prend en entrée les log intensités mesurées le long du génome et produit une estimation du paysage transcriptionnel incluant une prédiction des points de ruptures dans le signal (qui correspondent typiquement aux promoteurs et terminateurs).
  • ISLAND est un programme qui permet de simuler le progrès d'un projet de cartographie physique de génomes par la méthode d'ancrage. Il fournit en particulier le nombre moyen de contigs obtenus, leur longueur moyenne et la proportion moyenne de génome recouverte par les contigs, en fonction de la longueur du génome, des nombres de clones et ancres utilisés et des longueurs de clones. Il est disponible (code source et documentation) ici.
  • KAKSI est un programme d'assignation de la structure secondaire des protéines. L'assignation des structures secondaires : l'hélice alpha (H), les brins bêta (b), les tournants (T) et les structures apériodiques (C) est effectuée sur la base des distances entre les carbones alpha et des angles phi et psi de la chaîne principale. Le programme calcule aussi la courbure de la chaîne principale.
  • LP2Asium est un logiciel développé dans le cadre des projets Caderige et ExtraPloDocs. C'est une suite intégrée de composants indépendants qui prend en entrée un document textuel, en fait l'analyse syntaxique grâce à Link Parser (développé au CMU), en extrait toutes les dépendances syntaxiques, les classe par type et les met au format d'entrée Asium. La grammaire et le lexique de LP sont modifiables et la liste des dépendances indépendante de l'analyseur. La suite est en Perl et Java. LP2Asium est libre. Il est fourni avec un lexique spécialisé pour la génomique.
  • MuGeN(Multi-Genome Navigator) est un outil interactif permettant une exploration dans plusieurs génomes annotés complétés par des résultats d'analyse in silico. Il dispose également d'un mode d'exécution en mode batch lui permettant de servir de générateur d'images à divers formats. Ce mode de fonctionnement le prédispose à être intégré à des sites Web pour l'affichage de cartes physiques annotées. MuGeN est disponible ici et est référencé sur sur les portails FreshMeat et Bioinformatics.Org.
  • OSS-HMM (Optimal Secondary Structure prediction Hidden Markov Model) est un programme de prédiction de la structure secondaire des protéines selon 3 états : hélice alpha (H), brin bêta (b), et structure apériodique (C) qui utilise le formalisme des modèles de Markov cachés. Quand il est utilisé avec une seule séquence il fournit un Q3 de 68.8%. Avec un alignement multiple il fournit un Q3 de 75.5%. Cet outil peut aussi être utilisé pour générer des séquences de protéines ayant une suite de structures secondaires particulières.
  • PCM (Pairwise Correlation Method). Programme Matlab qui effectue la partition d'une matrice de co-occurrence, il est utilisé pour l'identification des domaines par récurrence dans les protéines, programme DOMIRE (DOMain Identification from REcurrence), voir: Tai CH, Sam V,Gibrat JF, Garnier J, Munson PJ et Lee BK. Proteindomain assignment from the recurrence of locally similar structures. PROTEINS: Structure, Function, and Bioinformatics, 2011; 79:853–866. IL peut être téléchargé librement ici.
  • RBA_B168 1.0 Calcul de l'allocation des ressources optimale pour la croissance pour un milieu donné (méthode RBA) pour Bacillus subtilis.
  • R'HOM (Recherche de régions HOMogènes dans les séquences d'ADN) est un logiciel dédié à l'utilisation de modèles de chaînes de Markov cachées pour la segmentation de séquences d'ADN en régions homogènes. R'HOM permet d'estimer un modèle de la composition des séquences d'ADN plus réaliste qu'un modèle de chaîne de Markov homogène et ensuite de segmenter les séquences sous ce modèle. Il a été utilisé notamment pour la recherche de transferts horizontaux chez B. subtilis et pour l'estimation de modèles destinés au calcul de la significativité de comptages de mots. R'HOM a été développé en coopération avec le Laboratoire Statistique et Génome d'Evry. Il est distribué librement à l'adresse ici.
  • R'MES (Recherche de Mots Exceptionnels dans les Séquences d'ADN) est un ensemble de programmes C++ dédié à la recherche de mots (ou familles de mots) ayant une fréquence exceptionnelle dans une séquence donnée (ADN, protéine ou autre). Il est distribué librement sur Internet à partir de la plateforme de développement collaboratif mulcyber de l'Unité de recherche BIA de l'INRA-Toulouse ainsi qu'un guide de l'utilisateur et une aide en ligne. Une visualisation des résultats générés par R'MES peut être obtenue grâce à l'interface graphique RMESPlot disponible sur http://mulcyber.toulouse.inra.fr/projects/rmesplo.
  • SHOW (Structured HOmogeneities Watcher) est un "R'HOM" amélioré qui permet de définir souplement un modèle de chaîne de Markov cachée complexe puis d'utiliser ce modèle de diverses manières grâce à l'implémentation d'algorithmes de segmentation (forward-backward, Viterbi), d'estimation (EM) et de simulation. Jusqu'à aujourd'hui SHOW a essentiellement servi pour prédire les gènes bactériens mais il a aussi été utilisé avec d'autres objectifs comme la détection des sites d'épissage chez l'Homme. A l'avenir il devrait faciliter la mise au point de modèles destinés à l'étude de nombreux problèmes biologiques. SHOW a été développé en collaboration avec le Laboratoire Statistique et Génome d'Evry, il peut être téléchargé librement ici.
  • SIMPA est un programme de prédiction de la structure secondaire des protéines. 3 états sont pris en considération : l'hélice alpha (H), les brins bêta (b) et les structures apériodiques (C). Ce programme est basé sur la notion du "voisin le plus proche" ou "nearest neighbor". Il fournit un résultat Q3 de 67%. Il peut être téléchargé librement ici.
  • SMF (Symmetric Matrix Factorization). Programme Matlab qui effectue la partition d'une matrice de co-occurrence, il est utilisépour l'identification des domaines dans les protéines, programme DOMIRE (DOMainIdentification from REcurrence), voir: Tai CH, SamV, Gibrat JF, Garnier J, Munson PJ et Lee BK. Protein domain assignment from the recurrence of locally similarstructures. PROTEINS: Structure,Function, and Bioinformatics, 2011; 79:853–866 . IL peut être téléchargé librement ici.
  • svcR (classification automatique de termes basé sur une méthode à noyau) est un package developpé sous R dédié à l'analyse de la synonymie lexicale pour l'aide a la classification lexicale semi-automatique et la suggestion de patrons pour générer des expressions régulières. L'outil s'appuie sur une méthode d'analyse de densité d'une matrice de corrélation dont le cadre théorique est fourni par les méthodes à noyaux. Il est distribué librement à l'adresse du CRAN qui diffuse la plateforme R. svcR est distribué librement ici.
  • SVD : (Singular Vector Decomposition). Programme Matlab qui effectue la partition d'une matrice de co-occurrence, il est utilisé pour l'identification des domaines dans les protéines, programme DOMIRE (DOMain Identification from REcurrence), voir:Tai CH, Sam V, Gibrat JF, Garnier J, Munson PJ et LeeBK. Protein domain assignment from therecurrence of locally similar structures. PROTEINS: Structure, Function, and Bioinformatics, 2011; 79:853–866. IL peut être téléchargé librement ici.
  • treemm Ce programme est dédié à la classification non supervisée des séquences promotrices de bactéries. Il se fonde pour cela sur la modélisation de plusieurs classes de motifs bipartites dont l'objectif est de rendre compte des différents types de facteurs Sigma. Il permet de prendre en compte la position des séquences dans un arbre visant à résumer les similarités de profils d'expression des différents promoteurs. L'approche est décrite dans notre article "Condition-Dependent Transcriptome Reveals High-Level Regulatory Architecture in Bacillus subtilis" (Nicolas et al., Science, 2012).
  • TyDI, (Terminology Design Interface) est un outil collaboratif pour la validation et la structuration de termes en ontologie. Les termes sont extraits d'un corpus de documents textuels par un extracteur de termes comme BioYatea ou proviennent d'une terminologie existante. L'ontologie est exportable en différents formats standard, pour être ensuite utilisés par d'autres outils d'analyse de texte en langue naturelle. Ce travail a été partiellement financé par le projet européen Alvis et le projet Quaero.Voir Golik et al., EKAW 2010 pour plus de détails.
  • VAST est un programme de comparaison des structures 3D des protéines. VAST est disponible ici