Logiciels

La diffusion des méthodes issues des recherches de l'unité MIG auprès de la communauté des biologistes, bioanalystes ou bioinformaticiens se fait en grande partie grâce aux logiciels qui mettent en oeuvre ces méthodes. De par la puissance de calcul qu'elles nécessitent et/ou les volumes de données qu'elles traitent, ces applications ne se destinent pas forcément à un déploiement sur les postes de travail des utilisateurs. De plus, plusieurs initiatives de mise en place de Web Services sont en développement dans l'unité, la plus aboutie formant l'ossature de AGMIAL.

Vous trouverez ci-dessous nos principaux logiciels :

  • Agmial est une chaîne d'annotation de génomes bactériens qui s'appuie sur un certain nombre d'outils développés au laboratoire(SHOW, Prose,Pareo,...). Agmial est actuellement utilisé pour l'annotation ou la réannotation de plus d'une dizaine de génomes. Le logiciel est distribué sous licence GPL.
  • Alvis NLP/ML est une chaine de traitement pour l'annotation de documents textuels, rassemblant des outils de traitement automatique des langues naturelles pour la segmentation en mots/phrases, la reconnaissance d'entités nommées, l'analyse de termes, le typage sémantique et l'extraction de relations (voir pour ces sujets la revue de Nedellec et coauteurs dans Handbook on Ontologies 2009). Ces outils requièrent bien souvent des ressources externes pour fonctionner, comme des terminologies ou des ontologies. AlvisNLP/ML propose plusieurs outils pour l'acquisition (semi)-automatique de ces ressources, fondées sur des techniques d'apprentissage automatique. La chaine est facilement extensible par ajout de nouveaux composants. AlvisNLP/ML sera bientôt accessible sous licence de type "freeware". Ce travail a été partiellement financé par le projet européen Alvis et le projet Quaero.
  • AlvisIR est un outil pour l'indexation de documents et la recherche sémantique. Il supporte des fonctions avancées telles que la synonymie, la désambigüisation et la recherche sémantique. Il s'appuie sur un composant d'indexation appelé Zebra. Notre groupe a développé un accès web pour le moteur de recherche. L'ensemble sera prochainement disponible sous licence de type "freeware". Ce travail a été partiellement financé par le projet européen Alvis et le projet Quaero.
  • AnovArray est un ensemble de macros SAS pour l'analyse de données expressionnelles de type microarray et macroarray. Il permet la quantification des variations biologiques et technologiques et la détection de gènes différentiels entre plusieurs conditions. Les méthodes statistiques utilisées sont l'analyse de variance (ANOVA) et la méthode FDR (False Discovery Rate) pour le calcul de probabilités ajustées dans le cadre de test d'hypothèses multiples.
  • Asiumconstruit des hiérarchies conceptuelles (ontologies) à partir de texte analysé. Il est associé avec le logiciel LP2LP qui transforme les sorties de Link Parser en entrée d'Asium et à un logiciel de transformation des sorties en RDF.
  • BasyLiCA Environnement (interface et base de données) dédié à la gestion et au traitement de données d'expression des gènes acquises en temps réel de type Live Cell Array (LCA).
  • Beluga La démarche centrale est basée sur l'analyse d'un corpus (archive) de documents semi-structurés provenant d'une base de données bibliographique. L'objectif est de décrire la dynamique des connaissances notamment en vue de comprendre l'émergence de crises sanitaires en agronomie (OGM, Vache Folle, Mycotoxine,...) dans le discours scientifique. Les techniques computationnelles utilisées émanent de l'apprentissage automatique (classification) et du traitement automatique des langues (extraction terminologique) mais aussi d'une méthode sociologique appelée GST (Graphe SocioTechnique). In fine BELUGA propose des indices d'évolution de l'innovation à partir de listes d'items issus de types textuels (références, termes, mots-clés, auteurs, pays) et d'une grille d'intervalles temporels lié à la publication des documents. BELUGA a été développé en coopération avec le departement SAD (sciences sociales) de l'INRA. Il est distribué librement ici.
  • BioAlvis est une instance de la plate-forme AlvisNLP/ML/IR dédiée à la biologie moléculaire chez les micro-organismes. Elle indexe plus de 4000000 références Pubmed et intègre la chaine AlvisNLP/ML (pour l'annotation des résumés d'articles) et le moteur de recherche AlvisIR. Pour plus de détails sur l'architecture et les ressouces utilisées, voir le papier de Bossy et collègues (1st International Semantic Web Applications and Tools for Life Sciences Workshop, SWAT4LS ( .pdf).
  • Cadixe Ce logiciel est un éditeur développé dans le cadre des projets Caderige et ExtraPloDocs. Il permet d'annoter un texte à l'aide de balises XML à partir d'une DTD. Son interface graphique permet de choisir et de visualiser les balises sous la forme d'attributs graphiques (couleur, style, police, taille de la police, inversion video, etc.) définis dans une feuille de style modifiable. Une DTD très détaillée a été définie pour l'annotation d'interactions géniques. Le logiciel est libre et est écrit en Java.
  • Class2G permet de classer les gènes en deux groupes en utilisant un modèle de mélange. Les principales caractéristiques sont d'une part l'affectation des gènes est associée à une probabilité, et d'autre part l'analyse d'un macroarray est indépendante d'une référence. Class2G est intégrée au système BASE (BioArray Software Environment) par l'intermédiaire d'un plug-in perl, et est développé dans l'environnement statistique R. BASE permet d'accéder à une interface web conviviale, d'utiliser un seul environnement pour le stockage et l'analyse de données. Class2G a été utilisé pour la détection de gènes présents et absents de E. faecalis dans le cadre de l'analyse d'une trentaine de macroarray (P.Serror - INRA Jouy-en-Josas - UBLO). Il est distribué ici.
  • Dynamocell permet la visualisation des voies métaboliques d'un organisme et leurs régulations (génétiques et enzymatiques) et intègre également les principaux outils d'analyse des réseaux métabolique disponible dans la littérature. Il permet notamment d'évaluer l'impact de différentes contraintes sur la répartition globales des flux métaboliques (délétion de gènes, saturation de flux ...).
  • EasyQB permet de générer de façon simple et rapide une interface de recherche complète sur la plupart des bases de données. Pour cela il suffit de décrire dans des tables spécifiques le modèle de la base et les objets que l'on souhaite pouvoir requêter, EasyQB se charge ensuite de générer l'interface de recherche, puis les requêtes SQL correspondantes.Ce programme est utilisé par Agmial et d'autres bases de données du laboratoire, il est disponible sous licence GPL.
  • ESAP est un programme de prédiction de la conformation de boucles dans les protéines. Il est basé sur une technique de Monte-Carlo dans l'espace des angles dièdres. Il est disponible ici.
  • FADO est un programme qui permet de détecter des distances évitées ou privilégiées entre deux motifs le long d'une séquence. Il est pour l'instant accessible sur demande mais sera bientôt téléchargeable sur Internet.
  • GOR IV est un programme de prédiction de la structure secondaire des protéines. 3 états sont pris en considération : l'hélice alpha (H), les brins bêta (b) et les structures apériodiques (C). Ce programme est basé sur des considérations statistiques issues de la théorie de l'information. Il n'utilise pas d'alignement multiple. Il fournit un résultat Q3 de 65%.
  • GOR V est un programme de prédiction des structures secondaires des protéines dérivé du GOR IV par addition du contenu d’information des alignements multiples des séquences d’acides aminés par le programme PSI-BLAST (Altschul et al. Nucl. Acids Res. 25, 3389, 1997). Sa précision de prédiction, Q3, est de 73,5%.
  • hmmtiling Ce programme implémente l'approche présenté dans notre article "Transcriptional landscape estimation from tiling array data using a model of signal shift and drift" (Nicolas et al., Bioinformatics, 2009). Il prend en entrée les log intensités mesurées le long du génome et produit une estimation du paysage transcriptionnel incluant une prédiction des points de ruptures dans le signal (qui correspondent typiquement aux promoteurs et terminateurs).
  • ISLAND est un programme qui permet de simuler le progrès d'un projet de cartographie physique de génomes par la méthode d'ancrage. Il fournit en particulier le nombre moyen de contigs obtenus, leur longueur moyenne et la proportion moyenne de génome recouverte par les contigs, en fonction de la longueur du génome, des nombres de clones et ancres utilisés et des longueurs de clones. Il est disponible (code source et documentation) ici.
  • KAKSI est un programme d'assignation de la structure secondaire des protéines. L'assignation des structures secondaires : l'hélice alpha (H), les brins bêta (b), les tournants (T) et les structures apériodiques (C) est effectuée sur la base des distances entre les carbones alpha et des angles phi et psi de la chaîne principale. Le programme calcule aussi la courbure de la chaîne principale.
  • KASKAD (extraction d'information temporelle sur les gènes à partir de corpus de textes) est un outil qui s'appuie sur une definition ad-hoc d'une structure evolutive et d'une liste d'entités nommées (genes ou proteines) et consiste en s'appuyant sur des modeles d'expressions regulieres a detecter des correlation pour faire apparaitre un schema de developpement biologique des entitées analysées. KASKAD fait l'objet d'une cooperation avec le departement PHASE (physiologie animale) de l'INRA. Kaskad a été développé avec le langage Perl pour Windows. Il est distribué librement ici.
  • LP2Asium est un logiciel développé dans le cadre des projets Caderige et ExtraPloDocs. C'est une suite intégrée de composants indépendants qui prend en entrée un document textuel, en fait l'analyse syntaxique grâce à Link Parser (développé au CMU), en extrait toutes les dépendances syntaxiques, les classe par type et les met au format d'entrée Asium. La grammaire et le lexique de LP sont modifiables et la liste des dépendances indépendante de l'analyseur. La suite est en Perl et Java. LP2Asium est libre. Il est fourni avec un lexique spécialisé pour la génomique.
  • MuGeN(Multi-Genome Navigator) est un outil interactif permettant une exploration dans plusieurs génomes annotés complétés par des résultats d'analyse in silico. Il dispose également d'un mode d'exécution en mode batch lui permettant de servir de générateur d'images à divers formats. Ce mode de fonctionnement le prédispose à être intégré à des sites Web pour l'affichage de cartes physiques annotées. MuGeN est disponible ici et est référencé sur sur les portails FreshMeat et Bioinformatics.Org.
  • OSS-HMM (Optimal Secondary Structure prediction Hidden Markov Model) est un programme de prédiction de la structure secondaire des protéines selon 3 états : hélice alpha (H), brin bêta (b), et structure apériodique (C) qui utilise le formalisme des modèles de Markov cachés. Quand il est utilisé avec une seule séquence il fournit un Q3 de 68.8%. Avec un alignement multiple il fournit un Q3 de 75.5%. Cet outil peut aussi être utilisé pour générer des séquences de protéines ayant une suite de structures secondaires particulières.
  • PCM (Pairwise Correlation Method). Programme Matlab qui effectue la partition d'une matrice de co-occurrence, il est utilisé pour l'identification des domaines par récurrence dans les protéines, programme DOMIRE (DOMain Identification from REcurrence), voir: Tai CH, Sam V,Gibrat JF, Garnier J, Munson PJ et Lee BK. Proteindomain assignment from the recurrence of locally similar structures. PROTEINS: Structure, Function, and Bioinformatics, 2011; 79:853–866. IL peut être téléchargé librement ici.
  • RBA_B168 1.0 Calcul de l'allocation des ressources optimale pour la croissance pour un milieu donné (méthode RBA) pour Bacillus subtilis.
  • RenBio (Reconnaissance d'Entitiés Nommées en Biologie) est un résultat du projet européen Alvis. Il prend en entrée un texte et identifie automatiquement les noms de gène et de protéine. Les critères de reconnaissance sont appris automatiquement à partir d'exemples de texte dont les noms de gène et de protéine sont annotés et de dictionnaires s'il en existe pour les espèces considérées. Les classifieurs appris et disponibles dans RenBio concernent Bacillus subtilis. Le logiciel est libre et est écrit en C et utilise la bibliothèque trish2.
  • R'HOM (Recherche de régions HOMogènes dans les séquences d'ADN) est un logiciel dédié à l'utilisation de modèles de chaînes de Markov cachées pour la segmentation de séquences d'ADN en régions homogènes. R'HOM permet d'estimer un modèle de la composition des séquences d'ADN plus réaliste qu'un modèle de chaîne de Markov homogène et ensuite de segmenter les séquences sous ce modèle. Il a été utilisé notamment pour la recherche de transferts horizontaux chez B. subtilis et pour l'estimation de modèles destinés au calcul de la significativité de comptages de mots. R'HOM a été développé en coopération avec le Laboratoire Statistique et Génome d'Evry. Il est distribué librement à l'adresse ici.
  • R'MES (Recherche de Mots Exceptionnels dans les Séquences d'ADN) est un ensemble de programmes C++ dédié à la recherche de mots (ou familles de mots) ayant une fréquence exceptionnelle dans une séquence donnée (ADN, protéine ou autre). Il est distribué librement sur Internet à partir de la plateforme de développement collaboratif mulcyber de l'Unité de recherche BIA de l'INRA-Toulouse ainsi qu'un guide de l'utilisateur et une aide en ligne. Une visualisation des résultats générés par R'MES peut être obtenue grâce à l'interface graphique RMESPlot disponible sur http://mulcyber.toulouse.inra.fr/projects/rmesplo.
  • SHOW (Structured HOmogeneities Watcher) est un "R'HOM" amélioré qui permet de définir souplement un modèle de chaîne de Markov cachée complexe puis d'utiliser ce modèle de diverses manières grâce à l'implémentation d'algorithmes de segmentation (forward-backward, Viterbi), d'estimation (EM) et de simulation. Jusqu'à aujourd'hui SHOW a essentiellement servi pour prédire les gènes bactériens mais il a aussi été utilisé avec d'autres objectifs comme la détection des sites d'épissage chez l'Homme. A l'avenir il devrait faciliter la mise au point de modèles destinés à l'étude de nombreux problèmes biologiques. SHOW a été développé en collaboration avec le Laboratoire Statistique et Génome d'Evry, il peut être téléchargé librement ici.
  • SIMPA est un programme de prédiction de la structure secondaire des protéines. 3 états sont pris en considération : l'hélice alpha (H), les brins bêta (b) et les structures apériodiques (C). Ce programme est basé sur la notion du "voisin le plus proche" ou "nearest neighbor". Il fournit un résultat Q3 de 67%. Il peut être téléchargé librement ici.
  • SMF (Symmetric Matrix Factorization). Programme Matlab qui effectue la partition d'une matrice de co-occurrence, il est utilisépour l'identification des domaines dans les protéines, programme DOMIRE (DOMainIdentification from REcurrence), voir: Tai CH, SamV, Gibrat JF, Garnier J, Munson PJ et Lee BK. Protein domain assignment from the recurrence of locally similarstructures. PROTEINS: Structure,Function, and Bioinformatics, 2011; 79:853–866 . IL peut être téléchargé librement ici.
  • svcR (classification automatique de termes basé sur une méthode à noyau) est un package developpé sous R dédié à l'analyse de la synonymie lexicale pour l'aide a la classification lexicale semi-automatique et la suggestion de patrons pour générer des expressions régulières. L'outil s'appuie sur une méthode d'analyse de densité d'une matrice de corrélation dont le cadre théorique est fourni par les méthodes à noyaux. Il est distribué librement à l'adresse du CRAN qui diffuse la plateforme R. svcR est distribué librement ici.
  • SVD : (Singular Vector Decomposition). Programme Matlab qui effectue la partition d'une matrice de co-occurrence, il est utilisé pour l'identification des domaines dans les protéines, programme DOMIRE (DOMain Identification from REcurrence), voir:Tai CH, Sam V, Gibrat JF, Garnier J, Munson PJ et LeeBK. Protein domain assignment from therecurrence of locally similar structures. PROTEINS: Structure, Function, and Bioinformatics, 2011; 79:853–866. IL peut être téléchargé librement ici.
  • STFilter (Sentence Filter) prend en entrée un ensemble de résumés au format MedLine et en extrait les phrases "pertinentes". La notion de pertinence est apprise automatiquement à partir d'exemples de phrases classées comme pertinentes et non pertinentes. Les classifieurs appris et disponibles dans SFilter sont des classifieurs sur les interactions géniques chez Bacillus subtilis, chez la drosophile et chez le poulet. Le logiciel est libre et est écrit en Java.
  • treemm Ce programme est dédié à la classification non supervisée des séquences promotrices de bactéries. Il se fonde pour cela sur la modélisation de plusieurs classes de motifs bipartites dont l'objectif est de rendre compte des différents types de facteurs Sigma. Il permet de prendre en compte la position des séquences dans un arbre visant à résumer les similarités de profils d'expression des différents promoteurs. L'approche est décrite dans notre article "Condition-Dependent Transcriptome Reveals High-Level Regulatory Architecture in Bacillus subtilis" (Nicolas et al., Science, 2012).
  • trish2 est une bibliothèque C de comparaison de chaînes de caractères utilisant des structures de données et des algorithmes optimisés pour la projection de gros dictionnaires. La représentation interne des chaînes de caractères est en UNICODE et la bibliothèque supporte un grand nombre d'encodages différents parmi lesquels UTF-8 et ISO-8859. La distribution inclut un logiciel de recherche d'entrées d'un dictionnaire dans un texte, sa foncionnalité s'apparente à «fgrep -f» avec des possibilités supplémentaires favorisant son intégration dans des chaînes de traitement linguistiques: divers encodages, différents niveaux de dépendance à la casse, flexibilité du format de sortie et valeurs associées à chaque entrée du dictionnaire (hash). Des tests préliminaires montrent que trish2 a des performances supérieures aux logiciels aux fonctionnalités equivalentes (fgrep, Unitex). La bibliothèque est une composante critique de la plupart des logiciels développés dans l'équipe Bibliome, tel que RenBio. Elle est disponible sous licence libre et ouverte ici.
  • TyDI est un outil collaboratif pour l'annotation et la validation de termes. Ceux-ci proviennent en général soit d'une terminologie, soit elles sont extraites d'un corpus de documents textuels à l'aide de programmes dits d'extraction de termes (comme Yatea), qui identifient des termes-candidats (ex: des noms composés). Grâce à TyDI, un utilisateur peut valider des termes-candidats et spécifier des relations de synonymie/hyperonymie. Ces annotations peuvent être exportées dans différents formats, pour être ensuite utilisés dans d'autres outils de traîtement de texte en langue naturelle.
  • VAST est un programme de comparaison des structures 3D des protéines. VAST est disponible ici