Analyse automatique du texte, fouille de données

  • Bibliome

    (URL de l'équipe) .

    Les articles scientifiques ou les commentaires textuels des banques de données telles que UniProt contiennent des informations qui ne sont pas disponibles ailleurs, tel que le détail des conditions expérimentales de l’identification d’une régulation génique. Pour être utilisables, ces connaissances doivent donc être interprétées à partir de leur formulation en langage naturel.
    Notre hypothèse est qu’une analyse sémantique profonde et locale aux seuls fragments pertinents des documents permet de réaliser de nombreuses applications : extraction d’information, recherche documentaire, question/réponse, etc. Les méthodes mises en jeu sont complexes et variées. Elles dépendent de la précision de la recherche et de la nature des documents.

    Typiquement, pour identifier une information factuelle précise, par exemple, la fonction d’une enzyme,
    les outils exploitent de nombreuses connaissances linguistiques spécifiques au domaine étudié (terminologie, morphologie, syntaxe, etc.), des connaissances sous la forme d’ontologies (une enzyme est une protéine) et des connaissances sur l’organisation et la structure des documents. Ces diverses connaissances spécialisées peuvent être acquises automatiquement à partir de corpus d’entraînement. Les méthodes utilisées pour l’acquisition de ces ressources relèvent de l’apprentissage automatique et de l’analyse des données associées à des méthodes linguistiques. Dans ce cadre, nous développons depuis 1999 un programme d’annotation de connaissance sémantique de texte en collaboration avec d’autres partenaires spécialisés en TAL (Traitement Automatique de la Langue, LIPN-CNRS), en recherche documentaire (HUT, Exalead), en traitement documentaire (Jouve) et en génomique (GM-INRA). L’ambition de ce programme est la conception d’une chaîne complète d’annotation sémantique en biologie, réutilisable dans différents domaines de l’IST (Information Scientifique et Technique). Il n’existe pas de travaux comparables qui intègrent à ce point apprentissage et linguistique pour l’annotation sémantique en biologie. Les axes de recherche développés concernent :

    • la classification de documents par la méthode des K-means axiales et son application à divers sujets,
    • l’annotation manuelle de documents d’entraînement (éditeur Cadixe),
    • l’adaptation de méthodes linguistiques au domaine d’étude (segmentation, analyse syntaxique),
    • le développement et l’adaptation de méthodes issues de l’apprentissage automatique à la sélection de documents pertinents (STFilter), à l’acquisition de règles de reconnaissance d’entités nommées (RenBio), de classes sémantiques de termes organisées en « ontologie » (Asium) et de règles d’extraction d’information relationnelles (LP-Propal). Les résultats obtenus par ces méthodes sont comparables ou meilleurs que ceux des méthodes voisines,
    • l’extraction à partir de textes et la représentation de la temporalité de processus biologiques tels que les réseaux de régulation.
    • la mise au point de consignes d’annotation et de corpus de référence dans le cadre de challenges internationaux.

    Les questions biologiques étudiées (Bacillus subtilis, drosophile, souris, homme) ont été choisies en fonction de leur intérêt pour la génomique fonctionnelle et plus spécifiquement pour la biologie des systèmes, ainsi que pour des raisons de faisabilité et de possibilités de collaboration sur le plan biologique. Un démonstrateur en recherche documentaire portant sur le domaine de la bactériologie a été développé dans le cadre du projet Alvis. Il intègre les principales fonctions d’analyse sémantique. Le gain de performance a été mesuré sur un ensemble de requêtes. Les résultats sont meilleurs ou comparables à ceux de PubMed, cependant notre approche s’affranchit de la coûteuse étape d’indexation manuelle de chaque référence. De nouveaux développements tant sur le plan recherche que du service sont en cours dans le domaine de la propriété intellectuelle (valorisation des brevets et veille technologique) en lien avec le projet Epipagri. Cette activité permet d’évaluer la généralité de l’approche et de l’étendre à de nouvelles questions en particulier liées à la mise à jour automatique et incrémentale des ressources linguistiques et ontologiques.

  • Acquisition de connaissances lexicales

    • Dynamique des Connaissances
      Depuis 2002 et sous l’égide d’un programme financé sur les maladies à prions MIG a développé un outil en interface avec Marc Barbier de l’UMR SADAPT (Département SAD/INRA Grignon) pour procéder à l’indexation de documents d’une base de données quelconque (SCI, Medline, CAB, ou autre). Cette indexation doit permettre de définir une grille d’intervalle de date de publication et d’extraire des listes d’items correspondant à 9 types du méta-texte (noms d’auteurs publiant, noms d’auteurs cités, références bibliographiques, sources de publication, sources cités des référence, noms des pays des auteurs publiant, organismes des auteurs publiant, groupes nominaux détectés dans les titres et résumés de notice, mots-clés). Pour chaque type, des listes brutes peuvent être exportés (tri alphabétique, tri par fréquence) et leur modulation (présence/absence) par rapport à la grille d’intervalle permet de calculer des indices d’évolution. Des calculs d’association (treillis de concept et motifs séquentiels) permettent d’étendre l’interprétation des items de manière plus locale par rapport a leurs associations contextuelles. Cette approche sociosémantique (auteurs/termes) vise à appréhender la compréhension d’émergence de concept dans un domaine scientifique. Embrasser les données (items) d’un seul coup d’oeil peut aider un utilisateur à l’interprétation. La visualisation d’information de milliers d’items est une réponse possible et non triviale. Pour cela une méthode de visualisation temporelle de niveaux de classement a été mise au point. Un outil, appelé BELUGA23, téléchargeable librement, résulte de ce travail.
    • Ontologie Temporelle
      Depuis 2004, un outil a été développé pour capturer l’information contextuelle d’un nom de gène ou de protéine. Les travaux actuels héritent principalement de réflexion conjointe de la biologie moléculaire et du séquençage qui vise à reconstruire des associations de gènes. Dans des contextes complexes de développement biologique plusieurs étapes offrent des facteurs à l’émergence d’une relation intergénique. L’outil KASKAD rend opérationnel le croisement d’information entre un espace terminologique de contextes de phases de développement et un ensemble d’entités biologiques dans une archive de publications (format Medline). Une étude préliminaire sur un processus particulier, la formation du manteau de la spore de Bacillus Subtilis, et 5 étapes de développement montre que parmi les 50 gènes impliqués, l’outil permet de trouver que 60% des gènes appartiennent à une étape, et sur 132 relations gènes/étapes KASKAD obtient 77% de précision et 52% de rappel ce qui rassure sur la crédibilité de l’approche. Une collaboration récente avec
      I. Hue et S. Degrelle de l’unité Biologie du Développement et Reproduction (département PHASE, INRA-Jouy) a permis d’amorcer une étude sur le trophoblaste concernant deux espèces cibles, la souris et l’homme. KASKAD24 est téléchargeable librement. Croiser l’information exige de définir des règles qui, au jour d’aujourd’hui se fait manuellement. C’est un processus qui peut être long et fastidieux et laisser un utilisateur dans la perplexité. Un package R, appelé svcR, a été développé dans le souci de palier au problème de la synonymie lexicale en procédant à une classification automatique de termes grâce à une méthode à densité. Une amélioration sur l’optimisation de la méthode de clustering basée sur une méthode à noyau a été apportée. Des résultats préliminaires sur 100 termes classés en 4 classes est satisfaisante mais un passage à l’échelle est nécessaire. svcR est téléchargeable librement.