Les articles scientifiques ou les commentaires textuels des banques de données telles que UniProt contiennent des informations qui ne sont pas disponibles ailleurs, tel que le détail des conditions expérimentales de l’identification d’une régulation génique. Pour être utilisables, ces connaissances doivent donc être interprétées à partir de leur formulation en langage naturel.
Notre hypothèse est qu’une analyse sémantique profonde et locale aux seuls fragments pertinents des documents permet de réaliser de nombreuses applications : extraction d’information, recherche documentaire, question/réponse, etc. Les méthodes mises en jeu sont complexes et variées. Elles dépendent de la précision de la recherche et de la nature des documents.
Typiquement, pour identifier une information factuelle précise, par exemple, la fonction d’une enzyme,
les outils exploitent de nombreuses connaissances linguistiques spécifiques au domaine étudié (terminologie, morphologie, syntaxe, etc.), des connaissances sous la forme d’ontologies (une enzyme est une protéine) et des connaissances sur l’organisation et la structure des documents. Ces diverses connaissances spécialisées peuvent être acquises automatiquement à partir de corpus d’entraînement. Les méthodes utilisées pour l’acquisition de ces ressources relèvent de l’apprentissage automatique et de l’analyse des données associées à des méthodes linguistiques. Dans ce cadre, nous développons depuis 1999 un programme d’annotation de connaissance sémantique de texte en collaboration avec d’autres partenaires spécialisés en TAL (Traitement Automatique de la Langue, LIPN-CNRS), en recherche documentaire (HUT, Exalead), en traitement documentaire (Jouve) et en génomique (GM-INRA). L’ambition de ce programme est la conception d’une chaîne complète d’annotation sémantique en biologie, réutilisable dans différents domaines de l’IST (Information Scientifique et Technique). Il n’existe pas de travaux comparables qui intègrent à ce point apprentissage et linguistique pour l’annotation sémantique en biologie. Les axes de recherche développés concernent :
Les questions biologiques étudiées (Bacillus subtilis, drosophile, souris, homme) ont été choisies en fonction de leur intérêt pour la génomique fonctionnelle et plus spécifiquement pour la biologie des systèmes, ainsi que pour des raisons de faisabilité et de possibilités de collaboration sur le plan biologique. Un démonstrateur en recherche documentaire portant sur le domaine de la bactériologie a été développé dans le cadre du projet Alvis. Il intègre les principales fonctions d’analyse sémantique. Le gain de performance a été mesuré sur un ensemble de requêtes. Les résultats sont meilleurs ou comparables à ceux de PubMed, cependant notre approche s’affranchit de la coûteuse étape d’indexation manuelle de chaque référence. De nouveaux développements tant sur le plan recherche que du service sont en cours dans le domaine de la propriété intellectuelle (valorisation des brevets et veille technologique) en lien avec le projet Epipagri. Cette activité permet d’évaluer la généralité de l’approche et de l’étendre à de nouvelles questions en particulier liées à la mise à jour automatique et incrémentale des ressources linguistiques et ontologiques.