Les documents scientifiques ou techniques contiennent des connaissances qui ne sont pas disponibles ailleurs. Pour être utilisables de façon extensive et automatisée, ces connaissances doivent être interprétées à partir de leur formulation en langage naturel.
L'équipe Bibliome développe des méthodes d'analyse sémantique profonde utilisées pour de nombreuses applications pour la biologie : extraction d’information, recherche sémantique documentaire, construction d'ontologie, etc.
Les méthodes mises en jeu sont complexes et variées. Par exemple, pour identifier une information factuelle précise, par exemple, la fonction d’une enzyme, les outils exploitent de nombreuses connaissances linguistiques spécifiques au domaine étudié (terminologie, morphologie, syntaxe, etc.), des connaissances sous la forme d’ontologies (une enzyme est une protéine) et des connaissances sur l’organisation et la structure des documents. Ces diverses connaissances spécialisées peuvent être acquises automatiquement à partir de corpus d’entraînement. Les méthodes utilisées pour l’acquisition de ces ressources relèvent de l’apprentissage automatique associé à des méthodes linguistiques.