Extraction de relations complexes et d'événements few-shot à partir de texte appliquée à la littérature scientifique

Data intelligence dont Intelligence Artificielle Défis technologiques Informatique et logiciels Sciences pour l’ingénieur 

Résumé du sujet

L'extraction d'information à partir de textes, qui se rattache plus généralement au traitement automatique des langues, a fait l'objet de travaux depuis de nombreuses années centrées sur la reconnaissance d'entités nommées, l'extraction de relations entre ces entités et pour sa partie la plus complexe, celle d'événements, qui prend la forme d'une tâche de remplissage de formulaires (templates) prédéfinis à partir de textes. Dans ce contexte, l'objectif de la thèse est de concevoir, développer et évaluer des modèles d'extraction d'événements opérant sur des articles scientifiques, un événement pouvant correspondre dans ce contexte à un ensemble d'entités et de relations caractérisant par exemple une expérience ou une réaction chimique. De plus, ces modèles devront pouvoir être définis à partir d'un ensemble très restreint de données annotées afin de s'adapter rapidement à un nouveau domaine scientifique.

Sur le plan méthodologique, la thèse proposée cherche à dépasser la tendance que l'on pourrait qualifier de presque naturelle dans le contexte actuel à se tourner vers les grands modèles de langue génératifs (LLM) en défendant l'idée d'une synergie possible entre LLM et modèles plus petits de type encodeur dans un contexte few-shot, synergie dans laquelle les premiers permettent, grâce à la génération de données et d'annotations synthétiques, de construire les ressources permettant de mettre en œuvre les seconds par le biais de mécanismes de préentraînement. La thèse prendra place dans le contexte du projet AIKO de l’agence de programmes numérique, focalisé sur l'extraction de connaissances à partir de publications scientifiques.

Laboratoire

Département Intelligence Ambiante et Systèmes Interactifs (LIST)

Service Intelligence Artificielle pour le Langage et la Vision

Laboratoire Analyse Sémantique Textes et Images

Retour

Imprimer

Partager ce sujet de thèse

Informations pratiques

Formation recommandée :

Master 2 ou école d'ingénieur avec spécialité en traitement automatique des langues et apprentissage automatique

Université / École doctorale :

Sciences et Technologies de l’Information et de la Communication (STIC)

Paris-Saclay

Date souhaitée de début de thèse :

01-10-2026

Lieu d'exercice :

Saclay

Chercheur à contacter

Olivier

FERRET

CEA

DRT/DIASI/SIALV/LASTI

Tel : 01 69 08 01 47

Email : olivier.ferret@cea.fr

Contacter

Directeur de thèse

Olivier

FERRET

CEA

DRT/DIASI/SIALV/LASTI