Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

Data intelligence dont Intelligence Artificielle Défis technologiques Informatique et logiciels Sciences pour l’ingénieur 

Résumé du sujet

Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d’une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l’intégration de graphes 3D, des requêtes spatio-temporelles ou l’apprentissage par instructions cinématiques. Cette thèse s’inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d’architecture, avec des applications en robotique, analyse vidéo et compréhension d’environnements dynamiques.

Laboratoire

Département Intelligence Ambiante et Systèmes Interactifs (LIST)

Service Intelligence Artificielle pour le Langage et la Vision

Laboratoire Vision et Apprentissage pour l’analyse de scènes

Retour

Imprimer

Partager ce sujet de thèse

Informations pratiques

Formation recommandée :

Ingénieur ou Master en Informatique, Science des données ou IA

Université / École doctorale :

Paris-Saclay

Date souhaitée de début de thèse :

01-10-2025

Lieu d'exercice :

Saclay

Chercheur à contacter

Aboubacar

TUO

CEA

DRT/DIASI//LVA

Tel : 0656802188

Email : aboubacar.tuo@cea.fr

Contacter

Directeur de thèse

Angélique

LOESCH

CEA

DRT/DIASI//LVA