Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d’une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l’intégration de graphes 3D, des requêtes spatio-temporelles ou l’apprentissage par instructions cinématiques. Cette thèse s’inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d’architecture, avec des applications en robotique, analyse vidéo et compréhension d’environnements dynamiques.

Détection d'anomalies dans les vidéos adaptative et explicable

La détection d'anomalies dans les vidéos (VAD) vise à identifier automatiquement les événements inhabituels dans des séquences vidéo qui s’écartent des comportements normaux. Les méthodes existantes reposent souvent sur l'apprentissage One-Class ou faiblement supervisé : le premier n'utilise que des données normales pour l'entraînement, tandis que le second s'appuie sur des labels au niveau de la vidéo. Les récents progrès des modèles Vision-Langage (VLM) et des grands modèles de langage (LLM) ont permis d’améliorer à la fois les performances et l’explicabilité des systèmes VAD. Malgré des résultats prometteurs sur des jeux de données publics, plusieurs défis subsistent. La plupart des méthodes sont limitées à un seul domaine, ce qui entraîne une baisse de performance lorsqu'elles sont appliquées à de nouveaux jeux de données avec des définitions d’anomalies différentes. De plus, elles supposent que toutes les données d'entraînement sont disponibles dès le départ, ce qui est peu réaliste dans des contextes d’utilisation réels où les modèles doivent s’adapter continuellement à de nouvelles données. Peu d’approches explorent l’adaptation multimodale en utilisant des règles en langage naturel pour définir les événements normaux ou anormaux. Or, cela permettrait une mise à jour plus intuitive et flexible des systèmes VAD sans nécessiter de nouvelles vidéos.

Ce sujet de thèse a pour objectif de développer des méthodes de détection d’anomalies vidéo adaptables, capables de traiter de nouveaux domaines ou types d’anomalies en s’appuyant sur peu d’exemples vidéo et/ou des règles textuelles.

Les axes de recherche principaux seront les suivants :
• Adaptation interdomaines en VAD : améliorer la robustesse face aux écarts de domaine via une adaptation Few-Shot ;
• Apprentissage continu en VAD : enrichir le modèle en continu pour traiter de nouveaux types d’anomalies ;
• Apprentissage multimodal en Few-Shot : faciliter l’adaptation du modèle à l’aide de règles en langage naturel.

Un cadre théorique pour la conception et la réalisation de robots sériels modulaires et reconfigurables axés sur les tâches, en vue d'un déploiement rapide.

Les innovations qui ont donné naissance aux robots industriels remontent aux années soixante et soixante-dix. Elles ont permis un déploiement massif de robots industriels qui ont transformé les ateliers, du moins dans certains secteurs de l'industrie tels que la construction automobile et certaines chaînes de production de masse.

Néanmoins, ces robots ne répondent pas totalement à d’autres applications qui sont apparues et se sont développées dans des domaines tels que la recherche en laboratoire, la robotique spatiale, la robotique médicale, l'inspection et la maintenance, la robotique agricole, la robotique de service et, bien sûr, les humanoïdes. Un petit nombre de ces secteurs ont connu un déploiement et une commercialisation à grande échelle de systèmes robotiques, mais la plupart avancent de manière lente et incrémentale.

Une question que l’on peut se poser est de savoir à quoi cela est dû ? Est-ce parce que le matériel n’est pas adapté (capacités physiques insuffisantes pour générer les forces et effectuer les mouvements nécessaires), parce que le logiciel n’est pas suffisamment performant (contrôle commande, perception, décision, apprentissage, etc.), ou parce qu’on ne dispose pas de paradigmes de conception capables de répondre aux besoin de ces applications (possibilités de conception rapide et sur mesure de nouveaux robots) ?

L'explosion sans précédent de la science des données, de l'apprentissage automatique et de l'IA dans tous les domaines de la science, de la technologie et de la société est souvent perçue comme une solution évidente pour répondre au problème, et une évolution radicale se profile ou est anticipée avec la promesse d'autonomiser les prochaines générations de robots grâce à l'IA (à la fois prédictive et générative). En conséquence, on a souvent tendance à apporter une attention particulière à l'aspect logiciel (apprentissage, aide à la décision, codage etc.), sans doute au détriment de capacités physiques améliorées (matériel) et de nouveaux concepts (paradigmes de conception). Il est pourtant clair que les aspects cognitifs de la robotique, notamment l'apprentissage, le contrôle et l'aide à la décision, ne pourront apporter une solution que si des dispositifs adaptés sont disponibles pour répondre aux besoins des diverses tâches que l’on souhaite robotiser, ce qui suppose des méthodologies de conception et un matériel adaptés.

L'objectif de cette thèse est ainsi de se concentrer sur les paradigmes de conception et le hardware, et plus spécifiquement sur la conception optimale de robots série utilisant une famille de « modules » standardisés dont l’agencement sera optimisé pour des familles de tâches données qui ne peuvent pas être accomplies par un robot industriel du marché. L’ambition de ce travail est de permettre de passer d’un catalogue donné de robots à la conception très rapide de solutions robotisées sur mesure.

Le candidat ou la candidate retenu(e) s'inscrira à l’Ecole Doctorale Mathématiques, STIC, de Nantes Université (ED-MASTIC) et sera accueilli(e) pendant trois ans au Service de Robotique Interactive du CEA-LIST à Palaiseau. Les professeurs Clément Gosselin (Laval) et Yannick Aoustin (Nantes) assureront l'encadrement académique de cette thèse qui sera co-encadrée par le Dr Farzam Ranjbaran du CEA-LIST.

Nous envisageons l’opportunité de poursuivre cette collaboration grâce à une bourse postdoctorale d’un an à laquelle le candidat pourrait candidater, une fois les prérequis du doctorat validés. Cette bourse serait hébergée au Centre de recherche en robotique, vision et intelligence artificielle (CeRVIM) de l’Université Laval, au Canada.

Internalisation des connaissances externes par les modèles de fondation

Pour accomplir une tâche inconnue, un sujet (humain ou robot) doit consulter des informations externes, ce qui implique un coût cognitif. Après plusieurs expériences similaires, il maîtrise la situation et peut agir automatiquement. Les années 1980 et 1990 ont vu des explorations en IA avec des schémas et graphes conceptuels, mais leur mise en œuvre à grande échelle était limitée par la technologie de l'époque.

Les modèles neuronaux actuels, notamment les transformers et les LLM/VLM, apprennent des représentations universelles grâce à un préentraînement sur d'énormes quantités de données. Ils peuvent être utilisés avec des prompts pour fournir un contexte local. L'affinage (fine-tuning) permet de spécialiser ces modèles pour des tâches spécifiques.

Les méthodes de type RAG et GraphRAG permettent d'exploiter des connaissances externes, mais leur utilisation à l'inférence est coûteuse en ressources. Cette thèse propose une approche cognitiviste dans laquelle le système effectue un apprentissage continu. Il consulte des sources externes lors de l'inférence et utilise ces informations pour s'affiner régulièrement, comme pendant le sommeil. Cette méthode vise à améliorer la performance et réduire la consommation de ressources.

Chez l'humain, ces processus sont liés à l'organisation spatiale du cerveau. La thèse étudiera également des architectures de réseaux inspirées de cette organisation, avec des "zones" dédiées mais interconnectées, comme les modèles vision-langage et langage-seul partageant des couches transformers.

Ces concepts peuvent être appliqués aux projets Astir et Ridder, visant à exploiter les modèles de fondation pour l'ingénierie logicielle en robotique et le développement de méthodes d'IA générative pour la commande sécurisée de robots.

Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement.

Ce projet de thèse porte sur l'amélioration des modèles multimodaux de grande taille (LMMs) par l’intégration d’informations fines et spatio-temporelles dans les ensembles de données d'entraînement. Bien que les modèles actuels tels que CLIP et Flamingo présentent de bonnes performances, ils s'appuient sur des paires image-texte bruitées et peu structurées, sans ancrage spatial ou temporel explicite. La thèse vise à développer des pipelines automatiques permettant d’enrichir les jeux de données avec des métadonnées géographiques et temporelles, à affiner les légendes par l’introduction de descripteurs sémantiques plus précis, et à réguler la diversité et la compacité des données par un contrôle du nombre d'exemples par classe.

Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l’alignement entre les éléments des légendes et les régions d’image correspondantes. Le travail portera également sur des régimes d’entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d’inférence orientée vers la génération de contenus diversifiés en mode "ensemble". Le projet abordera également des enjeux liés à la qualité des métadonnées, à l’adaptation efficace des modèles, et à la conception de benchmarks adaptés à l’évaluation multi-dimensionnelle.

Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l’annotation enrichie d’archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.

Modélisation automatique de variations du langage pour des agents conversationnels socialement interactifs

Les agents conversationnels, de plus en plus présents autour de nous grâce aux avancées en traitement automatique du langage naturel et en intelligence artificielle, suscitent un intérêt croissant. Toutefois, leur capacité à comprendre la communication humaine dans toute sa complexité reste un défi. Cette thèse vise à modéliser les variations linguistiques pour développer des agents capables d’interactions socialement adaptées, prenant en compte le profil socio-démographique et l’état émotionnel des interlocuteurs. Elle s'intéresse également à l’évaluation de différents indices linguistiques, à l’exploitation des formes orales et écrites du langage, et à la généralisation des modèles à partir de données multilingues et multi-situationnelles afin de mieux modéliser les interactions avec les agents conversationnels.

Généralisation compositionnelle des modèles de langage multimodaux

L’avènement des modèles de fondation a permis d’améliorer les performances dans plusieurs domaines de l’IA, en particulier en vision par ordinateur et traitement du langage naturel. Cependant, malgré l’énorme quantité de données utilisées pour les entrainer, ces modèles sont encore limités dans leur capacité à généraliser, en particulier dans un domaine spécifique, mal représenté sur le Web. Une modélisation de ce problème est la généralisation compositionnelle, c’est-à-dire la capacité d’apprendre à démêler les concepts pendant l’entrainement et à les recombiner dans une composition inédite lors de la phase de production/test. La thèse abordera cette
question, en visant à proposer des représentations visuelles qui permettent aux grands modèles génériques de langage visuel de généraliser la composition dans des domaines spécifiques. Elle étudiera des stratégies visant à réduire l’apprentissage de "raccourcis" artificiels, en favorisant une compréhension plus profonde des structures de composition dans les données multimodales. Elle abordera également le problème de la généralisation de la composition au-delà des simples paires attribut-objet, en saisissant une sémantique plus subtile et plus complexe. La thèse proposée vise des avancées à un niveau assez amont, mais présente de nombreux intérêts pratiques potentiels dans les domaines de la santé, de l’administration et des services, de la sécurité et de la défense, de l’industrie manufacturière et de l’agriculture.

Contrôle de manipulateur mobile à haute mobilité en contexte dynamique

Le développement de manipulateur mobile capable de capacités d’adaptation est porteur d’avancées importantes pour le développement de nouveaux moyens de production, que ce soit dans des applications industrielles ou agricoles. En effet de telles technologies permettent de réaliser des tâches répétitives avec précision et sans contraintes liées à la limitation de l’espace de travail. Néanmoins, l’efficience de tels robots est soumise à leur adaptation à la variabilité du contexte d’évolution et de la tâche à réaliser. Aussi, cette thèse propose de concevoir des mécanismes d’adaptation des comportements sensori-moteurs pour ce type de robots, afin de garantir une bonne adéquation de leurs actions en fonction de la situation. Elle envisage d’étendre les capacités de reconfiguration des approches de perception et de commande par l’apport de l’Intelligence Artificielle, ici comprise au sens de l’apprentissage profond. Il s’agira de développer de nouvelles architectures décisionnelles capables d’optimiser les comportements robotiques pour la manipulation mobile dans des contextes évolutifs (notamment intérieur-extérieur) et la réalisation de plusieurs travaux de précision.

Passage à l’échelle du jumeau numérique réseau dans les réseaux de communication complexes

Les réseaux de communication connaissent aujourd’hui une croissance exponentielle à la fois en termes de déploiement d’infrastructures réseau (notamment ceux des opérateurs à travers l’évolution progressive et soutenue vers la 6G), mais aussi en termes de machines, couvrant un large éventail d’équipements allant des serveurs Cloud aux composants IoT embarqués légers (ex. System on Chip : SoC) en passant par les terminaux mobiles comme les téléphones intelligents (smartphones).

Cet écosystème est aussi riche en équipements qu’en composants logiciels allant de l’application (ex. Audio/Vidéo streaming) jusqu’aux protocoles des différentes couches de communication réseau. De plus, un tel écosystème, lorsqu’il est opérationnel, se trouvera en perpétuel changement dont la nature peut être explicitée dans ce qui suit :
- Changement dans la topologie réseau : en raison, par exemple de défaillances matérielles ou logicielles, mobilité des utilisateurs, politiques de gestion des ressources réseau de l’opérateur, etc.
- Changement dans le taux d’utilisation/consommation des ressources réseau (bande passante, mémoire, CPU, batterie, etc.) : en raison des besoins des utilisateurs et des politiques de gestion des ressources réseau de l’opérateur, etc.

Pour assurer une supervision, ou plus généralement, une gestion efficace, qu'elle soit fine ou synthétique, des réseaux de communication, divers services/plateformes de gestion de réseau, tels que SNMP, CMIP, LWM2M, CoMI, SDN, ont été proposés et documentés dans la littérature sur les réseaux et organismes de normalisation. Par ailleurs, de telles plates-formes de gestion ont été largement adoptées notamment par les opérateurs réseau et par l’industrie de manière générale. D’ailleurs, cette adoption intègre souvent des fonctionnalités avancées, notamment des boucles de contrôle automatisées (par exemple, des systèmes experts ou des systèmes basés sur l’apprentissage automatique), améliorant ainsi la capacité des plateformes à optimiser les performances des opérations de gestion du réseau.

Cependant, malgré l’exploration et l’exploitation intensives des plateformes de gestion réseau, ces plateformes ne garantissent pas toujours une (re)configuration sans risque/erreur intrinsèque, dans des cas d’usage assez communs et critiques comme l’optimisation temps-réel du réseau, l’analyse de tests en mode opérationnel (what-if analysis), la planification des mises à jour/modernisations/extensions du réseau de communication, etc. Pour de tels scénarios, un nouveau paradigme de gestion réseau s’avère nécessaire.

Pour traiter les problématiques présentées dans la section précédente, la communauté scientifique a commencé à explorer l’adoption du concept de « jumeau numérique » pour les réseaux de communication, ce qui a donné naissance au paradigme du jumeau numérique réseau (Network Digital Twin : NDT). Le NDT est un jumeau numérique du réseau réel/physique (Physical Twin Network : PTN) ou l’on peut manipuler, sans risque, une copie numérique du vrai réseau, ce qui permet notamment de visualiser/prédire l’évolution (ou le comportement, l’état) du réseau réel si telle ou telle configuration réseau devait être appliquée. Au-delà de cet aspect, le NDT et le PTN échangent des informations via une ou plusieurs interfaces de communication dans le but de maintenir une bonne synchronisation entre eux.

Cependant, mettre en place un jumeau numérique réseau (NDT) n’est pas une tache simple. En effet, la synchronisation PTN-NDT fréquente et en temps réel pose un problème de passage à l’échelle (scalability) lorsqu’il est question de réseaux complexes (ex. nombre d’entités réseau trop important, topologies très dynamiques, volume important d’informations par nœud/par lien réseau), où chaque information réseau est susceptible d’être rapportée au niveau du NDT (par exemple un très grand nombre d'entités réseau, des topologies très dynamiques, ou un grand volume d'informations par nœud/par lien réseau).

Divers travaux scientifiques ont tenté de traiter la question du jumeau numérique réseau (NDT). Dans ces travaux il est question de définir des scenarios, exigences et architecture du NDT. Cependant, la question du passage à l’échelle dans le NDT n’a pas été traitée dans la littérature.

L'objectif de cette thèse de doctorat est de traiter le problème de passage à l’échelle (« scalabilité ») des jumeaux numériques réseau en explorant de nouveaux modèles d'apprentissage automatique pour la sélection et la prédiction des informations réseau.

Défense des modèles d'analyse de scène contre les attaques adversaires

Dans de nombreuses applications, des briques d'analyse de scène comme la segmentation sémantique, la détection et la reconnaissance d'objets, ou la reconnaissance de pose, sont nécessaires. Les réseaux de neurones profonds sont aujourd'hui parmi les modèles les plus efficaces pour effectuer un grand nombre de tâches de vision, parfois de façon simultanée lorsque l'apprentissage profond est multitâches. Cependant, il a été montré que ceux-ci étaient vulnérables face aux attaques adversaires (adversarial attacks): En effet, il est possible d'ajouter aux données d'entrée certaines perturbations imperceptibles par l'oeil humain qui mettent à mal les résultats lors de l'inférence faite par le réseau de neurones. Or, une garantie de résultats fiables est capitale pour les systèmes de décision où les failles de sécurité sont critiques (ex : applications comme le véhicule autonome, la reconnaissance d’objets en surveillance aérienne, ou la recherche de personnes/véhicules en vidéosurveillance). Différents types d'attaques adversaires et de défense ont été proposés, le plus souvent pour le problème de classification (d'images notamment). Quelques travaux ont abordé l'attaque des plongements qui sont optimisés par apprentissage de métrique pour les tâches de type ensemble-ouvert comme la réidentification d'objets, la reconnaissance faciale ou la recherche d'images par le contenu. Les types d'attaques se sont multipliés, qu'il s'agisse d'attaques universelles ou optimisées sur une instance particulière. Les défenses proposées doivent faire face à de nouvelles menaces sans trop sacrifier les performances initiales du modèle. La protection des données d'entrée face aux attaques adversaires est capitale pour les systèmes de décision où les failles de sécurité sont critiques. Un moyen de protéger ces données est de développer des défenses contre ces attaques. L'objectif sera donc d'étudier et de proposer différentes attaques et défenses applicables aux briques d'analyse de scène, notamment celles de détection d'objets et de recherche d'instance d'objet dans les images.

Top