Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage
Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d’une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l’intégration de graphes 3D, des requêtes spatio-temporelles ou l’apprentissage par instructions cinématiques. Cette thèse s’inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d’architecture, avec des applications en robotique, analyse vidéo et compréhension d’environnements dynamiques.
Détection d'anomalies dans les vidéos adaptative et explicable
La détection d'anomalies dans les vidéos (VAD) vise à identifier automatiquement les événements inhabituels dans des séquences vidéo qui s’écartent des comportements normaux. Les méthodes existantes reposent souvent sur l'apprentissage One-Class ou faiblement supervisé : le premier n'utilise que des données normales pour l'entraînement, tandis que le second s'appuie sur des labels au niveau de la vidéo. Les récents progrès des modèles Vision-Langage (VLM) et des grands modèles de langage (LLM) ont permis d’améliorer à la fois les performances et l’explicabilité des systèmes VAD. Malgré des résultats prometteurs sur des jeux de données publics, plusieurs défis subsistent. La plupart des méthodes sont limitées à un seul domaine, ce qui entraîne une baisse de performance lorsqu'elles sont appliquées à de nouveaux jeux de données avec des définitions d’anomalies différentes. De plus, elles supposent que toutes les données d'entraînement sont disponibles dès le départ, ce qui est peu réaliste dans des contextes d’utilisation réels où les modèles doivent s’adapter continuellement à de nouvelles données. Peu d’approches explorent l’adaptation multimodale en utilisant des règles en langage naturel pour définir les événements normaux ou anormaux. Or, cela permettrait une mise à jour plus intuitive et flexible des systèmes VAD sans nécessiter de nouvelles vidéos.
Ce sujet de thèse a pour objectif de développer des méthodes de détection d’anomalies vidéo adaptables, capables de traiter de nouveaux domaines ou types d’anomalies en s’appuyant sur peu d’exemples vidéo et/ou des règles textuelles.
Les axes de recherche principaux seront les suivants :
• Adaptation interdomaines en VAD : améliorer la robustesse face aux écarts de domaine via une adaptation Few-Shot ;
• Apprentissage continu en VAD : enrichir le modèle en continu pour traiter de nouveaux types d’anomalies ;
• Apprentissage multimodal en Few-Shot : faciliter l’adaptation du modèle à l’aide de règles en langage naturel.
Un cadre théorique pour la conception et la réalisation de robots sériels modulaires et reconfigurables axés sur les tâches, en vue d'un déploiement rapide.
Les innovations qui ont donné naissance aux robots industriels remontent aux années soixante et soixante-dix. Elles ont permis un déploiement massif de robots industriels qui ont transformé les ateliers, du moins dans certains secteurs de l'industrie tels que la construction automobile et certaines chaînes de production de masse.
Néanmoins, ces robots ne répondent pas totalement à d’autres applications qui sont apparues et se sont développées dans des domaines tels que la recherche en laboratoire, la robotique spatiale, la robotique médicale, l'inspection et la maintenance, la robotique agricole, la robotique de service et, bien sûr, les humanoïdes. Un petit nombre de ces secteurs ont connu un déploiement et une commercialisation à grande échelle de systèmes robotiques, mais la plupart avancent de manière lente et incrémentale.
Une question que l’on peut se poser est de savoir à quoi cela est dû ? Est-ce parce que le matériel n’est pas adapté (capacités physiques insuffisantes pour générer les forces et effectuer les mouvements nécessaires), parce que le logiciel n’est pas suffisamment performant (contrôle commande, perception, décision, apprentissage, etc.), ou parce qu’on ne dispose pas de paradigmes de conception capables de répondre aux besoin de ces applications (possibilités de conception rapide et sur mesure de nouveaux robots) ?
L'explosion sans précédent de la science des données, de l'apprentissage automatique et de l'IA dans tous les domaines de la science, de la technologie et de la société est souvent perçue comme une solution évidente pour répondre au problème, et une évolution radicale se profile ou est anticipée avec la promesse d'autonomiser les prochaines générations de robots grâce à l'IA (à la fois prédictive et générative). En conséquence, on a souvent tendance à apporter une attention particulière à l'aspect logiciel (apprentissage, aide à la décision, codage etc.), sans doute au détriment de capacités physiques améliorées (matériel) et de nouveaux concepts (paradigmes de conception). Il est pourtant clair que les aspects cognitifs de la robotique, notamment l'apprentissage, le contrôle et l'aide à la décision, ne pourront apporter une solution que si des dispositifs adaptés sont disponibles pour répondre aux besoins des diverses tâches que l’on souhaite robotiser, ce qui suppose des méthodologies de conception et un matériel adaptés.
L'objectif de cette thèse est ainsi de se concentrer sur les paradigmes de conception et le hardware, et plus spécifiquement sur la conception optimale de robots série utilisant une famille de « modules » standardisés dont l’agencement sera optimisé pour des familles de tâches données qui ne peuvent pas être accomplies par un robot industriel du marché. L’ambition de ce travail est de permettre de passer d’un catalogue donné de robots à la conception très rapide de solutions robotisées sur mesure.
Le candidat ou la candidate retenu(e) s'inscrira à l’Ecole Doctorale Mathématiques, STIC, de Nantes Université (ED-MASTIC) et sera accueilli(e) pendant trois ans au Service de Robotique Interactive du CEA-LIST à Palaiseau. Les professeurs Clément Gosselin (Laval) et Yannick Aoustin (Nantes) assureront l'encadrement académique de cette thèse qui sera co-encadrée par le Dr Farzam Ranjbaran du CEA-LIST.
Nous envisageons l’opportunité de poursuivre cette collaboration grâce à une bourse postdoctorale d’un an à laquelle le candidat pourrait candidater, une fois les prérequis du doctorat validés. Cette bourse serait hébergée au Centre de recherche en robotique, vision et intelligence artificielle (CeRVIM) de l’Université Laval, au Canada.
Vers un apprentissage fédéré et un affinement distribué efficace sur des dispositifs hétérogènes et à ressources restreintes
L’objectif de cette thèse est de développer des méthodes visant à améliorer l’efficacité des ressources dans le cadre de l’apprentissage fédéré (FL), en tenant compte des contraintes et de l’hétérogénéité des ressources des clients. Le travail portera dans un premier temps sur l’architecture classique client-serveur de l’apprentissage fédéré, avant d’étendre l’étude aux environnements fédérés décentralisés. Les méthodes proposées seront étudiées à la fois dans le contexte de l’entraînement fédéré de modèles et dans celui de l’affinement distribué de modèles de grande taille, tels que les grands modèles de langage (LLMs).
Développement d’une méthode de mesure en ligne des gaz radioactifs basée sur les scintillateurs poreux
En tant que laboratoire national de métrologie pour le domaine des rayonnements ionisants, le Laboratoire National Henri Becquerel (LNE-LNHB) du Commissariat à l’Énergie Atomique (CEA) dispose d’installations uniques dédiées à la métrologie des radionucléides, dont différents bancs de production d’étalons en phase liquide et d’autres pour le mélange de gaz radioactifs. Dans le cadre de précédents projets de recherche, une installation a été mise en place pour la production d’atmosphères de gaz radioactifs [1] afin de développer de nouveaux moyens d’essais et d’étalonnage répondant aux besoins de la recherche et de l’industrie dans ce domaine.
Une des grandes problématiques actuelles est de reproduire les conditions environnementales de manière la plus représentative possible, afin de répondre au mieux aux exigences réelles (principalement liées aux contraintes réglementaires) en termes d’activité volumique ou de conditions de mesure. Cette problématique générale concerne toutes les substances radioactives, mais elle est particulièrement importante actuellement pour les substances radioactives volatiles. À travers de nombreux projets et collaborations, le CEA/LNHB explore depuis plusieurs années de nouveaux moyens de détection plus performants que les techniques classiques de scintillation liquide. Parmi ces techniques, on peut citer de nouveaux scintillateurs inorganiques poreux [1] qui permettent non seulement la détection en ligne, mais aussi le dé-mélange en ligne d’émetteurs bêta pur (cette technique a été brevetée [2]).
L’objectif de cette thèse est de développer, de mettre en place et d’optimiser ces méthodes de mesure en les appliquant : 1) à un gaz radioactif pure, 2) en mélange multiples de gaz radioactifs émetteurs beta pure et de les identifier par « dé-mélange » dans le cas des scintillateurs poreux, et 3) de manière plus globale en scintillation liquide, cette possibilité ayant été démontrée récemment au LNHB et en cours de publication. Le dé-mélange a notamment un intérêt car il simplifie grandement les mesures de suivit environnementaux en scintillation notamment pour les mélanges 3H et 14C. Actuellement ils sont réalisés par de multiples prélèvements par bulleur puis mélange à un liquide scintillant et la méthode des triples marquages nécessitant plusieurs mois de préparation en étalonnage et quelques semaines d’expérience et préparation. Cette thèse sera directement en lien avec les travaux d’une seconde thèse sur le Compton-TDCR [1] (2025-2028), qui permettra de déterminer la courbe de réponse des scintillateurs.
Les enjeux scientifiques de ce projet sont donc liés à la métrologie des radionucléides et allient expérimentation, instrumentation et analyse pour le développement de méthodes de mesure. Il s’agira de:
- Développer une méthode d’analyse de dé-mélange d’émetteurs beta pur par scintillation en partant des premières idées publiées et déposées.
- D’évaluer la précision de ces dé-mélanges en estimant les incertitudes associées et les seuils de décision.
- De valider le dé-mélange en utilisant le banc gaz radioactif expérimental du laboratoire [1] pour différents gaz radioactifs 3H, 14C, 133Xe, 85Kr, 222Rn, etc. ou bien la scintillation liquide classique.
- D’améliorer le modèle en développant des outils basés sur la machine learning ou l’intelligence artificielle, s’ils sont nécessaires, pour des mélanges à multiples composantes.
Internalisation des connaissances externes par les modèles de fondation
Pour accomplir une tâche inconnue, un sujet (humain ou robot) doit consulter des informations externes, ce qui implique un coût cognitif. Après plusieurs expériences similaires, il maîtrise la situation et peut agir automatiquement. Les années 1980 et 1990 ont vu des explorations en IA avec des schémas et graphes conceptuels, mais leur mise en œuvre à grande échelle était limitée par la technologie de l'époque.
Les modèles neuronaux actuels, notamment les transformers et les LLM/VLM, apprennent des représentations universelles grâce à un préentraînement sur d'énormes quantités de données. Ils peuvent être utilisés avec des prompts pour fournir un contexte local. L'affinage (fine-tuning) permet de spécialiser ces modèles pour des tâches spécifiques.
Les méthodes de type RAG et GraphRAG permettent d'exploiter des connaissances externes, mais leur utilisation à l'inférence est coûteuse en ressources. Cette thèse propose une approche cognitiviste dans laquelle le système effectue un apprentissage continu. Il consulte des sources externes lors de l'inférence et utilise ces informations pour s'affiner régulièrement, comme pendant le sommeil. Cette méthode vise à améliorer la performance et réduire la consommation de ressources.
Chez l'humain, ces processus sont liés à l'organisation spatiale du cerveau. La thèse étudiera également des architectures de réseaux inspirées de cette organisation, avec des "zones" dédiées mais interconnectées, comme les modèles vision-langage et langage-seul partageant des couches transformers.
Ces concepts peuvent être appliqués aux projets Astir et Ridder, visant à exploiter les modèles de fondation pour l'ingénierie logicielle en robotique et le développement de méthodes d'IA générative pour la commande sécurisée de robots.
Nouvelles contraintes expérimentales sur les constantes de couplage de l’interaction faible par la mesure en coïncidence de schémas de désintégration complexes
La caractérisation expérimentale précise des transitions bêta interdites non-uniques, représentant environ un tiers de toutes les transitions bêta connues, est un sujet à la fois important et très ardu. De fait, très peu d’études fiables existent dans la littérature. En effet, le spectre en énergie continu de ces transitions est difficile à mesurer précisément pour diverses raisons qui se cumulent les unes aux autres : grande diffusivité des électrons dans la matière et non-linéarité du système de détection, indisponibilité de certains radionucléides et présence d’impuretés, longues périodes de désintégration et complexité des schémas, etc. Des prédictions théoriques réalistes sont tout aussi difficiles car il est nécessaire de coupler des modélisations précises des structures atomiques et nucléaires des radionucléides à travers l’interaction faible, dans un même formalisme complètement relativiste. Pourtant, améliorer notre connaissance des transitions bêta interdites non-uniques est essentiel en métrologie de la radioactivité pour définir l’unité SI du becquerel dans le cas des émetteurs bêta purs. Cela peut avoir un impact fort en médecine nucléaire, pour l’industrie du nucléaire, et pour certaines thématiques de physique fondamentale, comme la recherche de matière noire et la physique des neutrinos de réacteurs.
Notre étude récente de la transition deuxième interdite non-unique du 99Tc, à la fois théorique et expérimentale, a mis en évidence que les transitions interdites non-uniques peuvent être particulièrement sensibles à la valeur effective des constantes de couplage de l’interaction faible. Ces dernières interviennent comme facteurs multiplicatifs des éléments de matrice nucléaires. L’utilisation de valeurs effectives permet de compenser les approximations employées dans les modèles de structure, telles que des corrélations simplifiées entre les nucléons dans l’espace de valence ou l’absence d’excitation du cœur. Cependant, leur ajustement ne peut se faire que par comparaison avec un spectre expérimental de grande précision. La prédictibilité des calculs théoriques, même les plus précis actuellement disponibles, est ainsi fortement remise en cause. S’il a déjà été démontré que des valeurs universelles ne peuvent être fixées, des valeurs pour chaque type de transition, ou pour un modèle nucléaire spécifique, sont possibles. Le but de ce sujet de thèse est donc d’établir de nouvelles contraintes expérimentales sur les constantes de couplage de l’interaction faible en mesurant précisément les spectres en énergie de transitions bêta. À terme, cela permettra d’établir des valeurs effectives moyennes robustes de ces constantes de couplage et d’obtenir un vrai pouvoir prédictif pour les calculs théoriques de désintégration bêta.
La plupart des transitions d’intérêt pour contraindre les constantes de couplage ont des énergies supérieures à 1 MeV et se situent au sein de schémas de désintégration complexes, avec émission de multiples photons gamma. Dans cette situation, la meilleure stratégie consiste en une détection bêta-gamma en coïncidence. Les techniques usuelles de détection en physique nucléaire sont appropriées mais nécessitent d’être extrêmement bien implémentées et contrôlées. Le doctorant pourra s’appuyer sur les résultats obtenus lors de deux thèses précédentes. Pour minimiser le phénomène d’auto-absorption des électrons dans la source, il devra améliorer une technique de préparation de sources radioactives ultra-minces développée au LNHB pour l’adapter aux activités importantes qui seront nécessaires. Il devra implémenter un nouveau dispositif de mesure, dans une chambre à vide dédiée, comprenant une détection en coïncidence de deux détecteurs silicium et deux détecteurs gamma. Plusieurs études seront nécessaires, mécaniques et par simulation Monte Carlo, pour optimiser la configuration géométrique en regard des différentes contraintes. L’optimisation de la chaîne d’électronique, l’acquisition, le traitement du signal, l’analyse des données, la déconvolution spectrale et l’élaboration d’un bilan d’incertitudes complet et robuste seront autant de sujets abordés. Ces développements instrumentaux permettront de mesurer avec une grande précision les spectres du 36Cl, du 59Fe, du 87Rb, du 141Ce, ou encore du 170Tm.
Ce sujet très complet permettra au doctorant d’acquérir des compétences instrumentales et d’analyse qui lui ouvriront de nombreuses opportunités de carrière. Le candidat devra posséder de bonnes connaissances en instrumentation nucléaire, en programmation et en simulations Monte Carlo, ainsi qu’une connaissance raisonnable des désintégrations nucléaires.
Développement de microcalorimètres magnétiques ultra haute résolution pour l’analyse isotopique d’actinides par spectrométrie de photons X et gamma
Le sujet de thèse porte sur le développement de microcalorimètres magnétiques (CMM) ultra haute résolution pour améliorer l’analyse isotopique d’actinides (uranium, plutonium) par spectrométrie X et gamma autour de 100 keV. Cette analyse, essentielle dans le cycle du combustible nucléaire et la lutte contre la prolifération, repose traditionnellement sur des détecteurs HPGe, dont la résolution limite la précision. Pour surmonter ces limites, le projet vise à utiliser des détecteurs cryogéniques de type CMM fonctionnant à des températures inférieures à 100 mK et capables d’atteindre une résolution énergétique dix fois meilleure que celle des HPGe. Les détecteurs CMM seront microfabriqués au CNRS/C2N avec des composants supraconducteurs et paramagnétiques, puis testés au LNHB. Une fois étalonnés, ils serviront à mesurer avec précision les spectres de photons des actinides afin de déterminer avec précision les paramètres fondamentaux atomiques et nucléaires des isotopes étudiés. Les résultats obtenus enrichiront les bases de données nucléaires et atomiques utilisées dans les codes de déconvolution permettant une analyse isotopique d'actinides plus fiable et précise.
Etude in situ de l’impact du champ électrique sur les propriétés des matériaux chalcogénures
Les matériaux chalcogénures (PCM, OTS, NL, TE, FESO …) sont à la base des concepts les plus innovants en micro—électronique allant des mémoires PCM aux nouveaux dispositifs neuromorphiques et spinorbitroniques (FESO, SOT-RAM, etc …). Une partie de leur fonctionnement repose sur une physique hors-équilibre induite par l’excitation électronique résultant de l’application d’un champ électrique intense. La thèse vise à mesurer expérimentalement sur des couches minces de chalcogénures les effets induits par le champ électrique intense sur la structure atomique et les propriétés électroniques du matériau avec une résolution temporelle femtoseconde (fs). Les conditions « in-operando » des dispositifs seront reproduites en utilisant une impulsion THz fs permettant de générer des champs électriques de l'ordre de quelques MV/cm. Les modifications induites seront alors sondées via différents méthodes de diagnostique in situ (spectroscopie optique ou diffraction x et/ou ARPES). Les résultats seront comparés à des simulations ab initio suivant une méthode à l’état de l’art développée avec l’Université de Liège. Au final la possibilité de prévoir la réponse des différents alliages chalcogénures aux échelles de temps fs sous champ extrême permettra d’optimiser la composition et les performances des matériaux (effet de switch e-, électromigration des espèces sous champ, etc …) tout en apportant une compréhension des mécanismes fondamentaux sous-jacents liant excitation électronique, évolution des propriétés sous champ et structure atomique de ces alliages.
Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement.
Ce projet de thèse porte sur l'amélioration des modèles multimodaux de grande taille (LMMs) par l’intégration d’informations fines et spatio-temporelles dans les ensembles de données d'entraînement. Bien que les modèles actuels tels que CLIP et Flamingo présentent de bonnes performances, ils s'appuient sur des paires image-texte bruitées et peu structurées, sans ancrage spatial ou temporel explicite. La thèse vise à développer des pipelines automatiques permettant d’enrichir les jeux de données avec des métadonnées géographiques et temporelles, à affiner les légendes par l’introduction de descripteurs sémantiques plus précis, et à réguler la diversité et la compacité des données par un contrôle du nombre d'exemples par classe.
Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l’alignement entre les éléments des légendes et les régions d’image correspondantes. Le travail portera également sur des régimes d’entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d’inférence orientée vers la génération de contenus diversifiés en mode "ensemble". Le projet abordera également des enjeux liés à la qualité des métadonnées, à l’adaptation efficace des modèles, et à la conception de benchmarks adaptés à l’évaluation multi-dimensionnelle.
Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l’annotation enrichie d’archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.