Déploiement matériel robuste de réseaux de neurones
Les technologies matérielles non conventionnelles émergentes sont essentielles pour les futures applications d’Edge-AI, mais elles présentent souvent de la variabilité, des désappariements entre composants et une dispersion technologique. Ces non-idéalités peuvent fortement réduire la précision d’inférence des modèles d’IA si aucun réglage fin ou calibrage n’est appliqué. Le fine-tuning supervisé traditionnel est difficile à industrialiser, car il soulève des problèmes liés à la confidentialité des données, à la qualité de service, à la complexité logicielle et aux contraintes matérielles.
Ce sujet de thèse vise à développer des méthodes de co-conception matériel-algorithme permettant d’éviter le réentraînement supervisé complet directement sur la puce. L’objectif principal est de créer des stratégies d’auto-calibrage au niveau de l’inférence, indépendantes de la tâche, capables de compenser les désappariements matériels au niveau système. Le travail s'intéressera les méthodes d’adaptation existantes, notamment celles fondées sur les poids, les caractéristiques, les sorties et l’adaptation de domaine.
Le projet permettra de développer au travers d'une application pertinente d’Edge-AI une méthode générique de fine-tuning et la validera au moyen de simulations électriques bas niveau. Si possible, l'approche proposé pourra également être testé expérimentalement sur une plateforme matérielle basée sur un ASIC.
Validation systémique des bases de règles floues : prise en compte de la disponibilité des données et des spécificités de l’inférence floue}
Ce sujet de thèse s’inscrit dans le domaine de l’intelligence artificielle symbolique. Contrairement aux approches basées sur les réseaux de neurones, ces méthodes reposent sur des règles explicites, souvent issues d’experts ou apprises à partir de peu de données, ce qui les rend interprétables mais potentiellement imparfaites.
Le problème central est donc la validation des bases de règles floues : il s’agit de vérifier que les règles produisent des résultats cohérents, utiles et fiables. Les méthodes existantes utilisent des métriques globales (performance globale du système) et locales (qualité de chaque règle), mais elles prennent peu en compte certaines spécificités importantes. Par exemple, les interactions entre règles peuvent fortement influencer le comportement final.
La thèse propose de développer une approche globale et systématique pour valider ces bases de règles, que des données soient disponibles ou non. Elle vise notamment à concevoir de nouvelles métriques capables de capturer ces interactions, en s’inspirant, par exemple, d’approches basées sur des graphes (comme les FinGrams ou les systèmes de réputation).
Le travail comprendra la définition d’un cadre méthodologique, la proposition de nouvelles mesures de validation, ainsi que leur implémentation et leur évaluation expérimentale.
Les résultats attendus sont des outils plus précis pour détecter les règles problématiques, et une amélioration globale de la performance et de la fiabilité des systèmes d’inférence floue.
Sécurité des modèles d'IA générative: détection des attaques par porte dérobée de nouvelle génération
Cette thèse vise à étudier et détecter les attaques par porte dérobée au sein des écosystèmes de modèles d’IA générative (modèles autonomes, systèmes de génération augmentée par récupération (RAG) et agents autonomes basés sur des LLM).
Contexte : De nombreux utilisateurs (particuliers, institutions, ONG et même entreprises) ne sont actuellement pas en mesure de développer leurs propres systèmes d'IA générative. Ils s’orientent donc vers le téléchargement d’agents ou de modèles d’IA générative open source, généralement conçus pour être très accessibles et faciles à utiliser, ne nécessitant que peu d’expertise technique. Cette pratique est largement répandue en raison du grand nombre de modèles open source et d’implémentations d’agents LLM disponibles en ligne (par exemple, Hugging Face héberge plus de deux millions de modèles publics). Malheureusement, l’intégrité comportementale du modèle téléchargé n’est jamais vérifiée, et celui-ci peut avoir été préalablement compromis par une porte dérobée. Il existe donc un besoin urgent de mettre en place des mécanismes de défense capables d’analyser les composants d’un système d’IA générative (modèles et bases de connaissances) et d’identifier ceux qui ont été empoisonnés.
Objectifs : La recherche se concentrera sur le développement de mécanismes innovants de détection et de défense contre les attaques furtives basées sur des triggers, en mettant l’accent sur les scénarios de déploiement réels et sur des benchmarks d’évaluation robustes. En plus de développer des mécanismes de défense et de mettre le code à disposition en open source, la thèse vise également à fournir à la communauté scientifique un framework d’évaluation complet.
Optimisation d'architecture neuronale post-entraînement pour petit modèles de langage
L’IA générative, et en particulier les modèles de langage (LLM), ont conduit à une nouvelle révolution de l'IA avec des applications dans tous les domaines. Cependant, les LLM sont très gourmands en ressources (énergie, calculs, etc.) et, par conséquent, difficiles à mettre en œuvre sur des systèmes embarqués autonomes. Les LLM peuvent être optimisés en modifiant leur architecture, pour remplacer les opérations de Transformer coûteuses par des alternatives moins coûteuses. Etant donné la difficulté d’entraîner des LLM « from scratch », cette thèse vise à développer des méthodes d’optimisation d’architecture neuronale post-entraînement, applicable à des petits LLM (SLM). De plus, la thèse vise à proposer un modèle de performance des différentes opérations d’un SLM et leurs alternatives, afin de guider le remplacement des opérations, et ainsi proposer une méthodologie complète d’optimisation de SLM en prenant en compte les contraintes matérielles. Le travail sera valorisé par des publications dans des conférences et journaux de rang majeur en IA, et les codes et méthodes développés pourront être intégrés dans les outils développés au CEA.
Détection hors distribution avec des modèles de fondation de vision et des méthodes post-hoc
Le sujet de thèse se concentre sur l'amélioration de la fiabilité des modèles de deep learning, en particulier dans la détection des échantillons hors distribution (OoD), qui sont des points de données différents des données d'entraînement et peuvent entraîner des prédictions incorrectes. Cela est particulièrement important dans des domaines critiques comme la santé et les véhicules autonomes, où les erreurs peuvent avoir des conséquences graves. La recherche exploite les modèles de base de la vision (VFMs) comme CLIP et DINO, qui ont révolutionné la vision par ordinateur en permettant l'apprentissage à partir de données limitées. Le travail proposé vise à développer des méthodes qui maintiennent la robustesse de ces modèles pendant le fine-tuning, garantissant qu'ils peuvent toujours détecter efficacement les échantillons OoD. En outre, la thèse explorera des solutions pour gérer les changements de distribution des données au fil du temps, un défi courant dans les applications du monde réel. Les résultats attendus incluent de nouvelles techniques pour la détection OoD et des méthodes adaptatives pour les environnements dynamiques, améliorant ainsi la sécurité et la fiabilité des systèmes d'IA dans des scénarios pratiques.
Génération assistée par LLM de modèles matériels fonctionnels et formels
Les systèmes matériels modernes, comme les processeurs RISC-V ou les accélérateurs matériels, reposent sur des simulateurs fonctionnels et des modèles de vérification formelle pour garantir leur bon fonctionnement, leur fiabilité et leur sécurité. Aujourd’hui, ces modèles sont majoritairement développés manuellement à partir des spécifications, ce qui demande beaucoup de temps et devient de plus en plus complexe à mesure que les architectures évoluent.
Cette thèse propose d’explorer l’utilisation des grands modèles de langage (LLMs) pour automatiser la génération de modèles matériels fonctionnels et formels à partir de spécifications de conception. Le travail consistera à concevoir une méthodologie permettant de produire des modèles exécutables (par exemple des simulateurs) et des modèles formels cohérents, tout en augmentant la confiance dans leur correction. Pour cela, la thèse s’appuiera sur des boucles de retour issues des outils de simulation et de vérification formelle, combinées à des techniques d’apprentissage par renforcement.
Les résultats attendus sont une réduction significative de l’effort de modélisation manuelle, une meilleure cohérence entre les différents modèles, et une validation de l’approche sur des cas d’étude réalistes, notamment autour des architectures RISC-V et des accélérateurs matériels.
Apprentissage multimodal distribué pour la localisation et la classification coopératives de sources acoustiques
Dans de nombreux environnements complexes, tels que les sites industriels, bâtiments sinistrés, espaces publics, il est nécessaire de détecter et localiser automatiquement des événements sonores (chutes, alarmes, voix, pannes mécaniques). Les plateformes mobiles équipés de caméras et de microphones constituent une solution prometteuse, mais une seule plateforme reste limité : son réseau de microphone donne une direction approximative vers la source, mais pas une position précise dans l'espace, et sa caméra peut être obstruée. Ce sujet propose d'étudier comment des multi-plateformes, chacune portant une unité audio-visuelle calibrée, peuvent collaborer pour localiser et classifier ces événements en 3D. Chaque plateforme analyse ses propres observations audio-visuelles et partage une estimation de la direction de la source avec ses voisines ; le réseau combine ensuite ces estimations pour reconstruire la position de l'événement et l'identifier. Les résultats attendus sont un système de localisation coopérative robuste aux occultations et aux défaillances partielles.
Simulations hydrodynamiques de matériaux poreux pour l'endommagement ductile
Le comportement mécanique des matériaux métalliques sous sollicitation fortement dynamique (choc), et en particulier leur endommagement, est une thématique d'intérêt pour le CEA-DAM. Pour le tantale, l'endommagement est de nature ductile : par germination, croissance et coalescence de pores (vides) au sein du matériau. Les modèles usuels d'endommagement ductiles ont été développés à partir d'hypothèses simplificatrices de pores isolés dans la matière. Cependant des études récentes par simulations directes décrivant explicitement une population de pores répartis dans le matériau (ainsi que des observations expérimentales après rupture) ont montré l'importance de l'interaction entre pores pour la prévision de l'endommagement ductile. Toutefois, les mécanismes microscopiques de cette interaction restent à élucider. De plus, ces études numériques doivent être étendues aux échelles de longueur et de vitesses de sollicitation d'intérêt.
L'objectif de la thèse est d'étudier les phases de croissance et de coalescence de l'endommagement ductile au travers de simulations numériques directes d'un milieux poreux soumis à une sollicitation dynamique. Des simulations hydrodynamiques, dans lesquelles des pores seront maillés explicitement au sein d'une matrice continue, seront utilisées afin de se placer aux échelles d'intérêt de temps et de longueur. Le suivi de la population de pores au cours de la simulation renseignera à différents niveaux sur l'influence de l'interaction entre pores pendant l'endommagement ductile. D'abord, le comportement du massif sera comparé à celui prédit par les modèles classiques à pores isolés, montrant l'effet macroscopique de l'interaction entre pores. On s'intéressera également à l'évolution de la distribution de tailles dans la population de pores. Enfin, un dernier objectif sera de comprendre l'interaction microscopique pore à pore. Afin de tirer parti de la richesse des résultats de simulation, des approches issues de l'intelligence artificielle (réseau de neurones sur le graphe associé à la population de pores) seront utilisées afin d'apprendre le lien entre voisinage d'un pore et croissance de celui-ci.
Le/la doctorant(e) aura l'occasion de développer ses compétences en physique des chocs et en mécanique, en simulations numériques (avec l'accès aux supercalculateurs du CEA-DAM) et en science des données.
Modélisation de la réponse instrumentale des télescopes spatiaux avec un modèle optique différentiable
Contexte
L'effet de lentille gravitationnelle faible [1] est une sonde puissante de la structure à grande échelle de notre univers. Les cosmologistes utilisent l'effet de lentille faible pour étudier la nature de la matière noire et sa distribution spatiale. Les missions d'observation de l'effet de lentille faible nécessitent des mesures très précises de la forme des images de galaxies. La réponse instrumentale du télescope, appelée fonction d'étalement du point (PSF), produit une déformation des images observées. Cette déformation peut être confondue avec les effets d'un faible effet de lentille sur les images de galaxies, ce qui constitue l'une des principales sources d'erreur systématique lors de la recherche sur les faibles effets de lentille. Par conséquent, l'estimation d'un modèle de PSF fiable et précis est cruciale pour le succès de toute mission de faible lentille [2]. Le champ de la PSF peut être interprété comme un noyau convolutionnel qui affecte chacune de nos observations d'intérêt, qui varie spatialement, spectralement et temporellement. Le modèle de la PSF doit être capable de gérer chacune de ces variations. Nous utilisons des étoiles spécifiques considérées comme des sources ponctuelles dans le champ de vision pour contraindre notre modèle PSF. Ces étoiles, qui sont des objets non résolus, nous fournissent des échantillons dégradés du champ de la PSF. Les observations subissent différentes dégradations en fonction des propriétés du télescope. Ces dégradations comprennent le sous-échantillonnage, l'intégration sur la bande passante de l'instrument et le bruit additif. Nous construisons finalement le modèle de la PSF en utilisant ces observations dégradées et utilisons ensuite le modèle pour déduire la PSF à la position des galaxies. Cette procédure constitue le problème inverse mal posé de la modélisation de la PSF. Voir [3] pour un article récent sur la modélisation de la PSF.
La mission Euclid récemment lancée représente l'un des défis les plus complexes pour la modélisation de la PSF. En raison de la très large bande passante de l'imageur visible (VIS) d'Euclid, allant de 550 nm à 900 nm, les modèles de PSF doivent capturer non seulement les variations spatiales du champ de PSF, mais aussi ses variations chromatiques. Chaque observation d'étoile est intégrée avec la distribution d'énergie spectrale (SED) de l'objet sur l'ensemble de la bande passante du VIS. Comme les observations sont sous-échantillonnées, une étape de super-résolution est également nécessaire. Un modèle récent appelé WaveDiff [4] a été proposé pour résoudre le problème de modélisation de la PSF pour Euclid et est basé sur un modèle optique différentiable. WaveDiff a atteint des performances de pointe et est en train d'être testé avec des observations récentes de la mission Euclid.
Le télescope spatial James Webb (JWST) a été lancé récemment et produit des observations exceptionnelles. La collaboration COSMOS-Web [5] est un programme à grand champ du JWST qui cartographie un champ contigu de 0,6 deg2. Les observations de COSMOS-Web sont disponibles et offrent une occasion unique de tester et de développer un modèle précis de PSF pour le JWST. Dans ce contexte, plusieurs cas scientifiques, en plus des études de lentille gravitationnelle faible, peuvent grandement bénéficier d'un modèle PSF précis. Par exemple, l'effet de lentille gravitationnel fort [6], où la PSF joue un rôle crucial dans la reconstruction, et l'imagerie des exoplanètes [7], où les speckles de la PSF peuvent imiter l'apparence des exoplanètes, donc la soustraction d'un modèle de PSF exact et précis est essentielle pour améliorer l'imagerie et la détection des exoplanètes.
Projet de doctorat
Le candidat visera à développer des modèles PSF plus précis et plus performants pour les télescopes spatiaux en exploitant un cadre optique différentiable et concentrera ses efforts sur Euclid et le JWST.
Le modèle WaveDiff est basé sur l'espace du front d'onde et ne prend pas en compte les effets au niveau du pixel ou du détecteur. Ces erreurs au niveau des pixels ne peuvent pas être modélisées avec précision dans le front d'onde car elles se produisent naturellement directement sur les détecteurs et ne sont pas liées aux aberrations optiques du télescope. Par conséquent, dans un premier temps, nous étendrons l'approche de modélisation de la PSF en tenant compte de l'effet au niveau du détecteur en combinant une approche paramétrique et une approche basée sur les données (apprises). Nous exploiterons les capacités de différenciation automatique des cadres d'apprentissage automatique (par exemple TensorFlow, Pytorch, JAX) du modèle WaveDiff PSF pour atteindre l'objectif.
Dans une deuxième direction, nous envisagerons l'estimation conjointe du champ de la PSF et des densités d'énergie spectrale (SED) stellaires en exploitant des expositions répétées ou des dithers. L'objectif est d'améliorer et de calibrer l'estimation originale de la SED en exploitant les informations de modélisation de la PSF. Nous nous appuierons sur notre modèle PSF, et les observations répétées du même objet changeront l'image de l'étoile (puisqu'elle est imagée sur différentes positions du plan focal) mais partageront les mêmes SED.
Une autre direction sera d'étendre WaveDiff à des observatoires astronomiques plus généraux comme le JWST avec des champs de vision plus petits. Nous devrons contraindre le modèle de PSF avec des observations de plusieurs bandes pour construire un modèle de PSF unique contraint par plus d'informations. L'objectif est de développer le prochain modèle de PSF pour le JWST qui soit disponible pour une utilisation généralisée, que nous validerons avec les données réelles disponibles du programme COSMOS-Web JWST.
La direction suivante sera d'étendre les performances de WaveDiff en incluant un champ continu sous la forme d'une représentation neuronale implicite [8], ou de champs neuronaux (NeRF) [9], pour traiter les variations spatiales de la PSF dans l'espace du front d'onde avec un modèle plus puissant et plus flexible.
Enfin, tout au long de son doctorat, le candidat collaborera à l'effort de modélisation de la PSF par les données d'Euclid, qui consiste à appliquer WaveDiff aux données réelles d'Euclid, et à la collaboration COSMOS-Web pour exploiter les observations du JWST.
Références
[1] R. Mandelbaum. “Weak Lensing for Precision Cosmology”. In: Annual Review of Astronomy and Astro- physics 56 (2018), pp. 393–433. doi: 10.1146/annurev-astro-081817-051928. arXiv: 1710.03235.
[2] T. I. Liaudat et al. “Multi-CCD modelling of the point spread function”. In: A&A 646 (2021), A27. doi:10.1051/0004-6361/202039584.
[3] T. I. Liaudat, J.-L. Starck, and M. Kilbinger. “Point spread function modelling for astronomical telescopes: a review focused on weak gravitational lensing studies”. In: Frontiers in Astronomy and Space Sciences 10 (2023). doi: 10.3389/fspas.2023.1158213.
[4] T. I. Liaudat, J.-L. Starck, M. Kilbinger, and P.-A. Frugier. “Rethinking data-driven point spread function modeling with a differentiable optical model”. In: Inverse Problems 39.3 (Feb. 2023), p. 035008. doi:10.1088/1361-6420/acb664.
[5] C. M. Casey et al. “COSMOS-Web: An Overview of the JWST Cosmic Origins Survey”. In: The Astrophysical Journal 954.1 (Aug. 2023), p. 31. doi: 10.3847/1538-4357/acc2bc.
[6] A. Acebron et al. “The Next Step in Galaxy Cluster Strong Lensing: Modeling the Surface Brightness of Multiply Imaged Sources”. In: ApJ 976.1, 110 (Nov. 2024), p. 110. doi: 10.3847/1538-4357/ad8343. arXiv: 2410.01883 [astro-ph.GA].
[7] B. Y. Feng et al. “Exoplanet Imaging via Differentiable Rendering”. In: IEEE Transactions on Computational Imaging 11 (2025), pp. 36–51. doi: 10.1109/TCI.2025.3525971.
[8] Y. Xie et al. “Neural Fields in Visual Computing and Beyond”. In: arXiv e-prints, arXiv:2111.11426 (Nov.2021), arXiv:2111.11426. doi: 10.48550/arXiv.2111.11426. arXiv: 2111.11426 [cs.CV].
[9] B. Mildenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”. In: arXiv e-prints, arXiv:2003.08934 (Mar. 2020), arXiv:2003.08934. doi: 10.48550/arXiv.2003.08934. arXiv:2003.08934 [cs.CV].
Concevoir des outils d’intelligence artificielle pour traquer le relâchement des produits de fission hors du combustible nucléaire.
Le Laboratoire d'Analyse de la MIgration des Radioéléments (LAMIR) au sein de l'Institut de REcherche sur les Systèmes Nucléaires (IRESNE) du CEA Cadarache a développé un ensemble de méthodes de mesure pour caractériser le relâchement des produits de fission hors du combustible nucléaire lors d'un transitoire thermique, dont en particulier un dispositif d'imagerie in situ operando. L'ensemble des données obtenues nécessite l'utilisation d'outils numériques de traitement prenant en compte les spécificités de l'instrumentation en milieu nucléaire et les informations recherchées sur les mécanismes physiques.
L'objectif de la thèse sera de développer une approche optimisée du traitement de ces données en s'appuyant sur l'état de l'art des méthodes d'Intelligence Artificielle (IA).
Dans un premier temps, le travail se focalisera sur le traitement des images acquises pendant la séquence thermique pour détecter les mouvements de matière. On cherchera un dispositif de traitement optimal au sens d’un critère numérique choisi rigoureusement.
Dans un second temps, cette approche sera généralisée à l'ensemble des mesures expérimentales obtenues lors d'une séquence thermique. Idéalement, on vise à obtenir un outil qui puisse aider au diagnostic en temps réel d'une expérience.
La thèse sera menée dans un cadre collaboratif entre le LAMIR qui possède une expérience reconnue pour ce qui est de l'analyse du comportement du combustible nucléaire et l'imagerie des phénomènes liés à ces analyses et l’Institut Fresnel de Marseille qui a développé une solide expérience en matière d'analyses d'images et d'IA. Ce cadre multidisciplinaire permettra au doctorant d’évoluer dans un environnement scientifique stimulant et lui permettra de valoriser ses travaux de recherche, en France comme à l’étranger lors de conférences et de publications dans des revues à comités de lecture.