Vers un apprentissage fédéré et un affinement distribué efficace sur des dispositifs hétérogènes et à ressources restreintes

L’objectif de cette thèse est de développer des méthodes visant à améliorer l’efficacité des ressources dans le cadre de l’apprentissage fédéré (FL), en tenant compte des contraintes et de l’hétérogénéité des ressources des clients. Le travail portera dans un premier temps sur l’architecture classique client-serveur de l’apprentissage fédéré, avant d’étendre l’étude aux environnements fédérés décentralisés. Les méthodes proposées seront étudiées à la fois dans le contexte de l’entraînement fédéré de modèles et dans celui de l’affinement distribué de modèles de grande taille, tels que les grands modèles de langage (LLMs).

Internalisation des connaissances externes par les modèles de fondation

Pour accomplir une tâche inconnue, un sujet (humain ou robot) doit consulter des informations externes, ce qui implique un coût cognitif. Après plusieurs expériences similaires, il maîtrise la situation et peut agir automatiquement. Les années 1980 et 1990 ont vu des explorations en IA avec des schémas et graphes conceptuels, mais leur mise en œuvre à grande échelle était limitée par la technologie de l'époque.

Les modèles neuronaux actuels, notamment les transformers et les LLM/VLM, apprennent des représentations universelles grâce à un préentraînement sur d'énormes quantités de données. Ils peuvent être utilisés avec des prompts pour fournir un contexte local. L'affinage (fine-tuning) permet de spécialiser ces modèles pour des tâches spécifiques.

Les méthodes de type RAG et GraphRAG permettent d'exploiter des connaissances externes, mais leur utilisation à l'inférence est coûteuse en ressources. Cette thèse propose une approche cognitiviste dans laquelle le système effectue un apprentissage continu. Il consulte des sources externes lors de l'inférence et utilise ces informations pour s'affiner régulièrement, comme pendant le sommeil. Cette méthode vise à améliorer la performance et réduire la consommation de ressources.

Chez l'humain, ces processus sont liés à l'organisation spatiale du cerveau. La thèse étudiera également des architectures de réseaux inspirées de cette organisation, avec des "zones" dédiées mais interconnectées, comme les modèles vision-langage et langage-seul partageant des couches transformers.

Ces concepts peuvent être appliqués aux projets Astir et Ridder, visant à exploiter les modèles de fondation pour l'ingénierie logicielle en robotique et le développement de méthodes d'IA générative pour la commande sécurisée de robots.

Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement.

Ce projet de thèse porte sur l'amélioration des modèles multimodaux de grande taille (LMMs) par l’intégration d’informations fines et spatio-temporelles dans les ensembles de données d'entraînement. Bien que les modèles actuels tels que CLIP et Flamingo présentent de bonnes performances, ils s'appuient sur des paires image-texte bruitées et peu structurées, sans ancrage spatial ou temporel explicite. La thèse vise à développer des pipelines automatiques permettant d’enrichir les jeux de données avec des métadonnées géographiques et temporelles, à affiner les légendes par l’introduction de descripteurs sémantiques plus précis, et à réguler la diversité et la compacité des données par un contrôle du nombre d'exemples par classe.

Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l’alignement entre les éléments des légendes et les régions d’image correspondantes. Le travail portera également sur des régimes d’entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d’inférence orientée vers la génération de contenus diversifiés en mode "ensemble". Le projet abordera également des enjeux liés à la qualité des métadonnées, à l’adaptation efficace des modèles, et à la conception de benchmarks adaptés à l’évaluation multi-dimensionnelle.

Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l’annotation enrichie d’archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.

Modélisation automatique de variations du langage pour des agents conversationnels socialement interactifs

Les agents conversationnels, de plus en plus présents autour de nous grâce aux avancées en traitement automatique du langage naturel et en intelligence artificielle, suscitent un intérêt croissant. Toutefois, leur capacité à comprendre la communication humaine dans toute sa complexité reste un défi. Cette thèse vise à modéliser les variations linguistiques pour développer des agents capables d’interactions socialement adaptées, prenant en compte le profil socio-démographique et l’état émotionnel des interlocuteurs. Elle s'intéresse également à l’évaluation de différents indices linguistiques, à l’exploitation des formes orales et écrites du langage, et à la généralisation des modèles à partir de données multilingues et multi-situationnelles afin de mieux modéliser les interactions avec les agents conversationnels.

Généralisation compositionnelle des modèles de langage multimodaux

L’avènement des modèles de fondation a permis d’améliorer les performances dans plusieurs domaines de l’IA, en particulier en vision par ordinateur et traitement du langage naturel. Cependant, malgré l’énorme quantité de données utilisées pour les entrainer, ces modèles sont encore limités dans leur capacité à généraliser, en particulier dans un domaine spécifique, mal représenté sur le Web. Une modélisation de ce problème est la généralisation compositionnelle, c’est-à-dire la capacité d’apprendre à démêler les concepts pendant l’entrainement et à les recombiner dans une composition inédite lors de la phase de production/test. La thèse abordera cette
question, en visant à proposer des représentations visuelles qui permettent aux grands modèles génériques de langage visuel de généraliser la composition dans des domaines spécifiques. Elle étudiera des stratégies visant à réduire l’apprentissage de "raccourcis" artificiels, en favorisant une compréhension plus profonde des structures de composition dans les données multimodales. Elle abordera également le problème de la généralisation de la composition au-delà des simples paires attribut-objet, en saisissant une sémantique plus subtile et plus complexe. La thèse proposée vise des avancées à un niveau assez amont, mais présente de nombreux intérêts pratiques potentiels dans les domaines de la santé, de l’administration et des services, de la sécurité et de la défense, de l’industrie manufacturière et de l’agriculture.

Détection hors distribution avec des modèles de fondation de vision et des méthodes post-hoc

Le sujet de thèse se concentre sur l'amélioration de la fiabilité des modèles de deep learning, en particulier dans la détection des échantillons hors distribution (OoD), qui sont des points de données différents des données d'entraînement et peuvent entraîner des prédictions incorrectes. Cela est particulièrement important dans des domaines critiques comme la santé et les véhicules autonomes, où les erreurs peuvent avoir des conséquences graves. La recherche exploite les modèles de base de la vision (VFMs) comme CLIP et DINO, qui ont révolutionné la vision par ordinateur en permettant l'apprentissage à partir de données limitées. Le travail proposé vise à développer des méthodes qui maintiennent la robustesse de ces modèles pendant le fine-tuning, garantissant qu'ils peuvent toujours détecter efficacement les échantillons OoD. En outre, la thèse explorera des solutions pour gérer les changements de distribution des données au fil du temps, un défi courant dans les applications du monde réel. Les résultats attendus incluent de nouvelles techniques pour la détection OoD et des méthodes adaptatives pour les environnements dynamiques, améliorant ainsi la sécurité et la fiabilité des systèmes d'IA dans des scénarios pratiques.

Modélisation de la réponse instrumentale des télescopes spatiaux avec un modèle optique différentiable

Contexte

L'effet de lentille gravitationnelle faible [1] est une sonde puissante de la structure à grande échelle de notre univers. Les cosmologistes utilisent l'effet de lentille faible pour étudier la nature de la matière noire et sa distribution spatiale. Les missions d'observation de l'effet de lentille faible nécessitent des mesures très précises de la forme des images de galaxies. La réponse instrumentale du télescope, appelée fonction d'étalement du point (PSF), produit une déformation des images observées. Cette déformation peut être confondue avec les effets d'un faible effet de lentille sur les images de galaxies, ce qui constitue l'une des principales sources d'erreur systématique lors de la recherche sur les faibles effets de lentille. Par conséquent, l'estimation d'un modèle de PSF fiable et précis est cruciale pour le succès de toute mission de faible lentille [2]. Le champ de la PSF peut être interprété comme un noyau convolutionnel qui affecte chacune de nos observations d'intérêt, qui varie spatialement, spectralement et temporellement. Le modèle de la PSF doit être capable de gérer chacune de ces variations. Nous utilisons des étoiles spécifiques considérées comme des sources ponctuelles dans le champ de vision pour contraindre notre modèle PSF. Ces étoiles, qui sont des objets non résolus, nous fournissent des échantillons dégradés du champ de la PSF. Les observations subissent différentes dégradations en fonction des propriétés du télescope. Ces dégradations comprennent le sous-échantillonnage, l'intégration sur la bande passante de l'instrument et le bruit additif. Nous construisons finalement le modèle de la PSF en utilisant ces observations dégradées et utilisons ensuite le modèle pour déduire la PSF à la position des galaxies. Cette procédure constitue le problème inverse mal posé de la modélisation de la PSF. Voir [3] pour un article récent sur la modélisation de la PSF.

La mission Euclid récemment lancée représente l'un des défis les plus complexes pour la modélisation de la PSF. En raison de la très large bande passante de l'imageur visible (VIS) d'Euclid, allant de 550 nm à 900 nm, les modèles de PSF doivent capturer non seulement les variations spatiales du champ de PSF, mais aussi ses variations chromatiques. Chaque observation d'étoile est intégrée avec la distribution d'énergie spectrale (SED) de l'objet sur l'ensemble de la bande passante du VIS. Comme les observations sont sous-échantillonnées, une étape de super-résolution est également nécessaire. Un modèle récent appelé WaveDiff [4] a été proposé pour résoudre le problème de modélisation de la PSF pour Euclid et est basé sur un modèle optique différentiable. WaveDiff a atteint des performances de pointe et est en train d'être testé avec des observations récentes de la mission Euclid.

Le télescope spatial James Webb (JWST) a été lancé récemment et produit des observations exceptionnelles. La collaboration COSMOS-Web [5] est un programme à grand champ du JWST qui cartographie un champ contigu de 0,6 deg2. Les observations de COSMOS-Web sont disponibles et offrent une occasion unique de tester et de développer un modèle précis de PSF pour le JWST. Dans ce contexte, plusieurs cas scientifiques, en plus des études de lentille gravitationnelle faible, peuvent grandement bénéficier d'un modèle PSF précis. Par exemple, l'effet de lentille gravitationnel fort [6], où la PSF joue un rôle crucial dans la reconstruction, et l'imagerie des exoplanètes [7], où les speckles de la PSF peuvent imiter l'apparence des exoplanètes, donc la soustraction d'un modèle de PSF exact et précis est essentielle pour améliorer l'imagerie et la détection des exoplanètes.

Projet de doctorat

Le candidat visera à développer des modèles PSF plus précis et plus performants pour les télescopes spatiaux en exploitant un cadre optique différentiable et concentrera ses efforts sur Euclid et le JWST.

Le modèle WaveDiff est basé sur l'espace du front d'onde et ne prend pas en compte les effets au niveau du pixel ou du détecteur. Ces erreurs au niveau des pixels ne peuvent pas être modélisées avec précision dans le front d'onde car elles se produisent naturellement directement sur les détecteurs et ne sont pas liées aux aberrations optiques du télescope. Par conséquent, dans un premier temps, nous étendrons l'approche de modélisation de la PSF en tenant compte de l'effet au niveau du détecteur en combinant une approche paramétrique et une approche basée sur les données (apprises). Nous exploiterons les capacités de différenciation automatique des cadres d'apprentissage automatique (par exemple TensorFlow, Pytorch, JAX) du modèle WaveDiff PSF pour atteindre l'objectif.

Dans une deuxième direction, nous envisagerons l'estimation conjointe du champ de la PSF et des densités d'énergie spectrale (SED) stellaires en exploitant des expositions répétées ou des dithers. L'objectif est d'améliorer et de calibrer l'estimation originale de la SED en exploitant les informations de modélisation de la PSF. Nous nous appuierons sur notre modèle PSF, et les observations répétées du même objet changeront l'image de l'étoile (puisqu'elle est imagée sur différentes positions du plan focal) mais partageront les mêmes SED.

Une autre direction sera d'étendre WaveDiff à des observatoires astronomiques plus généraux comme le JWST avec des champs de vision plus petits. Nous devrons contraindre le modèle de PSF avec des observations de plusieurs bandes pour construire un modèle de PSF unique contraint par plus d'informations. L'objectif est de développer le prochain modèle de PSF pour le JWST qui soit disponible pour une utilisation généralisée, que nous validerons avec les données réelles disponibles du programme COSMOS-Web JWST.

La direction suivante sera d'étendre les performances de WaveDiff en incluant un champ continu sous la forme d'une représentation neuronale implicite [8], ou de champs neuronaux (NeRF) [9], pour traiter les variations spatiales de la PSF dans l'espace du front d'onde avec un modèle plus puissant et plus flexible.

Enfin, tout au long de son doctorat, le candidat collaborera à l'effort de modélisation de la PSF par les données d'Euclid, qui consiste à appliquer WaveDiff aux données réelles d'Euclid, et à la collaboration COSMOS-Web pour exploiter les observations du JWST.

Références

[1] R. Mandelbaum. “Weak Lensing for Precision Cosmology”. In: Annual Review of Astronomy and Astro- physics 56 (2018), pp. 393–433. doi: 10.1146/annurev-astro-081817-051928. arXiv: 1710.03235.
[2] T. I. Liaudat et al. “Multi-CCD modelling of the point spread function”. In: A&A 646 (2021), A27. doi:10.1051/0004-6361/202039584.
[3] T. I. Liaudat, J.-L. Starck, and M. Kilbinger. “Point spread function modelling for astronomical telescopes: a review focused on weak gravitational lensing studies”. In: Frontiers in Astronomy and Space Sciences 10 (2023). doi: 10.3389/fspas.2023.1158213.
[4] T. I. Liaudat, J.-L. Starck, M. Kilbinger, and P.-A. Frugier. “Rethinking data-driven point spread function modeling with a differentiable optical model”. In: Inverse Problems 39.3 (Feb. 2023), p. 035008. doi:10.1088/1361-6420/acb664.
[5] C. M. Casey et al. “COSMOS-Web: An Overview of the JWST Cosmic Origins Survey”. In: The Astrophysical Journal 954.1 (Aug. 2023), p. 31. doi: 10.3847/1538-4357/acc2bc.
[6] A. Acebron et al. “The Next Step in Galaxy Cluster Strong Lensing: Modeling the Surface Brightness of Multiply Imaged Sources”. In: ApJ 976.1, 110 (Nov. 2024), p. 110. doi: 10.3847/1538-4357/ad8343. arXiv: 2410.01883 [astro-ph.GA].
[7] B. Y. Feng et al. “Exoplanet Imaging via Differentiable Rendering”. In: IEEE Transactions on Computational Imaging 11 (2025), pp. 36–51. doi: 10.1109/TCI.2025.3525971.
[8] Y. Xie et al. “Neural Fields in Visual Computing and Beyond”. In: arXiv e-prints, arXiv:2111.11426 (Nov.2021), arXiv:2111.11426. doi: 10.48550/arXiv.2111.11426. arXiv: 2111.11426 [cs.CV].
[9] B. Mildenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”. In: arXiv e-prints, arXiv:2003.08934 (Mar. 2020), arXiv:2003.08934. doi: 10.48550/arXiv.2003.08934. arXiv:2003.08934 [cs.CV].

Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage

Une des tendances majeures des imageurs intelligents est d’aller au-delà de fonctions d’inférence simple telle que la classification ou la détection d’objet. Cela peut notamment se traduire par le souhait d’ajouter des applications plus complexes permettant une compréhension sémantique de la scène. Parmi ces applications, le VQA (Visual Question Answering) permet aux systèmes d'IA de répondre à des questions, formulées avec du texte, en analysant les images. Dans ce contexte, ce sujet vise à développer un système efficace et embarqué de VQA intégrant un encodeur visuel basé sur des réseaux de neurones binaires (BNN) combiné avec un modèle de langage compact (tiny LLM). Même s’il existent encore de nombreuses étapes pour un portage matériel d’un système intégrant un LLM, ce projet représente une étape significative dans cette direction en s’appuyant sur des BNN. Cet encodeur traite des images en limitant le besoin en ressource de calcul, permettant un déploiement en temps réel sur des dispositifs embarqués. Des mécanismes d'attention seront intégrés pour extraire les informations sémantiques nécessaires à la compréhension de la scène. Le modèle de langage utilisé pourra être stocké localement et ajusté conjointement avec le BNN pour générer des réponses précises et contextuellement pertinentes.
Ce sujet de thèse offre une opportunité pour un candidat intéressé par le Tiny Deep Learning et les LLMs. Il propose un vaste champ de recherche pour des contributions significatives et des résultats intéressants pour des applications concrètes. Le travail consistera à développer une topologie de BNN robuste pour l'analyse sémantique d’une scène visuelle, en prenant en compte des contraintes matérielles (mémoire et calcul), à intégrer et à optimiser l'encodeur BNN avec le LLM, tout en assurant un système VQA cohérent et performant à travers différents types de requêtes et de cas d’usage.

Estimation de l'état de santé et prédiction de la durée de vie restante de batterie lithium-ion par Physics-Informed Deep Learning

Contexte :
Les batteries lithium-ion et sodium-ion de génération futures sont essentielles pour la transition énergétique et l'électrification des transports. Garantir en premier lieu la longévité, les performances mais aussi la sécurité des batteries nécessite une compréhension approfondie des mécanismes de dégradation à différentes échelles.
Objectif de Recherche :
Développer des méthodologies innovantes de diagnostic et de pronostic des batteries en exploitant la fusion de données multi-capteurs et des approches de type Physics-Informed Machine Learning (PIML), combinant des modèles théoriques physiques de batteries avec des algorithmes d'apprentissage profond.
Approche Scientifique :

Établir les corrélations entre les mesures multi-physiques et les mécanismes de dégradation des batteries
Explorer des approches hybrides PIML pour la fusion de données multi-physiques
Développer des architectures d'apprentissage intégrant les contraintes physiques tout en traitant des données hétérogènes
Étendre les méthodologies aux technologies émergentes de batteries sodium-ion

Méthodologie :
La recherche utilisera une base de données de cellules multi-instrumentées (capteurs acoustiques, électriques, thermiques, mécaniques, optiques) , analysant les signatures et modalités de chaque de mesures et développant des algorithmes PIML innovants qui optimisent la fusion de données multi-capteurs.

Résultats Attendus :
La thèse vise à fournir des recommandations précieuses pour l'instrumentation des systèmes de batteries, à développer des algorithmes de diagnostic et pronostic de trajectoires de vieillissement avancés et à contribuer significativement à l'amélioration de la fiabilité et de la durabilité des systèmes de stockage électrochimique, avec des impacts potentiels académiques et industriels.

Défense des modèles d'analyse de scène contre les attaques adversaires

Dans de nombreuses applications, des briques d'analyse de scène comme la segmentation sémantique, la détection et la reconnaissance d'objets, ou la reconnaissance de pose, sont nécessaires. Les réseaux de neurones profonds sont aujourd'hui parmi les modèles les plus efficaces pour effectuer un grand nombre de tâches de vision, parfois de façon simultanée lorsque l'apprentissage profond est multitâches. Cependant, il a été montré que ceux-ci étaient vulnérables face aux attaques adversaires (adversarial attacks): En effet, il est possible d'ajouter aux données d'entrée certaines perturbations imperceptibles par l'oeil humain qui mettent à mal les résultats lors de l'inférence faite par le réseau de neurones. Or, une garantie de résultats fiables est capitale pour les systèmes de décision où les failles de sécurité sont critiques (ex : applications comme le véhicule autonome, la reconnaissance d’objets en surveillance aérienne, ou la recherche de personnes/véhicules en vidéosurveillance). Différents types d'attaques adversaires et de défense ont été proposés, le plus souvent pour le problème de classification (d'images notamment). Quelques travaux ont abordé l'attaque des plongements qui sont optimisés par apprentissage de métrique pour les tâches de type ensemble-ouvert comme la réidentification d'objets, la reconnaissance faciale ou la recherche d'images par le contenu. Les types d'attaques se sont multipliés, qu'il s'agisse d'attaques universelles ou optimisées sur une instance particulière. Les défenses proposées doivent faire face à de nouvelles menaces sans trop sacrifier les performances initiales du modèle. La protection des données d'entrée face aux attaques adversaires est capitale pour les systèmes de décision où les failles de sécurité sont critiques. Un moyen de protéger ces données est de développer des défenses contre ces attaques. L'objectif sera donc d'étudier et de proposer différentes attaques et défenses applicables aux briques d'analyse de scène, notamment celles de détection d'objets et de recherche d'instance d'objet dans les images.