Apprentissage Fédéré Robuste et Sécurisé

L’Apprentissage Fédéré (FL) permet à plusieurs clients d’entraîner ensemble un modèle global sans partager leurs données brutes. Bien que cette approche décentralisée soit particulièrement adaptée aux domaines sensibles à la vie privée, comme la santé ou la finance, elle n’est pas intrinsèquement sécurisée : les mises à jour de modèle peuvent révéler des informations privées, et des clients malveillants (Byzantins) peuvent corrompre l’apprentissage.

Pour faire face à ces défis, deux grandes stratégies sont employées : l’Agrégation Sécurisée, qui préserve la confidentialité en masquant les mises à jour individuelles, et l’Agrégation Robuste, qui filtre les contributions malveillantes. Cependant, ces objectifs peuvent entrer en conflit : les mécanismes de confidentialité peuvent masquer les signes de comportements malveillants, tandis que la robustesse peut nécessiter un accès à des informations sensibles.

De plus, la majorité des travaux se concentrent sur les attaques au niveau des modèles, négligeant les menaces au niveau du protocole, comme les délais de message ou les mises à jour perdues — des comportements fréquents dans des réseaux réels et asynchrones.

Cette thèse vise à explorer le compromis entre confidentialité et robustesse en FL, à identifier des modèles de sécurité réalistes, et à concevoir des protocoles pratiques, sûrs et robustes. L’approche combinera une analyse théorique des garanties possibles et une implémentation de prototypes s’appuyant sur des outils comme le calcul multipartite sécurisé, des primitives cryptographiques et la confidentialité différentielle.

Cadre MBSE augmenté par l’Intelligence Artificielle pour l’analyse conjointe de la sureté et de la sécurité des systèmes critiques

Les systèmes critiques doivent respecter simultanément des exigences de Sureté de fonctionnement (prévenir les défaillances involontaires pouvant entraîner des dommages) et de Sécurité (protéger contre les attaques malveillantes). Traditionnellement, ces deux domaines sont traités séparément, alors qu’ils sont interdépendants : Une attaque (Sécurité) peut déclencher une défaillance (Sureté), et une faille fonctionnelle peut être exploitée comme vecteur d’attaque.
Les approches MBSE permettent une modélisation rigoureuse du système, mais elles ne capturent pas toujours les liens explicites entre la Sureté [1] et Sécurité [2] ; les analyses de risques sont manuelles, longues et sujettes à erreurs. La complexité des systèmes modernes rend nécessaire l’automatisation de l’évaluation des compromis Sureté-Securité.
La modélisation MBSE conjointe sureté/sécurité a été largement abordé dans plusieurs travaux de recherche tels que [3], [4] et [5]. Le verrou scientifique de cette thèse consiste à utiliser l’IA pour automatiser et améliorer la qualité des analyses. Quel type d’IA devrons nous utiliser pour chaque étape d’analyse ? Comment détecter les conflits entre les exigences de sécurité et de sureté ? Quelle sont les critères pour évaluer l’apport de l’IA dans l’analyse conjointe sureté/sécurité…

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d’une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l’intégration de graphes 3D, des requêtes spatio-temporelles ou l’apprentissage par instructions cinématiques. Cette thèse s’inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d’architecture, avec des applications en robotique, analyse vidéo et compréhension d’environnements dynamiques.

Détection d'anomalies dans les vidéos adaptative et explicable

La détection d'anomalies dans les vidéos (VAD) vise à identifier automatiquement les événements inhabituels dans des séquences vidéo qui s’écartent des comportements normaux. Les méthodes existantes reposent souvent sur l'apprentissage One-Class ou faiblement supervisé : le premier n'utilise que des données normales pour l'entraînement, tandis que le second s'appuie sur des labels au niveau de la vidéo. Les récents progrès des modèles Vision-Langage (VLM) et des grands modèles de langage (LLM) ont permis d’améliorer à la fois les performances et l’explicabilité des systèmes VAD. Malgré des résultats prometteurs sur des jeux de données publics, plusieurs défis subsistent. La plupart des méthodes sont limitées à un seul domaine, ce qui entraîne une baisse de performance lorsqu'elles sont appliquées à de nouveaux jeux de données avec des définitions d’anomalies différentes. De plus, elles supposent que toutes les données d'entraînement sont disponibles dès le départ, ce qui est peu réaliste dans des contextes d’utilisation réels où les modèles doivent s’adapter continuellement à de nouvelles données. Peu d’approches explorent l’adaptation multimodale en utilisant des règles en langage naturel pour définir les événements normaux ou anormaux. Or, cela permettrait une mise à jour plus intuitive et flexible des systèmes VAD sans nécessiter de nouvelles vidéos.

Ce sujet de thèse a pour objectif de développer des méthodes de détection d’anomalies vidéo adaptables, capables de traiter de nouveaux domaines ou types d’anomalies en s’appuyant sur peu d’exemples vidéo et/ou des règles textuelles.

Les axes de recherche principaux seront les suivants :
• Adaptation interdomaines en VAD : améliorer la robustesse face aux écarts de domaine via une adaptation Few-Shot ;
• Apprentissage continu en VAD : enrichir le modèle en continu pour traiter de nouveaux types d’anomalies ;
• Apprentissage multimodal en Few-Shot : faciliter l’adaptation du modèle à l’aide de règles en langage naturel.

Internalisation des connaissances externes par les modèles de fondation

Pour accomplir une tâche inconnue, un sujet (humain ou robot) doit consulter des informations externes, ce qui implique un coût cognitif. Après plusieurs expériences similaires, il maîtrise la situation et peut agir automatiquement. Les années 1980 et 1990 ont vu des explorations en IA avec des schémas et graphes conceptuels, mais leur mise en œuvre à grande échelle était limitée par la technologie de l'époque.

Les modèles neuronaux actuels, notamment les transformers et les LLM/VLM, apprennent des représentations universelles grâce à un préentraînement sur d'énormes quantités de données. Ils peuvent être utilisés avec des prompts pour fournir un contexte local. L'affinage (fine-tuning) permet de spécialiser ces modèles pour des tâches spécifiques.

Les méthodes de type RAG et GraphRAG permettent d'exploiter des connaissances externes, mais leur utilisation à l'inférence est coûteuse en ressources. Cette thèse propose une approche cognitiviste dans laquelle le système effectue un apprentissage continu. Il consulte des sources externes lors de l'inférence et utilise ces informations pour s'affiner régulièrement, comme pendant le sommeil. Cette méthode vise à améliorer la performance et réduire la consommation de ressources.

Chez l'humain, ces processus sont liés à l'organisation spatiale du cerveau. La thèse étudiera également des architectures de réseaux inspirées de cette organisation, avec des "zones" dédiées mais interconnectées, comme les modèles vision-langage et langage-seul partageant des couches transformers.

Ces concepts peuvent être appliqués aux projets Astir et Ridder, visant à exploiter les modèles de fondation pour l'ingénierie logicielle en robotique et le développement de méthodes d'IA générative pour la commande sécurisée de robots.

Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement.

Ce projet de thèse porte sur l'amélioration des modèles multimodaux de grande taille (LMMs) par l’intégration d’informations fines et spatio-temporelles dans les ensembles de données d'entraînement. Bien que les modèles actuels tels que CLIP et Flamingo présentent de bonnes performances, ils s'appuient sur des paires image-texte bruitées et peu structurées, sans ancrage spatial ou temporel explicite. La thèse vise à développer des pipelines automatiques permettant d’enrichir les jeux de données avec des métadonnées géographiques et temporelles, à affiner les légendes par l’introduction de descripteurs sémantiques plus précis, et à réguler la diversité et la compacité des données par un contrôle du nombre d'exemples par classe.

Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l’alignement entre les éléments des légendes et les régions d’image correspondantes. Le travail portera également sur des régimes d’entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d’inférence orientée vers la génération de contenus diversifiés en mode "ensemble". Le projet abordera également des enjeux liés à la qualité des métadonnées, à l’adaptation efficace des modèles, et à la conception de benchmarks adaptés à l’évaluation multi-dimensionnelle.

Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l’annotation enrichie d’archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.

Accélération des calculs de densité électronique par apprentissage automatique

La théorie de la fonctionnelle de la densité dans le formalisme de Kohn-Sham (DFT) est l’une des méthodes les plus répandues pour simuler les propriétés microscopiques en physique et en chimie du solide. Son principal avantage réside dans sa capacité à trouver un équilibre favorable entre précision et coût de calcul. L’évolution continue des techniques numériques, de plus en plus efficaces, a constamment élargi la portée de son applicabilité.
Parmi ces techniques qui peuvent être associées à la DFT, l’apprentissage automatique est de plus en plus utilisé. Aujourd’hui, une application très répandue consiste à produire des potentiels capables de prédire les interactions entre les atomes en utilisant des modèles d’apprentissage supervisés, s’appuyant sur des propriétés produites en DFT.
L’objectif du projet proposé dans le cadre de cette thèse est d’utiliser les techniques d’apprentissage automatique à un niveau approfondi, notamment pour prédire la densité électronique dans les cristaux ou les molécules. Comparativement à la prédiction de propriétés telles que les forces entre atomes, calculer la densité électronique pose des difficultés : la densité électronique est de haute dimension puisqu’elle doit être calculée dans tout l’espace ; ses caractéristiques sont très variables d’un matériau à l’autre (métaux, isolants, transferts de charge…). Au final, cela peut représenter un coût de calcul non négligeable. Il existe plusieurs options pour réduire la dimensionnalité de la densité électronique, comme le calcul de projections ou l’utilisation de fonctions de localisation.
L’enjeu final de ce projet est de pouvoir prédire, avec la meilleure précision possible, la densité électronique, afin de l’utiliser comme base de prédiction ou point de départ pour des calculs de propriétés spécifiques aux électrons (magnétisme, structure de bandes, par exemple).
Dans un premier temps, le/la candidat·e pourra implémenter des méthodes récemment proposées dans la littérature ; dans une seconde partie de la thèse, il faudra proposer des idées nouvelles. Enfin, la méthode implémentée sera utilisée pour accélérer la prédiction de propriétés de systèmes de grande taille et impliquant des transferts de charge, comme la migration de défauts dans les cristaux.

Modélisation automatique de variations du langage pour des agents conversationnels socialement interactifs

Les agents conversationnels, de plus en plus présents autour de nous grâce aux avancées en traitement automatique du langage naturel et en intelligence artificielle, suscitent un intérêt croissant. Toutefois, leur capacité à comprendre la communication humaine dans toute sa complexité reste un défi. Cette thèse vise à modéliser les variations linguistiques pour développer des agents capables d’interactions socialement adaptées, prenant en compte le profil socio-démographique et l’état émotionnel des interlocuteurs. Elle s'intéresse également à l’évaluation de différents indices linguistiques, à l’exploitation des formes orales et écrites du langage, et à la généralisation des modèles à partir de données multilingues et multi-situationnelles afin de mieux modéliser les interactions avec les agents conversationnels.

Généralisation compositionnelle des modèles de langage multimodaux

L’avènement des modèles de fondation a permis d’améliorer les performances dans plusieurs domaines de l’IA, en particulier en vision par ordinateur et traitement du langage naturel. Cependant, malgré l’énorme quantité de données utilisées pour les entrainer, ces modèles sont encore limités dans leur capacité à généraliser, en particulier dans un domaine spécifique, mal représenté sur le Web. Une modélisation de ce problème est la généralisation compositionnelle, c’est-à-dire la capacité d’apprendre à démêler les concepts pendant l’entrainement et à les recombiner dans une composition inédite lors de la phase de production/test. La thèse abordera cette
question, en visant à proposer des représentations visuelles qui permettent aux grands modèles génériques de langage visuel de généraliser la composition dans des domaines spécifiques. Elle étudiera des stratégies visant à réduire l’apprentissage de "raccourcis" artificiels, en favorisant une compréhension plus profonde des structures de composition dans les données multimodales. Elle abordera également le problème de la généralisation de la composition au-delà des simples paires attribut-objet, en saisissant une sémantique plus subtile et plus complexe. La thèse proposée vise des avancées à un niveau assez amont, mais présente de nombreux intérêts pratiques potentiels dans les domaines de la santé, de l’administration et des services, de la sécurité et de la défense, de l’industrie manufacturière et de l’agriculture.

Vers une Blockchain Durable : Réduire la Consommation d'Énergie tout en Assurant la Sécurité et l'Intégrité

La technologie blockchain, composant clé des systèmes de registres distribués, permet des interactions numériques décentralisées sans autorité centrale, mais pose des préoccupations environnementales en raison de sa consommation énergétique, notamment avec le mécanisme de preuve de travail (PoW) comme Bitcoin. La littérature met en évidence les défis de durabilité associés à cette consommation d'énergie. Plusieurs stratégies ont été proposées pour atténuer ces impacts, telles que l'optimisation des énigmes cryptographiques, le minage en deux étapes, et l'intégration des énergies renouvelables. Les mécanismes de consensus alternatifs comme Proof-of-Stake (PoS) et Proof-of-Authority (PoA) sont également explorés. Ce projet de recherche vise à évaluer les profils de consommation énergétique des systèmes blockchain existants et à proposer de nouveaux algorithmes de consensus plus efficaces. Il s'intéresse également à l'intégration de sources d'énergie renouvelable et à l'optimisation des contrats intelligents pour réduire leur consommation de ressources. Une analyse de sécurité approfondie garantira que les améliorations en efficacité énergétique ne compromettent pas la sécurité et la décentralisation des réseaux. En utilisant des outils de simulation, cette recherche quantifiera les améliorations apportées par les nouveaux algorithmes et stratégies, contribuant ainsi à la durabilité et à l'adoption plus large de la technologie blockchain de manière respectueuse de l'environnement.