Cadre formel pour la spécification et la vérification de flots de communication de processus distribués dans le Cloud

Les clouds sont constitués de serveurs interconnectés via internet, sur lesquels on peut implémenter des systèmes faisant usages d’applications et de bases de données déployées sur les serveurs. L’informatique basée sur les clouds gagne considérablement en popularité, y compris pour y déployer des systèmes critiques. De ce fait, disposer d’un cadre formel pour raisonner sur ce type de systèmes devient une nécessité. Une exigence sur un tel cadre est qu’ils permettent de raisonner sur les concepts manipulés dans un cloud, ce qui inclue naturellement la capacité à raisonner sur des systèmes distribués, composés de sous-systèmes déployés sur différentes machines et interagissant par passage de messages pour réaliser des services. Dans ce contexte, la facilité à raisonner sur les flots de communications est un élément central. L'objectif de cette thèse est de définir un cadre formel outillé dédié à la spécification et la vérification de systèmes déployés sur des clouds. Ce cadre capitalisera sur le cadre formel des "interactions". Les interactions sont des modèles dédiés à la spécification des flots de communications entre différents acteurs d'un système. Les travaux de thèse étudieront comment définir des opérateurs de structuration (enrichissement, composition) et de raffinement pour permettre de mettre en œuvre des processus de génie logiciel classique en se basant sur les interactions.

Implémentation du TFHE sur des systèmes embarqués à architecture RISC-V

Le chiffrement entièrement homomorphe (FHE, Fully Homomorphic Encryption) est une technologie qui permet d’effectuer des calculs directement sur des données chiffrées, ce qui signifie que l’on peut traiter des informations sans jamais connaître leur contenu réel. Par exemple, elle pourrait permettre d’effectuer des recherches en ligne où le serveur ne voit jamais ce que vous cherchez, ou encore des tâches d’inférence en intelligence artificielle sur des données privées qui demeurent entièrement confidentielles. Malgré son potentiel, les implémentations actuelles du FHE restent très coûteuses en calcul et nécessitent une puissance de traitement considérable, reposant généralement sur des processeurs (CPU) ou des cartes graphiques (GPU) haut de gamme, avec une consommation énergétique importante. En particulier, l’opération de bootstrapping représente un goulet d’étranglement majeur qui empêche une adoption à grande échelle. Les implémentations du FHE basées sur CPU peuvent dépasser 20 secondes sur des architectures x86 standards, tandis que les solutions ASIC personnalisées, bien que plus rapides, sont extrêmement coûteuses, dépassant souvent 150 mm² de surface en silicium. Ce projet de doctorat vise à accélérer le schéma TFHE, une variante plus légère et plus efficace du FHE. L’objectif est de concevoir et de prototyper des implémentations innovantes de TFHE sur des systèmes basés sur RISC-V, en visant une réduction significative de la latence du bootstrapping. La recherche explorera les synergies entre les techniques d’accélération matérielle développées pour la cryptographie post-quantique et celles applicables à TFHE, ainsi que des approches d'accélération de type "tightly-coupled" entre les cœurs RISC-V et les accélérateurs dédiés. Enfin, le projet étudiera la possibilité d’intégrer un domaine de calcul entièrement homomorphe directement au sein du jeu d’instructions du processeur.

Cryptanalyse assistée par attaques physiques pour les schémas basés sur les codes correcteurs d’erreurs

L’évaluation de la sécurité de la cryptographie post-quantique, sous l’angle des attaques physiques, a été particulièrement étudiée dans la littérature, notamment sur les standards ML-KEM, et ML-DSA, basés sur les réseaux euclidiens. De plus, en mars 2025, le schéma HQC, basé sur les codes correcteurs d’erreurs, a été standardisé comme mécanisme d’encapsulation de clé alternatif à ML-KEM. Récemment, les Soft-Analytical Side-Channel Attacks (SASCA) ont été utilisées sur une grande variété d’algorithmes, afin de combiner l’information liée aux variables intermédiaires pour remonter au secret, apportant une forme de « correction » à l’incertitude liée aux attaques profilées. SASCA repose sur des modèles probabilistes appelés « factor graphs », sur lesquels un algorithme de « belief propagation » est appliqué. Dans le cas des attaques sur cryptosystèmes post-quantiques, il est en théorie possible d’utiliser la structure mathématique sous-jacente pour traiter la sortie d’une attaque SASCA sous la forme d’une cryptanalyse. Cela a par exemple été montré sur ML-KEM. L’objectif de cette thèse est de construire une méthodologie et les outils nécessaires de cryptanalyse et de calcul de complexité résiduelle pour la cryptographie basée sur les codes correcteurs d’erreurs. Ces outils devront prendre en compte l’information (« hints ») issue d’une attaque physique. Un second pan de la thèse sera d’étudier l’impact que peut avoir ce type d’outil sur le design de contremesures.

Génération assistée de noyaux de calculs complexes en mécanique du solide

Les lois de comportement utilisées dans les simulations numériques décrivent les caractéristiques physiques des matériaux simulés. À mesure que notre compréhension de ces matériaux évolue, la complexité de ces lois augmente.L'intégration de ces lois constitue une étape critique pour la performance et la robustesse des calculs scientifiques. De ce fait, cette étape peut conduire à des développements intrusifs et complexes dans le code.

De nombreuses plateformes numériques telles que FEniCS, FireDrake, FreeFEM, Comsol, proposent des techniques de génération de code à la volée (JIT, pour Just In Time) pour gérer différentes physiques. Cette approche JIT réduit considérablement les temps de mise en oeuvre de nouvelles simulations, offrant ainsi une grande versatilité à l'utilisateur. De plus, elle permet une optimisation spécifique aux cas traités et facilite le portage sur diverses architectures (CPU ou GPU). Enfin, cette approche permet de masquer les détails d'implémentation: une évolution de ces derniers est invisible pour l'utilisateur et est absorbée par la couche de génération de code.

Cependant, ces techniques sont généralement limitées aux étapes d'assemblage des systèmes linéaires à résoudre et n'incluent pas l'étape cruciale d'intégration des lois de comportement.

S'inspirant de l'expérience réussie du projet open-source mgis.fenics [1], cette thèse vise à développer une solution de génération de code à la volée dédiée au code de mécanique des structures de nouvelle génération Manta [2] développé par le CEA. L'objectif est de permettre un couplage fort avec les lois de comportement générées par MFront [3], améliorant ainsi la flexibilité, les performances et la robustesse des simulations numériques.

Le doctorant recherché devra posséder une solide culture numérique et un goût prononcé pour la simulation numérique et la programmation en C++. Il devra faire preuve d’autonomie et être force de proposition. Le doctorant bénéficiera d'un encadrement de la part des développeurs des codes MFront et Manta (CEA), ainsi que des développeurs du code A-Set (collaboration entre Mines-Paris Tech, Onera, et Safran). Cette collaboration au sein d'une équipe multidisciplinaire offrira un environnement stimulant et enrichissant pour le candidat.

De plus, le travail de thèse sera valorisé par la possibilité de participer à des conférences et de publier des articles dans des revues scientifiques à comité de lecture, offrant une visibilité nationale et internationale aux résultats de la thèse.

Le doctorat se déroulera au CEA Cadarache, dans le sud est de la France, au sein du département d'études des combustibles nucléaires de l'Institut REcherche sur les Systèmes Nucléaires pour la production d'Energie bas carbone (IRESNE) [4]. Le laboratoire d'accueil est le LMPC dont le rôle est de contribuer au développement des composants physiques de la plateforme numérique PLEIADES [5], co-développée par le CEA et EDF.

[1] https://thelfer.github.io/mgis/web/mgis_fenics.html
[2] MANTA : un code HPC généraliste pour la simulation de problèmes complexes en mécanique. https://hal.science/hal-03688160
[3] https://thelfer.github.io/tfel/web/index.html
[4] https://www.cea.fr/energies/iresne/Pages/Accueil.aspx
[5] PLEIADES: A numerical framework dedicated to the multiphysics and multiscale nuclear fuel behavior simulation https://www.sciencedirect.com/science/article/pii/S0306454924002408

Détection d'anomalies dans les vidéos adaptative et explicable

La détection d'anomalies dans les vidéos (VAD) vise à identifier automatiquement les événements inhabituels dans des séquences vidéo qui s’écartent des comportements normaux. Les méthodes existantes reposent souvent sur l'apprentissage One-Class ou faiblement supervisé : le premier n'utilise que des données normales pour l'entraînement, tandis que le second s'appuie sur des labels au niveau de la vidéo. Les récents progrès des modèles Vision-Langage (VLM) et des grands modèles de langage (LLM) ont permis d’améliorer à la fois les performances et l’explicabilité des systèmes VAD. Malgré des résultats prometteurs sur des jeux de données publics, plusieurs défis subsistent. La plupart des méthodes sont limitées à un seul domaine, ce qui entraîne une baisse de performance lorsqu'elles sont appliquées à de nouveaux jeux de données avec des définitions d’anomalies différentes. De plus, elles supposent que toutes les données d'entraînement sont disponibles dès le départ, ce qui est peu réaliste dans des contextes d’utilisation réels où les modèles doivent s’adapter continuellement à de nouvelles données. Peu d’approches explorent l’adaptation multimodale en utilisant des règles en langage naturel pour définir les événements normaux ou anormaux. Or, cela permettrait une mise à jour plus intuitive et flexible des systèmes VAD sans nécessiter de nouvelles vidéos.

Ce sujet de thèse a pour objectif de développer des méthodes de détection d’anomalies vidéo adaptables, capables de traiter de nouveaux domaines ou types d’anomalies en s’appuyant sur peu d’exemples vidéo et/ou des règles textuelles.

Les axes de recherche principaux seront les suivants :
• Adaptation interdomaines en VAD : améliorer la robustesse face aux écarts de domaine via une adaptation Few-Shot ;
• Apprentissage continu en VAD : enrichir le modèle en continu pour traiter de nouveaux types d’anomalies ;
• Apprentissage multimodal en Few-Shot : faciliter l’adaptation du modèle à l’aide de règles en langage naturel.

Gestion de réseau pilotée par l'IA avec de grands modèles LLMs

La complexité croissante des réseaux hétérogènes (satellitaire, 5G, IoT, TSN) nécessite de faire évoluer la gestion de réseau. Le Réseau Basé sur l'Intention (IBN), bien qu'avancé, se heurte encore à la difficulté de traduire des intentions de haut niveau en configurations techniques sans ambiguïté. Ce travail propose de lever ce verrou en exploitant les Grands Modèles de Langage (LLM) comme interface cognitive pour une automatisation complète et fiable.
Cette thèse vise à concevoir et développer un framework IBN-LLM pour créer le cerveau cognitif d'une boucle de contrôle fermée au-dessus du SDN. Le travail se concentrera sur trois défis majeurs : 1) développer un traducteur sémantique fiable du langage naturel vers les configurations réseau ; 2) concevoir un Moteur de Vérification déterministe (via simulations ou jumeaux numériques) pour prévenir les « hallucinations » des LLM ; et 3) intégrer une capacité d'analyse en temps réel (RAG) pour l'Analyse de Cause Racine (RCA) et la génération proactive d'intentions d'optimisation.
Nous attendons la conception d’une architecture IBN-LLM intégrée aux contrôleurs SDN, ainsi que des méthodologies pour la vérification formelle des configurations. La contribution principale sera la création d'un modèle basé sur LLM capable d'effectuer la RCA et de générer des intentions d'optimisation en temps réel. La validation de l'approche sera assurée par un prototype fonctionnel (PoC), dont l'évaluation expérimentale permettra de mesurer précisément les performances en termes de précision, de latence et de résilience.

Ordonnancement des accès I/O sur bandes magnétiques à l'aide de l'apprentissage automatique

Les simulations numériques sont utilisées pour obtenir des réponses à des
phénomènes physiques qui ne sont pas reproductibles, soit parce qu'ils sont
trop dangereux soit parce qu'ils sont trop coûteux. Les modèles utilisés
pour ces simulations sont de plus en plus complexes, en termes de taille et
de précision, et nécessitent l'accès à des capacités de calcul et de stockage
de données toujours plus importantes. À cet effet, et afin d'optimiser les
coûts, l'utilisation de technologies de stockage de masse telles que les
bandes magnétiques est cruciale. Cependant, pour assurer une bonne performance
du système dans son ensemble, le développement d'algorithmes et de mécanismes
liés au placement des données et à l'ordonnancement des accès sur bandes est
essentiel. L'objectif de la thèse est d'étudier la technologie des bandes
magnétiques, ainsi que les mécanismes existants tels que la RAO (Recommended
Access Order) ou la rétention de requêtes ; et de mettre en
œuvre de nouvelles stratégies pour l'optimisation des performances des
bandes magnétiques.