Optimisation d'architecture neuronale post-entraînement pour petit modèles de langage
L’IA générative, et en particulier les modèles de langage (LLM), ont conduit à une nouvelle révolution de l'IA avec des applications dans tous les domaines. Cependant, les LLM sont très gourmands en ressources (énergie, calculs, etc.) et, par conséquent, difficiles à mettre en œuvre sur des systèmes embarqués autonomes. Les LLM peuvent être optimisés en modifiant leur architecture, pour remplacer les opérations de Transformer coûteuses par des alternatives moins coûteuses. Etant donné la difficulté d’entraîner des LLM « from scratch », cette thèse vise à développer des méthodes d’optimisation d’architecture neuronale post-entraînement, applicable à des petits LLM (SLM). De plus, la thèse vise à proposer un modèle de performance des différentes opérations d’un SLM et leurs alternatives, afin de guider le remplacement des opérations, et ainsi proposer une méthodologie complète d’optimisation de SLM en prenant en compte les contraintes matérielles. Le travail sera valorisé par des publications dans des conférences et journaux de rang majeur en IA, et les codes et méthodes développés pourront être intégrés dans les outils développés au CEA.
Concilier la prédictabilité et la performance dans les architectures de processeurs pour les systèmes critiques
Les systèmes critiques possèdent à la fois des exigences fonctionnelles et temporelles, ces dernières garantissant que toutes les échéances sont respectées pendant l’exécution ; tout dépassement pourrait entraîner des conséquences catastrophiques. La nature critique de ces systèmes impose la mise en œuvre de solutions matérielles et logicielles spécialisées.
Cette thèse de doctorat porte sur le développement d’architectures matérielles pour systèmes critiques, appelées architectures prédictibles, capables de fournir les garanties temporelles nécessaires. Plusieurs architectures de ce type existent déjà, généralement fondées sur des pipelines in-order et intégrant soit des restrictions comportementales (par exemple, la désactivation de mécanismes de spéculation complexes), soit des spécialisations structurelles (par exemple, des caches re-designés ou une arbitrage déterministe pour l’accès aux ressources partagées). Ces restrictions et spécialisations ont inévitablement un impact sur les performances ; la conception d’architectures prédictibles doit donc traiter directement le compromis entre prédictibilité et performance. Cette thèse vise à explorer ce compromis d’une manière nouvelle, en adaptant une variante hautes performances d’un processeur in-order (CVA6) et en développant des techniques top-down pour le rendre prédictible. Les performances de tels processeurs reposent habituellement sur des mécanismes tels que la prédiction de branchement, le préchargement (prefetching) et la prédiction de valeurs, mis en œuvre à l’aide d’éléments de stockage spécialisés (par exemple, des tampons) et appuyés par des mécanismes de contrôle tels que la restauration d’état (rollback) en cas de mauvaise spéculation. Dans ce contexte, l’objectif de la thèse est de définir un schéma général de prédictibilité pour l’exécution spéculative, couvrant à la fois l’organisation du stockage et le comportement de restauration.
Support logiciel pour l'utilisation d'accélérateur de calcul et de transfert mémoire
Pour des raisons d'énergie les futurs ordinateurs devront utiliser des accélérateurs pour le calcul comme pour les accès à la mémoire (GPU, TPU, NPU, DMA intelligents). Les application d'IA ont des besoins en calcul intensif à la fois en intensité de calcul et en débits mémoire.
Ces accélérateurs ne se basent pas sur un jeu d'instruction simple (ISA), ils s'affranchissent du modèle de Von Neuman et ils nécessitent d'écrire manuellement du code spécialisé.
Par ailleurs, il est difficile de comparer l'utilisation de ces accélérateurs avec un code utilisant un processeur non spécialisé, les codes sources initiaux étant très différents.
HybroLang est un langage de programmation proche matériel permettant d'exprimer des programmes utilisant toutes les capacités de calcul d'un processeur tout en permettant une spécialisation du code en fonction des données connues à l'exécution.
Le compilateur HybroGen a déjà démontré sa capacité de programmation d'accélérateurs de calcul en mémoire, comme en optimisation de code sur CPU classique en réalisant des optimisations innovantes.
Cette thèse se propose d'étendre le langage HybroLang afin de :
- faciliter la programmation d'application d'IA apportant le support pour des données complexes : stencils, convolution, calcul clairsemé
- permettre la génération de code à la fois sur CPU et avec des accélérateurs matériels en cours de développement au CEA (calcul clairsemé, calcul en mémoire, accès à la mémoire)
- permettre la comparaison d'architectures différentes en partant d'un seul code source d'application
Idéalement un candidat devra avoir des connaissances dans les domaines suivants : architecture des ordinateurs, implémentation de langage de programmation, compilation et optimisation de code.
Génération assistée par LLM de modèles matériels fonctionnels et formels
Les systèmes matériels modernes, comme les processeurs RISC-V ou les accélérateurs matériels, reposent sur des simulateurs fonctionnels et des modèles de vérification formelle pour garantir leur bon fonctionnement, leur fiabilité et leur sécurité. Aujourd’hui, ces modèles sont majoritairement développés manuellement à partir des spécifications, ce qui demande beaucoup de temps et devient de plus en plus complexe à mesure que les architectures évoluent.
Cette thèse propose d’explorer l’utilisation des grands modèles de langage (LLMs) pour automatiser la génération de modèles matériels fonctionnels et formels à partir de spécifications de conception. Le travail consistera à concevoir une méthodologie permettant de produire des modèles exécutables (par exemple des simulateurs) et des modèles formels cohérents, tout en augmentant la confiance dans leur correction. Pour cela, la thèse s’appuiera sur des boucles de retour issues des outils de simulation et de vérification formelle, combinées à des techniques d’apprentissage par renforcement.
Les résultats attendus sont une réduction significative de l’effort de modélisation manuelle, une meilleure cohérence entre les différents modèles, et une validation de l’approche sur des cas d’étude réalistes, notamment autour des architectures RISC-V et des accélérateurs matériels.
Développement soutenable de circuits et systèmes numériques : Prise en compte des limites planétaires
Les développements technologiques dans le secteur de l’électronique connaissent une croissance rapide, accompagnée d’un intérêt accru pour la prise en compte de leurs impacts environnementaux. Toutefois, les approches actuelles restent majoritairement centrées sur des réductions relatives des impacts (efficacité énergétique, optimisation des ressources), sans garantir une compatibilité réelle avec les limites planétaires. Dans ce contexte, la notion de soutenabilité absolue apparaît comme un cadre indispensable pour orienter les futurs développements des systèmes électroniques.
La thèse s’attaque à plusieurs défis scientifiques majeurs : comment identifier, pour le secteur électronique, des capacités de charge et des principes de partage, notions de base de la soutenabilité absolue, déclinables jusqu’aux niveaux des systèmes numériques et des circuits intégrés ? Comment intégrer concrètement les limites planétaires dans la conception de systèmes et circuits ?
L’objectif principal de cette thèse est de passer d’une logique de réduction relative des impacts environnementaux à une conception compatible avec les limites planétaires. Elle vise à définir des scénarios socio-techniques permettant d’identifier des principes de partage, à réaliser la première analyse de cycle de vie absolue d’un système numérique, et à proposer la première conception d’un circuit fondée sur des limites absolues, ouvrant la voie à un développement réellement soutenable de l’électronique.
Implémentation du TFHE sur des systèmes embarqués à architecture RISC-V
Le chiffrement entièrement homomorphe (FHE, Fully Homomorphic Encryption) est une technologie qui permet d’effectuer des calculs directement sur des données chiffrées, ce qui signifie que l’on peut traiter des informations sans jamais connaître leur contenu réel. Par exemple, elle pourrait permettre d’effectuer des recherches en ligne où le serveur ne voit jamais ce que vous cherchez, ou encore des tâches d’inférence en intelligence artificielle sur des données privées qui demeurent entièrement confidentielles. Malgré son potentiel, les implémentations actuelles du FHE restent très coûteuses en calcul et nécessitent une puissance de traitement considérable, reposant généralement sur des processeurs (CPU) ou des cartes graphiques (GPU) haut de gamme, avec une consommation énergétique importante. En particulier, l’opération de bootstrapping représente un goulet d’étranglement majeur qui empêche une adoption à grande échelle. Les implémentations du FHE basées sur CPU peuvent dépasser 20 secondes sur des architectures x86 standards, tandis que les solutions ASIC personnalisées, bien que plus rapides, sont extrêmement coûteuses, dépassant souvent 150 mm² de surface en silicium. Ce projet de doctorat vise à accélérer le schéma TFHE, une variante plus légère et plus efficace du FHE. L’objectif est de concevoir et de prototyper des implémentations innovantes de TFHE sur des systèmes basés sur RISC-V, en visant une réduction significative de la latence du bootstrapping. La recherche explorera les synergies entre les techniques d’accélération matérielle développées pour la cryptographie post-quantique et celles applicables à TFHE, ainsi que des approches d'accélération de type "tightly-coupled" entre les cœurs RISC-V et les accélérateurs dédiés. Enfin, le projet étudiera la possibilité d’intégrer un domaine de calcul entièrement homomorphe directement au sein du jeu d’instructions du processeur.
CORTEX: Orchestration de Conteneurs pour les applications Temps-Réel, Embarqués/edge, à criticité miXte
Cette proposition de thèse de doctorat vise à développer un schéma d'orchestration de conteneurs pour les applications en temps réel, déployées sur un continuum de ressources de calcul hétérogènes dans l'espace embarqué-edge-cloud, avec un focus particulier sur les applications nécessitant des garanties en temps réel.
Les applications, allant des véhicules autonomes, à la surveillance de l'environnement ou à l'automatisation industrielle, exigent traditionnellement une grande prédictibilité avec des garanties en temps réel, mais elles demandent de plus en plus de flexibilité à l'exécution ainsi qu'une minimisation de leur empreinte environnementale globale.
Pour ces applications, une stratégie adaptative innovante est nécessaire pour optimiser dynamiquement (à l'exécution) le déploiement des charges logicielles sur les nœuds matériels, avec un objectif mixte-critique combinant des garanties en temps réel et la minimisation de l'empreinte environnementale.
Orchestration proactive pour la sécurité des systèmes distribués
Dans un contexte où les architectures distribuées deviennent de plus en plus hétérogènes et dynamiques, la surface d’attaque s’élargit et impose de repenser la sécurité au-delà des mécanismes défensifs traditionnels.
Les approches de sécurité proactive, et notamment le Moving Target Defense (MTD), visent à perturber l’adversaire en modifiant régulièrement la configuration du système (adresses réseau, réallocation de conteneurs, déploiement de leurres). Néanmoins, ces stratégies restent généralement statiques, limitées à un seul mécanisme et indépendantes de l’état matériel sous-jacent. Par ailleurs, les contre-mesures au niveau du cache (partitionnement, randomisation, ordonnancement) sont rarement intégrées à la logique décisionnelle des orchestrateurs.
L’objectif de la thèse est de concevoir un cadre d’orchestration MTD adaptatif et conscient de l’état matériel, capable d’ajuster dynamiquement les stratégies de défense en fonction de la charge, des performances et de la vulnérabilité observée. L’idée centrale est d’alimenter un agent d’apprentissage par renforcement avec des informations issues des compteurs matériels et des métriques locales de sécurité liées au cache partagé, afin qu’il sélectionne la meilleure combinaison de stratégies MTD selon le contexte observé.
Les contributions attendues concernent la définition d’une métrique locale de sécurité intégrant l’état du cache, la modélisation du système sous forme de graphe reliant services, ressources et surfaces d’attaque, la conception d’un agent RL décisionnel unifié pour la sélection automatique des stratégies, et enfin une évaluation multicritère (sécurité, performance, énergie) sur un cas d’usage automobile réaliste.
Cette thèse vise à rapprocher la vision système et la vision matérielle pour construire des orchestrateurs de confiance capables d’anticiper et d’adapter les défenses face à des attaques évolutives, ouvrant la voie à une sécurité proactive intelligente et matériellement informée dans les systèmes distribués.