Développement et caractérisation de mémoires embarquées à base de transistors ferroélectriques pour applications neuromorphiques

Evoluant au sein d’une équipe mondialement reconnue dans le domaine des mémoires ferroélectriques, l’étudiant.e sera amené.e à travailler sur le développement et l'optimisation de transistor FeFET avec canal en oxyde amorphe semiconducteur pour application neuromorphique et calcul proche mémoire.
Un regard particulier sera porté sur le rôle des lacunes d'oxygène, gouvernant à la fois les propriétés ferroélectriques du HfZrO2 et de conduction de l'oxyde semi-conducteur, et imposant d'importantes contraintes sur les étapes de fabrication.
L'étudiant.e s'appuiera sur une large gamme de composants élémentaires en cours de développement dans le cadre d'un projet industriel et sur les moyens de caractérisation physique et électrique du LETI.
En fonction de son profil et de ses affinités pour l’intégration des procédés de fabrication, la caractérisation électrique, la physique du dispositif et la simulation, l’étudiant.e pourra affiner le barycentre des travaux de la thèse.

Modélisation et simulation du comportement humain pour des jumeaux numériques centrés sur l'humain

Grâce à une représentation virtuelle synchronisée, les jumeaux numériques sont un moyen pour produire des analyses, prédictions et optimisations de systèmes du monde réel. Or certains de ces systèmes interagissent étroitement avec les humains de sorte que le rôle de ces derniers est déterminant dans le fonctionnement du système. C’est par exemple le cas dans des contextes comme l’industrie 5.0 ou la gestion du pilotage de systèmes critiques, où la qualité de la collaboration entre les humains et les machines dépendra de l’anticipation de leurs actions, interactions et décisions respectives. Ainsi, pour améliorer la précision des prédictions et étendre l’applicabilité dans divers domaines, il est nécessaire, en s’appuyant sur les connaissances issues des sciences humaines et sociales, de développer des jumeaux numériques qui prennent en compte la complexité et la richesse des comportements humains (processus décisionnels, interactions, émotions…). Ces modèles comportementaux pourront notamment s’appuyer sur l’apprentissage automatique, l’exploration de données, la modélisation basée sur des agents et l’ingénierie des connaissances. Après avoir identifié les modèles de comportements humains utiles, il s’agira d’étudier leur articulation conceptuelle et leur intégration technique avec les modèles des entités cyber-physiques dans le système de jumeau numérique. De plus, nous explorerons comment les services de jumeaux numériques sont impactés et peuvent être révisés pour prendre en compte ces aspects centrés sur l’humain. Enfin, nous évaluerons l’efficacité des jumeaux numériques centrés sur l’humain dans diverses applications en mettant en œuvre des expériences sur des cas réels représentatifs.
Ce travail de recherche ambitionne les contributions suivantes :
• Le développement d'une approche basée sur des modèles de comportement humain pour obtenir des jumeaux numériques centrés sur l'humain.
• Des connaissances nouvelles sur l'impact du comportement humain sur le contrôle d'un système et inversement.
• Des applications pratiques et des recommandations sur l’usage de jumeaux numériques centrés sur l'humain dans des scénarios du monde réel.
Cette thèse se déroulera à Grenoble.

Sécurité des angles morts du Machine Learning: modéliser et sécuriser le cycle de vie des systèmes complexes d'IA

Dans le contexte actuel de régulation de l'Intelligence Artificielle, plusieurs recommandations ont été proposées pour renforcer la "cyber-sécurité de l'IA" et plus particulièrement pour améliorer la sécurité des systèmes basés sur l'IA et pas uniquement les "modèles". Cette sécurité au niveau "système" est primordiale alors que nous connaissons un déploiement des modèles à très large échelle sur une grande variété de plateformes logicielles et matérielles. Néanmoins, considérer la sécurité du cycle de vie d'un système d'IA est beaucoup plus complexe que dans le cadre classique mais limité du "ML pipeline" traditionnel composé d'une phase statique d'apprentissage puis d'inférence.

Dans ce contexte, la communauté de la sécurité de l'IA doit se concentrer sur des opérations critiques mais trop faiblement étudiées qui sont de réels "angles morts" (blind spots) de sécurité. Cet objectif repose sur une modélisation fine de l'ensemble des composants et processus d'un système d'IA, par exemple avec un modèle de type MLOps (Machine Learning Operations) qui permet de définir et caractériser les différentes étapes, modules et interactions d'un système d'IA, notamment sa dynamique avec les mises à jour régulières des données et des modèles.

La thèse pourra se concentrer sur deux angles morts : le déploiement de modèles et la dynamique du "Continuous Training". Des travaux récents ont démontré des problèmes de sécurité critiques liés à des attaques backdoor de modèle (empoisonnement) après l'apprentissage par le remplacement de sous réseau d'un réseau de neurones profond. D'autres travaux ont montré que les phases de compression de modèles (quantification, pruning) pouvaient aussi être utilisées pour empoisonner un modèle. Enfin, la dynamique des systèmes d'IA avec la mise à jour régulière des données d'apprentissage et des modèles soulève de nombreuses questions quant à de possibles régressions de leur sécurité et la robustesse des modèles lors d'ajout de données ou d'opérations de "fine-tuning".

Les objectifs de la thèse seront:
1. modéliser la sécurité de systèmes modernes d'IA en utilisant un Framework MLOps et proposer des modèles de menaces et des analyses de risques pour des opérations critiques comme le déploiement de modèle et le Continuous Training.
2. démontrer et caractériser des attaques comme celles visant des méthodes d'optimisation de modèles, du fine tuning...
3. proposer et développer des protections ainsi que des protocoles d'évaluation robustes.

Calcul analogique en mémoire pour des mécanismes attentionnels dans le contexte de l'IA

L'objectif de cette thèse est d'étudier la mise en œuvre de mécanismes attentionnels pour l'intelligence artificielle directement implémentés dans une mémoire non volatile (NVM) basée sur des technologies émergentes.

Les mécanismes attentionnels représentent une avancée importante dans les algorithmes d'Intelligence Artificielle (IA) et sont à l’origine d’un gain en performance significatif des réseaux neuronaux artificiels dits « Transformers ». Bien qu'initialement proposés pour le traitement du langage naturel, ces mécanismes sont aujourd'hui largement utilisés dans de nombreuses applications embarquées tels que la prédiction de la demande dans un réseau d’énergie/de chaleur, la maintenance prédictive, la surveillance d’infrastructures de transport ou de sites industriels, etc.
Cependant, la complexité des algorithmes basés sur l'attention nécessite un accès intensif aux données et une puissance de calcul importante, entraînant une consommation énergétique élevée, ce qui peut être rédhibitoire pour lorsque l’on cible des systèmes matériels intégrés.

La technologie des memristors non volatils permet de réaliser des fonctions de calcul entièrement analogique avec un budget d'énergie très faible tout en réalisant la fonction de stockage non volatil des paramètres des modèles d'IA. Des algorithmes massifs d'algèbre linéaire peuvent être exécutés rapidement à un coût énergétique fortement réduit. Cependant, la technologie présente des limitations sur plusieurs aspects tels que le nombre de bits pour encoder les paramètres du modèle, les dimensions maximales des matrices qui peuvent être traitées en parallèle, etc.

Cette thèse vise à résoudre ces défis dans le contexte de l’analyse et de la prédiction de séries temporelles dans des systèmes embarqués.
La tâche principale consiste à explorer le portage des mécanismes basés sur l'attention sur une technologie de memristor (utilisant le spin) développée par le laboratoire SPINTEC.
Cela implique de quantifier et de partitionner les modèles d'IA pour les aligner sur l'architecture matérielle sans compromettre les performances de la prédiction, et d'explorer la mise en œuvre de blocs de calcul IA spécifique dans la structure analogique des memristors.

Cette thèse s'inscrit dans le cadre d'une collaboration entre le CEA List, Laboratoire d’Intelligence Intégrée Multi-Capteur, Grenoble INP et le Laboratoire SPINTEC. L'étudiant bénéficiera ainsi d'une équipe interdisciplinaire et dynamique au cœur de l'écosystème IA en France, qui entretient des liens étroits avec les acteurs industriels les plus influents dans le domaine.

Réseaux de neurones sur graphes pour la prédiction de la consommation de puissance d’architectures électroniques numériques

L’analyse de consommation de puissance est une étape importante du développement d'une architecture numérique. Cette analyse de puissance est nécessaire dès le début du codage RTL (Register Transfer Level), lorsque les modifications les plus avantageuses peuvent être apportées. Lorsque les conceptions deviennent plus grandes, l'analyse de puissance repose sur des traces de simulation plus longues et devient presque impossible, car le processus génère d'énormes fichiers de simulation (> gigaoctets ou téraoctets de données) entrainant ainsi de longs délais d'exécution de l'analyse de puissance (semaines, voire mois). Pour pallier à ce problème, les modèles de puissance peuvent être utilisés permettant ainsi d’accélérer cette étape d’analyse. Il existe un large éventail de recherches sur la modélisation de la puissance au niveau du RTL, principalement basées sur des approches analytiques ou d'apprentissage. La modélisation analytique de la puissance tente de corréler les profils d'application tels que le comportement de la mémoire, le comportement des branches, etc. avec les paramètres de la micro-architecture pour créer un modèle de puissance. Alors que la modélisation de la puissance basée sur l'apprentissage génère un modèle basé sur la trace de simulation de la conception et une puissance de référence proche de la consommation réelle. La modélisation de la puissance basée sur l'apprentissage gagne en popularité car elle est plus facile à mettre en œuvre que l'approche analytique et ne nécessite pas de connaissances approfondies en matière de conception. Ces méthodes basées sur les ML ont montré une amélioration impressionnante par rapport aux méthodes analytiques. Cependant, les méthodes de ML classiques (régression linéaire, réseau de neurones, ...) sont plus adaptées à la génération d'un modèle pour une architecture donnée, ce qui les rend difficiles à utiliser pour générer un modèle généralisable. Ainsi, au cours de ces deux dernières années, quelques études ont commencé à utiliser les réseaux de neurones sur graphes (GNN) pour aborder la généralisation des modèles dans le domaine de l'automatisation de la conception électronique (EDA). L'avantage d'un GNN par rapport aux approches de ML classiques est sa capacité à apprendre directement des graphes, ce qui le rend plus adapté aux problèmes EDA.
L’objectif de cette thèse est de concevoir un modèle de consommation généralisable d’une architecture électronique numérique, basé sur du GNN. Le modèle généralisable développé devrait être capable d’estimer, en plus de la consommation moyenne, la consommation cycle à cycle de n’importe quelle architecture électronique numérique. Très peu de travaux [1,2] existent dans l’état de l’art sur l’utilisation des GNNs pour l’estimation de consommation et les modèles conçus dans ses travaux sont uniquement capables d’estimer la consommation moyenne d’une architecture. De plus, plusieurs questions de recherche importantes ne sont pas abordées dans ces travaux tels que le nombre de données (architectures) nécessaire pour la généralisation du modèle, l’impact de la structure du graphe durant l’apprentissage, la sélection des architectures utilisées pour l’apprentissage et pour le test, le choix des features, etc.
Ainsi, durant cette thèse, ces questions seront étudiées afin de connaître leur impact durant la génération du modèle.
Les travaux seront valorisés à travers la rédaction de publications scientifiques dans des conférences et des journaux, ainsi que potentiellement des brevets.

Application du calcul quantique à l’heure du NISQ au Machine Learning

L'informatique quantique est censée offrir à l'avenir un avantage dans divers algorithmes, y compris certains qui sont considérés comme difficiles pour les ordinateurs traditionnels (par exemple, la factorisation des nombres premiers). Cependant, à une époque où les ordinateurs quantiques bruités (NISQ QC) sont la norme, l'utilisation concrète des ordinateurs NISQ semble prometteuse sur des approches d'optimisation et de l'efficacité énergétique plutôt que sur les performances algorithmiques pures.

Dans ce contexte, cette thèse de doctorat vise à aborder l'utilisation des NISQ pour améliorer le processus d'apprentissage des réseaux neuronaux (NN). En effet, la phase d'apprentissage des NN est probablement le moment le plus gourmand en énergie dans les approches traditionnelles. L'utilisation de techniques d'optimisation quantique ou de résolution de systèmes linéaires quantiques pourrait potentiellement offrir un avantage énergétique, en plus du fait que la phase d'apprentissage pourrait être réalisée avec un ensemble moins étendu d'exemples d'entraînement.

Intelligence artificielle en physique à base de nanodispositifs émergents

Les récentes percées dans l'IA sont corrélées à la charge énergétique nécessaire à la définition et à l'exécution de ces modèles. Les GPUs sont le matériel préféré pour ces implémentations, car ils peuvent effectuer des multiplications matricielles configurables et hautement parallélisées à base de circuits digitales. Toutefois, pour surmonter les limites énergétiques des GPUs, il peut être nécessaire d'abandonner complètement le paradigme digital.

Une solution élégante pourrait consister à exploiter la physique intrinsèque des dispositifs électroniques de manière analogique. Par exemple, des travaux préliminaires ont déjà proposé comment l'entropie physique des dispositifs silicium peut exécuter des algorithmes d'apprentissage probabilistes, comment la relaxation de la tension dans les réseaux résistifs peut approximer les gradients, et comment l'activité des oscillateurs interconnectés peut converger vers des minimas sur les surfaces d'énergie.

L'objectif de cette thèse sera d'étudier les primitives de calcul existantes et d'en proposer de nouvelles. De plus, comme les GPU biaisent les méthodes d'IA actuelles en les basant sur la multiplication matricielle, le candidat devra également étudier l'impact de ces nouvelles primitives sur les futurs algorithmes d'IA. Une attention particulière sera portée aux technologies émergentes de nanodispositifs développées au CEA Grenoble. En fonction des intérêts du doctorant, il sera possible de concevoir, tape-out et de tester des concepts de circuits en s'appuyant sur ces technologies innovantes.

Résolutions de problèmes inverses par deep learning appliqués à l'interférométrie

Dans la continuité des travaux de thèse de Benoît Rougier et de Jérémi Mapas appliqués à l'interférométrie radiofréquence sur la compréhension de la propagation d’une onde électromagnétique à travers une onde de choc pour l'étude à coeur des propriétés de matériaux innovants, cette thèse vise à exploiter les signaux bruts du radio-interféromètre pour déterminer simultanément la vitesse d’un choc et la vitesse matérielle dans des solides inertes ou énergétiques soumis à un choc soutenu ou non-soutenu. Un modèle de propagation des ondes millimétriques dans un milieu dissipatif présentant deux couches diélectriques séparées par des interfaces en mouvement a été élaboré pour adresser le cas du choc soutenu. Une résolution du problème inverse du modèle à deux couches avec pertes a été proposée avec l'apport du deep learning et des réseaux convolutifs. Un modèle multicouche sans pertes diélectriques a été également initié pour le cas du choc non soutenu.

Apprentissage continu multimodal sous contraintes

Les méthodes d’apprentissage profond standard sont pensées pour utiliser des données statiques. Cela induit une limitation pratique importante lorsqu’ils sont déployés dans des environnements dynamiques et sont confrontés à des données inconnues. L’apprentissage continu permet de répondre à ce problème, surtout avec l’utilisation de grands modèles pré-entraînés. Toutefois, le déploiement de tels modèles en mode autonome est actuellement impossible dans nombreuses applications frugales qui imposent de fortes contraintes calculatoires et/ou de mémoire. De plus, la plupart des méthodes actuelles sont développées pour une seule modalité (texte ou visuel), alors que les données captées sont souvent multimodales.
Cette thèse propose d’adresser plusieurs objectifs qui permettent le déploiement pratique d’agents capables de mettre à jour leurs représentations sous contraintes. Ce déploiement implique les objectifs suivants :(1) la collecte de corpus orientés domaine et leur augmentation basée sur des modèles génératifs multimodaux, (2) la compression de modèles de fondation pour les adapter au domaine et les rendre utilisables sous contraintes calculatoires et/ou de mémoire, (3) la proposition de méthodes d’apprentissage continu efficientes pour gérer de nouvelles données multimodales, et (4) la gestion de flux de données réalistes pour prendre en compte les specificités de différents contextes applicatifs.

Modèles d'apprentissage profond pour le décodage des codes LDPC

Le codes correcteurs d'erreurs jouent un rôle essentiel pour garantir l'intégrité des données dans de nombreuses applications, comme le stockage, la transmission, ou la mise en réseau des données. Au cours des dernières années, de nouvelles interactions sont apparues entre la théorie du codage et l’apprentissage automatique, considéré comme un moyen prometteur de surmonter les limitations des solutions existantes, notamment pour les codes de faible à moyenne longueur. Pour de nombreuses constructions connues de codes correcteurs, il s’avère que ces limitations sont principalement dues à l’algorithme de décodage, plutôt qu’à la capacité intrinsèque de correction du code. Cependant, trouver des modèles d'apprentissage automatique s'appliquant aux spécificités des codes correcteurs est difficile, et les recherches actuelles sont encore confrontées à un écart important par rapport aux limites fondamentales en longueur finie.

Ce projet de thèse vise à élargir les connaissances actuelles sur l’utilisation de l'apprentissage automatique pour le décodage des codes de parité à faible densité (codes LDPC), dans plusieurs directions. Premièrement, il étudiera les méthodes d'apprentissage d'ensemble, dans lesquelles plusieurs modèles sont entrainés pour résoudre le problème de décodage et combinés pour obtenir de meilleurs résultats. Des méthodes spécifiques seront conçues pour garantir la diversité des modèles individuels et couvrir toute la variabilité de la structure du code. Deuxièmement, il explorera la distillation des connaissances pour transférer les performances supérieures d'un ensemble vers un modèle unique, ou plus généralement d'un grand modèle vers un plus petit. Troisièmement, le projet étudiera les stratégies de décodage basées sur le syndrome, afin de permettre l'utilisation de modèles puissants de réseaux neuronaux, plutôt que les modèles actuels basés sur la propagation des croyances, libérant ainsi toute la puissance des méthodes proposées d'apprentissage d'ensemble et de distillation de connaissances.

Le doctorant sera accueilli au CEA-Leti à Grenoble au sein d’une équipe de recherche experte en traitement du signal pour les télécommunications (http://www.leti-cea.fr/cea-tech/leti/Pages/recherche-appliquee/plateformes/plateforme-telecommunications.aspx).

Top