Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement.

Ce projet de thèse porte sur l'amélioration des modèles multimodaux de grande taille (LMMs) par l’intégration d’informations fines et spatio-temporelles dans les ensembles de données d'entraînement. Bien que les modèles actuels tels que CLIP et Flamingo présentent de bonnes performances, ils s'appuient sur des paires image-texte bruitées et peu structurées, sans ancrage spatial ou temporel explicite. La thèse vise à développer des pipelines automatiques permettant d’enrichir les jeux de données avec des métadonnées géographiques et temporelles, à affiner les légendes par l’introduction de descripteurs sémantiques plus précis, et à réguler la diversité et la compacité des données par un contrôle du nombre d'exemples par classe.

Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l’alignement entre les éléments des légendes et les régions d’image correspondantes. Le travail portera également sur des régimes d’entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d’inférence orientée vers la génération de contenus diversifiés en mode "ensemble". Le projet abordera également des enjeux liés à la qualité des métadonnées, à l’adaptation efficace des modèles, et à la conception de benchmarks adaptés à l’évaluation multi-dimensionnelle.

Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l’annotation enrichie d’archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.

Accélération des calculs de densité électronique par apprentissage automatique

La théorie de la fonctionnelle de la densité dans le formalisme de Kohn-Sham (DFT) est l’une des méthodes les plus répandues pour simuler les propriétés microscopiques en physique et en chimie du solide. Son principal avantage réside dans sa capacité à trouver un équilibre favorable entre précision et coût de calcul. L’évolution continue des techniques numériques, de plus en plus efficaces, a constamment élargi la portée de son applicabilité.
Parmi ces techniques qui peuvent être associées à la DFT, l’apprentissage automatique est de plus en plus utilisé. Aujourd’hui, une application très répandue consiste à produire des potentiels capables de prédire les interactions entre les atomes en utilisant des modèles d’apprentissage supervisés, s’appuyant sur des propriétés produites en DFT.
L’objectif du projet proposé dans le cadre de cette thèse est d’utiliser les techniques d’apprentissage automatique à un niveau approfondi, notamment pour prédire la densité électronique dans les cristaux ou les molécules. Comparativement à la prédiction de propriétés telles que les forces entre atomes, calculer la densité électronique pose des difficultés : la densité électronique est de haute dimension puisqu’elle doit être calculée dans tout l’espace ; ses caractéristiques sont très variables d’un matériau à l’autre (métaux, isolants, transferts de charge…). Au final, cela peut représenter un coût de calcul non négligeable. Il existe plusieurs options pour réduire la dimensionnalité de la densité électronique, comme le calcul de projections ou l’utilisation de fonctions de localisation.
L’enjeu final de ce projet est de pouvoir prédire, avec la meilleure précision possible, la densité électronique, afin de l’utiliser comme base de prédiction ou point de départ pour des calculs de propriétés spécifiques aux électrons (magnétisme, structure de bandes, par exemple).
Dans un premier temps, le/la candidat·e pourra implémenter des méthodes récemment proposées dans la littérature ; dans une seconde partie de la thèse, il faudra proposer des idées nouvelles. Enfin, la méthode implémentée sera utilisée pour accélérer la prédiction de propriétés de systèmes de grande taille et impliquant des transferts de charge, comme la migration de défauts dans les cristaux.

Modélisation automatique de variations du langage pour des agents conversationnels socialement interactifs

Les agents conversationnels, de plus en plus présents autour de nous grâce aux avancées en traitement automatique du langage naturel et en intelligence artificielle, suscitent un intérêt croissant. Toutefois, leur capacité à comprendre la communication humaine dans toute sa complexité reste un défi. Cette thèse vise à modéliser les variations linguistiques pour développer des agents capables d’interactions socialement adaptées, prenant en compte le profil socio-démographique et l’état émotionnel des interlocuteurs. Elle s'intéresse également à l’évaluation de différents indices linguistiques, à l’exploitation des formes orales et écrites du langage, et à la généralisation des modèles à partir de données multilingues et multi-situationnelles afin de mieux modéliser les interactions avec les agents conversationnels.

Généralisation compositionnelle des modèles de langage multimodaux

L’avènement des modèles de fondation a permis d’améliorer les performances dans plusieurs domaines de l’IA, en particulier en vision par ordinateur et traitement du langage naturel. Cependant, malgré l’énorme quantité de données utilisées pour les entrainer, ces modèles sont encore limités dans leur capacité à généraliser, en particulier dans un domaine spécifique, mal représenté sur le Web. Une modélisation de ce problème est la généralisation compositionnelle, c’est-à-dire la capacité d’apprendre à démêler les concepts pendant l’entrainement et à les recombiner dans une composition inédite lors de la phase de production/test. La thèse abordera cette
question, en visant à proposer des représentations visuelles qui permettent aux grands modèles génériques de langage visuel de généraliser la composition dans des domaines spécifiques. Elle étudiera des stratégies visant à réduire l’apprentissage de "raccourcis" artificiels, en favorisant une compréhension plus profonde des structures de composition dans les données multimodales. Elle abordera également le problème de la généralisation de la composition au-delà des simples paires attribut-objet, en saisissant une sémantique plus subtile et plus complexe. La thèse proposée vise des avancées à un niveau assez amont, mais présente de nombreux intérêts pratiques potentiels dans les domaines de la santé, de l’administration et des services, de la sécurité et de la défense, de l’industrie manufacturière et de l’agriculture.

Vers une Blockchain Durable : Réduire la Consommation d'Énergie tout en Assurant la Sécurité et l'Intégrité

La technologie blockchain, composant clé des systèmes de registres distribués, permet des interactions numériques décentralisées sans autorité centrale, mais pose des préoccupations environnementales en raison de sa consommation énergétique, notamment avec le mécanisme de preuve de travail (PoW) comme Bitcoin. La littérature met en évidence les défis de durabilité associés à cette consommation d'énergie. Plusieurs stratégies ont été proposées pour atténuer ces impacts, telles que l'optimisation des énigmes cryptographiques, le minage en deux étapes, et l'intégration des énergies renouvelables. Les mécanismes de consensus alternatifs comme Proof-of-Stake (PoS) et Proof-of-Authority (PoA) sont également explorés. Ce projet de recherche vise à évaluer les profils de consommation énergétique des systèmes blockchain existants et à proposer de nouveaux algorithmes de consensus plus efficaces. Il s'intéresse également à l'intégration de sources d'énergie renouvelable et à l'optimisation des contrats intelligents pour réduire leur consommation de ressources. Une analyse de sécurité approfondie garantira que les améliorations en efficacité énergétique ne compromettent pas la sécurité et la décentralisation des réseaux. En utilisant des outils de simulation, cette recherche quantifiera les améliorations apportées par les nouveaux algorithmes et stratégies, contribuant ainsi à la durabilité et à l'adoption plus large de la technologie blockchain de manière respectueuse de l'environnement.

Génération assistée par l'IA de simulateurs d’architectures numériques

Les outils de simulation d'architectures numériques reposent sur divers types de modèles, de niveaux d’abstraction différents, afin de répondre aux exigences de la co-conception et de la co-validation matériel/logiciel. Parmi ces modèles, ceux de plus haut niveau permettent la validation fonctionnelle rapide de logiciels sur les architectures cibles.

Ces modèles fonctionnels sont souvent élaborés de manière manuelle, une tâche à la fois fastidieuse et sujette aux erreurs. Lorsque des descriptions de bas niveau en RTL (Register Transfer Level) sont disponibles, elles deviennent une source à partir de laquelle des modèles de plus haut niveau, tels que les modèles fonctionnels, ou simulateurs rapides, peuvent être déduits. Des travaux préliminaires au CEA ont permis d'obtenir un prototype initial basé sur MLIR (Multi-Level Intermediate Representation), démontrant des résultats prometteurs dans la génération de fonctions d'exécution d'instructions à partir de descriptions RTL.

L'objectif de cette thèse est d'approfondir ces travaux, puis d'automatiser l'extraction des états architecturaux en s'inspirant des dernières avancées en matière d'apprentissage automatique pour l'EDA. Le résultat attendu est un flot complet de génération automatique de simulateurs fonctionnels à partir de RTL, garantissant ainsi, par construction, une consistance sémantique entre les deux niveaux d'abstraction.

Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage

Une des tendances majeures des imageurs intelligents est d’aller au-delà de fonctions d’inférence simple telle que la classification ou la détection d’objet. Cela peut notamment se traduire par le souhait d’ajouter des applications plus complexes permettant une compréhension sémantique de la scène. Parmi ces applications, le VQA (Visual Question Answering) permet aux systèmes d'IA de répondre à des questions, formulées avec du texte, en analysant les images. Dans ce contexte, ce sujet vise à développer un système efficace et embarqué de VQA intégrant un encodeur visuel basé sur des réseaux de neurones binaires (BNN) combiné avec un modèle de langage compact (tiny LLM). Même s’il existent encore de nombreuses étapes pour un portage matériel d’un système intégrant un LLM, ce projet représente une étape significative dans cette direction en s’appuyant sur des BNN. Cet encodeur traite des images en limitant le besoin en ressource de calcul, permettant un déploiement en temps réel sur des dispositifs embarqués. Des mécanismes d'attention seront intégrés pour extraire les informations sémantiques nécessaires à la compréhension de la scène. Le modèle de langage utilisé pourra être stocké localement et ajusté conjointement avec le BNN pour générer des réponses précises et contextuellement pertinentes.
Ce sujet de thèse offre une opportunité pour un candidat intéressé par le Tiny Deep Learning et les LLMs. Il propose un vaste champ de recherche pour des contributions significatives et des résultats intéressants pour des applications concrètes. Le travail consistera à développer une topologie de BNN robuste pour l'analyse sémantique d’une scène visuelle, en prenant en compte des contraintes matérielles (mémoire et calcul), à intégrer et à optimiser l'encodeur BNN avec le LLM, tout en assurant un système VQA cohérent et performant à travers différents types de requêtes et de cas d’usage.

Passage à l’échelle du jumeau numérique réseau dans les réseaux de communication complexes

Les réseaux de communication connaissent aujourd’hui une croissance exponentielle à la fois en termes de déploiement d’infrastructures réseau (notamment ceux des opérateurs à travers l’évolution progressive et soutenue vers la 6G), mais aussi en termes de machines, couvrant un large éventail d’équipements allant des serveurs Cloud aux composants IoT embarqués légers (ex. System on Chip : SoC) en passant par les terminaux mobiles comme les téléphones intelligents (smartphones).

Cet écosystème est aussi riche en équipements qu’en composants logiciels allant de l’application (ex. Audio/Vidéo streaming) jusqu’aux protocoles des différentes couches de communication réseau. De plus, un tel écosystème, lorsqu’il est opérationnel, se trouvera en perpétuel changement dont la nature peut être explicitée dans ce qui suit :
- Changement dans la topologie réseau : en raison, par exemple de défaillances matérielles ou logicielles, mobilité des utilisateurs, politiques de gestion des ressources réseau de l’opérateur, etc.
- Changement dans le taux d’utilisation/consommation des ressources réseau (bande passante, mémoire, CPU, batterie, etc.) : en raison des besoins des utilisateurs et des politiques de gestion des ressources réseau de l’opérateur, etc.

Pour assurer une supervision, ou plus généralement, une gestion efficace, qu'elle soit fine ou synthétique, des réseaux de communication, divers services/plateformes de gestion de réseau, tels que SNMP, CMIP, LWM2M, CoMI, SDN, ont été proposés et documentés dans la littérature sur les réseaux et organismes de normalisation. Par ailleurs, de telles plates-formes de gestion ont été largement adoptées notamment par les opérateurs réseau et par l’industrie de manière générale. D’ailleurs, cette adoption intègre souvent des fonctionnalités avancées, notamment des boucles de contrôle automatisées (par exemple, des systèmes experts ou des systèmes basés sur l’apprentissage automatique), améliorant ainsi la capacité des plateformes à optimiser les performances des opérations de gestion du réseau.

Cependant, malgré l’exploration et l’exploitation intensives des plateformes de gestion réseau, ces plateformes ne garantissent pas toujours une (re)configuration sans risque/erreur intrinsèque, dans des cas d’usage assez communs et critiques comme l’optimisation temps-réel du réseau, l’analyse de tests en mode opérationnel (what-if analysis), la planification des mises à jour/modernisations/extensions du réseau de communication, etc. Pour de tels scénarios, un nouveau paradigme de gestion réseau s’avère nécessaire.

Pour traiter les problématiques présentées dans la section précédente, la communauté scientifique a commencé à explorer l’adoption du concept de « jumeau numérique » pour les réseaux de communication, ce qui a donné naissance au paradigme du jumeau numérique réseau (Network Digital Twin : NDT). Le NDT est un jumeau numérique du réseau réel/physique (Physical Twin Network : PTN) ou l’on peut manipuler, sans risque, une copie numérique du vrai réseau, ce qui permet notamment de visualiser/prédire l’évolution (ou le comportement, l’état) du réseau réel si telle ou telle configuration réseau devait être appliquée. Au-delà de cet aspect, le NDT et le PTN échangent des informations via une ou plusieurs interfaces de communication dans le but de maintenir une bonne synchronisation entre eux.

Cependant, mettre en place un jumeau numérique réseau (NDT) n’est pas une tache simple. En effet, la synchronisation PTN-NDT fréquente et en temps réel pose un problème de passage à l’échelle (scalability) lorsqu’il est question de réseaux complexes (ex. nombre d’entités réseau trop important, topologies très dynamiques, volume important d’informations par nœud/par lien réseau), où chaque information réseau est susceptible d’être rapportée au niveau du NDT (par exemple un très grand nombre d'entités réseau, des topologies très dynamiques, ou un grand volume d'informations par nœud/par lien réseau).

Divers travaux scientifiques ont tenté de traiter la question du jumeau numérique réseau (NDT). Dans ces travaux il est question de définir des scenarios, exigences et architecture du NDT. Cependant, la question du passage à l’échelle dans le NDT n’a pas été traitée dans la littérature.

L'objectif de cette thèse de doctorat est de traiter le problème de passage à l’échelle (« scalabilité ») des jumeaux numériques réseau en explorant de nouveaux modèles d'apprentissage automatique pour la sélection et la prédiction des informations réseau.

Ecriture automatique de noyau de calculs pour calculateurs quantiques

Le cadre de la simulation hamiltonnienne ouvre une nouvelle panoplie d'approches de calcul pour l'informatique quantique. Celle-ci peut être développées dans tous les champs pertinents de l'application de l'informatique quantique, incluant, entre-autres les équations aux dérivées partielles (electro-magnétisme, mécanique des fluides, ...) mais aussi le machine learning quantique, la finance, et de nombreuses approches de résolutions de problèmes d'optimisation (heuristiques ou exactes).
Le but de la thèse est de trouver un cadre où ces approches basées sur les approches de simulation hamiltonienne ou d'encodage par bloc sont faisable et dont leur écriture peut être automatisée.
Cela peut aller jusqu'au prototypage d'un générateur de code que l'on cherchera à tester sur des cas pratiques issus de collaboration avec des partenaire européens (stage de quelques mois dans les équipes).

Apprentissage des modèles du monde pour les agents autonomes avancés

Les modèles du monde sont des représentations internes de l'environnement externe qu'un agent peut utiliser pour interagir avec le monde réel. Ils sont essentiels pour comprendre les lois physiques qui régissent les dynamiques du monde réel, faire des prédictions et planifier des actions à long terme. Les modèles du monde peuvent être utilisés pour simuler des interactions réelles et améliorer l'interprétabilité et l'explicabilité du comportement d'un agent dans cet environnement, ce qui en fait des composants clés pour les modèles avancés d'agents autonomes.

Néanmoins, la construction d'un modèle du monde précis reste un défi. L'objectif de cette thèse de doctorat est de développer une méthodologie pour apprendre les modèles du monde et étudier leur utilisation dans le contexte de la conduite autonome, en particulier pour la prévision des mouvements et le développement d'agents autonomes pour la navigation.

Top