Approches few-shot et zero-shot pour l’extraction d’information à partir de textes

Dans le domaine de l’extraction d’information, dont l’objectif est d’identifier des concepts ou des faits dans des textes et de structurer les informations retenues, un enjeu important est de concevoir des modèles performants en utilisant seulement peu de données annotées (few-shot), voire sans données annotées (zero-shot). Le sujet de thèse proposé se situe dans ce cadre et portera en particulier sur l’exploitation des capacités des grands modèles de langues pré-entraînés (LLMs) pour cette tâche. Plus précisément, les pistes explorées pourront couvrir des approches de distillation de grands modèles tels que ChatGPT pour produire des données de préentraînement pour l’extraction d’information, une étude sur les synergies possible entre le préentraînement de modèles à grande échelle et des méthodes few-shot de méta-apprentissage épisodique ou la proposition de nouvelles méthodes pour la constitution de données de préentraînement, en utilisant par exemple une supervision distante par des bases de connaissances structurées.

Vers une gestion de processus métiers de confiance avec la blockchain

La blockchain et les registres distribués sont des technologies prometteuses pour la gestion des processus métiers inter-organisationnels, en particulier parmi des participants qui ne se font pas confiance. Fonctionnant de manière décentralisée et distribuée, elles éliminent le besoin d'une autorité centrale, permettant des interactions sécurisées et efficaces.

Le déploiement d'architectures basées sur la blockchain repose sur des composants spécifiques tels que les smart contracts, ainsi que des services externes comme les services de stockage de données basés sur le cloud ou l'appel à des services web grâce à des oracles. Cet écosystème requiert une expertise approfondie pour définir et mettre en œuvre les besoins en termes de confiance et de traçabilité.

L'objectif de cette thèse est de développer un outil d'aide à la conception d'applications de gestion de processus métiers de confiance. Une approche no-code/low-code permettra de spécifier et de générer l'architecture basée sur la blockchain correspondante. L'utilisation des modèles de langage de grande taille (LLMs) en soutien au model-based engineering sera envisagée. Les architectures générées viseront à exploiter la blockchain de manière frugale, minimisant ainsi la consommation énergétique globale. De plus, la fiabilité des smart contracts sera assurée grâce à des approches de vérification formelle.

Apprentissage fédéré sur des données verticalement partitionnées provenant de participants hétérogènes

L'apprentissage fédéré permet à plusieurs participants d'entraîner en collaboration un modèle global, sans partager leurs données, mais seuls les paramètres du modèle sont échangés entre les participants et le serveur. Dans l'apprentissage fédéré vertical (VFL), les données des participants partagent des échantillons similaires, mais ont des attributs différents. Par exemple, des entreprises de différents domaines possédant des données avec des attributs différents collaborent pour résoudre une tâche d'apprentissage automatique. Bien que les données soient privées, VFL reste vulnérable aux attaques telles que les attaques de type Feature/Label Inference Attack. Différentes méthodes de protection (par exemple, la confidentialité différentielle, le chiffrement homomorphe) ont été étudiées pour protéger la confidentialité du VFL. Le choix des méthodes appropriées est un défi car il dépend de l'architecture de VLF et du niveau de confidentialité souhaité (par exemple, modèles locaux, résultats intermédiaires, modèles appris). La variabilité du système de chaque participant peut également entraîner une latence élevée et des mises à jour asynchrones, ce qui affecte la performance du modèle et l'efficacité de l’entraînement.

L'objectif de cette thèse est de proposer des méthodes pour effectuer VFL de manière confidentielle, en tenant compte de l'hétérogénéité des participants. Premièrement, le candidat étudiera les architectures des modèles VFL et les mesures de confidentialité afin de proposer des protocoles d’entraînement sécurisés et confidentiels pour VFL. Deuxièmement, le candidat étudiera les impacts de l'hétérogénéité du système des participants, tels que les ressources de calcul et de communication, afin de concevoir des solutions pour rendre les protocoles proposés robustes à ce type d’hétérogénéité. Troisièmement, les compromis entre la performance, la confidentialité et l’efficacité du VFL seront étudiés afin de proposer un cadre pratique permettant de piloter les protocoles en fonction des caractéristiques d'un problème d'apprentissage automatique donné.

Modélisation et simulation du comportement humain pour des jumeaux numériques centrés sur l'humain

Grâce à une représentation virtuelle synchronisée, les jumeaux numériques sont un moyen pour produire des analyses, prédictions et optimisations de systèmes du monde réel. Or certains de ces systèmes interagissent étroitement avec les humains de sorte que le rôle de ces derniers est déterminant dans le fonctionnement du système. C’est par exemple le cas dans des contextes comme l’industrie 5.0 ou la gestion du pilotage de systèmes critiques, où la qualité de la collaboration entre les humains et les machines dépendra de l’anticipation de leurs actions, interactions et décisions respectives. Ainsi, pour améliorer la précision des prédictions et étendre l’applicabilité dans divers domaines, il est nécessaire, en s’appuyant sur les connaissances issues des sciences humaines et sociales, de développer des jumeaux numériques qui prennent en compte la complexité et la richesse des comportements humains (processus décisionnels, interactions, émotions…). Ces modèles comportementaux pourront notamment s’appuyer sur l’apprentissage automatique, l’exploration de données, la modélisation basée sur des agents et l’ingénierie des connaissances. Après avoir identifié les modèles de comportements humains utiles, il s’agira d’étudier leur articulation conceptuelle et leur intégration technique avec les modèles des entités cyber-physiques dans le système de jumeau numérique. De plus, nous explorerons comment les services de jumeaux numériques sont impactés et peuvent être révisés pour prendre en compte ces aspects centrés sur l’humain. Enfin, nous évaluerons l’efficacité des jumeaux numériques centrés sur l’humain dans diverses applications en mettant en œuvre des expériences sur des cas réels représentatifs.
Ce travail de recherche ambitionne les contributions suivantes :
• Le développement d'une approche basée sur des modèles de comportement humain pour obtenir des jumeaux numériques centrés sur l'humain.
• Des connaissances nouvelles sur l'impact du comportement humain sur le contrôle d'un système et inversement.
• Des applications pratiques et des recommandations sur l’usage de jumeaux numériques centrés sur l'humain dans des scénarios du monde réel.
Cette thèse se déroulera à Grenoble.

Application du calcul quantique à l’heure du NISQ au Machine Learning

L'informatique quantique est censée offrir à l'avenir un avantage dans divers algorithmes, y compris certains qui sont considérés comme difficiles pour les ordinateurs traditionnels (par exemple, la factorisation des nombres premiers). Cependant, à une époque où les ordinateurs quantiques bruités (NISQ QC) sont la norme, l'utilisation concrète des ordinateurs NISQ semble prometteuse sur des approches d'optimisation et de l'efficacité énergétique plutôt que sur les performances algorithmiques pures.

Dans ce contexte, cette thèse de doctorat vise à aborder l'utilisation des NISQ pour améliorer le processus d'apprentissage des réseaux neuronaux (NN). En effet, la phase d'apprentissage des NN est probablement le moment le plus gourmand en énergie dans les approches traditionnelles. L'utilisation de techniques d'optimisation quantique ou de résolution de systèmes linéaires quantiques pourrait potentiellement offrir un avantage énergétique, en plus du fait que la phase d'apprentissage pourrait être réalisée avec un ensemble moins étendu d'exemples d'entraînement.

Résolutions de problèmes inverses par deep learning appliqués à l'interférométrie

Dans la continuité des travaux de thèse de Benoît Rougier et de Jérémi Mapas appliqués à l'interférométrie radiofréquence sur la compréhension de la propagation d’une onde électromagnétique à travers une onde de choc pour l'étude à coeur des propriétés de matériaux innovants, cette thèse vise à exploiter les signaux bruts du radio-interféromètre pour déterminer simultanément la vitesse d’un choc et la vitesse matérielle dans des solides inertes ou énergétiques soumis à un choc soutenu ou non-soutenu. Un modèle de propagation des ondes millimétriques dans un milieu dissipatif présentant deux couches diélectriques séparées par des interfaces en mouvement a été élaboré pour adresser le cas du choc soutenu. Une résolution du problème inverse du modèle à deux couches avec pertes a été proposée avec l'apport du deep learning et des réseaux convolutifs. Un modèle multicouche sans pertes diélectriques a été également initié pour le cas du choc non soutenu.

Calcul analogique en mémoire pour des mécanismes attentionnels dans le contexte de l'IA

L'objectif de cette thèse est d'étudier la mise en œuvre de mécanismes attentionnels pour l'intelligence artificielle directement implémentés dans une mémoire non volatile (NVM) basée sur des technologies émergentes.

Les mécanismes attentionnels représentent une avancée importante dans les algorithmes d'Intelligence Artificielle (IA) et sont à l’origine d’un gain en performance significatif des réseaux neuronaux artificiels dits « Transformers ». Bien qu'initialement proposés pour le traitement du langage naturel, ces mécanismes sont aujourd'hui largement utilisés dans de nombreuses applications embarquées tels que la prédiction de la demande dans un réseau d’énergie/de chaleur, la maintenance prédictive, la surveillance d’infrastructures de transport ou de sites industriels, etc.
Cependant, la complexité des algorithmes basés sur l'attention nécessite un accès intensif aux données et une puissance de calcul importante, entraînant une consommation énergétique élevée, ce qui peut être rédhibitoire pour lorsque l’on cible des systèmes matériels intégrés.

La technologie des memristors non volatils permet de réaliser des fonctions de calcul entièrement analogique avec un budget d'énergie très faible tout en réalisant la fonction de stockage non volatil des paramètres des modèles d'IA. Des algorithmes massifs d'algèbre linéaire peuvent être exécutés rapidement à un coût énergétique fortement réduit. Cependant, la technologie présente des limitations sur plusieurs aspects tels que le nombre de bits pour encoder les paramètres du modèle, les dimensions maximales des matrices qui peuvent être traitées en parallèle, etc.

Cette thèse vise à résoudre ces défis dans le contexte de l’analyse et de la prédiction de séries temporelles dans des systèmes embarqués.
La tâche principale consiste à explorer le portage des mécanismes basés sur l'attention sur une technologie de memristor (utilisant le spin) développée par le laboratoire SPINTEC.
Cela implique de quantifier et de partitionner les modèles d'IA pour les aligner sur l'architecture matérielle sans compromettre les performances de la prédiction, et d'explorer la mise en œuvre de blocs de calcul IA spécifique dans la structure analogique des memristors.

Cette thèse s'inscrit dans le cadre d'une collaboration entre le CEA List, Laboratoire d’Intelligence Intégrée Multi-Capteur, Grenoble INP et le Laboratoire SPINTEC. L'étudiant bénéficiera ainsi d'une équipe interdisciplinaire et dynamique au cœur de l'écosystème IA en France, qui entretient des liens étroits avec les acteurs industriels les plus influents dans le domaine.

Approche par clip pour améliorer l'efficacité énergétique des combinaisons d'intégration de matériel

Dans un contexte global d’automatisation de tâches, les réseaux de neurones artificiels sont actuellement utilisés dans de nombreux domaines nécessitant le traitement de données issu de capteurs : visions, sonores, vibrations.
Suivant différentes contraintes, le traitement de l’information peut être réalisé sur le Cloud (SIRI, AWS, TPU) ou de manière embarquée (plateforme Jetson de NVidia, Movidius, PNeuro/DNeuro du CEA-LIST). Dans ce second cas, de nombreuses contraintes matérielles doivent être prises en compte lors du dimensionnement de l’algorithme. Pour améliorer le portage sur plateforme matérielle, le LIST a développé des méthodes innovantes de l’état de l’art mondial permettant d’améliorer l’efficacité énergétique de ces plateformes.
L’efficacité énergétique des architectures Neuromorphique à technologie équivalente est contrainte par paradigme classique de la flexibilité vs l’efficacité. Autrement dit plus une architecture est capable d’effectuer des tâches (des réseaux) différentes, moins elles sont énergétiquement efficaces. Si cette relation ne peut être contournée pour une grande variété d’algorithmes, les réseaux de neurones sont des fonctions paramétriques, apprises pour une et donc potentiellement adaptables à d’autres tâches par une modification partielle de la topologie et/ou des paramètres.
Une technique,CLIP semble apporter une réponse, avec une forte capacité d'adaptation à des tâches variées et une possibilité d’utilisation de la multimodalité. Dans sa forme originelle cette méthode est présentée comme une méthode de mise en relation un texte et une image pour créer une tâche de classification.
L’objectif de la thèse est d’étudier le portage matériel de CLIP en proposant une architecture dédiée. La thèse s’organise en 3 temps forts, avec dans un premier temps une étude sur les mécanismes de CLIP, les opérations à effectuer, les conséquences sur les réseaux d’embedding. Dans le deuxième temps, les optimisations matérielles applicables à CLIP, telles que la quantification (ou autres) et une estimation de la flexibilité vs la généralité applicative. Pour finir une proposition architecturale et réalisation permettant une mesure de l’efficacité énergétique.

TECHNIQUES AVANCÉES D'INTELLIGENCE ARTIFICIELLE POUR LA RECONSTRUCTION DE PARTICULES DANS LE DÉTECTEUR CMS UTILISANT LE TIMING HAUTE PRÉCISION

Particle reconstruction in collider detectors is a multidimensional problem where machine learning algorithms offer the potential for significant improvements over traditional techniques. In the Compact Muon Solenoid (CMS) detector at the Large Hadron Collider (LHC), photons and electrons produced by the collisions at the interaction point are recorded by the CMS Electromagnetic Calorimeter (ECAL). The large number of collisions, coupled with the detector's complex geometry, make the reconstruction of clusters in the calorimeter a formidable challenge. Traditional algorithms struggle to distinguish between overlapping clusters created by proximate particles. In contrast, It has been shown that graph neural networks offer significant advantages, providing better differentiation between overlapping clusters without being negatively affected by the sparse topology of the events. However, it is crucial to understand which extracted features contribute to this superior performance and what kind of physics information they contain. This understanding is particularly important for testing the robustness of the algorithms under different operating conditions and for preventing any biases the network may introduce due to the difference between data and simulated samples (used to train the network).
In this project, we propose to use Gradient-weighted Class Activation Mapping (Grad-CAM) and its attention mechanism aware derivatives to interpret the algorithm's decisions. By evaluating the extracted features, we aim to derive analytical relationships that can be used to modify existing lightweight traditional algorithms.
Furthermore, with the upcoming High Luminosity upgrade of the LHC, events involving overlapping clusters are expected to become even more frequent, thereby increasing the need for advanced deep learning techniques. Additionally, precision timing information of the order of 30 ps will be made available to aid in particle reconstruction. In this PhD project, we also aim to explore deep learning techniques that utilize Graph and Attention mechanisms (Graph Attention Networks) to resolve spatially proximate clusters using timing information. We will integrate position and energy deposition data from the ECAL with precision timing measurements from both the ECAL and the new MIP Timing Detector (MTD). Ultimately, the developed techniques will be tested in the analysis of a Higgs boson decaying into two beyond-the-standard-model scalar particles.

We are seeking an enthusiastic PhD candidate who holds an MSc degree in particle physics and is eager to explore cutting-edge artificial intelligence techniques. The selected candidate will also work on the upgrade of the CMS detector for the high-luminosity LHC.

Intelligence artificielle pour la mesure de masse de précision d’isotopes exotiques

L'objectif de cette thèse de doctorat est d'améliorer la précision des mesures de masse des isotopes exotiques produits par le Super Spectrometer Separator (S3) à GANIL-SPIRAL2, en utilisant des techniques d'acquisition de pointe qui intégrent l'intelligence artificielle. Les capacités du spectromètre de masse à temps de vol PILGRIM pourront être pleinement exploitées par un développement collaboratif du système d'acquisition FASTER au LPC Caen.

Top