Qui sommes-nous ?
Espace utilisateur
Formation continue
Credit : L. Godart/CEA
D’un jour à plusieurs semaines, nos formations permettent une montée en compétence dans votre emploi ou accompagnent vers le retour à l’emploi. 
Conseil et accompagnement
Crédit : vgajic
Fort de plus de 60 ans d’expériences, l’INSTN accompagne les entreprises et organismes à différents stades de leurs projets de développement du capital humain.
Thèses
Accueil   /   Thèses   /   Stratégies performantes d'exploitation de données massives issues de simulations numériques

Stratégies performantes d'exploitation de données massives issues de simulations numériques

Défis technologiques Informatique et logiciels Sciences pour l’ingénieur Simulation numérique

Résumé du sujet

Le Département Simulation et Garantie des Armes du CEA/CESTA élabore des modèles physico-numériques multi-physiques, multi-échelles et développe des codes de calcul dans les domaines de l'aérodynamique hypersonique, de l'électromagnétisme et de la dynamique rapide. Ces développements bénéficient des approches les plus modernes du génie logiciel et sont conduits dans le contexte du calcul haute performance afin de tirer le meilleur parti des supercalculateurs de la DAM.
La quantité et le rythme de production grandissants des données issues de simulations nous obligent à repenser la façon dont leur analyse est conduite. Le simple traitement des données écrites sur disque n'est plus possible, tant par la taille de ces dernières que par la capacité de les charger en mémoire avec les outils traditionnels.
Dnas ce contexte, comment analyser les volumes de données massifs générés ? Quelles peuvent être les statégies à mettre en place avant, pendant et après la simulation ?
Des nouveaux usages apparaissent dans le paysage du HPC pouvant y répondre [1], avec l'introduction progressive des techniques d'intelligence artificielle comme bases d'apprentissage, ou encore l'analyse in transit pour visualiser des données en même temps qu'elles sont produites. L'enrichissement des simulations par les données permettra d'obtenir des gains en temps et en précision.

On se propose donc dans cette thèse d'employer une nouvelle approche, orienté HPDA (High Performance Data Analytics), dans laquelle des structures de données du type RDD (Resilient Distributed Dataset) [3] pourront jouer un rôle central pour le traitement non seulement post mortem mais surtout in transit des données produites par la simulation. L'association de ces structures avec des pipelines de données [2] sera à évaluer pour disposer d'un ensemble HPC/HPDA cohérent.
Un des domaines ciblés est la rentrée atmosphérique et plus particulièrement le couplage et l'interopérabilité avec les codes 3D d'aérodynamique utilisés au département. Parmi les applications potentielles font partie l'analyse d'ensembles de calcul sur des simulations de trajectoires de rentrée ainsi que l'exploration des données produites (plusieurs centaines de Go à plusieurs To). Pour répondre à ces enjeux, les étapes de travail seront les suivantes:
1. la première phase du travail consistera à établir l'état de l'art en termes d'outils et de méthodes pour le HPDA,
2. une seconde étape consistera à mettre en œuvre une solution interopérable basée sur ces outils et potentiellement d'autres,
3. finalement, des analyses de données existantes seront portées vers cette solution pour permette de comparer les différentes approches offertes en terme d'expressivité, de performance, etc. sur des cas réalistes.

Laboratoire

DSGA
DSGA
Top envelopegraduation-hatlicensebookuserusersmap-markercalendar-fullbubblecrossmenuarrow-down