Transformer de vision multimodale efficace pour système embarqué

Data intelligence dont Intelligence Artificielle Défis technologiques Informatique et logiciels Sciences pour l’ingénieur 

Résumé du sujet

La thèse proposée se concentre sur l'optimisation des transformers multimodaux de vision (ViT) pour la segmentation panoptique d'objets, en explorant deux axes principaux. Il s'agit d'abord de développer un pipeline de fusion polyvalent pour intégrer des données multimodales (RGB, IR, profondeur, événements, nuages de points), en exploitant les relations d'alignement inter-modales. Ensuite, une approche combinant le pruning et la quantification à précision mixte sera étudiée. L'objectif global est de concevoir des modèles ViT multimodaux légers, adaptés aux contraintes des systèmes embarqués, tout en optimisant leurs performances et en réduisant la complexité computationnelle.

Laboratoire

Département Systèmes et Circuits Intégrés Numériques (LIST)

DSCIN

Laboratoire Intelligence Artificielle Embarquée

Retour

Imprimer

Partager ce sujet de thèse

Informations pratiques

Formation recommandée :

Master en informatique/vision par ordinateur/intelligence artificielle

Université / École doctorale :

Sciences et Technologies de l’Information et de la Communication (STIC)

Evry Val d’Essonne

Date souhaitée de début de thèse :

01-10-2025

Lieu d'exercice :

Saclay

Chercheur à contacter

Martyna

POREBA

CEA

DRT/DSCIN/DSCIN/LIAE

Tel : +33 (0)1.69.08.00.42

Email : martyna.poreba@cea.fr

Contacter

Directeur de thèse

Samia

BOUCHAFA-BRUNEAU

Univ Evry/Université Paris-Saclay

Laboratoire IBISC - Univ Evry/Université Paris-Saclay