



La compréhension des scènes est un défi majeur dans le domaine de la vision par ordinateur. Les approches récentes sont dominées par les transformers (ViT, LLM, MLLM), qui offrent des performances élevées mais à un coût computationnel important. Cette thèse propose une alternative innovante combinant des réseaux neuronaux convolutifs légers (Lightweight CNN) et des réseaux neuronaux graph causaux (Causal GNN) pour une analyse spatio-temporelle efficace tout en optimisant les ressources computationnelles. Les Lightweight CNN permettent une extraction haute performance des caractéristiques visuelles, tandis que les Causal GNN modélisent les relations dynamiques entre les objets dans un graphe de scène, répondant ainsi aux défis de la détection d'objets et de la prédiction des relations dans des environnements complexes. Contrairement aux modèles actuels basés sur les transformers, cette approche vise à réduire la complexité de calcul tout en conservant une précision compétitive, avec des applications potentielles dans la vision embarquée et les systèmes en temps réel.

