Dans de nombreuses applications, des briques d'analyse de scène comme la segmentation sémantique, la détection et la reconnaissance d'objets, ou la reconnaissance de pose, sont nécessaires. Les réseaux de neurones profonds sont aujourd'hui parmi les modèles les plus efficaces pour effectuer un grand nombre de tâches de vision, parfois de façon simultanée lorsque l'apprentissage profond est multitâches. Cependant, il a été montré que ceux-ci étaient vulnérables face aux attaques adversaires (adversarial attacks): En effet, il est possible d'ajouter aux données d'entrée certaines perturbations imperceptibles par l'oeil humain qui mettent à mal les résultats lors de l'inférence faite par le réseau de neurones. Or, une garantie de résultats fiables est capitale pour les systèmes de décision où les failles de sécurité sont critiques (ex : applications comme le véhicule autonome, la reconnaissance d’objets en surveillance aérienne, ou la recherche de personnes/véhicules en vidéosurveillance). Différents types d'attaques adversaires et de défense ont été proposés, le plus souvent pour le problème de classification (d'images notamment). Quelques travaux ont abordé l'attaque des plongements qui sont optimisés par apprentissage de métrique pour les tâches de type ensemble-ouvert comme la réidentification d'objets, la reconnaissance faciale ou la recherche d'images par le contenu. Les types d'attaques se sont multipliés, qu'il s'agisse d'attaques universelles ou optimisées sur une instance particulière. Les défenses proposées doivent faire face à de nouvelles menaces sans trop sacrifier les performances initiales du modèle. La protection des données d'entrée face aux attaques adversaires est capitale pour les systèmes de décision où les failles de sécurité sont critiques. Un moyen de protéger ces données est de développer des défenses contre ces attaques. L'objectif sera donc d'étudier et de proposer différentes attaques et défenses applicables aux briques d'analyse de scène, notamment celles de détection d'objets et de recherche d'instance d'objet dans les images.