Anis Yassine BEN MABROUK
Suivi multi-objets dans des scénarios complexes : benchmark, analyse approfondie et représentations dépendantes des paires pour la similarité visuelle
Résumé
Le suivi multi-objets (MOT) vise à attribuer des identifiants cohérents aux objets dans une séquence vidéo, même en présence d’occlusions, de variations d’échelle et de mouvements changeants. Les systèmes MOT modernes suivent souvent un paradigme détecter-puis-suivre, où les objets sont d’abord détectés dans chaque image puis associés au fil du temps en utilisant des indices de mouvement et d’apparence. Les indices de mouvement reposent typiquement sur des modèles cinématiques tels que les filtres de Kalman, tandis que les indices d’apparence comparent les objets à l’aide de descripteurs appris.
Dans des conditions standard avec des caméras à haute fréquence d’images, des modèles simples de mouvement et d’apparence sont efficaces. Cependant, dans des scénarios à faible fréquence d’images ou à mouvements rapides, les déplacements importants entre images rendent l’association peu fiable, nécessitant des méthodes plus robustes. Cette thèse met en évidence les limites de l’association basée sur le mouvement et sur l’apparence dans le cadre de faible fréquence d’images. En se concentrant sur les indices visuels, nous exposons d’abord les limitations du protocole d’évaluation de ré-identification (Re-ID) et proposons une alternative permettant de mieux évaluer la généralisation à des types de véhicules non vus. Nous présentons ensuite DRnet et PCB, deux approches de représentation dépendantes de la paire pour la reconnaissance et la ré-identification, respectivement, qui généralisent plus efficacement aux véhicules non vus.
Enfin, nous revisitons le suivi multi-objets, en benchmarkant de manière exhaustive les méthodes à l’état de l’art sur des ensembles de données variés présentant des défis tels que des mouvements complexes, des occlusions importantes et des variations d’échelle des cibles. Nous nous concentrons ensuite sur le meilleur performeur global, DiffMOT, une approche basée sur la diffusion pour prédire des mouvements non linéaires, afin de mieux comprendre ses limites et d’identifier des pistes d’amélioration.
En résumé, cette thèse offre une étude approfondie du suivi multi-objets et de la ré-identification, propose un protocole d’évaluation Re-ID alternatif axé sur la généralisation, introduit des représentations dépendantes de la paire améliorant la reconnaissance et la ré-identification, et suggère des moyens d’améliorer la modélisation du mouvement.
Mots clés
Suivi Multi-Objets, Reconnaissance, Re-identification, Mecanisme d'attention
Direction
- Axel Davy
- Gabriele Facciolo
- Rafael Grompone
Membres du jury
- Saïd Ladjal, rapporteur
- Matias Di Martino, rapporteur
- Angélique Loesch, examinatrice
- Laurent Oudre, examinateur