From

Horaires à

Lieu ENS Paris-Saclay

Thèses et HDR

Franco MARCHESONI ACLAND : soutenance de thèse

Titre : Annotation d'image
Direction : G. Faccciolo et J.-M. Morel
Soutenance le 11/09/25 en 1B26

Ajouter au calendrier

Franco MARCHESONI ACLAND

Annotation d'image

Résumé 

Les données pour l'entraînement d'une IA peuvent être co-occurrences, simulées ou annotées. Les données co-occurrences (par exemple images passées et futures, paires audio-vidéo, paires texte-image, historiques utilisateurs) fournissent une supervision significative et abondante, adaptée aux modèles génératifs et aux systèmes de recommandation. Les données simulées offrent une abondance infinie, mais leur utilité dépend de la qualité de la simulation. Souvent, ni l'un ni l'autre type n'est disponible, ce qui nécessite des annotations, en particulier des annotations expertes coûteuses et cruciales pour les solutions industrielles. Cette thèse se concentre sur l'efficacité de l'annotation d'images et propose l'apprentissage avec humain dans la boucle (HITL) : l'IA assiste les annotateurs, dont les corrections améliorent itérativement l'IA. L'apprentissage actif (AL) complète HITL en sélectionnant stratégiquement les données à annoter. La thèse étudie HITL de manière théorique et pratique, développant des outils intégrant ces résultats.

La thèse comporte quatre parties :

  • Partie 1 : Segmentation Interactive d'Images (IIS) 
    L'IIS accélère l'annotation des masques avec une interaction utilisateur minimale. Les méthodes clés incluent RITM, SAM et SegNext. Malgré l'évolution rapide de la littérature, cette thèse traite de la robustesse à l'évaluation et au changement de domaine. Pour améliorer la généralisation au changement de domaine, la thèse introduit SegWise, une amélioration de WeSAM, combinant une interaction réaliste (de RITM) et l'architecture robuste de SegNext.
  • Partie 2 : Apprentissage avec Humain dans la Boucle
    • Montre théoriquement comment l'IA peut réduire la charge de travail des annotateurs, même dans des tâches simples d'annotation binaire, en posant des questions optimales au niveau de groupes. 
    • Applique expérimentalement HITL à la détection d'objets, montrant une accélération significative de l'annotation en entraînant l'IA de manière interactive.
    • Développe une application web pratique pour la segmentation sémantique, utilisant un modèle fondamental préentraîné plutôt qu'un entraînement bout-en-bout, démontrant ainsi davantage l'efficacité du HITL.
  • Partie 3 : Applications
    • Segmentation d'images SAR : méthode interactive développée pour la segmentation des stocks de charbon, améliorant l'estimation 3D.
    • Segmentation des panneaux solaires : annotation itérative utilisant une modélisation spectrale gaussienne pour faciliter la segmentation automatique dans le suivi de la construction de fermes solaires.
    • Outil d'annotation générique : intègre l'AL et des fonctionnalités issues de modèles fondamentaux, permettant une formation rapide de détecteurs d'objets personnalisés (appliqué au comptage cellulaire médical avec d'excellents résultats).
    • Détection de murs en géologie : méthode de post-traitement (programmation dynamique et mises à jour bayésiennes) améliorant interactivement les résultats de segmentation d'un réseau neuronal.
  • Partie 4 : Revues
    • Revue sur la segmentation d'images : unifie les méthodes de segmentation, propose des évaluations robustes, améliore considérablement SegNext pour la segmentation automatique, et introduit des sorties structurées via des superpixels.
    • Revue sur la régression probabiliste : met en avant des fonctions de perte plus simples (pinball, entropie croisée) pour entraîner des régresseurs probabilistes atteignant des performances compétitives et fournissant des estimations d'incertitude précieuses pour l'AL. En conclusion, la thèse explore en profondeur l'efficacité de l'annotation d'images à travers l'IIS, la théorie et la pratique du HITL, des applications industrielles ciblées, et des revues méthodologiques pertinentes.

Mots-clés

Apprentissage continu, Apprentissage en quelques coups, Apprentissage statistique

Direction

Jury

  • Laurent NAJMAN Université Gustave Eiffel, Laboratoire Informatique Gaspard-Monge, Equipe A3SI, ESIEE Paris Rapporteur
  • M. Qiang QIU Purdue University Rapporteur
  • M. Pablo ARBELAEZ Center for Research and Formation in Artificial Intelligence, Universidad de los Andes Examinateur
  • Mme Agnes DESOLNEUX ENS Paris-Saclay Examinatrice

Publications récentes