Zhe ZHENG
Towards stable and reliable neural networks for multi-image restoration problems
Résumé de la thèse
La restauration d'images et de vidéos à partir d'observations dégradées est un défi fondamental en vision par ordinateur. L'apprentissage profond a fait progresser ce domaine mais le déploiement de ces modèles dans des cas pratiques et critiques pour la sécurité révèle des limites fondamentales concernant l'efficacité, la stabilité et la fiabilité. Cette thèse étudie ces défis dans deux domaines de la restauration multi-images : le débruitage vidéo supervisé et la super-résolution auto-supervisée d'une série d'images satellitaires.
Premièrement, nous abordons l'efficacité et la cohérence temporelle des modèles de traitement vidéo dans le contexte de faible latence. Bien que les récentes architectures <<Feedforward>> multi-entrées multi-sorties soient efficaces, elles souffrent d'une dégradation de la qualité aux bords des fenêtres de sortie d'images, ainsi que d'artéfacts de mouvement par paliers aux transitions de ces fenêtres. Pour résoudre ce problème, nous introduisons deux stratégies : la récurrence à travers les fenêtres et leur chevauchement. Elles éliminent efficacement les discontinuités temporelles et améliorent la qualité des résultats en élargissant le champ récepteur temporel.
Deuxièmement, nous étudions les capacités d'agrégation temporelle des réseaux récurrents. Par une analyse empirique sur des séquences statiques, nous identifions que, malgré un champ récepteur temporel en théorie infini, les réseaux récurrents entraînés via la rétropropagation à travers le temps sur de courtes séquences n'atteignent pas les performances optimales obtenues en débruitant la moyenne glissante, en raison d'un écart entre la distribution des données d'entraînement et d'inférence. Inspirés par les estimateurs récursifs optimaux, nous étudions l'incorporation et la propagation de l'estimation explicites d'incertitude avec la récurrence, afin d'aider le réseau à pondérer dynamiquement les informations passées et nouvelles. Parallèlement, nous proposons une stratégie d'entraînement d'augmentation du niveau de bruit, qui force le réseau à agréger l'information de manière agressive et augmente les performances. Cependant, elle conduit à un compromis entre performance et stabilité. Plus précisément, cette agrégation temporelle provoque une sévère instabilité et une accumulation récursive d'erreurs, faisant diverger le réseau sur une longue séquence. Pour surmonter cette divergence, nous proposons une régularisation basée sur le Jacobien et dépendante de l'entrée, stabilisant le réseau récurrent tout en préservant son expressivité renforcée.
Enfin, nous abordons le défi de la fiabilité dans les domaines critiques comme ceux liés à la sécurité et pour lesquels fournir une seule estimation déterministe est insuffisant, en raison de la nature mal posée du problème. Refléter la fiabilité des résultats nécessite de quantifier l'incertitude inhérente. Les méthodes standard d'estimation de l'incertitude nécessitent des données de vérité-terrain, ce qui est souvent impossible à acquérir dans des applications pratiques comme en imagerie satellitaire réelle. Pour surmonter ce problème, nous proposons une nouvelle fonction de perte qui étend la log-vraisemblance négative gaussienne aux environnements auto-supervisés. Cette approche permet quantifier l'incertitude aléatoire en utilisant uniquement des observations dégradées, correspondant aux estimateurs optimaux obtenus en apprentissage supervisé et permettant une reconstruction fiable tenant compte de l'incertitude.
Direction de thèse
- Pablo ARIAS, Assistant Professor, Universitat Pompeu Fabra
- Gabriele FACCIOLO, Professor, Centre Borelli, ENS Paris-Saclay
Composition du jury :
- Mme Coloma BALLESTER, Full professor, Universitat Pompeu Fabra (Rapporteure)
- M. Matias VALDENEGRO-TORO, Assistant professor, University of Groningen (Rapporteur)
- M. Andrés ALMANSA, Directeur de recherche, MAP5, Université Paris Cité (Examinateur)
- M. Thomas TANAY, Ingénieur de recherche, Huawei Technologies Co., Ltd., Noah’s Ark Lab (Examinateur)