From

Horaires à

Lieu Espace Gilbert Simondon, 1B36, ENS Paris-Saclay

Thèses et HDR

Adrien COURTOIS : soutenance de thèse

Titre : Une étude en profondeur de l'apprentissage profond
Direction : P. Arias, J.-M. Morel
Soutenance le 15/12/23 à 15h00 en 1B36

Ajouter au calendrier

Adrien COURTOIS

Une étude en profondeur de l'apprentissage profond

Résumé

Malgré l’immense succès des réseaux de neurones dans de nombreuses applications, la compréhension de leurs performances et de leurs limites progresse lentement. Bien que les théorèmes d’approximation universelle apportent la promesse de machines capables d’approximer n’importe quelle application complexe, ces résultats sont des énoncés asymptotiques et génériques qui ne donnent que peu d’informations sur les cas pratiques.

En effet, la complexité de l’analyse théorique vient du fait que trois éléments sont nécessaires pour entraîner un réseau de neurones : un jeu de données, une architecture neuronale et un optimiseur. La plupart des théories disponibles se concentrent sur un seul de ces éléments à la fois, et l’on sait peu de choses sur leurs interactions. Cette thèse développe une analyse de chacun de ces éléments et de leurs interactions, en théorie et en pratique, à travers une application particulièrement déroutante : l’estimation de profondeur mono-image.

Nous commençons par analyser les jeux de données, qui jouent le rôle des ombres projetées sur le mur de la caverne de Platon, dont les habitants sont les réseaux neuronaux. Nous étudions l’impact de leur définition sur les réseaux neuronaux et la manière dont la conception d’ensembles de données synthétiques peut être exploitée pour mieux comprendre les performances et les limites de chaque architecture neuronale.

Une analyse plus poussée des propriétés des architectures neuronales nous amène à discuter des moyens de les adapter à une nouvelle tâche ou à un nouveau jeu de données, en utilisant deux applications fondamentales comme bancs d’essai : l’estimation de profondeur mono-image et les méthodes de débruitage vidéo. En donnant des contre-exemples, nous montrons également comment les théorèmes d’approximation universels ne s’appliquent pas au cas pratique.

Enfin, nous nous plongeons dans la théorie des optimiseurs et décrivons comment ils définissent la structure des machines d’apprentissage. Nous nous concentrons sur le concept de stabilité du processus d’optimisation et proposons l’utilisation de limites explicites sur les paramètres d’un réseau de neurones et leurs mises à jour, garantissant que sa sortie sera bornée quelles que soient sa largeur et sa profondeur. Enfin, nous déduisons une nouvelle forme pour les optimiseurs neuronaux classiques qui favorise leur stabilité.

An in-depth study of the deep learning pipeline

Abstract

Despite the tremendous success of neural networks in many applications, progress in understanding their performance and limits is slow. While universal approximation theorems bring the promise of machines capable of approximating any complex mapping, these results are generic asymptotic statements that provide little insight into practical applications.

Indeed, the complexity of any inquiry arises from the fact that three elements are necessary to train a neural network: a dataset, a neural architecture, and an optimizer. Most available theory focuses on only one of these elements at a time, and little is known about their interactions. This thesis develops an analysis of each of these elements and their interactions, theoretically and practically, through the lens of a particularly puzzling application, monocular depth estimation.

We start by analyzing the datasets, which play the role of the shadows projected onto the wall of Plato’s cave, whose inhabitants are neural networks. We study how their definition impacts neural networks and how the design of synthetic datasets can be leveraged to better understand the performance and limits of each neural architecture.

Further analysis of the properties of neural architectures leads us to discuss means to adapt them to a new task or dataset, using two fundamental applications as testbeds: monocular depth estimation and video denoising methods. By giving counterexamples, we also point out how the universal approximation theorems do not apply to the practical setting.

Finally, we dive into the theory of optimizers and describe how they define the structure of learning machines. We focus on the concept of stability of the optimization process and propose the use of explicit bounds on a network’s parameters and updates, ensuring that its output will be bounded regardless of its width and depth. We finally derive a new form for classical neural optimizers that favor their stability.

Direction

Jury

  • Qiang Qiu, Purdue University (rapporteur)
  • Alasdair Newson, Sorbonne Université (rapporteur)
  • Raymond Chan, City University of Hong Kong
  • Jean-François Aujol, IMB, Université de Bordeaux
  • Sira Ferradans, DXOMARK
  • Gabriele Facciolo, ENS Paris-Saclay