Machine learning et Statistique en grande dimension

Cette thématique s'occupe de l'inférence, de la modélisation prédictive et de l'optimisation séquentielle à partir de données complexes telles que des séries temporelles, des données fonctionnelles, des données de réseaux.

Référents scientifiques

Anciens membres :

  • Ioannis Bargiotas
  • Alain Durmus
  • Vianney Perchet

Présentation de la thématique

La recherche développée sur ce thème s'appuie sur notre maîtrise des fondements théoriques et algorithmiques du machine learning et sur notre connaissance des méthodes statistiques de grande dimension. Mais elle se nourrit également d’une certaine familiarité avec un grand nombre de terrains d’application principalement dans le champ industriel et biomédical (santé, facteurs humains).

La démarche scientifique adoptée conduit à introduire de la connaissance a priori (venant de la physique sous-jacente ou des contraintes de ressources par exemple) dans les techniques d’apprentissage. Les contributions scientifiques se matérialisent aussi en grande partie à travers l’interaction avec d’autres thématiques de recherche développées au Centre Borelli.

A titre illustratif, voici quelques exemples de thèmes de recherche étudiés au Centre Borelli :

  • Apprentissage par transfert – Les problématiques d'apprentissage en contexte industriel sont contraintes par des petits échantillons et par des régimes de stationnarité faiblement représentés. Plusieurs techniques d’apprentissage par transfert ont été proposées pour fournir des méthodes et des outils exploitables. De plus, les utilisations opérationnelles nécessitent de la quantification fine des incertitudes pour la maîtrise des risques, ce qui constitue une direction important des travaux de recherche.
  • Apprentissage physiquement motivé – L’hybridation de modèles basés sur la connaissance (sous forme d’équations aux dérivées partielles par exemple) et de modèles empiriques est un des grands enjeux scientifiques dans les sciences de l’ingénieur et les sciences de la vie. Leur développement présente un double enjeu, à la fois pour la simulation et pour le monitoring des systèmes complexes. Les travaux du Centre Borelli explorent notamment les modèles de types PINNS (pour Physically-Informed Neural Networks) et les utilisent pour spécifier des plans d’expériences exploitant la structure physique des solutions.
  • Méthodes statistiques en grande dimension – L’utilisation de méthodes de machine learning pour répondre à des problématiques statistiques en grande dimension soulève plusieurs questionnements étudiés au Centre Borelli. Cela concerne les représentations de l’information (e.g. identifier des régimes de stationnarité locale pour des séries temporelles, possiblement sur graphes), mais également la synthèse de patterns de dépendance pour des observations en grande dimension (e.g. comparer de tels échantillons, ou encore optimiser séquentiellement une fonction).
  • Modélisation de processus sur des réseaux – Les processus spatio-temporels sur des structures discrètes modélisées par des graphes couvrent de nombreuses modélisations concrètes, par exemple en épidémiologie, en économie, en physique, en diffusion d’informations et dans les télécommunications. Un exemple de modèle étudié est celui de la compétition d’épidémies où deux infections se diffusent dans un graphe donné, tout en s'excluant mutuellement lorsqu'elles occupent un noeud. D’autres problématiques peuvent alors se greffer sur la simple caractérisation d’un phénomène : on peut également considérer autour de ces modèles des problématiques de recherche opérationnelle comme le contrôle du processus à partir d’un ensemble de ressources limitées.

Mots clés

Machine learning; high dimensional statistics; graphML; responsible M; human-machine interfaces.

Faits marquants

  • L’article d’état de l’art sur la détection de ruptures dans Signal Processing de L. Oudre, C. Truong et N. Vayatis dépasse les 1000 citations en trois ans, quant à la librairie Python, afférente, elle avoisine les 20 millions de téléchargements.
  • Mathilde Mougeot est sollicitée dans le pilotage de divers institutions : elle est directrice dajointe de la FMJH et membre du Conseil Scientifique de l'INSMI, a été chargée de mission pour la valorisation au sein de l’INSMI. Elle est également Directrice déléguée de la Graduate School Mathématiques de l'Université Paris Saclay. Elle a fait partie du comité HCERES de l’unité AMIES du CNRS. Enfin, elle a été associée au livre blanc élaboré dans le cadre des Assises des Mathématiques 2022.
  • Nicolas Vayatis a été nommé ELLIS Fellow. Il a également été mobilisé comme expert dans deux commissions interministérielles pour l’évaluation des modèles épidémiologiques du COVID-19 en 2020. Il est également sollicité pour une intervention au titre de conseil scientifique auprès du comité de directeurs de filiales du groupe SNCF. Il siège également au conseil scientifique de la Fondation MAIF pour la recherche.
  • Vianney Perchet est éditeur associé de Journal of dynamic games and applications et de Operations Research Letters, il est également régulièrement invité en tant qu’Area Chair pour les grandes conférences de Machine Learning (COLT, NeurIPS, ICML).

Applications

  • Industrie (manufacturing, transport, énergie),
  • Santé numérique,
  • Facteurs humains.

Porfolio

Publications

Interactions avec les autres thématiques du Centre Borelli