Titre
Méthodes d'apprentissage automatique appliquées à l’analyse des signaux d’utilisations des grands calculateurs
Résumé
Le CEA opère des centres de calculs qui sont extrêmement sollicités en interne et par des partenaires scientifiques et industriels. Un enjeu important est la surveillance du bon fonctionnement des calculateurs HPC et de leurs périphériques. Pour cela, le CEA a déployé une plateforme matérielle et une chaîne de traitement logicielle qui enregistrent et traitent de nombreux signaux temporels ou agrégés issus de ces matériels. L’objectif de cette thèse à cheval entre les mathématiques et l’informatique est l’utilisation et la définition de nouvelles méthodes statistiques et d’apprentissage pour exploiter toutes les données d’utilisation des grands calculateurs afin mieux comprendre son utilisation :classifier les utilisations de différentes ressources, détecter les comportements aux limites, détecter les dérives ou pic d’utilisation.
Nous commençons par identifier des cas d’usages pour lesquels des méthodes statistiques auraient un apport significatif dans la gestion des grands calculateurs. Nous évoquons les contributions de cette thèse pour ensuite détailler deux contributions majeures.
Nous présentons un modèle de regroupement et segmentation de certains signaux temporels extraits par le CEA. Nous proposons d’abord une rapide exploration et un modèle de ces données pour identifier les caractéristiques qui semblent pertinentes à extraire. Nous formalisons l’ajustement de ce modèle aux données comme un problème de regroupement par sous-espaces et proposons une méthode de résolution issue de l'optimisation convexe plus rapide sur des grands signaux et adapté à des variantes originales. Nous recommandons une variante ainsi que les valeurs des hyperparamètres appropriés aux données du CEA.
Nous présentons nos travaux sur la prédiction de la consommation électrique d’une allocation de ressources avant son ordonnancement grâce aux informations données par l’utilisateur dans sa demande de ressources de calcul au logiciel chargé de les ordonner. Nous détaillons pourquoi cette prédiction est indispensable pour piloter la consommation électrique du calculateur par l'ordonnanceur. Après avoir bien délimité quelles informations peuvent être utilisées et quelle quantité peut être prédite, nous proposons un modèle basé sur les instances passées pour réaliser cette prédiction. La simplicité de ce modèle nous permet de proposer une version particulièrement adaptée pour une utilisation en production. Enfin, nous évaluons la prédiction de la consommation globale future du calculateur de ce modèle une fois les allocations ordonnées.
Mots-clés
Séries temporelles, Apprentissage,Statistique,Optimisation convexe, HPC
Direction
Nicolas Vayatis, Mathilde Mougeot, Jean-Christophe Weill (CEA)