Alexandre BOIS
Analyse topologique de données pour les séries temporelles
Mots clés
Analyse topologique des données. Séries temporelles. Homologie persistante.
Résumé
Dans cette thèse, nous présentons le développement de nouvelles méthodes d'analyse topologique de données pour les séries temporelles. Ce travail est motivé par l'étude de signaux physiologiques en neurologie comportementale, et en particulier par l'étude de la marche. En effet, ces signaux possèdent généralement une certaine structure (périodicité, répétitions de motifs) qui peut être étudiée à l'aide d'outils comme l'homologie persistante de manière non-supervisée et interprétable.
Après avoir introduit les principaux concepts mathématiques liés aux séries temporelles et à l'analyse topologique de données utilisés dans les chapitres suivants, nous menons une revue de l'état de l'art sur l'utilisation de l'homologie persistante pour l'étude de séries temporelles. Nous proposons ensuite trois contributions.
La première contribution est une méthode non paramétrique d'analyse de signaux de marche mesurés par des centrales inertielles placées sur les pieds, que nous avons appliquée à l'étude de sujets sains et de patients atteints de sclérose en plaques. Cette méthode, basée sur les ensembles de sous-niveaux de fonctions et la distance de Bottleneck entre codes-barre de persistance, permet de visualiser des différences entre signaux et d'en déduire des informations, notamment sur la sévérité de la maladie ou son évolution dans le temps chez un même patient. Plus précisément, nous calculons la filtration par sous-niveaux de chaque signal et le code-barre de persistance associé auquel on retire les plus grandes barres. Nous calculons ensuite la matrice des distances de Bottleneck entre chaque paire de codes barres, visualisons ces distances à l'aide de l'algorithme UMAP et proposons différents moyens d'interpréter le résultat. Dans ce chapitre, nous étudions aussi une propriété théorique de l'homologie persistante des sous-niveaux de fonctions périodiques, qui motive la méthode car elle relie le nombre de périodes observées à la multiplicité des barres du code-barres de persistance.
La seconde contribution est un algorithme de clustering pour les points d'espaces métriques quelconques, basé sur une nouvelle filtration appelée NNVR (Nearest Neighbor Vietoris-Rips). Cette filtration est proche de la filtration de Vietoris-Rips mais y ajoute une information sur la proximité du plus proche voisin de chaque point. La lecture du diagramme de persistance permet alors d'exclure des points isolés puis de choisir un seuil adapté pour le clustering hiérarchique. Nous montrons que notre filtration possède la même propriété de stabilité que la filtration de Vietoris-Rips par rapport à la distance de Gromov-Hausdorff, décrivons l'algorithme et montrons qu'il peut être performant sur différent types de données même dans sa version non-paramétrique. Enfin, nous illustrons son utilité dans un algorithme de détection de motifs appliqué à des signaux de marche.
La troisième contribution est un algorithme non-supervisé de détection d'anomalies pour les séries temporelles univariées. Il utilise une transformation des séries temporelles en nuage de points, une filtration basée sur la notion de distance à une mesure, l'extraction de cycles représentant des classes d'homologie persistante en dimension 1, et une lecture du diagramme de persistance permettant de définir des cycles normaux. Un score d'anomalie est alors défini pour chaque point du nuage de point comme sa distance aux cycles normaux, puis on en déduit un score pour chaque point de la série temporelle. Cet méthode est construite à partir d'un modèle de séries temporelles composées d'une succession de motifs, que nous décrivons formellement en début de chapitre. Il nous permet de proposer une définition rigoureuse d'un problème de détection d'anomalie et d'étudier théoriquement notre méthode. Nous montrons que notre méthode est compétitive par rapport à l'état de l'art et étudions l'influence des paramètres et du bruit. Enfin, nous illustrons son utilisation sur des signaux de marche.
Direction
Jury
- Frederic CHAZAL Directeur de recherche INRIA Saclay Examinateur
- Mathilde MOUGEOT Professeur des universités ENS Paris Saclay Examinateur
- Julien TIERNY Directeur de recherche Sorbonne Université Rapporteur
- Elizabeth MUNCH Associate Professor Michigan State University Rapporteur