Amir DIB : Apprentissage de motifs en grande dimension pour les séries symboliques

Directeurs de thèse : Nicolas Vayatis et Mathilde Mougeot
Soutenance le 11/10/21

Résumé :

Bien que l’adoption de l’apprentissage automatique dans de nombreux contextes appliqués ait connu une croissance rapide au cours de la dernière décennie, son utilisation dans certains environnements industriels reste problématique. La raison principale tient au conflit entre les procédures historiques établies et l’incertitude et le manque de transparence du processus de décision d’un processus d’apprentissage automatique. Une autre raison réside dans le fait que l’entrée d’un modèle d’apprentissage statistique traditionnel ne correspond pas au type ou à la qualité des données disponibles. La plupart des bases de données industrielles n’ont pas été développées pour l’analyse statistique mais pour se conformer à des exigences réglementaires ou effectuer des tâches administratives. En particulier, les données non numériques ou symboliques sont couramment utilisées pour leur versatilité. Des exemples de telles données sont les documents textuels, les séquences d’événements d’un journal d’erreur ou encore les séquences d’ADN. Le nombre exponentiel de combinaisons possibles domine généralement la complexité associée à l’apprentissage d’informations pertinentes à partir de symboles.

Le cadre applicatif et la motivation première de cette thèse sont de concevoir des méthodes efficaces, lisibles par l’homme pour la maintenance prédictive du parc ferroviaire français. A cette fin, nous proposons d’aller au-delà des approches standard en utilisant une combinaison d’algorithmes traditionnels d’apprentissage automatique avec des techniques de minage de motifs pour permettant l’interaction avec la couche algorithmique de la couche de maintenance prédictive. L’objectif principal de cette thèse est d’aborder ces questions en proposant des approches qui peuvent être généralement appliquées à une séquence symbolique de données. À cette fin, nous introduisons la construction d’une solution complète d’apprentissage automatique pour la maintenance prédictive d’une grande flotte de véhicules ferroviaires qui peut être calculée fournissant des informations précieuses sur la dynamique symbolique sous-jacente du processus de dégradation. En deuxième lieu, nous proposons une nouvelle méthode pour les ensembles de données symboliques basée sur un modèle génératif bayésien pour les modèles qui peut augmenter la précision des scores de manière interprétable pour tout ensemble de données symboliques. En troisième lieu, nous introduisons une nouvelle méthode d’extraction progressive basée sur les complexités locales afin d’obtenir des limites statistiques plus nettes sur la fréquence des motifs. Enfin, une nouvelle méthode générale d’optimisation stochastique basée sur l’échantillonnage alternatif est proposée. Cette méthode peut être appliquée au cas spécifique de l’apprentissage bayésien dans le cadre de l’inférence variationnelle. Dans ce cas, nous fournissons une preuve théorique et empirique de la supériorité de cette approche par rapport aux méthodes les plus avancées.