Statistics
High dimensional pattern learning applied to symbolic time-series
Publié le
Bien que l'adoption de l'apprentissage automatique dans de nombreux contextes appliqués ait connu une croissance rapide au cours de la dernière décennie, son utilisation dans certains environnements industriels reste problématique. La raison principale tient au conflit entre les procédures historiques établies et l'incertitude et le manque de transparence du processus de décision d'un processus d'apprentissage automatique. Une autre raison réside dans le fait que l'entrée d'un modèle d'apprentissage statistique traditionnel ne correspond pas au type ou à la qualité des données disponibles. La plupart des bases de données industrielles n'ont pas été développées pour l'analyse statistique mais pour se conformer a des exigences réglementaires ou effectuer des tâches administratives. En particulier, les données non numériques ou symboliques sont couramment utilisées pour leur versatilité. Des exemples de telles données sont les documents textuels, les séquences d'événements d'un journal d'erreur ou encore les séquences d'ADN. Le nombre exponentiel de combinaisons possibles domine généralement la complexité associée à l'apprentissage d'informations pertinentes à partir de symboles. Le cadre applicatif et la motivation première de cette thèse sont de concevoir des méthodes efficaces, lisibles par l'homme pour la maintenance prédictive du parc ferroviaire français. A cette fin, nous proposons d'aller au-delà des approches standard en utilisant une combinaison d'algorithmes traditionnels d'apprentissage automatique avec des techniques de minage de motifs pour permettant l'interaction avec la couche algorithmique de la couche de maintenance prédictive. L'objectif principal de cette thèse est d'aborder ces questions en proposant des approches qui peuvent être généralement appliquées à une séquence symbolique de données.À cette fin, nous introduisons la construction d'une solution complète d'apprentissage automatique pour la maintenance prédictive d'une grande flotte de véhicules ferroviaires renseignant sur la dynamique symbolique sous-jacente du processus de dégradation. Dans un second temps, nous proposons une nouvelle méthode pour les ensembles de données symboliques basée sur un modèle génératif bayésien pour les modèles qui peut augmenter la précision des scores de manière interprétable pour tout ensemble de données symboliques. En troisième lieu, nous introduisons une nouvelle méthode d'extraction progressive basée sur les complexités locales pour la dérivation de limites sur la convergence asymptotique de la fréquence de motifs. Enfin, une nouvelle méthode générale d'optimisation stochastique basée sur un échantillonnage alternatif est proposée. Cette méthode peut être appliquée au cas spécifique de l'apprentissage bayésien dans le cadre de l'inférence variationnelle. Dans ce cas, nous fournissons une preuve théorique et empirique de la supériorité de cette approche par rapport aux méthodes les plus avancées.