Chakib FETTAL
Détection d'anomalies et de controverses en finance
Résumé
La détection des tendances anormales dans le domaine financier s'est largement concentrée sur la détection des fraudes, la modélisation des risques et l'analyse prédictive. Les données utilisées dans la majorité de ces études sont de nature chronologique, transactionnelle, graphique ou généralement quantitative ou structurée. Cependant l'importance cruciale des corpus de textes semi-structurés ou non structurés dont les praticiens du domaine financier tirent des informations --corpus tels que les rapports financiers, les communiqués de presse, les articles de presse, les journaux d'interaction avec les clients et les données sociales-- n'est plus à démontrer. Dans la détection des anomalies à partir du texte a évolué largement indépendamment des applications financières. Des méthodes de clustering non supervisées ont été appliquées aux documents afin d'identifier les valeurs aberrantes et les sujets émergents. L'analyse des écarts a été appliquée au texte afin d'identifier les erreurs d'orthographe et de balisage des documents. La popularité récente de la sémantique distributionnelle a conduit à de nouvelles avancées dans l'analyse de la déviation sémantique. Cependant, la recherche actuelle reste largement séparée des applications spécifiques dans le domaine de la finance. Dans cette thèse, comme nous nous plaçons dans un cadre d'apprentissage non supervisé voire semi-supervisé. Nous nous appuierons sur des approches de type co-clustering qui est un processus de partitionnement simultané des documents et des mots. D'autre part, cette approche est aussi adaptée lorsqu'on dispose de peu d'observations (small data). Parmi le large éventail d'approches de co-clustering, la tri-factorisation à matrice non négative (NMTF) est reconnue pour ses hautes performances, sa flexibilité et ses fondements théoriques. Un aspect important lors du traitement de données textuelles est de capturer les relations sémantiques entre les mots. Cependant, cet aspect a été négligé par les modèles de co-clustering précédents, y compris NMTF. Dans notre problématique nous disposons des ensembles de documents (nouvelles/news) et de leur type (types des news définis par Datalab) ainsi que des entités nommées. L'objectif de cette thèse est de développer des algorithmes online innovants non supervisés et semi-supervisés de text mining en vue de la détection d'anomalies et de controverses à partir de de données massives ou pas (small data) dans divers domaines dont la finance et d'autres secteurs d'activités (formation, santé, processus).
Direction
Jury
- M. Marsala Christophe, Professeur des universités, LIP6, Sorbonne Université
- Mme. Niang Ndeye, Professeure des universités, Centre d’études et de recherche en informatique et communication, CNAM
- M. Adam Sébastien Professeur des universités Laboratoire d'informatique de traitement de l'information et des systèmes, Univ. Rouen
- M. Lenca Philippe Professeur des universités Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance
- M. Nadif Mohamed Professeur des universités Centre Borelli (EDITE), Univ. de Paris Cité
Contributions to Scalable Clustering of Networks and Graphs