Chakib FETTAL : soutenance de thèse

Titre : Contributions à une efficiente classification non-supervisée de réseaux et de graphes
Direction : Mohamed Nadif et Lazhar Labiod
Soutenance le 02/02/2024

Ajouter au calendrier

Chakib FETTAL

Contributions à une efficiente classification non-supervisée de réseaux et de graphes

Résumé

La détection des tendances anormales dans le domaine financier s'est largement concentrée sur la détection des fraudes, la modélisation des risques et l'analyse prédictive. Les données utilisées dans la majorité de ces études sont de nature chronologique, transactionnelle, graphique ou généralement quantitative ou structurée. Cependant l'importance cruciale des corpus de textes semi-structurés ou non structurés dont les praticiens du domaine financier tirent des informations --corpus tels que les rapports financiers, les communiqués de presse, les articles de presse, les journaux d'interaction avec les clients et les données sociales-- n'est plus à démontrer. Dans la détection des anomalies à partir du texte a évolué largement indépendamment des applications financières. Des méthodes de clustering non supervisées ont été appliquées aux documents afin d'identifier les valeurs aberrantes et les sujets émergents. L'analyse des écarts a été appliquée au texte afin d'identifier les erreurs d'orthographe et de balisage des documents. La popularité récente de la sémantique distributionnelle a conduit à de nouvelles avancées dans l'analyse de la déviation sémantique. Cependant, la recherche actuelle reste largement séparée des applications spécifiques dans le domaine de la finance. Dans cette thèse, comme nous nous plaçons dans un cadre d'apprentissage non supervisé voire semi-supervisé. Nous nous appuierons sur des approches de type co-clustering qui est un processus de partitionnement simultané des documents et des mots. D'autre part, cette approche est aussi adaptée lorsqu'on dispose de peu d'observations (small data). Parmi le large éventail d'approches de co-clustering, la tri-factorisation à matrice non négative (NMTF) est reconnue pour ses hautes performances, sa flexibilité et ses fondements théoriques. Un aspect important lors du traitement de données textuelles est de capturer les relations sémantiques entre les mots. Cependant, cet aspect a été négligé par les modèles de co-clustering précédents, y compris NMTF. Dans notre problématique nous disposons des ensembles de documents (nouvelles/news) et de leur type (types des news définis par Datalab) ainsi que des entités nommées. L'objectif de cette thèse est de développer des algorithmes online innovants non supervisés et semi-supervisés de text mining en vue de la détection d'anomalies et de controverses à partir de de données massives ou pas (small data) dans divers domaines dont la finance et d'autres secteurs d'activités (formation, santé, processus).

Direction

Jury

M. Marsala Christophe, Professeur des universités, LIP6, Sorbonne Université
Mme. Niang Ndeye, Professeure des universités, Centre d’études et de recherche en informatique et communication, CNAM
M. Adam Sébastien Professeur des universités Laboratoire d'informatique de traitement de l'information et des systèmes, Univ. Rouen
M. Lenca Philippe Professeur des universités Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance
M. Nadif Mohamed Professeur des universités Centre Borelli (EDITE), Univ. de Paris Cité