Membre du Centre Borelli

Mohamed NADIF

Enseignant-Chercheur

PU - U. PARIS CITÉ

Status: Enseignant-Chercheur

Thématique de recherche

Les recherches de Mohamed Nadif se concentrent principalement sur l'apprentissage machine non supervisé et semi-supervisé. Il s’appuie sur diverses approches, telles que la factorisation, les modèles de mélanges, les modèles des blocs latents, et l'apprentissage profond, pour relever les défis liés au clustering et à la réduction de dimension.

Applications

Les données contemporaines deviennent de plus en plus volumineuses et peuvent être structurées ou non structurées. Elles peuvent également être mixtes, de grande dimension, sparses, et hétérogènes, provenant de multiples sources (multi-vues), comme les données multi-omiques, les réseaux sociaux, les capteurs IoT, et les transactions en ligne. Les recherches de Mohamed Nadif en apprentissage machine l'ont amené à explorer plusieurs domaines, notamment les systèmes de recommandation, l'analyse textuelle et les récentes avancées en traitement du langage naturel.

Pourquoi le Centre Borelli ?

«La science des données est une discipline intrinsèquement pluridisciplinaire. Mon intérêt pour ce domaine m'a naturellement orienté vers un environnement où les interactions entre les acteurs de diverses disciplines constituent une source indéniable d'innovation, couvrant la nature des données, la modélisation mathématique, le développement algorithmique, et jusqu'à l'évaluation.»

Livre

Recherche

  • Thème 1 : LBMs et Co-clustering
    • Dans les années 2000, le co-clustering a connu un essor considérable, tant en génomique pour les données de biopuces qu'en analyse textuelle avec la vectorisation des documents. En effet, dans ces deux domaines, le clustering simple (sur une dimension) a montré ses limites en raison, par exemple, de la grande dimension des données et le nombre réduit des observations dans le premier cas et de leur sparsité dans le second. L'approche de co-clustering a été développée pour relever ces défis en réorganisant l'ensemble des données en blocs homogènes appelés co-clusters facilitant ainsi leur interprétabilité.
    • Principaux résultats obtenus : Les Latent Block Models (LBMs) proposés est une classe de modèles statistiques particulièrement utiles lorsque les données peuvent être structurées sous forme de matrices ou de tenseurs, et qu'il existe une structure latente sous-jacente permettant une réorganisation en blocs homogènes. Grâce à leur flexibilité, ces modèles ont permis de donner un sens probabiliste à divers critères métriques utilisés, de révéler leurs limites et de proposer de nouveaux algorithmes de type variational EM. De nombreux travaux théoriques et logiciels continuent de s'inspirer des LBMs pour permettre un co-clustering pertinent. De nombreuses extensions ont été développées, aboutissant à des modèles de (co)-clustering contraints, semi-supervisés, dynamiques ou encore multi-vues, avec de multiples applications, notamment dans la classification des documents textuels.
  • Thème 2 :  Clustering et réduction de la dimensionnalité. 
    • Les techniques de réduction de la dimension sont particulièrement adaptées pour intégrer des données de haute dimension dans un espace de dimension réduite. Cet espace de faible dimension, où les échantillons de données peuvent être plus facilement visualisés (2D-3D) et interprétés, est souvent utilisé pour des méthodes d'apprentissage telles que le clustering. Cependant, parfois, ce type de méthodes identifie des dimensions qui apportent peu aux structures de clustering qu'elles révèlent.
    • Principaux résultats obtenus : Des modèles et algorithmes ont été proposés pour aborder les tâches de réduction de la dimension et de clustering de deux manières : séquentielle et simultanée, en s’appuyant sur diverses approches de type factorisation, spectrale et d'apprentissage profond. De telles approches se sont avérées particulièrement efficaces pour le clustering des images.
  • Thème 3 – Réseaux attribués
    • Les Réseaux Attribués (Attributed Networks : AN) modélisent des réseaux réels où chaque nœud possède des caractéristiques précieuses, contrairement aux réseaux simples. Le plongement (Embedding) des ANs (ANE) vise à représenter ces nœuds dans une matrice continue de faible dimension, préservant la structure et les attributs du réseau original. Ces représentations sont utiles pour diverses tâches d'apprentissage comme le clustering, la visualisation, la classification supervisée et la prédiction de liens.
    • Principaux résultats obtenus : Les méthodes de clustering des ANs existantes peuvent donner des résultats non pertinents en raison principalement aux tâches sous-jacentes qui sont l’embedding et le clustering utilisés séparément. Au cours des dernières années, plusieurs nouveaux modèles et algorithmes sont été proposés et appliqués avec succès sur des données attribuées textuelles. Ces modèles s'appuient principalement sur l'intérêt de combiner simultanément les deux tâches.
  • Thème 4 – IA générative et apprentissage machine non supervisé
    • Bien que l'IA générative, la réduction de la dimension et le clustering servent des objectifs différents, leur combinaison ouvre de nouvelles possibilités dans l'analyse et la génération de données. L'IA générative peut par exemple produire des données synthétiques qui enrichissent les algorithmes de clustering, particulièrement lorsque les données réelles sont insuffisantes ou déséquilibrées.
    • Principaux résultats obtenus : Les progrès accomplis dans les Thèmes 1, 2 et 3 ont fortement contribué à l'analyse textuelle dans un cadre non supervisé. Avec l'avènement de l'IA générative, ces travaux se sont poursuivis à partir des LLMs (Large Language Models). Ces avancées ont permis de relever efficacement plusieurs défis, tels que l'interprétation des classes de documents, la gestion des classes déséquilibrées, et l'intégration de sources externes.

Enseignements

  • Responsable du Master Informatique : Machine Learning pour la Science des Données (MLSD)
  • Cours M2 : Master MLSD
    • UE : Clustering
    • UE : Mixture models
    • UE : Dimensionality reduction II
    • UE : NLP - Data embedding and Learning
  • Cours M1 MLSD
    • UE : Science des Données II

Editeur associé

Publications récentes