Intelligence artificielle pour la science des données et la cybersécurité

Les chercheurs dans cette thématique étudient de nouveaux modèles et de nouveaux algorithmes dans le domaine de l'intégration de données, de la classification et du (co)-clustering. Ils développent également des recherches théoriques et appliquées dans le domaine de la cybersécurité et de la gestion des ressources dans les systèmes cyber-physiques.

Référents scientifiques

Coordinateur : Mohamed Nadif

Responsables scientifiques :

Severine Affeldt
Lazhar Labiod
Ahmed Mehaoua
Osman Salem

Présentation de la thématique

L'apprentissage machine pour la science des données est un champ d'étude incontournable de l'intelligence artificielle. Il se décline sous différentes formes : non supervisée, semi-supervisée, supervisée et par renforcement. Bien que de multiples algorithmes, modèles et stratégies soient aujourd'hui disponibles, beaucoup de défis majeurs restent toujours d'actualité, et ceci dans des domaines aussi nombreux que variés.
Les chercheurs de l'équipe se concentrent sur plusieurs questions liées à l'apprentissage notamment le (Co)-clustering et la réduction de la dimensionnalité (apprentissage non/semi supervisé) ainsi que la classification supervisée. Nos travaux reposent sur différentes approches telles que la factorisation matricielle, les modèles de mélange, les modèles des blocs latents, la décomposition spectrale et l'apprentissage profond. Notre objectif principal est de proposer des modèles et algorithmes innovants qui sont efficaces et facilement exploitables en pratique. Ainsi, les méthodes que nous proposons sont dédiées au traitement de données multi-sources et de différentes natures avec des applications dans divers domaines telles que l'analyse des données textuelles, le traitement automatique du langage naturel, la bioinformatique, le filtrage collaboratif, l'analyse de médiation et la cybersécurité. En outre, nous nous intéressons au domaine médical, en développant de nouvelles méthodes d'apprentissage machine et des logiciels conviviaux pouvant intégrer divers types de données omiques pour identifier les acteurs des maladies humaines complexes.
Les chercheurs de l'équipe développent également des recherches théoriques et appliquées dans le domaine de la cybersécurité et de la gestion des ressources dans les systèmes cyber-physiques en particulier de détection d'anomalie pour les réseaux de capteurs de corps médicaux sans fil. Les contributions du groupe sont orientées sur la conception, l'optimisation et l'évaluation des performances des nouveaux protocoles, algorithmes, outils et modèles formels. Elles permettent, ainsi, de fournir une qualité, et une sécurité des communications et des données, dans les systèmes physiques de la santé de la prochaine génération telles que la détection des maladies chroniques (Ischémie, épilepsie, etc.).

Mots clés

Machine and Deep Learning ; Co-clustering ; Factorization ; Spectral Clustering ; Mixture models ; Attributed Network Embedding ; Mediation analysis ; Wireless Sensor Networks ; Internet of Medical Things ; Security and Anomaly detection ; Resource Optimization

Thèmes abordés

Spectral clustering via ensemble deep autoencoder learning and evaluation on image data.
Regularized bi-directional co-clustering for biomedical texts.
Endotypes identified by cluster analysis in asthmatics and non-asthmatics and their clinical characteristics at follow-up: the case-control EGEA study.
Unsupervised text mining for assessing and augmenting GWAS results.
Real-time biomedical data analysis systems based on Machine Learning (ML) and Wireless Body Sensor Networks (WBAN),
Sensor-based remote health monitoring, Sensor-based Human activity recognition, Sensor-based Ischemia and Epilepsy detection,
Cybersecurity threats Detection using AI/ML, Blockchain-based Anomaly and threats detection for Internet of Things (IOT).

Applications

(Co)-clustering de documents textuels

CIKM' 2021 : How to Leverage a Multi-layered Transformer Language Model for Text Clustering: an Ensemble Approach.
SIGIR' 2021 : Regularized Dual-PPMI Co-clustering for Text Data.
CIKM' 2020: Ensemble block co-clustering: a unified framework for text data.

(Co)-clustering d'images

Spectral clustering via ensemble deep autoencoder learning.

Softwares et Packages

L'algorithme BCOT concerne le biclustering basé sur le transport optimal.

Article de référence : C. Fettal, L. Labiod, M. Nadif. Efficient and effective optimal transport-based biclustering. NeurIPS, 32989-33000, 2022

L'algorithme SC3 est dédié au “subspace convolutional co-clustering".

Article de référence : Boosting subspace co-clustering via bilateral graph convolution. IEEE Transactions on Knowledge and Data Engineering, 36(3): 960-971, 2024

L'algorithme SAGSC est dédié au “subspace clustering”.

Article de référence : C. Fettal, L. Labiod, M. Nadif. Scalable attributed-graph subspace clustering. AAAI, 7559-7567, 2023.

L'algorithme LMGEC est dédié au Multi-vues des graphes attribués.

Article de référence : C. Fettal, L. Labiod, M. Nadif. Simultaneous linear multi-view attributed graph representation learning and clustering. WSDM, 303-311, 2023.

Le package Caeclust implémente une méthode s’appuyant sur un algorithme de clustering de type deep spectral.

Ce travail a donné lieu à une publication. S. Affeldt, L. Labiod, M. Nadif. CAEclust: A consensus of autoencoders representations for clustering. IPOL. 590-603, 2022. Ce travail est issu d’un travail des mêmes auteurs dans Pattern Recognition journal (2020).

L'algorithme GCC est dédié au “graph convolutional clustering”.

Article de référence : C. Fettal, L. Labiod, M. Nadif. Efficient Graph Convolution for Joint Node Representation Learning and Clustering. WSDM, 289-297, 2022.

Le package python TensorClus est dédié au clustering et co-clustering de données tensorielles.

Article de référence : R. Boutalbi, L. Labiod, M. Nadif. TensorClus: A Python library for tensor (co)-clustering. Neurocomputing, 464- 468, 2022.

WordGraph est un package python permettant de reconstruire des modèles graphiques causaux interactifs à partir de données textuelles. Il a été publié à WSDM 2024 et a reçu le prix du meilleur papier “software” présenté à EGC 2024

CORPEX est une interface d'aide à l'analyse de corpus via la visualisation interactive de co-clusters pour soutenir l'exploration de thèmes pour un ensemble de textes.

Cette interface a été publiée dans EGC 2023 par A. Ferdjaoui, Amira Tlati, S. Affeldt, M. Nadif; CORPEX : Analyse exploratoire d'un corpus biomédical à l'aide de la classification croisée.

Le package dcblockmodels implémente des algorithmes de co-clustering pour les données de comptage basés sur le modèle de blocs latents (LBM). Il propose deux modèles principaux : un LBM dynamique (dLBM) pour les données représentées sous forme de séries de matrices d'adjacence, et un LBM semi-supervisé (ou contraint) (HLBM) utilisant des contraintes par paires dans les espaces des lignes et des colonnes.

Pour plus de détails :

P. Riverain, S. Fossier, and M. Nadif. “Poisson Degree Corrected Dynamic Stochastic Block Model.” Advances in Data Analysis and Classification, 17(1): 135-162 (2023).
P. Riverain, S. Fossier, and M. Nadif. “Semi-Supervised Latent Block Model with Pairwise Constraints.” Machine Learning 111(5): 1739–64 (2022).

Le package ELBMcoclust implémente plusieurs algorithmes de co-clustering.

Article de référence : S. Hoseinipour, M. Aminghafari, A. Mohammadpour and M. Nadif “A Sparse Exponential Family Latent Block Model for Co-clustering”. Advances in Data Analysis and Classification, 1-37.

Principales publications

Poisson degree corrected dynamic Stochastic Block Model, P. Riverain, S. Fossier, M. Nadif, Adv Data Anal Classif 17, 135–162 (2023). 2022.
Implicit consensus clustering. R. Boutalbi, L. Labiod, M. Nadif, Data Min Knowl Disc 35, 2313–2340 (2021)
Regularized Bi-Directional Co-Clustering, S. Affeldt, L. Labiod, M. Nadif, Briefings in Bioinformatics, 22(2), 2021.
Unsupervised and self-supervised deep learning approaches for biomedical text mining, briefing in Bioinformatics, M. Nadif, F. Role, 2021.
Man-in-the-Middle Attack Mitigation in Internet of Medical Things, O. Salem, K. Alsubhi, A. Shaafi, M. Gheryani, A. Mehaoua, R. Boutaba, IEEE Transactions on Industrial Informatics 38(3), 2022
Markov Models for Anomaly Detection in Wireless Body Area Networks for Secure Health Monitoring, O. Salem, K. Alsubhi, A. Mehaoua, R. Boutaba, IEEE Journal on Selected Areas in Communications, 39(2), 2021

Projets

Projet ANR GePhEx (S. Affeld, 2019) : Learning causal effects between phenome and exposome from large amounts of heterogeneous data in human complex diseases.
Projet ANSES MOLDASTH (R. Nadif, 2021) Moulds in dwellings, inflammation, immune response, and ASTHma endotypes in the CONSTANCES cohort.
Projet Emergence Idex Spectrans (M. Nadif, 2021). Specialised corpora and neural translation.
Projet CDC Informatique. (M. Nadif) Détection d'anomalie et de contreverses en finance.
Projet THALES (M. Nadif, 2019), Hybridation d'algorithmes d'IA avec des connaissances métier pour le transport ferroviaire.
Project SOPRA-STERIA and AIRBUS-APSYS. Security of Industrial Internet of Things based on Blockchain.
Project ORANGE LABS. Real-time Network Service Detection, Classification and Analysis from encrypted real-time traffic communications

Interactions avec les autres thématiques du Centre Borelli

Retour en haut de la page

Référents scientifiques

Coordinateur : Mohamed Nadif

Responsables scientifiques :

Présentation de la thématique

Mots clés

Thèmes abordés

Applications

(Co)-clustering de documents textuels

(Co)-clustering d'images

Softwares et Packages

BCOT 2022

SC3 2024

SAGSC 2023

LMGEC 2023

Caeclust 2022

GCC 2022

TensorClus 2022

WordGraph 2024

CORPEX 2023

dcblockmodels 2022

ELBMcoclust 2024

Principales publications

Projets

Interactions avec les autres thématiques du Centre Borelli

Machine learning et Statistique en grande dimension