Computer Science

CORPEX : Analyse exploratoire d'un corpus biomédical à l'aide de la classification croisée

Published on - 23ème conférence francophone sur l'extraction et la gestion des connaissances

Authors: Amine Ferdjaoui, Amira Tlati, Séverine Affeldt, Mohamed Nadif

Nous proposons une interface d'aide à l'analyse de corpus via la visualisation interactive de coclusters afin d'accompagner l'exploration des thématiques pour un ensemble de textes. Les saisies de l'utilisateur permettent la création ou le chargement d'un corpus de documents, son nettoyage et l'étude interactive et simultanée des termes et des documents. Cet article détaille les fonctionnalités en lien avec la génération dynamique de corpus, notamment dans un cadre biomédical, et également le chargement de matrices documents-termes pour des corpus déjà pré-traités. L'analyse du corpus par la classification croisée (co-clustering) et la visualisation conjointe des termes et des documents, suivant le co-partitionnement obtenu sur les deux ensembles, sont des outils efficaces pour une compréhension rapide des sujets abordés dans un corpus. La sauvegarde automatique des résultats permet de relancer facilement différentes analyses par un co-clustering approprié et d'obtenir des vues croisées des thématiques à différents niveaux de granularité.