Statistics

Subspace clustering sur données incomplètes par imputation multiple

Published on - 29èmes Rencontres de la Société Francophone de Classification

Authors: Yasmine Agliz, Vincent Audigier, Mohamed Nadif, Ndèye Niang

Nous nous intéressons à la classification non supervisée en grande dimension en présence d'observations incomplètes. Nous proposons une approche d'imputation multiple avec comme modèle d'analyse la méthode Reduced KMeans de subspace clustering. L'agrégation des résultats, extension des règles de Rubin, repose d'une part sur des méthodes de consensus de partitions et d'autre part sur la recherche d'un sous-espace commun de représentation obtenu à travers l'Analyse factorielle multiple. Une étude de simulation montre de bonne performances d'une part en termes de classification à travers l'indice de Rand ajusté (ARI) et la Normalized Mutual Information (NMI) et d'autre part en terme de sous-espace réduit à travers le coefficient RV.