Statistics
Subspace clustering sur données incomplètes par imputation multiple
Publié le - 29èmes Rencontres de la Société Francophone de Classification
Nous nous intéressons à la classification non supervisée en grande dimension en présence d'observations incomplètes. Nous proposons une approche d'imputation multiple avec comme modèle d'analyse la méthode Reduced KMeans de subspace clustering. L'agrégation des résultats, extension des règles de Rubin, repose d'une part sur des méthodes de consensus de partitions et d'autre part sur la recherche d'un sous-espace commun de représentation obtenu à travers l'Analyse factorielle multiple. Une étude de simulation montre de bonne performances d'une part en termes de classification à travers l'indice de Rand ajusté (ARI) et la Normalized Mutual Information (NMI) et d'autre part en terme de sous-espace réduit à travers le coefficient RV.