Statistiques
Processus de rang et applications statistiques en grande dimension
Publié le
Ce projet de recherche propose de développer des outils mathématiques et algorithmiques pour étudier et comparer deux jeux de données complexes en grande dimension: vecteurs, signaux multivariés, trajectoires, signaux sur graphes. Il répond à des enjeux fondamentaux liés à la quantification dans les sciences expérimentales, notamment les sciences de la vie et par-là même les neurosciences et ses applications cliniques.Pour se faire, nous proposons une généralisation des statistiques linéaires de rang à l’aide d’outils développés en apprentissage automatique. En effet, et grâce à des techniques d’ordonnancement biparti, nous articulons une étude avancée et non-paramétrique de ces statistiques à deux échantillons statistiques sous l’angle de la théorie de l’apprentissage statistique. Plus précisément, les méthodes d’ordonnancement permettent de pallier l’absence de relation d’orde dans les espaces de grande dimension grâce à l’apprentissage d’une fonction de score. Définie sur l’espace ambiant et à valeur réelle, cette dernière a pour but d’induire un ordre sur les observations multivariées en maximisant la statistique de rang généralisée.Nous proposons une première application dans le cadre des tests d’hypothèses statistiques, en associant décision (acceptation/rejet) de l'hypothèse nulle à l’apprentissage d'un modèle décrivant les données. Nous étudions, plus précisément, les tests d’homogénéité à deux échantillons. Ensuite, deux applications en analyse de données sont introduites et développées en utilisant les statistiques de rang comme critère de performance. Nous les appliquons aux problèmes d’ordonnancement bipartie et d’apprentissage des données extrêmes, ou anomalies, et précisons leurs relations à l’état de l’art. Enfin, dans la volonté de proposer des outils adaptés aux données issues des sciences expérimentales et dans le cadre de l’étude des données biomédicales, nous introduisons une méthode interprétable de comparaison statistique de deux populations cliniques ainsi que d’un modèle stochastique génératif de données longitudinales particulières.