Geodesic PCA in the Wasserstein space by convex PCA - ENAC - École nationale de l'aviation civile Accéder directement au contenu
Article Dans Une Revue Annales de l'Institut Henri Poincaré (B) Probabilités et Statistiques Année : 2017

Geodesic PCA in the Wasserstein space by convex PCA

Résumé

We introduce the method of Geodesic Principal Component Analysis (GPCA) on the space of probability measures on the line, with finite second moment, endowed with the Wasserstein metric. We discuss the advantages of this approach, over a standard functional PCA of probability densities in the Hilbert space of square-integrable functions. We establish the consistency of the method by showing that the empirical GPCA converges to its population counterpart, as the sample size tends to infinity. A key property in the study of GPCA is the isometry between the Wasserstein space and a closed convex subset of the space of square-integrable functions, with respect to an appropriate measure. Therefore, we consider the general problem of PCA in a closed convex subset of a separable Hilbert space, which serves as basis for the analysis of GPCA and also has interest in its own right. We provide illustrative examples on simple statistical models, to show the benefits of this approach for data analysis. The method is also applied to a real dataset of population pyramids.
Nous introduisons la méthode d'Analyse en Composantes Principales Géodésiques (GPCA) dans l'espace des mesures de probabilités à support sur la droite réelle, admettant un moment d'ordre deux, et muni de la métrique de Wasserstein. Nous discutons des avantages de cette approche par rapport à une ACP fonctionnelle standard de densités de probabilités dans l'espace de Hilbert des fonctions de carrés intégrable. Nous établissons la consistence de cette méthode en montrant que la GPCA empirique converge vers sa version population lorsque la taille de l'échantillon tend vers l'infini. Une propriété clé dans l'étude de la GPCA est l'isométrie entre l'espace de Wasserstein et un sous-espace convexe fermé de l'ensemble des fonctions de carrés intégrable, par rapport à une mesure de référence appropriée. De ce fait, nous considérons le problème général de l'ACP dans un sous-ensemble convexe fermé d'un espace de Hilbert séparable, qui sert de base à l'analyse de la GPCA. Nous proposons différents exemples illustratifs à partir de modèles statistiques simples pour montrer les bénéfices de cette approche pour l'analyse de données. La méthode est également appliquée à un exemple réel sur les pyramides des âges.
Fichier principal
Vignette du fichier
AIHP706.pdf (573.76 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-01978864 , version 1 (11-01-2019)

Identifiants

Citer

Jérémie Bigot, Raul Gouet, Thierry Klein, Alfredo Lopez. Geodesic PCA in the Wasserstein space by convex PCA. Annales de l'Institut Henri Poincaré (B) Probabilités et Statistiques, 2017, 53 (1), pp.1-26. ⟨10.1214/15-aihp706⟩. ⟨hal-01978864⟩
174 Consultations
397 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More