May 2024 Empirical optimal transport between different measures adapts to lower complexity
Shayan Hundrieser, Thomas Staudt, Axel Munk
Author Affiliations +
Ann. Inst. H. Poincaré Probab. Statist. 60(2): 824-846 (May 2024). DOI: 10.1214/23-AIHP1369

Abstract

The empirical optimal transport (OT) cost between two probability measures from random data is a fundamental quantity in transport based data analysis. In this work, we derive novel guarantees for its convergence rate when the involved measures are different, possibly supported on different spaces. Our central observation is that the statistical performance of the empirical OT cost is determined by the less complex measure, a phenomenon we refer to as lower complexity adaptation of empirical OT. For instance, under Lipschitz ground costs, we find that the expected error between the empirical OT cost based on n observations and the population quantity decreases with rate n1/d if one of the two measures is concentrated on a d-dimensional manifold, while the other can be arbitrary. For semi-concave ground costs, we show that the upper bound for the rate improves to n2/d. Similarly, our theory establishes the general convergence rate n1/2 for semi-discrete OT. All of these results are valid in the two-sample case as well. Our findings therefore suggest that the curse of dimensionality only affects the estimation of the OT cost when both measures exhibit a high intrinsic dimension. Our proofs are based on the dual formulation of OT as a maximization over a suitable function class Fc and the observation that the c-transform of Fc under bounded costs has the same uniform metric entropy as Fc itself.

Le coût empirique de transport optimal (OT) entre deux mesures de probabilité issues de données aléatoires est une quantité fondamentale pour l’analyse de données basée sur la théorie du transport optimal. Dans ce travail, nous dérivons de nouvelles garanties pour le taux de convergence de cette quantité quand les mesures en jeu sont différentes et potentiellement supportées sur des espaces différents. Notre observation centrale est que la performance statistique du coût de transport empirique est déterminée par la mesure dont la complexité est la plus faible, un phénomène que nous nommons l’adaptivité à la complexité la plus faible du coût de transport empirique. Par exemple, dans le cas d’une fonction de coût lipschitzienne, nous trouvons que l’espérance de l’erreur entre le coût de transport optimal empirique basé sur n observations et son équivalent dans la population décroît à un taux n1/d si une des deux mesures est concentrée sur une variété de dimension d, l’autre mesure pouvant être arbitraire. Pour des fonctions de coût semi-concaves, nous montrons que la borne supérieure pour le taux est meilleure et d’ordre n2/d. De manière similaire, notre théorie montre que le taux n1/2 est atteint pour le transport semi-discret. Tous les résultats s’appliquent aussi au cas de deux échantillons. Nos résultats suggèrent que le fléau de la dimension n’affecte l’estimation du coût de transport optimal que quand les deux mesures ont une dimension intrinsèque élevée. Nos preuves se basent sur la formulation duale du problème de transport optimal, une maximisation sur une classe de fonctions Fc, et l’observation que la c-transformée de Fc, dans le cas de fonctions de coûts bornées, a la même entropie métrique uniforme que Fc elle-même.

Funding Statement

S. Hundrieser and T. Staudt were in part funded by the DFG under Germany’s Excellence Strategy—EXC 2067/1-390729940. S. Hundrieser was also in part funded by the DFG RTG 2088.

Acknowledgments

A. Munk gratefully acknowledges support of the DFG CRC 1456.

Citation

Download Citation

Shayan Hundrieser. Thomas Staudt. Axel Munk. "Empirical optimal transport between different measures adapts to lower complexity." Ann. Inst. H. Poincaré Probab. Statist. 60 (2) 824 - 846, May 2024. https://doi.org/10.1214/23-AIHP1369

Information

Received: 12 September 2022; Revised: 9 January 2023; Accepted: 14 January 2023; Published: May 2024
First available in Project Euclid: 11 June 2024

Digital Object Identifier: 10.1214/23-AIHP1369

Subjects:
Primary: 49Q22 , 62G20 , 62G30 , 62R07
Secondary: 60B10 , 62E20 , 62F35

Keywords: convergence rate , curse of dimensionality , Lower complexity adaptation , Manifolds , Metric entropy , Semi-discrete , Wasserstein distance

Rights: Copyright © 2024 Association des Publications de l’Institut Henri Poincaré

Vol.60 • No. 2 • May 2024
Back to Top