La géométrie de l'information


Frédéric Barbaresco et Frank Nielsen

La géométrie de l'information est née de la volonté de géométriser les espaces de distributions de probabilité. Elle s'appuie sur les notions de géométrie différentielle et sur l'étude des concepts d'invariance en statistique. Elle est aujourd'hui au coeur de nombreuses technologies.

Deux grandes tendances actuelles sont la « géométrisation » et la « probabilisation » des domaines techniques et scientifiques. Née au milieu du XX e siècle, la géométrie de l’information est à l’intersection des deux, via la métrique de Fisher–Koszul–Souriau (voir FOCUS). Elle consiste à introduire une distance entre des éléments d’un espace de probabilité, que l’on munit d’une structure métrique. Cette distance peut ainsi être définie entre deux variables aléatoires indépendantes ou, de façon équivalente, entre deux densités de probabilités (associées à ces deux variables). Le mathématicien japonais Shun-ichi Amari (né en 1936), qui a développé ses outils avec le Russe Nicolai N. Chentsov, a reçu de l’empereur l’Ordre de la culture en 2019.

 

Un succès planétaire

La géométrie de l’information connaît actuellement un succès planétaire. Si l’on effectue la requête « Information Geometry » dans Google, on obtient 186 000 occurrences ! En France, le groupement de recherche CNRS ISIS (Information, signal, image et vision) a organisé en 2019 une école d’été à Peyresq (Alpes-de-Haute-Provence) qui a dû refuser du monde. Le laboratoire d’excellence Centre international de mathématiques et d’informatique (CIMI) et l’Institut mathématique de Toulouse (Haute-Garonne) ont dédié un trimestre entier au sujet. Les actes des années 2013, 2015, 2017 et 2019 de la conférence « Geometric Science of Information » totalisent quatre volumes de près de neuf cents pages chacun édités chez Springer, qui a d’ailleurs lancé un journal spécialisé dédié à ce thème.

La géométrie de l’information est utilisée en particulier pour comprendre les « espaces latents » en apprentissage profond et pour faire des modèles génératifs. Dans les entreprises, la géométrie de l’information est devenue un outil populaire en IA : les GAFAMI (Google, Amazon, Facebook, Apple, Microsoft, IBM) utilisent le gradient naturel associé à la métrique de Fisher dans leurs outils d’apprentissage profonds.

Récemment, Yann Ollivier, médaille de bronze du CNRS, a été embauché par Facebook AI Paris en particulier pour ses travaux sur le gradient naturel. D’autres mathématiciens, comme Guillaume Desjardins et James Martens, employés par Google Deepmind, ou Takayuki Osogami, travaillant pour IBM Research, ont adapté le gradient naturel de la géométrie de l’information au deep learning. Gaetan Marceau Caron, ancien thésard de Thales, récemment embauché par le Montréal Institute for Learning Algorithms (MILA) au Canada, a couplé le gradient naturel avec le gradient stochastique de Langevin pour définir un gradient « natural Langevin dynamics », qui permet de régulariser l’apprentissage des réseaux profonds. En fait, le machine learning est très géométrique par essence.

La géométrie de l’information ne concerne pas uniquement les domaines de l’IA ou de l’ingénierie. En optimisation, l’algorithme CMA-ES, dont les fondations reposent sur IGO (Information Geometric Optimization), gagne le concours international Genetic and Evolutionary Computation depuis plus de trois ans.

 

En physique aussi

Dès 1987, Roger Balian, de l’Académie des sciences, a montré que les structures de l’information quantique sont géométriques. On ne peut définir précisément la mesure d’une information Qbit qu’en faisant appel à la métrique de Fisher basée sur l’entropie de von Neumann à partir de la géométrie de l’information.

Les capteurs, tout comme les communications et l’ordinateur quantiques, sont actuellement passés au crible par les chercheurs de Thales et de ses partenaires académiques du plateau de Saclay (Essonne) : atomes froids, défauts du diamant, dispositifs à base de supraconductivité. Ainsi, Thales travaille sur ces nouvelles propriétés pour développer la prochaine génération de senseurs quantiques.

Aujourd’hui, la précision d’atterrissage d’un vol Paris-New York orienté uniquement à l’aide d’une centrale inertielle (l’instrument de navigation des avions) serait de quelques kilomètres. Grâce aux futurs capteurs quantiques, cette précision d’atterrissage pourra atteindre le mètre près !

Frédéric Barbaresco travaille chez Thales (Limours, France) ;

Frank Nielsen travaille chez Sony CSL (Tokyo, Japon).

@FrnkNlsn

Lire la suite