Comment le Centre Pompidou a « recréé » la voix d'André Breton grâce à l'IA
« S
urréalisme : nom masculin. Automatisme psychique pur par lequel on se propose d'exprimer, soit verbalement, soit par écrit, soit de toute autre manière, le fonctionnement réel de la pensée. L'image est une création pure de l'esprit… » Ainsi résonne, dans la bande-annonce de l'exposition « Surréalisme », la voix d'André Breton lisant son fameux Manifeste du surréalisme. Paru en 1924, le texte pose les bases d’un mouvement qui allait profondément changer l’art au 20e siècle. Pourtant, Breton n'a jamais enregistré ses phrases : sa voix a été entièrement « recréée » grâce à une intelligence artificielle. Quasi spectrale, elle retentit aussi dès l'entrée de l'exposition, dont elle est l'une des curiosités. Conçue comme un véritable labyrinthe mental, « Surréalisme » retrace plus de quarante années d'effervescence créative en présentant les œuvres incontournables de Salvador Dalí, René Magritte, Max Ernst, Joan Miró, Leonora Carrington, Dora Maar – entre autres. Le fameux manuscrit original (et centenaire) du Manifeste, exceptionnellement prêté par la Bibliothèque nationale de France, y figure en majesté, dans un tambour central d’où rayonnent les différentes salles.
Bande-annonce de l'exposition, avec la voix d'André Breton générée par IA par les chercheurs de l'Ircam.
Mais pourquoi diable avoir voulu « reconstituer » la voix d’André Breton ? Marie Sarré, commissaire de l’exposition aux côtés de Didier Ottinger, raconte : « Nous savions qu’il n’existait pas d’enregistrement original du Manifeste. Alors afin de faire connaître du grand public ce texte fondateur, il nous a semblé pertinent de l’incarner. » L’idée germe alors d’en faire lire quelques passages à un double vocal de Breton entièrement généré par l’intelligence artificielle, dont les progrès sidérants (et parfois inquiétants) agitent ces dernières années la planète entière. Aube Elléouët, la fille et ayant-droit du poète disparu en 1966 donne rapidement son feu vert. Thierry Dufrêne, commissaire associé de l’exposition et fin connaisseur du Manifeste est consulté sur le choix des extraits.
Puis les équipes du Musée national d’art moderne se tournent vers l'Institut de recherche et coordination acoustique/musique. En matière d'intelligence artificielle, l'Ircam possède déjà de solides expériences. En 2023, ses équipes de recherche, en collaboration avec sa filiale commerciale Ircam Amplify, avaient « ressuscité » la voix du général De Gaulle lançant son historique appel du 18 Juin, à la demande du quotidien Le Monde. En 2022, c'était la chanteuse Dalida qui se retrouvait « clonée » vocalement pour les besoins de l'émission « Hôtel du temps » de Thierry Ardisson, diffusée sur France 2.
Nous savions qu’il n’existait pas d’enregistrement original du Manifeste. Alors afin de faire connaître du grand public ce texte fondateur, il nous a semblé pertinent de l’incarner.
Marie Sarré, commissaire de l'exposition
Pour Breton, la « recréation synthétique » a été pilotée par les équipes recherche de l'Ircam. Ici, comme pour De Gaulle ou Dalida, les recherches, menées par Axel Roebel (directeur de l'équipe analyse/synthèse), se sont appuyées sur des modèles d’intelligence artificielle utilisant l’apprentissage profond (machine learning) et les réseaux de neurones. Il y a dix ans, Axel Roebel avait déjà réussi à « réinventer » la voix du maréchal Pétain pour un documentaire intitulé Juger Pétain, et ce grâce à un algorithme conçu dans son laboratoire de recherche. Un vrai travail de fourmi qui avait pris plusieurs mois. « Aujourd’hui, explique le chercheur, les choses vont beaucoup plus vite grâce aux progrès fulgurants de l’IA. Il ne faut plus que quelques jours au supercalculateur Jean Zay pour produire un résultat probant. »
Nommé en hommage au fondateur du Cnrs (et ministre de l’Éducation nationale du Front populaire), Jean Zay est l’un des trois superordinateurs français dédiés au calcul scientifique. D’une puissance de trente-six pétaflops (soit trente-six millions de milliards d’opérations par seconde !), il est situé sur le campus d’Orsay (Essonne), au cœur du laboratoire de l’Institut du développement et des ressources en informatique scientifique (Idris) du Cnrs. Tout récemment, le supercalculateur vient de s’équiper des nouvelles cartes graphiques GPU H100, fabriquées par le leader du marché, Nvidia — le nerf de la guerre de l’IA. Pour s’y connecter ? Rien de plus simple : Axel Roebel ouvre son PC et entre ses mots de passe pour une nouvelle session. Ensuite, le chercheur tape d’hermétiques lignes de commande…
Aujourd’hui, les choses vont beaucoup plus vite grâce aux progrès fulgurants de l’IA. Il ne faut plus que quelques jours au supercalculateur Jean Zay pour produire un résultat probant.
Axel Roebel, ingénieur de l'Ircam spécialisé en IA
« Cloner » une voix grâce à l'IA est une opération complexe, qui se fait en plusieurs phases. Axel Roebel résume : « la création d’un modèle de voix nécessite d'avoir plusieurs heures d’enregistrements, ce qui est rarement le cas pour les voix historiques. Afin de permettre à la machine "d’apprendre" la voix de Breton (nommée cible) et celle d'un acteur que l'on a au préalable enregistré (la source), il faut compléter les "trous"... Cela se fait grâce à une bibliothèque de voix de locuteurs français, dont on a nourri le modèle. Pour se les représenter, le modèle se construit alors ce que l'on nomme un espace latent, et cela prend environ 24 heures de calcul. Vient ensuite la phase de fine-tuning — l’affinage, soit 9 heures de calcul. À la fin, si tout marche bien, le modèle "recompose" l’identité des locuteurs source et cible en respectant des paramètres comme l’intonation ou la durée des phonèmes. » En tout, la machine aura tourné près de 36 heures. Et oui, malgré sa puissance de calcul, l’intelligence artificielle a encore besoin de l’humain, un comédien dont la voix est enregistrée en studio, notamment pour « jouer les émotions et transporter l’expressivité », comme le précise Axel Roebel — ce que l’IA ne sait pas (encore) faire.
C’est le comédien de théâtre Hugues Jourdain, 31 ans, qui a eu la rude tâche d’incarner un André Breton… rajeuni. Quand paraît son Manifeste en 1924, l’artiste a en effet à peine une trentaine d'années. Mais pour entraîner l’IA, les chercheurs n’ont pu lui donner que des enregistrements de la voix de Breton datant des années 1940-1950, quand il approche les cinquante ans. D’autres enregistrements existent, notamment lorsque celui-ci, en exil à New York durant l’Occupation, était speaker pour l’émission radiophonique « Voice of America ». Axel Roebel l’assure, « plus la voix source ressemble à la voix cible, notamment dans les paramètres d’expressivité comme le débit de parole ou la durée des pauses, meilleur sera le résultat ». Hugues Jourdain est doué pour les imitations vocales — il excelle en Michel Houellebecq.
La voix d'André Breton est élégante, avec une pointe de snobisme parfois, des voyelles rallongées et certaines sonorités propres à l’époque.
Hugues Jourdain, comédien qui a prêté sa voix à l'IA
Lors d’une session en studio fin 2023, le comédien s’est ainsi parfaitement « glissé » dans la voix de Breton en lisant le Manifeste, « un texte assez obscur, très singulier et poétique, mais facile à interpréter ». Quelles sont les spécificités de la voix de Breton ? « Je dirais élégante, avec une pointe de snobisme parfois, des voyelles rallongées et certaines sonorités propres à l’époque », décrit le comédien. Après un passage entre les oreilles expertes de l’ingénieur du son de l’Ircam Sylvain Cadars pour une phase de post-production, la voix est fin prête. Et le résultat est troublant de vérité. Marie Sarré : « la voix de Breton recréée par l’Ircam a quelque chose de surréel, et ça colle parfaitement avec l’esprit de l’exposition ! » ◼