Au milieu des crépitements, une voix sans équivoque surgit : « Quoi qu’il arrive, la flamme de la Résistance française ne doit pas s’éteindre et ne s’éteindra pas ! dit le général de Gaulle. Ou plutôt, il est délivré par un clone vocal développé pour Le Monde par des informaticiens et des chercheurs de l’Institut de recherche et de coordination en acoustique/musique (Ircam) et de la société technologique Ircam Amplify. Le défi était sans précédent : reconstituer l’audio de l’Appel du 18 juin 1940, dont l’enregistrement original a disparu, s’il a jamais existé. Ce projet visait à mieux comprendre le fonctionnement, les promesses et les risques des technologies basées sur l’intelligence artificielle, notamment les deepfakes.
« Nous avons développé un modèle informatique capable de reproduire automatiquement toutes les émotions et articulations dynamiques d’une voix existante », explique Axel Roebel, directeur de recherche à l’Ircam. Il suffit de quelques minutes d’enregistrement vocal pour définir son ADN sonore, puis le reproduire ou le modifier à volonté. Contrairement à de nombreux outils de synthèse vocale, qui génèrent à partir d’un texte une voix artificielle intelligible mais souvent robotique et monotone, la technologie de clonage vocal permet de reproduire une voix tout en conservant sa qualité naturelle et en modulant ses émotions.
Ces deepfakes audio et leurs variantes vidéo inspirent la créativité audiovisuelle. En 2022, l’avatar numérique de la chanteuse Dalida répondait aux questions de Thierry Ardisson, sur France Télévisions. L’écrivain de science-fiction Isaac Asimov a contribué post mortem à un documentaire diffusé sur la chaîne de télévision Arte.
Sous la supervision de chercheurs en éthique et d’historiens, Le Monde poser une limite claire à son projet : faire dire au clone vocal du général seulement ce qui a été réellement dit le 18 juin 1940, sans aucun mot inventé qui donnerait lieu à de (faux) révélations post-mortem.
Les paradoxes de la technologie
La première étape consistait à enregistrer une version audio du texte du discours. L’acteur et réalisateur François Morel a participé à cet exercice « insolite, donc intéressant ». Les chercheurs de l’Ircam ont ensuite défini l’ADN vocal de De Gaulle à partir d’une douzaine de déclarations enregistrées par la BBC entre 1940 et 1944. Finalement, après cinq jours de calculs informatiques, ils ont appliqué cette identité vocale à l’interprétation de Morel. L’émotion et le rythme du discours sont ceux de l’acteur, tandis que le ton et l’identité de la voix sont ceux de de Gaulle. Le résultat est à la fois étrange, fragile et saisissant. « Le dernier mot a-t-il été dit ? L’espoir doit-il disparaître ? » » entonne le clone vocal en roulant légèrement les « r », la gorge serrée, avant de conclure par un vibrant « Non !
Il vous reste 27,62% de cet article à lire. Le reste est réservé aux abonnés.
« Analyste de longue date. Passionné de cuisine subtilement charmant. Introverti. Accro aux médias sociaux. Lecteur. Pionnier général de la télévision. Étudiant. Future idole des adolescents. »