Clonage de voix et synthèse vocale : des IA qui parlent (presque) comme des humains

Actualités

Une start-up a fait revivre le jeune Luke Skywalker en rajeunissant la voix de l’acteur Mark Hamill pour la série The Mandalorian. Nationaal Archief, Pays-Bas

The Conversation

Clonage de voix et synthèse vocale : des IA qui parlent (presque) comme des humains

Une start-up a fait revivre le jeune Luke Skywalker en rajeunissant la voix de l’acteur Mark Hamill pour la série The Mandalorian. Nationaal Archief, Pays-Bas
Olivier Zhang, Université de Rennes 1 - Université de Rennes

Redécouvrir une personnalité disparue le temps d’une émission ou d’un long métrage… c’est ce que l’IRCAM parvient à faire grâce aux dernières avancées en « clonage de la voix » (ou voice cloning) : Dalida dans l’émission Hôtel du Temps animée par Thierry Ardisson, Louis de Funès dans le film Pourquoi j’ai pas mangé mon père réalisé par Jamel Debbouze, ou encore le général de Gaulle dans une reconstitution de l’appel du 18 juin 1940.

Le clonage et la synthèse vocale sont des technologies basées sur des systèmes d’intelligence artificielle. Elles gagnent en maturité et sont amenées à faire progressivement partie de notre quotidien.

La synthèse vocale, ou text-to-speech, permet aujourd’hui de créer une grande variété de contenus audio, comme un groupe de musique virtuel, des livres audio ou le doublage en français de films et de jeux vidéo. Par exemple, le doublage de Luke Skywalker dans la série The Mandalorian a été réalisé par la start-up Respeecher, afin de faire rajeunir la voix de Mark Hamill de 30 ans, pour coller à la version du personnage qu’il a incarné dans les années 80. C’est aussi cette technologie qui permet aux assistants vocaux Siri et Alexa de s’exprimer quand vous leur adressez la parole.

Des dérives, détournements et arnaques sont bien sûr à craindre : il existe déjà de faux enregistrements de personnalités tenant des propos controversés générés par la plate-forme d’Elevenlabs, ainsi que des arnaques ciblant grandes entreprises (appelées « arnaque au président ») ou particuliers, où un faux proche demande d’urgence une grande somme d’argent.

Mais les technologies de synthèse vocale ont encore une très grande marge de progression : de très grandes quantités de données sont encore nécessaires pour entraîner correctement ces systèmes d’intelligence artificielle, et l’aspect subjectif de la parole rend très complexe un contrôle fin de la voix synthétisée.

En comprenant mieux le fonctionnement de ces technologies et leurs limites actuelles, on peut se faire une idée plus précise des enjeux et des points de vigilance qu’elles suscitent.

Un clip de MAVE, un groupe entièrement virtuel, y compris les voix.

La synthèse vocale, une des nombreuses applications de l’apprentissage profond

Les progrès accomplis par l’IA durant ces dernières années sont principalement liés à l’essor de l’apprentissage profond (deep learning), méthode se basant sur les « réseaux de neurones ».

Bien qu’il s’agisse d’un domaine de recherche très vaste et varié, le principe de fonctionnement reste le même que l’on traite de du texte, de l’image ou de l’audio : on collecte une très grande quantité de données, que l’on essaye d’abstraire sous une forme numérique qui soit facilement manipulable par un ordinateur, et qui puisse être utilisée de façon fiable pour réaliser diverses tâches liées aux données.

[Plus de 85 000 lecteurs font confiance aux newsletters de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

La difficulté est de construire correctement cette abstraction, pour qu’elle puisse se généraliser à des cas que l’on n’aurait pas rencontrés dans notre collecte de données. Nous, humains, sommes capables de généraliser des abstractions, par exemple d’associer à un objet des propriétés (couleur, forme, position), et nous pouvons facilement reconnaître ou imaginer ce même objet dans une autre couleur, avec une forme différente, dans une autre position ou un autre lieu, grâce à la représentation abstraite de cet objet et de ses propriétés que nous construisons dans notre cerveau. Si cette généralisation nous est innée, il en va tout autrement pour la machine.

En soi, le deep learning ne constitue pas une approche nouvelle en intelligence artificielle, mais sa force est de pouvoir « apprendre » automatiquement cette abstraction des données observées, et la manière de l’utiliser pour remplir diverses tâches. Les exemples de tâches les plus parlants portent sur les images : classification (est-ce une image de chien ? de chat ?), détection d’objets (y a-t-il un chat sur l’image ? combien ? où ?). Cela fonctionne également dans de très nombreux domaines, comme la voix : identification (qui parle ?), vérification (est-ce bien la bonne personne qui parle ?), transcription (qu’est-ce qui est dit ?), etc.

De la lecture à haute voix à une voix sur mesure

Faire lire un texte de façon réaliste et convaincante par une voix artificielle calquée sur une voix réelle s’appelle le « text to speech ». On pourrait par exemple faire dire à ma voix un texte de Shakespeare que je n’ai jamais prononcé. Le réseau de neurones est alors entraîné à calculer une abstraction du texte de Shakespeare, puis à en déduire une vocalisation avec une voix donnée, celle des données d’apprentissage (dans notre exemple, les données seraient de nombreux enregistrements de ma voix).

C’est ce qui permet la vocalisation de contenus textuels, fonctionnalité par exemple connue pour être intégrée dans Google Traduction : tapez un texte, et en un clic vous pouvez écouter sa prononciation dans votre langue ou dans celle traduite.

Sans même fournir de texte, il est également possible de faire de la « conversion de la voix » : transformer une voix pour qu’elle ressemble à une autre. Le réseau de neurones est entraîné à abstraire l’identité du locuteur d’un enregistrement cible, et à abstraire tout le reste depuis un enregistrement source : contenu linguistique, expressivité, rythmique, etc. Ces deux abstractions sont ensuite combinées de la bonne manière afin de produire une synthèse imitant la voix ciblée, sans altérer ce qui entoure la voix source.

Le clonage de la voix va encore plus loin : il rend possible la synthèse vocale d’une voix en se basant sur quelques minutes seulement, voire quelques secondes, d’énoncé de référence de la « voix cible »… mais pour arriver à cette prouesse, le réseau de neurones doit au préalable être entraîné sur des centaines, voire des milliers d’heures d’enregistrements d’autres voix afin d’assimiler un maximum de variabilité dans les voix.

Clonage de la voix de Dalida dans L’Hôtel du Temps.

De manière générale, on peut cibler d’autres caractéristiques que l’identité : le style, la vitesse d’élocution ou encore l’émotion – autant de types de conversion de la parole et de manière de contrôler la synthèse de la voix. Ces technologies sont encore expérimentales, mais commencent à trouver leur chemin dans l’industrie. On peut citer la start-up Coqui, qui propose entre autres un outil de contrôle avancé de la synthèse vocale, en plus du clonage de la voix.

Les limites de la synthèse vocale et la dépendance aux données annotées

Des systèmes d’intelligences artificielles sont donc capables d’assimiler et d’abstraire différents concepts (phonèmes, identités, émotions) véhiculés dans la voix pour les manipuler et générer de nouveaux contenus. Mais il faut garder à l’esprit que la capacité de génération des réseaux de neurones se cantonne aux concepts vus durant leur apprentissage. Il faut donc une grande variété de concepts, en quantité suffisante, pour espérer une synthèse naturelle et expressive.

Un très grand volume de données est donc nécessaire (plusieurs centaines d’heures, avec une grande variété de locuteurs différents) pour obtenir un résultat satisfaisant. Ces données d’apprentissage doivent être annotées pour mener à bien la phase d’apprentissage : qui parle ? Comment ? Qu’est-ce qui est dit ? À quel moment ? Le caractère subjectif de la parole nous contraint encore dans la majorité des cas à une annotation manuelle de centaines d’heures d’audio, rendant la constitution d’une « bonne » base de données chronophage et peu fiable. Cela réduit également les applications pour les langues pour lesquelles on a peu d’enregistrements vocaux.

En elle-même, la voix est un objet très complexe, avec des dimensions temporelles et subjectives. Encore aujourd’hui, il n’y a pas de cadre précis pour décrire clairement ce qui compose et caractérise une voix. Ainsi, la reproduction d’une voix donnée, que l’on a pas besoin de décrire à la main, est aujourd’hui de plus en plus réaliste. Mais le contrôle précis de ses caractéristiques (que l’on ne sait pas forcément définir) dans la synthèse est encore un problème ouvert. Par conséquent, la création complète d’une voix n’existant pas (génération de locuteur), la description précise de son timbre, son expressivité, sont encore des défis à relever). À noter que des méthodes contournant cet écueil sont développées, en permettant la synthèse d’une voix décrite avec du langage naturel, « avec nos mots ».

Cela nous amène au point commun reliant les éléments cités plus tôt qui ont récemment attiré l’attention du grand public (Hôtel du Temps, doublage, deepfakes vocaux) : un acteur doit prêter sa voix, apporter ce que l’IA ne maîtrise pas encore (l’émotion l’expressivité), pour que le clonage devienne méprenable. De fait, l’humain est toujours nécessaire pour la création de voix synthétiques expressives. Le text-to-speech peut se passer de notre intervention, mais perd alors de sa naturalité.

Quels sont les risques soulevés par la synthèse vocale ?

Récemment, les impressionnantes avancées des modèles génératifs ont engendré beaucoup de bouleversements. Les IA génératives d’images à partir de descriptions textuelles (DALL-E 2, Midjourney) ont provoqué une vague de protestations de la part d’artistes et illustrateurs, avec notamment le mouvement « No to AI generated images » sur la plate-forme Artstation. L’IA générative de texte ChatGPT a de son côté fait grand bruit pour ces capacités conversationnelles plus que convaincantes, et a également fait beaucoup réagir sur les risques qui en découlent.

De la même façon, les IA génératives de parole suscitent des réactions, parfois inquiètes. Les doubleurs notamment, voient leur activité menacée, et commencent à protéger leur propriété et les droits d’usage de leur voix. Il faudra également faire de preuve de vigilance quant aux détournements, arnaques et fraudes rendus possibles grâce à la synthèse vocale. La facilité grandissante de l’accès aux technologies de clonage de la voix et synthèse vocale de bonne qualité fait également craindre une multiplication de faux contenus en ligne, ce qui rendra difficile le travail de vérification de ces sources.

Pour finir, il faut garder à l’esprit que l’IA reste un outil : il faut se méfier pas tant de l’outil que de son usage. Il convient donc d’accroître notre vigilance à l’égard des contenus numériques (audio, images, vidéos), le temps que la législation concernant ces technologies se mette en place. On peut également rappeler les bénéfices potentiels de ces outils : accessibilité et inclusion pour les personnes atteintes de troubles de la vision ou du langage, aide à l’apprentissage pour les élèves, ou encore aide à l’apprentissage de langues étrangères.


Cet article est publié en partenariat avec le laboratoire d'Orange Innovation.

Olivier Zhang, Doctorant en IA, Orange Innovation, Université de Rennes 1 - Université de Rennes

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Les prix mentionnés dans cet article le sont à titre indicatif et sont susceptibles d’évoluer. Certains liens de cet article sont des liens d'affiliation, susceptibles d'utiliser des cookies afin de permettre à Iziva.com de percevoir une commission en cas d'achat sur le site partenaire.

Facebook Pin It

Articles en Relation

Pourquoi notre cerveau est-il devenu aussi énergivore ? Image de rawpixel.com sur Freepik Pourquoi notre cerveau est-il devenu aussi énergivore ? Robert Foley, University of Cambridge et Marta M...
Feriez-vous confiance à une fourmi pour une amputation ? La science démontre leu... Image de vecstock sur Freepik Feriez-vous confiance à une fourmi pour une amputation ? La science démontre leur compétence en chirurgie ...
La pornographie générée par l'IA perturbera l'industrie du sexe et soulèvera de ... La pornographie générée par l'IA perturbera l'industrie du sexe et soulèvera de nouvelles préoccupations éthiques ...
Comment les abeilles se tiennent chaud en hiver ? Image de pvproductions sur Freepik Comment les abeilles se tiennent chaud en hiver ? Eric Darrouzet, Université de Tours ...
L’avenir des médias et de l’influence repose-t-il sur les newsletters ? Image de pch.vector sur Freepik L’avenir des médias et de l’influence repose-t-il sur les newsletters ? Les newsle...
Découverte d’une fraude scientifique pour booster artificiellement l’impact des ... Image de vecstock sur Freepik Image de freepik Découverte d’une fraude scientifique pour booster artificiellement l’impact des recherches ...

ACTUALITÉS SHOPPING IZIVA