Une IA surpuissante capable de reproduire votre voix en 3 secondes ?

Choses à Savoir TECH

19-01-2023 • 2 minutes

Une équipe de chercheurs de Microsoft vient de dévoiler VALL-E, une nouvelle intelligence artificielle (IA) capable de synthétiser votre voix avec un échantillon de son de seulement trois secondes. Nommée VALL-E, un nom qui n’est pas sans rappeler DALL-E de Open AI qui génère des images à partir d’un texte, cette IA est capable de reproduire la voix de manière fluide et naturelle ! Vous vous en doutez, la méthode exacte utilisée par VALL-E étant extrêmement complexe. Mais pour résumer, l’IA utilise un système de réseau de neurones pour créer un modèle mathématique de la voix d'une personne en utilisant un enregistrement vocal de seulement 3 secondes de cette voix. Pour créer ce modèle, l'IA extrait les caractéristiques uniques de la voix utilisées pour décrire les sonorités de la voix. En couplant cela à l'apprentissage automatique, l'IA est capable de s'adapter aux différentes nuances et nuances de la voix de la personne, de sorte que la reproduction soit aussi fluide et naturelle que possible. D’après Microsoft, elle utilise également des techniques de traitement du signal pour éliminer les bruits de fond et autres perturbations afin d’améliorer la qualité de la reproduction. Côté technique, on vous avait déjà parlé d’EnCodec, cet outil développé par Meta pour la compression audio… et bien figurez-vous que Microsoft l’utilise également pour Vall-E. Mais le plus impressionnant, c’est qu’en plus de préserver le timbre et l'émotion de la personne qui parle, l’IA est capable de reproduire l'environnement et les conditions de l'enregistrement, lors d’un appel téléphonique par exemple. À noter que Microsoft s'est appuyé sur la bibliothèque sonore LibriLight qui contient plus de 60 000 heures de discours en anglais avec plus de 7 000 voix différentes, principalement tirés des livres audio du domaine public LibriVox. Mais pour que VALL-E génère un résultat pertinent, la voix dans l'échantillon de trois secondes doit correspondre étroitement à une voix déjà existante dans la base de données utilisée. Ainsi, attendez-vous à devoir enregistrer plusieurs heures de discours pour pouvoir entraîner l’IA et finir par cloner votre voix. VALL-E devrait ainsi être pertinent pour de nombreuses applications, comme recréer des voix pour des films ou des séries, ou encore recréer la voix d’une personne devenue muette par exemple, sans oublier malheureusement les éventuelles dérives liées à cette technologie comme l’usurpation d’identité. Learn more about your ad choices. Visit megaphone.fm/adchoices

Vous pourriez aimer

De quoi jme mail
De quoi jme mail
BFM Business
Tech Café
Tech Café
Guillaume Vendé
IFTTD - If This Then Dev
IFTTD - If This Then Dev
Bruno Soulez | Orso Media
Le Podcast AWS en Français
Le Podcast AWS en Français
Amazon Web Services France
Intelligence Artificielle - Data Driven 101 - Le podcast IA & Data 100% en français
Intelligence Artificielle - Data Driven 101 - Le podcast IA & Data 100% en français
Marc Sanselme - Scopeo - Agence d'Intelligence Artificielle
Culture Numérique
Culture Numérique
Siècle Digital
DataGen
DataGen
Robin Conquet
Oxytude
Oxytude
Oxytude
Fortnite Emotes
Fortnite Emotes
Lawrence Hopkinson
Futurs Numériques
Futurs Numériques
Emmanuel, Frédéric
Faut Pas Pousser Les ISO
Faut Pas Pousser Les ISO
Arthur Azoulay - Vincent Trujillo - Benjamin Favier
Choses à Savoir TECH
Choses à Savoir TECH
Choses à Savoir
Darknet Diaries
Darknet Diaries
Jack Rhysider
Tronche de Tech
Tronche de Tech
Mathieu Sanchez