Une IA surpuissante capable de reproduire votre voix en 3 secondes ?

19-01-2023 • 2 minutes

Une équipe de chercheurs de Microsoft vient de dévoiler VALL-E, une nouvelle intelligence artificielle (IA) capable de synthétiser votre voix avec un échantillon de son de seulement trois secondes. Nommée VALL-E, un nom qui n’est pas sans rappeler DALL-E de Open AI qui génère des images à partir d’un texte, cette IA est capable de reproduire la voix de manière fluide et naturelle ! Vous vous en doutez, la méthode exacte utilisée par VALL-E étant extrêmement complexe. Mais pour résumer, l’IA utilise un système de réseau de neurones pour créer un modèle mathématique de la voix d'une personne en utilisant un enregistrement vocal de seulement 3 secondes de cette voix. Pour créer ce modèle, l'IA extrait les caractéristiques uniques de la voix utilisées pour décrire les sonorités de la voix. En couplant cela à l'apprentissage automatique, l'IA est capable de s'adapter aux différentes nuances et nuances de la voix de la personne, de sorte que la reproduction soit aussi fluide et naturelle que possible. D’après Microsoft, elle utilise également des techniques de traitement du signal pour éliminer les bruits de fond et autres perturbations afin d’améliorer la qualité de la reproduction. Côté technique, on vous avait déjà parlé d’EnCodec, cet outil développé par Meta pour la compression audio… et bien figurez-vous que Microsoft l’utilise également pour Vall-E. Mais le plus impressionnant, c’est qu’en plus de préserver le timbre et l'émotion de la personne qui parle, l’IA est capable de reproduire l'environnement et les conditions de l'enregistrement, lors d’un appel téléphonique par exemple. À noter que Microsoft s'est appuyé sur la bibliothèque sonore LibriLight qui contient plus de 60 000 heures de discours en anglais avec plus de 7 000 voix différentes, principalement tirés des livres audio du domaine public LibriVox. Mais pour que VALL-E génère un résultat pertinent, la voix dans l'échantillon de trois secondes doit correspondre étroitement à une voix déjà existante dans la base de données utilisée. Ainsi, attendez-vous à devoir enregistrer plusieurs heures de discours pour pouvoir entraîner l’IA et finir par cloner votre voix. VALL-E devrait ainsi être pertinent pour de nombreuses applications, comme recréer des voix pour des films ou des séries, ou encore recréer la voix d’une personne devenue muette par exemple, sans oublier malheureusement les éventuelles dérives liées à cette technologie comme l’usurpation d’identité. Learn more about your ad choices. Visit megaphone.fm/adchoices