Accueil » Actualité » VALL-E : cette IA imite parfaitement la voix d’une personne à partir d’un extrait de 3 secondes

VALL-E : cette IA imite parfaitement la voix d’une personne à partir d’un extrait de 3 secondes

Les chercheurs de Microsoft travaillent sur un modèle de synthèse vocale (TTS) qui peut imiter la voix d’une personne avec émotion et intonation après seulement trois secondes d’écoute. La technologie appelée VALL-E est décrite dans un document de recherche de 15 pages, publié ce mois-ci sur le site de recherche arXiv. Après ChatGPT, voici VALL-E, […]

Microsoft Vall-E
Microsoft Vall-E © Droits Réservés

Les chercheurs de Microsoft travaillent sur un modèle de synthèse vocale (TTS) qui peut imiter la voix d’une personne avec émotion et intonation après seulement trois secondes d’écoute. La technologie appelée VALL-E est décrite dans un document de recherche de 15 pages, publié ce mois-ci sur le site de recherche arXiv.

Après ChatGPT, voici VALL-E, une IA déjà impressionnante

VALL-E a été développée par le biais de Libri-Light, un ensemble de données open source de Meta qui comprend 60 000 heures de discours en anglais avec plus de 7 000 locuteurs uniques. Elle est capable de conserver l’environnement acoustique de la voix, c’est-à-dire que si vous lui faites écouter un enregistrement fait au téléphone, elle le restituera comme tel.

La capture de l’émotion est similaire, affirment les chercheurs. Ainsi, si les quelques secondes de la voix enregistrée expriment de la colère, le discours synthétisé basé sur cette voix affichera également de la colère.

À lire : Attention, cette fausse application ChatGPT est une escroquerie

Mirosoft affirme que « le discours synthétisé est aussi naturel que les enregistrements humains ». Il faut dire que les résultats sont déjà époustouflants. L’IA est capable de restituer le même son naturel de la voix enregistrée, ses émotions, en plus de l’environnement acoustique. Toutefois, les chercheurs ont noté certains problèmes qui doivent être résolus, notamment le fait que certains mots du discours synthétisé finissent par manquer, ne sont pas clairs ou sont dupliqués.

La firme de Redmond utilise déjà l’intelligence artificielle pour le traitement du langage naturel (NLP) via son activité Nuance qu’elle a achetée pour 20 milliards de dollars l’année dernière. Elle investit aussi et déjà de manière agressive au sein de la startup OpenAI, qui comprend ChatGPT, l’IA proposant depuis peu un abonnement payant.

La démo de VALL-E est disponible sur GitHub.