Un robot apprend à parler comme un humain en regardant YouTube

Ce robot peut enfin parler comme vous et moi.

Un robot chantant
Une image générée par l’IA / Freepik
L’avenir des robots : des visages qui parlent comme les humains

L’avenir de l’intelligence artificielle passe par la Physical AI, c’est-à-dire des systèmes dotés d’une présence physique grâce aux robots. Lorsqu’un robot possède un visage capable de s’exprimer, il se confronte à un nouveau défi : reproduire les mouvements faciaux humains pour communiquer de manière naturelle.

Une équipe de l’université Columbia, aux États-Unis, a publié récemment dans Science Robotics une étude montrant comment ils ont enseigné à un robot à maîtriser la synchronisation labiale, ou lip-sync, à l’aide de vidéos YouTube. Le robot est équipé d’un visage flexible doté de 26 moteurs, lui permettant de générer une large gamme d’expressions faciales.

A lire > Les robots ressentent mieux que nous ? Ce n’est plus de la science-fiction

Comment le robot apprend à parler ?

Pour commencer, le robot a été placé devant un miroir afin d’observer comment ses propres muscles faciaux se déforment, un processus comparable à l’apprentissage chez un enfant. Grâce à un modèle combinant vision, langage et action (VLA), il a pu associer différents sons à des mouvements précis de ses lèvres.

La deuxième étape a consisté à lui faire visionner des vidéos de personnes parlant ou chantant dans plusieurs langues et styles vocaux. Ainsi, il a appris à reproduire les mouvements des lèvres correspondant à des sons variés, allant des mots aux chansons. Les chercheurs ont partagé des séquences qui montrent le robot parlant en anglais, français, japonais, coréen, espagnol, italien et allemand, avec un réalisme surprenant.

Des progrès impressionnants, mais des ajustements restent nécessaires

Si le résultat est prometteur, le robot rencontre encore des difficultés avec certains phonèmes comme le « B » ou le « W ». Les chercheurs sont toutefois confiants qu’un entraînement supplémentaire améliorera la précision.

« Lorsque la synchronisation labiale est combinée à une IA conversationnelle telle que ChatGPT ou Gemini, l’effet produit une connexion beaucoup plus naturelle avec l’humain », explique Yuhang Hu, co-auteur de l’étude. Plus le robot interagira avec des humains, plus ses expressions sembleront réalistes, réduisant ainsi le malaise lié à la vallée de l’étrange, ce phénomène où un robot trop humain, mais imparfait, suscite inconfort ou rejet.

Cette avancée ouvre la voie à des robots capables de communiquer plus naturellement, non seulement avec la voix mais aussi par leurs expressions faciales, rapprochant l’intelligence artificielle de l’interaction humaine authentique.