AheadForm F1 : la vidéo de ce robot qui a appris à parler seul risque bien de vous hanter pendant des jours

On croyait que la vallée de l’étrange protégeait encore une frontière nette entre l’humain et la machine. Le F1 d’AheadForm vient de l’enjamber. Ce demi-humanoïde chinois synchronise ses lèvres avec la parole en temps réel, dans dix langues, après avoir appris seul en se regardant dans un miroir. La vidéo met mal à l’aise. L’étude publiée dans Science Robotics, elle, force le respect.

Le F1 d'AheadForm face à son créateur Yuhang Hu. Le demi-humanoïde suit le regard de son interlocuteur et synchronise ses lèvres avec la parole en temps réel.
Le F1 d’AheadForm face à son créateur Yuhang Hu. Le demi-humanoïde suit le regard de son interlocuteur et synchronise ses lèvres avec la parole en temps réel. © AheadFrom

Le robot F1 est un buste articulé recouvert de silicone souple, pensé pour l’interaction sociale directe : enseignement, accompagnement thérapeutique, accueil. Tout se joue dans sa bouche. Là où la plupart des humanoïdes remuent vaguement les lèvres comme des marionnettes, le F1, lui, articule. Il forme des mots, adapte ses mouvements labiaux à la prosodie, et le fait dans dix langues qu’il n’a jamais étudiées.

Un robot qui apprend son propre visage

La méthode, développée par le fondateur Yuhang Hu et l’équipe de Hod Lipson à Columbia, tient en deux étapes. D’abord, le robot est placé devant un miroir. Il génère des milliers d’expressions aléatoires et observe les résultats : il cartographie sa propre mécanique faciale. Ensuite, il regarde des heures de vidéos YouTube de personnes qui parlent et chantent. Un pipeline auto-supervisé, fondé sur un autoencodeur variationnel couplé à un transformeur d’actions faciales, lui permet alors de déduire les trajectoires labiales directement à partir du signal audio, sans règle préprogrammée.

L’étude, publiée dans Science Robotics en janvier 2026, confirme une synchronisation lèvres-son nettement supérieure aux approches classiques fondées sur l’amplitude, avec une généralisation à des contextes linguistiques jamais rencontrés pendant l’entraînement.

À lire : Les robots ont désormais leur propre réseau social… sans contrôle humain

L’expressivité comme pari commercial

AheadForm, fondée en 2024 à Shanghai par Hu alors qu’il avait 26 ans, ne cherche pas à construire un robot qui marche ou qui porte des cartons. L’entreprise concentre tout sur le visage. Ses têtes robotiques embarquent jusqu’à 30 micromoteurs brushless qui produisent clignements, regards latéraux et micro-expressions avec une précision suffisante pour mettre mal à l’aise. Le système CharacterMind, qui coordonne ces moteurs, fusionne données visuelles, audio et temporelles pour construire un modèle émotionnel de l’interlocuteur en temps réel.

La difficulté est connue sous le nom de vallée de l’étrange (uncanny valley, en anglais) : plus le réalisme progresse, plus la tolérance du public diminue face à la moindre imperfection. AheadForm fait le calcul inverse et mise sur l’idée que la synchronisation labiale était le dernier obstacle avant l’acceptabilité. Reste à vérifier cette hypothèse hors des laboratoires et des vidéos virales.

Source : Science Robotics