Apple a développé une intelligence artificielle capable de décrire en temps réel ce que voit une caméra. Cette technologie laisse entrevoir les futures lunettes intelligentes de la marque.
Plus tôt cette année, Apple a discrètement présenté FastVLM, un modèle vision-langage. Contrairement aux générateurs d’images, cette IA observe une image et décrit son contenu avec des mots. Elle transforme ce qu’elle voit en texte de manière rapide et précise.
Aujourd’hui, FastVLM est disponible sur Hugging Face. Les utilisateurs avancés peuvent télécharger la version complète avec 7 milliards de paramètres, ou choisir des versions plus légères avec 1,5 ou 0,5 milliard de paramètres. Même sans installation, il est possible de tester le modèle 0,5 directement dans un navigateur.
Comment ça fonctionne ?
Par défaut, FastVLM décrit ce qu’il voit à travers une webcam en une seule phrase. Mais on peut changer la consigne. Il peut lire un texte sur une affiche, reconnaître des objets précis ou identifier l’émotion d’une personne.
Le modèle fonctionne sur différents ordinateurs, mais il a été optimisé pour les processeurs Apple. Sur un Mac, il serait jusqu’à 85 fois plus rapide que d’autres modèles similaires.
Pourquoi Apple développe-t-il cette IA ?
FastVLM pourrait avoir plusieurs usages pratiques. Dans un Vision Pro ou un iPhone, il pourrait, par exemple, scanner le contenu d’un frigo pour créer une liste de courses ou suggérer des recettes. Il pourrait aussi traduire des panneaux et des affiches à l’étranger. Mais son potentiel est surtout important pour des lunettes intelligentes, similaires aux Ray-Ban Meta.
Apple travaille sur ses propres lunettes, qui pourraient sortir vers 2026 ou 2027. Avec FastVLM intégré, elles pourraient décrire en continu le monde qui nous entoure. Cela serait particulièrement utile pour les personnes malvoyantes, qui pourraient ainsi mieux comprendre leur environnement au quotidien.
Source : Futura Sciences