Gemini 1.5 Pro a des oreilles, l’IA peut écouter vos fichiers audio

Gemini 1.5 Pro se dote d’oreilles pour écouter vos fichiers audio. L’IA de Google peut ensuite produire des réponses ou extraire des informations. Le modèle se renforce avec cette fonctionnalité accessible via la plateforme Vertex AI.

Gemini 1.5 Pro Google IA intelligence artificielle AI modèle fichiers audio
  • Gemini 1.5 Pro peut désormais lire les fichiers audio pour produire des réponses et extraire les informations
  • Cette IA est uniquement accessible via Vertex AI
  • Imagen 2 a également droit à des fonctions pour ajouter ou supprimer des éléments aux images générées

Si ChatGPT reste l’IA générative la plus populaire du marché et que beaucoup attendent le déploiement prochain de GPT-5, Google n’a pas dit son dernier mot. Gemini s’enrichit de nouvelles fonctionnalités et s’invite dans de nombreuses applications comme Google Messages. Aujourd’hui, The Verge nous apprend que Gemini 1.5 Pro a désormais des oreilles !

À lire > Ajustez les réponses de Gemini avec cette fonction très pratique

Gemini 1.5 Pro peut écouter vos fichiers audio

L’IA peut écouter des fichiers audio que vous avez uploadé pour produire des réponses sans que vous n’ayez à écrire. Autrefois, il fallait transcrire un audio en texte pour le soumettre au modèle de Google. Gemini 1.5 Pro écoute directement les fichiers audio pour en extraire les informations pertinentes.

Par exemple, si une entreprise télécharge l’enregistrement audio de son appel sur ses résultats financiers, l’assistant peut l’analyser pour en extraire les statistiques, les tendances ou les déclarations importantes. Le gain de temps est énorme.

Gemini 1.5 Pro a été mis à disposition du public via sa plateforme Vertex AI. L’IA n’est donc pas accessible à tous. Ce modèle est plus puissant que Gemini Ultra en termes de performances. Il peut comprendre des instructions plus compliquées.

Imagen 2 a également droit à des nouveautés

En plus de cette IA, Imagen 2 aura également eu droit à une mise à jour. Cet outil de génération bénéficiera prochainement de fonctions permettant d’ajouter ou de supprimer des éléments aux images générées. Des options disponibles chez d’autres modèles.

Le modèle profite également du filigrane numérique SynthID qui ajoute un filigrane invisible qui peut être visualisé à l’aide d’un outil de détection.

Depuis plusieurs mois, les géants de la tech se livrent une guerre sans merci sur le marché des IA. Ces modèles ont explosé en fin d’année 2023 et tout le monde veut sa part du gâteau. Par exemple, Microsoft mise plus que jamais sur Copilot qu’il impose, parfois au forceps, aux utilisateurs de Windows 11.

logo Gemini (Google Bard)

Licence Gratuite

Télécharger Gemini (Google Bard)

Playstore : (35090 votes)

  • IA
  • Développeur Google
Service en ligneAndroid

👉 Vous utilisez Google News ? Ajoutez Tom's Guide sur Google News et sur Whatsapp pour ne rater aucune actualité importante de notre site.

Votre Newsletter Tom's Guide

📣 Souscrivez à notre newsletter pour recevoir par email nos dernières actualités !