Si Gemini avait du mal à faire mieux que GPT-4, Google continue de redéfinir le paysage de l’intelligence artificielle avec le lancement de Gemini 1.5 et Gemini 1.5 Pro, marquant une étape significative dans l’évolution des modèles de langage à grande échelle (LLM).

Ces mises à jour ne sont pas seulement des améliorations incrémentielles, mais symbolisent surtout un bond en avant dans la capacité de l’IA à comprendre, raisonner et interagir avec une quantité massive d’informations.

Gemini 1.5 : voici pourquoi cette mise à jour de Google est un tournant historique pour l’IA

En s’appuyant sur des architectures transformer et Mixture of Experts (MoE), Google parvient à spécialiser ses modèles pour des tâches spécifiques, permettant une utilisation plus ciblée et efficace des ressources de calcul. Cette approche n’est pas seulement une question de puissance brute ; elle reflète une compréhension plus profonde de la manière dont l’intelligence artificielle peut être optimisée pour des performances maximales tout en minimisant le gaspillage de calcul.

La version Pro de Gemini 1.5, notamment, se distingue par sa capacité à traiter des volumes d’information sans précédent. Avec une fenêtre contextuelle standard de 128 000 tokens, et la possibilité pour certains utilisateurs de l’étendre jusqu’à 1 million de tokens, Gemini 1.5 Pro définit un nouveau standard.

Cette fonctionnalité est particulièrement impressionnante, permettant au modèle de gérer des tâches telles que l’analyse d’une heure de vidéo (ci-dessus), 11 heures d’audio, ou le traitement de plus de 100 000 lignes de code (ci-dessous).

Au-delà de ces chiffres, la véritable magie de Gemini 1.5 Pro réside dans sa capacité à apprendre et à s’adapter. Par exemple, lorsqu’il est confronté aux transcriptions de 402 pages de la mission Apollo 11, le modèle ne se contente pas de traiter les données ; il les comprend, les analyse et fournit des résumés et des insights comme le ferait un expert humain. Cette capacité à raisonner sur les données, à en extraire des détails pertinents et à les interpréter est ce qui distingue Gemini 1.5 Pro.

L’un des tests les plus fascinants concerne l’apprentissage du modèle à traduire une langue peu connue, le Kalamang, avec moins de 200 locuteurs dans le monde. En fournissant à Gemini 1.5 Pro un manuel de grammaire, Google a démontré la capacité d’apprentissage et d’adaptation du modèle, qui a réussi à traduire de l’anglais vers le Kalamang à un niveau comparable à celui d’un humain apprenant la même langue. Cette prouesse n’est pas seulement un exploit technique ; elle souligne l’importance de l’IA dans la préservation et l’étude des langues menacées.