Google dévoile Gemini 1.5 avec une fenêtre contextuelle insensée

Google a récemment publié Gemini, son modèle d’IA le plus puissant. Il a rapidement dépassé le rôle du modèle d’IA phare de Google, remplaçant complètement Bard. Alors que Gemini n’a que deux mois, Google nous a présenté Gemini 1.5, la prochaine génération de technologie d’IA de l’entreprise.

Si vous avez été sous le choc ces dernières semaines, vous aurez besoin d’un petit rappel. Google Bard a disparu ; l’entreprise l’a remplacé par Gemini. Vous pouvez y accéder via le site Web et via l’application officielle. De plus, si vous recherchez une version plus avancée du modèle, vous pouvez essayer Gemini Advanced. Il s’agit du chatbot qui utilise le modèle Gemini Ultra.

Ainsi, avec le départ de Bard, il semble que Google ait pour objectif de remplacer Google Assistant à terme. Nous ne savons pas exactement quand cela se produira, mais nous en voyons déjà des signes. Par exemple, vous pouvez désormais utiliser l’application Gemini en remplacement de l’Assistant Google sur votre téléphone.

Google a présenté Gemini 1.5 avec une fenêtre contextuelle insensée

Étant la version 1.5 de Gemini, vous pouvez vous attendre à une expérience beaucoup plus puissante que la version 1.0. La société a annoncé ce nouveau modèle via un article de blog Google. Le PDG de Google (Sundar Pichai) et le PDG de Google DeepMind (Demis Hassabis) ont expliqué pourquoi Gemini 1.5 est supérieur au premier modèle.

Qu’est-ce qu’une fenêtre contextuelle ? Que sont les jetons ?

Avant d’aborder ce qui rend cette itération plus puissante, voici un rappel sur les fenêtres contextuelles et les jetons. UN jeton est un peu d’information qui peut être traitée par un modèle. Il peut s’agir d’une partie d’un mot, d’un morceau d’audio, d’un morceau de vidéo ou d’un morceau d’image. Par exemple, un mot aussi simple que « Grille-pain » est composé d’une poignée de jetons.

Un modèle ne peut comprendre qu’un certain nombre de jetons à la fois. Le nombre de jetons qu’un modèle peut comprendre à la fois est appelé le fenêtre contextuelle. Plus la fenêtre contextuelle est grande, plus votre requête peut être volumineuse.

Supposons que vous collez votre rapport universitaire dans Gemini pour le résumer, et votre rapport compte 2 000 mots (disons simplement que cela équivaut à 5 000 jetons). Tant que la fenêtre contextuelle contient plus de 5 000 jetons, Gemini peut comprendre chaque information contenue dans votre rapport.

Gemini 1.5 pourrait avoir une formidable fenêtre contextuelle

Le changement le plus important est la fenêtre contextuelle massive. La société déploie Gemini 1.5 Pro pour des tests préliminaires et dispose d’une fenêtre contextuelle impressionnante de 128 000 jetons. Pour mettre cela en perspective, Gemini 1.0 a une fenêtre contextuelle de 32 000. Cela représente 4 fois plus de jetons.

Cela ne s’arrête pas là, puisqu’un petit groupe de testeurs aura accès à une version de Gemini 1.5 avec une fenêtre contextuelle allant jusqu’à 1 million de jetons. Avec une fenêtre comme celle-là, vous pouvez lui fournir un roman de 700 000 mots, 30 000 lignes de code, 11 heures d’audio ou une heure de vidéo, et il en comprendra chaque instant. Avec autant de jetons, vous pouvez y insérer les quatre premiers livres de la série Dark Tower de Stephen King. Cela représente plus de 609 000 mots et 2 000 pages.

Google a même déclaré avoir testé jusqu’à 10 millions de jetons en interne, mais cela ne sera pas rendu public de si tôt. Quoi qu’il en soit, c’est formidable de voir que Google repousse les limites de la technologie de l’IA si loin et si rapidement.

Autres améliorations

Outre la fenêtre contextuelle accrue, vous pouvez vous attendre à d’autres améliorations telles qu’un meilleur raisonnement, de meilleures compétences d’apprentissage, une meilleure éthique et bien d’autres encore. Le billet de blog donne beaucoup plus de détails. Donc, si vous êtes un passionné d’IA, vous aurez envie de lire l’article de blog. Il approfondit davantage ce qui alimente ce modèle d’IA.

Lire l’article du blog