Google a annoncé son nouveau modèle de vision PaliGemma 2

Il existe plusieurs modèles qui donnent à l'IA une paire d'yeux, et le modèle PaliGemma de Google en fait partie. Il s'agit du modèle de langage de vision de l'entreprise, capable d'identifier des objets et du texte dans des images. Google vient de lancer le nouveau modèle PaliGemma 2, et il est désormais disponible.

Le premier modèle PaliGemma est un outil utile. Il est utile pour identifier des objets dans des images ainsi que pour sous-titrer des images. En fait, il peut également sous-titrer de courtes vidéos. L'une des fonctionnalités les plus utiles de PaliGemma est la possibilité de répondre à des questions sur les images. C’est donc un modèle globalement puissant avec une tonne d’utilisation.

Google a annoncé le nouveau modèle PaliGemma 2

Google nous a officiellement présenté le modèle PaliGemma en mai. La société souhaite que PaliGemma 2 remplace le premier modèle. Donc, si vous utilisez la version 1 de PaliGemma, nous vous encourageons à changer.

Google propose PaliGemma 2 en plusieurs versions. Il existe les variantes de paramètres de 3 milliards, 10 milliards et 28 milliards. Il existe également des résolutions de 224, 448 et 896 pixels.

Quant aux autres spécifications, PaliGemma 2 propose de longs sous-titres. En outre, Google affirme que cela ira au-delà de la simple identification d'objets. Il semble que le modèle sera capable d'identifier les personnes et d'interpréter leurs émotions. Donc, si une personne est heureuse, triste, etc., alors PaliGemma 2 pourra s'en rendre compte.

En outre, il semble que le modèle identifiera davantage ce qui se passe dans la scène afin de raconter l'ensemble du récit. Google affirme que PaliGemma est meilleur lorsqu'il s'agit de reconnaître des partitions musicales, de reconnaître des formules chimiques, d'identifier la profondeur et de réaliser des rapports de radiographie pulmonaire.

Dans l’ensemble, il semble que Google ait fourni des mises à jour assez notables à PaliGemma. Si vous souhaitez l'utiliser, vous pouvez obtenir le code correspondant dans Hugging Face, Kaggle et Ollama.

Il existe un autre grand modèle de Google

Google a également publié l'aperçu privé de son modèle de génération vidéo nommé Veo. La société l'a annoncé lors de Google I/O cette année, et les gens l'attendaient. Si vous utilisez la plateforme cloud Vertex de Google, vous pourrez l'essayer. Vous pouvez générer des vidéos jusqu'à une résolution de 1080p.