Google DeepMind a présenté Veo 3.1, la dernière mise à jour de son modèle de génération vidéo. Comme son nom l'indique, il s'agit d'une version améliorée de Veo 3. Disponible via des plateformes telles que Flow, l'application Gemini et l'API Gemini, cette nouvelle itération vise à fournir aux créateurs des outils plus sophistiqués pour mélanger des images et améliorer le réalisme visuel dans les médias générés par l'IA. Google a également publié une version plus petite et moins puissante nommée Veo 3.1 Fast. Ce dernier offre des temps de génération plus rapides lorsqu'une fidélité totale n'est pas strictement nécessaire.
La fonctionnalité principale de Veo 3.1 est sa capacité à fusionner plusieurs images distinctes en un seul clip vidéo unifié. Cette fonctionnalité, appelée « Ingrédients de la vidéo » dans l'outil d'édition Flow, rationalise les premières étapes de la production. Un utilisateur peut saisir plusieurs images de référence distinctes (spécifiant un personnage, un objet ou un style artistique) et le modèle synthétise une scène continue incorporant tous ces éléments visuels. Une amélioration clé de cette version est la génération d'un son riche et synchronisé pour les clips. Cela ajoute une couche cruciale de profondeur et de professionnalisme qui manquait auparavant.
Le modèle répond également au besoin d'un meilleur flux narratif dans les clips générés. La fonctionnalité « Frames to Video » simplifie la création de transitions cinématographiques fluides. Les utilisateurs fournissent uniquement l'image de début et l'image finale d'une séquence, et Veo 3.1 génère automatiquement la séquence vidéo continue qui relie de manière transparente les deux points finaux. Cette fonction est particulièrement utile pour établir des plans ou des transitions astucieuses entre les scènes. Même si deux images contrastées peuvent produire des résultats imprévisibles et surréalistes, le fait de fournir des cadres esthétiquement similaires conduit à un résultat très cohérent.
De plus, les créateurs peuvent désormais créer des séquences plus longues. La fonctionnalité améliorée « Étendre » permet aux utilisateurs d'allonger un clip existant en demandant au modèle de baser la suite sur la dernière seconde de la séquence précédente. Cela permet de maintenir la cohérence et la continuité visuelles lors de la création de séquences pouvant durer une minute ou plus. Dans l’ensemble, cela devrait réduire considérablement les limitations historiques en matière de durée des vidéos dans les outils d’IA.
Google a également élargi la boîte à outils pour la manipulation directe de scènes. La fonctionnalité « Insérer » permet aux créateurs d'introduire de nouveaux éléments dans un clip existant. L'IA gère le travail d'intégration complexe, en ajustant automatiquement les ombres, l'éclairage et les textures pour garantir que l'ajout semble visuellement naturel dans la scène.
De plus, Google publiera bientôt une fonctionnalité qui permettra aux utilisateurs de supprimer les objets ou caractères indésirables d'un clip. L'IA reconstruira l'arrière-plan pour garantir une édition nette. Ces capacités d'édition précises offrent un niveau de contrôle granulaire que les créateurs apprécieront.
Veo 3.1 est désormais disponible, offrant un réalisme amélioré et une meilleure adhésion aux invites des utilisateurs. Cela promet également une compréhension plus fine des styles cinématographiques. L'introduction du modèle fournit un ensemble d'options plus précises et plus performantes pour ceux qui utilisent l'IA dans leurs flux de travail de création vidéo.
