La diffusion vidéo stable transforme n'importe quelle image en animation avec l'IA

Un nouveau modèle d’intelligence artificielle (IA) de Stability.ai peut transformer n’importe quelle image fixe en animation, a-t-il annoncé dans un communiqué plus tôt ce mois-ci. Il s’agit du dernier modèle d’IA créé par Stability.ai, une société d’IA open source créée en 2019. Le nouveau modèle s’appelle Stable Video Diffusion et est basé sur le modèle d’image Stable Diffusion de Stability.ai. L’intégralité du code de Stable Video Diffusion est disponible sur le référentiel Github de Stability.ai, et les utilisateurs peuvent désormais tester le modèle image-vidéo dans un aperçu de recherche.

Stable Video Diffusion génère une animation après qu’elle ait été conditionnée à partir d’une image téléchargée. Fondamentalement, cela signifie que le modèle d’IA utilise le contenu d’une image fixe pour animer une vidéo. Stability.ai a entraîné le modèle à créer 25 images basées sur une image fixe, combinées pour former une courte animation vidéo. Cependant, les utilisateurs peuvent également créer des vidéos de 14 images. L’animation peut être générée à une résolution allant jusqu’à 576 × 1024, mais cela nécessite que l’image téléchargée soit d’une taille égale ou supérieure.

La société estime que son modèle de diffusion vidéo stable est mieux accueilli par les utilisateurs que les modèles d’IA image-vidéo concurrents. Ceci est basé sur un document de recherche publié parallèlement à la sortie de Stable Video Diffusion. Cependant, il est important de noter qu’il ne s’agit pas d’une étude évaluée par des pairs et qu’elle ne peut donc pas être considérée comme totalement impartiale. Dans l’enquête auprès des utilisateurs, Stable Video Diffusion a été comparée au modèle GEN-2 de Runway et au modèle de Pika Labs.

Limites potentielles du modèle vidéo Stability.ai

La société répertorie cependant quelques limitations du modèle de diffusion vidéo stable. D’une part, les vidéos créées à partir d’images fixes ne peuvent durer qu’environ 4 secondes. Bien que cela puisse être utile pour le contenu en boucle, ce ne serait pas idéal pour tout type d’animation originale. En dehors de cela, Stability.ai indique que le modèle ne parvient parfois pas à créer une animation et restitue une image fixe à la place. De plus, le mouvement généré peut être lent ou peu naturel lors de l’animation d’une image IA.

De plus, comme de nombreux modèles d’IA, ce modèle de diffusion vidéo stable a du mal avec les visages et le texte. Tout texte contenu dans les images peut devenir illisible une fois traduit en vidéo, et les visages des personnes peuvent être déformés. Le modèle n’est pour le moment destiné qu’à des fins de recherche, mais toute personne souhaitant l’essayer peut se lancer sur le référentiel GitHub de l’entreprise. Vous aurez cependant besoin d’une certaine expérience préalable dans le téléchargement et l’exécution de code.

Cette dernière version poursuit le rythme rapide du développement de l’IA. Hier encore, Pika Labs a dévoilé un générateur d’IA texte-vidéo appelé Pika 1.0. Nous continuerons probablement à voir les générateurs de vidéos et d’images devenir plus avancés à mesure que la recherche se poursuit.