La technologie ShengShu déploie Vidu 2.0, pour une vitesse de génération vidéo plus rapide et un coût inférieur

La technologie ShengShu a fait irruption sur la scène avec des premières, comme la cohérence à entités multiples, et la première plate-forme vidéo générative disponible dans le commerce, Vidu. Et la société a annoncé aujourd'hui avoir réussi à attirer 10 millions d'utilisateurs au cours des 100 premiers jours. Mais il est encore tôt et de nombreux problèmes à l'échelle du secteur doivent faire l'objet d'améliorations. Le principal inclut la rapidité et l’abordabilité.

Chaque fois qu’une vidéo est générée, cela prend des dizaines de secondes, voire des minutes. La vidéo générative dans son format actuel peut être idéale pour générer des séquences pour les éditeurs ou du contenu social, mais la plupart des entreprises considèrent désormais la vitesse comme une nouvelle boîte de Pandore pour des applications qui ne peuvent être possibles sans une amélioration de la vitesse et du coût. Cela s’applique au secteur de la publicité programmatique, dont une grande partie est automatisée, et même aux nouvelles méthodes de narration.

Par exemple, l’entreprise imagine un monde dans lequel la vidéo générative pourrait être utilisée pour illustrer une histoire. Mais cette histoire est interactive et s'adapte à chaque décision que vous prenez, comme Bandersnatch de Netflix, mais avec des fins pratiquement illimitées. Peut-être que si vous étiez curieux de savoir ce qui pourrait arriver si Harry finissait par être réparti à Serpentard et avait la chance « d'influencer » la décision du Choixpeau, la vidéo générative pourrait bien rendre cela possible à l'avenir. Mais pour que cela se produise, la rapidité est essentielle.

C'est là que la technologie Vidu 2.0 de ShengShu Technology entre en scène. Il s’agit d’une mise à jour majeure qui constitue sans doute une étape importante pour l’industrie. Vidu 2.0 se concentre sur des sorties plus rapides mais à un coût de génération de chaque clip vidéo bien inférieur, ce qu'il attribue à sa technologie révolutionnaire, qu'il appelle un « accélérateur d'interférences full-stack ».

« Vidu 2.0 offre des vitesses de génération ultra-rapides, une gestion robuste du contexte multimodal, à un prix plus abordable et plus facile que jamais à utiliser. Plus important encore, ce sont les pierres angulaires qui permettent aux utilisateurs ou aux entreprises de co-créer du contenu en temps réel, leur permettant ainsi de s'immerger et de mieux se connecter avec leur public », a déclaré Jiayu Tang, PDG et co-fondateur de ShengShu Technology.

Certes, Vidu 2.0 ne génère pas de vidéos instantanément, mais la société ouvre la voie parmi ses concurrents car elle ramène le temps nécessaire à la génération de clips à moins de 10 secondes. Et ils ont réussi à le faire à un coût 55 % moins cher que la moyenne du secteur.

Pour faire la lumière sur ces références, ShengShu Technology explique que le coût moyen de génération d'un clip dans l'industrie est de 0,084 $ US par seconde. Vidu 2.0 a cependant réussi à réduire ce montant de 55 % à seulement 0,0375 $ par seconde. Mieux encore, vous pourriez penser que si c'est plus rapide, la qualité de la vidéo en souffrira, mais Vidu 2.0 veille à ce que cela n'arrive pas.

Dans le cadre de la vision derrière la mise à jour Vidu 2.0, ShengShu Technology envisage un avenir dans lequel les invites textuelles – dont certaines comportent leurs propres complications et savoir-faire pour obtenir le résultat parfait – pourraient éventuellement céder la place à la génération de clips en un seul clic. Cela élimine les incertitudes liées à la tentative de génération d'invites complexes par essais et erreurs.

L'approche de Vidu 2.0 consiste à utiliser une fonctionnalité « Modèles » que les utilisateurs peuvent choisir parmi une série de modèles d'invites prédéfinis. Les modèles facilitent considérablement l’ajout d’accessoires interactifs ou d’actions complexes – comme par exemple tenter d’amener deux personnes spécifiques parmi une foule de cinq à se serrer la main.