Les chercheurs d’Apple ont introduit un modèle d’IA révolutionnaire, MLLM-Guided Image Editing (MGIE), capable d’éditer des images en fonction d’invites textuelles. Développé en collaboration avec des chercheurs de l’Université de Californie à Santa Barbara, ce modèle représente une avancée significative dans la technologie d’édition d’images. Contrairement aux modèles existants, MGIE gère un large éventail de scénarios d’édition, depuis de simples ajustements de couleurs jusqu’à des manipulations d’objets complexes.

Le cœur du MGIE est un modèle de langage multimodal (MLLM), qui interprète les demandes des utilisateurs et fournit des instructions concises pour l’édition d’images. Cette approche permet au modèle de traiter efficacement les commandes ambiguës, obtenant ainsi des résultats d’édition raisonnables. Par exemple, le MLLM comprend une demande visant à « rendre une pizza plus saine » et associe le terme « sain » à « garnitures végétales », demandant au modèle de diffusion de modifier l’image en conséquence.

Le MGIE peut éditer des images à partir de votre description textuelle

Ce qui distingue MGIE des modèles existants comme LLM-Guided Image Editing (LGIE), c’est sa perception visuelle améliorée. Alors que LGIE est confiné à une seule modalité, MLLM au sein de MGIE a accès à l’image d’entrée et à une compréhension intermodale, permettant des instructions plus descriptives. Cette capacité permet au modèle d’identifier des régions spécifiques de l’image qui nécessitent un ajustement, comme l’éclaircissement de certaines zones pour obtenir l’effet souhaité.

MGIE est désormais disponible en tant que projet open source sur GitHub, proposant du code, des données et des modèles pré-entraînés à télécharger. De plus, une démo Web hébergée sur les espaces Hugging Face permet aux utilisateurs de découvrir directement les capacités d’édition d’images du modèle. Cependant, Apple n’a pas encore dévoilé ses projets d’intégration de MGIE dans ses produits au-delà des projets de recherche.

Lors de la récente conférence téléphonique sur les résultats trimestriels d’Apple, le PDG Tim Cook a confirmé les travaux en cours de l’entreprise sur les fonctionnalités d’IA pour ses appareils. La société devrait annoncer ses résultats plus tard cette année. Business Standard s’attend à ce que ces améliorations de l’IA s’étendent à divers services Apple, notamment Siri, Messages et Apple Music. Grâce à l’intégration de fonctionnalités d’IA générative, les utilisateurs peuvent anticiper des améliorations telles que le résumé du texte, des suggestions personnalisées et des fonctionnalités améliorées dans l’écosystème Apple.

A lire également