Tumblr vendra des données à OpenAI et Midjourney pour former l'IA : rapport

Juste après que Reddit ait signé un accord massif pour vendre les données des utilisateurs afin de former l’IA, il semble que Tumblr soit sur le point de faire la même chose. Un rapport de 404media affirme qu’une source interne a pratiquement confirmé l’accord. 404media a également examiné les fuites de communications internes entre la société mère de Tumblr, Automattic, et les sociétés d’IA susmentionnées. Le rapport affirme que les utilisateurs peuvent choisir de refuser de partager leurs données.

Une source interne a partagé des détails sur l’accord imminent

Une source ayant des connaissances internes a partagé les détails avec 404media, y compris les communications internes. Selon 404media, les rapports indiquent clairement que l’accord est « imminent ». Automattic, également propriétaire de WordPress, a déclaré publiquement qu’il partagerait également les données de ce site. La déclaration publique ne mentionne pas avec quelles sociétés Automattic partagerait des données.

Dans la documentation, il était également question d’une erreur survenue récemment. Apparemment, Tumblr a accidentellement récupéré de nombreuses données utilisateur censées être privées ou contenues dans des publications supprimées. Cette collecte de données a collecté des données utilisateur de 2014 à 2023 et sera transmise à OpenAI et Midjourney. Cyle Gage, chef de produit chez Tumblr, écrit : « la façon dont les données ont été interrogées pour le transfert initial des données vers Midjourney/OpenAI signifie que nous avons compilé une liste de tout le contenu des publications publiques de Tumblr entre 2014 et 2023 ». Ce sont désormais uniquement les données que les utilisateurs peuvent choisir de ne pas partager avec les sociétés d’IA. On ignore si les données privées accidentellement récupérées ont également été partagées.

Ce que la vente de données sur Tumblr pourrait signifier pour l’IA

Tumblr est un site de réseautage social centré sur le microblogging. Bien que cela puisse prendre de nombreuses formes, tout est presque entièrement visuel. OpenAI dispose d’un modèle d’IA de génération d’images nommé DALL-E. L’ensemble du modèle économique de Midjourney tourne autour de son IA de génération d’images. Pour ces entreprises, les décharges massives de données détaillant les interactions occasionnelles n’ont pas de prix. Tumblr et WordPress leur offrent exactement cela.

Grâce aux données de Tumblr, les deux sociétés verront une augmentation considérable de leurs capacités de génération d’images. De plus, les données spécifiques fournies par Tumblr sont tout à fait uniques, en particulier dans ce volume. Des mèmes, des images sous-titrées et des styles artistiques uniques que l’on ne trouve nulle part ailleurs. Tumblr bloque les robots d’exploration IA depuis longtemps maintenant, comme mentionné dans la déclaration d’Automattic. Avec cet accord, l’entreprise peut non seulement capitaliser sur ses données, mais peut-être aussi augmenter la valeur de Tumblr. Yahoo a acheté l’entreprise pour 1 milliard de dollars en 2013, mais Automattic ne l’a acquise que pour 3 millions de dollars en 2019.