Vos publications Bluesky pourraient former des modèles d'IA en ce moment

La popularité de Bluesky est montée en flèche ces dernières semaines. Au milieu d’un « exode » d’utilisateurs de X/Twitter, des millions de personnes ont trouvé en Bluesky l’alternative idéale. Conçue comme un concurrent de Twitter, la plateforme est assez similaire en termes de fonctionnalités de base. Cependant, il semble que les conditions de BlueSky concernant l'IA et la confidentialité des publications ne soient pas aussi bonnes que prévu.

L'un des changements dans X qui a déclenché une campagne de migration d'utilisateurs est lié à l'intelligence artificielle. Les nouvelles conditions d'utilisation permettent à la plateforme d'Elon Musk de former ses développements basés sur l'IA avec les publications des utilisateurs. Même si beaucoup ne s’en soucient pas, d’autres, comme les artistes, considèrent la nouvelle politique avec inquiétude.

Cela dit, il semble que vos publications sur Bluesky ne soient pas si sûres pour être utilisées pour la formation en IA. Il est à noter que la plateforme sociale s'est engagée à ne pas le faire. Cette déclaration a rassuré les personnes qui ont quitté X pour cette raison même. Mais même si Bluesky n’entraîne pas l’IA sur votre contenu, rien n’empêche des tiers de le faire.

L'origine de la polémique : des millions de posts Bluesky disponibles pour la formation en IA

La semaine dernière, Daniel van Strien, bibliothécaire en apprentissage automatique chez Hugging Face, a partagé un ensemble de données composé d'un million de publications Bluesky, déclenchant une controverse. Si vous ne le savez pas, Hugging Face est une plateforme de bibliothèque d'apprentissage automatique open source. Cela signifie que les ensembles de données sont disponibles pour une utilisation gratuite, y compris la formation en IA.

Bien entendu, la nouvelle n’a pas été bien accueillie par les utilisateurs qui ont migré vers Bluesky spécifiquement pour échapper aux politiques permissives concernant la formation en IA. Quelques heures après la réaction violente, Daniel van Strien a supprimé l'ensemble de données et s'est excusé publiquement. « Même si je souhaitais soutenir le développement d'outils pour la plateforme, je reconnais que cette approche violait les principes de transparence et de consentement dans la collecte de données. Je m'excuse pour cette erreur», a-t-il déclaré.

L'une des caractéristiques qui distingue Bluesky des autres plateformes est sa nature décentralisée. Cela présente des avantages, comme un plus grand contrôle des individus sur leur contenu. Cependant, cela signifie également que les publications sont disponibles dans un flux public. Ainsi, les tiers y ont un accès complet, y compris aux profils des utilisateurs qui les ont publiés.

Lorsque les tiers sont des professionnels, tels que des chercheurs, ils suivent généralement des lignes directrices éthiques pour la gestion des ensembles de données. Par exemple, ils anonymisent chaque publication afin qu’elle ne puisse être liée à personne. Ils offrent également aux utilisateurs la possibilité de demander la suppression de leur contenu de l'ensemble de données. Cependant, comme beaucoup le savent, Internet regorge de trolls.

D'autres ensembles de données contenant des millions de publications BlueSky ont émergé

En voyant la réaction des utilisateurs de Bluesky à la publication originale de Daniel van Strien, de nouveaux ensembles de données contenant des millions de publications de la plateforme sociale ont rapidement commencé à émerger. Les descriptions des ensembles de données sur Hugging Face indiquent souvent explicitement qu'ils peuvent être utilisés pour la formation en IA. Après tout, cela ne fera qu’irriter davantage ceux qui ont été contrariés par le premier ensemble de données partagées, n’est-ce pas ?

La collecte de données tierces n’a suivi aucune directive professionnelle. Cela signifie que les ensembles de données accessibles au public incluent non seulement les publications, mais également les surnoms des personnes qui les ont créées. La situation s'est aggravée au point que le plus grand ensemble de données repéré jusqu'à présent contient près de 300 millions de publications d'utilisateurs du rival de X.

Alpine Dale, affilié à PygmalionAI, a révélé qu'il avait compilé un ensemble de données contenant deux millions de publications. PygmalionAI est un LLM particulièrement populaire parmi les utilisateurs de chatbots axés sur les jeux de rôle. Cet ensemble de données n'a pas encore été partagé, mais la description sur le site Web indique qu'il «pourrait être utilisé pour : Former et tester des modèles linguistiques sur le contenu des médias sociaux ; Analyser les modèles de publication sur les réseaux sociaux ; Étudier les structures de conversation et les réseaux de réponse ; Recherche sur la modération du contenu des médias sociaux ; Tâches de traitement du langage naturel utilisant les données des réseaux sociaux»

Il y a aussi Alim Maasoglu, un particulier »dédié au développement de produits immersifs dans le domaine de l'intelligence artificielle.» La description de son ensemble de données sur Hugging Face, composé de quelque huit millions de publications Bluesky, indique qu'il «vise à fournir aux chercheurs et aux développeurs un échantillon complet de données réelles sur les réseaux sociaux à des fins d'analyse et d'expérimentation..» La description mentionne également que l’ensemble de données est «croissance», donc il augmentera avec le temps.

Le plus gros compte près de 300 millions de posts

Cela dit, aucun des éléments ci-dessus ne se rapproche de l'utilisateur de Hugging Face qui porte le surnom de GAYSEX, avec des intentions évidentes de troller. Leur ensemble de données ne comprend ni plus ni moins que 298 millions de publications d’utilisateurs de Bluesky.

La description de l’ensemble de données GAYSEX montre leurs intentions de manière ironique. « NON, tu ne peux pas faire ça !' Alors ne postez pas. Si vous ne souhaitez pas être enregistré, ne le publiez pas. « Mais je faisais XYZ !! » Alors ne le fais pas. Regarder. À peu près tout ce qui se trouve sur Internet reste sur Internet de nos jours. Surtout les grands sites de réseaux sociaux. Vous voudrez peut-être envisager de créer un blog. Ceux-ci ont moins de chances d'être sélectionnés pour une formation en IA + il existe des moyens supplémentaires de protéger les blogs qui sont supprimés de manière agressive.», peut-on lire.

Ironiquement, bien que cet ensemble de données contienne le plus de publications Bluesky, il est également le moins utile pour entraîner des modèles d'IA. L'utilisateur a récupéré les données sans beaucoup de soin, d'ordre ou de structure organisationnelle. Fondamentalement, leur objectif était simplement de collecter autant de messages que possible. Ils voulaient simplement surpasser de loin les ensembles de données précédents qui avaient été partagés et causer encore plus de mécontentement parmi les gens de Bluesky. Cet ensemble de données est «trop peu filtré, donc il y aura beaucoup de travail à faire» pour le rendre adapté à la formation en IA.

Les lois actuelles sur la protection des données n’y peuvent rien

Selon le rapport de Samantha Cole sur 404 Media, au moins six ensembles de données contenant des millions de publications d'utilisateurs de Bluesky sont accessibles au public sur Hugging Face. De plus, il semble que les lois actuelles sur la protection des données soient impuissantes à empêcher cette situation. Cole a consulté la situation avec Neil Brown, un avocat spécialisé dans le règlement général sur la protection des données (RGPD). « Le simple traitement des données personnelles de personnes dans l’UE ne soumet pas la personne effectuant ce traitement au RGPD de l’UE.», a déclaré Brown.

Ce qui détermine si des actions similaires sont soumises au RGPD, c'est ce qu'une organisation ou un individu particulier fait avec les données. La simple publication de l’ensemble de données ne permet pas d’engager une procédure juridique basée sur le RGPD. Le traitement des données »devrait relever de son [GDPR] périmètres matériels et territoriaux» pour cela, ajoute Cole. Par « périmètres matériels et territoriaux» Elle fait référence non seulement à ce que quelqu'un fait avec l'ensemble de données, mais aussi à la région dans laquelle il le fait.