Une recherche révèle des traces d’images de maltraitance d’enfants dans les ensembles de données AI Image

L’intelligence artificielle progresse chaque jour ; nous savons que. Sa capacité à générer des images a longtemps été un sujet de discussion. Même ces derniers temps, de telles images ont été utilisées pour manipuler l’information et produire des médias fabriqués. Pour résoudre quelque peu ce problème, Google a publié l’outil « À propos de cette image », qui fournit la source et l’arrière-plan d’une image, y compris les métadonnées si elles sont accessibles. Cet outil a été annoncé pour la première fois lors de la conférence des développeurs Google I/O 2023. Cependant, des révélations récentes ont indiqué que l’ensemble de données de formation pour la génération d’images IA contenait des liens vers des images de maltraitance d’enfants. Ceci est non seulement problématique, mais aussi très préoccupant, compte tenu des règles mondiales strictes régissant la circulation de ce type de contenu. Par exemple, la loi fédérale aux États-Unis la rend illégale ; s’il est reconnu coupable, une personne risque la prison à vie et une amende pouvant aller jusqu’à 250 000 $.

Des chercheurs de Stanford ont trouvé des traces d’images de maltraitance d’enfants dans l’IA générative

Les chercheurs de l’Université de Stanford (Stanford Internet Observatory) ont étudié les ensembles de données de génération d’images IA. Ils ont découvert que l’ensemble de données LAION-5B, utilisé par Stable Diffusion de Stability AI et les générateurs d’images Imagen de Google, a fait l’objet d’un examen minutieux car il contenait un minimum de 1 679 images illégales provenant de diverses publications sur les réseaux sociaux et de sites Web pour adultes notables.

À partir de septembre 2023, un groupe de chercheurs a examiné de près l’ensemble de données LAION pour déterminer s’il contenait des images inappropriées d’enfants. Ils utilisaient principalement des codes spéciaux appelés « hachages d’images » pour vérifier les images. Ils ont ensuite utilisé des outils comme PhotoDNA pour confirmer leurs conclusions, et des experts du Centre canadien de protection de l’enfance ont également examiné et accepté leurs résultats.

Beaucoup de gens pensent que l’ensemble de données LAION stocke des images réelles, mais ce n’est pas exact. Au lieu de cela, il sert d’index ou de liste complet indiquant aux utilisateurs où ils peuvent trouver des images en ligne. Il stocke des liens Web vers ces images ainsi que les descriptions textuelles qui les accompagnent.

LAION répond et affirme sa « politique de tolérance zéro ».

LAION, l’organisation à but non lucratif qui gère l’ensemble de données, a informé Bloomberg qu’elle maintient une « politique de tolérance zéro » contre les contenus préjudiciables. Et ils mettraient temporairement les ensembles de données hors ligne. En réponse au même rapport, Stability AI a souligné ses politiques visant à prévenir toute utilisation abusive de ses plateformes. Ils ont précisé que même si leurs modèles avaient été formés à l’aide de parties de l’ensemble de données LAION-5B. Cependant, ils les ont spécifiquement affiné et ajustés en tenant compte des problèmes de sécurité.

Bien que les chercheurs aient mis en évidence des traces d’images de maltraitance d’enfants dans les ensembles de données, ils ont expliqué que cela n’affectait pas nécessairement les résultats du modèle. Cependant, ils ont averti qu’il existe un risque potentiel que le modèle ait extrait des informations indésirables des images.