Meta aurait été torrenté 82 To de livres protégés par le droit d'auteur pour la formation de l'IA

La société mère de Facebook Meta est au milieu d'un gâchis juridique potentiel à la suite d'un procès intenté par un groupe d'auteurs. Le procès accuse Meta d'utiliser du matériel protégé par le droit d'auteur sans autorisation pour le développement de produits d'IA. Dans une nouvelle mise à jour, Meta aurait torrenté jusqu'à 82 To de contenu pour la formation d'IA.

Le «nouveau» procès contre Meta a surgi à la mi-janvier 2025. Il s'agit en fait d'un suivi d'un procès initialement déposé en 2023 qui avait déjà été rejeté. Les plaignants ont affirmé que méta avait utilisé illégalement du contenu de livres pour former ses modèles LLAMA AI. À l'époque, la quantité de contenu protégé par le droit d'auteur utilisé par l'entreprise était estimée à 32 To. Les données auraient été obtenues auprès de Libgen, un ensemble de données qui était disponible sur Internet pendant un certain temps et comprenait du contenu de livres de toutes sortes – de la comédie à la science.

La taille des ensembles de données aurait été torrenté par Meta pour la formation AI atteint 82 To

Cela dit, les dernières mises à jour sur l'affaire révèlent que Meta a peut-être utilisé une quantité beaucoup plus importante de données. En plus de Libgen, Meta aurait utilisé des ensembles de données d'archives et de bibliothèque Z d'Anna. Au total, le document mentionne que Meta est en fait torrenté environ 82 To de fichiers pour la formation d'IA.

Les éléments de preuve présentés dans l'affaire montrent les préoccupations présumées exprimées par les employés impliqués dans le projet de Meta. « Je ne pense pas que nous devrions utiliser des matériaux piratés. J'ai vraiment besoin de tracer une ligne ici», Aurait déclaré un chercheur principal en IA en 2022.»L'utilisation de matériaux piratés devrait dépasser notre seuil éthique», Aurait déclaré un autre chercheur. « SciHub, Researchgate, Libgen sont essentiellement comme Piratebay ou quelque chose comme ça, ils distribuent un contenu protégé par le droit d'auteur et ils l'entraînent», Ont-ils ajouté.

La plainte initiale affirme également que Mark Zuckerberg était au courant de l'origine des ensembles de données. Cependant, lors d'une réunion en 2023, le PDG de Meta aurait approuvé leur utilisation. « Nous devons faire avancer ces trucs… nous devons trouver un moyen de débloquer tout cela», A déclaré Zuckerberg. « Le torrent d'un ordinateur portable d'entreprise ne se sent pas bien [laughing out loud emoji],»Un employé de Meta aurait dit un autre dans une conversation.

Meta aurait pu essayer d'éviter de laisser des traces de téléchargements

Les documents affirment même que Meta a pris des mesures pour cacher ses marches. La société aurait tenté d'éviter de laisser des traces qui permettraient le suivi de l'activité de téléchargement de données sur ses serveurs. Cela implique que Meta a peut-être délibérément tenté d'éviter les lois sur le droit d'auteur.

Il ne semble pas que le cas aura bientôt une solution. Les premières décisions sur la question sont attendues dans les mois. De plus, si la sortie est négative pour Meta, ils feront sûrement appel, ce qui prolongera encore le processus. Il est possible que, en fin de compte, nous n'aurons pas de verdict final pour cette affaire jusqu'à des années dans des années. Ce procès – et d'autres – est un exemple de la façon dont le droit d'auteur pour la formation de l'IA reste dans une «zone grise» des années plus tard.