Meta fait partie des entreprises qui ont décidé de miser massivement sur l'intelligence artificielle pour rester parmi les meilleures entreprises du secteur technologique. La firme possède sa propre série de modèles d’IA, Llama. Comme d’autres entreprises, Meta a formé Llama à l’aide d’ensembles de données contenant de grandes quantités d’informations disponibles sur Internet. Cependant, un groupe d'auteurs poursuit Meta pour avoir prétendument utilisé des livres piratés pour entraîner leurs modèles d'IA.
Des auteurs comme Ta-Nehisi Coates et la comédienne Sarah Silverman (entre autres) font partie du groupe qui affirme que Meta a utilisé un ensemble de données contenant le contenu de livres volés. De plus, le PDG de l'entreprise, Mark Zuckerberg, aurait dû savoir que l'ensemble de données contenait des livres piratés avant de donner son approbation pour son utilisation dans la formation Llama.
Meta a délibérément utilisé des livres piratés pour entraîner l'IA, selon un procès
Les documents liés au procès ont été rendus publics au milieu de cette semaine. L'affaire, déposée devant un tribunal fédéral de Californie, découle d'une autre déposée en 2023 et rejetée l'année dernière par le juge de district américain Vince Chhabria. À l’époque, les auteurs affirmaient que Meta AI était capable de générer du texte violant leurs droits d’auteur. La poursuite initiale alléguait également que Meta AI avait supprimé les informations de gestion des droits d'auteur (CMI) du contenu de leurs livres.
Le groupe plaignant souhaite la réouverture du dossier
Cependant, le groupe plaignant affirme que de nouvelles conclusions justifient la réouverture du dossier. Ils disent avoir eu accès aux communications Meta internes où Zuckerberg « a approuvé l'utilisation par Meta de l'ensemble de données LibGen malgré les inquiétudes au sein de l'équipe de direction de Meta en matière d'IA (et d'autres chez Meta) selon lesquelles LibGen est « un ensemble de données que nous savons être piraté »..'» LibGen est un ensemble de données pour la formation en IA qui était disponible sur Internet pendant un certain temps. Il contenait environ 32 To de contenu axé sur des livres de toutes sortes, y compris du contenu scientifique.
Les plaignants ont déclaré au juge Chhabria que les nouvelles conclusions ne faisaient pas que renforcer leurs allégations antérieures. Ils pensent même qu’ils pourraient également inclure une nouvelle plainte pour fraude informatique. Le juge permettra aux plaignants de présenter leurs nouvelles preuves dans une plainte modifiée. Cependant, il a également exprimé son scepticisme quant à la possibilité que le procès aboutisse pour les auteurs.
