Le procès anthropique sur le droit d'auteur établit une norme pour la formation de l'IA: pas de données piratées

Le débat sur la façon dont les entreprises d'IA utilisent des travaux créatifs pour former leurs modèles semble atteindre un point critique. Une affaire juridique majeure constitue un précédent potentiel pour l'avenir. La conversation ne consiste plus à savoir si la formation de l'IA est une «utilisation équitable». Il s'agit également d'où viennent les données de formation. Un recours collectif déposé par un groupe d'auteurs et d'éditeurs contre la société d'IA Anthropic est au centre de ce nouveau paysage juridique.

La bataille entre l'innovation de l'IA et les droits de propriété intellectuelle arrive à une tête, et cette affaire trace une ligne claire dans le sable. Les auteurs allèguent qu'Anthropic a utilisé des millions de livres piratés de «bibliothèques d'ombre» illégales comme Libgen pour former ses modèles. Maintenant, après des mois de disputes légales, les plaignants ont proposé un plan pour distribuer un règlement historique de 1,5 milliard de dollars.

Le règlement des poursuites en droit d'auteur d'Anthropic prouve que l'IA ne peut pas s'appuyer sur des données piratées

Le plan proposé est une victoire majeure pour les créateurs de contenu. Il décrit un processus rationalisé en une étape pour que les auteurs et les éditeurs pour déposer des réclamations et, pour la plupart des œuvres, suggèrent une division équitable 50/50 des fonds – un ratio ancré dans les normes de l'industrie.

Comme les auteurs Charles Graeber et Kirk Wallace Johnson l'ont déclaré dans les déclarations des tribunaux, le procès et le règlement envoient un message clair. C'est un moment qui réaffirme un principe de base: «C'est mal de voler.» Cela rappelle également aux entreprises technologiques qu'elles «ne sont pas au-dessus de la loi, et notre propriété intellectuelle n'est pas la vôtre pour la prise». Ce sentiment est au cœur de l'affaire.

Un juge avait précédemment statué que la formation de l'IA pouvait être considérée comme une utilisation équitable du matériel protégé par le droit d'auteur. Cependant, cette décision est venue avec une mise en garde majeure. Le juge a établi une ligne dure contre l'utilisation des données obtenues via le piratage. Cette distinction est désormais à retenir pour l'ensemble de l'industrie. Cela signifie que les entreprises d'IA ne peuvent plus compter sur du contenu gratté ou volé pour leurs modèles. Ils doivent méticuleusement documenter leurs sources, négocier des licences et développer des moyens légitimes d'acquérir des données de formation. Ce cas accorde aux créateurs de contenu un nouvel effet de levier et fournit des conseils pratiques aux entreprises afin d'atténuer les risques de droit d'auteur dans leurs projets d'IA.

Cela pourrait changer l'industrie de l'IA pour toujours

Cette bataille juridique est un réveil pour les développeurs de l'IA. Cela pourrait remodeler la façon dont ces entreprises fonctionneront à l'avenir. Cette affaire peut servir de plan pour des dizaines d'autres poursuites contre les droits d'auteur de l'IA en instance. Le dernier mot sur le règlement arrive bientôt, car le tribunal devrait examiner le plan des plaignants cette semaine.