Les données des éditeurs premium ont été supprimées plus que nous le pensions

Un sujet majeur en IA est la manière dont les entreprises d’IA collectent des données pour entraîner leurs modèles. Des entreprises comme le New York Times poursuivent OpenAI et Microsoft pour avoir supprimé son contenu afin de former ChatGPT. Bien que ces entreprises extraient la majorité de leurs données de sources accessibles au public, il semble qu'elles collectent des données auprès de plus d'éditeurs premium qu'on ne le pense.

Les entreprises d’IA qui utilisent du contenu payant pour former leurs modèles se trouvent toujours dans une zone grise juridique. On se demande s'il s'agit techniquement d'une violation du droit d'auteur. Si le chatbot en question reproduit des sections entières du contenu payant, cela pourrait alors donner lieu à des poursuites judiciaires. C’est l’une des raisons du procès du New York Times. C'est aussi la raison pour laquelle les sociétés d'IA cherchent à conclure des accords avec autant d'éditeurs. Ceci afin d'éviter des problèmes juridiques, entre autres raisons. Le seul problème est que ces sociétés d’IA étaient très probablement en train de supprimer les données payantes bien avant que les publications n’en aient connaissance.

Les entreprises d’IA récupèrent plus de données auprès des éditeurs premium que beaucoup ne le pensent

Un nouveau rapport de Ziff Davis (via Axios) vient de faire la lumière sur la quantité de contenu premium récupéré par les sociétés d’IA. Pour le rapport, les co-auteurs George Wukoson et Joey Fortuna ont analysé plusieurs LLM et le contenu utilisé pour les former. Ce qu’ils ont découvert, c’est qu’une grande partie des données utilisées pour former certains des plus grands modèles provenaient de 15 publications premium.

Un exemple majeur est GPT-2, qui a été formé par OpenAI. Les chercheurs ont pris une réplique open source de l’ensemble de données OpenWebText, qu’OpenAI a utilisé pour entraîner le modèle. Ils ont découvert qu’environ 10 % des informations contenues dans cet ensemble de données provenaient de sites Web premium. D'autres ensembles de données utilisés pour entraîner des modèles plus anciens utilisaient également une tonne de données provenant de sites premium.

Cela signifie que certains des anciens LLM (probablement des modèles qui n'ont jamais alimenté de chatbots destinés aux utilisateurs) contenaient une quantité importante d'informations provenant de sites premium. Bien que ce soit le cas, le rapport révèle que certains de ces anciens ensembles de données sont toujours utilisés pour former des modèles plus récents. Cela signifie que les modèles pourraient toujours utiliser du matériel payant.

Ainsi, même si plusieurs publications ont conclu des accords avec des sociétés d’IA, les modèles d’IA qui alimentent bon nombre des chatbots les plus puissants du marché utilisent toujours des informations extraites de contenus payants.