À ce stade, nous savons déjà que les modèles d’IA doivent ingérer une tonne de données provenant de nombreuses sources pour apprendre. Les entreprises extraient des données à partir de sources partout sur Internet, telles que des livres électroniques, des sites de réseaux sociaux, des sites de vidéos, des sites d'actualités, des blogs, etc. Une grande partie des données est accessible gratuitement au public, mais les sociétés d’IA exploitent également une tonne de données provenant de sources premium. Nous parlons de contenu protégé par le droit d’auteur et payant. Cela ne signifie peut-être pas grand-chose pour la personne moyenne, mais quelles sont les implications de cette pratique et est-elle justifiée ?
Nous assistons aujourd’hui à un changement dans l’industrie. De grandes sociétés d’information et de médias signent des accords qui confient leur contenu à des sociétés d’IA comme OpenAI et Meta. Cela a vraiment choqué les masses, car la technologie de l’IA a eu un effet négatif sur le journalisme. Il est donc un peu surprenant que tant de sociétés de presse proposent volontiers leur contenu à des sociétés d'IA afin de rendre encore plus obsolètes les journalistes.
Le côté juridique
Cette pratique vise entre autres à éviter les problèmes juridiques avec les entreprises. Peu de temps après l’explosion de l’IA, nous avons découvert où les entreprises d’IA obtenaient les données nécessaires pour entraîner leurs modèles d’IA. Plusieurs grandes entreprises n’aimaient pas que les sociétés d’IA suppriment leur contenu, et l’une des principales sociétés était le New York Times. Au moment de la rédaction de cet article, le New York Times est engagé dans une énorme bataille juridique avec OpenAI. Cette société a récupéré une tonne d’articles protégés par le droit d’auteur du New York Times. De plus, le New York Times affirme que ChatGPT reproduit textuellement des sections de ses articles.
D’autres poursuites comme celle-ci ont surgi au cours de l’année écoulée, et nous attendons davantage de la part de différentes entreprises. Cela est particulièrement vrai car nous voyons de plus en plus d’histoires mettre en lumière la quantité de contenu premium que les entreprises d’IA ont récupéré pour former leurs modèles. Les gens examinent les ensembles de données que certains des plus grands modèles d'IA ont utilisés pour entraîner, et ils constatent qu'une grande partie du contenu provient de sites Web payants.
L'analyse
Comme indiqué, des rapports sont publiés révélant à quel point les entreprises d’IA de données premium et payantes récupèrent pour former leurs modèles d’IA. News Media Alliance a publié l’année dernière un rapport nous informant que certains des plus grands ensembles de données au monde utilisaient une quantité substantielle de contenu premium.
Il a révélé qu'OpenWebText, les ensembles de données utilisés pour former le modèle GPT-2 d'OpenAI, consistaient en environ 10 % de contenu premium. Cela peut sembler peu, mais cet ensemble de données comprend environ 23 millions de pages Web. Ainsi, 10 % d’un gâteau de 23 millions de pages représente une grosse part. De plus, il n'y a pas beaucoup de sites d'information premium par rapport à Internet dans son ensemble, donc tout pourcentage supérieur à 0,001 % est substantiel.
Qu'est-ce que cela signifie? Cela signifie que des entreprises comme OpenAI ne se contentent pas d'explorer Internet et d'alimenter leurs modèles en ce qui arrive. Les sociétés d’IA ciblent souvent les données de sites premium pour leurs modèles.
Comment savons-nous cela ?
Le rapport mentionné ci-dessus a ouvert la porte à davantage d’informations. Une analyse récente de Ziff Davis a souligné quelque chose de similaire : Les ensembles de données utilisés pour former les principaux modèles sont constitués d'une grande quantité de contenu payant. Le rapport de Ziff Davis prend cependant en compte quatre ensembles de données et révèle quelque chose sur les intentions des entreprises d’IA.
Les quatre ensembles de données pris en compte sont Common Crawl, C4, OpenWebText et OpenWebText2. Plusieurs sociétés d’IA utilisent entre autres ces quatre ensembles de données pour entraîner leurs modèles.
Common Crawl a été utilisé pour entraîner GPT-3 d'OpenAI et LLaMA de Meta. C4 a été utilisé pour former les modèles LaMDA et T5 de Google ainsi que LLaMA. OpenWebText a été utilisé pour entraîner GPT-2 et OpenWebText2 a été utilisé pour entraîner GPT-3. D'autres modèles majeurs ont très probablement utilisé ces ensembles de données, mais les modèles mentionnés ci-dessus ont été présentés dans le rapport.
Ainsi, ces ensembles de données ont entraîné des modèles assez volumineux. De toute évidence, ils sont plutôt obsolètes. OpenAI compte actuellement plusieurs itérations dans sa série GPT-4 et Meta est sur LLaMA 3, les modèles répertoriés ci-dessus ont donc bien dépassé leur apogée. Nous ne devrions cependant pas éternuer devant la quantité de données qui existent dans ces ensembles de données. OpenWebText2 contient plus de 17 millions de pages Web tandis qu'OpenWebText 2 contient 23 millions de pages Web. C4 les domine avec 365 millions de pages Web, mais le champion en titre est Common Crawl avec 3,15 milliards de pages Web.
D'après les chiffres, il semble que GPT-3 et LLaMA devraient être les modèles les plus intelligents de la liste. Cependant, le contraire pourrait être vrai.
Nettoyage des ensembles de données
Lorsque vous êtes à l'école, votre professeur ne se contente pas de se tenir devant vous et de débiter des faits arbitraires pendant six heures d'affilée. Les informations qu'ils vous communiquent doivent être conservées par l'enseignant, l'école et le conseil scolaire. C'est pourquoi vous disposez de plans de cours et d'un programme standard. Qu’est-ce que cela a à voir avec les modèles d’IA ? Eh bien, les modèles d’IA ressemblent plus à des êtres humains qu’on ne le pense.
Si vous êtes un modèle d'IA et que vous recevez un ensemble de données, vous préféreriez recevoir des informations pertinentes et de haute qualité. En tant que telles, les entreprises ne remplissent pas toujours leurs modèles avec une multitude de données aléatoires. Les ensembles de données sont parfois nettoyés et organisés. Le nettoyage des ensembles de données est un processus qui élimine les données en double, les erreurs, les informations incohérentes, les données incomplètes, etc. D'une certaine manière, cela élimine le gras. La conservation des ensembles de données organise l'ensemble de données pour rendre les informations plus accessibles. Ce sont des simplifications excessives, mais vous pouvez en savoir plus avec les hyperliens.
Dans tous les cas, le nettoyage et la conservation des ensembles de données traitent essentiellement les données et les transforment afin qu'il soit plus facile pour le modèle de les ingérer. Ceci est similaire à la façon dont votre programme scolaire est organisé pour augmenter progressivement en difficulté au fil de l'année.
Parlons maintenant de l'autorité de domaine
Il est temps pour une petite tangente, mais nécessaire. Il y a un autre angle dans ce rapport, et l'un d'entre eux est l'autorité de domaine. D'une certaine manière, plus l'autorité de domaine d'un site est élevée, plus il est fiable et réputé. Ainsi, on s'attendrait à ce qu'un site comme le New York Times, une grande société d'information, ait une autorité de domaine plus élevée qu'un tout nouveau site d'information qui obtient un maximum de 10 vues chaque jour.
Le rapport a pris en compte 15 des sociétés de presse disposant de la plus haute autorité de domaine. Cette liste se compose de «Advance (Condé Nast, Advance Local), Alden Global Capital (Tribune Publishing, MediaNews Group), Axel Springer, Bustle Digital Group, Buzzfeed, Inc., Future plc, Gannett, Hearst, IAC (Dotdash Meredith et autres divisions), News Corp , The New York Times Company, Penske Media Corporation, Vox Media, The Washington Post et Ziff Davis.»
Le rapport place l'autorité de domaine sur un système de 1 à 100 points. 100 signifie que le site possède le plus d’autorité de domaine. La liste ci-dessus comprend des sites dotés d'autorités de domaine assez élevées.
Les chiffres
Qu’est-ce que cela a à voir avec les ensembles de données et les modèles d’IA ? Eh bien, mettons tout cela ensemble. Dans le rapport, nous voyons une répartition des quatre ensembles de données. Dans le graphique ci-dessous, nous constatons une tendance intéressante.
L'axe X du graphique montre les scores d'autorité de domaine divisés en intervalles de 10 points et l'axe Y montre le pourcentage de la quantité de données dans chaque ensemble. Il montre qu'un peu plus de 50 % des sites Web de Common Crawl ont des scores d'autorité de domaine compris entre 0 et 9. Ce score diminue fortement à mesure que l'autorité de domaine augmente. Moins de 10 % de l’ensemble de données a un score supérieur à 10 points, et cela continue pour le reste du graphique.
En passant au C4, les résultats ne sont guère meilleurs. Environ 20 % des sites ont un score de domaine compris entre 10 et 20 points. Ensuite, il diminue également considérablement. C4 reste systématiquement supérieur à Common Crawl pour la majorité du graphique.
Cependant, nous constatons un changement radical lorsque nous examinons les deux ensembles de données OpenWebText. En fait, nous constatons exactement le contraire ! Les deux modèles partent d'un endroit similaire sur le graphique avec des scores de 0 à 9, mais ils augmentent régulièrement à mesure que les scores d'autorité de domaine augmentent. Plus de 30 % des données OpenWebTexts provenaient de sites avec des scores d'autorité de domaine compris entre 90 et 100. Quant à OpenWebText 2, environ 40 % de cet ensemble de données est constitué de sites avec des scores d'autorité de domaine compris entre 90 et 100.
Juste les sites premium
Voici un graphique qui montre des données similaires. Cependant, au lieu des données de tous les sites récupérées, seules les données des sites Web premium susmentionnés sont affichées.
Ci-dessous, nous avons un graphique montrant chacune des publications susmentionnées et leur utilisation dans chaque ensemble de données. Nous constatons que le pourcentage monte en flèche pour les deux modèles OpenWebText, mais ces deux modèles contiennent beaucoup moins de données, il est donc plus facile pour une seule source de constituer un pourcentage plus élevé.
Voici le choc
Ainsi, nous constatons qu'il existe davantage de données de sites Web de haute qualité dans les ensembles de données OpenWebText, mais voici le plus intéressant. Vous vous souvenez de la façon dont nous avons parlé de nettoyage et de conservation des ensembles de données ? Ce processus prend les données brutes et non filtrées et les traite. Eh bien, dans le rapport, Common Crawl et C4 n'ont pas été nettoyés ou organisés. Les deux ensembles de données OpenWebText l'étaient. Cela signifie que les ensembles de données contenant le plus grand volume de contenu premium se trouvent être ceux qui ont été touchés par des mains humaines.
Cela laisse entendre que les sociétés d’IA ciblent spécifiquement les données premium à récupérer. Jusqu’à présent, nous supposions que ces entreprises avaient décidé de simplement explorer les sites Web et de transférer autant de données que possible dans leurs modèles, sans prêter attention à leur origine. Cependant, la réalité est que bon nombre de ces entreprises recherchent spécifiquement du contenu qu’elles ne devraient pas utiliser.
Ce rapport montre qu'une grande partie du contenu utilisé pour entraîner les modèles OpenAI implique du contenu payant. La question est donc de savoir combien d’autres ensembles de données sont traités pour favoriser les données premium ?
Les entreprises d’IA qui prennent des données premium peuvent-elles être justifiées ?
À première vue, les entreprises semblent avoir tort, mais lorsque l’on y creuse un peu plus, la frontière entre le bien et le mal commence à s’estomper. Nous connaissons les implications juridiques. Les entreprises d’IA dépassent leurs limites lorsqu’elles entraînent leurs modèles sur du matériel payant. En plus de reproduire textuellement des morceaux de contenu payant dans certains cas, ces entreprises volent des données pour former des modèles qui les mettront en faillite. C'est assez foiré.
Il y a cependant deux côtés à cette conversation. Le fait est que les modèles d’IA existent et que personne ne peut rien y faire. Ils apportent des réponses à nos questions, nous enseignent, etc. Non seulement cela, mais ces outils d'IA sont sur le point d'être utilisés dans des domaines plutôt cruciaux et en sous-effectif comme la médecine et l'éducation. S'ils doivent être formés sur le contenu d'Internet, il serait préférable qu'ils soient formés sur un contenu de haute qualité.
Bien qu’il soit difficile d’admettre que cette pratique puisse avoir un certain mérite, de plus en plus de nos vies seront touchées d’une manière ou d’une autre par l’IA. Honnêtement, il serait préférable d'utiliser des modèles formés sur des données de haute qualité plutôt que des modèles formés sur n'importe quoi. Une grande partie de la population n’aime pas l’essor de l’IA, mais personne ne peut arrêter les progrès. L’IA prendra le relais, donc former les modèles sur un contenu de meilleure qualité pourrait être le moindre des deux maux.
Mais est-ce suffisant ?
Cela justifie-t-il l’utilisation de contenus payants ? L’une des pires choses dans n’importe quel secteur, c’est lorsqu’une grande entreprise peut simplement agir à sa guise. Feriez-vous confiance à votre enfant de 8 ans seul dans un magasin de bonbons non gardé ? Évidemment, sans personnel pour les empêcher de sortir, votre enfant reviendra à la maison avec un mal de ventre.
Justifier que les entreprises acceptent subrepticement le paywall leur donne essentiellement carte blanche pour se gaver d'autant de données que possible, un peu comme l'enfant. Cela leur accorde essentiellement un laissez-passer pour récupérer librement les données d’autres services payants. Les entreprises qui existent sur Internet doivent malheureusement vivre selon les règles d'Internet ; La règle n°1 est que tous les sites sont explorés et que personne ne peut y faire grand-chose.
Les rapports de Ziff Davis et de la News Media Alliance montrent que plusieurs sociétés d’IA ont sciemment siphonné les données de publications premium et ne l’ont pas reconnu. Les entreprises intentent des poursuites, comme elles le devraient à juste titre, car on ne sait pas quelle part de leurs données se trouve dans les chatbots qui volent les emplois des journalistes.