Reddit veut une meilleure affaire de Google pour ses données de combustion de l'IA

L'utilisation des données reste un sujet controversé dans le monde de l'intelligence artificielle. Dans une tentative de calmer les eaux, les principaux acteurs de l'industrie ont conclu des accords avec des plateformes sociales ou de contenu. Un de ces cas est le partenariat entre Reddit et Google. Maintenant, dans un développement connexe, Reddit est en discussion avec Google pour réviser son accord de partage de contenu pour la formation de l'IA, qui a été initialement créé il y a plus d'un an pour 60 millions de dollars par an.

Les pourparlers entre les deux sociétés se concentrent sur deux domaines clés (rapportés par Bloomberg). Premièrement, selon les rapports, Reddit propose une structure du nouvel accord qui s'éloignerait d'un paiement fixe et vers un modèle de tarification dynamique. Dans le cadre de ce modèle, la compensation de Reddit serait déterminée par la fréquence à laquelle son contenu est cité ou utilisé comme source de réponses générée par les plateformes d'IA comme les aperçus de l'IA de Google. Les dirigeants de Reddit estiment que les termes actuels ne reflètent pas adéquatement la valeur de leurs données aux sociétés de l'IA.

Reddit veut une affaire d'une IA avec Google qui leur donne plus de trafic et d'utilisateurs

Deuxièmement, Reddit recherche un autre type de partenariat qui encouragera davantage le trafic qu'il reçoit de Google pour se convertir en membres de la communauté actifs. Cet effort vise à relever un défi dans la relation actuelle: les utilisateurs qui trouvent les réponses du contenu Reddit sur Google ne visitent souvent pas la plate-forme elle-même. Cela limite la capacité de Reddit à développer sa base d'utilisateurs et à générer de nouveaux contenus pour la formation future d'IA. En trouvant un moyen d'approfondir l'engagement des utilisateurs, le partenariat pourrait fournir une source plus cohérente de données de haute qualité pour les modèles d'IA.

Les discussions ont lieu car les données de Reddit sont une ressource précieuse pour les entreprises de l'IA. Les modèles de grands langues obtiennent de vastes ensembles de données grattés sur Internet. Le format unique de Reddit, avec ses conversations approfondies et axées sur l'utilisateur sur un large éventail de sujets, est une source fréquemment citée. Les données suggèrent que Reddit est le domaine le plus cité pour les outils d'IA comme la perplexité et les propres aperçus d'IA de Google.

Autres éditeurs et plateformes à la recherche d'une compensation équitable

Cette situation n'est pas exclusive à Reddit. D'autres fournisseurs de contenu, y compris des éditeurs de nouvelles, ont également expliqué comment leur travail est utilisé pour former des modèles d'IA. Le New York Times, par exemple, a poursuivi Openai et Google. La plate-forme médiatique allègue que ses travaux ont été mal utilisés. Dans un cas similaire, Reddit a également poursuivi l'Openai Rival Anthropic. Dans ce cas, la plate-forme de médias sociaux a allégué que la startup de l'IA avait illégalement gratte ses données pour former ses modèles.

Le résultat du Reddit et Google Talks est toujours en attente. Cependant, les discussions mettent en évidence comment les plateformes de contenu cherchent à établir de nouvelles façons d'obtenir une compensation équitable pour leur contenu.