Google est une entreprise qui fait régulièrement la une des journaux pour une raison ou une autre. Il peut s’agir de bonnes ou de mauvaises raisons. L’entreprise a fait sensation en concluant un accord avec Reddit pour utiliser ses données afin de former son IA. Il semblerait que, par chance, Reddit n’affiche que les résultats de recherche de Google et aucun autre moteur de recherche. Cette histoire pourrait être en cours de développement, donc plus de détails pourraient être révélés au fil du temps.

À l’heure actuelle, les grandes entreprises de médias et de publications concluent des accords qui leur permettront de transmettre leurs données à des sociétés d’IA. Par exemple, des sociétés comme Axel Springer (propriétaire de Business Insider), Vox Media (propriétaire de The Verge) et News Corp (propriétaire de plus d’une douzaine de publications) ont conclu des partenariats de plusieurs millions de dollars qui permettront à OpenAI de s’entraîner légalement sur leurs données.

Avant que ces accords ne soient conclus, Google avait conclu un partenariat avec Reddit qui permettait au géant de la recherche d'accéder à son contenu et à ses données. C'est regrettable, car nous l'avons découvert juste après avoir découvert qu'OpenAI récupérait des tonnes de données sur les sites de réseaux sociaux. Ces grandes entreprises concluaient donc des accords qui permettaient à l'IA d'accéder à nos données à notre insu.

Reddit semble bloquer les moteurs de recherche, mais pas Google

Google n'est pas le seul moteur de recherche de ce côté du Mississippi. D'autres moteurs de recherche proposent des résultats depuis des années, comme Bing (le plus gros concurrent de Google), DuckDuckGo, Mojeek et Qwant. Il en existe des centaines, mais nous n'en connaissons généralement qu'une poignée.

Il semblerait que Reddit n'en connaisse qu'un seul : Google. Selon un nouveau rapport de 404 Media, lorsque vous recherchez du contenu à l'aide de « site:reddit.com », vous ne verrez aucun résultat récent si vous n'utilisez pas Google. Il semble que vous ne verrez aucun résultat de la semaine dernière. Cela ne s'applique qu'aux moteurs de recherche qui ne s'appuient pas sur l'indexation de Google. Si un moteur de recherche utilise les robots d'indexation de Google, il affichera des résultats.

Les utilisateurs supposent que cela est dû à l'accord conclu entre les deux entreprises il y a quelques mois. C'est tellement pratique que Reddit et Google concluent un accord de contenu et que soudainement, tous les moteurs de recherche non Google ne peuvent plus accéder au contenu récent de Reddit. Cependant, cela n'a pas encore été confirmé.

Les chenilles

Bien qu'il n'y ait aucune preuve que Reddit bloque d'autres moteurs de recherche à cause de cet accord, cela aurait du sens. Une partie de la technologie de l'IA est liée à ce que l'on appelle les « robots d'exploration ». Les robots « explorent » les sites Web et en extraient des informations importantes. Si vous avez un site Web, il est constamment parcouru par des robots d'exploration de différentes entreprises. C'est important, car c'est ainsi que les moteurs de recherche indexent votre site. C'est ainsi qu'ils font apparaître votre site dans les résultats de recherche. Ainsi, pour que votre site Web apparaisse dans les résultats de recherche de Google, votre site doit être exploré par Googlebot, le robot d'exploration de Google.

Les robots d'exploration sont également connus pour être utilisés par les entreprises d'IA pour extraire des données et former leurs modèles. Il existe un moyen de lutter contre les robots d'exploration. Les développeurs de sites peuvent utiliser « Robots.txt ». Il s'agit d'un fichier qui leur indique de ne pas indexer les données de ce site. Cependant, ces fichiers peuvent également faire des exceptions pour certains robots d'exploration, leur permettant d'explorer le site et pas d'autres.

Et bien, puisque Reddit permet à Google d'utiliser ses données, il est possible qu'il autorise uniquement Google à les explorer, de sorte qu'il soit le seul à pouvoir accéder à ses données pour entraîner Gemini. Cependant, comme les autres entreprises ne sont pas en mesure de les explorer pour entraîner leurs modèles, elles ne sont pas non plus en mesure d'indexer Reddit et de faire apparaître les résultats de recherche. Ce n'est que de la spéculation.

La situation du PDG de Mojeek

Selon 404 Media, le PDG de Mojeek, Colin Hayhurst, a raconté son expérience avec ce problème. L'entreprise s'est rendu compte que Reddit empêchait le robot d'indexation de Mojeek d'indexer le site Web.

Ce qui aggrave encore les choses, c'est que Reddit n'a pas répondu à ses e-mails. Cela fait presque deux mois qu'il a envoyé un e-mail au site de médias sociaux. Il a déclaré à 404 Media lors d'un appel que Reddit est «tout tuer pour la recherche sauf Google.”

«Cela ne nous est jamais arrivé auparavant, » il a continué. « Parce que cela nous arrive, nous sommes bloqués, généralement par ignorance ou stupidité ou autre, et lorsque nous contactons le site, vous pouvez certainement résoudre ce problème, mais nous n'avons jamais eu de réponse de qui que ce soit auparavant.”

C'est probablement la partie la plus frustrante de cette épreuve. Hayhurst essaie de résoudre le problème depuis plus d'un mois sans aucun progrès. Nous ne savons pas si d'autres moteurs de recherche rencontrent également les mêmes problèmes que lui.

Reddit affirme qu'il n'y a pas eu de jeu déloyal

Reddit n'a pas donné suite aux accusations de Hayhurst, mais pas à celles de tous les autres. Un porte-parole de l'entreprise a répondu aux accusations.

«Cela n'a aucun rapport avec notre récent partenariat avec Google. Il n'est pas exact de dire que les résultats récents de Reddit n'apparaissent pas dans les moteurs de recherche non Google en raison de notre récent accord avec Google« , a déclaré le porte-parole Tim Rathschmidt à 404 Media. Selon Rathschmidt, Reddit a abattu des robots d'exploration qui veulent utiliser des données pour former des modèles d'IA.

Rathschmidt continue de dire que Reddit a été «en pourparlers avec plusieurs moteurs de recherche. Nous n'avons pas pu parvenir à un accord avec tous, car certains ne peuvent ou ne veulent pas faire de promesses exécutoires concernant leur utilisation du contenu Reddit, y compris son utilisation pour l'IA.« 

Si c'est vrai, cela serait une bonne chose pour Reddit. Cependant, nous ne pouvons pas ignorer le fait que seuls les moteurs de recherche Google semblent accéder à Reddit, et c'est la seule entreprise qui a signé un contrat de 60 millions de dollars avec lui. Avec cette information, il semble que Reddit ne soit intéressé à laisser les sites s'y insérer que s'ils paient. Cela sera corroboré si nous apprenons que Microsoft a conclu un accord avec Reddit, et que soudainement, les résultats de Bing commencent à afficher les publications récentes de Reddit dans ses résultats.

Reddit est déjà en mauvaise foi avec ses utilisateurs. L'année dernière, il y a eu toute une controverse autour de l'entreprise qui demandait une somme exorbitante pour accéder à son API. Après cela, elle a cédé les données de ses utilisateurs à Google pour qu'elles soient utilisées dans l'IA. Si Reddit vend vraiment l'accès à son site aux moteurs de recherche, cela pourrait vraiment nuire à sa réputation aux yeux du public.

Développer l'histoire

Comme indiqué, il s'agit d'une histoire en cours de développement, elle sera donc mise à jour si de nouvelles informations font surface. Nous attendons toujours une réponse de Google sur la situation dans son ensemble.

A lire également