Internet est une ressource incroyable construite sur une base de confiance tacite. Pendant des décennies, une règle simple et claire a guidé le comportement des robots Web automatisés: le fichier robots.txt d'un site est un ensemble d'instructions qu'un bot devrait suivre. C'est une poignée de main numérique, un moyen pour les propriétaires de sites Web de dire: « Bienvenue, mais ne regardez pas ici. » Lorsqu'une entreprise choisit de ne pas tenir compte de ces instructions, ce n'est pas seulement un problème technique – c'est une violation de cette fiducie fondamentale. C'est ce que fait la perplexité que l'IA aurait fait en prenant des mesures pour échapper aux politiques de non-nage.
CloudFlare affirme que Perplexity AI échappe activement aux directives de non-Crawl
Les résultats récents de Cloudflare ont remis en question le comportement de un «moteur de réponse» à une telle alimentation AI, la perplexité. Selon une analyse approfondie, la perplexité se serait engagée dans le «rampage furtif». Cette tactique consiste à essayer activement d'échapper aux règles d'un site Web. La société d'IA est accusée d'utiliser des robots non déclarés et de rotation à travers différentes adresses IP pour contourner les pages de blocs et continuer de gratter le contenu. Ils auraient fait cela même après que le propriétaire d'un site Web leur ait explicitement dit de ne pas le faire.
Ce type de comportement, s'il est vrai, peut être étiqueté comme inacceptable. Il s'agit d'une violation directe des souhaits d'un propriétaire de site Web et d'une décision claire d'accéder au contenu qui n'est pas destiné au grattage public. Un bot qui travaille activement à obscurcir son identité et à contourner les mesures de sécurité n'est pas un acteur de bon foi. Nous pensons que les produits et services devraient respecter les choix des créateurs de contenu et des éditeurs, qui investissent du temps, de l'argent et des efforts pour créer le contenu sur lequel ces services d'IA s'appuient.
Contrairement à d'autres plates-formes d'IA «bien élevées»
En revanche, les opérateurs de bot bien intentionnés suivent un code de conduite clair. Ils sont transparents, s'identifiant à un agent utilisateur unique et fournissent des coordonnées. Ce sont des «internautes bien élevés», concernant les limites de taux et ne pas inonder les sites avec un trafic excessif. Plus important encore, ils suivent les règles en honorant Robots.txt et d'autres directives de site Web. Un bon exemple de ceci est Openai, qui décrit clairement ses robots, explique leur objectif et respecte les souhaits d'un site Web. Malgré cela, la société n'a pas été épargnée par les poursuites par les éditeurs. Cependant, OpenAI a démontré dans un test contrôlé que ses produits AI ont immédiatement cessé de ramper lorsqu'ils sont instruits.
L'essor de l'IA change Internet, mais les principes fondamentaux du respect et de la transparence devraient rester constants. Les propriétaires de sites Web méritent d'avoir un contrôle total sur la façon dont leur contenu est utilisé. Ils ne devraient pas avoir à combattre une bataille contre les bots qui essaient activement de faire le tour de leurs règles. Nous nous tenons avec l'idée que le contenu est un atout, et ses créateurs devraient être autorisés à décider qui peut y accéder et dans quel but. Il s'agit d'assurer un écosystème numérique juste et respectueux pour tout le monde.
