Le nouveau crawler de Meta pourrait récupérer votre page, même si vous ne le souhaitez pas

Meta a émergé du métaverse pour devenir un acteur majeur dans le domaine de l'IA. À ce titre, l'entreprise dispose de sa propre équipe de robots d'exploration Web qui récupèrent les pages qui n'ont pas le protocole Robots.txt. Ou, du moins, c'est ce que nous pensions. Selon certains nouveaux rapports, il semblerait que les nouveaux robots d'exploration de Meta n'aient peur d'aucun robot, car ils ont contourné ce protocole.

Les grandes entreprises utilisent depuis des années des robots d’exploration Web pour explorer et extraire des données de sites Web sur Internet. Cependant, les gens ont clairement fait savoir qu’ils ne veulent pas que les entreprises extraient leurs données sans leur consentement. Bien entendu, les entreprises obéissent toutes à nos souhaits et évitent d’extraire des données de sites Web sans le fichier Robots.txt… n’est-ce pas ?

Il s'agit de grandes entreprises. De toute évidence, elles ont trouvé des moyens de cracher au visage des personnes qui leur font confiance. Des sociétés comme Perplexity, OpenAI et Anthropic AI ont toutes trouvé des moyens de récupérer les sites contenant le fichier Robots.txt.

Qu'est-ce que Robots.txt ?

Si vous ne savez pas ce qu'est ce fichier, Robots.txt est un morceau de code qui empêche les robots d'indexation de récupérer les données d'un site. Il est en service depuis la fin des années 90, il trouve donc ses origines dans l'essor des moteurs de recherche. Le consensus était que, si vous aviez le fichier sur votre site, vous seriez à l'abri des robots d'indexation de toutes sortes. Nous sommes sûrs qu'au cours des 30 dernières années, une entreprise a trouvé un moyen de le contourner. Peut-être que cela n'aurait pas fait la une des journaux il y a quelques années, mais les choses ont changé depuis l'essor de l'IA.

Maintenant que nous savons comment les entreprises obtiennent des données pour alimenter leurs modèles d’IA, toute entreprise qui contourne Robots.txt est regardée d’un œil froid. Et c’est normal. Certaines personnes veulent simplement éviter que leurs données soient récupérées. Savoir que les entreprises ignorent ouvertement leurs souhaits est une véritable gifle.

Les nouveaux robots d'exploration de Meta pourraient ignorer le fichier Robots.txt

Si vous pensez que Meta est un ange parfait en matière d'acquisition de données, vous vous trompez. Parmi les autres entreprises qui contournent le fichier, un nouveau rapport pointe du doigt un duo de crawlers qui pourraient également éviter le robot pour entraîner son chatbot.

Comme l'a découvert Originality.AI, Meta a lancé deux nouveaux robots d'exploration en juillet. L'un s'appelle Meta-ExternalFetcher et l'autre Meta-ExternalAgent. La raison pour laquelle Meta a introduit deux robots d'exploration est qu'ils remplissent deux fonctions différentes.

Meta a déclaré que Meta-ExternalAgent est « destiné à des cas d'utilisation tels que la formation de modèles d'IA ou l'amélioration de produits en indexant directement le contenu ». Il s'agit donc d'un outil assez standard à première vue. Il se rendra sur différents sites Web et en extraira les données pour aider à former les modèles Llama de l'entreprise.

Le second ne semble pas extraire directement des informations des sites. Il semble qu'il soit dédié à la récupération de liens Web. Nous ne savons pas exactement à quoi serviront les liens Web, mais le bot semble être principalement destiné à Meta AI Assistant. Celui-ci ne semble pas aussi sournois que le premier.

Se faufiler devant le robot

Bien que le premier exemple ne semble pas vraiment différent, il est remarquable pour plusieurs raisons. Tout d'abord, Meta déclare que Meta-ExternalAgent « peut contourner les règles du fichier robots.txt ». Donc, sur la base de la déclaration de l'entreprise, nous ne pouvons pas affirmer catégoriquement que l'entreprise les contourne, mais il est juste de le supposer. Nous parlons de Meta. Cette entreprise a son lot de démêlés avec la justice concernant la façon dont elle collecte les données des utilisateurs.

Deuxièmement, Business Insider a noté que ce robot d'exploration remplit en réalité deux fonctions. Il explore les sites et les indexe. C'est assez étrange, car la plupart des robots d'exploration effectuent une seule tâche. Aussi étrange que cela puisse paraître, il pourrait s'agir d'une tactique visant à effrayer les sites afin qu'ils laissent entrer le robot d'exploration de Meta.

Si vous souhaitez qu'un moteur de recherche fasse apparaître votre site Web lorsque quelqu'un effectue une recherche pertinente, vous devez alors lui demander d'indexer votre site. Ainsi, si vous souhaitez que votre site apparaisse lorsque quelqu'un effectue une recherche sur une plateforme Meta, vous devez l'indexer.

En apparence, lancer un robot d'exploration qui à la fois récupère et indexe votre site signifie que, si vous voulez que l'entreprise indexe votre site, vous devez également lui permettre de récupérer des données. Du moins, c'est ce qu'il semble. Si c'est vrai, alors c'est un nouveau creux pour Meta.

Ce que Meta a à dire

Un porte-parole de Meta a pris contact et a parlé des allégations formulées contre l'entreprise. Ils ont déclaré que l'entreprise emploie plusieurs robots d'exploration afin de «pour permettre aux éditeurs d'indiquer plus facilement leurs préférences.”

Le porte-parole a également contacté Business Insider par courrier électronique pour déclarer : «Comme d’autres entreprises, nous formons nos modèles d’IA génératifs sur du contenu accessible au public en ligneont-ils continué «Nous reconnaissons que certains éditeurs et propriétaires de domaines Web souhaitent des options en ce qui concerne leurs sites Web et l'IA générative.”

Enfin, le porte-parole a déclaré que la société a lancé plusieurs robots d'exploration pour éviter «regrouper tous les cas d'utilisation sous un seul agent, offrant plus de flexibilité aux éditeurs Web.«

Cela nous amène simplement à nous demander pourquoi le crawler Meta-ExternalAgent indexe et récupère à la fois. Dans tous les cas, si vous vous inquiétez de ces nouveaux crawlers, Meta a fourni quelques informations sur la façon de les éviter.

Nous avons besoin d’une nouvelle façon d’empêcher les entreprises de récupérer des données

Cela met en lumière un problème majeur dans l'ensemble du secteur technologique. De nombreux propriétaires de sites ont entendu parler de Robots.txt l'année dernière, lorsque nous avons appris comment les entreprises acquéraient des données. Ils ont donc activé le fichier et ont dormi sur leurs deux oreilles cette nuit-là, sachant que leur site était à l'abri du scraping. Cependant, nous avons commencé à recevoir des histoires sur la façon dont les entreprises le contournaient. Rien n'est-il sacré ?

Le fait est que nous avons besoin de quelque chose de nouveau pour empêcher les robots d'accéder aux données de nos sites. Robots.txt a été utile, mais il a plus de 20 ans. Nous ne devrions pas faire confiance à une méthode qui existe depuis bien avant l'iPod original. Des entreprises ont déjà trouvé un moyen de le contourner. Mais elle n'est plus vraiment utile. Si de grandes entreprises comme OpenAI l'ont déjà évité, alors cela ne sert pas à grand-chose, à part un placebo.

Il faut mettre en place un meilleur système pour bloquer les robots d'indexation. De plus, nous avons besoin de l'aide du gouvernement pour obliger les entreprises à ne pas le contourner. À ce stade, puisque les entreprises peuvent tout simplement contourner le fichier .TXT, les grandes entreprises sont pratiquement soumises au système d'honneur. Voilà une idée qui vous empêchera de dormir.

Espérons qu'un nouveau système verra le jour le plus tôt possible, à condition qu'il ne soit pas trop tard.