Google défend l'utilisation de contenu Web gratuit pour la formation en IA

Depuis le tout début du boom de l’IA, un débat a été omniprésent : la propriété du contenu. Pour développer leurs services, les sociétés d’IA utilisent des quantités massives de données disponibles sur Internet. Cependant, de nombreux éditeurs estiment avoir été injustement désavantagés en ne recevant pas de compensation équitable. Dans un nouveau développement, il y a une controverse concernant la position de Google sur le paiement de la formation en IA, car elle a été examinée lors d’une audition avec le Lords Communications and Digital Committee du Royaume-Uni.

Roxanne Carter, responsable des affaires publiques chez Google, a précisé que l’entreprise ne pensait pas qu’elle devrait payer pour du contenu « disponible gratuitement » utilisé pour entraîner ses modèles d’IA.

Google défend sa position de ne pas payer les éditeurs pour la formation à l’IA sur les données publiques

Le cas de Google repose sur une définition spécifique du fonctionnement de l’IA. Carter dit que les modèles d’IA comme Gemini ne sont pas des bases de données ou des systèmes permettant de trouver des informations. Au lieu de cela, ils examinent d’énormes quantités de données pour trouver des liens et des modèles statistiques entre les idées et les mots. Google affirme que l’objectif final est d’utiliser ces modèles pour créer un « contenu entièrement nouveau ». Ils affirment que leur IA ne se contente pas de copier ce que les éditeurs ou les créateurs ont fait.

Google ne paiera pas pour la formation sur le Web ouvert, mais fait la distinction entre le web scraping général et l’accès spécialisé. La société conclut activement des accords pour du contenu d’archives et des ensembles de données spécialisés qui ne sont pas accessibles au public. En bref, l’entreprise est prête à payer pour « accéder » à des données qui ne se trouvent pas sur sa propre plateforme. Mais ils ne le font pas pour former l’IA sur ce qu’ils considèrent comme le domaine public d’Internet.

Aperçus de l’IA de Google : le dilemme de la désinscription

Pour les éditeurs, la situation est plus complexe. Google met en avant un outil appelé « Google Extended », qui permet aux propriétaires de sites Web de rester dans la recherche Google tout en refusant que leur contenu soit utilisé pour former des modèles d’IA comme Gemini. Cela semble être un compromis équitable sur le papier. Mais une zone grise importante demeure concernant les « aperçus de l’IA », les résumés qui apparaissent tout en haut des résultats de recherche.

Lorsqu’on leur a demandé si les éditeurs pouvaient se désinscrire des aperçus de l’IA en particulier, les représentants de Google sont restés vagues. L’utilisation de certaines balises spécifiques semble être un moyen de ne pas apparaître dans ces résumés pour le moment. Malheureusement, l’ajout de ces balises pourrait également rendre plus difficile la recherche d’un site dans les résultats de recherche réguliers. Cela met les petits éditeurs dans une situation difficile : ils peuvent soit laisser l’IA résumer leur travail (ce qui pourrait réduire le nombre de clics directs), soit risquer de perdre complètement leur classement dans les recherches.

Les petits acteurs pourraient être les plus touchés

Les responsables gouvernementaux craignent que les grandes entreprises médiatiques puissent conclure des accords lucratifs avec les géants de la technologie, mais les petites entreprises sont souvent laissées pour compte. Les gens craignent que les résumés de l’IA puissent rivaliser avec les articles qu’ils résument. Cela signifie que les résumés d’IA peuvent utiliser le propre travail du créateur pour maintenir les gens sur la page de recherche au lieu de les envoyer vers la source d’origine.

Les organismes de réglementation continuent de se consulter sur ces questions. Pendant ce temps, la définition du « fair use » à l’ère de l’IA reste la question ultime. Pour l’instant, Google maintient l’idée ferme que le Web ouvert est une salle de classe gratuite pour son IA, même si les créateurs de ce contenu affirment que leurs informations « gratuites » sont ce qui rend l’IA précieuse en premier lieu.