Selon un nouveau rapport, les entreprises d'intelligence artificielle générative (Gen AI) ont récupéré des transcriptions de vidéos YouTube pour entraîner leurs moteurs. Plusieurs YouTubeurs populaires tels que MrBeast et Marques Brownlee ont exprimé leurs inquiétudes, affirmant que leur contenu faisait partie d'énormes ensembles de données.
Une enquête révèle que les sous-titres de plus de 170 000 vidéos YouTube ont été piratés
Selon un enquête par Preuve d'actualitéplusieurs grandes entreprises ont nettoyé les vidéos YouTube pour entraîner leurs moteurs d'IA. Les observations et les affirmations ont été publiées conjointement avec Wired.
L’enquête révèle que Apple, Anthropic, Nvidia et Salesforce font partie des entreprises technologiques qui ont utilisé les « sous-titres YouTube ». Plus précisément, ces entreprises ont collectivement copié les sous-titres de 173 536 vidéos YouTube.
Au total, plus de 48 000 chaînes YouTube ont été utilisées par ces entreprises pour créer leurs ensembles de données d'IA et entraîner leurs moteurs d'IA, selon le rapport. Des YouTubeurs comme MrBeast (289 millions d'abonnés), MKBHD (19 millions d'abonnés), PewDiePie (111 millions d'abonnés) et plusieurs autres ont leur contenu dans les ensembles de données.
Apple a obtenu des données pour son IA auprès de plusieurs entreprises
L'un d'eux a récupéré des tonnes de données/transcriptions de vidéos YouTube, y compris la mienne
Apple évite techniquement la « faute » ici car ce ne sont pas eux qui grattent
Mais cela va être un problème en évolution pendant longtemps https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) 16 juillet 2024
Outre les YouTubeurs, des vidéos provenant de médias d'information comme ABC Newsle BBCet Le New York Times font partie de l'ensemble de données. En termes simples, plusieurs géants de la technologie ont intégré des sous-titres YouTube dans leurs moteurs d'IA.
Outil permettant de confirmer que les entreprises d'IA ont utilisé les données YouTube publiées en ligne
Selon Le bordl'ensemble de données de sous-titres vidéo YouTube fait partie d'une collection plus vaste de matériel. Techniquement parlant, la majorité des entreprises utilisant les données YouTube se sont appuyées sur l'ensemble de données de l'association à but non lucratif EleutherAI appelé The Pile. Il s'agit d'une collection open source qui contient également des ensembles de données de livres, d'articles Wikipédia et de contenu disponible dans le domaine public.
Pour prouver que les entreprises d'IA utilisent YouTube pour créer leurs ensembles de données et entraîner leurs moteurs, Preuve d'actualité a également publié un outil de recherche interactif. N'importe quel YouTuber, ou même le grand public, peut vérifier les données.
« C'est du vol », a déclaré Dave Wiskus, PDG de Nebula, un service de streaming partiellement détenu par ses créateurs, dont certains ont vu leur travail récupéré sur YouTube pour entraîner l'IA. » https://t.co/X34e3LuODW
— L'Institut de recherche sur l'IA distribuée est sur Mastodon (@DAIRInstitute) 16 juillet 2024
Outre la question évidente de la rémunération des YouTubeurs pour leur contenu, ces entreprises sont également confrontées à des problèmes juridiques. YouTube affirme que l'utilisation de son contenu vidéo pour entraîner l'IA, y compris les transcriptions, violerait les conditions d'utilisation de la plateforme.
YouTube n'a apparemment pas réagi à cette information. Il est toutefois fort probable que sa maison mère Google prenne des mesures pour protéger la plateforme de partage de vidéos et ses créateurs de contenu.
Jusqu’à présent, les ensembles de données semblent contenir des données en texte brut. En d’autres termes, les entreprises d’IA pourraient n’utiliser que des transcriptions ou des sous-titres de vidéos, et non des vidéos, pour entraîner leurs moteurs. Incidemment, les données en texte brut contiennent également des traductions en direct des vidéos en japonais, en allemand et en arabe.
Google a déjà admis avoir supprimé certaines vidéos YouTube pour entraîner ses moteurs d’IA. Cependant, le géant de la recherche a assuré avoir conclu des accords appropriés avec les YouTubeurs. Il va sans dire qu’EleutherAI n’a peut-être pas conclu d’accord de ce type avec chacun des YouTubeurs dont les vidéos font désormais partie des ensembles de données utilisés par les géants de la technologie pour entraîner leur IA.
