Apple a réfuté les allégations selon lesquelles les sous-titres de YouTube seraient récupérés pour entraîner son « intelligence artificielle ». Cependant, le fabricant de l'iPhone n'a pas catégoriquement affirmé que les transcriptions YouTube ne faisaient pas partie de son intelligence artificielle générative (Gen AI).
Apple s'est appuyé sur OpenELM Data, et non sur EleutherAI, pour entraîner son IA
Selon une enquête menée par Preuve d'actualitéplusieurs grandes entreprises ont utilisé des transcriptions de vidéos YouTube pour entraîner leurs moteurs d'IA. Les observations et les affirmations ont été publiées conjointement avec Wired.
L'enquête a révélé qu'Apple, Anthropic, Nvidia et Salesforce faisaient partie des nombreuses entreprises technologiques qui utilisaient des sous-titres ou des transcriptions de vidéos YouTube en plusieurs langues. Techniquement parlant, le rapport affirme que ces entreprises s'appuyaient sur un vaste ensemble de données de l'association à but non lucratif EleutherAI appelé The Pile, qui, à son tour, contient des sous-titres YouTube.
Selon le rapport, 173 536 vidéos YouTube provenant de plus de 48 000 chaînes YouTube faisaient partie de l'ensemble de données. Apple a désormais expliqué comment il utilisait le contenu d'OpenELM pour entraîner son IA.
Apple Intelligence ne propose pas de sous-titres YouTube comme matériel de formation ?
Il est intéressant de noter qu'Apple n'a pas spécifiquement nié qu'Apple Intelligence contienne des données de sous-titres YouTube. Au lieu de cela, la société aurait affirmé qu'elle respectait les droits des créateurs et des éditeurs. En outre, la société a mentionné qu'elle offrait aux sites Web la possibilité de refuser que leurs données soient utilisées pour former Apple Intelligence.
Il semble qu'Apple suggère qu'elle s'est appuyée sur OpenELM, et non sur l'ensemble de données d'EleutherAI, pour créer Apple Intelligence. Cependant, dans un article de recherche sur OpenELM (PDF), les chercheurs ont admis qu'ils l'avaient formé sur les données de Pile.
Apple affirme que son modèle OpenELM ne fait pas fonctionner Apple Intelligence au milieu de la controverse autour de YouTube #Langage réceptif #Vocabulaire #Rimute #En chantant #Parlant [Video]https://t.co/NixVnMzOSy
– Marta Fernández (@MartaFGNN) 18 juillet 2024
Apple a souligné qu'elle formait ses modèles d'IA « en utilisant des données de haute qualité qui incluent des données sous licence d'éditeurs, des images de stock et certaines données accessibles au public sur le Web ». Cependant, les ensembles de données d'OpenELM sont destinés uniquement à des fins de recherche, a affirmé l'entreprise.
Apple a également déclaré qu'OpenELM n'était pas utilisé pour alimenter les fonctionnalités d'IA dans les appareils Apple. De plus, la société a laissé entendre qu'elle n'avait pas l'intention de créer de futures versions du modèle.
Apple a obtenu des données pour son IA auprès de plusieurs entreprises
L'un d'eux a récupéré des tonnes de données/transcriptions de vidéos YouTube, y compris la mienne
Apple évite techniquement la « faute » ici car ce ne sont pas eux qui grattent
Mais cela va être un problème en évolution pendant longtemps https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) 16 juillet 2024
Les sous-titres des vidéos YouTube ne sont pas destinés à être une ressource publique, même s'ils sont disponibles dans le domaine public. YouTube a déclaré que l'utilisation du contenu vidéo de la plateforme pour entraîner l'IA (y compris les transcriptions) violerait les conditions de la plateforme.
Certains rapports suggèrent qu’Apple pourrait tenter de se protéger des ennuis juridiques en s’appuyant sur des ensembles de données tiers pour entraîner son moteur d’IA. Cependant, à moins que YouTube ou sa société mère n’analysent minutieusement les ensembles de données, il serait difficile de tirer une conclusion décisive.
