Nous avons épuisé les données disponibles pour la formation en IA, déclare Elon Musk

Il n’y a pas si longtemps que l’intelligence artificielle a envahi l’industrie technologique. ChatGPT a déclenché une révolution qui a apporté d’énormes progrès en quelques années seulement. Pendant cette période, les entreprises axées sur l’IA ont utilisé des données accessibles au public pour entraîner leurs modèles. Cependant, certaines personnalités du domaine, comme Elon Musk, estiment que l’industrie a épuisé toutes les données disponibles pour la formation à l’IA.

Elon Musk et d'autres experts affirment que l'industrie a épuisé les données de formation en IA

La formation de modèles d’IA complexes nécessite d’énormes quantités de données. Beaucoup pourraient penser qu’il faudrait beaucoup de temps aux entreprises pour utiliser toutes les données disponibles dans le monde. Cependant, les experts affirment que le moment est proche. Ilya Sutskever, ancien scientifique en chef d'OpenAI, a participé à la conférence NeurIPS axée sur l'apprentissage automatique en décembre. Lors de l'événement, Sutskever a déclaré que l'industrie de l'IA avait déjà atteint le soi-disant «données de pointe.»

Cela signifie que, selon le scientifique, nous avons pratiquement atteint le sommet en termes d'utilisation des données pour entraîner l'IA. Il reste très peu de données inutilisées, ce qui obligera à un changement de paradigme dans le développement des modèles d’IA. Dans le même ordre d’idées, lors d’une conversation en direct avec le président de Stagwell, Mark Penn, Elon Musk a déclaré : «nous avons désormais pratiquement épuisé la somme cumulée des connaissances humaines… dans la formation en IA.»

Musk possède xAI, la division de X (FKA Twitter) axée sur le développement de l'IA. Grok, un chatbot et générateur d'images alimenté par l'IA intégré à X, est le produit le plus populaire de l'entreprise. Musk affirme que, sur la base de son expérience dans le domaine de l’IA, l’industrie a atteint le «données de pointe» mentionné par Sutskever «en gros l'année dernière.»

Utiliser des données synthétiques pourrait être la solution, mais avec des nuances

Cela dit, il existe un moyen d’obtenir de nouvelles données pour la formation en IA. Depuis un certain temps déjà, certaines grandes entreprises d’IA utilisent des données synthétiques dans le cadre de la formation de leurs propres modèles. Les données synthétiques sont essentiellement des données générées par d’autres modèles d’IA. « La seule façon de compléter [real-world data] c'est avec des données synthétiques, où l'IA crée [training data]», Musk a dit. « Avec des données synthétiques… [AI] va en quelque sorte se noter lui-même et passer par ce processus d'auto-apprentissage», a-t-il ajouté.

Le cabinet de recherche et de conseil Gartner estime que d’ici 2024, 60 % des données utilisées pour les développements basés sur l’IA seraient synthétiques. La liste comprend des projets comme Phi-4 de Microsoft, Gemma de Google, Claude 3.5 de Sonnet et même Llama de Meta.

Cela dit, les développeurs doivent être prudents lorsqu’ils utilisent ce type de données à grande échelle. Un déploiement excessif de données synthétiques peut entraîner une augmentation des biais, ce qui réduit la créativité du modèle. Cela peut affecter la qualité du résultat d’une plateforme d’IA. D’un autre côté, l’utilisation de données synthétiques permet de réaliser d’énormes économies.